Sie sind auf Seite 1von 607

Kohlhammer Standards Psychologie

Begründet von
Theo W. Herrmann (†)
Werner H. Tack
Franz E. Weinert (†)

Herausgegeben von
Marcus Hasselhorn
Herbert Heuer
Silvia Schneider
Heinz Walter Krohne
Michael Hock

Psychologische Diagnostik

Grundlagen und Anwendungsfelder

2., überarbeitete und


erweiterte Auflage

Verlag W. Kohlhammer
Dieses Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwendung außerhalb
der engen Grenzen des Urheberrechts ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt
insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und für die Einspeicherung und
Verarbeitung in elektronischen Systemen.
Die Wiedergabe von Warenbezeichnungen, Handelsnamen oder sonstigen Kennzeichen in diesem Buch
berechtigt nicht zu der Annahme, dass diese von jedermann frei benutzt werden dürfen. Vielmehr kann es
sich auch dann um eingetragene Warenzeichen oder sonstige gesetzlich geschützte Kennzeichen handeln,
wenn sie nicht eigens als solche gekennzeichnet sind.
Es konnten nicht alle Rechtsinhaber von Abbildungen ermittelt werden. Sollte dem Verlag gegenüber
der Nachweis der Rechtsinhaberschaft geführt werden, wird das branchenübliche Honorar nachträglich
gezahlt.

2., überarbeitete und erweiterte Auflage 2015

Alle Rechte vorbehalten


© 2007/2015 W. Kohlhammer GmbH Stuttgart
Umschlag: Gestaltungskonzept Peter Horlacher
Gesamtherstellung:
W. Kohlhammer GmbH, Stuttgart

Print:
ISBN 978-3-17-025255-4
E-Book-Formate:
pdf: ISBN 978-3-17-025256-1
epub: ISBN 978-3-17-025257-8
kindle: ISBN 978-3-17-025258-5
Inhaltsverzeichnis

Vorwort und Organisation des Buches XIII

I Allgemeine Grundlagen 1
1 Definition der Psychologischen Diagnostik 3
1.1 Merkmale der Diagnostik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Beziehungen zu anderen Feldern der Psychologie . . . . . . . . . . . . . . . 6
1.3 Objekte und Sachverhalte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Entwicklungslinien des wissenschaftlichen Diagnostizierens 12


2.1 Frühe Überlegungen und praktische Lösungen . . . . . . . . . . . . . . . . . 12
2.2 Die allgemeine Messung psychischer Merkmale . . . . . . . . . . . . . . . . 14
2.3 Galton und die 1. Periode der Diagnostik . . . . . . . . . . . . . . . . . . . . 15
2.4 Die 2. Periode der Diagnostik: Ebbinghaus, Binet . . . . . . . . . . . . . . . 17
2.5 Der Beginn der Persönlichkeitsdiagnostik . . . . . . . . . . . . . . . . . . . 21

II Konstruktion und Überprüfung von Testverfahren 25


3 Merkmale und Gütekriterien psychologischer Tests 27
3.1 Merkmale psychologischer Testverfahren . . . . . . . . . . . . . . . . . . . 28
3.1.1 Definition von Tests . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1.2 Aktuelles Verhalten und Persönlichkeitsmerkmale . . . . . . . . . . 31
3.1.3 Typisches und „maximales“ Verhalten . . . . . . . . . . . . . . . . . 34
3.1.4 Illustrative Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.5 Testwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Zusammenstellung von Items . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.1 Konstruktdefinition . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.2 Erstellung der Itemmenge . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.3 Itemformulierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.4 Antwortformate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

V
INHALTSVERZEICHNIS

3.3 Itemkennwerte und Testwertverteilung . . . . . . . . . . . . . . . . . . . . . 48


3.3.1 Schwierigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.2 Streuung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3.3 Trennschärfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.3.4 Verteilung der Testwerte . . . . . . . . . . . . . . . . . . . . . . . . 53
3.4 Reliabilität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.4.1 Wahrer Wert und Fehler . . . . . . . . . . . . . . . . . . . . . . . . 55
3.4.2 Reliabilität und Standardfehler der Messung . . . . . . . . . . . . . . 56
3.4.3 Verfahren zur Reliabilitätsbestimmung . . . . . . . . . . . . . . . . . 61
3.4.4 Bewertung der Reliabilität . . . . . . . . . . . . . . . . . . . . . . . 68
3.5 Validität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.5.1 Inhaltsvalidität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.5.2 Kriteriumsvalidität . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.5.3 Konstruktvalidität . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.6 Normen und Bezugssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.6.1 Normorientierte Vergleiche . . . . . . . . . . . . . . . . . . . . . . . 76
3.6.2 Kriteriumsorientierte Vergleiche . . . . . . . . . . . . . . . . . . . . 82
3.6.3 Individuelle und ipsative Vergleiche . . . . . . . . . . . . . . . . . . 83
3.7 Testbewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

4 Modelle psychologischen Testens 86


4.1 Faktorenanalytische Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.1.1 Grundlegende Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.1.2 Ein-Faktor-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.1.3 Mehr-Faktoren-Modelle . . . . . . . . . . . . . . . . . . . . . . . . 103
4.2 Item-Response-Theorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
4.2.1 Probleme linearer Modelle . . . . . . . . . . . . . . . . . . . . . . . 108
4.2.2 Logistische Testmodelle . . . . . . . . . . . . . . . . . . . . . . . . 111
4.2.3 1PL-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
4.2.4 2PL-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.2.5 3PL-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.2.6 Lokale Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.2.7 Parameterschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . 122
4.2.8 Informationsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . 126

III Diagnostische Urteile und Entscheidungen 131


5 Der Prozess der diagnostischen Urteilsbildung 133
5.1 Klinische und statistische Urteilsbildung . . . . . . . . . . . . . . . . . . . . 134

VI
INHALTSVERZEICHNIS

5.1.1 Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134


5.1.2 Statistische Vorhersage . . . . . . . . . . . . . . . . . . . . . . . . . 137
5.1.3 Empirische Befunde . . . . . . . . . . . . . . . . . . . . . . . . . . 140
5.1.4 Kritik und Antikritik . . . . . . . . . . . . . . . . . . . . . . . . . . 145
5.2 Paramorphe Modelle des Diagnostizierens . . . . . . . . . . . . . . . . . . . 147
5.2.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
5.2.2 Erstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
5.2.3 Lineare Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.2.4 Konfigurationsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . 153
5.3 Vorteile expliziter Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
5.4 Nutzung der klinischen Inferenz . . . . . . . . . . . . . . . . . . . . . . . . 158
5.5 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

6 Entscheidungstheoretische Modelle und antwortabhängiges Testen 163


6.1 Ein Rahmenmodell des diagnostischen Entscheidungsprozesses . . . . . . . . 164
6.2 Arten diagnostischer Entscheidungen . . . . . . . . . . . . . . . . . . . . . . 166
6.3 Selektionsentscheidungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
6.3.1 Variablenauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
6.3.2 Variablenkombination . . . . . . . . . . . . . . . . . . . . . . . . . 169
6.3.3 Entscheidungsgüte . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
6.3.4 Entscheidungsnutzen . . . . . . . . . . . . . . . . . . . . . . . . . . 174
6.3.5 Entscheidungen außerhalb der Personalselektion . . . . . . . . . . . 177
6.4 Sequenzielle Strategien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
6.5 Das Bandbreiten-Fidelitätsdilemma . . . . . . . . . . . . . . . . . . . . . . 180
6.6 Aptitude-Treatment-Interaktionen . . . . . . . . . . . . . . . . . . . . . . . 181
6.7 Antwortabhängiges Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
6.7.1 Sequenzielle Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . 185
6.7.2 Adaptive Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 187

7 Handlungstheoretische Modelle 191


7.1 Grundbegriffe der Handlungstheorie . . . . . . . . . . . . . . . . . . . . . . 191
7.2 Eine Handlungstheorie psychologischer Diagnostik . . . . . . . . . . . . . . 192
7.2.1 Ausgangspunkt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
7.2.2 Ein Modell des Arbeitsflusses in der diagnostischen Praxis . . . . . . 193
7.2.3 Implikationen des Modells . . . . . . . . . . . . . . . . . . . . . . . 196
7.2.4 Konkretisierung des Modells . . . . . . . . . . . . . . . . . . . . . . 198
7.2.5 Analyse spezifischer Aspekte des Modells . . . . . . . . . . . . . . . 200
7.2.6 Strategische und taktische Planung . . . . . . . . . . . . . . . . . . . 205
7.2.7 Einzelfallorientierte und institutionelle Diagnostik . . . . . . . . . . 208

VII
INHALTSVERZEICHNIS

7.3 Bewertung des Modells . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209

IV Beschaffung und Integration diagnostischer Daten 213


8 Das Interview 215
8.1 Begriffsbestimmung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
8.2 Der Prozess der Befragung . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
8.3 Strukturiertheitsgrad des Interviews . . . . . . . . . . . . . . . . . . . . . . 219
8.4 Gütekriterien des Interviews . . . . . . . . . . . . . . . . . . . . . . . . . . 220
8.5 Arten von Interviews . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
8.6 Bewertung der Datenerhebungsmethode Interview . . . . . . . . . . . . . . . 223

9 Verfahren zur Beschaffung von L-Daten 226


9.1 Verhaltensbeobachtung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
9.1.1 Einteilungsgesichtspunkte . . . . . . . . . . . . . . . . . . . . . . . 228
9.1.2 Stichprobenplan und Beobachtungssystem . . . . . . . . . . . . . . . 230
9.1.3 Segmentierung des Verhaltensstroms . . . . . . . . . . . . . . . . . 231
9.1.4 Klassifikation des Verhaltens . . . . . . . . . . . . . . . . . . . . . . 233
9.1.5 Ratingverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
9.1.6 Sequenzielle Analysen . . . . . . . . . . . . . . . . . . . . . . . . . 236
9.2 Verhaltensbeurteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
9.2.1 Beobachtung und Beurteilung . . . . . . . . . . . . . . . . . . . . . 240
9.2.2 Formen systematischer Verhaltensbeurteilung . . . . . . . . . . . . . 240
9.3 Gütekriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
9.3.1 Fehlerquellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
9.3.2 Objektivität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
9.3.3 Reliabilität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
9.3.4 Validität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
9.4 Beitrag zu praktisch-diagnostischen Fragen . . . . . . . . . . . . . . . . . . 250

10 Verfahren zur Beschaffung von subjektiven (Q-) Daten 252


10.1 Formaler Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
10.2 Persönlichkeitsinventare . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
10.2.1 Intuitive Fragebogenkonstruktion . . . . . . . . . . . . . . . . . . . 254
10.2.2 Internal-induktive Fragebogenkonstruktion . . . . . . . . . . . . . . 254
10.2.3 Theoriegeleitet-deduktive Fragebogenkonstruktion . . . . . . . . . . 260
10.2.4 External-kriteriumsbezogene Fragebogenkonstruktion . . . . . . . . 263
10.2.5 Kombinierte Konstruktionsstrategien . . . . . . . . . . . . . . . . . 268
10.3 Fragebogen zur Erfassung einzelner Persönlichkeitsmerkmale . . . . . . . . 270

VIII
INHALTSVERZEICHNIS

10.3.1 Kontrollüberzeugung . . . . . . . . . . . . . . . . . . . . . . . . . . 270


10.3.2 Leistungsmotiviertheit . . . . . . . . . . . . . . . . . . . . . . . . . 272
10.3.3 Ärger und Ärgerausdruck . . . . . . . . . . . . . . . . . . . . . . . . 273
10.3.4 Ängstlichkeit und Angstbewältigung . . . . . . . . . . . . . . . . . . 275
10.4 Interessen und Einstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . 285
10.4.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
10.4.2 Die Diagnose von Interessen . . . . . . . . . . . . . . . . . . . . . . 285
10.4.3 Einstellungsmessung . . . . . . . . . . . . . . . . . . . . . . . . . . 288
10.5 Die Erfassung von Zuständen . . . . . . . . . . . . . . . . . . . . . . . . . . 291
10.6 Einflüsse auf das Antwortverhalten bei Selbstberichten . . . . . . . . . . . . 294
10.7 Bewertung subjektiver Verfahren . . . . . . . . . . . . . . . . . . . . . . . . 304

11 Verfahren zur Beschaffung von objektiven (T-) Daten 306


11.1 Definition von T-Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
11.2 Grundlagen objektiver Tests . . . . . . . . . . . . . . . . . . . . . . . . . . 308
11.3 In Gesamtsystemen der Persönlichkeit fundierte objektive Tests . . . . . . . . 308
11.3.1 Cattell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
11.3.2 Eysenck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
11.4 Objektive Tests zu einzelnen Konstrukten . . . . . . . . . . . . . . . . . . . 314
11.4.1 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314
11.4.2 Kognitive Stile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
11.5 Projektive Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325
11.5.1 Definition und Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 325
11.5.2 Einteilungsgesichtspunkte . . . . . . . . . . . . . . . . . . . . . . . 326
11.5.3 Der Rorschach-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
11.5.4 Der Thematische Apperzeptionstest . . . . . . . . . . . . . . . . . . 329
11.5.5 Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
11.6 Kognitiv-experimentelle (implizite) Verfahren . . . . . . . . . . . . . . . . . 334
11.6.1 Verfahren zur Messung spezifischer Prozessmerkmale . . . . . . . . 335
11.6.2 Impliziter Assoziationstest . . . . . . . . . . . . . . . . . . . . . . . 338
11.7 Bewertung objektiver Testverfahren . . . . . . . . . . . . . . . . . . . . . . 342

12 Fähigkeits- und Leistungstests 345


12.1 Leistungsmaßstäbe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
12.2 Einteilung von Fähigkeits- und Leistungstests . . . . . . . . . . . . . . . . . 347
12.3 Grundlagen der Intelligenzdiagnostik . . . . . . . . . . . . . . . . . . . . . . 349
12.3.1 Klassifikation von Fähigkeitsunterschieden . . . . . . . . . . . . . . 349
12.3.2 Faktoren intellektueller Leistungen . . . . . . . . . . . . . . . . . . 352
12.4 Intelligenztests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358

IX
INHALTSVERZEICHNIS

12.4.1 Wechsler-Intelligenztests . . . . . . . . . . . . . . . . . . . . . . . . 358


12.4.2 Adaptives Intelligenz Diagnostikum . . . . . . . . . . . . . . . . . . 362
12.4.3 Berliner Intelligenzstruktur-Test . . . . . . . . . . . . . . . . . . . . 365
12.4.4 Intelligenz-Struktur-Test . . . . . . . . . . . . . . . . . . . . . . . . 368
12.4.5 Nonverbale Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
12.4.6 Interpretation von Intelligenztestwerten . . . . . . . . . . . . . . . . 373
12.4.7 Probleme und Perspektiven . . . . . . . . . . . . . . . . . . . . . . . 375
12.5 Konzentration und Vigilanz . . . . . . . . . . . . . . . . . . . . . . . . . . . 377
12.5.1 Konzentrationstests . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
12.5.2 Vigilanztests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
12.5.3 Interpretation von Aufmerksamkeitsleistungen . . . . . . . . . . . . 381

13 Integration diagnostischer Befunde und Gutachtenerstellung 384


13.1 Definition der diagnostischen Begutachtung . . . . . . . . . . . . . . . . . . 384
13.2 Allgemeine Merkmale der Begutachtung . . . . . . . . . . . . . . . . . . . . 385
13.3 Arten diagnostischer Gutachten . . . . . . . . . . . . . . . . . . . . . . . . . 387
13.4 Aufbau eines psychologischen Gutachtens . . . . . . . . . . . . . . . . . . . 387
13.4.1 Vorüberlegungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387
13.4.2 Die Abschnitte eines Gutachtens . . . . . . . . . . . . . . . . . . . . 388

V Anwendungsfelder der Diagnostik 395


14 Arbeits- und organisationspsychologische Diagnostik 397
14.1 Diagnostische Tätigkeiten in Organisationen . . . . . . . . . . . . . . . . . . 398
14.2 Arbeits- und Anforderungsanalyse . . . . . . . . . . . . . . . . . . . . . . . 398
14.3 Diagnostik bei der Person . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404
14.3.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404
14.3.2 Eigenschaftsorientierte Verfahren . . . . . . . . . . . . . . . . . . . 406
14.3.3 Simulationsorientierte Verfahren . . . . . . . . . . . . . . . . . . . . 419
14.3.4 Das Assessment Center . . . . . . . . . . . . . . . . . . . . . . . . . 424
14.3.5 Biographieorientierte Verfahren . . . . . . . . . . . . . . . . . . . . 431
14.4 Leistungsbeurteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436
14.4.1 Funktionen der Leistungsbeurteilung . . . . . . . . . . . . . . . . . 436
14.4.2 Kriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436
14.4.3 Dimensionen beruflicher Leistung . . . . . . . . . . . . . . . . . . . 438
14.4.4 Quellen und Verfahren der Leistungsbeurteilung . . . . . . . . . . . 438
14.4.5 Beurteilungsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . 440
14.4.6 Ausblick: Formale Systeme der Leistungsbeurteilung . . . . . . . . . 441
14.5 Diagnostik bei der Situation . . . . . . . . . . . . . . . . . . . . . . . . . . 441

X
INHALTSVERZEICHNIS

14.5.1 Diagnostik bei der Arbeitsgruppe . . . . . . . . . . . . . . . . . . . 441


14.5.2 Führungsdiagnostik . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
14.5.3 Diagnostik bei der Organisation . . . . . . . . . . . . . . . . . . . . 454
14.6 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455

15 Klinische und gesundheitspsychologische Diagnostik 458


15.1 Aufgaben der Klinischen Psychologie und der Gesundheitspsychologie . . . 458
15.2 Klinisch-psychologische Diagnostik . . . . . . . . . . . . . . . . . . . . . . 459
15.2.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459
15.2.2 Systematisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
15.2.3 Das klinische Interview . . . . . . . . . . . . . . . . . . . . . . . . . 462
15.2.4 Klinische Diagnostik auf der Basis von L-Daten . . . . . . . . . . . 463
15.2.5 Klinische Diagnostik auf der Basis von Q-Daten . . . . . . . . . . . 467
15.2.6 Klinische Diagnostik auf der Basis von T-Daten . . . . . . . . . . . . 476
15.2.7 Systeme zur Klassifikation psychischer Störungen . . . . . . . . . . 478
15.3 Gesundheitspsychologische Diagnostik . . . . . . . . . . . . . . . . . . . . 486
15.3.1 Fragestellungen der Gesundheitspsychologie . . . . . . . . . . . . . 486
15.3.2 Ziele und Bereiche der gesundheitspsychologischen Diagnostik . . . 487
15.3.3 Evaluation gesundheitspsychologischer Maßnahmen . . . . . . . . . 504

16 Pädagogisch-psychologische und Erziehungsdiagnostik 506


16.1 Diagnostik individueller Merkmale . . . . . . . . . . . . . . . . . . . . . . . 508
16.1.1 Kognitive Lernvoraussetzungen . . . . . . . . . . . . . . . . . . . . 508
16.1.2 Emotionale und motivationale Merkmale . . . . . . . . . . . . . . . 514
16.1.3 Arbeitsverhalten und Lernstrategien . . . . . . . . . . . . . . . . . . 520
16.2 Lernresultate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522
16.2.1 Prüfungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522
16.2.2 Schulleistungstests . . . . . . . . . . . . . . . . . . . . . . . . . . . 523
16.2.3 Erfassung des Erreichens von Lehrzielen . . . . . . . . . . . . . . . 524
16.3 Diagnostik bei der Schullaufbahnberatung . . . . . . . . . . . . . . . . . . . 527
16.3.1 Schuleintritt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 528
16.3.2 Sonderpädagogischer Förderbedarf . . . . . . . . . . . . . . . . . . 529
16.3.3 Übertritt in weiterführende Schulen . . . . . . . . . . . . . . . . . . 530
16.4 Diagnostik von Umwelt- und Systemmerkmalen . . . . . . . . . . . . . . . . 531
16.4.1 Schul- und Klassenklima . . . . . . . . . . . . . . . . . . . . . . . . 531
16.4.2 Lehrerverhalten und Lehrer-Schüler-Interaktion . . . . . . . . . . . . 532
16.4.3 Beziehungen unter den Schülern . . . . . . . . . . . . . . . . . . . . 535
16.5 Familiale Interaktion und Erziehungsverhalten . . . . . . . . . . . . . . . . . 537
16.5.1 Klassifikation des Erziehungsverhaltens . . . . . . . . . . . . . . . . 537

XI
INHALTSVERZEICHNIS

16.5.2 Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 538


16.5.3 Probleme und Perspektiven . . . . . . . . . . . . . . . . . . . . . . . 544

Literaturverzeichnis 547

Index 581

XII
Vorwort und Organisation des Buches

Dieser Band behandelt mit der für ein Lehr- Konstruktion, Auswahl, Darbietung und In-
buch gebotenen Differenziertheit die Konzep- terpretation psychologischer Tests. Aber Dia-
te, methodischen Grundlagen, Vorgehenswei- gnostik beschränkt sich nicht auf diesen Be-
sen und Materialien der Psychologischen Dia- reich. Auch Fragen der Planung und Durchfüh-
gnostik. Wie in jedem anwendungsorientierten rung einer Untersuchung, der Gewinnung dia-
Text liegt der Schwerpunkt auf den Methoden gnostischer Information ohne die Darbietung
und Verfahren. Die Theorien des Diagnostizie- von Tests (z. B. über Interviews, Verhaltens-
rens sowie die Konzepte, die mit psychologi- beobachtung und -beurteilung oder die Aus-
scher Diagnostik verbunden sind, werden aber wertung biographischer Daten) sowie der In-
ebenfalls eingehend behandelt. tegration dieser Informationen in Form eines
Gutachtens sind für diese Personen wichtig
und werden entsprechend in diesem Buch aus-
führlich behandelt.
Leserkreis
Die zweite Gruppe umfasst viele Berufe: Er-
zieher und Ärzte müssen sich häufig mit psy-
Das Buch wendet sich an Studierende der Psy- chologischen Befunden befassen und diese an-
chologie sowie der Nachbardisziplinen, ins- gemessen bewerten können. Vor Gericht spie-
besondere der Erziehungs-, Sozial- und Wirt- len die Ergebnisse psychologischer Untersu-
schaftswissenschaften. Bei der Konzeption chungen bei der Anklage, Verteidigung und
der Inhalte war für uns ausschlaggebend, al- schließlich Urteilsfindung eine zunehmend be-
le grundlegenden Themen der Diagnostik zu deutsame Rolle. Dementsprechend müssen die
behandeln, die für Bachelor- und Masterstu- Verfahrensbeteiligten in die Lage versetzt wer-
dierende der Psychologie wichtig sind. den, den Weg nachzuvollziehen, auf dem die
ihnen vorgelegten Befunde zustande gekom-
Darüber hinaus wendet sich das Buch auch an
men sind. In der Wirtschaft schließlich basie-
Personen, die berufsmäßig psychologische Un-
ren immer mehr personen- wie auch arbeits-
tersuchungen durchführen, und an Menschen,
und organisationsbezogene Entscheidungen
die aufgrund ihrer beruflichen Position mit
auch auf den Ergebnissen psychologisch-
den Ergebnissen derartiger Untersuchungen
diagnostischer Untersuchungen.
befasst sind. Schließlich ist dieses Buch auch
für alle diejenigen geschrieben, die allgemein
an Fragen der Diagnose menschlicher Eigen- Die dritte Gruppe schließlich besteht aus Men-
schaften, Fähigkeiten sowie Erlebens- und Ver- schen, die erkannt haben, dass die Ergebnis-
haltensweisen interessiert sind. se diagnostischer Untersuchungen ihr eigenes
Leben (z. B. als Bewerber um eine Stelle) wie
Studierende und Personen, die beruflich psy- auch das der sie umgebenden sozialen Institu-
chologische Diagnostik ausüben, interessieren tionen (z. B. Schulen, Kliniken) beeinflussen.
sich natürlich in besonderem Maße für die Sie wollen deshalb in der Lage sein, sich ein

XIII
Vorwort und Organisation

eigenes Urteil zu bilden, wenn etwa in der Öf- (u. a. Ebbinghaus, Binet für die Intelligenzdia-
fentlichkeit Kontroversen ausgetragen werden gnostik; Woodworth für die Persönlichkeits-
über den Einsatz bestimmter diagnostischer diagnostik) bemühten sich um eine möglichst
Methoden, z. B. zur Eignungsfeststellung. praxisnahe Gestaltung des diagnostischen In-
strumentariums.

Psychologische Tests liefern einen wesentli-


Organisation und Überblick
chen Teil der Information, auf die sich die
diagnostische Tätigkeit stützt. Im zweiten Teil
Die hier skizzierten und viele weitere Themen des Buches werden daher die Grundlagen der
werden in diesem Lehrbuch behandelt. Der Konstruktion und Überprüfung von Testver-
Band gliedert sich dabei in fünf Teile, die im fahren erläutert. Dabei beschreiben wir in
Folgenden kurz vorgestellt werden sollen. I Kap. 3 zunächst die wichtigsten allgemei-
nen Eigenschaften sowie die zentralen Gütekri-
Der erste Teil des Buchs befasst sich mit der
terien (Objektivität, Reliabilität und Validität)
Systematik der Psychologischen Diagnostik
psychologischer Tests. Darüber hinaus wer-
und ihrer Entwicklung bis hin zum heutigen
den die wichtigsten Gesichtspunkte für die Zu-
Stand. In I Kap. 1 werden zunächst die Merk-
sammenstellung von Testaufgaben und -fragen
male der Diagnostik beschrieben. Hierbei wer-
(sog. Items), zentrale Begriffe der Item- und
den als erstes diejenigen Aspekte vorgestellt,
Testanalyse sowie Bezugssysteme zur Einord-
die für die traditionelle, in der Differentiel-
nung und Interpretation von Testergebnissen
len Psychologie fundierten, Diagnostik gül-
behandelt. Die Darstellung orientiert sich da-
tig waren. Moderne Diagnostik dient jedoch
bei an Konzepten, die im Rahmen der sog.
zunehmend Zielsetzungen, die sich aus ver-
Klassischen Testtheorie ausgearbeitet wurden,
änderungsbezogenen Interventionen, z. B. im
welche die Grundlage für die Konstruktion der
Rahmen einer Therapie, ergeben. Diese Um-
meisten psychologischen Tests liefert.
orientierung hat auch das Merkmalsprofil der
Diagnostik beeinflusst. Auf der Grundlage die-
In I Kap. 4 werden neuere Ansätze des Tes-
ser veränderten Praxisanforderungen an die
tens beschrieben. Faktorenanalytische Model-
Diagnostik werden deshalb im zweiten Teil
le sind besonders zur Untersuchung der Struk-
des Kapitels die Beziehungen der Diagnostik
tur eines Tests geeignet. Mit ihrer Hilfe las-
zu anderen Feldern der Psychologie herausge-
sen sich z. B. Items in homogene (jeweils ein
arbeitet.
Merkmal erfassende) Gruppen ordnen. Außer-
Das I Kap. 2 skizziert die Entwicklung der dem können sie zur Bestimmung der Messprä-
Diagnostik von ihren Anfängen im Altertum zision eines Verfahrens eingesetzt werden. An-
bis zur Etablierung der modernen Diagnostik schließend skizzieren wir basale Modelle der
in den ersten Jahrzehnten des 20. Jahrhunderts. Item-Response-Theorie. Die Item-Response-
Dabei werden zwei Entwicklungslinien aufge- Theorie stellt gewissermaßen den „state of the
zeigt: Eine erste Linie entstammt den Labors art“ der Testkonstruktion dar. Mit ihrer Hil-
der Experimentalpsychologen. Ihre Vertreter fe ist es möglich, den Zusammenhang zwi-
(u. a. Galton, McKeen Cattell) fassten psy- schen psychologischen Merkmalen und Ant-
chologisches Testen als einen Spezialfall des worten auf die Items eines Tests genauer zu be-
psychologischen Experimentierens auf. Eine schreiben als dies im Rahmen der Klassischen
zweite Linie hatte ihren Ursprung in den An- Testtheorie möglich ist. Die Item-Response-
forderungen der (insbesondere psychiatrisch- Theorie liefert die Grundlage für viele fortge-
en und pädagogischen) Praxis. Ihre Vertreter schrittene diagnostische Methoden, z. B. das

XIV
Vorwort und Organisation

adaptive Testen, bei dem die Auswahl der Auf- Modelle der Urteilsbildung, mit deren Hilfe
gaben an das Fähigkeitsniveau einer Person sich die Beziehung zwischen diagnostischen
angepasst wird. Daten und Entscheidungen in formeller Weise
repräsentieren lässt.
Im dritten Teil wird der Prozess analysiert, in
dem diagnostische Urteile und Entscheidun-
In der nächsten Phase wurde versucht, an-
gen gewonnen werden. Der Urteilsprozess in
stelle der Isolierung von Einzelkomponenten
der Diagnostik lässt sich als eine Leistung be-
allgemeine Modelle der diagnostischen Beur-
schreiben, die aus der Gewinnung von Daten,
teilung zu erarbeiten. Grundlage für derarti-
deren Bewertung im Einzelnen, ihrer Kombi-
ge Modelle bildeten Ergebnisse der Konflikt-,
nation bzw. Integration sowie einer Entschei-
Entscheidungs- und Problemlöseforschung so-
dung aufgrund der so gewonnenen Ergebnisse
wie handlungstheoretische Vorstellungen. Die-
besteht. Diagnostische Daten sind Informatio-
se Ansätze werden in I Kap. 6 (Entschei-
nen, die mit psychologischen Untersuchungs-
dungstheorie) und I Kap. 7 (Handlungstheo-
methoden über Personen, Gruppen oder Orga-
rie) dargestellt.
nisationen sowie Situationen gewonnen wer-
den. Diese Informationen müssen derart be-
Im vierten Teil wird ein Überblick über ver-
wertet werden, dass eine zusammenhängende
schiedene Ansätze und Verfahren zur Beschaf-
Aussage, also ein Urteil möglich ist. Auf des-
fung diagnostischer Information gegeben. In
sen Grundlage werden dann Entscheidungen
I Kap. 8 wird das Interview besprochen, bei
getroffen. Dies kann sowohl zum Zwecke der
dem eine Vielzahl von Daten, wenn auch häu-
psychologischen Beratung und Behandlung
fig in nicht sehr standardisierter Form, aus un-
im Einzelfall geschehen, etwa bei der Indika-
terschiedlichen Quellen (Selbstauskünfte, Ver-
tionsstellung und der Evaluation im Rahmen
haltensbeobachtung) gewonnen werden. Die
modifikatorischer Interventionen, als auch im
weiteren Methoden werden nach den beiden
Rahmen institutioneller Entscheidungen, z. B.
großen Klassen der Verfahren zur Erfassung
bei der Personalauslese.
typischen Verhaltens bzw. zur Messung maxi-
Die Folgen diagnostischer Entscheidungen maler Leistung differenziert. Dabei wird bei
sind für betroffene Personen wie auch Insti- der Erfassung typischen Verhaltens noch ein-
tutionen oft sehr schwerwiegend. Deshalb ist mal nach Verfahren zur Erhebung von Beob-
es wichtig, sich mit den Variablen, die einen achtungsdaten, Selbstauskünften und objekti-
Einfluss auf den diagnostischen Prozess besit- ven Testdaten unterschieden.
zen, sowie mit dem Ablauf dieses Prozesses
zu befassen. Das Interesse diagnostischer For- In I Kap. 9 werden Verfahren zur Beschaf-
schung war zunächst auf Qualitätsmerkmale fung sog. L-Daten (life record data) vorgestellt.
diagnostischer Urteile gerichtet, also auf die Im Zentrum stehen hier die Methoden der Ver-
Aspekte Richtigkeit bzw. Genauigkeit einer haltensbeobachtung und -beurteilung. Diese
Diagnose oder Prognose. Ein Beispiel hierfür Methoden besitzen nicht nur erhebliche Re-
ist die Kontroverse über die Frage, ob sog. „kli- levanz für die Forschung, sondern werden in
nische“ oder „statistische“ Urteile bessere Vor- zunehmendem Maße auch von der psycholo-
hersagen liefern. In I Kap. 5 werden Überle- gischen Praxis (speziell der Klinischen, Schul-
gungen und Argumente aus dieser Kontroverse und Organisationspsychologie) als wichtige
dargestellt. Im Zentrum stehen hier zwei Arten Quellen der Gewinnung diagnostischer Infor-
der Datenkombination, die bei professionellen mation angesehen. Der Schwerpunkt der Dar-
Diagnosen benutzt werden. Diese Kontrover- stellung liegt dabei auf der systematischen Ver-
se führte u. a. zur Formulierung paramorpher haltensbeobachtung, deren Systeme und Me-

XV
Vorwort und Organisation

thoden der Quantifizierung beschrieben wer- Im fünften Teil werden die wesentlichen An-
den. wendungsfelder der psychologischen Diagnos-
tik vorgestellt. Diese Übersicht konzentriert
I Kap. 10 stellt die verschiedenen Tests zur sich auf die Felder der arbeits- und organisati-
Erfassung von Q-Daten (questionnaire data) onspsychologischen Diagnostik einerseits und
vor. Im Zentrum dieses Zugangs zur Erhe- der klinischen, gesundheitspsychologischen
bung subjektiver diagnostischer Information sowie pädagogisch-psychologischen Diagnos-
steht der Fragebogen. Nach einer Übersicht tik andererseits. Diese Differenzierung folgt
über unterschiedliche Konstruktionsprinzipien der Überlegung, dass die Diagnostik inner-
werden Fragebogen zur Messung von Persön- halb der Arbeitswelt stärker als etwa eine kli-
lichkeitsmerkmalen, Interessen, Einstellungen nisch-psychologische Diagnostik die Aspekte
und Zuständen beschrieben. Ausführlich wird des Kontextes, also des Arbeitsplatzes und der
abschließend über mögliche verzerrende Ein- Organisation, bei der Datenerhebung mit zu
flüsse auf das Antwortverhalten bei Selbstbe- berücksichtigen hat. Ausgeklammert bleiben
richten eingegangen. enger umschriebene Felder der Diagnostik wie
etwa die forensische oder die verkehrspsycho-
Die Verfahren zur Erfassung von T-Daten
logische Diagnostik.
(test data) bilden eine sehr heterogene Gruppe.
I Kap. 11 stellt zunächst die klassischen ob- Gegenstand der in I Kap. 14 behandelten
jektiven Testbatterien dar. Anschließend wer- arbeits- und organisationspsychologischen
den Tests zur Erfassung verschiedener kogniti- Diagnostik ist das Erleben und Verhalten von
ver Stile, projektive Verfahren sowie neuere – Menschen in Arbeit, Beruf und Organisation.
auf kognitiv-experimentellen Paradigmen ba- Charakteristisch für dieses Feld der Diagnostik
sierende – Ansätze besprochen. Während da- ist die Verschränkung von diagnoserelevanten
bei die projektiven Verfahren hinsichtlich ih- Merkmalen der Situation und korrespondieren-
rer Brauchbarkeit für praktisch-diagnostische den Eigenschaften der Person. Diesen unter-
Zwecke eher als unzulänglich eingeordnet wer- schiedlichen Perspektiven folgend beginnt das
den, wird in neueren sog. „impliziten“ Ansät- Kapitel mit der Analyse von Anforderungen,
zen (etwa dem Impliziten Assoziationstest) ei- die durch Arbeitsaufgabe und Arbeitsplatz an
ne vielversprechende Ergänzung zur Erhebung Personen gestellt werden. Darauf folgt eine
von Merkmalen über Selbstberichte gesehen. Darstellung der Methoden für die Diagnostik
bei der Person. Im Zentrum steht dabei die
Thema von I Kap. 12 ist die Fähigkeits- und Eignungsdiagnostik für Zwecke der Personal-
Leistungsdiagnostik. Hier werden nicht nur auswahl. Hieran schließt sich die Beurteilung
der derzeitige Entwicklungsstand der „klas- der Leistungen an, die Mitarbeiter in den Or-
sischen“ Intelligenztests dokumentiert, son- ganisationen erbracht haben. Nach der Einzel-
dern auch Neuentwicklungen wie das Adapti- person werden größere Einheiten hinsichtlich
ve Intelligenz Diagnostikum oder der Berliner ihrer diagnostischen Möglichkeiten betrachtet:
Intelligenzstruktur-Test vorgestellt. Ein weite- die Arbeitsgruppe, die Führung und – als um-
rer Schwerpunkt der Darstellung liegt auf der fassendste Einheit – die Organisation selbst.
Messung der Konzentrationsleistung.
I Kap. 15 beschreibt Ansätze und Verfahren
Das diesen Teil abschließende I Kap. 13 be- im Rahmen der klinischen und der gesund-
schreibt, über welche Schritte und nach wel- heitspsychologischen Diagnostik. Klinisch-
chen Regeln die mit Hilfe diagnostischer Ver- psychologische Diagnostik hat dabei die fol-
fahren erhobenen Daten zu einem Gutachten genden Aufgaben: Sie beschreibt psychische
integriert werden. Störungen qualitativ und quantitativ, ordnet

XVI
Vorwort und Organisation

sie ggf. zum Zweck der Indikation bestimmten Statistische Kennwerte. In den Kapiteln 3 und
Klassen zu, klärt ihre Entstehungsgeschichte 4, in denen Grundlagen der Testtheorie be-
und die Bedingungen ihres aktuellen Auftre- handelt werden, benutzen wir für statistische
tens, gibt Empfehlungen für den Therapiever- Kennwerte eine ausführliche Notation, schrei-
lauf, begleitet diesen und liefert schließlichben also z. B. Kor(X,Y ) für die Korrelatio-
Information über den Behandlungserfolg. nen zweier Variablen X und Y . Wir denken,
dass dies die Darstellung leichter nachvollzieh-
Im Zentrum gesundheitspsychologischer Dia-
bar macht. Die folgende Aufstellung zeigt die
gnostik stehen demgegenüber Persönlichkeits-
wichtigsten Abkürzungen und gängige Alter-
merkmale, Kognitionen und Verhaltensweisen,
nativen.
die sich auf den physischen Gesundheitsstatus
bzw. körperliche Erkrankungen beziehen. Dia- Erwartungswert: Erw(X), MX
gnostisch interessieren hier etwa Kognitionen Varianz: Var(X), s2X
über Gesundheit und Krankheit, Lebensstile, Standardabweichung: Std(X), SD , s
X X
Gesundheitspraktiken und Gesundheitsverhal-
Kovarianz: Cov(X,Y ), sXY
ten, relevante Persönlichkeitsmerkmale (z. B.
Typ A), psychische Prozesse während Erkran- Korrelation: Kor(X,Y ), rXY
kung, Erholung und Rehabilitation sowie die Geschlechtsbezogener Sprachgebrauch. Um
Nutzung von Gesundheitsinformationen und den Text einfacher lesbar zu halten, verzichten
-diensten. wir darauf, weibliche und männliche Person-
Im abschließenden I Kap. 16 werden Verfah- bezeichnungen zu benutzen. Statt dessen ver-
ren behandelt, die für pädagogische und er- wenden wir durchgängig die männliche Form,
ziehungspsychologische Fragen relevant sind. die hier generisch gemeint ist.
Wir konzentrieren uns dabei auf die Bereiche
des schulischen Lernens und der familialen Er-
ziehung. Behandelt werden die Diagnostik in- Danksagung
dividueller Merkmale, die für schulisches Ler-
nen bedeutsam sind, die Erfassung von Lern-
Die Autoren haben vielen für ihren Beitrag zur
resultaten sowie die Feststellung von Umwelt-
Fertigstellung des Buches zu danken. Oliver
und Systemmerkmalen (z. B. Beziehungen un-
Daum, Boris Egloff, Johannes Heer, Simone
ter den Schülern). Schließlich werden Metho-
Henn, Volker Hodapp, Carl-Walter Kohlmann,
den zur Beschreibung des Erziehungsverhal-
Lothar Laux, Jan Hendrik Peters, Andrea Retz-
tens und der Beziehungen unter den Mitglie-
bach, Paul Schaffner, Stefan Schmukle, An-
dern einer Familie an Beispielen illustriert.
dreas Schwerdtfeger und Natalie Steinbrecher
haben zu einzelnen Kapiteln kritische Rück-
meldungen und wichtige Anregungen gegeben.
Hinweise zum Lesen des Buches An der technischen Bearbeitung des Textes ha-
ben Sabine Otte und Viktoria Staab wesentlich
Dezimalpunkt. In der psychologischen Litera-
mitgewirkt. Ihnen allen sei an dieser Stelle
tur ist es üblich, für die Kennzeichnung der
herzlich gedankt.
Dezimalstelle einer Zahl einen Punkt (kein
Komma) zu verwenden. Außerdem wird bei
Kennwerten, die nur zwischen −1 und +1 va- Mainz und Bamberg, im Februar 2015
riieren können (z. B. Korrelation), die führen-
de Null häufig weggelassen. Diese Konventio- Heinz Walter Krohne
nen behalten wir hier bei. Michael Hock

XVII
I Allgemeine Grundlagen
1 Definition der Psychologischen Diagnostik

1.1 Merkmale der Diagnostik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3


1.2 Beziehungen zu anderen Feldern der Psychologie . . . . . . . . . . . . . . . 6
1.3 Objekte und Sachverhalte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.1 Merkmale der Diagnostik passenden Schulzweigs zu beraten, gesund-


heitsrelevante Einstellungen einer Person zu
erheben, um evtl. ein Programm zur Modifi-
Psychologische Diagnostik ist eine Methoden- kation ungünstiger Einstellungen einzuleiten,
lehre innerhalb der Psychologie, bildet damit oder zu bestimmen, ob bei einem Klienten
also einen Bereich z. B. mit der Statistik oder eine behandlungsbedürftige Ausprägung von
der Versuchsplanung. Anders als diese beiden Depression vorliegt (I Kap. 13).
Disziplinen stellt sie jedoch primär ein System
von Verfahrensweisen im Dienste der Ange- Diagnostizieren als eine von der alltäglich ab-
wandten Psychologie dar. Neben dieser pri- laufenden Menschenbeurteilung abgehobene
mären Funktion erfüllt Diagnostik aber auch wissenschaftliche Tätigkeit ist Qualitätskrite-
Aufgaben für die Grundlagendisziplinen der rien unterworfen, insbesondere auch dem der
Psychologie, insbesondere die Differentielle Objektivität (I Kap. 3). Diese wissenschaftli-
Psychologie. che Tätigkeit hat sich herausgebildet, als Per-
sonen, die wichtige Entscheidungen hinsicht-
Beim psychologischen Diagnostizieren geht lich anderer Menschen zu treffen hatten, er-
es damit also nicht, wie der psychologische kannten, dass die von der Praxis geforderten
Laie vielleicht meinen könnte, um das Erken- Urteile ohne die Zuhilfenahme diagnostischer
nen des „Wesens“ eines Menschen, sondern Verfahren, also quasi nur mit dem „unbewaff-
um das Erfüllen eines praktischen (und damit neten Blick des Menschenkenners“ (Hörmann,
eingegrenzten Auftrags). Tatsächlich ist Dia- 1964), weder mit der erforderlichen Zuverläs-
gnostizieren nicht primär ein Erkenntnisvor- sigkeit noch mit der notwendigen Differen-
gang (im Alltagsverständnis dieses Begriffs), ziertheit abgegeben werden konnten. Diagnos-
sondern, wie wir noch genauer zeigen wer- tik als Wissenschaft etablierte sich, als man
den (I Kap. 6 und 7), ein Handlungs- und begann, diagnostische Aussagen an der Reali-
Entscheidungsprozess (Hörmann, 1964; Ka- tät zu überprüfen.
minski, 1970). In einen Entscheidungsprozess
mündende Aufträge könnten etwa darin be- Der Einsatz diagnostischer Verfahren zur Lö-
stehen, unter mehreren Bewerbern den für ei- sung praktischer Probleme hat eine lange Tra-
ne bestimmte Position geeignetsten herauszu- dition. Auf diese Vorgeschichte der Diagnos-
finden, Eltern hinsichtlich des für ihr Kind tik wird im nächsten Kapitel näher eingegan-

3
1 Definition der Psychologischen Diagnostik

gen. Was die Entwicklung der wissenschaftli- der Diagnostik lassen sich, wie schon ange-
chen Diagnostik betrifft, so hatte der Wundt- deutet, in den vielen Praxisfeldern der Ange-
Schüler James McKeen Cattell am Ende des wandten Psychologie finden, etwa in der Kli-
19. Jahrhunderts nicht nur den Begriff „mental nischen Psychologie, der Gesundheitspsycho-
test“ geprägt, sondern auch, basierend auf ex- logie, der Forensischen Psychologie oder der
perimentellen Studien, ein Paradigma für die Organisations-, Arbeits- oder Schulpsycholo-
Entwicklung der Psychologischen Diagnostik gie.
vorgestellt (Cattell, 1890):
Zur Erreichung der genannten Zielsetzung ste-
hen der Diagnostik verschiedene Methoden of-
Die Bestimmung der individuellen psychi- fen: Alle Methoden implizieren eine Interpre-
schen Eigenart durch exakte Beobachtung tation, oder genauer: den Schluss von einem
und Messung interindividueller Differen- Index auf etwas Indiziertes. Hiermit ist ge-
zen in psychologischen Merkmalen. meint, dass von einem begrenzten manifesten
Kennzeichen (dem Index) auf ein umfassende-
Diese Begründung der Diagnostik in der Dif- res latentes Merkmal (das Indizierte) geschlos-
ferentiellen Psychologie war bis in die zwei- sen wird. Man bezeichnet diesen Schluss als
te Hälfte des 20. Jahrhunderts unangefochten den diagnostischen Schluss.
und wurde erst in den 1970er Jahren in Frage
Die Idee des Schließens impliziert, dass beim
gestellt, und zwar zunächst durch die Klini-
psychologischen Diagnostizieren über die un-
sche Psychologie mit ihrer zentralen Aufgabe
mittelbar verfügbare Information hinausge-
der Messung intraindividueller Veränderungen
gangen wird (Hörmann, 1964). Damit kom-
als Folge von Interventionen (vgl. u. a. Cron-
men wir zu einem weiteren Merkmal der tra-
bach & Furby, 1970; Schulte, 1976). Solange
ditionellen Diagnostik: Aufgrund eines rela-
die Diagnostik ausschließlich in der Differen-
tiv kleinen Verhaltensausschnitts, einer Ver-
tiellen Psychologie fundiert war, konnte sie
haltensstichprobe (das können verbale oder
nur eine Art praktischer Fragen beantworten:
motorische Reaktionen wie auch physiologi-
„Worin und in welchem Grad unterscheidet
sche Daten sein), wird auf das umfassendere
sich dieser Mensch von anderen?“ (Hörmann,
Verhalten oder Befinden (z. B. die momenta-
1964). Die traditionelle, in der Differentiel-
ne Zustandsangst) bzw. auf grundlegendere
len Psychologie fundierte, Diagnostik befasste
Eigenschaften (z. B. den Grad der Ängstlich-
sich also mit der Feststellung der individuellen
keit) einer Person rückgeschlossen. Hieraus
Eigenart von Personen bezüglich bestimmter
wird deutlich, dass die Güte eines diagnosti-
Merkmale.
schen Schlusses immer auch ein Stichproben-
Diese Bestimmung beruht auf der Vorausset- problem ist.
zung, dass sich Menschen habituell unterschei-
Wir können somit anhand der bisher genann-
den, und dass diese Unterschiede feststellbar
ten Merkmale die traditionelle Diagnostik,
sind. Die theoretische und empirische Siche-
wie sie bis vor wenigen Jahrzehnten fast aus-
rung dieser Voraussetzung ist jedoch nicht
schließlich betrieben wurde, wie folgt bestim-
Problem der Diagnostik, sondern Gegenstand
men (Hörmann, 1964, S. 8):
der Differentiellen Psychologie und Persön-
lichkeitsforschung. Ziel der traditionellen Dia-
gnostik war es dagegen immer, ganz praktisch Diagnostizieren steht primär im Dienste der
zu erfahren, worin und in welchem Ausmaß Angewandten Psychologie, ist aber auch
sich ein bestimmter Mensch von anderen unter- ein Forschungsmittel der Differentiellen
scheidet. Beispiele für derartige Zielsetzungen Psychologie. Es richtet sich auf Unterschie-

4
1.1 Merkmale der Diagnostik

de zwischen Menschen und involviert ein Menschen (also über den sog. „Status“ von
Hinausgehen über die unmittelbar gegebe- Individuen) zu erfahren, sondern auch Verän-
ne Information. derungen an einem Individuum über die Zeit
(z. B. als Konsequenz einer Therapie) reliabel
Diese Merkmale haben die Methodenentwick- und valide zu messen (I Kap. 15). Von der
lung in der Psychologischen Diagnostik we- Organisationspsychologie wurde besonders
sentlich bestimmt. Der Methodenentwicklung der Entscheidungscharakter des Diagnostizie-
lag dabei der generelle Anspruch zugrunde, rens (etwa bei der Personalauswahl) betont
systematische interindividuelle Differenzen in (I Kap. 14). Diagnostische Verfahren dürfen
möglichst vielen Verhaltensbereichen immer hiernach nicht nur im Hinblick auf eine mög-
genauer metrisch zu beschreiben (I Kap. 3 lichst hohe Reliabilität und Validität optimiert
und 4). Im Einzelnen wurden anhand der ge- werden, sondern müssen auch hinsichtlich des,
nannten Merkmale drei diagnostische Leitzie- nicht in diesen beiden Testgütekriterien auf-
le für die Methodenentwicklung innerhalb der gehenden, Kriteriums der Entscheidungsgüte
traditionellen Diagnostik formuliert (Pawlik, ausgewiesen sein (Cronbach & Gleser, 1965;
1988, S. 148): I Kap. 6). Dieser erweiterte Anspruch an die
Diagnostik hat zur Formulierung dreier alter-
1. Das Eigenschaftsmodell: Diagnostik ist auf
nativer Leitziele des Diagnostizierens geführt
(manifeste oder latente) Merkmale gerichtet,
(Pawlik, 1988, S. 148):
in denen sich systematische interindividuel-
le Unterschiede im Erleben oder Verhalten 1. Das Modifikationsmodell: Diagnostik ist
abbilden. Diese Unterschiede sollen relativ auf (manifeste oder latente) Variablen ge-
zeit- und situationsstabil sein. Pawlik (1976) richtet, die mit der Indikation (d. h. Ange-
nennt diese Zielsetzung Statusdiagnostik. messenheit) und Evaluation (Effizienz) mo-
2. Die Varianzausschöpfung: Eine diagnosti- difikatorischer Interventionen im Einzelfall
sche Variable ist unter sonst gleichen Be- zusammenhängen. Pawlik (1976) nennt die-
dingungen praktisch um so brauchbarer, se Zielsetzung Prozessdiagnostik.
je mehr interindividuelle Varianz sie aus- 2. Die Entscheidungsrelevanz: Eine diagnosti-
schöpft und je größer ihre Kovarianz mit sche Variable ist unter sonst gleichen Bedin-
interessierenden Kriterien ist. Dies ist die gungen um so brauchbarer, je nützlicher sie
dem Reliabilitäts- und Validitätskonzept der für Indikations- und Evaluationsentschei-
Klassischen Testtheorie zugrunde liegende dungen im Rahmen psychologischer Inter-
Idee (I Kap. 3). ventionen ist.
3. Das Stichprobenmodell: Zur Konstrukti- 3. Das Ausschöpfungsmodell: Die Erstellung
on eines diagnostischen Verfahrens wird einer Stichprobe von Items zur Konstruk-
eine Stichprobe von Verhaltenselementen tion eines diagnostischen Verfahrens muss
(Items) erstellt, um die interessierende Ge- darauf zielen, das Universum von Merkma-
samtheit individueller Verhaltensweisen re- len auszuschöpfen, in denen sich der Inter-
präsentativ abzubilden. ventionsbedarf eines Individuums und das
Die Kritik an den Leitzielen der traditionel- Interventionsziel abbilden.
len Diagnostik wurde insbesondere von zwei Die Spannweite des modernen Diagnostizie-
Seiten vorgetragen, von der Klinischen Psy- rens lässt sich damit anhand dieser drei alter-
chologie und der Organisationspsychologie. nativen Leitziele bestimmen:
Von Seiten der Klinischen Psychologie wurde
auf die praktische Notwendigkeit hingewiesen, • Eigenschaftsmodell vs. Modifikationsmo-
nicht nur etwas über Unterschiede zwischen dell,

5
1 Definition der Psychologischen Diagnostik

• Varianzausschöpfung vs. Entscheidungsre- Psychologie haben demgegenüber die Voraus-


levanz, setzungen für eine eher am Modifikationsmo-
• Stichprobenmodell vs. Ausschöpfungsmo- dell orientierte Diagnostik geschaffen. Pawlik
dell. (1988) nennt diese Fragestellungen und An-
wendungen prozessbezogen bzw. systemanaly-
Aus der Ortsbestimmung der traditionellen
tisch.
wie auch aus den Leitzielen der modernen Dia-
gnostik haben wir gesehen, dass die Entwick-
lung in der Psychologischen Diagnostik eng
zusammenhängt mit der Entwicklung in ande- 1.2 Beziehungen zu anderen
ren Bereichen der Psychologie. So haben, wie Feldern der Psychologie
erwähnt, Veränderungen der Aufgabenstellun-
gen in den verschiedenen Feldern der Ange-
Die Beziehungen zwischen der Diagnostik
wandten Psychologie die Diagnostik immer
und den Feldern der Allgemeinen, der Diffe-
wieder zur Entwicklung neuer methodischer
rentiellen und der Angewandten Psychologie
Ansätze veranlasst. Theoriebildung und empi-
sind im Sinne einer reziproken Beeinflussung
rische Ergebnisse der Differentiellen Psycho-
zu sehen. Der Fortschritt in jedem dieser Be-
logie und Persönlichkeitsforschung wiederum
reiche hängt auch von den Fortschritten der
lieferten zunächst die wissenschaftlichen Vor-
Konzeptbildung in den anderen Feldern ab.
aussetzungen für eine am Eigenschaftsmodell
So ist beispielsweise der Fortschritt der Dif-
ausgerichtete diagnostische Tätigkeit (Cattell,
ferentiellen Psychologie und Persönlichkeits-
1950; Eysenck, 1947).
forschung (etwa fort vom reinen Eigenschafts-
In den letzten Jahrzehnten wurden diese eigen- modell hin zu interaktionistischen Modellen)
schaftszentrierten Ansätze durch Modelle der auch mit determiniert worden von veränderten
sog. Person x Situations-Interaktion ergänzt Fragestellungen der Praxis und von den jewei-
(siehe u. a. Endler & Magnusson, 1976). Die- ligen Methoden, die die Diagnostik zu deren
se Ansätze haben eine systematische Unter- Beantwortung entwickelt hat.
scheidung von relativ zeitstabilen Eigenschaf-
Psychologische Diagnostik kann in ihren
ten (Traits) und zeitlich eher variablen Zu-
Grundannahmen (z. B. den Annahmen der
ständen (States) eingeführt und teststatistische
Klassischen Testtheorie; I Kap. 3) also nicht
Verfahren zur separaten Bestimmung stabiler
verstanden werden, wenn man nicht auch et-
bzw. variabler Merkmale entwickelt (Steyer,
was über die Grundannahmen der anderen ge-
Schmitt & Eid, 1999). Im Rahmen dieser inter-
nannten Bereiche weiß. Wir wollen uns des-
aktiven Betrachtung erhob sich dann auch die
halb unter diesem Aspekt zunächst einige zen-
Forderung, Parameter zu bestimmen und dia-
trale Annahmen der Angewandten Psycholo-
gnostisch umzusetzen, auf denen Situationen
gie anschauen.
variieren, die Veränderungen von Zuständen
beeinflussen. Ein in diesem Zusammenhang Angewandte Psychologie ist über weite Stre-
häufig untersuchtes Merkmal ist der Stress- cken gleichbedeutend mit dem Bemühen um
gehalt einer Situation (etwa im Hinblick auf eine Optimierung praktischer Problemlösun-
die Auslösung emotionaler Erregung). Pawlik gen im Hinblick auf psychologische Kriterien
(1988) spricht bei einer am Eigenschaftsmo- für die Angemessenheit derartiger Lösungen
dell orientierten Diagnostik von strukturbe- (Pawlik, 1976). Psychologische Kriterien der
zogenen bzw. psychometrischen Fragestellun- Lösungsangemessenheit wären beispielswei-
gen und Anwendungen. Theoretische Konzep- se psychische Gesundheit, sicheres Verkehrs-
te und empirische Befunde der Allgemeinen verhalten, schulische und berufliche Leistung

6
1.2 Beziehungen zu anderen Feldern der Psychologie

Tab. 1.1 Formen praktischer Intervention

Interventionsstrategie
Interventionsrichtung Auswahl Modifikation
Person Personenauswahl Verhaltensmodifikation
Situation Bedingungsauswahl Bedingungsmodifikation

oder Arbeitszufriedenheit. (Ein nichtpsycholo- oder nicht. Beispiele hierfür wären die Per-
gisches Kriterium für eine praktische Problem- sonalauswahl oder die pädagogische Selek-
lösung wäre dagegen beispielsweise die Errei- tion in Form einer Aufnahmeprüfung.
chung bestimmter ökonomischer Vorgaben bei 2. Bedingungsauswahl: Hier sind Personen
betrieblichen Rationalisierungsmaßnahmen.) vorgegeben, z. B. Schulabgänger, und es
wird für jede Person nach der geeigneten
Die angewandt-psychologischen Aufgaben- Bedingung im Hinblick auf ein Optimie-
stellungen unterscheiden sich u. a. nach der rungskriterium, z. B. beruflichen Erfolg, ge-
Strategie, über die jeweils eine Optimierung sucht. Beispiele hierfür wären die Berufs-
der Problemlösung bzw. eine Entscheidungs- beratung oder die Beratung hinsichtlich der
optimierung angestrebt wird. Da praktisches Kurswahl in der gymnasialen Oberstufe.
Handeln immer auch Eingreifen bedeutet,
spricht man hier von Interventionsstrategien. Bei einer Modifikationsstrategie wird die Opti-
mierung gesucht durch Veränderung des Erle-
Die verschiedenen Strategien lassen sich auf bens und Verhaltens oder der Bedingungen.
einem Kontinuum von der reinen Auswahl- Ziel ist hier also die Veränderung im Hin-
zur reinen Modifikationsstrategie anordnen. blick auf das gewählte Optimierungskriterium
Derartige Strategien können sich entweder auf (z. B. berufliche Leistung). Auch hier lassen
Personen beziehen, unter denen ausgewählt sich wieder je nach Implementierungsrichtung
bzw. die verändert werden sollen, oder auf Be- zwei Formen unterscheiden:
dingungen, denen diese Personen ausgesetzt 1. Verhaltensmodifikation: Hier wird die Op-
sind (I Tab. 1.1). timierung durch Veränderungen an der Per-
son gesucht, etwa indem man sie einem Aus-
Bei einer Auswahlstrategie wird die Optimie-
bildungsprogramm oder einer Psychothera-
rung gesucht durch Selektion von geeigneten
pie unterzieht.
Personen oder Bedingungen. Ziel ist es, für
2. Bedingungsmodifikation: Hier wird eine
jede Person jene Bedingung zu finden (z. B.
Optimierung durch Veränderungen der Be-
einen bestimmten Arbeitsplatz), in der das
dingungen, denen eine Person ausgesetzt ist,
gewählte Optimierungskriterium (z. B. beruf-
angestrebt, etwa indem der Arbeitsplatz neu
liche Leistung) den für sie höchstmöglichen
gestaltet oder neue didaktische Maßnahmen
Wert erreicht. Mit Pawlik (1976) lassen sich
und Materialien entwickelt werden.
nach der Richtung der Implementierung von
Auswahlstrategien zwei Formen unterschei- In der Praxis kommen reine Auswahl- oder
den: Modifikationsstrategien nur selten vor, in der
Regel finden wir vielmehr Mischstrategien.
1. Personenauswahl: Hier sind Bedingungen So werden z. B. häufig Personen nach einem
vorgegeben, z. B. das Qualifikationsmerk- bestimmten Auswahlkriterium platziert, dann
mal, und die Personen werden danach aus- jedoch einem individuell angepassten Schu-
gewählt, ob sie der Bedingung entsprechen lungsprogramm unterzogen.

7
1 Definition der Psychologischen Diagnostik

Beide Strategieformen gehen von impliziten len. Eine solche Annahme war für die genann-
Annahmen über die Natur des Problems aus, ten praktischen Aufgaben auch notwendig, da
für das die Lösungsoptimierung gesucht wird eine Auswahl von Personen im Hinblick auf
(Pawlik 1976). Für Auswahlstrategien wird ein Optimierungskriterium natürlich nur an-
vorausgesetzt, dass die geeigneten Personen hand relativ zeitstabiler Merkmale sinnvoll ist.
bzw. die geeigneten Bedingungen, denen die
vorgegebenen Bedingungen bzw. Personen zu- Theoretische Voraussetzungen für die Annah-
geordnet werden sollen, bereits vorliegen. Es me der Stabilität von Persönlichkeitsmerkma-
geht also nur noch um die Zuordnung. Deshalb len wurden in der traditionellen Persönlich-
ist hier auch nur der Einsatz geeigneter dia- keitsforschung bzw. Differentiellen Psycho-
gnostischer Verfahren gefordert. Für Modifi- logie geschaffen. Deren Grundannahme war,
kationsstrategien wird vorausgesetzt, dass die dass interindividuelle Unterschiede im Verhal-
Methoden der Verhaltens- bzw. Bedingungs- ten und Erleben auf eine begrenzte Anzahl von
modifikation für alle behandelten Personen zeitlich stabilen, latenten Variablen, die Per-
bzw. Bedingungen die jeweils bestmögliche sönlichkeitseigenschaften, zurückgehen, z. B.
Lösung liefern. So wird etwa erwartet, dass Intelligenzfaktoren (I Kap. 12), Persönlich-
nach Abschluss einer bestimmten Therapie je- keitsdimensionen, Motive (I Kap. 10) usw.
de behandelte Person weniger Angst hat. Der- Diese Grundannahme fand ihre Umsetzung in
artige Interventionen setzen also sowohl den der Entwicklung sehr einflussreicher Struktur-
Einsatz diagnostischer Verfahren (für die Indi- theorien der Persönlichkeit, wie sie etwa von
kationsstellung, die Überprüfung des Modifi- Cattell, Guilford, Thurstone, Eysenck oder in
kationsverlaufs und die Evaluation des Modi- neuerer Zeit mit dem Fünf-Faktoren-Modell
fikationserfolgs) als auch von Techniken der vorgelegt wurden (für Übersichten vgl. u. a.
Modifikation voraus. Stemmler, Hagemann, Amelang & Bartussek,
2011; I Kap. 10 und 12).
Wenn man einmal analysiert, wie sich die Ent-
wicklung in der Diagnostik auf die in der Diese strukturanalytischen Grundannahmen
Angewandten Psychologie bezieht, so stellt der traditionellen Persönlichkeitsforschung
man fest, dass zunächst praktische Aufgaben waren Ausgangspunkt der Kriterien der Klas-
der Auswahl und damit des Einsatzes entspre- sischen Testtheorie (I Kap. 3). Für das Kri-
chender diagnostischer Verfahren vorherrsch- terium der Reliabilität (Zuverlässigkeit) las-
ten. So gingen die auf den Arbeiten Binets sen sich alle Koeffizienten, die auf dem Kon-
beruhende Intelligenzdiagnostik ebenso wie zept der Paralleltestung aufbauen (also Trenn-
die frühe Persönlichkeitsdiagnostik von prak- schärfe, interne Konsistenz, Split-half- oder
tischen Auswahlproblemen aus (I Kap. 2). Paralleltest-Reliabilität) auf die Vorstellung
Die Rückwirkungen dieser Aufgabenstellun- der transsituativen (also situationsübergreifen-
gen auf die Diagnostik lagen aber nicht nur den) Konsistenz eigenschaftsbezogenen Ver-
in der Entwicklung bestimmter Testverfahren haltens zurückführen. Das Verhalten in einer
(etwa des Binet-Intelligenztests oder einzel- Situation (auf ein Item hin) sollte ebenso Indi-
ner Fragebogen), sondern auch in der Her- kator eines latenten Persönlichkeitsmerkmals
ausarbeitung zentraler Bestimmungsstücke ei- (z. B. Ängstlichkeit) sein, wie das Verhalten
ner Diagnostiktheorie. Die Gütekriterien der auf eine andere Situation (ein weiteres Item)
Klassischen Testtheorie, z. B. das der Stabi- hin. Demgegenüber basiert das Konzept der
lität (I Kap. 3), gehen von einem statischen Retest-Reliabilität auf der Vorstellung der zeit-
Eigenschaftsbegriff aus, d. h. von der relativen lichen Stabilität eigenschaftsbezogenen Ver-
Dauerhaftigkeit von Persönlichkeitsmerkma- haltens.

8
1.2 Beziehungen zu anderen Feldern der Psychologie

Für die Bestimmung der Validität (Gültigkeit) spielsweise das Stressbewältigungsverhalten


gingen die meisten Verfahren sowohl von Vor- eines prüfungsängstlichen Studenten verän-
stellungen der transsituativen als auch der tran- dert werden soll, so muss man wissen, über
stemporalen Konsistenz des Verhaltens aus. welches Repertoire von Verhaltensstrategien
Die Validität eines Verfahrens wird in der Re- und -akten ein Mensch verfügen muss, um mit
gel über das Eintreffen einer Vorhersage be- einer Prüfungssituation relativ angstfrei um-
stimmt. Entsprechend galt lange Zeit der Satz gehen zu können. Eine derartige Zielsetzung
„jede Diagnose ist eine Prognose“. Es wur- erfordert eine verstärkte Hinwendung zu allge-
de also erwartet, dass ein Merkmal nicht nur meinpsychologischen Konzepten.
zeitlich stabil ist, sondern sich auch in unter-
Eine Fundierung der Diagnostik in der All-
schiedlichen Situationen manifestiert, da die
gemeinen Psychologie wurde vor allem im
Diagnose- bzw. Prognosesituation ja in der
Hinblick auf den Bereich des Problemlösens
Regel nicht identisch ist mit der Kriteriumssi-
gefordert (Spada & Reimann, 1988). Dieser
tuation. So ist z. B. die Situation der Diagno-
Ansatz stützt sich auf Prozessmodelle von
se der Berufseignung im Allgemeinen nicht
Denkvorgängen (d. h. auf Modelle der Infor-
identisch mit Situationen, in denen sich diese
mationsverarbeitung; vgl. u. a. Dörner, 1987)
Eignung dann tatsächlich manifestieren soll.
und könnte für die Diagnose von Fähigkei-
In jüngster Zeit sind jedoch, wie bereits an- ten eine Alternative, zumindest aber eine Er-
gedeutet, aus der Angewandten Psychologie gänzung, zu den klassischen strukturanaly-
Aufgaben an die Diagnostik herangetragen tisch orientierten Verfahren der Intelligenz-
worden, die stärker von Problemen der Mo- diagnostik bilden (I Kap. 12). Ein in dieser
difikation ausgehen. Derartige Interventionen Hinsicht wichtiges neueres Intelligenzmodell
erfordern andersartige grundwissenschaftliche stellt die Komponenten-Subtheorie im Rah-
Fundierungen als Selektionsaufgaben. Neben men der triarchischen Intelligenztheorie Stern-
Veränderungen im Bereich persönlichkeitspsy- bergs (1984, 1998) dar. Auch für die Erfassung
chologischer Konzepte, fort von rein eigen- der Veränderung psychischer Probleme (etwa
schaftszentrierten Vorstellungen hin zu Model- als Folge einer Therapie) ist eine Fundierung
len, die Wechselwirkungen (auch reziproker in allgemeinpsychologischen Konzepten ge-
Natur) zwischen Person und Situation themati- fordert, hier insbesondere in Ansätzen aus den
sieren, wird hier zusätzlich eine allgemeinpsy- Bereichen der Emotionspsychologie (z. B. bei
chologisch fundierte Diagnostik gefordert. Für der Erfassung von Veränderungen der emotio-
den Bereich der Diagnostiktheorie folgt dar- nalen Erregung bei der Konfrontation mit be-
aus die Notwendigkeit, die mit der Erfassung stimmten Stressoren; Krohne, 2010) und der
von Veränderungen verbundenen besonderen Kognitionsforschung (etwa für die Verände-
Messprobleme zu lösen (Rost, 2004). rung von Gedankeninhalten und -prozessen
als Konsequenz einer kognitiv orientierten De-
Anders als bei der am persönlichkeitspsy-
pressionstherapie; I Kap. 15).
chologischen Eigenschaftsmodell und an der
praktisch-psychologischen Aufgabe der Aus- In stärkerem Maße als bei den eher statisch
wahl orientierten Strukturanalyse geht es bei ausgerichteten Strukturanalysen ergibt sich
der auf die Lösung von Modifikationsproble- aus Prozessanalyse die Forderung, Variatio-
men gerichteten Prozessanalyse des Verhal- nen des Erlebens und Verhaltens nicht nur un-
tens darum, Elemente, sog. „Prozesskompo- ter testmäßig standardisierten Bedingungen,
nenten“, zu ermitteln, die für das Zustande- sondern in alltäglichen, sog. „natürlichen“ Le-
kommen eines bestimmten aktuellen Verhal- benssituationen zu untersuchen („Ambulantes
tens kritisch sind (Pawlik, 1988). Wenn bei- Assessment“; Fahrenberg, Myrtek, Pawlik &

9
1 Definition der Psychologischen Diagnostik

Tab. 1.2 Objekte und Sachverhalte des Diagnostizierens

Sachverhalte
Objekte Stabile Merkmale Zustände Veränderungen
Individuen 1 4 7
Gruppen 2 5 8
Situationen 3 6 9
Anmerkung. 1, 2, ... Beispiele siehe Text.

Perrez, 2007). Hier müssten also die traditio-für aktuelle Prozesse bei Gruppen und sozialen
nellen allgemein- und persönlichkeitspsycho- Systemen ist die Analyse der Kommunikation
logischen Vorstellungen, die ja weitgehend aufzwischen Vorgesetzten und Mitarbeitern in ei-
Ergebnissen der Laborforschung beruhen, um ner Organisation. (6) Auf Situationen bezogen
eine ökopsychologische Perspektive erweitert könnte hier etwa die Analyse von Stressoren
werden (Kaminski, 1988). am Arbeitsplatz, z. B. Lärm, von Interesse sein.
Die Registrierung von Veränderungen zeitlich
länger erstreckter Merkmale spielt überall dort
1.3 Objekte und Sachverhalte eine Rolle, wo Programme zur Modifikation
dieser Merkmale eingesetzt werden, also et-
wa (7) im Rahmen der Psychotherapie, (8) der
Objekt diagnostischer Intervention ist in der
Organisationsentwicklung, z. B. Erhöhung der
Mehrzahl der Fälle die Einzelperson. Aller-
Arbeitszufriedenheit, oder (9) der Beseitigung
dings ist auch die Diagnose von Gruppen und
ungünstiger Arbeitsbedingungen.
sozialen Systemen sowie von Situationen ei-
ne wichtige Aufgabe der Diagnostik. Dies
ist insbesondere bei der arbeits- und organi-
sationspsychologischen sowie der pädagogi- Weiterführende Literatur
schen und Erziehungsdiagnostik offenkundig
(I Kap. 14 und 16). An diesen Objekten kön-
nen stabile Merkmale, Zustände und aktuel- Wichtige Überlegungen zur Ortsbestimmung
le Prozesse sowie Veränderungen zeitlich län- der Psychologischen Diagnostik finden sich in
ger erstreckter Merkmale registriert werden. Hörmann (1964) sowie Pawlik (1976, 1988).
Kreuzklassifiziert man diese beiden Aspekte,
so kommt man zu neun unterschiedlichen Auf-
gabenstellungen (I Tab. 1.2):
Fragen zur Wissenskontrolle
(1) Ein Beispiel für die Registrierung eines sta-
bilen Merkmals am Individuum wäre die Intel-
ligenzdiagnostik. (2) Stabile Beziehungsmerk- 1. Wie lässt sich nach Hörmann (1964) der Ort
male in sozialen Systemen lassen sich etwa in der traditionellen Diagnostik bestimmen?
Familien erheben. (3) Stabile Situationsmerk- 2. Anhand welcher alternativer Leitziele be-
male finden sich etwa am betrieblichen Ar- schreibt Pawlik (1988) die Spannweite der
beitsplatz, aber auch im Klassenraum. (4) Zu- modernen Diagnostik?
stände und aktuelle Prozesse am Individuum 3. Über welche Interventionsstrategien wer-
(z. B. Emotionen) sind besonders für die klini- den in der Psychologie praktische Problem-
sche Diagnostik interessant. (5) Ein Beispiel lösungen angestrebt?

10
1.3 Objekte und Sachverhalte

4. Welche Formen diagnostisch abzusichern-


der Interventionen resultieren, wenn man
Interventionsstrategien entweder auf Perso-
nen oder auf Situationen bezieht?
5. Geben Sie ein Beispiel für die Diagnose
eines stabilen Merkmals in einem sozialen
System.

11
2 Entwicklungslinien des wissenschaftlichen
Diagnostizierens

2.1 Frühe Überlegungen und praktische Lösungen . . . . . . . . . . . . . . . . 12


2.2 Die allgemeine Messung psychischer Merkmale . . . . . . . . . . . . . . . . 14
2.3 Galton und die 1. Periode der Diagnostik . . . . . . . . . . . . . . . . . . . . 15
2.4 Die 2. Periode der Diagnostik: Ebbinghaus, Binet . . . . . . . . . . . . . . . 17
2.5 Der Beginn der Persönlichkeitsdiagnostik . . . . . . . . . . . . . . . . . . . 21

Psychologische Diagnostik erhält ihre Aufga- 2.1 Frühe Überlegungen und


benstellung weitgehend aus der Angewandten praktische Lösungen
Psychologie. Am Anfang der Entwicklung dia-
gnostischer Verfahren steht also das Bemühen
um eine Optimierung praktischer Problemlö- Das erste ausgearbeitete Testprogramm für die
sungen im Hinblick auf psychologische Krite- Aufnahme in den öffentlichen Dienst wie auch
rien der Lösungsangemessenheit. für regelmäßige Leistungskontrollen wurde
in China um das Jahr 300 v. u. Z. eingeführt,
Gewöhnlich wird der Anfang der Psychologi- geht aber auf Vorläufer zurück, die vor etwa
schen Diagnostik in den Testentwicklungen ex- 3000 bis 4000 Jahren entwickelt wurden. Es
perimentell arbeitender Psychologen am Aus- wurde im Laufe der Jahrhunderte mehrmals
gang des 19. Jahrhunderts gesehen, insbeson- modifiziert, blieb aber in seiner Grundstruk-
dere in den Arbeiten von Galton und Ebbing- tur bis zum Jahr 1905 im Gebrauch. Es wur-
haus. Diese Auffassung ist jedoch unzutref- den Leistungsprüfungen vorgenommen, um
fend. Am Beginn der Entwicklung standen Bewerber für gehobene Posten auszuwählen.
praktische Fragen der Eignungsdiagnose. Da- Das Programm bestand aus einem schriftli-
bei ging es darum, das Verhalten in Bewäh- chen Teil, in dem Aufgaben aus den Bereichen
rungssituationen vorherzusagen, für welche Recht, militärische Angelegenheiten, Land-
die im Alltag anfallenden Beobachtungsmög- wirtschaft, Finanzen, Geographie und Litera-
lichkeiten nicht ausreichten. Vor derartigen tur sowie Rechnen gestellt wurden. Ein zwei-
Fragestellungen standen schon die Menschen ter, handlungsbezogener, Teil erhob Verhal-
des Altertums, wobei als Bewährungssituatio- tensstichproben aus den Feldern Reiten, Mu-
nen in erster Linie der militärische Einsatz sizieren und Bogenschießen. Ab dem 7. Jahr-
und die Ausübung eines wichtigen öffentli- hundert unserer Zeit und dann insbesondere
chen Amtes in Frage kamen. während der Song-Dynastie (960–1279) und

12
2.1 Frühe Überlegungen und praktische Lösungen

der Ming-Dynastie (1368–1644) wurde daraus seits angenommen wurde, dass sie zur mili-
ein objektives, mehrstufiges, landesweit durch- tärischen Eignung in Beziehung ständen. Be-
geführtes Selektionsprogramm entwickelt. Die merkenswert ist dabei, dass die diagnostische
Bewerber wurden zunächst lokal in eigens da- Situation nicht identisch war mit der späteren
für eingerichteten Testzentren geprüft. Etwa Bewährungssituation. (Für die Beschreibung
4 % der Kandidaten wurden anschließend in moderner sequenzieller Strategien zur Perso-
die Provinzhauptstadt geschickt und dort Tests nalauslese I Kap. 6 und 14.)
einer höheren Schwierigkeitsstufe unterzogen.
Im antiken Griechenland hatte Plato bereits
Die ca. 5 % besten Kandidaten dieser Stufe
feste Vorstellungen über interindividuelle Dif-
wurden sodann in der Hauptstadt nochmals
ferenzen, wobei er zu deren Registrierung ins-
getestet. Etwa 3 % dieser letzten Stufe wurden
besondere Beobachtungsverfahren vorschlug.
zum öffentlichen Dienst zugelassen.
Aus seinen Überlegungen zog er die prakti-
Den Chinesen war dabei die Notwendigkeit sche Schlussfolgerung, dass sich für bestimm-
einer objektiven Auswertung der Testdaten be- te Berufe nur Menschen mit je spezifischen
reits bewusst. Deshalb wurden alle schriftli- Eigenschaften eignen. In seinem Dialog Poli-
chen Produkte der Kandidaten kopiert und von teia (vom Staat, III. Buch) schlug er deshalb
zwei unabhängigen Beurteilern bewertet. Das ein Testprogramm für eine selektive Zuwei-
chinesische Testsystem wurde im 19. Jahrhun- sung von Menschen zu verschiedenen Funk-
dert von den Engländern für die Auswahl von tionen vor. Als diagnostisches Vorgehen emp-
Mitarbeitern für die East India Company über- fahl er dabei die Verhaltensbeobachtung in
nommen. Von dort wurde es mit Modifikatio- kritischen Situationen, Menschen sollten also
nen ins Heimatland gebracht und führte 1855 in Situationen beobachtet werden, in denen
zur Einführung eines kompetitiven Prüfungs- Merkmale realisiert werden mussten, die für
systems für den öffentlichen Dienst in Groß- eine bestimmte Funktion als wesentlich erach-
britannien. Dieses System diente Deutschen, tet wurden. So sollten Wächter beispielsweise
Franzosen und Amerikanern als Vorbild für in Situationen beobachtet werden, in denen
die Entwicklung ähnlicher Prüfungssysteme Mut, Selbstdisziplin und Unbestechlichkeit re-
(DuBois, 1970). levant sind.
Auch im Alten Testament und in der griechi- Dieses Wissen ist mit dem Untergang der anti-
schen Antike finden sich Hinweise auf eine ken Welt weitgehend verschüttet worden und
elaboriertere Eignungsdiagnostik. So wird im hat deshalb nicht zur Entwicklung einer aus-
Buch der Richter (7. Kapitel, 1–8) eine durch- gearbeiteten Diagnostik geführt. Das christli-
aus modern anmutende sequenzielle Strate- che Mittelalter und hier insbesondere die scho-
gie zur Auswahl geeigneter Krieger aus ei- lastische Tradition kannte kaum die Vorstel-
ner großen Anzahl von Rekruten vorgestellt. lung individueller Differenzen. Die scholas-
Am Anfang der Sequenz stand zunächst ei- tischen Philosophen interessierten nicht Dif-
ne Selbsteinschätzung hinsichtlich Intelligenz ferenzen innerhalb einer Art, sondern, wenn
und Tapferkeit. („Wer blöde und verzagt ist, überhaupt, Unterschiede zwischen den Ar-
der kehre um ...“.) Die verbliebenen Rekru- ten. Diese Unterschiede wurden jedoch teleo-
ten wurden sodann einer Verhaltensbeobach- logisch durch Rückgriff auf einen Schöpfer-
tung in einer definierten Situation hinsichtlich gott erklärt, der die Lebewesen jeder Art für
bestimmter Verhaltensmerkmale unterzogen, die spezifischen Anforderungen ihrer Umwelt
wobei diese Merkmale Aufschluss über Ei- zweckmäßig ausgerüstet haben sollte. In ei-
genschaften wie Selbstbeherrschung und Auf- ner solchen Sichtweise entzieht sich das In-
merksamkeit liefern sollten, von denen ihrer- dividuum weitgehend einer theoretischen wie

13
2 Entwicklungslinien des wissenschaftlichen Diagnostizierens

auch diagnostischen Erfassung. Aber selbst 2.2 Die allgemeine Messung


wenn die einzelne Person betrachtet wurde, so psychischer Merkmale
wurde sie weniger als Individuum bestimmt,
sondern nahezu vollständig in Begriffen der
Gruppe beschrieben, der sie angehörte (z. B. Am Anfang der Entwicklung der modernen
Stand, Zunft und natürlich vor allem die kirch- Diagnostik standen jedoch nicht Versuche zur
liche Gemeinde). Erfassung interindividueller Differenzen, son-
Erneut aufgegriffen wurden die Überlegun- dern Bemühungen um die generelle Messung
gen und Erkenntnisse der Antike dann in der psychischer Merkmale. Man suchte also nicht
Renaissance. So gab der spanische Arzt Juan nach Unterschieden zwischen Menschen, son-
Huarte (1520–1598) in seinem Buch „Prüfung dern nach allgemeinen Gesetzmäßigkeiten.
der Köpfe zu den Wissenschaften“ (Huarte, Bahnbrechend ist hier Fechners Werk „Ele-
1575/1968) Eltern Ratschläge für die Studien- mente der Psychophysik“ aus dem Jahr 1860.
und Berufswahl ihrer Söhne, wobei er sich an Aufbauend auf den Arbeiten des Physiologen
der antiken Temperamentenlehre des Hippo- Weber aus dem Jahr 1846, beeinflusst auch
krates orientierte. Eine starke Blüte erlebten durch den Physiologen Johannes Müller und
persönlichkeitspsychologische und diagnosti- den Physiker Helmholtz, zeigte Fechner, wie
sche Betrachtungen dann im 18. Jahrhundert. man seelische Größen messen kann und wie
Als wichtigste Vertreter sind dabei Lavater, sich psychische Größen zu physikalischen ver-
Gall, Tetens und Knigge zu nennen (Lück & halten. Resultat war die bekannte „Fundamen-
Guski-Leinwand, 2014). talformel“, S = k · log R. Die Sinnesempfin-
dung S ist eine logarithmische Funktion der
Während die persönlichkeitspsychologischen Reizstärke R, d. h. nimmt die Reizstärke linear
und diagnostischen Aussagen dieser Autoren zu, so steigt die Empfindung nur analog zum
jedoch stark spekulativ und wissenschaftlich Logarithmus der Reizstärke.
überwiegend unbegründet waren, verdankt die
heutige Idee interindividueller Differenzen ih- Das Aufstellen und empirische Begründen die-
re wissenschaftliche Ausarbeitung den in den ser Formel war insofern eine herausragende
letzten Jahrhunderten aufblühenden Naturwis- wissenschaftliche Leistung, als über der ge-
senschaften. Physik, Mathematik und Physio- samten Psychologie des frühen 19. Jahrhun-
logie lieferten die ersten Messmodelle, die Bio- derts das Verdikt Kants stand, dass Psycholo-
logie, und hier besonders die Evolutionstheo- gie niemals Wissenschaft werden könne, da
rie Charles Darwins (1809–1882), stellte den Wissenschaft Experiment und Messung erfor-
Begriff der Unterschiede zwischen Organis- dere, psychische Vorgänge aber nicht quanti-
men ins Zentrum der Betrachtung. Für den in fizierbar seien (Kant, 1786/1963). Der Wider-
Darwins Evolutionstheorie zentralen Gedan- legung dieser bei Laien auch heute noch po-
ken der Selektion ist die Vorstellung individu- pulären Auffassung war ein wesentlicher Teil
eller Differenzen eine unverzichtbare Voraus- der Arbeiten der Psychologen des 19. Jahrhun-
setzung, da individuelle Differenzen innerhalb derts gewidmet, ausgehend von Herbart über
einer Art das einzige Material darstellen, an Fechner zu Wundt. Sie konnten sich dabei in
dem die Selektion systematisch ansetzen kann. ihren Bemühungen auf den großen Naturwis-
Durch Einführung des Prinzips der Selekti- senschaftler Galilei berufen, der bereits etwa
on kann Darwin die Vielfalt der Arten, ihre 250 Jahre vor ihnen gefordert hatte: „Miss das
Angepasstheit und Entwicklungsfähigkeit oh- Messbare und versuche, das Nicht-Messbare
ne Rückgriff auf einen Schöpfergott erklären messbar zu machen“ (vgl. hierzu auch Hör-
(Merz, 1984). mann, 1964). Entsprechend der physikalischen

14
2.3 Galton und die 1. Periode der Diagnostik

bzw. physiologischen Orientierung von For- Unterschieden. Dementsprechend entwickelte


schern wie Fechner oder Wundt arbeitete man Galton eine Vielzahl psychometrischer Ver-
dabei zunächst mit sehr einfachen Untersu- fahren. Dabei sah er die Psychometrie nur als
chungsparadigmen, insbesondere Reaktions- Spezialfall der von ihm professionell betriebe-
zeitmessungen. nen Anthropometrie an.
Der Idee einer biologischen Fundierung kogni-
tiver Fähigkeiten folgend, verwandte Galton
2.3 Galton und die 1. Periode der sehr elementare Maße zur Bestimmung der In-
Diagnostik telligenz, insbesondere Reaktionszeitmessun-
gen. Darüber hinaus waren für ihn Schärfe und
Unterscheidungsfähigkeit der Sinne ein Indi-
Der Beginn der Erforschung von systemati-
kator kognitiver Fähigkeit. So entwickelte er
schen Unterschieden zwischen Menschen ist
Tests zur Prüfung des Farbsehens, zur Feststel-
in den Arbeiten Francis Galtons (1822–1911)
lung der Diskriminationsfähigkeit im visuel-
in seinem anthropometrischen Laboratorium
len, akustischen und kinästhetischen Bereich,
zu sehen. Galton, ein Verwandter Darwins,
außerdem Gedächtnistests und Fragebogen zur
stand weniger der Physik und Physiologie als
Messung individueller Ausprägungen von Vor-
vielmehr der Biologie nahe und war dabei ins-
stellungsbildern (Galton, 1883). Um die Ergeb-
besondere von der Evolutionstheorie beein-
nisse seiner Messungen weiterzuverarbeiten,
flusst. Entsprechend der zentralen Idee Dar-
entwickelte Galton einen „Index of Correla-
wins, dass es die Unterschiede zwischen Indi-
tion“, der später (1896) von seinem Schüler
viduen sind, die nach dem Prinzip vom „Über-
Karl Pearson zum Korrelationskoeffizienten
leben des Angepasstesten“ die Entwicklung
und zur Regressionsrechnung erweitert wur-
der Arten vorangetrieben haben, interessierte
de. Korrelation und Regression stellen wohl
sich Galton besonders für die Erfassung der
die wichtigsten Erträge dieser frühen Phase
Fähigkeiten des Menschen. 1869 schrieb er
der Differentiellen Psychologie und Diagnos-
sein Buch „Hereditary genius“, das als Beginn
tik dar.
der systematischen Erforschung interindividu-
eller Unterschiede angesehen werden kann. Bereits 1809 hatte Gauß (1777–1855) die ma-
thematische Gleichung für die Normalvertei-
Wie nach seiner biologischen Orientierung zu
lung hergeleitet, d. h. für die Verteilung der
erwarten, ging Galton davon aus, dass Intel-
Messfehler, wenn viele Messungen durchge-
ligenz zu einem hohen Anteil vererbt ist. Zu-
führt werden und der Gegenstand der Messung
gleich, und auch dies wird durch die biologi-
von vielen zufälligen, voneinander unabhängi-
sche Begründung von Fähigkeiten nahegelegt,
gen und additiv wirkenden Faktoren bestimmt
favorisierte er das Konzept der Intelligenz als
ist. Im Jahr 1835 hatte der belgische Mathe-
einer allgemeinen kognitiven Fähigkeit, die
matiker Quételet diese Normalverteilung auf
den Erfolg eines Individuums bei nahezu jeder
biologische Sachverhalte wie Größe oder Kör-
Art kognitiver Aufgaben bestimmt.
pergewicht angewandt. Entsprechend seiner
Galtons Untersuchungen über die Unterschie- Grundannahme, dass psychische Merkmale
de zwischen Menschen hinsichtlich verschie- eine biologische Grundlage haben, nahm Gal-
dener Fähigkeiten dienten dabei der Klärung ton diese Verteilung auch für kognitive Fähig-
der Frage nach den Gesetzmäßigkeiten der keiten an. Dabei konnte er zeigen, dass sich
Vererbung dieser allgemeinen kognitiven Fä- intellektuelle Hochleistungen sowie Spezial-
higkeit. Diese Intention erforderte die Ent- begabungen überzufällig häufig auf bestimmte
wicklung von Methoden zur Erfassung von Familien konzentrieren, was für ihn ein Beleg

15
2 Entwicklungslinien des wissenschaftlichen Diagnostizierens

der Vererbbarkeit der Intelligenz war. Galtons hoch untereinander korrelierten, assoziiert wa-
Arbeit ist ein Beispiel für die Entwicklung der ren.
Diagnostik aus einer experimentell betriebe-
nen Differentiellen Psychologie. Er hat dabei Nach Wisslers Studie hat man die von Gal-
dem Experiment in der Psychologie die spezi- ton vorgezeichnete Linie der Entwicklung von
elle Wendung der Testform gegeben. Intelligenztests vielleicht etwas zu früh verlas-
sen. Was Wissler bei seinen Berechnungen
Ähnliche Wege wie Galton ging der Wundt- u. a. nicht berücksichtigt hatte, war die ge-
Schüler James McKeen Cattell, der sich be- ringe Zuverlässigkeit der Mental Tests. Die
reits in seiner Dissertation mit individuellen Möglichkeit, die Zuverlässigkeit von Tests zu
Unterschieden der Reaktionszeit befasste. Er bestimmen, wurde erst 1910 von Spearman
behandelte dabei aber individuelle Differen- geschaffen. Hätte man die Zuverlässigkeit ver-
zen zunächst, ganz im Sinne der Wundtschen bessert, so wären die Korrelationskoeffizienten
Tradition, als Störfaktoren. Später untersuchte für die Mental Tests wahrscheinlich höher aus-
er sie dann systematisch. Er war es auch, der gefallen. Eysenck und Eysenck (1985) haben
1890 das Wort „Mental Test“ einführte. Cat- darüber hinaus Wisslers Studie weitere gravie-
tell schuf, ähnlich wie Galton, Testbatterien, rende methodische Fehler nachgewiesen. So
bestehend aus zehn Einzeltests, die von sog. wurde das individuelle Reaktionszeitmaß nicht
„Physical Tests“ zur Prüfung einfachster Funk- durch Mittelung sehr vieler (etwa 100) Mes-
tionen (z. B. Ermittlung der physischen Kraft sungen gebildet, sondern basierte nur auf drei
mittels eines Dynamometers) bis zur „Mental bis fünf Messungen, war damit also höchst
Tests“ zur Prüfung höherer geistiger Fähigkei- instabil. Ferner wurden die Mental Tests über-
ten reichten (z. B. Reaktionszeiten, Größenbe- haupt nicht mit anderen (damals bereits ansatz-
urteilungen, Reproduktion einer Anzahl von weise vorliegenden) Intelligenztests korreliert,
Buchstaben nach einmaligen Hören). Cattell sondern mit Lehrerurteilen und Zeugnisnoten,
stellte auch als erster die Forderung nach Ver- also eher schwachen Indikatoren kognitiver
gleichbarkeit der Testergebnisse auf, die er Fähigkeiten. Schließlich dienten als Proban-
durch genaue Einhaltung der Untersuchungssi- den nur Studenten einer renommierten ameri-
tuation, also durch Standardisierung, erfüllen kanischen Privatuniversität, was die Varianz
wollte. der einzelnen Intelligenzvariablen natürlich
stark einschränkte.
Mit McKeen Cattell endet die sog. „erste Peri-
ode“ der Testentwicklung (Hylla, 1927). Nach- Eysenck und Eysenck (1985) fragen sich, wie
dem bereits in den 1890er Jahren des 19. Jahr- eine einzige und zudem methodisch fehlerhaf-
hunderts Zweifel an der Brauchbarkeit der te Arbeit eine ganze, bereits über ein Viertel-
„Mental Tests“ zur Erfassung der Intelligenz jahrhundert intensiv betriebene, Forschungs-
geäußert worden waren (Binet & Henri, 1895), richtung ins Abseits stellen konnte. Sie ma-
beendete eine umfassende Korrelationsstudie chen hierfür den insbesondere seinerzeit in den
Wisslers aus dem Jahr 1901 diese Periode. Die- Vereinigten Staaten herrschenden „Zeitgeist“
se Studie zeigte, dass die sog. Mental Tests verantwortlich, der einer biologischen Inter-
nur geringe Interkorrelationen aufwiesen, die pretation individueller Intelligenzunterschiede
Physical Tests zwar gute Interkorrelationen ablehnend gegenüberstand.
zeigten, jedoch nicht mit den Mental Tests kor-
relierten und schließlich die Mental Tests nicht Wenn diese erste Periode auch wenig zur Ent-
mit Außenkriterien der Intelligenz wie Zeug- wicklung brauchbarer Tests beigetragen hat, so
nisnoten und Lehrerbeurteilungen, die aber schuf sie doch wesentliche Voraussetzungen

16
2.4 Die 2. Periode der Diagnostik: Ebbinghaus, Binet

für die systematische Behandlung individuel- Grade der intellektuellen Minderleistung un-
ler Differenzen, insbesondere für die statisti- terschieden. Esquirol differenzierte dabei zwi-
sche Berechnung von Testergebnissen. Dabei schen angeborener Idiotie und erworbener De-
ist besonders Galtons Leistung hervorzuheben, menz. Nach Esquirol (1838) sollten sich die
da er als erster eine Klassifikation der Intelli-
Unterschiede der intellektuellen Minderleis-
genz anhand der Normalverteilung vornahm. tung in einer unterschiedlichen Beherrschung
Nach ihm liegen „Idioten“ soweit unter dem der Sprache manifestieren. Man kann dies als
Durchschnitt der Verteilung wie „Genies“ dar- den Beginn der auch heute noch in der Intelli-
über. Als entscheidende Rechengröße erkann- genzforschung wichtigen Wortschatztests an-
te er dabei die Abweichung eines individuel- sehen. Esquirols Leistung liegt darin, dass er
len Messwertes vom Mittelwert der Verteilung. bereits Gradunterschiede der Intelligenz kann-
Dies bildete die Voraussetzung für die Korre- te und Methoden vorschlug, diese an bestimm-
lationsrechnung und führte direkt zur Entwick- ten Leistungen zu erkennen. Erst ein halb-
lung der Faktorenanalyse durch Charles Spear- es Jahrhundert später wurden ähnliche Ansät-
man (1904). Tatsächlich war es dann Spear- ze in der deutschen Psychiatrie durch Rieger
man, welcher der Diagnostik die spezifisch (1888), Kraepelin (1896) und Ziehen (1897)
mathematisch-statistische Form gab, die wir entwickelt. Ziehen reduzierte dabei die bis
heute als selbstverständlich ansehen. dahin sehr umfangreichen Untersuchungspro-
gramme auf die Erfassung des Gedächtnisses,
der Abstraktion sowie kombinatorischer Fä-
higkeiten. Von ihm wurden auch bereits erste
2.4 Die 2. Periode der Diagnostik: Überlegungen zum Konzept der Trennschär-
Ebbinghaus, Binet fe (I Kap. 3.3.3) von Items angestellt, ohne
dass jedoch Vorschläge für deren Berechnung
gemacht wurden. Immerhin zeigten alle diese
Entwickelte sich die Psychologische Diagnos- Tests eine wesentlich größere Nähe zu prak-
tik der ersten Phase in den Forschungslabors tischen Erfordernissen als die Tests Galtons
der Experimentalpsychologen, d. h. auch in ei- oder McKeen Cattells.
ner relativ großen Ferne zur Problemen des
Anwendungsbereichs, so standen am Beginn Auch Ebbinghaus (1850–1909), Experimen-
der 2. Periode der Diagnostik eher praktische talpsychologe wie Wundt und berühmt gewor-
Problemstellungen, insbesondere aus der Psy- den durch seine Gedächtnisuntersuchungen
chiatrie und der Pädagogik. So wie die Dia- (1885), entwickelte seinen bekannten Intel-
gnostik der 1. Periode in Francis Galton ihre ligenztest, den Lückentest (1897), aus einer
überragende Gestalt besaß, hat die eher prak- praktischen Problemstellung heraus. Er hatte
tisch orientierte Diagnostik der 2. Periode ih- von der Stadt Breslau den Auftrag erhalten,
ren hervorragenden Vertreter in Alfred Binet. zu bestimmen, ob der Vor- oder der Nach-
Auch Binet hatte, ähnlich wie Galton, frühe mittagsunterricht mit einer größeren Ermü-
Vorläufer, insbesondere Psychiater, die sich dung der Schüler verbunden sei. Er führte zur
mit dem Problem der Messung verschiedener Beantwortung dieser Frage u. a. in den ver-
Grade des „Schwachsinns“, also der intellek- schiedenen Stufen des Gymnasiums Gruppen-
tuellen Minderleistung, befassten. Intelligenzuntersuchungen durch mit einer Re-
chenmethode, einer Gedächtnismethode (Zah-
Bereits in der ersten Hälfte des 19. Jahrhun- len reproduzieren) und einer Kombinations-
derts hatten der französische Psychiater Es- methode (dem Lückentest) und registrierte da-
quirol und sein Schüler Séguin verschiedene bei eine deutliche Steigerung der Leistungen

17
2 Entwicklungslinien des wissenschaftlichen Diagnostizierens

mit dem Alter sowie eine positive Beziehung Platzierungsaufgabe (I Kap. 1) gegeben, de-
zwischen Test- und Schulleistung. Nach Gal- ren Lösung jedoch nicht den Lehrern überlas-
ton und noch vor Binet waren dies wohl die sen werden sollte. Man strebte einerseits an,
ersten praktisch verwendbaren Tests, die dem dass wirklich nur die sehr gering Leistungsfä-
Problem der Quantifizierung der Intelligenz higen ausgesucht würden, nicht aber auch die
sehr nahe kamen (Groffmann, 1983; vgl. auch „schwierigen“ Schüler, welche die Lehrer gern
Wiersma, 1902). Die Arbeiten hatten einen abgegeben hätten. Andererseits wollte man
direkten Einfluss auf Binet, der verschiedene aber auch möglichst alle schlechten Lerner er-
Ebbinghaus-Aufgaben für seinen Intelligenz- fassen, d. h. auch die Stillen und Unauffälligen
test übernahm. oder die Kinder aus wohlhabenderen Familien.
Ferner wollte man innerhalb der schlechten
Der französische Mediziner und Pädagoge Al- Lerner nochmals diejenigen auslesen, die im
fred Binet (1857–1911) hatte schon relativ Grunde nicht schulfähig waren. Binet erhielt
früh Versuche kritisiert, Intelligenz über die den Auftrag, entsprechende Auswahlmetho-
Messung einfacher sensorischer Funktionen den zu entwickeln. Seine Aufgabe war es da-
zu erfassen (Binet & Henri, 1895). Für ihn bei, eine präzise Klassifikation der Intelligenz,
spielten sich die entscheidenden geistigen Pro- zumindest im unteren Bereich, zu erreichen.
zesse, wie sie für das Problemlösen im All-
tag von Bedeutung sind, z. B. Beurteilen oder Aufbauend auf seinen Vorarbeiten und in Zu-
Schlussfolgern, auf einem höheren Komple- sammenarbeit mit dem Arzt Théophile Simon
xitätsniveau ab als die bislang untersuchten konnte er bereits ein Jahr später einen brauch-
Sinnesfunktionen; entsprechend hatten auch baren Intelligenztest vorlegen (Binet & Simon,
die Intelligenztests komplexer und vielfältiger 1905, 1908). Das Jahr 1905 stellt also mit der
zu sein. Veröffentlichung dieses Tests einen Meilen-
stein in der Entwicklung der Psychologischen
In seinen frühen Forschungen arbeitete er mit Diagnostik dar. Von diesem Test wurde bereits
durch Fremdbeurteilung gebildeten Extrem- sechs Jahre später eine deutsche Version von
gruppen als hoch bzw. niedrig intelligent ein- Bobertag (1911) vorgelegt. Wenige Jahre spä-
geschätzter Kinder und versuchte herauszu- ter wurde der Test von Terman in Stanford
finden, in welchen verschiedenen intellektuel- in den USA überarbeitet, so dass er auch auf
len Bereichen sich diese Gruppenunterschiede normal- und überdurchschnittlich intelligen-
manifestierten. Er fand dabei, dass die ein- te Kinder sowie Erwachsene anwendbar war
fachen Funktionstests in der Tradition Gal- (Terman, 1916). Dieser Stanford-Binet-Test
tons nicht sehr gut zwischen den Gruppen bildete für ein halbes Jahrhundert die Grund-
trennten. Stattdessen erwiesen sich komplexe- lage der Intelligenzdiagnostik. In den Jahren
re („lebensechtere“) Aufgaben wie Rechnen, 1911 und 1912 legte William Stern mehre-
moralische Beurteilung oder Schlussfolgern re Veröffentlichungen vor, in denen er eine
als trennscharf. Systematisierung der Forschungen zur Intelli-
genzmessung und als Maßeinheit der Intelli-
Im Jahr 1904 erhielt Binet die Chance, seine
genz den Intelligenzquotienten (IQ) vorschlug
Forschungen im großen Stil praktisch anzu-
(Stern, 1912; zusammenfassend Stern, 1920).
wenden. Den Schulbehörden war der hohe Pro-
zentsatz langsam oder nicht lernender Schüler Anders als Galton legte Binet seinen Arbeiten
in den Volksschulen aufgefallen. Eine Kom- keine bestimmte Theorie der Intelligenz zu-
mission des französischen Unterrichtsminis- grunde, sondern ging von unbestreitbaren Be-
teriums beschloss deshalb, für diese Schüler obachtungen alltäglichen Problemlösens bei
Sonderschulen einzurichten. Damit war eine Kindern aus. Die zentrale Beobachtung, die

18
2.4 Die 2. Periode der Diagnostik: Ebbinghaus, Binet

Ebbinghaus bereits zuvor empirisch gesichert Obwohl die Anzahl der Aufgaben pro Alters-
hatte, war, dass Kinder mit zunehmendem Al- stufe (noch) nicht gleich war, wurde mit dieser
ter immer schwierigere Aufgaben lösen kön- Anordnung das Intelligenzalter als Maß der
nen und über ein immer größeres Wissen ver- Intelligenz formal eingeführt. Die Altersstu-
fügen. Daraus schloss Binet, dass die Intel- fe, bis zu der alle Aufgaben (mit der Toleranz
ligenzleistung mit dem Alter steigt. Auf in- einer Aufgabe) gelöst wurden, bestimmte das
dividuelle Differenzen bezogen bedeutet die- Grundalter der Intelligenz. Für jeweils fünf zu-
se Beobachtung, dass ein Kind umso intelli- sätzlich gelöste Aufgaben wurde ein weiteres
genter ist, je früher es derartige Problemlöse- Jahr hinzugefügt. Diese noch vergleichswei-
und Wissensaufgaben richtig beantwortet. Die se grobe Einschätzung der Intelligenz wurde
aktuelle kognitive Leistung ist für Binet also dann in einer weiteren Revision (Binet & Si-
durch zwei Größen bestimmt, die individuelle mon, 1911) dadurch verfeinert und formali-
Intelligenz und das Lebensalter. siert, dass pro Altersstufe (außer für die Vier-
jährigen) fünf Aufgaben vorgelegt wurden.
Diese Beobachtungen führten Binet zu der
seinerzeit bahnbrechenden Überlegung, In- Relativ vage blieb Binet bei der Antwort auf
telligenz dadurch messbar zu machen, dass die Frage, wie denn die Altersangemessenheit
verschieden schwierige Aufgaben konstru- einer Aufgabe zu bestimmen sei. (Tatsächlich
iert und nach steigender Schwierigkeit an- wurden einzelne Aufgaben in den verschie-
geordnet werden. Die erste derartige „metri- denen Revisionen auch unterschiedlichen Al-
sche Intelligenzleiter“ (échelle métrique de tersstufen zugeordnet.) Durchgesetzt hat sich
l’intelligence) bestand aus 30 Aufgaben (Bi- schließlich der Vorschlag Bobertags (1911),
net & Simon, 1905). Indem bestimmt werden eine Aufgabe als altersgemäß zu definieren,
konnte, welcher Schwierigkeitsgrad von jeder wenn sie von 75 % der betreffenden Alters-
Altersgruppe im Durchschnitt gemeistert wird, gruppe gelöst wurde. Eine empirische Bestim-
ließ sich für einzelne Kinder feststellen, ob mung der Altersangemessenheit leitet sich na-
diese das Durchschnittsniveau ihrer Altersge- türlich aus einem Vergleich von Intelligenz-
nossen übertreffen (also überdurchschnittlich und Lebensalter ab. Über eine größere Zufalls-
intelligent sind), diesem Niveau entsprechen stichprobe von Kindern müssen beide Werte
oder es unterschreiten. gleich sein. Ist dies nicht der Fall, dann sind
die Aufgaben im Durchschnitt entweder zu
Eine erste Modifikation dieses Testformats
leicht oder zu schwierig.
wurde von Binet und Simon 1908 vorgenom-
men. Die Anzahl der Aufgaben wurde auf 49 Eine weitere Schwierigkeit des Binetschen An-
erhöht, der Bereich der erfassten Altersstufen satzes ist im Konzept des Intelligenzalters be-
auf 3 bis 13 Jahre erweitert. Darüber hinaus gründet. Da gleiche Abstände zum Lebensalter
wurden, als wichtigste Neuerung, für jede Al- auf unterschiedlichen Altersstufen nicht das-
tersstufe systematisch mehrere Aufgaben kon- selbe bedeuten, lassen sich mit diesem Maß
struiert. Aufgaben aus der Reihe für Achtjähri- Kinder verschiedenen Alters nur schwer ver-
ge bestanden beispielsweise darin, den Unter- gleichen. (So ist beispielsweise ein Zwölfjäh-
schied zwischen Schmetterling und Fliege zu riger mit einem Intelligenzalter von 10 weni-
nennen oder in einer Vorlage Bilderlücken zu ger „zurückgeblieben“ als ein Sechsjähriger
ergänzen. Zwölfj1ährige sollten etwa abstrak- mit einem Intelligenzalter von 4.) Um das In-
te Wörter definieren oder bestimmte Wörter telligenzniveau von Menschen verschiedenen
zu einem korrekten Satz ordnen. (Für eine de- Alters miteinander zu vergleichen, also ein al-
taillierte Beschreibung der Intelligenzmessung tersunabhängiges Intelligenzmaß zu gewinnen,
I Kap. 12.) schlug Stern (1912) vor, Intelligenzalter und

19
2 Entwicklungslinien des wissenschaftlichen Diagnostizierens

Lebensalter zueinander ins Verhältnis zu set- liegt heute den meisten Intelligenzbestimmun-
zen. Multipliziert man diesen Quotienten mit gen zugrunde.
100, so erhält man den Intelligenzquotienten
(IQ). Angesichts der Tatsache, dass die Intelligenz-
tests dieser Periode besonders zur Auslese in
Der Vorschlag Sterns ist auf den ersten Blick
Schulen eingesetzt wurden, erwiesen sich Er-
überzeugend. Dementsprechend wurde das In-
hebungen mittels der auf die Einzelfalldiagno-
telligenzniveau, nachdem Terman (1916) die-
stik ausgelegten Verfahren in der Tradition
sen IQ in seinem Stanford-Binet-Test erstmals
Binets als recht zeitaufwändig. Deshalb ex-
verwendet hatte, lange Zeit in der von Stern
perimentierten Pädagogen und Psychologen
vorgeschlagenen Weise berechnet. Dennoch
schon recht bald nach Erscheinen des Binet-
enthält dieser Ansatz eine gravierende Schwie-
Tests mit verschiedenen Formen von Gruppen-
rigkeit, die dazu geführt hat, dass das Maß,
Intelligenztests (Übersicht bei Hylla, 1927).
welches heutzutage als „IQ“ bezeichnet wird,
Keiner dieser Ansätze wurde jedoch bis zur
nichts mehr mit dem von Stern vorgeschla-
Testreife weitergeführt. Der erste brauchba-
genen Quotienten zu tun hat. Soll nämlich
re und über mehrere Jahrzehnte eingesetzte
der IQ eines Menschen, wie im Konzept der
Gruppen-Intelligenztest (Group Examination
Intelligenz impliziert, über die Lebensspan-
mit den Formen Alpha und Beta) wurde statt-
ne einigermaßen stabil bleiben, so muss in
dessen während des 1. Weltkrieges in den USA
etwa ein linearer Zusammenhang zwischen
zur Prüfung von Angehörigen des Militärs ent-
Alters- und Leistungszunahme bestehen. Tat-
wickelt (Yoakum & Yerkes, 1920).
sächlich findet sich zwischen beiden Varia-
blen jedoch eine negativ beschleunigte Funkti- Mit Binet beginnt die „zweite Periode“ der
on, wie sie auch für andere Wachstumsprozes- Testentwicklung, die sich von der vorherge-
se typisch ist. Zunächst zeigt sich eine starke henden Periode, für die die Namen Galton und
Zunahme der Leistungsfähigkeit mit dem Al- McKeen Cattell stehen, durch folgende Merk-
ter; mit voranschreitendem Alter wird diese male unterscheidet:
Zunahme immer geringer, bis – etwa bei 16
Jahren – ein Plateau erreicht wird, also kein
1. Statt sehr einfacher Aufgaben mit vermut-
weiteres Wachstum stattfindet. Das bedeutet,
lich nur schwacher Beziehung zum zu dia-
dass Sechzehnjährige im Prinzip alle Aufga-
gnostizierenden Merkmal (also zur Intelli-
ben lösen können, die auch ältere Personen
genz) finden sich komplexere Aufgaben mit
lösen. Um die Intelligenz von Erwachsenen
engerer Beziehung zu diesem Merkmal.
trotzdem mittels des IQ auszudrücken, setzte
2. Die Erfassung komplexerer Vorgänge, auch
Terman (1916) für ältere Personen konstant
wenn diese mit einer geringeren Zuver-
ein Lebensalter von 16 fest.
lässigkeit erkauft wird, ist auch praktisch
Diese vergleichsweise unelegante Hilfskon- brauchbarer (z. B. für die Platzierung) als
struktion wurde von Wechsler (1939) in sei- das Messen einfacher Qualitäten im Sinne
nem neukonstruierten Test durch einen sog. von Galton oder Cattell.
„Abweichungsquotienten“ ersetzt. Dieser neue 3. Die individuelle Leistung wird nicht mehr,
IQ ist tatsächlich kein Quotient, sondern ein wie bei einigen der Galton-Tests, isoliert mit
linear transformierter z-Wert, also ein Stan- Hilfe physikalischer Skalen (cm, Hz etc.)
dardwert, der das Intelligenzniveau jedes Indi- gemessen, sondern es wird die Beziehung
viduums durch seine Position in der Verteilung einer Leistung zu den Leistungen einer Ver-
einer Referenzgruppe ausdrückt (I Kap. 3). gleichsgruppe (ausgedrückt in der Anzahl
Das von Wechsler vorgeschlagene Vorgehen gelöster Aufgaben) erfasst. Es findet also

20
2.5 Der Beginn der Persönlichkeitsdiagnostik

ein Rekurs auf Normen, in der Regel Alters- Merkmale, die sich gut kontrolliert im Labor
normen, statt. Dies impliziert z. B., dass der untersuchen ließen, meist nur eine schwache
Wert 0 nicht eine Null-Ausprägung, z. B. ei- Beziehung zu den psychologischen Aufgaben-
ne „Null“-Intelligenz, bezeichnet. Bei Binet stellungen außerhalb des Labors. Diejenigen
heißt dieser an Normen orientierte Wert „In- Aspekte menschlichen Verhaltens, welche die
telligenzalter“, bei Stern „IQ“. Bei Wechsler Gesellschaft am meisten interessierten, waren
wird daraus dann ein Standardwert. zugleich auch am schwierigsten kontrolliert zu
4. Ein weiterer Vorzug der Tests Binets ist die untersuchen und wurden deshalb häufig nicht
Einteilung in viele kleine Aufgaben, von de- weiter erforscht. Bezeichnenderweise waren
nen jede einzelne im Hinblick auf die Erfor- es deshalb auch nicht Experimentalpsycholo-
dernisse des Ganzen geprüft wird. Demge- gen, sondern in erster Linie Ärzte und Pädago-
genüber erfasste Galton Intelligenz jeweils gen, also Menschen, die in ihrer Praxis häu-
über eine Einzelaufgabe. Bei Binet liegen al- fig mit konkreten psychologischen Problemen
so die Anfänge der Itemanalyse, da er seine konfrontiert wurden, welche die 2. Periode der
Items bereits empirisch auf ihre Brauchbar- Diagnostik einleiteten.
keit hin überprüfte.
5. Der Verwendung sehr elementarer Tests Dieser Umstand wird noch deutlicher, wenn
liegt bei Galton die Vorstellung zugrunde, man von der Geschichte der Fähigkeits- und
dass Intelligenzunterschiede eine biologi- Leistungsdiagnostik übergeht zur Entwicklung
sche Grundlage haben. Demgegenüber re- der Persönlichkeitsdiagnostik i. e. S., die sich
flektieren die komplexen, stark praxisorien- auf emotionale und motivationale Eigenschaf-
tierten Aufgaben Binets dessen Auffassung, ten sowie Werte und Einstellungen von Per-
dass Intelligenzunterschiede eher auf Um- sonen richtet. Zwar gehören auch Fähigkei-
welteinflüsse zurückzuführen sind. ten, einschließlich der Intelligenz, zu den Per-
6. Obwohl Binet nicht das Galtonsche Kon- sönlichkeitsmerkmalen, die typische Zielset-
zept der Intelligenz als einer allgemeinen zung von Leistungs- und Fähigkeitstests ist
kognitiven Fähigkeit vertrat, nahm er an- jedoch eine andere als die von Persönlichkeits-
dererseits auch keine speziellen Bereiche tests i. e. S. Während die ersten nach Cronbach
kognitiver Fähigkeiten an und versuchte (1990) die „maximale Leistung“ erfassen sol-
dementsprechend auch keine Binnendiffe- len, zielen letztere meist auf die Registrierung
renzierung innerhalb der Aufgaben einer des „typischen Verhaltens“ (I Kap. 3).
Altersreihe. In das von Binet verwendete
Maß der Intelligenz, das „Intelligenzalter“,
gehen vielmehr die Lösungen aller vom
Probanden bearbeiteten Aufgaben gleichge- 2.5 Der Beginn der
wichtig ein. Dieses Maß lässt sich deshalb Persönlichkeitsdiagnostik
am ehesten als Ausdruck der mittleren intel-
lektuellen Leistungsfähigkeit einer Person
auffassen. Noch mehr als die Intelligenzdiagnostik der
2. Periode wurde die beginnende Persönlich-
Die wissenschaftliche Psychologie der 2. Hälf- keitsdiagnostik von den Erfordernissen der
te des 19. Jahrhunderts und damit auch die Praxis, insbesondere der psychiatrischen Pra-
sich aus ihr entwickelnde Diagnostik der sog. xis, geprägt. Deshalb stehen am Beginn der
1. Periode waren stark am streng kontrollier- Persönlichkeitsdiagnostik, der etwa 25 Jahre
ten Laborexperiment orientiert. Unglücklicher- später als der der Intelligenzdiagnostik anzu-
weise hatten jedoch diejenigen psychischen setzen ist, durchweg die Namen von Ärzten.

21
2 Entwicklungslinien des wissenschaftlichen Diagnostizierens

Wichtige Vertreter sind die französischen Psy- Auf Galton geht nicht nur die Anregung zur
chiater Charcot und Janet, der deutsche Psy- Konstruktion von Fragebogen zurück, sondern
chiater Kraepelin, ferner Freud und Jung so- auch die Idee, einen „psycholexikalischen“
wie der britische, später in Amerika lebende, Ansatz zur Bestimmung zentraler Persönlich-
Mediziner McDougall. keitsdimensionen zu verfolgen (Galton, 1884).
Galton argumentierte, dass zentrale Dimensio-
Entsprechend der psychiatrischen Orientie-
nen menschlichen Verhaltens in der natürli-
rung der frühen Persönlichkeitsdiagnostik wur-
chen Sprache gespeichert sind. Entsprechend
de dabei neben objektiv beobachtbarem Ver-
sollten von einer systematischen Analyse die-
halten verstärkt Gewicht auf die subjektive Er-
ser Sprache auch wesentliche Impulse zur Auf-
fahrung des Klienten als Mittel der Diagnose
deckung dieser Dimensionen ausgehen.
gelegt. Viele Probleme einer Person entstehen
ja erst durch deren subjektive Sichtweise. Des- Als erster ausgearbeiteter Persönlichkeitstest
halb interessieren derartige Stellungnahmen in Fragebogenform gilt allgemein die von Ro-
manchmal mehr als objektiv registrierbare Re- bert Woodworth erstellte Personal Data Sheet
aktionen. Die klassischen Zugangsmittel zu (Woodworth, 1918). Dies ist nicht ganz kor-
subjektiven Erfahrungen sind natürlich Inter- rekt, denn bereits 1906 bis 1909 veröffentlich-
view und Fragebogen. Es ist deshalb verständ- ten die Holländer Heymans und Wiersma und
lich, dass diese Formen der Datenerhebung 1915 der englische Spearman-Schüler Lankes
auch am Beginn der Persönlichkeitsdiagnostik Fragebogen zur Erfassung spezieller Persön-
stehen. lichkeitsmerkmale, z. B. der Perseverationsten-
denz oder der emotionalen Instabilität, wobei
Wie schon erwähnt, hatte Galton 1883 im Rah-
es sich bei Heymans und Wiersma allerdings
men seiner sensorischen Tests auch einen Fra-
um Ratingskalen zur Fremdbeurteilung han-
gebogen zur Prüfung von Vorstellungsbildern
delte (vgl. u. a. Heymans & Wiersma, 1906).
entwickelt. Wenn dies wohl auch der erste be-
Da aber der Woodworth-Test als der Stammva-
kannt gewordene Fragebogen sein dürfte, so
ter moderner Fragebogen bezeichnet werden
war seine Zielsetzung doch eine andere als
kann, soll seine Geschichte kurz beschrieben
die späterer Fragebogen. Während bei den
werden.
späteren Fragebogen aus den Antworten auf
viele Fragen ein Summenscore gebildet wur- Als Folge des Eintritts in den 1. Weltkrieg
de, der dann Index für die Ausprägung eines mussten in den USA Truppen zur Verschif-
bestimmten „latenten“ Persönlichkeitsmerk- fung nach Europa zusammengestellt werden.
mals, z. B. „neurotische Tendenz“ sein sollte, Dabei zeigte sich, dass viele Soldaten von ih-
wertete Galton seine Fragen einzeln aus und rer psychischen Konstitution her dem Einsatz
zog dann Schlüsse auf in der Person ablau- im Kampf offenbar nicht gewachsen waren.
fende Prozesse. Sein Fragebogen ähnelte in Es stellte sich also eine Selektionsaufgabe,
Aufbau und Auswertung also mehr heutigen wie wir sie schon aus der erwähnten Episo-
Fragelisten bei bestimmten medizinischen Un- de aus dem Alten Testament kennen. Psychi-
tersuchungen als modernen psychologischen atrische Einzelinterviews erwiesen sich dabei
Fragebogen. Wenig später legte der Wundt- bald angesichts der anstehenden Personenzah-
Schüler G. Stanley Hall in den USA einen Fra- len als unpraktikabel. Das brachte Woodworth
gebogen vor, der aber noch nicht speziell auf auf den Gedanken, Interviews schriftlich statt
die Erfassung interindividueller Differenzen mündlich und gleich einer großen Gruppe statt
zielte, sondern auf die Untersuchung von Ent- Einzelpersonen darzubieten. Er sammelte da-
wicklungsverläufen, speziell bei Jugendlichen zu die von den Psychiatern standardmäßig ge-
(Hall, 1891). stellten Fragen, z. B. „haben Sie häufig Tag-

22
2.5 Der Beginn der Persönlichkeitsdiagnostik

träume?“, und bildete daraus eine aus 116 rate und vermehrtem Schwitzen, auf einen
Items bestehende Frageliste, die der Proband „Mutter-Komplex“ hinweisen (Jung, 1919).
mit „ja“ oder „nein“ zu beantworten hatte. Von Die Grundidee dieses Assoziationsverfahrens
diesem ersten Fragebogen wurden andere ab- besteht also darin, einen Reiz vorzugeben, auf
geleitet, darunter auch der bekannteste Frage- den „Normal“-Probanden unauffällig reagie-
bogen überhaupt, das Minnesota Multiphasic ren, der aber vermutlich von einigen Perso-
Personality Inventory (MMPI; Hathaway & nen problembezogen erlebt wird. Nach der Art
McKinley, 1943; I Kap. 10). ihres Reagierens (im Wesentlichen über ver-
längerte Reaktionszeiten) soll man dann die-
Mehr noch als Fragebogen gelten, besonders se Personen identifizieren können. Allerdings
bei psychologisch interessierten Laien, die pro- fällt es mit Hilfe dieser Assoziationsmethode
jektiven Verfahren als die Tests der Persön- schwer, inhaltliche Aussagen über die Art des
lichkeit schlechthin. Unter diesen Verfahren Erlebens eines Reizes zu machen.
ist zweifellos der Rorschach-Test, der später
(I Kap. 11) noch genauer dargestellt wird, der Rorschach griff bei seinem 1921 veröffent-
bekannteste. Mit einer kurzen Darstellung sei- lichten Test deshalb auf ein Verfahren zurück,
ner Entwicklung soll deshalb dieses Kapitel das sowohl als Gesellschaftsspiel, Mittel zur
abgeschlossen werden. künstlerischen Anregung als auch als diagno-
stisches Instrument bereits gut bekannt war.
Der Schweizer Psychiater Hermann Ror- Die Provozierung von Reaktionen durch Vor-
schach (1884–1922) war Schüler von Carl Gu- gabe unstrukturierten Materials, in diesem Fall
stav Jung (1875–1961), der zunächst ein An- beinahe symmetrischer Tintenkleckse, hatten
hänger und Vertrauter und später ein Gegner vor Rorschach bereits Alfred Binet (Binet &
Sigmund Freuds war. Jung führte den Wort- Henri, 1895) und der Amerikaner Dearborn
assoziationstest zur Registrierung emotiona- (1897) zur Prüfung der Phantasie vorgenom-
ler Reaktionen in die Psychologie ein (Jung, men. Dearborn hatte dabei auch bereits nach
1910). In diesem Test wird dem Probanden Schwierigkeit abgestufte Serien von Tinten-
eine Standardliste von Wörtern nacheinander klecksen und genaue Auswertungsanleitungen
vorgelesen. Der Proband soll dabei mit dem erarbeitet.
ersten Wort, das ihm einfällt, antworten. Dabei
interessiert den Auswerter nicht nur der Inhalt
Es ist das Verdienst Rorschachs, diese Serie
der Assoziation, sondern auch die Zeit bis zurauf wenige Reize, nämlich zehn Tafeln, ver-
Abgabe der Antwort sowie das Ausmaß emo- kürzt und dabei auch mehrfarbige Vorlagen
tionaler Reaktionen während der Darbietung aufgenommen zu haben. Darüber hinaus stell-
bestimmter Wörter. Dieses Paradigma bildete te er ein formales Auswertungsschema auf,
auch die Grundlage der nach dem 2. Weltkrieg nach welchem die Gesamtzahl aller Deutun-
etablierten und seinerzeit sehr populären For-gen für jede Figur, die Zahl der Ganz- und
schung zur sog. „Wahrnehmungsabwehr“ (per- Detailantworten, der Form-, Farb- und Bewe-
ceptual defense; vgl. u. a. Bruner & Postman, gungsantworten und schließlich die Arten der
1947; siehe auch Krohne, 2010). Deutungsinhalte (Menschen, Tiere, Körpertei-
le usw.) statistisch ausgewertet und zu einzel-
Für Jung war die Wortassoziation ein Weg nen Persönlichkeitsmerkmalen in Beziehung
zu den „Komplexen“ einer Person, d. h. ei- gesetzt werden können.
ner Konstellation unbewusster Gedanken, Er-
innerungen und Gefühle. So würde nach Jung Die Vielzahl der Auswertungsmöglichkeiten
z. B. ein Zögern auf das Reizwort „Mut- (in der Rorschach-Terminologie „Signierun-
ter“, vielleicht verbunden mit erhöhter Herz- gen“ genannt) und deren relativ „lose“ An-

23
2 Entwicklungslinien des wissenschaftlichen Diagnostizierens

bindung an einzelne Persönlichkeitsdisposi- Weiterführende Literatur


tionen, damit aber auch die „Offenheit“ für
die Aufdeckung neuer Zusammenhänge, ha-
Ausführlichere Darstellungen zur Geschichte
ben zweifellos zur enormen Popularität die-
der Diagnostik finden sich in DuBois (1970),
ses Verfahrens beigetragen. Rorschach selbst
zur Geschichte der Psychologie insgesamt in
hat seinen Test nicht als projektiven, sondern
Lück und Guski-Leinwand (2014).
als Wahrnehmungstest bzw. -experiment be-
zeichnet. Er vertrat dabei Auffassungen über
den Wahrnehmungsvorgang, die durchaus im
Sinne der funktionalistischen Wahrnehmungs- Fragen zur Wissenskontrolle
theorie zu sehen waren, die Bruner und Mitar-
beiter etwa 25 Jahre später unter dem Namen 1. Welche Ergebnisse fand Wissler bei einer
Hypothesen-Informationstheorie (bzw. popu- kritischen Analyse der Brauchbarkeit sog.
lärer „New look“) vorlegten und etwa im Rah- „Mental Tests“ und was lässt sich wiederum
men von Experimenten zur „sozialen Wahr- an der Studie Wisslers kritisieren?
nehmung“ („going beyond the information gi- 2. Welches Maß führte Binet zur Bestimmung
ven“) überprüften (Bruner, 1951). der Intelligenz bei Kindern ein? Was ist am
Der Name „projektiv“ für dieses und scheinbar Vorgehen Binets kritisch und wie versuchte
ähnliche Verfahren wurde erst nach dem frü- Stern dieses Problem zu beheben?
hen Tod Rorschachs durch Horowitz und Mur- 3. Wie bestimmte Wechsler, ausgehend von
phy (1938) eingeführt und anschließend durch den Vorschlägen Sterns und Termans, die
den amerikanischen Psychiater Frank (1948) Intelligenz?
popularisiert. Damit wurde das Verfahren aus 4. Durch welche Merkmale unterscheiden sich
dem Kontext und dem Fortschreiten der expe- die Ansätze Galtons und Binets bei der In-
rimentellen Wahrnehmungs- und Kognitions- telligenzmessung?
forschung herausgelöst und in einen umstrit- 5. Wie ist der erste ausgearbeitete Persönlich-
tenen theoretischen Begründungszusammen- keitsfragebogen entstanden?
hang gestellt, zentriert um das im Grunde wis- 6. Von welchen Vorstellungen ging Rorschach
senschaftlich wenig fruchtbare Konzept der bei der Konstruktion seines Testverfahrens
„Projektion“. (Zur Kritik des Projektionsbe- aus?
griffs siehe u. a. Erdelyi, 1985; Holmes, 1968;
Hörmann, 1982.) Entsprechend basieren die
meisten der inzwischen zigtausend Arbeiten
zum Rorschach-Test weniger auf einem theo-
retisch und empirisch einigermaßen abgesi-
cherten Fundament als auf nicht belegten Be-
hauptungen. Auf diese Probleme wird noch
gesondert in I Kap. 11.5 eingegangen.

24
II Konstruktion und Überprüfung
von Testverfahren
3 Merkmale und Gütekriterien psychologischer
Tests

3.1 Merkmale psychologischer Testverfahren . . . . . . . . . . . . . . . . . . . 28


3.1.1 Definition von Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1.2 Aktuelles Verhalten und Persönlichkeitsmerkmale . . . . . . . . . . . 31
3.1.3 Typisches und „maximales“ Verhalten . . . . . . . . . . . . . . . . . . 34
3.1.4 Illustrative Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.5 Testwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Zusammenstellung von Items . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.1 Konstruktdefinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.2 Erstellung der Itemmenge . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.3 Itemformulierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.4 Antwortformate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.3 Itemkennwerte und Testwertverteilung . . . . . . . . . . . . . . . . . . . . . 48
3.3.1 Schwierigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.2 Streuung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3.3 Trennschärfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.3.4 Verteilung der Testwerte . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.4 Reliabilität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.4.1 Wahrer Wert und Fehler . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.4.2 Reliabilität und Standardfehler der Messung . . . . . . . . . . . . . . . 56
3.4.3 Verfahren zur Reliabilitätsbestimmung . . . . . . . . . . . . . . . . . 61
3.4.4 Bewertung der Reliabilität . . . . . . . . . . . . . . . . . . . . . . . . 68
3.5 Validität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.5.1 Inhaltsvalidität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.5.2 Kriteriumsvalidität . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.5.3 Konstruktvalidität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.6 Normen und Bezugssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.6.1 Normorientierte Vergleiche . . . . . . . . . . . . . . . . . . . . . . . . 76
3.6.2 Kriteriumsorientierte Vergleiche . . . . . . . . . . . . . . . . . . . . . 82
3.6.3 Individuelle und ipsative Vergleiche . . . . . . . . . . . . . . . . . . . 83
3.7 Testbewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

27
3 Merkmale und Gütekriterien psychologischer Tests

Psychologische Diagnostik stützt sich zu ei- Hilfe von Skalen (numerische Beschrei-
nem großen Teil auf Information aus Testver- bung) oder Kategorien (klassifizierende Be-
fahren. Für die sachgerechte Bewertung dieser schreibung) dienen.
Information ist das Verständnis grundlegender
Prinzipien des Testaufbaus sehr hilfreich. Im Das wichtigste Charakteristikum von Tests
vorliegenden Kapitel charakterisieren wir da- steckt hier im Wort systematisch und meint,
her zunächst die zentralen allgemeinen Eigen- dass alle Personen, die den Test absolvieren,
schaften psychologischer Testverfahren. Wir mit den gleichen Anforderungen konfrontiert
werden sehen, dass psychometrische Tests re- werden, also z. B. dieselben Aufgaben bear-
lativ strikten Gütekriterien, insbesondere Ob- beiten. Im Hinblick auf Art und Komplexität
jektivität, Reliabilität und Validität genügen der Anforderung sowie der jeweils verlang-
müssen. ten Antwort oder Reaktion ist diese Definition
vollkommen offen: Es kann sich um das An-
Im zweiten Abschnitt des Kapitels werden Ge-
kreuzen von Antwortoptionen in einem Frage-
sichtspunkte für die Zusammenstellung von
bogen, die Lösung von Dreisatzaufgaben, das
Items, also Aufgaben bzw. Fragen, aus de-
Schreiben eines Essays zu einem vorgegebe-
nen sich Tests zusammensetzen, behandelt. Im
nen Thema, das Drücken einer Taste auf ein
Anschluss stellen wir wichtige Aspekte der
vereinbartes Signals hin, das Sortieren eines
statistischen Item- und Testanalyse und deren
Stapels von Briefen nach Dringlichkeit oder
Grundlagen dar. Von zentraler Bedeutung sind
das Rückwärts-Einparken in eine enge Lücke
dabei die Konzepte Reliabilität und Validität,
handeln.
die im Rahmen der sog. Klassischen Testtheo-
rie ausgearbeitet wurden. Schließlich werden Das zweite wesentliche Charakteristikum von
Bezugssysteme zur Einordnung und Interpre- Tests besteht darin, dass die anfallenden Be-
tation von Testergebnissen vorgestellt, wobei obachtungen mit Hilfe von Skalen oder Kate-
besonders auf Möglichkeiten zur Normierung gorien beschrieben werden. Numerische Ska-
von Testverfahren eingegangen wird. Ein Aus- len erlauben quantitative Aussagen über den
blick auf weitere Gesichtspunkte zur Bewer- interessierenden Verhaltensaspekt, z. B. Per-
tung von Tests beschließt das Kapitel. sönlichkeitsmerkmale. Die Merkmale werden
mit Zahlen beschrieben, welche die Stärke
der Merkmalsausprägung reflektieren. Das be-
3.1 Merkmale psychologischer kannteste Beispiel hierfür dürfte der Intelli-
Testverfahren genzquotient sein. Mit anderen Tests werden
die beobachteten Verhaltensaspekte in definier-
te Kategorien eingeordnet, also klassifiziert.
3.1.1 Definition von Tests Kategorien- oder Klassifikationssysteme fin-
den z. B. in der klinisch-psychologischen Dia-
Der Begriff Test wird in der Literatur unter- gnostik breite Anwendung. Hier geht es etwa
schiedlich weit gefasst. Wir gehen im Folgen- um die Frage, ob ein beobachtetes Verhaltens-
den von Cronbachs (1990, S. 32) relativ weiter muster als Anzeichen einer Angststörung oder
Definition aus. einer Depression zu werten ist.

Definition Test Mit Tests können nicht nur Person-, sondern


auch Umweltmerkmale, also erlebens- und
Psychologische Tests sind Instrumente, die verhaltensrelevante situative Bedingungen, er-
der systematischen Beobachtung und Be- fasst werden. Ein Beispiel hierfür wäre ein
schreibung von Erleben und Verhalten mit Test zur Erfassung der Beziehungsstruktur in

28
3.1 Merkmale psychologischer Testverfahren

Familien. Man könnte diese Eigenschaft ex- geren Definitionen nicht als Tests angesehen
plizit in die Definition psychologischer Tests – zumindest nicht als psychometrische Tests.
mit aufnehmen. Da hier jedoch meist eben- Man spricht hier von testähnlichen Verfahren
falls Erlebens- und Verhaltensaspekte erfasst oder informellen Tests. Hiermit wird angedeu-
werden (etwa soziales Verhalten oder Merk- tet, dass diese Verfahren einige, aber nicht
male von Interaktionsprozessen), erscheint uns sämtliche Anforderungen an psychometrische
Cronbachs Definition umfassend genug. Instrumente erfüllen. Diese Anforderungen,
die als Testgütekriterien bezeichnet werden,
Tests sind nicht die einzige Form systema-
beinhalten
tischer Beobachtung, in denen Zahlen oder
Kategorien zur Beschreibung von Verhalten 1. Objektivität bei der Durchführung, Auswer-
herangezogen werden. Kennzeichnend für das tung und Interpretation,
Testen ist es, dass die Untersuchungssituati- 2. Reliabilität (Zuverlässigkeit, Messpräzisi-
on und die Art der Reaktionsmöglichkeiten on),
relativ stark vorstrukturiert sind. Bei anderen 3. Validität (Gültigkeit; Erfassung des interes-
Formen der Beobachtung dagegen bleiben die sierenden Merkmals) und
Ausgestaltung der Situation und die Art der 4. Nutzen für Beurteilungen, Vorhersagen,
gezeigten Verhaltensweisen den beobachteten Empfehlungen und Entscheidungen.
Personen selbst überlassen (etwa beim Inter-
view oder der systematischen Verhaltensbe- Objektivität. Die Forderung nach Objekti-
obachtung; I Kap. 8 und 9). Die Beobach- vität zielt auf die Vergleichbarkeit der Test-
tung und Registrierung aggressiver Handlun- ergebnisse verschiedener Personen. Ein Ver-
gen von Kindern während der Pause in einer fahren wird als objektiv bezeichnet, wenn die
Grundschule würde man beispielsweise nicht Testergebnisse sowie die aus den Ergebnissen
als Testen bezeichnen, auch wenn die Unter- gezogenen Schlussfolgerungen von den kon-
sucher hierbei methodisch stringent vorgehen kreten, jeweils variierenden Bedingungen der
und genau definierte Kategorien und Skalen Testdurchführung und -auswertung unabhän-
zur Verhaltensbeschreibung nutzen. gig sind. Zu diesen Bedingungen gehören ganz
wesentlich die Personen, die den Test anwen-
Da unsere von Cronbach (1990) übernom- den und auswerten: Für die Testergebnisse soll
mene Definition relativ weit ist, umfasst sie es unerheblich sein, wer den Test durchführt,
auch eine Reihe von Verfahren, mit denen auswertet oder die Testbefunde interpretiert.
wir im Alltag konfrontiert sind. In Schule
und Hochschule bearbeiten wir Eingangs- und Es ist üblich, bei der Objektivität zwischen den
Zulassungstests, schreiben Klausuren und le- Aspekten der Durchführungs-, Auswertungs-
gen mündliche Prüfungen ab. Die meisten von und Interpretationsobjektivität zu unterschei-
uns haben den schriftlichen und praktischen den. Diese Aspekte beziehen sich auf die Pha-
Teil der Führerscheinprüfung absolviert, ein sen, die im Rahmen einer diagnostischen Un-
mehr oder weniger strukturiertes Bewerbungs- tersuchung zu durchlaufen sind. Durchfüh-
gespräch geführt usw. Auch in Prüfungen und rungsobjektivität wird durch Standardisierung
prüfungsanalogen Situationen werden Zahlen der Testprozedur gesichert. In standardisier-
(z. B. Punkte in einer Klausur) oder Kategori- ten Tests sind die Anleitungen, das Material,
en (bestanden/nicht bestanden) verwendet, um die Art der Testvorgabe sowie andere Merk-
Leistungen oder andere Verhaltensaspekte zu male der Testsituation, die für die Resultate
bewerten oder zu klassifizieren. Obgleich die- relevant sind, genau fixiert. Auswertungsob-
se Verfahren bestimmte Ausschnitte mensch- jektivität bezieht sich auf die Registrierung
lichen Verhaltens erfassen, werden sie in en- der in einem Test anfallenden Daten und deren

29
3 Merkmale und Gütekriterien psychologischer Tests

Kombination bzw. Verrechnung zu Testwerten, werden, ist es, Grundlagen für die empirische
Interpretationsobjektivität auf weitere Schluss- Bestimmung der Reliabilität zu liefern.
folgerungen, die auf der Grundlage der Testre-
sultate gezogen werden. Tests, die diesen An- Validität. In Tests, Prüfungen usw. werden
forderungen genügen, liefern exakte Regeln quantitative oder klassifizierende Aussagen
und Richtlinien für die Registrierung und Aus- über einen Erlebens- und Verhaltensbereich
wertung der Daten sowie die Interpretation der gemacht. Mit diesen Aussagen wird das anvi-
Testbefunde. Hiermit soll gewährleistet wer- sierte Merkmal mehr oder weniger gut getrof-
den, dass verschiedene Auswerter, denen die fen. Das Ausmaß, in dem die Testergebnisse
gleichen Daten vorliegen, auch zu den glei- das zu erfassende Merkmal treffen, heißt Vali-
chen Ergebnissen gelangen. Für die Sicherung dität oder Gültigkeit: Ein Test ist in dem Maße
der Objektivität ist es natürlich wichtig, dass valide, als er das misst, was er messen soll.
die Vorgaben für Durchführung und Auswer- Valide Tests erlauben es also, von den Test-
tung im Rahmen einer konkreten Testanwen- ergebnissen auf das interessierende Merkmal
dung auch befolgt werden. Dies verlangt im zu schließen.
Allgemeinen professionelle Anwender oder
zumindest professionelle Supervision. Reliabilität vs. Validität
Reliabilität. Ein generelle Eigenschaft von Reliabilität ist eine notwendige, aber kei-
Testverfahren besteht darin, dass immer nur ne hinreichende Bedingung für Validität.
bestimmte Ausschnitte aus dem interessieren- Hohe Reliabilität kann also mit niedriger
den Verhaltensbereich betrachtet werden. Dies Validität einhergehen. Dies ist häufig dann
hat praktische Gründe: In einem Intelligenz- der Fall, wenn ein Test nur einen Teilaspekt
test können z. B. nicht alle Aufgaben oder des interessierenden Merkmals mit Fragen
Aufgabenarten gegeben werden, die zur Er- bzw. Aufgaben abdeckt. Ein Beispiel wäre
fassung der Merkmalsausprägung denkbar wä- ein Eignungstest für Dolmetscher, in dem
ren; im Rahmen einer Führerscheinprüfung allein passive Vokabelkenntnisse geprüft
kann das Rückwärts-Einparken nicht an allen werden. Ein solcher Test könnte durchaus
möglichen Parklücken geprüft werden, die im reliabel messen (reproduzierbare Resultate
Fahralltag frei sein könnten. Technisch gespro- liefern), wäre aber hinsichtlich des eigent-
chen sind wir in Tests und Prüfungen darauf lich interessierenden Merkmals (Eignung
angewiesen, Verhaltensstichproben zu ziehen. zum Dolmetscher) vermutlich nicht sehr va-
Da diese Stichproben notwendigerweise limi- lide, da das faktisch gemessene Merkmal
tiert sind, werden die auf ihrer Grundlage ge- zu eng ist.
zogenen Schlüsse nicht vollkommen fehlerfrei
ausfallen.
Die Präzision, mit der ein Test das von ihm In vielen Anwendungskontexten soll mit Tests
erfasste Merkmal misst, wird als Reliabilität oder testähnlichen Verfahren künftiges Verhal-
oder Zuverlässigkeit bezeichnet. Ein reliabler ten vorhergesagt werden. So interessiert etwa
Test führt zu reproduzierbaren Ergebnissen, bei der Führerscheinprüfung die Frage, ob die
wenn er unter identischen Ausgangsbedingun- Kandidaten in der Lage sein werden, alltägli-
gen wiederholt wird. Die Reliabilität stellt ne- che Verkehrssituationen sicher zu bewältigen,
ben der Objektivität ein zweites zentrales Gü- bei Stellenbewerbern, die einen Eignungstest
tekriterium von Messungen und speziell von absolvieren, die spätere Bewährung auf der
Tests dar. Ein wesentliches Anliegen der Test- freien Position. Die Genauigkeit von Vorhersa-
modelle, mit denen wir uns noch beschäftigen gen wird als zentraler Teilaspekt der Validität

30
3.1 Merkmale psychologischer Testverfahren

betrachtet und als prädiktive oder prognosti- dem Test beiliegenden Handbuch, dem Testma-
sche Validität bezeichnet. Die Validität stellt nual, dargestellt oder zusammengefasst. Das
das wichtigste Kriterium für die Bewertung Testmanual enthält darüber hinaus alle Anga-
der Güte eines Verfahrens dar. Zur Feststel- ben, die zur objektiven Durchführung und Aus-
lung und Sicherung der Validität muss empi- wertung des Tests sowie zur Interpretation der
risch belegt werden, was ein Test erfasst und Testergebnisse durch professionelle Anwender
was er nicht erfasst (I Kap. 3.5.3). notwendig sind.

Nutzen. Objektivität, Reliabilität und Validi-


tät gelten als Hauptgütekriterien von Tests und 3.1.2 Aktuelles Verhalten und
stehen entsprechend seit langer Zeit im Zen- Persönlichkeitsmerkmale
trum der Testentwicklung. Das Kriterium des
Nutzens rückte erst später ins Blickfeld. Mit Psychologische Tests werden zur Untersu-
dem Einsatz eines Tests soll ein demonstrier- chung von Fragestellungen eingesetzt, die das
barer Nutzen im Hinblick auf Beurteilungen, Erleben und Verhalten von Menschen betref-
Prognosen und darauf aufbauenden Empfeh- fen, inklusive seiner Veränderungen und Be-
lungen und Entscheidungen verbunden sein. dingungen. Wir konzentrieren uns im Folgen-
Die Bewertung eines Tests unter Nutzenge- den auf Instrumente, die sich auf Aspekte des
sichtspunkten hängt teilweise von seiner prä- individuellen Erlebens und Verhaltens richten,
diktiven Validität ab. Wegen dieser Überlap- da diese den größten Teil psychometrischer
pung sprechen einige Autoren auch vom prä- Testverfahren ausmachen. Verfahren zur Ana-
diktiven Nutzen eines Tests (McDonald, 1999). lyse situativer oder systemischer Bedingungen
Das Nutzenkonzept bringt jedoch auch eigen- menschlichen Verhaltens werden später darge-
ständige Gesichtspunkte ins Spiel. Hierher ge- stellt (I Kap. 14 und 16).
hören z. B. die mit seiner Durchführung anfal-
Die mit Tests zu erfassenden Erlebens- und
lenden personellen, zeitlichen und finanziellen
Verhaltensaspekte sind in psychologischen
Kosten. Tatsächlich kann ein Test mit modera-
Modellen als theoretische Begriffe oder – wie
ter Validität unter Nutzenaspekten manchmal
man auch sagt – theoretische Konstrukte ver-
besser abschneiden als ein Test höherer Validi-
ankert. Mit der Bezeichnung „Konstrukt“ wird
tät (I Kap. 6).
hervorgehoben, das es sich hierbei um Kon-
struktionen handelt, die dem Zweck dienen,
Wie wir noch sehen werden, lassen sich die
unser Wissen über einen Verhaltensbereich zu
genannten Gütekriterien teilweise quantitativ
organisieren. Intelligenz, Prüfungsangst, In-
beschreiben. Mit der Kennzeichnung eines In-
terferenzneigung oder kognitive Vermeidung
struments als psychologisches oder psycho-
sind Beispiele für solche Konstrukte. Wie man
metrisches Testverfahren wird die Erwartung
sieht, sind einige dieser Begriffe auch in unse-
verbunden, dass die Gütekriterien dokumen-
rem Alltagswissen verankert. Im Rahmen psy-
tiert und in einem für den Einsatzzweck des
chologischer Modelle und Theorien haben sol-
Verfahrens hinreichendem Maße erfüllt sind.
che Begriffe allerdings eine schärfere, manch-
Die Konstruktion eines psychometrischen Ver-
mal auch eine inhaltlich andere Bedeutung als
fahrens setzt entsprechend umfangreiche em-
die entsprechenden Alltagskonzepte.
pirische Untersuchungen zu den messtechni-
schen Qualitäten des Tests und den Korrelaten Da sich Konstrukte auf Merkmale bzw. Va-
der Testergebnisse voraus. Bei veröffentlich- riablen beziehen, die nicht direkt beobachtbar
ten Routineverfahren werden diese Untersu- sind, spricht man auch von latenten Merkma-
chungen und ihre Ergebnisse meist in einem len bzw. Variablen. Um die Ausprägung einer

31
3 Merkmale und Gütekriterien psychologischer Tests

latenten Variablen (z. B. Intelligenz) schätzen -eigenschaften oder -dispositionen, die mit Hil-
zu können, werden beobachtbare Indikatoren fe von Persönlichkeitskonstrukten beschrieben
der Variablen benötigt (z. B. Anzahl der ge- werden.
lösten Aufgaben in einem Intelligenztest). Die
beobachtbaren Indikatoren einer latenten Va-
riablen werden manifeste Variablen genannt. Definition Persönlichkeitsmerkmal
Testresultate liefern empirische Indikatoren Unter Persönlichkeitsmerkmalen (Traits)
von Konstrukten bzw. latenten Variablen. Sie werden mittel- oder langfristig stabile in-
werden auf Grundlage der Antworten bzw. Re- terne (nichtsituative) Faktoren verstanden,
aktionen auf einzelne Fragen oder Aufgaben, die das Verhalten eines Menschen konsis-
aus denen sich ein Test zusammensetzt, be- tent und von dem anderer Menschen unter-
stimmt. scheidbar machen (Child, 1968, S. 83).
Psychologische Konstrukte können sich auf
relativ kurzfristige, variable oder auf länger-
fristig stabile Erlebens- und Verhaltensmus- Betrachten wir die Schlüsselbegriffe der Defi-
ter beziehen. Mit dieser Unterscheidung sind nition etwas genauer.
gleichzeitig zwei große Zielbereiche von Test-
verfahren angesprochen. Interne Faktoren. Zunächst werden Persön-
lichkeitsmerkmale als interne Faktoren be-
Der eine Zielbereich liegt in der Bestimmung stimmt. Diese Qualifikation soll hervorheben,
vorübergehender Erlebens- und Verhaltens- dass Persönlichkeitskonstrukte nichtsituative
muster. Im Englischen spricht man hier von Determinanten des Erlebens und Verhaltens
States, also „Zuständen“. Beispiele für Zustän- thematisieren. Natürlich existieren auch stabi-
de, die im Rahmen diagnostischer Untersu- le externe (situative) Einflüsse, die konsisten-
chungen interessieren können, sind die gegen- te Verhaltensunterschiede bewirken können.
wärtige Stimmungs- und Affektlage einer Per- Hierher gehören etwa der Freundeskreis ei-
son, ihre Bereitschaft schnelle oder riskante nes Menschen, seine berufliche Situation oder
Entscheidungen zu fällen, ihr aktuelles Kon- seine Wohnverhältnisse. Es ist offensichtlich,
zentrationsvermögen oder ihre Kapazität, kom- dass die Trennung situativer von nichtsitua-
plexe Probleme zu lösen. Meist ist man dabei tiven Verhaltensdeterminanten für viele dia-
nicht an den Zuständen „an sich“, sondern an gnostische Entscheidungen von zentraler Be-
deren Veränderung unter bestimmten situati- deutung ist.
ven Bedingungen interessiert. So könnte bei-
spielsweise im Rahmen einer psychopharma- Stabilität. Persönlichkeitsmerkmale sind zeit-
kologischen Untersuchung interessieren, wie lich längerfristig stabil. Hiermit sind Zeiträu-
sich die Stimmung, das Konzentrationsvermö- me von Monaten, Jahren oder Jahrzehn-
gen oder die Problemlösefähigkeit einer Per- ten gemeint. Nur kurzfristig wirksame in-
son unter dem Einfluss einer bestimmten Dro- terne Faktoren (etwa der Kater am Mor-
ge verändert. gen nach einer durchzechten Nacht) werden
nicht als Persönlichkeitsmerkmale angespro-
Der zweite große Zielbereich liegt in der chen. Es gibt hier natürlich einen „State-Trait-
Bestimmung längerfristig stabiler Erlebens- Übergangsbereich“, der insbesondere für die
und Verhaltensmerkmale, die im Englischen klinisch-psychologische Diagnostik wichtig
Traits genannt werden. Es geht hier um ist. Man denke hier z. B. an Alkoholprobleme
die Erfassung von Persönlichkeitsmerkmalen, oder psycho-soziale Belastungen (I Kap. 15).

32
3.1 Merkmale psychologischer Testverfahren

Konsistenz. Persönlichkeitsmerkmale bezie- dass die entsprechenden Faktoren als Verhal-


hen sich auf konsistente Erlebens- und Ver- tenstendenzen verstanden werden können, die
haltensaspekte. Konsistenz liegt vor, wenn ei- im Zusammenspiel mit situativen Faktoren das
ne Person in ähnlichen Situationen ähnliche aktuelle Erleben und Verhalten einer Person
Erlebens- und Verhaltensmuster zeigt. Welche determinieren.
Situationen und welche Erlebens- und Verhal-
Viele Verhaltensweisen lassen sich unter
tensmuster dabei als ähnlich zu werten sind,
Zustands- und Dispositionsgesichtspunkten
hängt vom betrachteten Merkmal und dem zu-
analysieren. Angst ist hierfür ein prominen-
grunde gelegten Modell des Merkmals ab. Bei-
tes Beispiel. Sie kann als aktuelles Erlebens-
spielsweise manifestiert sich einem bekann-
und Verhaltensmuster betrachtet werden, das
ten psychologischen Angstmodell zufolge das
eine konkrete Person in einer konkreten Situa-
Persönlichkeitsmerkmal Ängstlichkeit in der
tion manifestiert, wie auch als Persönlichkeits-
Stärke der Angstreaktion bei der Konfronta-
merkmal, d. h. als längerfristig stabile Ten-
tion mit selbstwertbedrohlichen Situationen
denz einer Person, in bedrohlichen Situatio-
(Spielberger, 1975). Personen mit hoher Merk-
nen mehr oder weniger intensiv mit Angst
malsausprägung manifestieren in selbstwertbe-
zu reagieren (Krohne, 2010). In unserer Um-
drohlichen Situationen unterschiedlicher Art
gangssprache trennen wir nicht immer deut-
jeweils sehr markante Angstreaktionen. Bei
lich zwischen beiden Perspektiven. Im Rah-
Personen mit niedriger Merkmalsausprägung
men psychologischer und speziell diagnosti-
fällt die Angstreaktion in solchen Situationen
scher Fragestellungen ist es jedoch essenziell,
dagegen geringer aus. Bei beiden Gruppen lie-
beide Gesichtspunkte strikt auseinanderzuhal-
gen also konsistente Verhaltensmuster vor.
ten. Regelmäßigkeiten, die für Zustände gel-
ten, können nämlich für die entsprechenden
Interindividuelle Unterschiede. Schließlich
Persönlichkeitsmerkmale ungültig sein und
wird nur dann von Persönlichkeitsmerkmalen
umgekehrt (Asendorpf & Neyer, 2012).
gesprochen, wenn sich Menschen in den kon-
struktrelevanten Erlebens- und Verhaltensas- So sind z. B. Freude und Trauer auf der Ebe-
pekten unterscheiden. Dieser Gesichtspunkt ne aktuellen Verhaltens weitgehend antago-
war uns bereits im Rahmen der traditionel- nistisch; das eine schließt das andere im All-
len Definition des Gegenstands der Diagnos- gemeinen aus. Wenn wir wissen, dass eine
tik durch James McKeen Cattell begegnet Person im Moment wegen eines bestimmten
(I Kap. 1). Universelle Eigenschaften, also Vorfalls sehr traurig gestimmt ist, wissen wir
Eigenschaften, die von allen oder doch nahe- gleichzeitig, dass sie nicht freudig gestimmt
zu allen Menschen geteilt werden, sind dieser ist. Auf der Ebene von Persönlichkeitsmerk-
Bestimmung nach nicht als Persönlichkeits- malen wäre ein solcher Schluss inkorrekt. Tat-
merkmale anzusehen. So ist z. B. die Fähig- sächlich sind die Dispositionen, Freude bzw.
keit, mit sprachlichen Symbolen umzugehen, Trauer (oder allgemeiner: positive oder negati-
eine universelle Eigenschaft von Menschen, al- ve Affekte) zu manifestieren, relativ unabhän-
so kein Persönlichkeitsmerkmal. Sprachlicher gig. Es ist also keineswegs so, dass Personen,
Ausdruck und Sprachstil können dagegen als die zu Trauer oder anderen negativen Affekten
Persönlichkeitsmerkmale betrachtet werden. neigen, Freude oder andere positive Affekte
selten manifestieren (Watson, Clark & Telle-
Die Begriffe Persönlichkeitsmerkmal, -eigen- gen, 1988). Freude oder Trauer als aktuelle
schaft und -disposition werden im Allge- Emotionen und Freude oder Trauer als sta-
meinen als austauschbar behandelt. Der Be- bile Verhaltenstendenzen beziehen sich also
griff Disposition akzentuiert den Sachverhalt, auf unterschiedliche Sachverhalte und dürfen

33
3 Merkmale und Gütekriterien psychologischer Tests

nicht miteinander vermengt werden. Aus die- großen Domänen unterschieden, nämlich ei-
sem Grund führt man spezielle Termini ein, ner Persönlichkeitsdomäne i. e. S. und einer
aus denen ersichtlich ist, welcher Aspekt je- Fähigkeits- und Leistungsdomäne. Persönlich-
weils gemeint ist. In der deutschen Literatur re- keitsdiagnostik i. e. S. beschäftigt sich mit
serviert man z. B. den Begriff Ängstlichkeit für emotionalen und motivationalen Merkmalen,
das Persönlichkeitsmerkmal, mit Angst oder also z. B. Temperamentseigenschaften, Moti-
Zustandsangst bezeichnet man das aktuelle Er- ven, Interessen, zentralen Einstellungen oder
leben und Verhalten. Im Englischen spricht Werten. Im Leistungsbereich geht es um Merk-
man hier von trait anxiety und state anxiety. male wie Intelligenz, Kreativität oder Konzen-
trationsvermögen.
Als längerfristig stabile Faktoren machen Per-
sönlichkeitsmerkmale das Erleben und Verhal- Auf der Seite der Testverfahren entspricht die-
ten eines Menschen vorhersagbar – zumindest se Differenzierung der von Cronbach (1990)
bis zu einem gewissen Grad. Auf diese Vor- geprägten Unterscheidung zwischen Tests des
hersagbarkeit stützt sich nicht nur ein substan- typischen und Tests des maximalen Verhaltens
zieller Teil der sozialen Interaktion im Alltag, (im Englischen tests of typical response und
sie liefert auch die Grundlage für einen wei- tests of maximum performance). Die Bezeich-
ten Bereich diagnostischer Anwendungen von nungen besagen, dass wir im einen Bereich an
Testverfahren. Wie wir bereits bemerkt hatten, der typischen, normalen Ausprägung bestimm-
besteht ein zentrales Ziel der Anwendung von ter Erlebens- und Verhaltensmuster interessiert
Tests und anderer diagnostischer Instrumen- sind (etwa am zu erwartenden Angstniveau ei-
te darin, Vorhersagen künftigen Verhaltens zu ner Person in Prüfungen), im anderen an der
ermöglichen bzw. zu verbessern. Von diesem maximal möglichen Ausprägung von Leistun-
Anliegen her ist es verständlich, dass sich die gen (z. B. Konzentration).
Diagnostik bereits sehr früh auf die Messung
stabiler Persönlichkeitsmerkmale konzentrier- Die Unterscheidung betrifft nicht nur die Art
te (I Kap. 1 und 2). der Aufgaben und Fragen, die in einem Test
zu bearbeiten sind, sondern bereits die An-
Ob ein Test ein stabiles Persönlichkeitsmerk- leitung (Instruktion) der Probanden. In Tests
mal oder einen vorübergehenden Zustand des maximalen Verhalten werden die Perso-
misst, lässt sich dem Verfahren selbst nicht nen gebeten, „ihr Bestes zu geben“, z. B. mög-
direkt entnehmen. Die Aufforderung in einem lichst viele Aufgaben zu lösen oder so genau
Fragebogen, anzugeben, wie man sich im All- und/oder schnell wie möglich zu reagieren.
gemeinen verhalte, bietet allein noch keine Welche Reaktionen jeweils als positiv gewer-
Garantie dafür, dass tatsächlich ein Persön- tet werden, wird ihnen anhand von Beispielen
lichkeitsmerkmal erfasst wird. Die Testwer- und Übungsaufgaben erklärt; manchmal wer-
te reflektieren ja immer zunächst einmal ein den sie auch auf mögliche Fehler hingewiesen.
bestimmtes aktuelles Verhalten. Die Stabili-
tät der gemessenen Verhaltensaspekte muss Darüber hinaus versucht man bei Leistungs-
in empirischen Untersuchungen daher eigens tests, eine kontinuierliche Anstrengungsbereit-
geprüft werden. schaft sicherzustellen. Dies kann durch die
Instruktion, die Gestaltung der Aufgaben, die
3.1.3 Typisches und „maximales“ Herstellung einer abwechslungsreichen Abfol-
Verhalten ge von Aufgabenarten, manchmal auch durch
testexterne Anreize erreicht werden. In Tests
Im Rahmen der Diagnostik von Persön- des typischen Verhaltens gibt es dagegen nor-
lichkeitsmerkmalen wird zwischen zwei malerweise keine richtigen oder falschen Ant-

34
3.1 Merkmale psychologischer Testverfahren

worten, worauf die Probanden häufig auch zeigen, das eventuell weit unter ihrem maxi-
hingewiesen werden. Um offene Antworten malen Niveau liegt. Man bezeichnet dieses
zu erhalten, hebt man hier meist die Anony- Problem als Kompetenz-Performanz-Problem:
mität der Befragung hervor (sofern sie gege- Die Performanz (das faktische Verhalten) spie-
ben ist) und vermeidet jeden leistungsthemati- gelt nicht immer die anvisierte Kompetenz wi-
schen Anstrich der Testsituation. der.
Allerdings gibt es eine Reihe von Verfahren
zur Messung von Einstellungen und anderen
Persönlichkeitsmerkmalen i. e. S., die aus der 3.1.4 Illustrative Beispiele
Sicht der Testpersonen einen klaren leistungs-
thematischen Charakter besitzen. Diese Tests Betrachten wir zur Illustration eine Reihe von
sehen so aus wie Tests des maximalen Ver- Tests zur Erfassung von Persönlichkeitsmerk-
haltens, zielen in Wirklichkeit aber auf die malen. Es handelt sich um erfundene Minia-
Erfassung des typischen Verhaltens. turversionen realer Tests, an denen sich einige
zentrale Punkte in einfacher Weise verdeutli-
chen lassen. Wir beginnen mit dem Fähigkeits-
Beispiel
und Leistungsbereich.
In einem solchen Test könnten beispielswei-
Ein typisches Beispiel für Aufgaben, die sich
se etwa gleich lange, schräg nebeneinander
in Intelligenztests finden, sind Zahlenreihen,
stehende Linienpaare gezeigt werden, wo-
die nach bestimmten Regeln aufgebaut sind
bei anzugeben ist, welche der beiden Linien
(I Kap. 12). Aufgabe der Testpersonen ist es,
jeweils die längere ist. Bestimmt wird die
die jeweilige Regel zu erkennen und die Reihe
Zahl der innerhalb der vorgegebenen Zeit
entsprechend der Regel fortzusetzen. Aufga-
beurteilten Linienpaare, wobei die Korrekt-
benreihen dieser Art werden in Intelligenztests
heit der Antworten gar nicht berücksich-
zur Messung bestimmter Aspekte des induk-
tigt wird. Was aus der Sicht der Testperso-
tiven Denkens verwendet. Induktives Denken
nen wie eine Wahrnehmungsprüfung aus-
ermöglicht es, Regelmäßigkeiten in Ereignis-
sieht, liefert in Wirklichkeit einen Indikator
folgen zu erkennen und auf dieser Grundla-
für die Tendenz, riskante Entscheidungen
ge weitere Ereignisse vorherzusagen. Diese
schnell zu treffen. Wir werden derartige
Fähigkeit ist ein wesentlicher Bestandteil der
Verfahren in I Kap. 11 noch eingehender
menschlichen Intelligenz.
besprechen.
Den Aufgaben wird üblicherweise eine kurze
Anleitung vorangestellt, in der die Fragestel-
Zu beachten ist, dass die Unterscheidung zwi-
lung erläutert und ggf. mit einem oder zwei
schen typischem und maximalem Verhalten
einfachen Beispielen illustriert wird. Hiermit
die Sichtweise der Testkonstrukteure und Test-
soll das Verständnis der Aufgabenstellung bei
anwender, nicht die der Probanden reflektiert
allen Testpersonen gesichert werden. In unse-
(vgl. Kaminski, 1970). Legen wir z. B. einer
rem Beispiel würde sich etwa die Aufgabe
Person einen Konzentrationstest mit der Bitte
vor, möglichst schnell und genau zu reagieren,
so ist es natürlich keineswegs gesagt, dass sie 2 4 6 8 10 12 __
der Aufforderung nach „maximalem Verhal-
ten“ auch nachkommt. Besitzen die Testergeb- eignen. Den Testpersonen wird erklärt, dass
nisse keine weiteren Konsequenzen für die Per- 14 als die korrekte Lösung zu notieren ist, da
son, wird sie vielleicht ihr typisches Verhalten sich die nachfolgenden Zahlen jeweils durch

35
3 Merkmale und Gütekriterien psychologischer Tests

Addition von 2 auf die Vorgängerzahl erge- Items in ihrer Schwierigkeit deutlich unter-
ben. Wird ein Aufgabenblock unter Zeitbe- scheiden. Viele Personen werden die Lösung
grenzung vorgelegt, so werden die Testperso- von Item 1 auf den ersten Blick erkennen.
nen zusätzlich darauf hingewiesen, sich nicht Demgegenüber erfordert die Lösung von Item
zu lange bei einer Aufgabe aufzuhalten und 6 einiges Nachdenken. Tatsächlich ist das Item
ggf. zur nächsten Aufgabe überzugehen. Mit 1 als „Aufwärmaufgabe“ zu verstehen. In man-
dieser Maßnahme soll erreicht werden, dass chen Tests werden mehrere solcher Aufgaben
Personen nicht bei der Bearbeitung einer spe- (oft mit Rückmeldung) gegeben. Hiermit soll
zifischen Aufgabe hängen bleiben, obwohl sie gewährleistet werden, dass allen Testpersonen
nachfolgende Aufgaben eventuell noch lösen das Aufgabenprinzip klar geworden ist, bevor
könnten. Dies würde zu einer Unterschätzung die eigentliche Messung beginnt.
ihrer Fähigkeitsausprägung führen.
Durch die Aufnahme leichter, mittelschwieri-
Eine entsprechende Aufgabenreihe könnte et- ger und schwieriger Aufgaben kann erreicht
wa folgendermaßen aussehen: werden, dass die Testwerte gut zwischen Per-
sonen mit unterschiedlichen Ausprägungen
Aufgaben zum induktiven Denken der angesprochenen Fähigkeit differenzieren.
Hierzu trägt auch eine dem Schwierigkeitsni-
(1) 3 7 11 15 19 23
veau der Aufgaben angemessene Zeitbegren-
(2) 25 24 22 19 15 10
zung bei. In unserem Beispiel wäre vermut-
(3) 10 5 8 4 7 3
lich ein bis zwei Minuten eine geeignete Be-
(4) 1 3 5 15 17 51
grenzung. Würde man mehr Zeit geben, wür-
(5) 10 24 14 12 18 6
den sehr viele Personen alle Aufgaben lösen,
(6) 2 4 3 9 7 49
so dass die Testwerte Unterschiede zwischen
den Personen nicht mehr differenziert wider-
Für die Bestimmung interindividueller Unter- spiegeln würden. Man spricht in diesem Fall
schiede im induktiven Denken mit Zahlen wür- bildlich von einer zu niedrigen „Testdecke“
de es sich anbieten, den Test Personen mit (der Test ist zu einfach). Ein analoges Problem
einer Zeitbegrenzung vorzulegen und die An- kann sich natürlich auch bei einem zu eng be-
zahl korrekt gelöster Aufgaben auszuzählen. messenen Zeitrahmen ergeben.
Die Anzahl korrekter Lösungen liefert den
Testwert. In unserem Minitest könnten die Um dem Problem einer zu niedrigen Testde-
Testwerte prinzipiell zwischen 0 und 6 gelös- cke zu begegnen, werden Fähigkeitstests meist
ten Aufgaben streuen, was natürlich nur eine so konstruiert, dass die Lösung aller Aufgaben
sehr grobe Schätzung der Merkmalsausprä- unmöglich oder doch sehr unwahrscheinlich
gung ermöglicht. Deshalb würden in einem ist. Da dieses Konstruktionsprinzip bei einigen
realen Tests sehr viel mehr Aufgaben vorge- Testpersonen zu Irritationen führen könnte, ist
legt werden. Die einzelnen Aufgaben oder Fra- es zweckmäßig, die Personen hierüber aufzu-
gen eines Tests werden – auch im Deutschen klären. In der Instruktion wird also hervorge-
– zumeist als Items bezeichnet. Die erreichten hoben, dass einige Aufgaben sehr schwierig
Leistungen oder Punkte einzelner Personen in sind und innerhalb des gegebenen Zeitrahmens
einem Test nennt man auch Scores. nicht alle Aufgaben gelöst werden können.
Der Minitest veranschaulicht einige Gesichts- Ein zweiter wichtiger Gesichtspunkt betrifft
punkte, nach denen viele Verfahren zur Mes- die Anordnung der Aufgaben. Die Aufgaben
sung intellektueller Fähigkeiten aufgebaut eines Tests werden im Allgemeinen nach ih-
sind. Zunächst ist ersichtlich, dass sich die rer Schwierigkeit gestaffelt. Leichte Aufgaben

36
3.1 Merkmale psychologischer Testverfahren

werden also an den Anfang, schwierige Auf- ferenziertes Bild der Stärken und Schwächen
gaben ans Ende des Tests gestellt. Die leichten einer Person in verschiedenen Intelligenzberei-
Aufgaben am Anfang sollen günstige kogni- chen (ein Intelligenzprofil) zu erstellen (Lie-
tive und motivationale Bedingungen für die nert & Raatz, 1994; I Kap. 12).
Aufgabenbearbeitung herstellen. Würde man
Aus unserem Alltag sind wir es gewohnt, dass
hier bereits schwierige Aufgaben stellen, er-
Testsituationen (z. B. Prüfungen) so gestaltet
gäbe sich das Risiko, dass einige Personen
sind, dass sich relativ direkte Möglichkeiten
nachfolgende Aufgaben, die sie eventuell lö-
ergeben, das jeweils interessierende Verhalten
sen könnten, nicht in Angriff nehmen.
zu beobachten. Im Unterschied hierzu weisen
Wir hatten bereits angesprochen, dass rea- psychometrische Tests jedoch manchmal kei-
le Tests zur Erfassung des induktiven Den- nen offensichtlichen Bezug zum zu messen-
kens weitaus mehr Items umfassen als unsere den Merkmal auf. In Fähigkeitstests werden
Beispiel-Aufgabenreihe. Darüber hinaus wür- die Testanforderungen z. B. häufig so gestaltet,
de ein realer Test nicht nur einen einzigen Auf- dass diejenigen mentalen Prozesse abgedeckt
gabentyp enthalten. Vielmehr ist es sinnvoll, werden, die für das interessierende Merkmal
eine Reihe verschiedener Aufgabentypen zum essenziell sind. Sie heben sich daher von ent-
induktiven Denken zu konstruieren, z. B. auch sprechenden „realen“ Anforderungen deutlich
figurale oder verbale Aufgaben (für ein Bei- ab. Dies hat im Wesentlichen zwei Gründe:
spiel siehe S. 372). Es wäre ja denkbar, dass Erstens sollen die Tests selbst von Vorkenntnis-
eine Person Regelmäßigkeiten in Abfolgen im sen und Übung im Umgang mit spezifischen
Allgemeinen sehr gut erkennen kann, aber ge- Materialien frei sein. Das Testmaterial soll al-
wisse Probleme im Umgang mit Zahlen hat. so für alle Probanden gleichermaßen neuar-
Diese Person würde in unserem Test, der nur tig sein. Zweitens soll eine breite Anwend-
einen Aufgabentyp enthält, daher unter ihrem barkeit des Tests sichergestellt werden. Die
generellen Niveau abschneiden. Ihre allgemei- Durchführung und Auswertung des Tests soll
ne Fähigkeit zum induktiven Denken würde ökonomischer sein als eine unter Umständen
also unterschätzt werden. Durch die Aufnah- recht aufwändige direkte Prüfung der relevan-
me unterschiedlicher Aufgabentypen in einen ten Leistung.
Test kann diese Unterschätzung korrigiert wer-
In unserem Beispiel lässt sich das Merkmal,
den.
das der Test messen soll, relativ einfach aus
Umfassende Intelligenztests enthalten neben dem Inhalt der Aufgaben erschließen – zu-
Aufgaben zum induktiven Denken eine Viel- mindest näherungsweise. Eine solche Trans-
zahl weiterer Aufgaben, die andere Facetten parenz liegt nicht immer vor. Dies kann ei-
der Intelligenz abdecken sollen. So werden nerseits daran liegen, dass ein anderer Ver-
z. B. andere Aspekte des logischen Denkens, haltensaspekt registriert wird, als es der Test
verbale Fähigkeiten oder das räumliche Vor- auf den ersten Blick nahe legt, andererseits
stellungsvermögen über eigene Untertests ge- daran, dass Merkmale gemessen werden, die
prüft. Verfahren, die mehrere Tests zur Prü- in unserer Alltagssprache gar keinen Begriff
fung spezifischer Aspekte eines komplexen besitzen. Ein berühmtes Beispiel hierfür ist
Merkmals umfassen, nennt man auch Testbat- der von Stroop (1935) entwickelte Farb-Wort-
terien oder Profile. Solche Testbatterien erlau- Interferenztest, kurz Stroop-Test genannt. In
ben es nicht nur, das in Rede stehende komple- diesem Test wird den Testpersonen eine lan-
xe Merkmal besser zu erfassen als Einzeltests, ge Liste von Farbnamen vorgelegt, „rot blau
bei geeigneter Zusammenstellung der Unter- grün gelb blau ...“. Die Farbnamen sind far-
tests ist es darüber hinaus möglich, ein dif- big gedruckt und zwar in zu den Farbnamen

37
3 Merkmale und Gütekriterien psychologischer Tests

Im folgenden Fragebogen finden Sie eine Reihe von Feststellungen, mit denen man sich
selbst beschreiben kann. Bitte lesen Sie jede Feststellung durch und wählen Sie aus den vier
Antwortmöglichkeiten diejenige aus, die am besten beschreibt, wie Sie sichim Allgemeinen
fühlen.

Markieren Sie bitte


• die 0, wenn die Feststellung sehr selten oder nie auf Sie zutrifft,
• die 1, wenn die Feststellung gelegentlich auf Sie zutrifft,
• die 2, wenn die Feststellung ziemlich häufig auf Sie zutrifft,
• die 3, wenn die Feststellung sehr häufig oder fast immer auf Sie zutrifft.

(1) Ich liebe es, mit anderen Menschen zusammen zu sein. 0 1 2 3


(2) Mir fehlt es an Selbstvertrauen. 0 1 2 3
(3) Ich stehe gern im Zentrum des Geschehens. 0 1 2 3
(4) Ich neige dazu, alles schwer zu nehmen. 0 1 2 3
(5) Ich bin leicht zum Lachen zu bringen. 0 1 2 3
(6) Ich fühle mich niedergeschlagen. 0 1 2 3

Abb. 3.1 Ein Miniatur-Persönlichkeitsinventar

inkongruenten Farben; so ist z. B. „blau“ in (I Abb. 3.1). Solche Tests bestehen häufig aus
roter Farbe gedruckt, „grün“ in gelber usw. einer Sammlung von Fragen oder Feststellun-
Die Aufgabe besteht darin, die Farbbezeich- gen, die sich auf die zu bestimmenden Merk-
nung zu ignorieren, und stattdessen die Farbe, male beziehen. Sie heißen deshalb Persönlich-
in der das Wort gedruckt ist, möglichst rasch keitsinventare oder -fragebogen (I Kap. 12).
zu benennen. Gemessen wird die Zeit, die die Auch hier wird eine kurze Instruktion voran-
Testperson für das Abarbeiten der ganzen Lis- gestellt, die erklärt, wie auf die Fragen oder
te benötigt. Feststellungen zu antworten ist. In unserem
Beispiel werden die Testpersonen gebeten, für
Im Stroop-Test scheint es um die Geschwin- jede der Feststellungen anzugeben, wie gut sie
digkeit zu gehen, mit der Personen Farben be- ihr eigenes Erleben und Verhalten beschreibt.
nennen können. Zumindest scheint das zu mes-
sende Merkmal irgendetwas mit dem Erken- Unser Miniaturtest formuliert Fragen zu zwei
nen von Farben und ihren Bezeichnungen zu Merkmalen. Die Feststellungen (1), (3) und
tun zu haben. Beide Vermutungen sind falsch. (5) sind einem Test zur Messung der Extraver-
Tatsächlich misst der Test die Fähigkeit ei- sion entnommen, die Feststellungen (2), (4)
ner Person, den störenden Einfluss aufdring- und (6) einem Test zur Messung angstbezo-
licher, aber aufgabenirrelevanter Reizaspekte gener Verhaltensprobleme („Neurotizismus“).
auf Verarbeitungsprozesse effektiv zu hemmen Beide Tests zielen auf die Erfassung stabiler
(I Kap. 11). Persönlichkeitseigenschaften. Dies ist aus der
Aufforderung ersichtlich, anzugeben, wie man
Als drittes Beispiel für einen Test betrachten sich im Allgemeinen fühle. Auch die Feststel-
wir die Miniaturversion eines Verfahrens zur lungen selbst sprechen eher Sachverhalte an,
Messung von Persönlichkeitsmerkmalen i. e. S. in denen sich längerfristig stabile Merkmale

38
3.1 Merkmale psychologischer Testverfahren

einer Person manifestieren. Eine Ausnahme ist Items ein Test enthält, desto differenzierter
die Feststellung (6), die sich in gleicher Formu- kann ein Merkmal durch den Summen- oder
lierung auch in einem Verfahren zur Messung Mittelwert erfasst werden.
der aktuellen Stimmung finden könnte. Wir
Genauere Messung. Einzelne Items messen
hatten bereits bemerkt, dass der Nachweis der
ein Merkmal nur relativ ungenau. Dies liegt
Stabilität eigene empirische Untersuchungen
im Wesentlichen daran, dass Items nicht nur
erfordert. Die Formulierung der Instruktion
konstruktrelevante Merkmale reflektieren, son-
und der Items alleine sind hierfür nicht zurei-
dern zum Teil auch konstruktirrelevante Merk-
chend.
male miterfassen. Betrachten wir einige Items
In unserem Test sind den Zustimmungsgra- aus einem Fragebogen zur Bestimmung von
den zu den einzelnen Feststellungen die Zah- Extraversion:
len 0 bis 3 zugeordnet. Für die Gewinnung
1. Ich gehe gern auf Parties ...
von Werten für die Ausprägung von Extra-
2. Ich liebe es, viele Leute um mich herum zu
version und angstbezogenen Problemen bietet
haben ...
es sich deshalb an, die drei jeweils zu einem
3. Ich ziehe es gewöhnlich vor, Dinge allein
der beiden Merkmale gehörenden Antworten
zu tun ...
einfach zu summieren. Eine Person, die Fest-
stellung (1) mit 3, Feststellung (3) mit 2 und Dem ersten Item werden Extravertierte auf-
Feststellung (5) mit 3 beantwortet hat, erhielte grund ihrer ausgeprägten Geselligkeit häufig
also z. B. einen Extraversionswert von 8. Auf- zustimmen. Es wird jedoch auch eine Reihe
grund der vierstufigen Antwortskala können introvertierter Personen geben, die das erste
die Extraversions- und Ängstlichkeitswerte, Item bejahen, z. B. weil sie kaltes Büfett und
die sich in unserem Test ergeben, prinzipiell Freibier mögen. Mit dem ersten Item allei-
zwischen 0 und und 9 streuen. Auch hier wäre ne würden solche Introvertierte falsch klas-
durch Hinzunahme weiterer Items eine diffe- sifiziert werden. Diese Fehlklassifikation wird
renziertere Messung möglich. durch Hinzunahme weiterer Items (zumindest
partiell) korrigiert, da Introvertierte das zwei-
te Item eher ablehnen und dem dritten Item
3.1.5 Testwerte eher zustimmen werden. Die Korrektur wird
umso besser ausfallen, je mehr Items ein Test
Im Testwert werden die zuvor kodierten (in umfasst. Die Messung wird durch Hinzunah-
Zahlen umgesetzten) Antworten auf mehre- me von Items also nicht nur differenzierter,
re Items summiert oder gemittelt. Diese (in- sondern auch genauer, da sich die mit ein-
tuitiv wahrscheinlich einleuchtende) Kombi- zelnen Items verbundenen Fehler bis zu ei-
nation hat drei Effekte, die im Allgemeinen nem gewissen Grad wechselseitig egalisieren
erwünscht sind. In Stichworten sind dies: (I Kap. 3.4).
1. feinere Differenzierung zwischen Personen,
Abstraktes Merkmal. Der dritte Effekt der
2. genauere Messung,
Summierung besteht darin, dass das mit dem
3. Erfassung eines abstrakteren Merkmals.
Testwert erfasste Merkmal abstrakter ist als
Differenzierung. Der erste Punkt ist offen- Merkmale, die mit einzelnen Items gemessen
sichtlich: Mit einem Item lassen sich maximal werden. Im Beispiel interessiert uns die Aus-
so viele Persongruppen voneinander differen- prägung der Extraversion, nicht die der Präfe-
zieren, wie Antwortoptionen vorhanden sind. renz für Parties. (Wenn uns letztere interessier-
Durch Hinzunahme weiterer Items werden im- te, würden wir auch mehrere, allerdings spe-
mer feinere Einteilungen möglich. Je mehr zifischere, Items formulieren.) Entsprechend

39
3 Merkmale und Gütekriterien psychologischer Tests

interessiert bei einer Bewerberin für den Jour- fasst. Sobald eine geeignete Itemmenge iden-
nalistenberuf die verbale Flüssigkeit, bei ei- tifiziert ist, wird der Test als Ganzes validiert
nem Techniker für Überwachungsaufgaben in und eventuell normiert. I Abb. 3.2 gibt einen
einem Atomkraftwerk das Konzentrationsver- Überblick der einzelnen Phasen der Testkon-
mögen, bei einem Schulkind die Beherrschung struktion und deren Verknüpfung. Die Darstel-
der Grundrechenarten usw. Diese Kompeten- lung ist in mehrfacher Hinsicht vereinfacht
zen sind allgemeiner als die Aufgaben, die und dient lediglich dem Zweck, eine erste
wir uns zur ihrer Erfassung ausdenken, oder Orientierung über den Prozess der Testkon-
Einzelbeobachtungen, die wir im konkreten struktion zu liefern. Wie wir später noch sehen
Fall anstellen oder heranziehen können. Von werden, lassen sich z. B. bestimmte Aspekte
Bedeutung ist, was Itemantworten (Aufgaben, der Validierung bereits in die Erprobungspha-
Beobachtungen) gemeinsam haben, nicht ihr se eines Tests einbauen (I Kap. 10). Darüber
spezifischer Inhalt. Dieses Gemeinsame lässt hinaus hat der Prozess in vielen Fällen auch
sich über Summierung oder Mittelung (allge- Rückwirkungen auf die Spezifizierung des zu
mein: durch Aggregierung über Items) gewis- erfassenden theoretischen Konstrukts, was in
sermaßen herausfiltern. der Abbildung durch die gestrichelten Linien
angedeutet ist.
Definition Aggregierung

Aggregierung meint die Zusammenfassung


von Item-, gelegentlich auch von Testwer-
3.2.1 Konstruktdefinition
ten, zu einem neuen Score. Im Allgemei-
nen handelt es sich dabei einfach um die
Bildung der Summe oder des Mittelwerts
Ausgangspunkt der Testkonstruktion ist eine
aus den Ausgangswerten. Manchmal wer-
möglichst genaue Definition des zu messenden
den die Ausgangswerte zuvor transformiert
Konstrukts. Im Idealfall kann man sich dabei
(z. B. z-transformiert, um sie auf die gleiche
auf ein ausformuliertes psychologisches Mo-
Skala zu bringen, I Kap. 3.6.1) oder – je
dell des interessierenden Merkmals stützen,
nach ihrer Bedeutung für den zu bildenden
aus dem sich Kriterien für die Formulierung
neuen Score – unterschiedlich gewichtet.
von Items in direkter Weise ableiten lassen.
Häufiger jedoch wird man sich mit vorläufi-
Durch Aggregierung werden im Testwert gen Explikationen und Arbeitsdefinitionen des
nichtrelevante Anteile der Items teilweise un- Merkmals begnügen müssen, die sich erst im
terdrückt (Wittmann & Matt, 1986). Der Test Rahmen weiterer Forschung hinreichend prä-
reflektiert damit ein allgemeineres Merkmal zisieren lassen. Zu dieser Forschung gehören
als die einzelnen Items. natürlich auch die im Rahmen der Testkon-
struktion durchgeführten Untersuchungen, die
wesentlich zur Begriffsklärung beitragen kön-
nen. So kann es sich z. B. als notwendig erwei-
3.2 Zusammenstellung von Items
sen, ein zunächst einheitlich konzipiertes Kon-
strukt in verschiedene Facetten aufzuspalten,
Die Testkonstruktion ist ein mehrstufiger Pro- für welche die Entwicklung separater Skalen
zess, der die Konstruktdefinition, die Erstel- sinnvoll ist.
lung einer vorläufigen Itemmenge zur empiri-
schen Erfassung des Konstrukts, deren Erpro- Ein bekanntes Beispiel hierfür ist die Aufspal-
bung, Analyse, Bewertung und Revision um- tung der Zustandsangst in eine kognitive und

40
3.2 Zusammenstellung von Items

Konstrukt

Itemmenge Revision Normierung

Abb. 3.2
Phasen der Erprobung Itemanalyse Validierung
Testkonstruktion

eine emotionale Komponente, wie sie von Lie- Aufgeregtheit. Beide Sachverhalte liefern wei-
bert und Morris (1967) in die Prüfungsangst- tere Evidenz dafür, dass es sinnvoll ist, mindes-
forschung eingeführt wurde. Hier werden zwei tens zwei Angstkomponenten zu unterschei-
Reaktionskomponenten differenziert (kogniti- den (Laux, Hock, Bergner-Köther, Hodapp
ve Komponente: Besorgnis und Gedanken an & Renner, 2013; Morris, Davis & Hutchings,
mögliches Versagen; emotionale Komponente: 1981).
wahrgenommene körperliche Aufgeregtheit).

Ein weiteres Beispiel ist die Differenzierung 3.2.2 Erstellung der Itemmenge
nach situativen Bedingungen, die zur Angst-
auslösung führen. Es hat sich z. B. als sinn- Der zweite Schritt der Testkonstruktion be-
voll erwiesen, Angst in selbstwertbedrohli- steht in der Zusammenstellung einer vorläufi-
chen Situationen (z. B. einer mündlichen Prü- gen Itemmenge. Hier werden Items formuliert,
fung) und Angst in physisch bedrohlichen Si- die das in Rede stehende Konstrukt operatio-
tuationen (etwa einem schwerwiegenden chi- nalisieren sollen und somit als empirische In-
rurgischen Eingriff) getrennt zu erfassen, da dikatoren des Konstrukts dienen. In ihrer Ge-
die beiden Reaktionstendenzen nur vergleichs- samtheit sollen die Items das Konstrukt und
weise schwach miteinander zusammenhängen seine Facetten möglichst genau repräsentieren.
(Krohne, 2010).
Definition Item
Im Rahmen der Testkonstruktion werden zur
Klärung solcher Fragen meist Faktorenanaly- Unter Items werden Fragen, Aufgaben oder
sen oder andere statistische Klassifikationsver- kurze Feststellungen verstanden, die von
fahren eingesetzt (I Kap. 4). Darüber hinaus den Testpersonen beantwortet bzw. bearbei-
können Analysen des zeitlichen Verlaufs und tet werden sollen. Zu einem Item gehören
Untersuchungen der externen Korrelate des ein Itemstamm und ein bestimmtes Ant-
Testverhaltens eine differenziertere Bestim- wortformat. Im Itemstamm wird die Frage,
mung des Konstrukts nahelegen. Aufgabe oder Feststellung formuliert, im
Rahmen eines Wissenstests z. B.
Im Verlauf der Annäherung an eine Prüfung Was ist ein Axiom?
steigt die körperliche Aufgeregtheit z. B. stei- Das Antwortformat kann entweder offen
ler an als die Besorgnis. Sie fällt nach der Prü- oder gebunden sein. Beim offenen Antwort-
fung auch schneller wieder ab. Außerdem ist format formuliert die Testperson die Ant-
Besorgnis stärker mit schlechten Prüfungsleis- wort selbst. Beim gebundenen Antwortfor-
tungen (externes Korrelat) assoziiert als die mat werden dagegen mehrere Antwortop-

41
3 Merkmale und Gütekriterien psychologischer Tests

tionen vorgegeben, zwischen denen die Per- Nicht für jeden Einsatzzweck müssen aller-
son wählt, im Beispiel etwa dings Idealforderungen an die Reliabilität ge-
stellt werden. Wichtig ist hier primär die inten-
(a) eine grundlegende Aussage einer
dierte bzw. für eine bestimmte Fragestellung
Theorie,
notwendige Präzision der endgültigen Skala.
(b) die exakte Bestimmung eines Begriffs,
Wird ein Test im Rahmen eines bestimmten
(c) ein lateinisches Fremdwort,
Projekts beispielsweise nur für Vergleiche von
(d) der Fortsatz einer Nervenzelle.
Gruppenmittelwerten benötigt, lassen sich An-
forderungen an die Messpräzision geringer an-
setzen als dies für individualdiagnostische Fra-
Für die Erprobungsphase sollten mehr Items gestellungen der Fall ist.
formuliert werden als für den endgültigen Test
Während Repräsentativität und Messpräzision
geplant sind, da sich eine Reihe von Items in
eher eine hohe Itemzahl nahelegen, sprechen
den nachfolgenden Schritten der Itemanalyse
Ökonomie und Testmotivation für kurze Tests.
und -bewertung als ungeeignet herausstellen
Hier muss abgewogen werden zwischen wis-
können. „Mehr“ ist hier also besser als „weni-
senschaftlichen Ansprüchen einerseits, den im
ger“. Wieviele Items formuliert werden sollten,
Rahmen eines konkreten Projekts realisierba-
hängt von einer Reihe von Faktoren ab. Un-
ren und für die Testpersonen zumutbaren Be-
ter allgemeinen Gesichtspunkten sind hier vor
dingungen andererseits. Es ist klar, dass sich
allem die Repräsentativität der Items, die Re-
unter Gesichtspunkten einer für die Bearbei-
liabilität des Tests, die Ökonomie der Messung
tung der Fragen und Aufgaben günstigen Test-
sowie die Testmotivation zu beachten.
motivation die Testlänge nicht beliebig erhö-
hen lässt, zumal bei diagnostischen Untersu-
Die Forderung, dass die Items das zu erfas-
chungen meist mehrere Testverfahren durch-
sende Merkmal möglichst gut repräsentieren
geführt werden müssen.
sollen, wird mit vielen Items eher zu erfüllen
sein als mit wenigen. Gleiches gilt für die For- In gängigen Persönlichkeitstests werden für
derung nach einer hohen Reliabilität, die ge- die Messung eines Merkmals in der Regel
nerell für eine höhere Itemzahl spricht. Unter zwischen 10 und 30 Items eingesetzt. Nimmt
sonst gleichen Bedingungen kann ein Merk- man in die initiale Itemmenge etwa die dop-
mal umso genauer gemessen werden, je mehr pelte Zahl von Items auf, dürfte dies für vie-
Items ein Test umfasst (I Kap. 3.4.3). le Zwecke ausreichen. Dies ist allerdings nur
ein grober und keinesfalls allgemein gültiger
Die Messpräzision der Tests ist ihrerseits ei- Richtwert. Für die zuverlässige Messung eines
ne Funktion der messtechnischen Qualität der weiten Merkmals, etwa allgemeine Intelligenz,
einzelnen Items. Je höher diese ist, desto we- wird ein Vielfaches dieses Richtwerts benötigt.
niger Items werden für das Erreichen einer Auf der anderen Seite können ungefähre Schät-
vorgegebenen Messpräzision der Gesamtskala zungen der Ausprägung von Persönlichkeitsei-
benötigt. Hierüber besitzt man zu Beginn des genschaften wie Neurotizismus oder Extraver-
Konstruktionsvorgangs natürlich noch keine sion-Introversion bereits mit kürzeren Skalen
genauen Vorstellungen, weshalb sich zu die- gewonnen werden.
sem Zeitpunkt nur ungefähre Angaben über
die anzustrebende Zahl von Items machen las- 3.2.3 Itemformulierung
sen. Über genauere Information verfügt man,
wenn man die in Abbildung 3.2 dargestellte Für die Itemformulierung sind primär Theo-
Schleife mindestens einmal durchlaufen hat. rien und Modelle des anvisierten Merkmals

42
3.2 Zusammenstellung von Items

ausschlaggebend. Daneben existieren eine Rei- Konditionalsätze. Konditionalsätze („Wenn


he von formalen Gesichtspunkten, die bei der ..., dann ...“) sind häufig ebenfalls Kandidaten
Konstruktion von Items beachtet werden soll- für Umformulierungen, da hier bei Personen,
ten. In diesem und dem folgenden Unterab- auf die der Wenn-Teil nicht zutrifft, Unsicher-
schnitt werden dabei generelle Gesichtspunkte heit erzeugt und damit die Antwort mehrdeutig
dargestellt. Sachverhalte, die primär einzelne wird. Ausnahmen sind hier Bedingungen, die
Zugangsweisen zur Erhebung diagnostischer für jede Person zutreffen oder zumindest leicht
Daten betreffen, werden in Teil IV diskutiert. vorstellbar sind.

Bei verbalen Items besteht der wichtigste Passung von Itemstamm und Antwortfor-
Gesichtspunkt in der Anpassung der Formu- mat. Besonders zu beachten ist die Beziehung
lierung an das Sprachniveau der anvisier- zwischen Itemstamm und Antwortformat. Es
ten Zielgruppen. Die folgende Liste enthält ist für jedes Item zu prüfen, ob der Itemstamm
die wichtigsten Richtlinien, von denen einige zum verwendeten Antwortformat passt. Wenn
sinngemäß auch auf nichtverbale Aufgaben dies nicht der Fall ist, wird man den Item-
(z. B. Bildvorlagen oder Computeranimatio- stamm umformulieren. Auf die ebenfalls mög-
nen) übertragbar sind. liche Anpassung des Antwortformats für ein-
zelne Items verzichtet man meist, da ein ein-
Verständlichkeit. Items sollten unmittelbar heitliches Antwortformat die Bearbeitung des
verständlich sein. Dies impliziert kurze, präg- Tests und die Analyse der Items vereinfacht.
nante und eindeutige Formulierungen. Dar-
über hinaus sollten Fremdwörter, Fachbegriffe Um Klarheit und Eindeutigkeit der Items zu
oder regionale Eigenheiten vermieden werden. gewährleisten, empfiehlt es sich, die Items in
Schwer verständliche oder mehrdeutige For- der Erprobungsphase von Mitgliedern der Ziel-
mulierungen erzeugen Unsicherheit und ver- gruppe mündlich beantworten und kommentie-
leiten zu Zufallsantworten. ren zu lassen. Hier erfährt man nicht nur eini-
ges über die Interpretation der Items durch die
Negative Formulierungen. Auch Verneinun- Testpersonen, man erhält darüber hinaus auch
gen sollten nach Möglichkeit vermieden wer- Anregungen für alternative und ggf. besser ge-
den, da sie leicht überlesen werden oder Un- eignete Formulierungen. Dies ist besonders
sicherheiten erzeugen können. Wenn negative wichtig, wenn der Test in Zielgruppen einge-
Formulierungen notwendig sind, sollten sie setzt werden soll, denen die Testkonstrukteure
deutlich hervorgehoben werden, etwa durch selbst nicht angehören, etwa bei Kindern.
Fettdruck oder Unterstreichung. Doppelte Ver-
neinungen sollten auf keinen Fall verwendet Neben diesen formalen Aspekten sind natür-
werden. lich auch inhaltliche Gesichtspunkte bei der
Itemformulierung maßgebend. Es ist klar, dass
Eindeutigkeit. Pro Item sollte immer nur ge- sexistische, rassistische oder andere mögli-
nau ein Sachverhalt angesprochen werden. An- cherweise verletzende Formulierungen unter-
sonsten bleibt unklar, auf welchen Teil der bleiben. Ein heikles Thema sind Items, in de-
Feststellung die Testpersonen jeweils reagie- nen Sachverhalte aus der Privatsphäre der Test-
ren. Items, die „und“ bzw. „oder“ beinhalten, personen angesprochen werden (siehe Zier,
sprechen meist mehrere Sachverhalte an und 2002). Solche Items sind in vielen psycho-
sollten deshalb vereinfacht werden. (Ausnah- logischen Anwendungen, besonders etwa im
men sind hier feststehende Redewendungen, Bereich der klinischen Diagnostik, jedoch un-
wie etwa „ruhig und gelassen“.) verzichtbar.

43
3 Merkmale und Gütekriterien psychologischer Tests

Ein Teil der Problematik „intimer“ Items rührt oder mehr vorgegebenen Antwortmöglichkei-
daher, dass Laien zu der falschen Annahme ten die ihrer Meinung nach korrekte oder für
tendieren, die Auswertung und Interpretation sie zutreffende Option aus. Im obigen Beispiel
von Tests erfolge auf Grundlage einer Inspek- („Was ist ein Axiom?“) wurde ein gebundenes
tion der Antworten auf einzelne Items (so wie Antwortformat verwendet, da von vier Ant-
wir unser Verhalten in Gesprächen ja auch auf wortoptionen eine als korrekt zu identifizieren
einzelne Äußerungen abstellen). Dass dies je- war. Bei Verwendung eines offenen Antwort-
doch bei den meisten Testverfahren gerade formats würde man die Personen die Defini-
nicht der Fall ist, dürfte Laien schwer zu ver- tion selbst formulieren lassen und anschlie-
mitteln sein. Antworten auf einzelne Items in- ßend als korrekt oder inkorrekt klassifizieren.
teressieren hier nur insoweit, als sie in die Bil- Korrekte Antworten kodiert man dabei mit 1,
dung von Testwerten eingehen. Bei rechner- inkorrekte mit 0. Bei einigen Leistungstests
gesteuerter Testdarbietung bzw. -auswertung mit offenem Format werden manchmal auch
werden die einzelnen Antworten häufig gar differenziertere Abstufungen verwendet. So
nicht einmal betrachtet. Dessen ungeachtet ist könnte man hier z. B. zwei Punkte für eine op-
auf die Laienperspektive in jeder konkreten timal treffende Antwort geben, einen Punkt
Testanwendung Rücksicht zu nehmen. Dabei für eine teilweise akzeptable. Diese Praxis ist
liegt es in der Verantwortung der Testanwen- allerdings im Hinblick auf die Auswertungs-
der (nicht der Testkonstrukteure), die Ange- objektivität nicht ganz unproblematisch.
messenheit der Itemformulierungen im aktuel-
Offenes Antwortformat. Verfahren mit offe-
len Kontext zu prüfen und ggf. auf ein anderes
nem Format lassen sich u. a. nach dem Ant-
Verfahren auszuweichen.
wortmodus (verbal, schriftlich, zeichnerisch
usw.) und nach dem Grad der Vorstrukturie-
rung der Antworten unterteilen. Ein nichtver-
3.2.4 Antwortformate bales Antwortformat findet sich häufig bei
Fähigkeits- und Leistungstests. So müssen
Das Antwortformat der Items kann den Cha- sich die Probanden in einem bekannten Ge-
rakter des Tests und damit auch die Reaktio- dächtnistest zunächst den auf einem Stadtplan
nen der getesteten Personen stark beeinflus- eingezeichneten Weg von einem Start- zu ei-
sen (Schwarz, 1999; I Kap. 10). Auch die nem Zielort einprägen und in einer anschlie-
Bestimmung der psychometrischen Kennwer- ßenden Erinnerungsphase auf einem neuen
te der Items und des Tests hängen zum Teil Stadtplan nachzeichnen (Bäumler, 1974). In
vom Antwortformat ab. Es ist deshalb wichtig, diesem Beispiel sind die Antwortmöglichkei-
ein für den Anwendungszweck des Verfahrens ten durch den vorgegebenen Stadtplan bis zu
optimal geeignetes Format zu wählen. Im Fol- einem gewissen Grad vorstrukturiert. Freiere
genden schildern wir die gängigsten Antwort- Antwortmöglichkeiten haben die Testpersonen
formate und geben an, wie die Antworten im bei sog. projektiven Verfahren wie dem The-
Hinblick auf ihre anschließende Verrechnung matischen Apperzeptionstest, in dem die Per-
im Testwert kodiert werden können. sonen Geschichten zu vorgegebenen Bildern
erfinden sollen. Die gelieferten Geschichten
Wie bereits angedeutet wurde, kann man
werden dann nach verschiedenen, zum Teil
grundsätzlich zwischen einem offenen und ei-
recht komplizierten Richtlinien kodiert und
nem gebundenen Antwortformat unterschei-
verrechnet (I Kap. 11).
den. Beim offenen Format generieren die Test-
personen die Antwort selbst. Demgegenüber Gebundenes Antwortformat. Auch beim ge-
wählen sie beim gebundenen Format aus zwei bundenen Antwortformat existieren eine Rei-

44
3.2 Zusammenstellung von Items

he von Varianten. Bei Verfahren zur Messung Sofern die Testvorgabe bzw. -auswertung nicht
von Persönlichkeitseigenschaften i. e. S., Ein- computergestützt bzw. maschinell erfolgt, ist
stellungen oder aktuellen Emotionen wird häu- dieses Antwortformat etwas unpraktisch, da
fig entweder ein dichotomes (zweiwertiges) die Markierungen hier vermessen werden müs-
Format oder ein Format mit mehreren geord- sen.
neten Antwortkategorien eingesetzt. Ein di-
Die bisher gezeigten Beispiele verwendeten
chotomes Format bietet zwei Antwortoptio-
unipolare Skalen, die von einer Null- bis zu
nen (z. B. trifft zu und trifft nicht zu), wobei
einer maximalen Ausprägung reichen. Eine
die Antworten generell im Sinne des zu erfas-
Alternative besteht im Einsatz bipolarer Ska-
senden Merkmals kodiert werden. Bei Items
len, die von einem Pol über einen neutralen
mit mehreren geordneten Antwortkategorien,
oder indifferenten Punkt zu einem Gegenpol
sog. Rating- (Einstufungs-) oder Likert-Ska-
reichen, etwa
len, werden drei oder mehr Antwortoptionen
formuliert, die nach Häufigkeiten, Intensitäten
oder Zustimmungsgraden geordnet sind, wie Im Moment fühle ich mich ...
in unserem Beispiel in I Abb. 3.1 (S. 38).
traurig 2 1 0 1 2 glücklich
Das Ratingformat wird dem dichotomen For-
angespannt 2 1 0 1 2 gelöst
mat meist vorgezogen, da es eine differenzier-
tere Bestimmung des in Rede stehenden Merk-
mals erlaubt. Neben Häufigkeiten bzw. Wahr- Als Vorteil bipolarer Skalen wird geltend ge-
scheinlichkeiten und Zustimmungs- bzw. Ab- macht, dass sich die Begriffspaare gegenseitig
lehnungsgraden werden zur verbalen Etiket- erläutern und damit den erfragten Sachverhalt
tierung der Antwortoptionen auch Prozentzah- verdeutlichen können. Dabei muss allerdings
len, Intensitäten oder Zeitintervalle verwendet. sichergestellt sein, dass die Anker von allen
Die Antworten werden mit gleichabständigen Testpersonen als Gegenpole aufgefasst wer-
ganzzahligen Werten verrechnet. Nicht immer den, was sicher nicht immer gewährleistet ist.
werden dabei alle Antwortoptionen verbal ver-
Tatsächlich sind bipolare Skalen unipolaren
ankert. Manchmal begnügt man sich mit ei-
keineswegs generell vorzuziehen. Die beiden
ner Beschreibung der Extremausprägungen
Beispiele beziehen sich auf aktuelle Affekte,
der Skala und kennzeichnet Zwischenstufen
die im Allgemeinen nicht gleichzeitig vorlie-
mit Zahlen oder Symbolen, also etwa
gen; hier kann die Verwendung einer bipo-
laren Skala durchaus Sinn machen. Ist man
trifft überhaupt trifft
0 1 2 3 4 dagegen an längerfristigen Verhaltensaspekten
nicht zu sehr zu
interessiert, beispielsweise an der „Affektla-
ge“ von Personen während der letzten Wo-
wobei die Testpersonen in der Instruktion mit che, wird man die Items in jeweils zwei Fra-
der Verwendung der Skala vertraut gemacht gen mit unipolarem Antwortformat aufspalten.
werden. Eine Variante sind graphische Rating- Der Grund hierfür liegt im sog. Ambivalenz-
skalen, in denen die Personen nicht zwischen Indifferenzproblem, das mit bipolaren Skalen
diskreten Optionen wählen, sondern ihr Ur- verknüpft sein kann. Während extreme Ant-
teil durch Markierung einer Stelle auf einem worten auf bipolar formulierte Items eine klar
Kontinuum abgeben: umrissene Bedeutung besitzen (die Person war
überwiegend traurig oder überwiegend glück-
trifft überhaupt trifft lich), sind Antworten im Mittelbereich mehr-
nicht zu sehr zu deutig. Solche Antworten können einerseits

45
3 Merkmale und Gütekriterien psychologischer Tests

indizieren, dass die Stimmung der Person in hier letztlich inhaltliche und konzeptuelle Ge-
der letzten Woche ausgeglichen war und im sichtspunkte ausschlaggebend. Für manche
„normalen Bereich“ lag (Indifferenz). Sie kön- Fragestellungen ist die Vorgabe eines neutra-
nen aber auch bedeuten, dass beide Affekte len Ankerwerts durchaus sinnvoll oder sogar
(Trauer und Freude, Angespanntheit und Ge- notwendig, z. B. bei der Erfassung ästhetischer
löstheit) vorlagen (Ambivalenz). Durch Ver- oder affektiver Bewertungen, bei denen gera-
wendung unipolarer Items, in denen Trauer, de auch indifferente Urteile interessieren. So-
Freude, Angespanntheit und Gelöstheit sepa- fern solche Gesichtspunkte keine Rolle spie-
rat erfasst werden, lassen sich diese Möglich- len, wird man jedoch eine gerade Antwortzahl
keiten differenzieren. favorisieren.
Zwei wichtige Fragen beim Einsatz des Ra- Seltener verwendet werden Checklisten, wie
tingformats, die uni- und bipolare Skalen be- etwa
treffen, beziehen sich auf die Anzahl der Ant- Welche der folgenden Affekte haben Sie heute
wortoptionen und die Verwendung einer „neu- erlebt?
tralen“ mittleren Kategorie.
o Angst o Ärger o Freude o Scham
Die Wahl der Anzahl der Antwortoptionen
o Stolz o Trauer
bzw. -stufen hängt davon ab, wie gut die Pro-
banden in dem in Rede stehenden Bereich Bei Checklisten steht es den Personen frei,
differenzieren können. Wird die Differenzie- keine, eine oder mehrere der aufgeführten Op-
rungsfähigkeit der Probanden überschritten, tionen anzukreuzen. Hier könnte man z. B. die
gewinnt man mit feineren Skalen nicht wirk- Anzahl angegebener negativer Emotionen aus-
lich mehr Information als mit gröberen, da die zählen.
Feinabstufungen von den Testpersonen dann
entweder nicht oder in unsystematischer Weise Anders ist dies bei sog. Zwangswahlitems
genutzt werden. In gängigen Persönlichkeits-, (engl. forced-choice items). Bei solchen Items
Interessen- und Einstellungstests werden im werden mehrere miteinander unvereinbare
Allgemeinen zwischen vier und elf Antwort- Itemstämme vorgegeben, zwischen denen
stufen verwendet, wobei vier bis sechs Op- sich die Probanden entscheiden müssen. So
tionen am häufigsten sind. Bei Kindern wer- gibt es etwa im Fragebogen zur interna-
den meist weniger differenzierte Antwortfor- len/externalen Kontrollüberzeugung von Rot-
mate eingesetzt. Häufig beschränkt man sich ter (1966; I Kap. 10.3.1) das folgende Item:
hier auf ein dichotomes Antwortformat, des-
(a) Auf lange Sicht wird jeder so angesehen,
sen Nutzung Kindern leichter fallen sollte.
wie er es verdient.
Von der Verwendung einer mittleren Antwort- (b) Unglücklicherweise wird der Wert eines
kategorie (und damit einer ungeraden Zahl von Menschen oft nicht bemerkt, egal, wieviel
Antwortoptionen) wird häufig abgeraten, da Mühe er sich gibt.
Probanden, welche die Items oberflächlich be-
antworten oder nicht bereit sind, Informati- Im Beispielfall würde die Wahl der Alter-
on über sich preiszugeben, diese Kategorie native (a) einen Punkt in Richtung interna-
bevorzugen könnten. Verzichtet man auf ei- le Kontrollüberzeugung ergeben. Das Forced-
ne Mittelkategorie, verwendet also eine gera- Choice-Format wird besonders häufig verwen-
de Zahl von Antwortmöglichkeiten, werden det, wenn es um das Diagnostizieren unter-
die Personen gezwungen, zumindest eine Ten- schiedlicher Interessen, beispielsweise Berufs-
denz erkennen zu lassen. Natürlich sind auch interessen, geht (I Kap. 10.4).

46
3.2 Zusammenstellung von Items

Bei Wissens-, Fähigkeits- und Leistungstests wenig ausmacht, sofern die als korrekt defi-
findet man häufig das Mehrfach-Wahl- (mul- nierte Option eindeutig besser trifft, ist dies
tiple choice) und Zuordnungsformat. Beim in der Multiple-Response-Variante fatal und
Multiple-Choice-Format (MC-Format) werden schafft auch bei Personen, welche die korrekte
mehrere mögliche Antworten vorgegeben, von Antwort kennen, Unsicherheit. Üblicherweise
denen jeweils eine als korrekt zu identifizieren wird beim MC-Format eine korrekte Antwort
ist. Ein Beispiel hatten wir oben bereits ken- mit 1, eine inkorrekte oder fehlende Antwort
nengelernt („Was ist ein Axiom“). Die inkor- mit 0 verrechnet.
rekten Antwortoptionen werden als Distrakto-
ren bezeichnet. Sie sollen für Personen, wel- Bei Zuordnungsverfahren (engl. matching)
che die richtige Antwort nicht kennen, anspre- werden zwei Listen von Gegenständen oder
chend, andererseits jedoch eindeutig falsch Konzepten konstruiert, zwischen denen eine
sein. Die Kunst, geeignete MC-Items zu for- Korrespondenz herzustellen ist, z. B.
mulieren, besteht deshalb primär in der Kon- Ordnen Sie jeder der folgenden Personen die ihr
struktion guter Distraktoren, die ein Erraten zugeschriebene Erfindung zu. Schreiben Sie den
der korrekten Option unwahrscheinlich ma- Buchstaben in das frei gelassene Feld.
chen. Auf die Verwendung eines dichotomen
Formats (eine korrekte Option, ein Distrak- James Watt __ (a) Telefon
tor) verzichtet man deshalb (außer man hat Philipp Reis __ (b) Computer
die Möglichkeit, sehr viele Items zu geben). Konrad Zuse __ (c) Blitzableiter
Im Allgemeinen werden zwischen vier und O. H. v. Mayenburg __ (d) Dampfmaschine
zehn Antwortoptionen formuliert. Es ist klar, Benjamin Franklin __ (e) Glühbirne
dass sich unter sonst gleichen Bedingungen (f) Zahnpasta
Ratetendenzen umso weniger bemerkbar ma-
chen können, je mehr Distraktoren formuliert Wie ersichtlich, sind die beiden Listen unter-
werden. schiedlich lang. Hierdurch wird vermieden,
dass die letzte (im Beispiel die fünfte) Zuord-
In einer Variante von MC-Items kann mehr nung aufgrund der anderen Zuordnungen be-
als eine der Antwortoptionen korrekt sein, reits festgelegt ist. Für die Verrechnung kann
evtl. können sogar alle zutreffen. (Das For- man die Anzahl der korrekten Zuordnungen
mat wird manchmal als Multiple-Choice- zählen und evtl. hiervon die Zahl der inkorrek-
Multiple-Response-Format angesprochen und ten Zuordnungen subtrahieren.
damit vom üblicheren Multiple-Choice-Single- Offenes oder gebundenes Format? Bei der
Format abgehoben.) Dies macht ein Erraten Entscheidung zwischen offenem und gebunde-
noch schwieriger, da einem vollständig korrek- nem Antwortformat sind eine Reihe von Vor-
ten Antwortmuster bei k Optionen in diesem und Nachteilen zu bedenken. Der beim offe-
Fall 2k − 2 inkorrekte Antwortmuster gegen- nen Format gegebene große Antwortspielraum
über stehen, bei einem Item mit vier Antwort- kann diagnostisch sehr aufschlussreich sein.
optionen also z. B. bereits 14 anstelle von nur Für die Erfassung einer Reihe von Verhaltens-
drei. Derartige Items werden allerdings von aspekten, z. B. kreativer Leistungen, sind freie
den Probanden häufig als unfair empfunden. Antworten unabdingbar.
Darüber hinaus stellen sie sehr hohe Anfor-
derungen an die Formulierung der Distrak- Tests mit offenem Antwortformat verlangen ei-
toren. Während bei der normalen Vorgabe ne Kategorisierung, ggf. auch eine darüber hin-
ein etwas mehrdeutig formulierter Distraktor, ausgehende Bewertung der Antworten, wäh-
der evtl. als richtig aufgefasst werden könnte, rend die Antworten beim gebundenen Format

47
3 Merkmale und Gütekriterien psychologischer Tests

gewissermaßen automatisch kategorisiert wer- 3.3 Itemkennwerte und


den. Die Auswertung offener Items ist also Testwertverteilung
mit höherem Aufwand verbunden als die ge-
bundener Items. Unter dem Gesichtspunkt der
Auswertungsökonomie ist das gebundene For- In der Erprobungsphase werden die für die
mat daher zu präferieren. Itembewertung und -auswahl notwendigen em-
Auch die Auswertungsobjektivität spricht für pirischen Daten erhoben. Hierfür wird die er-
die Verwendung des gebundenen Antwortfor- stellte Vorform des Tests einer Stichprobe aus
mats. Sie kann beim offenen Format proble- der Zielpopulation vorgelegt. Dabei wird es
matisch sein. Dies ist beispielsweise der Fall, aus praktischen Gründen häufig nicht möglich
wenn die Antworten hinsichtlich bestimmter sein, eine repräsentative Stichprobe zu ziehen
Qualitätsaspekte bewertet werden müssen. Die – obwohl dies natürlich der Idealfall wäre. In
von einer Testperson gegebene Definition des jedem Fall sollte man sich darum bemühen,
Begriffs Axiom im obigen Beispiel kann etwa dass die Verteilung der jeweils interessieren-
mehr oder weniger treffend sein, so dass sich den Merkmale in der Stichprobe deren Vertei-
hier bei der Bewertung gewisse Spielräume lung in der Zielpopulation nahe kommt. Ins-
ergeben. besondere ist darauf zu achten, dass die Merk-
malsstreuung in der Stichprobe möglichst breit
Die Testmanuale enthalten zwar meist rela- und nicht etwa durch die Auswahl der Per-
tiv detaillierte Auswertungsrichtlinien, können sonen eingeschränkt ist. Man spricht in die-
aber naturgemäß nicht alle möglichen Reak- sem Fall von spezifischer Repräsentativität;
tionen der Probanden antizipieren. Besonders gemeint ist, dass die Verteilung der interessie-
offensichtlich ist dies etwa bei Kreativitäts- renden Merkmale (etwa Gewissenhaftigkeit)
tests, in denen bei einer Reihe von Items die repräsentativ ist, nicht aber notwendigerweise
Originalität der Antworten eingeschätzt wer- die Verteilung anderer Merkmale (etwa räum-
den muss. In solchen Fällen muss die Auswer- liches Vorstellungsvermögen). Für die Kon-
tungsobjektivität der Skalen eigens bestimmt struktion eines Intelligenztests für Erwachse-
werden. Bei gebundenen Format ist dies nicht ne wäre es z. B. unangebracht, die notwendi-
erforderlich. Hier können Fehler allein bei der gen Voruntersuchungen an Studierenden vor-
Übertragung der Werte unterlaufen, was sich zunehmen, für die nicht nur höhere Merkmals-
relativ leicht kontrollieren und ggf. korrigie- ausprägungen, sondern auch eine geringere
ren lässt. Die Auswertungsobjektivität ist hier Streuung des Merkmals zu erwarten ist als in
zumeist optimal. der Zielpopulation. In diesem Fall würden die
Stichprobenkennwerte die Verhältnisse in der
Bei Aufgaben, deren Beantwortung als richtig Population nicht genau reflektieren, eventuell
oder falsch klassifiziert werden kann, liegt ein sogar ein stark verzerrtes Bild liefern.
Vorteil des offenen Formats darin, dass Rate-
tendenzen meist nur eine vernachlässigbar ge- Im Rahmen der Item- und Testanalyse werden
ringe Rolle spielen. Beim gebundenen Format die Items im Hinblick auf ihre psychometri-
können individuelle Unterschiede in der Be- schen Eigenschaften analysiert und bewertet.
reitschaft, bei Nichtwissen oder nur partiellem Ziel ist es dabei, in messtechnischer Hinsicht
Wissen zu raten (eine der Antwortoptionen an- angemessene Items für die zu erstellende Test-
zukreuzen), die Testresultate ggf. verzerren. endform auszuwählen. Items, die sich als un-
Dem kann aber durch geeignete Instruktionen, geeignet erweisen, werden eliminiert oder mo-
evtl. auch durch technische Korrekturen entge- difiziert. Darüber hinaus kann es sich manch-
gengewirkt werden (Lienert & Raatz, 1998). mal als notwendig erweisen, neue Items zu

48
3.3 Itemkennwerte und Testwertverteilung

formulieren. Modifikationen des Tests erfor- dabei entweder von 1 bis zur Anzahl der Ant-
dern natürlich auch eine erneute Erprobung. wortoptionen oder von 0 bis zur Kategorienan-
Auf der Grundlage der Ergebnisse der Item- zahl minus 1. Auch hier ist es natürlich wich-
analysen wird eine revidierte Form des Tests tig, auf die einheitliche Polung der Kodierung
erstellt. Die revidierte Testform wird anschlie- zu achten. Die Zuordnung muss in Schlüssel-
ßend einer zweiten Stichprobe vorgelegt und richtung erfolgen, wie man sagt. Quantitative
erneut analysiert. Diese Schleife wird so lange Itemwerte ergeben sich auch dann, wenn die
durchlaufen, bis die optimal geeigneten Items Antworten hinsichtlich bestimmter Aspekte
identifiziert sind. Diese gehen in die Endform bewertet werden (z. B. hinsichtlich ihrer Ori-
des Tests ein. ginalität in einem Kreativitätstest).
Wie wir bereits sahen, werden für die Itemana- Testwerte werden durch Summierung oder
lyse den Antworten der Personen Zahlen zuge- Mittelung der Itemwerte gebildet, wie wir be-
ordnet. In einigen Anwendungen dienen diese reits sahen. Bei binären Items kennzeichnet
Zahlen lediglich als Kategorien, die verschie- der Testwert dann die Zahl bzw. die relative
dene Antworten oder Antwortklassen vonein- Häufigkeit korrekter Antworten oder die Zahl
ander differenzieren sollen. In diesem Fall bzw. relative Häufigkeit von Antworten, die
könnten auch Buchstaben oder verbale Kenn- im Sinne des Merkmals abgegeben wurden.
zeichnungen verwendet werden. Meist werden
die Antworten jedoch als Indikatoren eines Der Testwert ist das, was uns eigentlich inter-
zugrunde liegenden kontinuierlich variieren- essiert. Er liefert den Indikator des zu erfas-
den Merkmals aufgefasst, dessen Ausprägung senden Merkmals. Es ist klar, dass der Test-
quantitativ beschrieben werden soll. Hierfür wert diese Indikatorfunktion nur erfüllen kann,
werden numerische Werte benötigt. wenn auch die Items, auf deren Grundlage
er gebildet wird, das Merkmal erfassen. Da-
Bei Aufgaben, die als richtig oder falsch be-
her muss man sich bei der Testkonstruktion
wertet werden können, wählt man dabei am
und -analyse mit den Eigenschaften einzelner
besten den Wert 1 für korrekte und den Wert 0
Items auseinandersetzen. Die drei wichtigsten
für inkorrekte Antworten. In analoger Weise
Eigenschaften von Items sind Schwierigkeit,
geht man bei Items mit dichotomen Antwort-
Streuung und Trennschärfe, auf die wir in den
format vor: Hier ordnet man 1 einer Antwort
folgenden Abschnitten eingehen.
zu, die im Sinne des zu erfassenden Merkmals
gerichtet ist, 0 einer Antwort, die nicht im
Sinne des Merkmals gerichtet ist. Andere Zu-
ordnungen wären hier möglich, diese Art der 3.3.1 Schwierigkeit
Kodierung vereinfacht jedoch einige der an-
zustellenden Berechnungen. Items, bei denen
die Antworten mit nur zwei Werten kodiert Items werden mehr oder weniger häufig gelöst
werden, heißen binäre Items. Werden mehr bzw. mehr oder weniger häufig in Schlüssel-
als zwei Stufen verwendet, spricht man dage- richtung beantwortet. Das Mehr oder Weni-
gen von quantitativen Items (vgl. McDonald, ger bestimmt die Schwierigkeit eines Items.
1999). Quantitative Itemwerte erhält man bei- Der entsprechende statistische Kennwert heißt
spielsweise beim Zuordnungsformat, indem Schwierigkeitsindex und wird durch die relati-
man die Zahl der korrekten Zuordnungen aus- ve Häufigkeit korrekter Antworten in einer Per-
zählt, oder beim Ratingformat, indem man die sonstichprobe bestimmt. Diese relative Häu-
einzelnen Antwortkategorien mit ganzzahli- figkeit kürzt man im Allgemeinen mit p j ab,
gen Werten kodiert. Im Allgemeinen zählt man wobei der Index j für ein konkretes Item (die

49
3 Merkmale und Gütekriterien psychologischer Tests

Itemnummer) steht. Der Index schätzt die Lö- ersetzt man den Begriff „Schwierigkeit“ hier
sungswahrscheinlichkeit p (engl. probability) manchmal durch den der „Popularität“.
einer zufällig ausgewählten Person.
Bei quantitativen Items wird die Schwierigkeit
Der Schwierigkeitsindex lässt sich also durch durch das arithmetische Mittel der Itemwerte
über die Personen bestimmt:
p j = n j /n 1 n
x̄ j = ∑ xi j .
n i=1
berechnen. Hierbei steht n j für die Zahl der
Personen, die das Item j gelöst haben, n für die Wir reservieren im Folgenden den Buchsta-
Gesamtzahl der Personen in der Stichprobe. ben X für Itemvariablen, wobei wir Personen
Ein Item, das 180 von 200 Testpersonen lösen, immer mit i, Items mit j indizieren. (Für Test-
erhielte also einen Schwierigkeitsindex von werte verwenden wir den Buchstaben Y .) Bei
0.9; ein Item, das 100 Personen lösen, einen der beschriebenen Form der Itemkodierung (1
Schwierigkeitsindex von 0.5. Dabei ist zu be- für korrekt bzw. im Sinne des Merkmals, sonst
achten, dass leichte Items (also Items, die von 0) ist der Schwierigkeitsindex eines binären
vielen Personen gelöst werden) einen hohen Items identisch mit dem arithmetischen Mittel
Indexwert erhalten, schwierige Items (Items, der Itemwerte über alle n Personen, wie man
die nur wenige Personen lösen) entsprechend sich leicht veranschaulichen kann. Die letz-
einen niedrigen Indexwert. Diese Polung ist te Formel deckt also binäre und quantitative
kontraintuitiv, hat sich aber so eingebürgert. Items ab. Wie aus der Definition des Schwie-
Der Vorschlag, den Index in „Leichtigkeits- rigkeitsindex ersichtlich ist, streuen die Indi-
index“ umzutaufen, konnte sich nicht durch- ces im selben Bereich wie die Itemwerte, bei
setzen. (Bei der adjektivischen Verwendung binären Items also zwischen 0 und 1, bei quan-
behält man die intuitive Polung jedoch bei, ein titativen Items zwischen 1 (bzw. 0) und der
„schwieriges“ Item wird also selten gelöst.) Anzahl der Antwortkategorien (minus 1, je
nach Kodierung).
Items, deren Beantwortung nicht als richtig
oder falsch bewertet werden kann (z. B. „Ich Schwierigkeiten werden aus zwei Gründen,
esse gern Schokoladeneis“), werden eben- die wir bereits bereits in I Kap. 3.1.4 ange-
falls als mehr oder weniger schwierig bzw. sprochen hatten, betrachtet: Erstens ist es in
leicht bezeichnet. Die Anwendung des Be- Fähigkeits- und Leistungstests zweckmäßig,
griffs Schwierigkeit auf solche Items mag die Aufgaben hinsichtlich ihrer Schwierigkeit
überraschen. Sie ist einfach eine technische anzuordnen, also leichte Aufgaben an den An-
Konvention, die keine Aussage darüber macht, fang, schwierige Aufgaben an das Ende des
ob die Beantwortung eines Items auch subjek- Tests zu stellen. Die Schwierigkeitsindices
tiv als schwierig oder leicht empfunden wird. liefern uns die hierfür benötigte Information.
Bei binären Items gibt der Index den Anteil der Zweitens sollten sich die Items hinsichtlich
Personen an, die das Item im Sinne des Merk- ihrer Schwierigkeit unterscheiden, es sollten
mals beantwortet haben. Auch hier muss man also leichte, mittelschwierige und schwieri-
sich daran gewöhnen, dass Items, die generell ge Items in einen Test aufgenommen werden.
eher im Sinne des Merkmals beantwortet wer- Dieser Gesichtspunkt betrifft im Prinzip alle
den, einen hohen Indexwert erhalten. Das Bei- Testarten, insbesondere jedoch solche Tests, in
spielitem würde bei Kindern vermutlich einen denen inhaltlich sehr homogene (gleichartige)
hohen Schwierigkeitsindex erhalten (sofern es Aufgaben (z. B. nur Zahlenreihen) zu bearbei-
in Richtung Eispräferenz kodiert wird). Um ten sind. Sehr homogene Testaufgaben finden
die Konnotation mit Leistungen zu vermeiden, sich eher in Fähigkeits- und Leistungstests als

50
3.3 Itemkennwerte und Testwertverteilung

in Tests zur Erfassung von Persönlichkeits- eine geringere Bedeutung zu als bei homoge-
merkmalen i. e. S. Durch die Aufnahme von nen binären Items.
Items unterschiedlicher Schwierigkeit soll ge-
währleistet werden, dass die Testwerte in allen
Bereichen des Merkmalskontinuums gut zwi-
3.3.2 Streuung
schen Personen differenzieren. Enthielte ein
homogener Test z. B. nur Aufgaben gleicher
Schwierigkeit, würden die Testwerte lediglich Auch die Variation einzelner Items sollte bei
zwei Gruppen gut voneinander differenzie- der Aufgabenselektion und -zusammenstel-
ren, nämlich Personen, die Aufgaben dieser lung berücksichtigt werden. Es ist einleuch-
Schwierigkeit lösen, und Personen, die Aufga- tend, dass die Antworten auf ein Item zwi-
ben dieser Schwierigkeit nicht lösen können. schen den Personen streuen sollten. Ein Item,
auf das alle Personen die gleiche Antwort ge-
Durch die Aufnahme von Items unterschied- ben, liefert keine Information über die inter-
licher Schwierigkeit kann ein solcher Defekt essierenden interindividuellen Unterschiede
vermieden werden. Für Tests oder Skalen mit und kann deshalb eliminiert werden. Prinzi-
homogenen binären Items wird deshalb emp- piell besitzen Items mit starker Streuung bes-
fohlen, die Items so zusammenzustellen, dass sere Voraussetzungen zur Differenzierung un-
die Schwierigkeiten mindestens einen Bereich terschiedlicher Ausprägungen des anvisierten
von 0.2 bis 0.8 abdecken. Bei Fähigkeitstests, Merkmals als Items mit geringer Streuung.
mit denen auch in Extrembereichen des zu Streuungsmaße, also Varianzen bzw. Standard-
erfassenden Merkmals noch gut differenziert abweichungen, müssen nur bei quantitativen
werden soll, wird man dieses Intervall noch Items berechnet werden. Bei binären Items
breiter ansetzen. Generell sollten die Item- genügt die Betrachtung der Itemschwierig-
schwierigkeiten so streuen, dass die Testwerte keit, da hier Schwierigkeit und Streuung di-
den jeweils interessierenden Ausschnitt des rekt miteinander gekoppelt sind. Die Varianz
Merkmalskontinuums möglichst gut reflektie- binärer Items ergibt sich nämlich einfach aus
ren. In besonders interessierenden Ausschnit- p · (1 − p), wie sich aus der Definition der Va-
ten sollten sich auch die Itemschwierigkeiten rianz ableiten lässt. Sie wird bei mittlerer Item-
konzentrieren. Dies ist häufig der Mittelbe- schwierigkeit ( p = 0.5) maximal (0.25): Hier
reich, in dem die meisten Personen liegen (sie-ist die Unterschiedlichkeit der Antworten am
he Lienert & Raatz, 1998, für eine detailliertegrößten, da die Hälfte der Personen das Item
Diskussion). Genauere Hinweise zum optima- löst bzw. bejaht, die andere Hälfte das Item
len „Schwierigkeitsmix“ der Items lassen sich nicht löst bzw. verneint. Mit zunehmender
mit Hilfe der Item-Response-Theorie gewin- Schwierigkeit bzw. Leichtigkeit nähert sich
nen (I Kap. 4.2.8). die Streuung dem Wert 0, der erreicht wird,
wenn alle oder keine der Personen das Item
Außerhalb des Fähigkeits- und Leistungsbe- lösen.
reichs sind die Aufgaben meist heterogener, so
dass sich ähnliche Itemschwierigkeiten nicht Auch bei quantitativen Items sind Schwierig-
so extrem auswirken wie im Beispiel. Darüber keiten und Varianzen voneinander abhängig,
hinaus werden hier meist quantitative Items wobei die Schwierigkeit die Varianz allerdings
verwendet, die von vornherein eine stärkere nicht mehr vollständig festlegt. Die Anzahl der
Differenzierung zwischen Personen ermögli- Kategorien bestimmt die maximal mögliche
chen als binäre Items. Einer breiten Streuung Varianz eines Items. Je mehr Antwortkatego-
der Itemschwierigkeiten kommt hier deshalb rien verwendet werden, desto höher wird die

51
3 Merkmale und Gütekriterien psychologischer Tests

mögliche Varianz und desto geringer fällt de- geeigneten Items wird eine Trennschärfe er-
ren Abhängigkeit von der Schwierigkeit aus. wartet, die deutlich über Null liegt. Für einen
ungefähren Anhaltspunkt kann man Item-Test-
Wir hatten oben bemerkt, dass man bei homo- Korrelationen ab .30 als untere Grenze an-
genen Tests, die aus binären Items bestehen, setzen. Items mit niedrigeren Trennschärfen
auf die Aufnahme leichter, mittelschwieriger sind „Streichkandidaten“. Korrelationen in der
und schwieriger Items achten sollte. Leichte Höhe von .50 oder .60 kennzeichnen „gute“
und schwierige Items besitzen aber von vorn- Items.
herein eine relativ geringe Varianz, was den
Gedanken nahelegen könnte, sie auszuschei- Neben Item-Test-Korrelationen werden als
den oder durch Items mittlerer Schwierigkeit Trennschärfeindices auch Item-Test-Kovari-
(und entsprechend höherer Varianz) zu erset- anzen sowie einige weitere Größen betrach-
zen. Ein solches Vorgehen wäre jedoch nicht tet, die in bestimmten Anwendungen Vorteile
zielführend. Eine breite Streuung der Schwie- gegenüber Korrelationen aufweisen können
rigkeiten zwischen Items ist bei homogenen (für eine Übersicht siehe McDonald, 1999,
Tests, die wir besonders im Leistungsbereich Kap. 11). Die aufgrund ihrer Anschaulichkeit
finden, wichtiger als eine breite Streuung ein- und einfacheren Vergleichbarkeit bevorzugt
zelner Items zwischen Personen. Mit Ausnah- betrachteten korrelativen Indices liefern je-
me von Extremwerten liefert die Streuung ei- doch nahezu äquivalente Information.
nes Items allein kein hinreichendes Argument, In Tests, die relativ wenige Items umfassen,
es zu eliminieren oder durch ein anderes Item werden Item-Test-Korrelationen artifiziell in
zu ersetzen. Generell stellen Streuungsmaße die Höhe getrieben, da das Item, dessen Zu-
eher ergänzende Kennwerte für die Beurtei- sammenhang mit dem Testwert beurteilt wer-
lung von Items dar. den soll, ja Teil des Testwerts ist und daher
eine algebraische (Teil-Ganzes-) Abhängig-
keit besteht. Die Trennschärfeindices werden
den Zusammenhang mit dem Merkmal also
3.3.3 Trennschärfe
etwas überschätzen. Um diesem Effekt zu be-
gegnen, kann man Korrelationen der Items
Die Antworten auf die einzelnen Items sollen mit „Rest-Testwerten“ Y − X j berechnen, in
von einem gemeinsamen Merkmal abhängen, denen das jeweils betrachtete Item j nicht be-
dessen Ausprägungen durch die Testwerte in- rücksichtigt wird. Die Item-Rest-Korrelation
diziert werden. Entsprechend müssen die Kor- wird als korrigierte Trennschärfe bezeichnet.
relationen zwischen den Item- und Testwerten Die Korrektur beseitigt zwar die Abhängigkeit,
jeweils substanziell und positiv ausfallen. In führt allerdings auch dazu, dass die Items an
der klassischen Itemanalyse gilt die Item-Test- jeweils unterschiedlichen Kriterien gemessen
Korrelation Kor(X j ,Y ) als zentrales Gütekrite- werden. Darüber hinaus lässt sich zeigen, dass
rium eines Items; sie wird als Trennschärfe des die so berechneten Kennwerte die Zusammen-
Items (englisch item discrimination power) be- hänge mit dem zugrunde liegenden Merkmal
zeichnet. Der Ausdruck „Trennschärfe“ rührt leicht unterschätzen (siehe McDonald, 1999;
daher, dass Items, die deutlich mit den Test- I Kap. 4). Die verschiedenen Kennwerte (kor-
werten assoziiert sind, gut zwischen Personen rigierte und unkorrigierte Korrelationen) erge-
mit hohen und niedrigen Testwerten trennen. ben jedoch meist identische oder sehr ähnliche
Items mit niedriger Trennschärfe diskriminie- Itemrangreihen. Dies ist nicht erstaunlich, da
ren schlechter oder – im Extremfall – über- ihre Berechnung nur marginal differiert. Bei
haupt nicht zwischen beiden Gruppen. Von der Itemselektion ist es zweckmäßig, die Items

52
3.3 Itemkennwerte und Testwertverteilung

mit den höchsten korrigierten Trennschärfen Zusammensetzung der herangezogenen Per-


beizubehalten. sonenstichprobe.
Wir hatten bemerkt, dass der Trennschärfe im Häufig werden symmetrische, näherungswei-
Rahmen der klassischen Itemanalyse eine zen- se normalverteilte Testwerte erwartet, wie in
trale Rolle beigemessen wird. Die Trennschär- I Abb. 3.3, Beispiel A. Abweichungen von
fe gilt besonders bei Fragebogen mit mehrstu- der Normalverteilung können u. a. zurückge-
figen Antwortoptionen als wichtigstes Gütekri- hen auf
terium eines Items. Bei binären Items sollten
• eine heterogene Zusammensetzung der
die Aufgaben jedoch nicht allein auf der Basis
Stichprobe,
ihrer Trennschärfen selektiert werden. Hier ist
• eine unangemessene Auswahl, Reihung
es besonders wichtig, immer auch eine breite
oder Verrechnung der Items oder
Streuung der Itemschwierigkeiten im Auge zu
behalten. Man wird also ggf. schwierige und • das Vorliegen eines nichtnormalverteilten
leichte Items im Test belassen, auch wenn sie Merkmals.
niedrigere Trennschärfen aufweisen als Items Stichprobenheterogenität liegt vor, wenn meh-
mit mittlerer Schwierigkeit. rere Untergruppen existieren, die sich hinsicht-
Hinter der Betrachtung der Trennschärfe steht lich ihrer Mittelwerte und/oder Streuungen
die Idee, dass Items, die gute Indikatoren des deutlich unterscheiden. So können z. B. bimo-
mit dem Test erfassten Merkmals sind, sub- dale Verteilungen daher rühren, dass sich die
stanzielle Zusammenhänge mit den Testwer- Stichprobe aus zwei Gruppen zusammensetzt,
ten aufweisen müssen. Hierbei wird der Test- deren Mittelwerte sehr weit auseinander liegen
wert – auch wenn er auf einer noch revisions- (Beispiel B), wie es in der Abbildung durch
bedürftigen Vorform des Tests basiert – als Kri- die gepunkteten Linien angedeutet ist. Sind
terium herangezogen, an dem die Items beur- die beiden Gruppen in etwa gleich groß und
teilt werden. Dieses Kriterium kann natürlich rücken ihre Mittelwerte aneinander, so kann
nur funktionieren, wenn die meisten Items, aus eine breitgipflige Verteilung resultieren, wie
denen sich die Vorform zusammensetzt, zur sie in Beispiel C gezeigt ist. Schmalgipfeli-
Messung des Merkmals geeignet sind. Gerade ge Verteilungen resultieren bei Gruppen mit
das weiß man bei einer Testvorform jedoch ähnlichen Mittelwerten, aber sehr unterschied-
noch nicht. Methoden, mit denen sich diese lichen Streuungen (Beispiel D). Schiefe Ver-
kritische Voraussetzung prüfen lässt, stellen teilung (Beispiele E und F) deuten auf unter-
wir im folgenden Kapitel dar. Die dort behan- schiedlich große Gruppen mit weiter ausein-
delten Testmodelle liefern auch Techniken, die ander liegenden Mittelwerten hin.
besser zur Itemselektion geeignet sind als die Auch eine unangemessene Itemauswahl und
klassischen Trennschärfeindices. -zusammenstellung kann anomale Verteilun-
gen bedingen. So kann eine rechtsschiefe Ver-
3.3.4 Verteilung der Testwerte teilung der Testwerte (Beispiel E) Anzeichen
dafür sein, dass die gewählten Aufgaben zu
In der Erprobungsphase eines Tests sollte man schwierig für die getesteten Personen sind.
immer auch einen Blick auf die Verteilung der Entsprechend deutet eine linksschiefe Vertei-
Testwerte werfen, insbesondere dann, wenn be- lung (F) auf einen möglicherweise zu gerin-
stimmte Verteilungen erwartet oder erwünscht gen Schwierigkeitsgrad des Tests hin. Eine
sind. Diese Verteilung gibt wichtige Hinweise detaillierte Diskussion abweichender Vertei-
auf die Angemessenheit der Zusammenstel- lungsformen findet sich in Lienert und Raatz
lung und Reihung der Items sowie auf die (1998).

53
3 Merkmale und Gütekriterien psychologischer Tests

A B C

Häufigkeit
Wert Wert Wert
D E F

Häufigkeit
Abb. 3.3
Beispiele für
Verteilungsformen von
Testwerten Wert Wert Wert

Nicht immer sind deutliche Abweichungen ist es z. B. wichtig, die Höhe von Zusammen-
von der Normalverteilung jedoch Besonder- hängen zwischen Konstrukten beurteilen zu
heiten der erhobenen Stichprobe oder einer in- können, die mit diversen und daher auch un-
adäquaten Itemzusammenstellung anzulasten. terschiedlich reliablen Indikatoren erfasst wer-
Auch nichtnormalverteilte Variablen können den. In der Praxis entsteht die Frage, ob ein ge-
die zu messende Eigenschaft in angemesse- gebener Messfehler für den konkreten Einsatz-
ner Weise reflektieren. So wird man z. B. für zweck des Tests noch toleriert werden kann.
Verfahren zur Messung der Intensität aktueller Darüber hinaus muss der Messfehler bei Emp-
Emotionen, etwa Angst oder Ärger, von vorn- fehlungen und Entscheidungen auf der Grund-
herein keine symmetrisch verteilten Messwer- lage von Testergebnissen berücksichtigt wer-
te erwarten, wenn die Emotionsausprägung den (I Kap. 13).
bei einer unausgelesenen Stichprobe in einer
Alltagssituation erhoben wird. Für die meis- Die klassischen Verfahren zur Bestimmung
ten Personen werden sich hier niedrige Ska- der Reliabilität eines Tests beruhen auf der
lenwerte ergeben, so dass eine rechtsschiefe Idee, die Messung mit dem gleichen oder ei-
Verteilung resultiert. nem äquivalenten (parallelen) Verfahren zu
wiederholen und das Ausmaß der Übereinstim-
mung beider Messungen zu prüfen. Liefern
3.4 Reliabilität die Messungen identische oder doch sehr ähn-
liche Werte, schließt man, dass der Messfehler
gering, das Verfahren also reliabel ist. Diver-
Jede Messung ist mit einem mehr oder weni-
gieren die Werte deutlich, ist das Verfahren
ger großen Fehler behaftet. Im Rahmen der
mit einem hohen Messfehler behaftet, also un-
Klassischen Testtheorie, die in ihrem Kern ein
reliabel. Bevor die grundlegenden praktischen
Messfehlermodell darstellt, wird versucht, die
Methoden zur Reliabilitätsbestimmung vorge-
Genauigkeit bzw. Ungenauigkeit psychologi-
stellt werden, ist es sinnvoll, die diesen Metho-
scher Messungen numerisch zu bestimmen.
den zugrunde liegenden Modellvorstellungen
Im Zentrum steht hier das Konzept der Relia-
zu skizzieren. Hierzu erläutern wir zunächst
bilität, das die Zuverlässigkeit oder Präzision
die für die Klassische Testtheorie fundamenta-
der Messung beschreibt.
len Begriffe „wahrer Wert“ und „Fehler“. An-
Information über die Reliabilität ist in allen schließend stellen wir die Definition und die
Kontexten von essenzieller Bedeutung, in de- Ableitung einer Schätzgröße der Reliabilität
nen Tests eingesetzt werden. In der Forschung aus der Korrelation paralleler Tests vor.

54
3.4 Reliabilität

3.4.1 Wahrer Wert und Fehler Messung zu verbessern, indem man die Wer-
te mittelt. Man schätzt damit den sog. Er-
Ein wesentliches Anliegen der Klassischen wartungswert der Messungen. Von Erwar-
Testtheorie ist es, zu einer praktikablen Ab- tungswerten spricht man bei Variablen, deren
schätzung der Messpräzision eines Tests zu Werte nicht festliegen (bzw. bereits bekannt
kommen. Ziel ist es dabei, die Genauigkeit sind), sondern bestimmten Wahrscheinlichkei-
bzw. Fehlerbehaftetheit einer Messung nume- ten folgen. Bei uns betrifft dies die Resultate
risch zu bestimmen. Zu diesem Zweck werden der einzelnen Messungen. Aus Stichprobenda-
die Begriffe „wahrer Wert“ (engl. true score; ten wird der Erwartungswert einer Variablen
T) und „Fehler“ (error; E) eingeführt, auf de- durch das arithmetische Mittel vieler Messun-
ren Basis Kennwerte der Messpräzision defi- gen bestimmt (siehe Steyer & Eid, 1993, An-
niert werden können. hang F, für eine genauere Darstellung). Zu
beachten ist, dass eine solche Mittelung den
Für das Verständnis der Begriffe wahrer Wert „konstanten Fehler“, wie er z. B. bei einer ver-
und Fehler ist es nützlich, zunächst eine phy- stellten Waage vorliegt, nicht beseitigt. Ver-
sikalische Messung zu betrachten. Nehmen bessert werden aber Vergleiche verschiedener
wir als Beispiel eine ältere elektronische Kü- Objekte, die mit derselben Waage vorgenom-
chenwaage, deren Messgenauigkeit wir unter- men werden.
suchen wollen. Wir greifen uns einen festen
Gegenstand heraus, legen ihn wiederholt auf Auch in der Testtheorie ist die Idee der Mess-
die Waage und notieren die Messwerte. Die wiederholung bei einer Person Ausgangspunkt
Werte werden mehr oder weniger stark variie- der Überlegungen. Wenn wir die Messung mit
ren, z. B. 100, 102, 98, 101 g usw. Da wir den einem Test mehrfach wiederholen, erhalten
gleichen Gegenstand verwenden (von dem wir wir eine Messwertvariable Y , deren einzelne
annehmen, dass er sein Gewicht im Lauf der Werte, wie im Gewichtsbeispiel, mehr oder we-
Messung behält), kann die Streuung der beob- niger stark streuen werden. Jede Messung wird
achteten Werte nur auf die Messung zurückge- nun in zwei Komponenten zerlegt, nämlich
hen. Als Maß der Ungenauigkeit können wir (a) den Erwartungswert von Y , der als „wah-
nun ein Streuungsmaß, z. B. die Standardab- rer Wert“ bezeichnet wird, und (b) einen Feh-
weichung der Messwerte, berechnen. Diese lerwert, der sich aus der Differenz zwischen
Standardabweichung heißt auch Standardfeh- dem beobachteten und dem wahren Wert er-
ler der Messung oder kurz Fehlerstreuung. gibt. Wahrer Wert und Fehler sind also wie
folgt definiert:
Solange wir lediglich einen Gegenstand ver-
wenden, beschreibt die Fehlerstreuung natür- T = Erw(Y ),
lich zunächst einmal nur die Ungenauigkeit für E = Y − T.
einen bestimmten Gewichtsbereich, streng ge-
nommen sogar nur für ein spezifisches Objekt. Durch Umstellen der Definition der Fehlerva-
Wir werden deshalb das Experiment mit weite- riablen erhält man
ren Gegenständen wiederholen, wodurch wir
ein Profil der Fehlerstreuungen in verschiede- Y = T + E,
nen Gewichtsbereichen gewinnen. Wir sehen
dann, ob die Fehlerstreuung ungefähr konstanteinen Ausdruck, der oft als grundlegende Glei-
chung der Klassischen Testtheorie bezeichnet
ist oder ob sie sich je nach Gewicht verändert.
wird. Bei der Anwendung dieser Gleichung
Wenn die Waage für ein Objekt unterschied- auf eine Person ergeben sich die Messwerte
liche Werte liefert, kann man versuchen, die aus konstanten wahren Werten und zwischen

55
3 Merkmale und Gütekriterien psychologischer Tests

den Messungen streuenden Fehlerwerten. Der und Übungseffekte einstellen, die Testmotiva-
wahre Wert wird also als fixe Größe betrachtet: tion wird sinken usw. Solche Faktoren werden
Er vertritt die zu messende Personeigenschaft, die Antworten und Leistungen bei späteren
die über die Messgelegenheiten stabil bleibt. Testungen erheblich beeinflussen. Darüber hin-
Die Fehlerwerte dagegen fluktuieren unsyste- aus ist natürlich auch daran zu denken, dass
matisch von einer Messung zur anderen. Das sich das zu messende Merkmal über die Zeit
Ausmaß der Fluktuation, also die Streuung verändert, was generell bei Verfahren zur Mes-
der Fehlerwerte über die Messungen, wird als sung aktueller Zustände der Fall sein wird.
Eigenschaft des Messinstruments angesehen.
Die Idee der Messwiederholung alleine lie-
Eine bemerkenswerte Konsequenz der Defini- fert also noch keine brauchbare Ausgangsba-
tionen von wahrer Wert und Fehler besteht dar- sis für die Schätzung des Messfehlers. Um
in, das der Erwartungswert des Fehlers Null eine solche Ausgangsbasis zu erhalten, geht
ist: die Klassische Testtheorie von einer (mindes-
tens) zweimaligen Messung mit „parallelen“
Erw(E) = Erw(Y − T ) = bzw. „äquivalenten“ Varianten eines Verfahren
Erw(Y ) − Erw(T ) = T − T = 0. aus. Parallel oder äquivalent sind Tests, die das
gleiche Merkmal mit ähnlichen Items erfassen.
Die Konsequenz verdeutlicht, dass der kon- Hierfür müssen die Items bestimmte inhaltli-
stante Fehler hier ignoriert wird. Dies ist che und statistische Anforderungen erfüllen,
für psychologische Tests (im Gegensatz zur auf die wir unten noch genauer eingehen wer-
Gewichts- oder Längenmessung) deshalb un- den (S. 63ff).
problematisch, weil nur die relativen Positio-
nen von Personen bedeutsam sind. Die Test-
wertskala kann um eine beliebige Konstante 3.4.2 Reliabilität und
verschoben werden, ohne die Aussagen, die Standardfehler der Messung
wir über die getesteten Personen machen kön-
nen, zu verändern. Für die Bestimmung der Messgenauigkeit ei-
nes Verfahrens wird eine repräsentative Stich-
Wie im Gewichtsbeispiel können wir nun die probe aus Personen der Zielpopulation zwei-
Fehlerstreuung bei einer Person berechnen. mal getestet. Man erhält zwei Testwertvaria-
Darüber hinaus können wir weitere Personen blen, die wir im Folgenden mit Y (erster Test)
wiederholt testen, um ein Bild der Fehlerstreu- und Y 0 (Paralleltest) notieren. Zu beachten ist,
ung bei verschiedenen Personen und in ver- dass Y hier Messungen an mehreren (im All-
schiedenen Bereichen der Testwertskala zu er- gemeinen sehr vielen) Personen repräsentiert.
halten. Wir könnten auch einen Durchschnitts- Gleiches gilt für die Variable Y 0 , deren Wer-
wert über alle Personen berechnen, der das te die bei jeder Person wiederholte Messung
generelle Funktionieren des Tests in der Ziel- darstellen.
population beschreibt.
Das „Grundgerüst“ der Klassischen Testtheo-
Die Vorstellung einer häufigen Wiederholung rie bilden zwei Modellannahmen:
der Messung unter identischen Bedingungen,
von der wir bislang ausgegangen sind, ist für Y = T +E (3.1)
physikalische Messungen plausibel, für psy- Cov(T, E) = 0 (3.2)
chologische Tests aber unrealistisch. Die Per-
sonen werden sich an ihre Antworten bei frü- Die erste kennen wir bereits: Die Testwerte
heren Testungen erinnern, es werden sich Lern- setzen sich aus einem messfehlerfreien Teil T ,

56
3.4 Reliabilität

den wahren Werten, sowie „Restwerten“ (Re- woraus sich wiederum herleitet, dass das Ver-
siduen) E = Y − T zusammen, die den Mess- hältnis von wahrer Varianz und Testwertvari-
fehler vertreten. Im Unterschied zur Messung anz zwischen Null und Eins liegen muss:
bei einer Person repräsentiert T jetzt die von
Var(T ) Var(T )
Person zu Person variierenden Ausprägungen 0≤ = ≤ 1.
der wahren Werte. Man spricht daher auch von Var(Y ) Var(T ) +Var(E)
der True-Score-Variablen. Die zweite Annah- Dieses Varianzverhältnis wird benutzt, um den
me besagt, dass wahre Werte und Fehlerwerte Reliabilitätskoeffizienten Rel(Y) zu definie-
unkorreliert sind. Insgesamt wird die Testwert- ren:
variable Y also in eine Summe zweier vonein-
Var(T )
ander unabhängiger Komponenten zerlegt, die Rel(Y ) =
True-Score-Variable T und die Fehlervariable Var(Y )
(3.3)
E. Var(T )
= .
Var(T ) + Var(E)
Der Reliabilitätskoeffizient stellt eine der
Definition der Reliabilität wichtigsten Größen der Klassischen Testtheo-
rie dar. Er gibt den Anteil der wahren an der
Zur Definition der Reliabilität wird der Beitrag Gesamtvarianz einer Testvariablen an. Der Re-
beider Komponenten zur Varianz der Testwer- liabilitätskoeffizient wird Null, wenn die Test-
te betrachtet. Da T und E unkorreliert sind variable keine wahre Varianz (sondern nur Feh-
(Gleichung 3.2), ist die Varianz der Testvaria- lervarianz) beinhaltet und Eins, wenn der Test
blen gleich der Summe aus wahrer und Fehler- vollkommen messfehlerfrei ist.
varianz:1
Empirische Schätzung der Reliabilität
Var(Y ) = Var(T + E)
= Var(T ) + Var(E) + 2 Cov(T, E) Für die empirische Schätzung der Reliabilität
= Var(T ) + Var(E). reichen die bislang eingeführten Modellannah-
men und die Definition der Reliabilität nicht
Hieraus (und aus der Tatsache, dass Varianzen aus. Wir kennen weder die wahre noch die
nicht kleiner als Null werden können) ergibt Fehlervarianz. Wie bereits erwähnt, wird (min-
sich, dass wahre und Fehlervarianz jeweils destens) eine weitere Messung an den gleichen
kleiner oder gleich der Testwertvarianz sind, Personen benötigt. Es liegt dann eine zweite
also Testwertvariable Y 0 vor, die in gleicher Weise
zerlegt werden kann wie die erste:
Var(T ) ≤ Var(Y ) und
Y 0 = T 0 + E 0 und
Var(E) ≤ Var(Y ),
Cov(T , E 0 ) = 0.
0

1 Generell ergibt sich die Varianz einer Summenvariablen Nehmen wir nun der Einfachheit halber an,
aus den Varianzen der Einzelvariablen plus zweimal der dass die wahren Komponenten der beiden Test-
Kovarianz der Variablen:
variablen sowie ihre Fehlervarianzen gleich
Var(X1 + X2 ) = Var(X1 ) + Var(X2 ) + 2 · Cov(X1 , X2 ). sind, also
Ist die Kovarianz (und damit auch die Korrelation) der T = T 0 und
Variablen Null, wie in unserem Fall, lassen sich die
Einzelvarianzen einfach addieren. Var(E) = Var(E 0 ).

57
3 Merkmale und Gütekriterien psychologischer Tests

Diese beiden Annahmen sind recht restriktiv,


Da die drei letzten Terme aufgrund der Glei-
können jedoch, wie wir später sehen werden chungen (3.2), (3.4) und (3.5) jeweils 0
(I Kap. 4), aufgelockert werden. Entschei- sind, vereinfacht sich dieser Ausdruck zu
Cov(T, T ), was nichts anderes ist als die Vari-
dend für die Reliabilitätsbestimmung ist ei-
ne dritte Zusatzannahme, welche die Unkorre-
anz der True-Score-Variablen. Unter den ge-
liertheit der Fehlerkomponenten fordert: machten Annahmen ist die Kovarianz der Test-
variablen also identisch mit der Varianz der
Cov(E, E 0 ) = 0. (3.4)
wahren Werte:
Aus der Gleichheit der wahren Werte ergibt
sich jetzt für die zweite Messung Cov(Y,Y 0 ) = Var(T ).

Y 0 = T + E 0 sowie Setzt man dies in die Definition der Reliabilität


0 ein (Gleichung 3.3), erhält man
Cov(T, E ) = 0. (3.5)
Die zweite Testvariable setzt sich also aus den Var(T ) Cov(Y,Y 0 )
Rel(Y ) = = .
gleichen wahren Werten, aber unterschiedli- Var(Y ) Var(Y )
chen Fehlerwerten zusammen. (Die Fehlerva- Wegen der Gleichheit der Varianzen der Test-
riablen haben nur die gleiche Varianz, die ein- variablen (Gleichung 3.6), lässt sich für deren
zelnen Werte können sich unterscheiden.) Korrelation schreiben3
Die angenommene Gleichheit der Fehlervari-
Cov(Y,Y 0 )
anzen von E und E 0 hat zur Folge, dass auch Kor(Y,Y 0 ) = =
Std(Y ) · Std(Y 0 )
die Varianzen der Testwerte (die sich ja aus
der Summe von wahrer und Fehlervarianz er- Cov(Y,Y 0 ) Cov(Y,Y 0 )
geben) identisch sind, d. h. = =
Var(Y ) Var(Y 0 )
Var(Y ) = Var(Y 0 ). (3.6) Rel(Y ) = Rel(Y 0 ).
Die Annahme, dass beide Fehlervariablen un-
Unter den angegebenen Bedingungen (Gleich-
korreliert sind (Gleichung 3.4), ermöglicht es
heit der True-Score-Variablen und Fehlerva-
nun, den Reliabilitätskoeffizienten durch einen
rianzen, Unkorreliertheit der Fehlervariablen)
empirisch zu ermittelnden Kennwert zu be-
ergibt sich also die Reliabilität der Testvaria-
stimmen. Hierzu betrachten wir zunächst die
blen einfach durch deren Korrelation,
Kovarianz der beiden Testvariablen, die sich
aus der Summe der gemeinsamen wahren An- Rel(Y ) = Rel(Y 0 ) = Kor(Y,Y 0 ).
teile und der jeweils spezifischen Fehleranteile
ergeben: Das wesentliche Ergebnis dieser Ableitung ist,
dass sich die Reliabilität aus empirisch zu ge-
Cov(Y,Y 0 ) = Cov(T + E, T + E 0 ).
winnenden Testwerten schätzen lässt.
Zerlegt man den rechten Ausdruck, so ergibt . . . + X1m und Y2 = X21 + X22 + . . . + X2p :
sich:2 m p
Cov(Y1 ,Y2 ) = ∑ ∑ Cov(X1 j , X2k ).
Cov(Y,Y 0 ) = Cov(T, T ) + Cov(T, E) + j k

Cov(T, E 0 ) + Cov(E, E 0 ). Darüber hinaus ist die Kovarianz einer Variablen „mit
sich selbst“ gleich ihrer Varianz, also Cov(X, X) =
2 Die Kovarianzen zweier Summenvariablen mit m und p Var(X).
Summanden lassen sich ermitteln, indem man die m · p 3 Die Korrelation zweier Variablen ergibt sich durch Divi-
Kovarianzen der Summanden addiert. Formell ausge- sion der Kovarianz durch das Produkt der Standardab-
drückt, gilt für zwei Summenvariablen Y1 = X11 + X12 + weichungen der beiden Variablen.

58
3.4 Reliabilität

Standardfehler der Messung dem Intervall enthalten ist. Es muss also ei-
ne konkrete Festlegung hinsichtlich der Wahr-
Darüber hinaus kann man durch Umstellen der scheinlichkeit getroffen werden, mit der das
Definition der Reliabilität auch die Fehlervari- Intervall den wahren Wert einschließt. Solche
anz berechnen: Intervalle heißen Konfidenz- oder Vertrauens-
intervalle und werden mit einer Wahrschein-
Var(E) = Var(Y ) · [1 − Rel(Y )]. lichkeitsangabe qualifiziert, welche die Brei-
te des Intervalls mitbestimmt. Je sicherer der
Die Wurzel aus der Fehlervarianz ist der Stan-
wahre Wert von dem Konfidenzintervall ein-
dardfehler der Messung (auch Standardmess-
geschlossen werden soll, um so breiter wird
fehler oder einfach Fehlerstreuung, engl. stan-
dieses Intervall.
dard error of measurement, abgekürzt SEM):
p Ein Bereich von Y ± SEM würde ei-
SEM(Y ) = Var(E) nem 68-Prozent-Konfidenzintervall entspre-
chen. Dieses Intervall wird also den wah-
p
= Var(Y ) · [1 − Rel(Y )] (3.7)
p ren Wert in fast einem Drittel der Fäl-
= Std(Y ) · 1 − Rel(Y ). le verfehlen. Um bezüglich der korrek-
ten Eingrenzung des wahren Werts siche-
Der Standardmessfehler charakterisiert die
rer zu sein, werden üblicherweise 90- oder
Streuung (Standardabweichung) der beobach-
95-Prozent-Konfidenzintervalle zugrunde ge-
teten um die wahren Werte und stellt die grund-
legt. Ein 90-Prozent-Konfidenzintervall lässt
legende und am einfachsten zu interpretieren-
sich durch Y ± 1.64 · SEM, ein 95-Prozent-
de Kenngröße für den mit einem Verfahren
Konfidenzintervall durch Y ±1.96·SEM schät-
verbundenen Messfehler dar. Sind die Fehler
zen.4 Multiplikatoren für andere Konfidenzin-
normalverteilt, wovon ausgegangen wird, lie-
tervalle lassen sich in Tabellen zur Standard-
gen die beobachteten Werte mit einer Wahr-
normalverteilung nachschlagen.
scheinlichkeit von 68 Prozent in dem Bereich
T ± SEM um die wahren Werte. Konfidenzintervalle werden beim Berichten
Das Konzept der Fehlerstreuung hatten wir von Testergebnissen, z. B. in einem psycholo-
bei der Einführung der Reliabilität bereits ken- gischen Gutachten, mit angegeben. Für die
nengelernt (I Kap. 3.4.2). Es handelt sich Festlegung eines adäquaten Konfidenzinter-
um eine globale Größe, die gewissermaßen valls muss dabei ein Kompromiss gefunden
das „durchschnittliche Funktionieren“ eines werden zwischen der Sicherheit, den wah-
Tests über das ganze Messwertkontinuum be- ren Wert einzuschließen, und dem Informa-
schreibt. Methoden, mit denen sich das Aus- tionsgehalt der resultierenden Aussage. Kon-
maß des Fehlers für einzelne Testwertbereiche fidenzintervalle, die einen großen Teil des
darstellen lässt, werden wir im folgenden Ka- möglichen Wertebereichs einer Testvariablen
pitel noch diskutieren. einschließen, sind zwar sicher, naturgemäß
aber wenig informativ. In den meisten An-
In Anwendungen, in denen ein konkreter Test- wendungsfällen dürften 90- oder 95-Prozent-
wert bestimmt wurde, interessiert, in welchem Konfidenzintervalle angemessen sein.
Bereich um den beobachteten Wert der wahre
Wert vermutlich liegt. Dies ist die umgekehrte Obwohl Standardmessfehler die anschauli-
Fragerichtung. Der Bereich hängt einerseits cheren Kennwerte liefern, begnügt man sich
von der Höhe des SEM ab, andererseits da- 4
Für diese Schätzungen werden große Stichproben vor-
von, wie groß die Wahrscheinlichkeit dafür ausgesetzt, wie sie im Rahmen der Testkonstruktion im
sein soll, dass der wahre Wert tatsächlich in Allgemeinen vorliegen.

59
3 Merkmale und Gütekriterien psychologischer Tests

bei der Darstellung von Tests häufig mit Definition der Reliabilität als Varianzverhält-
dem Berichten von Reliabilitätskoeffizienten. nis macht aber klar, dass Reliabilitätskoeffizi-
Dies liegt daran, dass Reliabilitätskoeffizien- enten auch von Eigenschaften der gemessenen
ten einen raschen Vergleich der Messgenauig- Personen abhängen. Der Reliabilitätskoeffizi-
keit verschiedener Verfahren vereinfachen. Sie ent charakterisiert eine Testeigenschaft also
liefern einheitenfreie Maße der Messgenauig- lediglich im Hinblick auf eine definierte (bzw.
keit. Demgegenüber kennzeichnet der Stan- zu definierende) Referenzpopulation. Dagegen
dardmessfehler die Messungenauigkeit in Ein- ist der Standardmessfehler gegenüber Streu-
heiten der Testwertvariablen, also auf deren ungsdifferenzen der wahren Werte in verschie-
Skala. Diese Skala unterscheidet sich jedoch denen Populationen invariant.
von Test zu Test, so dass die Standardmessfeh-
ler verschiedener Verfahren nicht direkt mit- Möglicherweise klingt die letzte Feststellung
einander verglichen werden können. In jedem zunächst kontraintuitiv, da die Reliabilität ja
Fall lassen sich die anschaulicheren Standard- in die Berechnung des Standardmessfehlers
messfehler in einfacher Weise berechnen, so- eingeht. Man kann diesen Sachverhalt jedoch
fern Reliabilität und Streuung der Testwerte leicht illustrieren. Nehmen wir an, die wahre
bekannt sind. Varianz betrage in einer Population A 12, in ei-
ner Population B dagegen 24. Die Varianz der
Wir hatten den Standardmessfehler gerade als
Fehler sei in beiden Populationen 8. Die Vari-
grundlegenden Kennwert der Messgenauigkeit
anz der Testwerte ist dann in Population A 20,
bezeichnet. Tatsächlich ist dieser Kennwert in
in Population B 32. Hieraus errechnen sich
manchen Fällen besser zur Charakterisierung
Reliabilitätskoeffizienten von 12 / 20 = 0.6
der Messfehlerbehaftetheit eines Verfahrens
(für A) und 24 / 32 = 0.75 (für B). Diese Ko-
geeignet als der Reliabilitätskoeffizient. Der
effizienten unterscheiden sich also recht deut-
Grund hierfür liegt darin, dass der Reliabilitäts-
lich. Die aus diesen Reliabilitätskoeffizienten
koeffizient von der Streuung der wahren Wer-
und den Streuungen der Testwerte berechne-
te innerhalb einer Population abhängt. Dies
ten Standardmessfehler dagegen bleiben iden-
lässt sich direkt der Definition der Reliabilität
tisch. Wirperhalten für Population A einen
als Varianzverhältnis entnehmen. Bei konstan-
Wert von 20 · (1 − 0.6)p = 2.82, für Populati-
ter Fehlerstreuung wird dieser Wert in einer
on B einen Wert von 32 · (1 − .75) = 2.82.
Population mit starker Variation der wahren
Die Multiplikation mit der Varianz der Test-
Werte höher ausfallen als in einer Population
werte egalisiert die Abhängigkeit des Reliabi-
mit geringer Streuung der wahren Werte. Glei-
litätskoeffizienten von der Testwertevarianz.
ches gilt natürlich auch für die entsprechen-
den Schätzungen aus Stichproben. So wird
Betrachten wir ein noch extremeres Beispiel
z. B. ein Test zur Messung der numerischen
und nehmen an, der wahre Wert einer Test-
Intelligenz in einer unausgelesenen (und da-
variablen sei für alle Personen gleich. In die-
mit heterogenen) Erwachsenenstichprobe eine
sem Fall wäre die Varianz der wahren Werte
höhere Reliabilität erreichen als in einer (hin-
Null. Der Reliabilitätskoeffizient würde des-
sichtlich ihrer numerischen Fähigkeiten relativ
halb auch dann Null werden, wenn der Test
homogenen) Stichprobe von Mathematikstu-
diese Konstante nahezu perfekt reflektiert. Der
dierenden.
Standardmessfehler, der hier identisch mit der
Die hinter der Berechnung des Reliabilitätsko- Streuung der Testwerte ist, wäre auch in die-
effizienten stehende Intention ist es, die Mess- sem Fall noch ein sinnvoller Kennwert der
präzision eines Verfahrens, also eine Testei- Fehlerbehaftetheit der Messung (Steyer & Eid,
genschaft, beschreiben zu können. Bereits die 1993).

60
3.4 Reliabilität

3.4.3 Verfahren zur getestet werden. Hierbei werden in der Praxis


Reliabilitätsbestimmung immer Ausfälle entstehen, weil nicht alle Per-
sonen bereit oder in der Lage sind, zum zwei-
Um auf der Basis des dargestellten Modells ten Termin zu erscheinen. Wenn diese Ausfälle
zu einer praktischen Schätzung der Messge- systematisch sind, also z. B. bei einem Leis-
nauigkeit zu gelangen, bieten sich zwei Me- tungstest diejenigen Personen nicht mehr er-
thoden an, die Testwiederholungsmethode und scheinen, die beim ersten Termin schlecht ab-
die Paralleltestmethode. Darüber hinaus kann geschnitten hatten, erhält man verzerrte Schät-
die Reliabilität auch auf der Basis von Testtei- zungen der interessierenden Kennwerte. Sol-
len geschätzt werden. che Ausfälle werden bei der Paralleltestme-
thode natürlich kaum vorkommen. Diesem
Bei der Testwiederholungsmethode wird die Vorzug steht jedoch der mit der Konstruktion
Messung nach einem gewissen Zeitraum wie- zweier paralleler Varianten verbundene höhere
derholt, der Test also zweimal der gleichen Aufwand gegenüber.
Stichprobe vorgelegt. Es ergeben sich zwei
Testwerte für jeden Probanden. Der Reliabili- Ein dritter Zugang beruht auf einer ähnlichen
tätskoeffizient wird dann durch die Korrelation Idee wie die Paralleltestung, zieht aber ledig-
der beiden Variablen, die sog. Test-Retest- oder lich Information heran, die bereits nach Vorga-
kurz Retest-Korrelation, geschätzt. Den korre- be eines Test vorliegen. Hier werden Zusam-
spondierenden Standardmessfehler erhält man menhänge zwischen Testteilen, also Items oder
durch Anwendung von Gleichung (3.7). „Itembündeln“, zur Reliabilitätsschätzung ge-
nutzt. Unter ökonomischen Gesichtspunkten
Bei der Testwiederholungsmethode wird das ist dieser Zugang am vorteilhaftesten.
gleiche Verfahren zu unterschiedlichen Zeit-
punkten verwendet. Demgegenüber werden Für die Bewertung der Aussagekraft der Me-
bei der Paralleltestmethode zwei Varianten thoden sind praktische Erwägungen allerdings
des Verfahrens, die unterschiedliche Items ent- weniger ausschlaggebend. Hierfür muss man
halten, zu einer Messgelegenheit vorgegeben. sich das Ziel der Reliabilitätsbestimmung vor
Diese Methode wird häufig auch als Äquiva- Augen halten, das darin besteht, die Messpräzi-
lenzprüfung bezeichnet. Die Bezeichnungen sion eines Verfahrens durch einen handlichen
rühren daher, dass die beiden Varianten das Kennwert zu beschreiben. Im Folgenden disku-
Gleiche auf unterschiedliche Art messen und tieren wir die drei Zugangsweisen unter dieser
in diesem (später noch zu präzisierenden) Sinn Zielsetzung genauer.
äquivalent (gleichwertig) bzw. parallel, aber
nicht identisch sind. Auch hier erhalten wir
zwei Messwertvariablen, aus deren Korrelati- Testwiederholung
on Reliabilität und Fehlerstreuung geschätzt
werden können.
Betrachten wir zunächst die Testwiederho-
Aus anwendungspraktischer Sicht weisen bei- lungsmethode. Die zentrale Schwierigkeit
de Methoden spezifische Vor- und Nachteile liegt hier darin, den geeigneten zeitlichen Ab-
auf. Der Vorteil der Testwiederholungsmetho- stand zwischen beiden Messgelegenheiten zu
de besteht darin, dass nur ein Verfahren benö- definieren. Sollten es Stunden, Tage, Wochen,
tigt wird. Die Notwendigkeit, eine parallele Monate oder Jahre sein? Für eine vernünfti-
Variante zu erstellen, entfällt also. Ihr Nach- ge Wahl des zeitlichen Abstands sind zwei
teil ist, dass zwei Messgelegenheiten realisiert Gesichtspunkte maßgebend, die zu gegensätz-
werden müssen, an denen dieselben Personen lichen Empfehlungen führen.

61
3 Merkmale und Gütekriterien psychologischer Tests

Der erste Gesichtspunkt ist recht offensicht- schen den beiden Messgelegenheiten so groß
lich: Die Korrelation der Messwerte liefert nur wie nur eben möglich zu machen.
dann einen guten Schätzwert für die Messprä-
Die Voraussetzungen der Merkmalsstabilität
zision, wenn die wahren Werte der Personen
und die unabhängiger Fehler führen also zu
zwischen den beiden Messgelegenheiten stabil
einem Dilemma, wenn man die Schätzung der
bleiben. Gefordert ist dabei nicht unbedingt
Messpräzision eines Tests über wiederholte
absolute Konstanz, wohl aber relative Stabi-
Messungen mit dem gleichen Verfahren an-
lität: Die relativen Positionen der Personen
strebt. Dieses Dilemma ist deshalb schwer-
auf der Skala sollten die gleichen bleiben. An-
wiegend, weil die beiden Voraussetzungen bei
dernfalls unterschätzt die Korrelation der Va-
Vorliegen nur zweier Messungen nicht empi-
riablen die Messpräzision des Verfahrens, da
risch prüfbar ist. Die Tatsache, dass die Schät-
dann die Fehlervarianz um die Varianz wahrer
zung der Messpräzision über Testwiederho-
Veränderungen aufgebläht ist. Dieser Gesichts-
lung problematisch ist, sollte allerdings nicht
punkt spricht dafür, den zeitlichen Abstand der
zu dem Schluss führen, dass solche Untersu-
beiden Messungen relativ kurz zu halten, zu-
chungen wertlos sind. Im Gegenteil: Sie lie-
mindest so kurz, dass Veränderungen des zu
fern essenzielle Information über ein Verfah-
messenden Merkmals unwahrscheinlich sind.
ren und das mit ihm gemessene Merkmal. Nur
Im Rahmen der Testwiederholungsmethode
bezieht sich diese Information zunächst auf
ist es jedoch nicht möglich, die Existenz sol-
die relative Stabilität der Messwerte; über die
cher wahrer Veränderungen festzustellen. Ei-
Präzision einer Messung sagt sie dagegen un-
ne niedrige Korrelation der Messungen kann
ter Umständen recht wenig aus.
daher auf eine geringe Präzision des Verfah-
rens, auf mangelnde Stabilität des gemessenen Neben dem geschilderten Dilemma gibt es
Merkmals oder auf beides zurückgehen. noch einen zweiten Grund, die Schätzung der
Messpräzision über Stabilitätsbestimmungen
Der zweite Gesichtspunkt ist weniger offen- mit Vorbehalten zu betrachten. Stabilitätskoef-
sichtlich, aber genauso wichtig. Wie oben er- fizienten sinken mit zunehmender zeitlicher
läutert wurde, wird für die Schätzung der Re- Distanz der Messungen, da sich Menschen
liabilität die Unkorreliertheit der Fehlerkom- im Lauf ihrer Entwicklung in unterschied-
ponenten vorausgesetzt. Ohne diese Bedin- licher Weise verändern. Dies aber bedeutet,
gung kann die Korrelation zweier Messwerte dass wir Stabilitätskoeffizienten mit einem
nicht als Schätzung der Reliabilität gelten. Die Index für das zugrunde gelegte Zeitintervall
Annahme wird jedoch umso eher verletzt sein, versehen müssen. Wir können also zwar von
je enger Test und Retest beieinander liegen. einer Drei-Tages-, Zwei-Wochen oder Ein-
Im Allgemeinen werden die Fehlerkomponen- Jahresstabilität, nicht aber von der Stabilität ei-
ten bei kurzen Intervallen positiv korreliert ner Messung sprechen. Würde man die Stabili-
sein, da sich die Probanden beim Retest an ih- tät als Schätzung der Messpräzision auffassen,
re Antworten bei der ersten Testung erinnern. wäre man gezwungen, diese ebenso zu indi-
Bei Persönlichkeits- oder Einstellungsfrage- zieren. Dann aber wäre das Ziel, die Messprä-
bogen werden die Personen z. B. die Antwort- zision durch einen Kennwert zu beschreiben,
optionen favorisieren, für die sie sich bereits der primär das Verfahren (und nicht die getes-
bei der ersten Testvorgabe entschieden hatten. teten Personen) charakterisiert, verfehlt. Sta-
Entsprechend wird die Korrelation der Werte bilitätskoeffizienten können dies nicht leisten,
die Messpräzision überschätzen. Dieser zwei- da sie nicht nur von der Messgenauigkeit, son-
te Gesichtspunkt würde für sich betrachtet zur dern auch von der Konstanz des gemessenen
Empfehlung führen, die zeitliche Distanz zwi- Merkmals abhängen. Sofern mit deutlichen

62
3.4 Reliabilität

Fluktuationen im zu messenden Merkmal ge- bei der Paralleltestung eine positive Korrela-
rechnet werden muss, etwa bei der Erfassung tion der Fehlerkomponenten nicht völlig aus-
kurz erstreckter emotionaler oder motivationa- zuschließen ist. Analog zu Erinnerungseffek-
ler Zustände, scheiden Stabilitätskoeffizienten ten bei der Testwiederholung können solche
als Schätzungen der Reliabilität von vornher- Abhängigkeiten z. B. dann entstehen, wenn
ein aus. ein Teil der Probanden versucht, sich auf der
Grundlage von Vermutungen über das gemes-
Mit Analysen auf der Basis der Latent-State- sene Merkmal in konsistenter Weise zu ver-
Trait-Theorie kann man den genannten Proble- halten (I Kap. 10). Eine solche Vereinheitli-
men begegnen. Bei dieser von Steyer und Kol- chung des Antwortverhaltens würde wieder-
legen (z. B. Steyer, Ferring & Schmitt, 1992; um zu einer Überschätzung der Messpräzision
Steyer, Schmitt & Eid, 1999) entwickelten Er- führen.
weiterung der Klassischen Testtheorie wird
der wahre Wert in eine zeitlich stabile und ei- Diese Gefahr ist besonders dann gegeben,
ne zeitlich variable Komponente zerlegt. Für wenn das Verfahren sehr transparent, die Mess-
beide Komponenten lassen sich dann mit Hilfe intention also für die Probanden leicht durch-
von Längsschnittdaten separate Varianzschät- schaubar ist. Manchmal versucht man, die-
zungen vornehmen, durch die es möglich ist, sem Problem durch Einstreuung sog. Füllitems
wahre stabile (Konsistenz) und wahre variable bzw. Distraktoren zu begegnen. Hierunter ver-
(Situationsspezifität) Anteile an der Gesamt- steht man Items, die nicht in die Messung ein-
varianz der Testwerte zu separieren (Deinzer gehen und deren einzige Funktion darin be-
et al., 1995). Beide Varianzanteile addieren steht, von der eigentlichen Messintention ab-
sich zur Reliabilität und ermöglichen Aussa- zulenken. Ob dies in jedem Fall zielführend
gen darüber, ob ein Test eher ein stabiles Merk- ist, bleibt allerdings fraglich.
mal (einen „Trait“) oder eher einen über die
Zeit fluktuierenden Zustand („State“) reflek- Die eigentliche Schwierigkeit oder, wenn man
tiert. Eine einführende Darstellung der Theorie
so will, Herausforderung der Methode besteht
geben Kelava und Schermelleh-Engel (2008). jedoch in der Zusammenstellung paralleler Va-
rianten. Parallelität hat dabei sowohl inhalt-
liche als auch statistische Aspekte. Unter in-
haltlichen Aspekten lassen sich die Items der
Paralleltestung
beiden Testvarianten nach zwei Prinzipien zu-
sammenstellen: Das erste führt zu inhaltsäqui-
Betrachten wir nun die Paralleltestmethode valenten, das zweite zu inhaltsparallelisierten
unter Gesichtspunkten der Messpräzision. So- Testformen.
lange wir davon ausgehen, dass sich das zu
messende Merkmal nicht während der oder so- Bei inhaltsäquivalenten Verfahren werden die
gar durch die Messung verändert, können wir Items der beiden Tests aus einer Menge zusam-
das gerade diskutierte Stabilitätsproblem für mengestellt, die homogene, also im Hinblick
diese Vorgehensweise vernachlässigen. Auch auf das zu untersuchende Merkmal gleicharti-
die vorausgesetzte Unabhängigkeit der Feh- ge, Items enthält, z. B. Dreisatzaufgaben oder
lerkomponenten ist hier eher gegeben als bei zu übersetzende Vokabeln. Parallele Formen
Messwiederholungen, da sich die beiden Ver- ließen sich in diesen Beispielen recht einfach
fahren in ihren Inhalten unterscheiden, also erstellen, da es hinreichen würde, jeweils zu-
verschiedene Items aufweisen. Die Qualifizie- fällig Aufgaben aus der Menge zu ziehen. In
rung „eher“ ist deshalb angebracht, weil auch anderen Fällen, insbesondere außerhalb des

63
3 Merkmale und Gütekriterien psychologischer Tests

Leistungsbereichs, ist die Erstellung äquiva- Ich bin nervös; ... verkrampft; ... besorgt; ...
lenter Formen nicht ganz so einfach. Betrach- beunruhigt.
ten wir dies an einem Fragebogen zur Bestim-
mung der Aufgeregtheitskomponente der Zu-
standsangst. Wie erwähnt, bezieht sich diese Bei der Zusammenstellung paralleler Tests zur
Komponente auf die bei Angstzuständen ge- Bestimmung der Zustandsangst, wird man hier
gebene Wahrnehmung unspezifischer körperli- keine zufällige Zuordnung vornehmen, son-
cher Erregungssymptome, die von der betrof- dern Aufgeregtheits- und Besorgnisitems paa-
fenen Person als unangenehm erlebt werden ren, z. B. wie folgt:
(I Kap. 10). Eine vorläufige Itemmenge könn-
te z. B. die folgenden Formulierungen beinhal- Variante A Variante B
ten:
nervös verkrampft
Ich bin nervös. Ich bin angespannt. Ich bin besorgt beunruhigt
verkrampft. Ich bin aufgeregt. Ich habe ein
flaues Gefühl im Magen. Mir zittern die Hier sind nicht alle Items der zugrunde ge-
Hände. legten Itemmenge homogen, vielmehr wird
Homogenität nur zwischen Itempaaren herge-
stellt.
Es ist klar, dass die Beurteilung der Homoge-
nität dieser Items ein gewisses Maß an Subjek- Auch statistische Gesichtspunkte, insbeson-
tivität beinhaltet. Man könnte z. B. diskutieren, dere Schwierigkeiten und Trennschärfen der
ob das Item „aufgeregt“ wirklich geeignet ist Items, sollten bei der Zusammenstellung par-
– man kann ja auch in angenehmer Weise auf- alleler Testformen berücksichtigt werden. Die
geregt sein – oder ob das Zittern der Hände Parallelisierung nach Schwierigkeiten ist be-
wirklich noch als unspezifisches Erregungs- sonders für Fähigkeits- und Leistungstests sehr
symptom gelten kann usw. Offenbar kann die wichtig, um die Testvarianten hinsichtlich ih-
Frage, ob die Items das Gleiche messen, ohne rer kognitiven Anforderungen zu balancieren.
identisch zu sein, auf der Basis inhaltlicher Generell wird man also versuchen, für jedes
Überlegungen nicht immer ganz eindeutig be- Item der einen Testform einen „Zwilling“ zu
antwortet werden. Die Tatsache, dass die Items finden, der den gleichen Verhaltensaspekt an-
ähnlich sein müssen, aber nicht zu ähnlich sein spricht und ähnliche statistische Kennwerte
dürfen, macht hier die „Herausforderung“ aus. aufweist. Es ist klar, dass dies nicht immer
Dabei spielen semantische Überlegungen ei- einfach und ohne „Kompromisse“ möglich ist.
ne zentrale Rolle, die natürlich immer einen
gewissen Vagheitsspielraum aufweisen. Unter statistischen Gesichtspunkten existieren
verschieden strenge Fassungen der Parallelität,
Gleiches gilt für das zweite Prinzip, das in die unterschiedliche Messmodelle definieren.
einer Item-für-Item-Parallelisierung der Test- In den im vorhergehenden Abschnitt beschrie-
varianten besteht. Dieses Prinzip führt zu sog. benen Ableitungen wurde von einem dieser
inhaltsparallelisierten Testformen. Angenom- Modelle ausgegangen, in dem sehr strikte An-
men, wir wollen ein globales Angstmaß ge- forderungen gestellt werden: Wir hatten vor-
winnen, das auch die Besorgniskomponente ausgesetzt, dass die wahren Werte sowie die
der Zustandsangst berücksichtigt. Hierfür er- Fehlervarianzen der beiden Messungen iden-
weitern wir die Itemmenge um Feststellun- tisch sind. Für die Testwerte folgt aus diesen
gen, welche die Besorgniskomponente der Zu- Voraussetzungen, dass sie (bis auf kleine Dif-
standsangst ansprechen: ferenzen, die sich aus ihrer Schätzung anhand

64
3.4 Reliabilität

von Stichprobendaten ergeben) gleiche Mit- zur Reliabilitätsschätzung herangezogen. Hier


telwerte und Streuungen aufweisen müssen. werden also weder wiederholte Messungen
Wenn dies nicht der Fall ist, muss die An- noch parallele Tests benötigt.
nahme strikter Parallelität der Testvarianten
Eine Möglichkeit besteht darin, den Test in
verworfen werden. Andere Modelle mit we-
zwei gleich große Teile zu zerlegen. Diese Va-
niger strengen Anforderungen werden wir in
riante der Testteilung wird als Testhalbierungs-
I Kap. 4 noch behandeln.
methode bezeichnet. Bei der Zusammenstel-
Die Korrelationen zweier paralleler Tests wer- lung der Testhälften ist es sinnvoll, die Items
den auch Äquivalenzkoeffizienten genannt. Sie nach inhaltlichen und statistischen Aspekten
beschreiben das Ausmaß, in dem zwei Testva- möglichst weitgehend zu parallelisieren, so
rianten als gleichwertig gelten können. Prinzi- dass man zwei ungefähr gleich genaue Mes-
piell könnte man auch für diese Koeffizienten sungen erhält. Die Summenwerte der Testteile,
geltend machen, dass sie nicht zu einer Schät- YA und YB werden dann miteinander korreliert.
zung der Messpräzision führen, da sich paral- Die Korrelation Kor(YA ,YB ) entspricht der Re-
lele Verfahren offensichtlich auf unterschiedli- liabilität (Äquivalenz) eines Tests, der die
che Weise konstruieren lassen. Zu jedem ge- Hälfte der Items des Gesamttests umfasst, al-
gebenen Test lassen sich viele parallele For- so Rel(YA ) bzw. Rel(YB ). Intuitiv kann man
men denken, die nicht immer zu den gleichen erwarten, dass die Reliabilität des Gesamt-
Reliabilitätsschätzungen führen müssen. Aller- tests höher ausfällt als die der beiden Teile,
dings dürften in praktischen Kontexten solche da durch deren Zusammenfassung (Aggregie-
Unterschiede doch weitaus geringer ausfallen rung) ein „Fehlerausgleich“ stattfinden wird
als bei wiederholten Messungen. Tatsächlich (I Kap. 3.1.5). Tatsächlich lässt sich aus den
besteht weitgehende Einigkeit darüber, dass Annahmen der Klassischen Testtheorie ablei-
Äquivalenzprüfungen die Messpräzision bes- ten, dass sich die wahre Varianz in diesem Fall
ser schätzen als Testwiederholungen (McDo- vervierfacht, während sich die Fehlervarianz
nald, 1999). nur verdoppelt. (Entscheidend hierfür die ist
Stabilitäts- und Äquivalenzkoeffizienten kön- Unabhängigkeit der Fehler.) Um einen Schät-
nen deutlich voneinander differieren. Dies er- zer für die Reliabilität des gesamten Tests auf
gibt sich allein schon aus der Tatsache, dass der Basis der Reliabilitäten der beiden Test-
Stabilitätskoeffizienten mit unterschiedlichem teile zu erhalten, muss der Koeffizient also
Zeitindex variieren können. Insbesondere kön- „aufgewertet“ werden. Die Formel für die Auf-
nen hohe Äquivalenzkoeffizienten mit niedri- wertung heißt Spearman-Brown-Formel. Für
gen Stabilitätskoeffizienten einhergehen. Dies den speziellen Fall zweier Testhälften ergibt
ist allgemein bei Verfahren zur Messung von sich nach dieser Formel die Reliabilität der
Zuständen zu erwarten. Aber auch der umge- Gesamttestwerte Y = YA +YB aus
kehrte Fall, hohe Stabilität bei niedriger Äqui- 2 · Kor(YA ,YB )
valenz, ist denkbar, z. B. wenn sehr deutliche Rel(Y ) = .
1 + Kor(YA ,YB )
Erinnerungseffekte vorliegen.
Mit Hilfe der Spearman-Brown-Formel lässt
sich aus der Korrelation zweier paralleler Test-
teile die Reliabilität des Gesamttests schätzen.
Testteilung
Beträgt die Korrelation der Testteile z. B. .50,
so ergibt sich für den Gesamttest eine Reliabi-
Bei der Testteilungsmethode wird „testinter-
lität von
ne“ Information, die den Varianzen und Ko-
varianzen der Items entnommen werden kann, 2 · 0.50/(1 + 0.50) = .67.

65
3 Merkmale und Gütekriterien psychologischer Tests

Die Spearman-Brown-Formel kann auf be- auch als Cronbachs α bezeichnet. Cronbachs
liebige Verlängerungsfaktoren k verallgemei- α ergibt sich aus
nert werden. Die allgemeine Formel gilt dabei
nicht nur für Verlängerungen, sondern auch m2 ·Cov
α= . (3.8)
für Verkürzungen des Tests um einen bestimm- Var(Y )
ten Faktor. Ist Rel(Y ) die Reliabilität des Aus-
gangstests, so gilt für den um den Faktor k Dabei ist m die Zahl der Items, Cov der Mit-
verlängerten bzw. verkürzten Test Y ∗ : telwert aller Kovarianzen zwischen den Items,
und Var(Y ) die Gesamtvarianz der Testwerte.
k · Rel(Y )
Rel(Y ∗ ) = .
1 + (k − 1) · Rel(Y ) Die Kovarianzen gehen nicht nur in den Zäh-
ler, sondern (implizit) auch in den Nenner der
Die Formel für Testhälften ist ein Spezialfall Formel ein, da sich die Gesamtvarianz der
der allgemeinen Formel mit k = 2. Testwerte aus der Summe aller Itemvarianzen
Die Spearman-Brown-Formel wird angewen- und der doppelten Summe aller Kovarianzen
det, um abschätzen zu können, um wieviele zwischen den Items ergibt. (Die Gesamtvari-
Items ein Test verlängert werden muss, um ein anz lässt sich aus der Summe aller Elemente
akzeptables Niveau der Reliabilität zu errei- der Varianz-Kovarianzmatrix der Items berech-
chen oder um wieviele Items ein Test gekürzt nen.) Wie aus der Formel ersichtlich ist, geht
werden kann, ohne ein noch ausreichendes α gegen 0, wenn die Kovarianzen zwischen
Niveau der Reliabilität zu unterschreiten. Für den Items relativ zur Gesamtvarianz (bzw. den
einen aus 20 Items bestehenden Tests mit einer Itemvarianzen) klein werden. Mit steigendem
Reliabilität von .90, der auf 15 Items gekürzt Anteil der Kovarianzen an der Gesamtvarianz
werden soll, ergibt sich für k nähert sich α dagegen dem Wert 1.
Die interne Konsistenz steht in enger Bezie-
k = 15/20 = 0.75
hung zur Spearman-Brown-Formel. Sind die
und für die geschätzte Reliabilität des verkürz- Streuungen aller Items gleich, was künstlich
ten Tests durch Standardisierung (I S. 76) der Items
erreicht werden könnte, lässt sich α nämlich
0.75 · 0.9 auch über die Spearman-Brown-Formel be-
= 0.87.
1 + (−0.25) · 0.9 rechnen. Hierfür wird die Reliabilität des Aus-
gangstests in der Spearman-Brown-Formel,
Im Allgemeinen wird es für einen Test mehre- Rel(Y ), durch die mittlere Korrelation zwi-
re Möglichkeiten geben, in sinnvoller Weise schen den Items, r ersetzt; der Verlängerungs-
Testhälften zu bilden. Die entsprechenden Re- faktor besteht nun in der Anzahl der Items
liabilitätsschätzungen werden sich mehr oder (m):
weniger stark unterscheiden. m·r
αSB = .
1 + (m − 1) · r
In einem zweiten Verfahren, das wie die
Testhalbierung ebenfalls auf testinterner In- Die Formel verdeutlicht die Beziehung zwi-
formation aufbaut, wird diese Schwierigkeit schen α und der Spearman-Brown-Formel:
vermieden. Hier werden Itemvarianzen und Man kann α als Reliabilitätsschätzer ansehen,
-kovarianzen benutzt und in einer Kenngröße, der jedes Item als „Minitest“ verwendet. Die
der sog. internen Konsistenz, gebündelt. Die Interkorrelationen der Items werden dann nach
Eigenschaften dieser Größe wurden von Cron- der Spearman-Brown-Formel auf den ganzen
bach (1951) herausgearbeitet; sie wird daher Test „hochgerechnet“. Die Formel zeigt auch,

66
3.4 Reliabilität

dass die interne Konsistenz monoton mit der Antworten einbringen und damit den Messfeh-
mittleren Interkorrelation der Items steigt. ler erhöhen (vgl. Cronbach, 1990).
Cronbachs α entspricht im Allgemeinen recht Eine fundamentale Quelle unsystematischer
genau dem Durchschnitt aller möglichen Test- Variation hatten wir eingangs dieses Kapitels
halbierungskoeffizienten. Unter bestimmten bereits angesprochen: Die Messungen, die wir
Bedingungen, auf die wir im folgenden Ka- mit Tests, Testteilen oder einzelnen Items vor-
pitel noch eingehen (I Kap. 4.1.2), liefert α nehmen, liefern immer nur Verhaltensstich-
ein akkurates Maß der Messpräzision. Entspre- proben. Die Messresultate variieren deshalb
chend handelt es sich um einen sehr populä- je nach Auswahl und Zusammenstellung der
ren Schätzer der Reliabilität psychologischer Items. Die jeweils spezifische Auswahl und
Messverfahren. Für Reliabilitätsschätzungen Anordnung der Items beeinflusst den Mess-
und Berechnungen der Fehlerstreuung sollte fehler bei der Schätzung über parallele Tests
dabei die allgemeine Formel (3.8) und nicht und Testteilung (Testhalbierung, interne Kon-
die Formel für αSB benutzt werden, da die sistenz), nicht aber bei der Testwiederholungs-
Streuungen der Items ja mehr oder weniger methode (hier werden ja die gleichen Items
deutlich differieren werden. verwendet).
Die Tatsache, dass α auf den Varianzen und Eine zweite Quelle unsystematischer Variation
Kovarianzen der einzelnen Items eines Tests stellen Faktoren dar, welche die Beantwortung
beruht, macht es auch zu einem Kandidaten einzelner Items betreffen, wie z. B. momen-
für die Itemselektion. Die Überlegung dahinter tane Unaufmerksamkeit (eine Frage missver-
ist, diejenigen Items beizubehalten, die einen stehen, eine der vorgegebenen Antwortalter-
großen Beitrag zur Konsistenz des Verfahrens nativen versehentlich falsch markieren), Rate-
liefern und diejenigen Items auszuscheiden, glück oder Ratepech. Diese und ähnliche, nur
deren Beitrag gering ausfällt oder die die Kon- temporär wirksame Faktoren beeinträchtigen
sistenz sogar erniedrigen. Um den Beitrag ei- die Reliabilitätskennwerte bei allen Schätzme-
nes Items zur Konsistenz abzuschätzen, eli- thoden.
miniert man das betreffende Item temporär,
Die dritte Faktorengruppe betrifft eine gan-
berechnet also den Konsistenzkoeffizienten,
ze Testsitzung. Hierzu zählen die physische
der sich für die m − 1 restlichen Items ergibt.
Verfassung einer Person (z. B. Müdigkeit), ih-
Bei Items mit einem positiven Beitrag sinkt
re Stimmung und Motivation (z. B. Anstren-
der „Restkoeffizient“ mehr oder weniger deut-
gungsbereitschaft), ihre Konzentriertheit so-
lich ab. Ein steigender Restkoeffizient liefert
wie situative Bedingungen der Testdurchfüh-
ein starkes Argument dafür, das Item aus dem
rung, die derartige Zustände beeinflussen. Sol-
Test auszuscheiden, da das gekürzte Verfahren
che Faktoren sind bei einer Testgelegenheit im
nicht nur ökonomischer ist, sondern auch eine
Allgemeinen konstant, fluktuieren aber zwi-
höhere Reliabilität erwarten lässt.
schen den Sitzungen. Sie reduzieren daher Re-
liabilitätsschätzungen bei der Testwiederho-
lungsmethode, aber nicht bei der Paralleltes-
Quellen von Messfehlern
tung und der Testteilung.
In praktischen Anwendungen liefern die be- Viertens kann unsystematische Variation auf
sprochenen Methoden zur Reliabilitätsbestim- differenzielle Veränderungen im zu messenden
mung nicht genau die gleichen Kennwerte. Tat- Merkmal zurückgehen, die sich z. B. durch
sächlich sprechen sie auf unterschiedliche Ein- unterschiedliche Übungs- und Lernmöglich-
flüsse an, die unsystematische Variation in die keiten einstellen können. Auch diese Quelle

67
3 Merkmale und Gütekriterien psychologischer Tests

mindert die Reliabilitätsschätzung für die Test- ergebnisse Rückschlüsse auf das jeweils inter-
wiederholungsmethode, während sie Parallel- essierende Merkmal zulassen. Einer seit lan-
testung und Testteilung kaum betrifft. gem etablierten Kurzformel zufolge ist ein
Test in dem Maße valide, als er das misst, was
Schließlich können auch Unterschiede in den
er messen soll. Validität bezieht sich also auf
Durchführungsbedingungen oder der Auswer-
die Bedeutung von Testwerten. Der Prozess
tung von Tests zu unsystematischen Effekten
der Validierung eines Tests beinhaltet entspre-
beitragen. Wir hatten bereits gesehen, dass
chend konzeptuelle Analysen und empirische
bei psychologischen Testverfahren angestrebt
Untersuchungen, die Aufschluss über die Be-
wird, diese Fehlerquelle durch Standardisie-
deutung von Testwerten liefern.
rung der Testprozedur und -auswertung mög-
lichst weitgehend auszuschalten. Validität ist ein sehr umfassendes Konzept. Im
Unterschied zur Reliabilität existiert für die
Validität eines Verfahrens deshalb im Allge-
3.4.4 Bewertung der Reliabilität meinen kein einzelner Kennwert. Um den An-
wendungsbereich des Konzepts zu umschrei-
Die Bewertung der Reliabilität eines Tests ben, werden traditionellerweise drei Validitäts-
hängt eng mit seinem Einsatzzweck zusam- arten unterschieden, nämlich (a) Inhaltsvalidi-
men. Wie erwähnt, ist es für manche Zwecke tät, (b) Kriteriumsvalidität und (c) Konstrukt-
gerechtfertigt, kleinere Reliabilitätsmängel in validität. Sie beziehen sich auf verschiedene
Kauf zu nehmen, wenn hiermit Ökonomiege- Quellen, aus denen Information über die Be-
winne erzielt werden können oder die Tests deutung der Testwerte gewonnen werden kann.
nur zur Bestimmung von Gruppenmittelwer- Inhaltsvalidität meint dabei die Relevanz und
ten eingesetzt werden. Unabhängig vom Ein- Repräsentativität der Items für das zu messen-
satzzweck lassen sich nur ungefähre Orien- de Merkmal. Wichtigste Informationsquelle
tierungswerte angeben. Reliabilitäten um .70 hierfür sind die Items eines Tests selbst. Die
oder weniger gelten als unbefriedigend und Beurteilung der Inhaltsvalidität stützt sich also
sind für die Einzelfalldiagnostik nicht geeig- primär auf testinterne Information. Kriteriums-
net. Ab Werten von .80 kann man von einer validität bezeichnet die Enge des Zusammen-
für die Einzelfalldiagnostik akzeptablen Relia- hangs zwischen Testwerten und Sachverhalten,
bilität sprechen. Tests zur Messung von Ein- auf die mit Hilfe des Verfahrens geschlossen
stellungen und Persönlichkeitsmerkmalen er- werden soll, den Kriterien. Information hierfür
reichen mit etwa 20 Items im Allgemeinen liefern empirische Untersuchungen über exter-
interne Konsistenzen zwischen .85 und .90, ne Korrelate der Testwerte. Konstruktvalidi-
wenn ein quantitatives Itemformat verwendet tät bezieht sich auf die Bewährung des Tests
wird. Die Gesamtwerte größerer Intelligenz- im Hinblick auf theoretische Annahmen, die
tests besitzen oft Reliabilitäten, die deutlich mit einem Merkmal oder Merkmalsbereich
über .90 liegen. verbunden sind. Für die Bewertung der Kon-
struktvalidität wird sowohl testinterne als auch
testexterne Information genutzt.

3.5 Validität
3.5.1 Inhaltsvalidität
In der einführenden Darstellung zentraler Test-
gütekriterien in Abschnitt 3.1.1 hatten wir Va- Es ist offensichtlich, dass die Bedeutung von
lidität als das Ausmaß bezeichnet, in dem Test- Testergebnissen von der Formulierung und

68
3.5 Validität

Zusammenstellung der Items abhängt. In- auch für die entsprechenden Berufsanforde-
haltsvalidität wird einem Verfahren zugespro- rungen typisch sind. Bei derartigen Verfah-
chen, wenn seine Items für den zu messen- ren muss etwa ein Diktat aufgenommen, ein
den Erlebens- bzw. Verhaltensbereich rele- Brief mit einem Textverarbeitungssystem er-
vant und in ihrer Gesamtheit repräsentativ stellt und formatiert, Rechnungen geprüft oder
sind. Sie wird primär auf der Basis einer der Posteingang nach Wichtigkeit sortiert wer-
konzeptuellen Analyse der Iteminhalte und den. Auch hier repräsentiert das Testverhalten
-zusammenstellung beurteilt. gewissermaßen einen Teil oder Ausschnitt des
Kriteriums. Solchen Verfahren, in denen die
Drei Fragen sind für die Bestimmung der In-
„Bewährungssituation“ in der einen oder ande-
haltsvalidität eines Verfahrens entscheidend
ren Weise simuliert wird, würde man deshalb
(McDonald, 1999):
Inhaltsvalidität zusprechen, sofern die drei ge-
1. Wurden alle essenziellen Aspekte des in Re- nannten Fragen positiv beantwortet werden
de stehenden Merkmals identifiziert? können.
2. Sind die Items für die Erfassung dieser
Auch die Abschätzung der Inhaltsvalidität von
Aspekte angemessen? Angemessenheit be-
Verfahren zur Messung von Persönlichkeits-
trifft dabei in erster Linie den Inhalt der
konstrukten wie Ängstlichkeit oder Intelligenz
Items, ggf. aber auch deren Schwierigkeit.
beruht zum großen Teil auf konzeptuellen
3. Besitzen die einzelnen Aspekte eine balan-
Überlegungen. Für diese Abschätzung muss
cierte, theoretisch nachvollziehbare und ggf.
das kontemporäre Wissen über ein Konzept
auch empirisch begründbare Repräsentation
herangezogen werden. Für einen Test zur Mes-
im Test?
sung der allgemeinen Intelligenz wären etwa
Natürlich wird man diese Fragen bereits bei die Ergebnisse der psychometrischen Intelli-
der Formulierung der Items und deren Zusam- genzforschung relevant. Ein allgemeiner In-
menstellung zugrunde legen. Inhaltsvalidität telligenztest, dessen Items primär sprachliche
kann generell umso leichter realisiert und de- und bildungsabhängige Aufgaben umfasst, an-
monstriert werden, je elaborierter die konzep- dere Intelligenzaspekte wie logisches Denken
tuelle Grundlage eines Verfahrens ist und je oder räumliches Vorstellungsvermögen aber
klarer entsprechend die Aspekte, Facetten oder vernachlässigt, könnte nicht als inhaltsvalide
Komponenten eines Merkmals oder Verhal- angesehen werden.
tensbereichs definiert sind.
In manchen älteren Darstellungen der
In einigen Fällen lassen sich die mit dem Test Diagnostik wurde die Inhaltsvalidität für
erfassten Verhaltensweisen selbst bereits als Persönlichkeits- und Fähigkeitstests als we-
Bestandteile des zu bestimmenden Kriteriums niger wichtig, manchmal sogar als irrelevant
auffassen. Dies würde etwa für einen Englisch- eingestuft. Dies hängt damit zusammen, dass
Vokabeltest gelten, mit dem die Kenntnis des für die Abschätzung der inhaltlichen Validität
im Rahmen einer Unterrichtseinheit durchge- keine allgemeinen und zugleich objektiven
nommenen Wortschatzes geprüft werden soll. Maßstäbe existieren. Tatsächlich sind konzep-
Hier stellt das Testverhalten in sehr direkter tuelle, theoretische Überlegungen, auf denen
Weise eine Stichprobe des Kriteriums dar. Ein die Abschätzung der Inhaltsvalidität beruht,
ähnlich direkter Bezug zwischen Test- und manchmal kontrovers. Für psychometrische
Kriteriumsverhalten liegt bei Arbeitsproben Tests wurde deshalb empfohlen, sich primär
zur Diagnose berufsbezogener Qualifikatio- auf empirisch gesicherte Zusammenhänge un-
nen vor, mit denen Kenntnisse und Fertigkei- ter den Items, zwischen Tests bzw. zwischen
ten anhand von Aufgaben geprüft werden, die Tests und Kriterien zu verlassen.

69
3 Merkmale und Gütekriterien psychologischer Tests

Es ist jedoch wichtig zu sehen, dass inhaltli- mung der Relevanz und Repräsentativität der
che Überlegungen auch in empirisch gestütz- Testitems bzw. Aufgaben für den Inhalt des
ten Validierungsprogrammen oft das „letzte Lehr- oder Modifikationsziels. Es wird also
Wort“ besitzen und besitzen müssen (McDo- geprüft, wieweit ein Test das definierte Krite-
nald, 1999; siehe auch Cronbach, 1990). So rium erfasst und ausschöpft.
dürften z. B. Items zur Erfassung mathemati-
scher Fähigkeiten, mathematischen Wissens Beispiel
und mathematischer Interessen untereinander
Nehmen wir an, Ziel eines mehrjährigen
sehr hoch korreliert sein. Möglicherweise bil-
Englisch-Unterrichts auf dem Gymnasi-
den sie im Rahmen einer spezifischen Testbat-
um sei der Erwerb des Grund- und Auf-
terie einen varianzstarken Faktor. Wenn wir
bauwortschatzes, die korrekte Rechtschrei-
uns allein auf die empirischen Zusammenhän-
bung dieser Wörter, flüssiger, idiomatisch
ge stützen würden oder könnten, müssten wir
angemessener und grammatisch richtiger
sagen, dass Fähigkeiten, Wissen und Interes-
Satzbau, Unterscheidung von Sprachebe-
sen im mathematischen Bereich „dasselbe“
nen sowie korrekte Aussprache. Von ei-
sind (ein Merkmal reflektieren), was konzeptu-
nem entsprechenden lehrzielorientierten
ell natürlich nicht sonderlich viel Sinn machen
Test muss gefordert werden, dass er diese
würde.
Inhalte möglichst umfassend, angemessen
Inhaltsvalidität spielt besonders bei sog. kri- gewichtet und auf dem adäquaten Schwie-
teriumsorientierten Verfahren (I Kap. 3.6.2 rigkeitsniveau operationalisiert. Dagegen
sowie 16.2.3) eine zentrale Rolle. Mit kriteri- wäre Inhaltsvalidität des Tests problema-
umsorientierten Tests soll das Erreichen oder tisch, wenn etwa wesentliche Inhalte des
Verfehlen eines bestimmten Verhaltenskriteri- Lehrziels nicht vertreten sind (hier liegt ei-
ums bzw. -ziels (z. B. eines Lehrziels bei ei- ne zu enge Operationalisierung der Lehrzie-
nem Schüler) festgestellt werden. In diesem le vor), bestimmte Inhalte unangemessen
Fall liefern inhaltliche Überlegungen meist die gewichtet werden (z. B. essenzielle Aspek-
wichtigste Quelle zur angemessenen Interpre- te des Lehrziels im Test unterrepräsentiert
tation der Testwerte. In solchen Tests wird ein sind) oder die Testdecke zu niedrig oder zu
Kriterium inhaltlich bestimmt und anschlie- hoch ist (die Items angesichts des Lehrziels
ßend in Form von Testitems umgesetzt. Im zu leicht oder schwierig sind).
Geographie-Unterricht einer bestimmten Klas-
senstufe könnte ein derartiges Ziel beispiels-
Werden kriteriumsorientierte Verfahren zur
weise die Kenntnis wichtiger geographischer
Bestimmung der Erreichung eines Lehr- oder
Gegebenheiten der näheren Umgebung sein.
anderen Interventionsziels eingesetzt, steht
Im Rahmen eines Selbstsicherheitstrainings
man manchmal vor dem Problem, dass durch
könnte ein Ziel im Erlernen der Fertigkeit be-
ein Modifikationsprogramm Verhaltensände-
stehen, in sozialen Konfliktsituationen seine
rungen bewirkt werden, die nicht Teil des In-
Rechte zu behaupten. Die Testitems werden
terventionsziels sind. Nehmen wir als Beispiel
dabei durch Experten, die mit dem Inhalt eines
ein Lehrprogramm, durch das ein Schüler die
Lehr- oder Verhaltensziels vertraut sind (z. B.
Fähigkeit zum logischen Denken erwerben
Geographie-Lehrer oder Therapeuten), auf ih-
soll. Lange Zeit hat man diese Wirkung etwa
re Tauglichkeit zur Abbildung des Kriteriums
dem Latein-Unterricht zugeschrieben. Würde
hin überprüft.
man nun einen entsprechenden lehrzielorien-
Die Analyse der inhaltlichen Validität krite- tierten Test (etwa mit Aufgaben, deren Lö-
riumsorientierter Tests besteht in der Bestim- sung logisches Denken erfordert) konstruieren,

70
3.5 Validität

so würde man vermutlich eine weitgehende wa den Klausurnoten im laufenden oder letz-
Wirkungslosigkeit des Latein-Unterrichts fest- ten Semester, korreliert. Seine prädiktive oder
stellen. Tatsächlich führt dieser Unterricht zu Vorhersagevalidität könnte bestimmt werden,
anderen Kompetenzen, etwa Verständnis für indem die Testwerte vor Studieneintritt mit
grammatische Strukturen, Kenntnis der Wort- Maßen des späteren Studienerfolgs korreliert
stämme vieler Wörter der romanischen und werden. Die Bewährung eines Instruments an
germanischen Sprachen usw. Dieses Beispiel externen Kriterien des zu diagnostizierenden
verdeutlicht, dass die sinnvolle Festlegung von Merkmals, und ganz besonders die Vorhersage
Lehrzielen und deren Operationalisierung im- solcher Kriterien, gilt als ein zentraler Prüf-
mer auch Information darüber erfordert, was stein für dessen Validität. In unserem Beispiel
eine bestimmte Intervention tatsächlich be- würde man deutliche prädiktive Zusammen-
wirkt. Die Konsequenzen von Interventionen hänge sicherlich als stärkere Evidenz für die
müssen empirisch untersucht werden. Entspre- Validität des Tests bewerten als deutliche kon-
chend wird es dann auch stark von empiri- kurrente Assoziationen.
schen Analysen abhängen, in welcher Breite,
Es ist offensichtlich, dass für einen Test im All-
mit welcher Gewichtung und auf welchem Ni-
gemeinen mehrere, manchmal sogar sehr viele
veau die Einzelaspekte eines Zieles in krite-
Kriterien in Frage kommen, für die sich auch
riumsorientierten Tests operationalisiert wer-
recht unterschiedliche Zusammenhänge ein-
den.
stellen können. Dabei sind nicht immer sehr
hohe Korrelationen zu erwarten. Dies liegt
zum Teil daran, dass die Kriterien im Allge-
3.5.2 Kriteriumsvalidität meinen mehrfach determiniert sind, also außer
von dem durch den Test erfassten Merkmal
Evidenz zur Inhaltsvalidität eines Tests beruht noch von vielen weiteren Einflüssen abhän-
primär auf testinterner Information. Dagegen gen. Die Höhe der Korrelation zwischen ei-
bezieht sich der Begriff Kriteriumsvalidität nem Test und einem Kriterium ist darüber hin-
auf testexterne Sachverhalte (Kriterien), auf aus immer auch eine Frage der Reliabilität der
die mit Hilfe des Tests geschlossen werden Kriteriumsmessung. Reliabilitätsmängel der
soll. Zur Bestimmung der Kriteriumsvalidi- Kriteriumsvariablen drücken die Korrelation
tät werden Zusammenhänge zwischen Test- im Allgemeinen nach unten.
und Kriteriumsvariablen untersucht. Ein Test
Aus der oben dargestellten Reliabilitätstheo-
ist valide hinsichtlich eines Kriteriums, wenn
rie lässt sich eine Formel ableiten, durch die
der Zusammenhang stark genug ist, um auf
sich der „messfehlerbereinigte“ Zusammen-
Grundlage der Testwerte praktisch brauchba-
hang zweier Variablen schätzen lässt, wenn
re Aussagen hinsichtlich der Ausprägung des
deren Reliabilitäten bekannt sind. Sie heißt
Kriteriums zu machen.
Formel zur Minderungskorrektur und liefert
Je nachdem, ob das Kriterium nahezu gleich- einen Schätzwert für den Zusammenhang der
zeitig mit dem betreffenden Test oder erst nach wahren (messfehlerfreien) Werte T X und T Y
einem längeren Zeitintervall erhoben wird, un- zweier Variablen X und Y:
terscheidet man hier zwischen konkurrenter Kor(X,Y )
und prädiktiver Kriteriumsvalidität. Die kon- Kor(TX , TY ) = p p .
Rel(X) · Rel(Y )
kurrente oder Übereinstimmungsvalidität ei-
nes Studieneignungstests könnte man z. B. er- Die Formel macht auch ersichtlich, dass der
fassen, indem man die Testwerte mit Indika- Zusammenhang zweier Variablen durch deren
toren des gegenwärtigen Studienerfolgs, et- Reliabilitäten begrenzt wird. Die im Nenner

71
3 Merkmale und Gütekriterien psychologischer Tests

auftauchenden Wurzeln aus den Reliabilitäten beispielsweise angewendet werden, um zu be-


der Variablen stellen Schätzungen der Korre- urteilen, inwieweit eine Erhöhung des Test-
lationen zwischen den beobachteten und den Kriteriums-Zusammenhangs durch Verbesse-
wahren Werten der jeweiligen Variablen dar. rung der Reliabilität des Verfahrens erreicht
Da (unter der Annahme unkorrelierter Fehler- werden kann. In diesem Fall würde man nur
einflüsse) eine Variable nicht höher mit einer für die Unreliabilität der Testwerte korrigieren
anderen Variablen korrelieren kann als mit ih- und entsprechend die Korrelation der wahren
ren eigenen wahren Werten, stellt die Wurzel Testwerte mit den messfehlerbehaften Kriteri-
aus der Reliabilität eine theoretische Obergren- umswerten, Kor(TX ,Y ), erhalten. In unserem
ze für deren Korrelation mit anderen Variablen Beispiel würden wir eine geschätzte Korrelati-
dar. on von
0.40
√ = 0.45
Mit der angegebenen Formel wird eine dop- 0.80
pelte Minderungskorrektur durchgeführt, da erhalten, die wir theoretisch erreichen können,
sowohl die Reliabilität der Testwerte X als wenn die Reliabilität des Tests, aber nicht die
auch die der Kriterienwerte Y berücksichtigt des Kriteriums, auf Eins verbessert wird.
wird. Mit ihrer Hilfe lässt sich schätzen, wie
weit man die Validität durch Erhöhung der Re-
liabilitäten von Test und Kriterium maximal 3.5.3 Konstruktvalidität
steigern kann. Nehmen wir an, die prädikti-
ve Validität eines Eignungstests für ein Maß Konstruktvalidität ist der weiteste Begriff der
des beruflichen Erfolgs betrage .40. Der Eig- Trias. Wir hatten bereits gesehen, dass sich
nungstest weise eine Reliabilität von .80, das Konstrukte auf theoretisch postulierte latente
Maß des Berufserfolgs eine Reliabilität von Merkmale beziehen, von denen angenommen
.60 auf. Setzen wir diese Werte in die Formel wird, dass sie sich im Testverhalten nieder-
ein, erhalten wir schlagen. Ein Test ist in dem Maß konstrukt-
valide, als er sich als Indikator des in Rede
0.40 stehenden Merkmals eignet. Die Eignung wird
√ = 0.58.
0.80 · 0.60 daran beurteilt, wie gut sich ein Verfahren im
Hinblick auf Hypothesen, die sich aus dem
Modell des zu erfassenden Merkmals ableiten
Der Wert von .58 repräsentiert die maximal lassen, empirisch bewährt. Anhand theoreti-
zu erreichende Validität, wenn man sowohl scher Überlegungen werden hier die Beziehun-
den Test als auch das Kriterium so optimie- gen eines zu validierenden empirischen Indika-
ren könnte, dass sie eine Reliabilität von Eins tors (also eines Tests) zu weiteren Indikatoren
erreichen. Doppelte Minderungskorrekturen dieses Merkmals wie auch zu Indikatoren an-
werden häufig durchgeführt, um Zusammen- derer Merkmale bzw. Konstrukte festgelegt.
hänge zwischen Variablengruppen, die in un- Man postuliert also ein Netzwerk aus positi-
terschiedlichem Ausmaß fehlerbehaftet sind, ven, negativen und Nullbeziehungen eines zu
einfacher miteinander vergleichen zu können. validierenden Verfahrens mit anderen empiri-
schen Indikatoren und überprüft, ob sich das
Soll lediglich für die Unreliabilität einer der
vorhergesagte Muster empirisch nachweisen
beiden Variablen korrigiert werden (sog. ein-
lässt.
fache Minderungskorrektur), setzt man die Re-
liabilität der anderen Variablen einfach auf Der Begriff der Konstruktvalidität wurde ur-
Eins, wodurch der entsprechende Wurzelaus- sprünglich eingeführt, um Prozeduren zur Va-
druck im Nenner herausfällt. Die Formel kann lidierung für Testverfahren zu begründen, für

72
3.5 Validität

die keine einzelnen, klar geschnittenen exter- unerwünscht – im Allgemeinen wird erwar-
nen Kriterien existieren. Cronbach und Meehl tet (oder erhofft), dass Untersuchungsresultate
(1955) definieren Konstruktvalidität als das über verschiedene methodische Zugänge gene-
Ausmaß, in dem das Testverhalten ein hypo- ralisierbar sind. In der Praxis sind Methoden-
thetisches (latentes) Merkmal oder Attribut effekte jedoch unvermeidbar, so dass es darauf
reflektiert, mit dem sich Personen beschrei- ankommt, ihr Ausmaß abschätzen zu können.
ben lassen. Als relevante Prozeduren hierfür
Campbell und Fiske (1959) sprechen Tests
wurden u. a. Untersuchungen von Gruppen-
als „trait-method units“ an. Gemeint ist, dass
unterschieden, Faktoren- und Itemanalysen,
die Testwerte gewissermaßen ein Amalgam
Experimente sowie Verlaufsstudien betrachtet.
aus Merkmals- und Methodeneinflüssen dar-
Der Begriff ist damit soweit gefasst, dass er
stellen. Korrelationen zwischen verschiede-
nicht nur Kriteriums- und Inhaltsvalidität, son-
nen Verfahren, die ähnliche Methoden ver-
dern auch Teile der Reliabilität als spezielle
wenden, können deshalb im Prinzip auf (a)
Aspekte beinhaltet. Es wurden jedoch auch
geteilten Merkmals- oder (b) auf geteilten Me-
Konzepte eingeführt, die über diese Aspekte
thodeneffekten beruhen. Wie gerade erwähnt,
hinausweisen.
sind starke Methodeneffekte allgemein uner-
Von zentraler Bedeutung sind hier die Begriffe wünscht. Ein Verdacht auf Methodeneffekte
der konvergenten und diskriminanten Validität. wäre z. B. gegeben, wenn zwei Fragebogen-
Etwas vereinfacht formuliert, steht hinter die- verfahren zur Erfassung aggressiver Verhal-
sen Begriffen die Idee, dass im Rahmen der tenstendenzen hoch korreliert wären (gleiche
Validierung eines Tests nicht nur gezeigt wer- Methode), aber nur gering mit Beobachtungs-
den muss, was der Test misst, sondern auch, indikatoren aggressiven Verhaltens zusammen-
was er nicht misst. Die Begriffe der konver- hängen würden (unterschiedliche Methoden).
genten und diskriminanten Validität wurden Methodeneffekte stellen bei Fragebogenver-
von Campbell und Fiske (1959) als Möglich- fahren eine lange bekannte und diskutierte
keit der Präzisierung des Begriffs der Kon- Quelle möglicher Artefakte dar (I Kap. 10).
struktvalidität eingeführt. Der Konzeption von Das Ausmaß solcher Methodeneffekte kann
Campbell und Fiske zufolge besitzen mehre- mit Multitrait-Multimethod-Analysen geprüft
re Indikatoren eines Konstrukts konvergente werden.
Validität, wenn sie hoch korreliert sind; sie
Multitrait-Multimethod-Analysen erfordern
besitzen diskriminante Validität, wenn sie nur
recht umfangreiche Untersuchungen, da meh-
niedrige Korrelationen mit Indikatoren ande-
rere Merkmale mit mehreren methodischen
rer Konstrukte aufweisen.
Zugängen bei denselben Personen erhoben
Ein Ansatz zur Untersuchung der konver- werden müssen. Zur Illustration der Grundidee
genten und diskriminanten Validität ist die des Verfahrens betrachten wir ein einfaches
Multitrait-Multimethod-Analyse, anhand de- Beispiel mit zwei Merkmalen und zwei Metho-
rer Campbell und Fiske (1959) ihre Be- den. Nehmen wir einen Intelligenztest, der die
griffe entwickelten. Multitrait-Multimethod- getrennte Erfassung numerischer und verba-
Analysen gelten als eine der überzeugendsten ler Fähigkeiten ermöglichen soll. Die Autoren
Zugangsweisen zur Untermauerung der Kon- des Tests gehen davon aus, dass es sich hier
struktvalidität eines Testverfahrens. Sie sind um zwei zwar korrelierte, aber separierbare
besonders geeignet, um den Einfluss der zur Facetten der Intelligenz handelt. Der Test soll
Erfassung eines Merkmals verwendeten Me- sowohl als Papier-und-Bleistift-Verfahren als
thode auf die Messergebnisse abschätzen zu auch computergestützt durchgeführt werden
können. Solche Methodeneffekte sind meist können. Numerische und verbale Fähigkeiten

73
3 Merkmale und Gütekriterien psychologischer Tests

vertreten in diesem Beispiel die Merkmale ungefähr gleich sein. Würden sie hier deutli-
(Traits), die beiden Vorgabemodalitäten (Pa- che Divergenzen ergeben, wären Papier- und
pier und Computer) die Methoden. Für prak- Computerversion nicht äquivalent. Diese For-
tische Zwecke ist es wünschenswert, dass die derung wird allerdings nicht in allen Anwen-
Vorgabemodalität für die Ergebnisse des Tests dungen des Multitrait-Multimethod-Ansatzes
irrelevant ist, so dass beide Erhebungsmetho- erhoben.
den als austauschbar betrachtet werden kön-
nen. Die Zellen außerhalb der Diagonalen enthal-
ten die Korrelationen zwischen den vier Va-
Um dies zu prüfen, müssen beide In- riablen. Je nach gemessenem Merkmal und
haltsbereiche mit beiden Methoden getes- eingesetzter Methode spricht man dabei von
tet werden. Für jede Person werden al- Monotrait-Heteromethod-Korrelationen (MH,
so vier Werte erhoben, in abgekürzter das gleiche Merkmal wird mit verschiedenen
Schreibweise: „numerisch-Papier“, „verbal- Methoden erfasst), Heterotrait-Monomethod-
Papier“, „numerisch-Computer“ und „verbal- Korrelationen (HM, verschiedene Merkmale
Computer“. In unserem speziellen Anwen- werden mit der gleichen Methode erfasst) und
dungsfall würden wir in einem ersten Schritt Heterotrait-Heteromethod-Korrelationen (HH,
die Mittelwerte und Streuungen der ent- verschiedene Merkmale werden mit verschie-
sprechenden Papier- und Testverfahren auf denen Methoden erfasst). Wie aus der Tabelle
Gleichheit prüfen. Die Gleichheit der Vertei- ersichtlich ist, wird in unserem Beispiel jede
lungskennwerte über Methoden ist allerdings der drei Zusammenhangsarten durch jeweils
nicht in allen Anwendungen der Multitrait- zwei Korrelationen repräsentiert.
Multimethod-Analyse von Interesse.
Für konstruktvalide Verfahren haben Camp-
Generell liefern die sechs Korrelationen der bell und Fiske (1959) generelle Erwartungen
vier Testwerte, zusammen mit deren Reliabi- formuliert, deren Erfüllung zusammengenom-
litäten, die zur Bestimmung der Methoden- men konvergente und diskriminante Validität
effekte benötigte Information. Sie werden in anzeigt. Die drei wichtigsten lauten:5
einer Multitrait-Multimethod-Matrix organi-
siert, wie sie I Tab. 3.1 veranschaulicht. 1. Die MH-Korrelationen (im Beispiel
In die Diagonale der Matrix werden die Re- numerisch-Papier/numerisch-Computer
liabilitäten (R) für jede der vier Merkmals- und verbal-Papier/verbal-Computer) sind
Methoden-Kombinationen eingetragen. Die deutlich größer als Null.
Reliabilitäten liefern Referenzwerte, an de- 2. Die MH-Korrelationen sind höher als die
nen die Höhe der anderen Koeffizienten der HH-Korrelationen
Tabelle gemessen wird. Wir hatten ja bereits (numerisch-Papier/verbal-Computer und
gesehen, dass die Reliabilitäten eine (theore- numerisch-Computer/verbal-Papier).
tische) Obergrenze für die Korrelation zweier 3. Die MH-Korrelationen sind höher als die
verschiedener Tests festlegen. Die Testautoren HM-Korrelationen
würden sich natürlich wünschen, dass die Re- (numerisch-Papier/verbal-Papier und
liabilitäten für jede der Merkmals-Methoden- numerisch-Computer/verbal-Computer).
Kombinationen hoch ist. In unserem speziel-
5 Eine vierte Erwartung, die wir hier ausklammern, be-
len Beispiel wäre darüber hinaus zu erwarten,
zieht sich auf Relationen unter den Korrelationen ver-
dass die Höhe der Reliabilität nicht oder nur in
schiedener Merkmale: Das Korrelationsmuster zwi-
geringem Maße von der Methode abhängt: R1 schen Indikatoren verschiedener Merkmale innerhalb
und R3 sowie R2 und R4 sollten also jeweils einer Methode ist über die Methoden ähnlich.

74
3.6 Normen und Bezugssysteme

Tab. 3.1
Methode 1 Methode 2
Multitrait-Multimethod-Matrix. R = Reliabilitäten,
A B A B
MH = Monotrait-Heteromethod-Korrelationen,
HM = Heterotrait-Monomethod-Korrelationen, Methode 1
HH = Heterotrait-Heteromethod-Korrelationen. A R1
A und B sind verschiedene Merkmale. B HM R2
Methode 2
A MH HH R3
B HH MH HM R4

Die Erfüllung der beiden ersten Bedingungen der gleichen Methode gemessen werden. Im
spricht für konvergente Validität, die der drit- Beispielfall würden wir realistischerweise mit
ten indiziert diskriminante Validität. einem gewissen Methodeneinfluss auf die Er-
gebnisse rechnen, da Personen, die häufig mit
In unserem Beispiel würde man eine sehr deut- Computern arbeiten, in den beiden Computer-
liche Konvergenz der einander entsprechenden versionen vermutlich leichte Vorteile gegen-
Computer- und Papierversionen der Tests for- über anderen Personen besitzen werden.
dern. Wenn die Indikatoren im Wesentlichen
die zu messenden Intelligenzmerkmale reflek- Als Traits wurden in unserem Beispiel Fähig-
tieren, sollten sich die MH-Korrelationen den keitsmerkmale betrachtet, als Methods zwei
Reliabilitäten der Tests nähern. In anderen Vorgabemodalitäten der Tests. Dies sollte
Anwendungen des Multitrait-Multimethod- nicht darüber hinwegtäuschen, dass der An-
Ansatzes ist eine solche Forderung aller- satz sehr allgemein ist. An die Stelle von Traits
dings nicht zu erfüllen. Werden z. B. Selbstbe- könnten z. B. aktuelle Zustände treten. Me-
richt, Fremdbericht oder Verhaltensbeobach- thoden könnten z. B. auch verschiedene Be-
tung als Methoden eingesetzt, werden die MH- obachter oder Beurteiler sein. Die Multitrait-
Korrelationen niedriger ausfallen. Multimethod-Analyse, wie sie hier in ihrer
einfachsten Form skizziert wurde, stellt ein
Die Forderung, dass die MH-Korrelationen heuristisches Verfahren zur Abschätzung der
höher ausfallen als die HH- und HM- konvergenten und diskriminanten Validität von
Korrelationen, bedeutet nicht unbedingt, dass Messungen dar. Die Idee des Ansatzes wird
für letztere Koeffizienten um Null erwartet zur Zeit auf der Basis konfirmatorischer Fak-
werden. In unserem Fall würden wir z. B. von torenanalysen und komplexerer Verfahren zur
vornherein positive Korrelationen erwarten, da Analyse von Kovarianzstrukturen weiterentwi-
verbale und numerische Fähigkeiten von der ckelt (Nussbeck, Eid, Geiser, Courvoisier &
allgemeinen Intelligenz abhängen. Cole, 2008; Schermelleh-Engel & Schweizer,
2008).
Ein markanter Einfluss der Methode auf die
Ergebnisse würde sich darin bemerkbar ma-
chen, dass Korrelationen zwischen Indikato-
ren, die mit der gleichen Methode gewonnen 3.6 Normen und Bezugssysteme
wurden, relativ hoch und Korrelationen zwi-
schen Indikatoren, die mit unterschiedlichen Testwerte können mit Hilfe verschiedener Be-
Methoden gewonnen wurden, relativ niedrig zugssysteme interpretiert werden. Diese Be-
ausfallen. Methodeneffekte inflationieren die zugssysteme liefern Maßstäbe oder Standards,
Korrelationen zwischen Merkmalen, die mit die helfen, einen konkreten Testwert sinnvoll

75
3 Merkmale und Gütekriterien psychologischer Tests

einzuordnen. Bei vielen Testverfahren wird die Interpretation von Testwerten. Der zen-
ein normorientiertes Bezugssystem verwendet. trale Zweck des gewonnenen Bezugssytems
Hier werden Testresultate an der Verteilung besteht darin, künftige Testergebnisse anderer
der Ergebnisse in einer Bezugsgruppe gemes- Personen relativ zur Normierungsstichprobe
sen. Bei einem kriteriumsorientierten Bezugs- einordnen zu können.
system werden die Testergebnisse dagegen mit
inhaltlich definierten Zielen verglichen. Wie Für die Erstellung von Normen bestehen ver-
gut eine Person im Vergleich zu Anderen ab- schiedene Möglichkeiten. Am häufigsten fin-
geschnitten hat, ist dabei irrelevant. Die Inter- den sich
pretation von Testwerten kann sich schließlich
auch an individuellen Bezugsgrößen orientie- • Standardnormen (Abweichungs-, Variabili-
ren: Hier interessieren meist Veränderungen tätsnormen),
im Erleben und Verhalten einer Person über • Prozentränge (Perzentilränge),
verschiedene Zeitpunkte, etwa vor und nach
• Standardnormäquivalente sowie
einer therapeutischen Intervention. Eine Va-
riante sind ipsative Vergleiche, die sich auf • Alters- und Klassenäquivalente,
verschiedene Variablen (z. B. Interessen für
diverse Gebiete) bei einer Person beziehen. die im Folgenden besprochen werden.

3.6.1 Normorientierte Vergleiche Standardnormen

Standardnormen werden in den meisten psy-


Erfahren wir, dass eine Person in einem Wis-
chologischen Testverfahren berichtet. Sie lie-
senstest 45 von 50 Aufgaben gelöst hat, könn-
fern Werte auf einer Skala, aus der die Position
ten wir geneigt sein, von einer guten Leistung
einer Person relativ zum Mittelwert und der
zu sprechen. Unsere Interpretation wird sich
Streuung der Bezugsgruppe in direkter Weise
allerdings ändern, wenn wir wissen, dass der
ersichtlich ist. Basis sind standardisierte (z-
Test sehr leicht war und 90 Prozent der Perso-
transformierte) Werte, woher der Name der
nen mehr als 45 Aufgaben korrekt bearbeitet
Normen rührt. Andere gängige Bezeichnun-
haben. Tatsächlich sind die von einem Test
gen für diese Normen sind Variabilitäts- oder
zunächst gelieferten Werte, die Rohwerte ge-
Abweichungsnorm.
nannt werden, für sich genommen nicht son-
derlich informativ. Um informativere Werte Standardnormen werden erstellt, indem für je-
zu gewinnen, werden Tests normiert (geeicht). den möglichen Rohwert eines Tests der zuge-
Hierfür wird der Test einer großen und mög- hörige z-Wert berechnet wird. Hierfür benötigt
lichst repräsentativen Stichprobe der Zielpo- man lediglich den Mittelwert und die Standard-
pulation, der Normierungs- oder Eichstichpro- abweichung der Rohwerte in der Normierungs-
be, vorgelegt. An Größe und Repräsentativität stichprobe. Die z-Transformation wird durch-
dieser Stichprobe werden strengere Kriterien geführt, indem von jedem Wert einer Variablen
angelegt als an Stichproben, die in der Erpro- ihr Mittelwert abgezogen und die resultieren-
bungsphase eines Tests gewählt werden. Die de Differenz durch die Standardabweichung
Verteilung der Rohwerte in der Normierungs- der Variablen geteilt wird:
stichprobe liefert dann den Maßstab, der an
individuelle Testwerte angelegt wird. Wir er- xi − x̄
halten ein normorientiertes Bezugssystem für zi = .
Std(X)

76
3.6 Normen und Bezugssysteme

4 7 12 17 20 17 12 7 4
Stanine
1 2 3 4 5 6 7 8 9
Wert−
punkte
1 2 3 4 5 6 7 8 9 10 12 14 16 18

IQ
55 65 75 85 95 105 115 125 135 145

T
20 25 30 35 40 45 50 55 60 65 70 75 80

PR
0.1 1 5 10 20 40 60 80 90 95 99 99.9

Abb. 3.4 z
Gebräuchliche Skalen −3 −2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5 3

Beträgt dieser Mittelwert z. B. 15, die Stan- Teilweise aus historischen, teilweise aus prak-
dardabweichung 5, würden wir für einen Roh- tischen Gründen werden anstelle von z-trans-
wert von 10 einen z-Wert von formierten Werten meist andere lineare Trans-
formationen der Rohwerte verwendet. Sie un-
10 − 15 terscheiden sich von z-Werten durch die Fest-
= −1
5 legung anderer Mittelwerte und Standardab-
weichungen. Das bekannteste Beispiel ist die
erhalten. Rohwerte und zugehörige Standard-
IQ-Skala, deren Mittelwert auf 100 und de-
werte werden üblicherweise im Anhang des
ren Standardabweichung auf 15 fixiert ist. IQ-
Testmanuals tabelliert. Die z-Transformation
Werte können aus z-Werten über die Transfor-
liefert eine neue Variable mit einem Mittel-
mation
wert von 0 und einer Standardabweichung von
IQ = 100 + 15z
1; z-Werte geben also an, um wieviele Stan-
dardabweichungen der Testwert einer Person gewonnen werden. Die Verwendung dieser
vom Mittelwert der Normierungsstichprobe Skala ist historisch bedingt: Der von Stern
abweicht. Approximiert die Rohwertevertei- (1912) definierte Intelligenzquotient (100 ·
lung eine Normalverteilung, lassen sich aus Intelligenzalter/Lebensalter) wies bei Kin-
den z-transformierten Werten zudem in einfa- dern innerhalb einer bestimmten Altersspan-
cher Weise Aussagen über den prozentualen ne in etwa eine Standardabweichung von 15
Anteil von Personen in der Vergleichsgruppe auf. In der Neufestlegung der IQ-Skala durch
machen, die höhere oder niedrigere Werte er- Wechsler (1939) wurde dies übernommen
reichen. Eine Abschätzung ist auch mit den (I Kap. 12).
beiden unteren Skalen in I Abb. 3.4 möglich.
Eine zweite beliebte Skala sind T-Werte, die
Für normalverteilte Variablen erhält man den
einen Mittelwert von 50 und eine Standardab-
Anteil der Personen, die unter einem gegebe-
weichung von 10 aufweisen. Man erhält sie
nen z-Wert liegen (unterste Skala) durch Ab-
aus z-Werten über
lesen des entsprechenden Prozentrangs (PR)
auf der darüber liegenden Skala. Für einen z- T = 50 + 10z.
Wert von −1 erhalten wir beispielsweise ein
Prozentrang von 16. Prozentränge werden im IQ- und T-Werte werden üblicherweise auf
nächsten Abschnitt genauer besprochen. ganze Zahlen gerundet. Ihre Verwendung wird

77
3 Merkmale und Gütekriterien psychologischer Tests

damit begründet, dass sie kein Hantieren mit einem Wissenstest einen altersspezifischen T-
negativen Zahlen oder mehreren Dezimalstel- Wert von 70 erreicht hat, liegt weit über dem
len erforderlich machen. Durchschnitt anderer 9-jähriger Kinder, weiß
aber in dem geprüften Bereich möglicherwei-
Leser von Testmanualen werden mit einer se weniger als ein 11-jähriges Kind mit einem
großen Zahl weiterer Skalen konfrontiert. Wie altersspezifischen T-Wert von 50.
IQ- und T-Werte lassen sie sich aus z-Werten
durch Multiplikation mit der Standardabwei- Will man Testwerte (etwa für ein Gutachten)
chung der Skala und anschließender Addition verbal etikettieren, bietet es sich an, Werte, die
ihres Mittelwerts gewinnen. Erstaunlicherwei- innerhalb eines Bereichs von einer Standard-
se benutzen einige dieser Skalen recht undif- abweichung um dem Mittelwert liegen, als
ferenzierte Einteilungen. In der sog. Stanine- durchschnittlich zu bezeichnen, Werte außer-
Skala (gesprochen: standard nine), deren Mit- halb dieses Bereichs entsprechend als unter-
telwert 5 und deren Standardabweichung auf oder überdurchschnittlich. Für T-Werte würde
2 festgelegt ist, werden z. B. nur ganzzahlige der Durchschnittsbereich beispielsweise zwi-
Werte von 1 bis 9 vergeben. Solche Skalen schen 40 und 60 liegen, für IQ-Werte zwischen
werden gerne verwendet, wenn die Testwerte 85 und 115. Werte, die niedriger ausfallen als
selbst, etwa aufgrund einer geringen Iteman- 2 Standardabweichungen unter dem Durch-
zahl, nur innerhalb eines engen Bereichs streu- schnitt oder höher als 2 Standardabweichun-
en. Mit der Verwendung einer einfacheren Ska- gen über dem Durchschnitt können entspre-
la will man es vermeiden, einen Differenzie- chend als weit unter- bzw. überdurchschnitt-
rungsgrad der Messung vorzuspiegeln, der gar lich beschrieben werden.
nicht existiert.
Möchte man den Messfehler in die verbale
Bei Tests für Merkmale, die altersbezogenen Ettikettierung inkorporieren, so umschreibt
Veränderungen unterworfen sind, also etwa man den Testwert entsprechend der unteren
bei Fähigkeits- und Leistungstests, werden al- und oberen Grenze des Konfidenzintervalls
tersspezifische Normen erstellt. Die Normen (I Kap. 3.4.2). Hat sich für einen Testwert
werden hier also separat für altershomogene z. B. eine untere Grenze des Konfidenzinter-
Gruppen berechnet, so dass etwa die Leistung valls von T = 36 und eine obere Grenze von
eines 9-jährigen Kindes mit der Leistung ande- T = 44 ergeben, so würde man von einer „un-
rer 9-jähriger Kinder verglichen wird. Neben terdurchschnittlichen bis durchschnittlichen“
dem Alter kommen auch andere Einteilungs- Ausprägung des gemessenen Merkmals spre-
gesichtspunkte in Betracht. Manche Tests ent- chen. Bühner (2011) schlägt zusätzlich vor,
halten z. B. zusätzlich separate Normen für einen Testwert in jedem Fall als „durchschnitt-
Kinder aus Hauptschulen, Realschulen und lich“ zu charakterisieren, wenn das Konfidenz-
Gymnasien. Dies ermöglicht es, Leistungen re- intervall den Mittelwert der Normstichprobe
lativ zum besuchten Schultyp zu lokalisieren. (bei T-Werten also z. B. 50) überdeckt. Die
Auch geschlechtsspezifische Normen werden bei der Berechnung des Konfidenzintervalls
in einigen Tests verwendet. zugrunde gelegte Wahrscheinlichkeit sollte in
jedem Fall mit angegeben werden.
Mit gruppenspezifischen Normwerten ist es
natürlich unmöglich, Aussagen über die „abso- Eine einheitliche Konvention für verbale Um-
lute“ Leistung einer Person zu machen. Diese schreibungen existiert nicht. Die in man-
sind vielmehr immer auf die Bezugsgruppe chen älteren Manualen angebotenen deutlich
zu relativieren. Ein 9-jähriges Kind, das in wertenden Kategorien (z. B. „schwachsinnig“

78
3.6 Normen und Bezugssysteme

oder „genial“) sind unangemessen und sollten Für den Testwert 3 errechnet man z. B. einen
vermieden werden (I Kap. 12). Prozentrang (90 + 70)/2 = 80. Prozentränge
ordnen damit den Personen Werte zu, die der
mittleren kumulierten prozentualen Häufigkeit
Prozentränge innerhalb jeder Stufe entsprechen.
Eine alternative Prozedur besteht darin, den
Prozentränge (PR) oder Perzentilränge sind auftretenden Testwerten Ränge zuzuordnen,
sehr einfach zu interpretierende Kennwerte. die von 1 bis zur Anzahl der Personen (n) rei-
Sie geben an, wieviel Prozent der Referenz- chen. Der niedrigste Testwert erhält dabei den
gruppe geringere oder maximal gleiche Aus- Rang 1, der höchste den Rang n. Wenn sich
prägungen auf dem gemessenen Merkmal auf- mehrere Testwerte den gleichen Rangplatz tei-
weisen. Ein Prozentrang von 60 besagt also, len, werden die entsprechenden Ränge gemit-
dass 60 Prozent der Referenzgruppe niedrigere telt. Prozentränge für jede Kategorie k werden
Ausprägungen aufweisen, 40 Prozent dagegen dann nach
höhere.
R(k) − 0.5
Für die empirische Bestimmung von Prozent- PR(k) = 100 ·
n
rängen gibt es verschiedene Konventionen, die
bei einer geringen Zahl von Skalenabstufun- berechnet, wobei für R(k) die (mittleren)
gen zu etwas unterschiedlichen Werten führen Rangplätze der Wertekategorien einzusetzen
können. In der psychometrischen Literatur ist sind. Personen mit dem Testwert 1 teilen sich
es üblich, von den kumulierten prozentualen in unserem Beispiel die Ränge 21 bis 80, im
Häufigkeiten der Testwerte auszugehen und Mittel also 50.5, so dass sich für PR(1) wie-
diese jeweils zwischen den einzelnen Stufen derum 25 ergibt.
(Testwerten) zu mitteln.
Prozentränge sind einfach verständliche Nor-
I Tab. 3.2 illustriert das Vorgehen an einem men, die sich gut für die Kommunikation mit
sehr einfachen Beispiel eines Tests mit vier Personen ohne testtheoretische Vorbildung eig-
Aufgaben, der Werte (Lösungshäufigkeiten) nen. Sie können deshalb insbesondere in Gut-
von 0 bis 4 liefert. Für die Bestimmung von achten, soweit angebracht, verwendet werden
Prozenträngen zählt man zunächst die Häu- (I Kap. 13).
figkeiten aus, mit der die einzelnen Testwerte
Bei ihrer Interpretation muss jedoch beach-
vorkommen. Im Beispiel haben 20 Personen
tet werden, dass es sich um eine nichtlinea-
der insgesamt 200 Personen keine der Aufga-
re Transformation der Ausgangswerte han-
ben gelöst, 60 haben eine Aufgabe gelöst usw.
delt. Die Skaleneigenschaften der Rohwerte
Die entsprechenden prozentualen Häufigkei-
gehen dabei verloren. So entspricht etwa eine
ten werden anschließend kumuliert, d. h. suk-
z-Wert-Differenz von 1 im Mittelbereich der
zessive addiert. Sie geben den prozentualen
Skala größeren Prozentrang-Differenzen als
Anteil der Personen an, die einen bestimmten
dies im hohen und niedrigen Bereich der Fall
Testwert erreicht haben oder darunter lagen.
ist (I Abb. 3.4). Intervallen auf der Rohwert-
Prozentränge werden dann gebildet, indem die oder Standardskala entsprechen auf der Pro-
kumulierte prozentuale Häufigkeit einer Stufe zentrangskala also ganz andere Intervalle. Wei-
(Testwertkategorie) mit der kumulierten pro- tere Berechnungen, etwa die Bestimmung
zentualen Häufigkeit der vorhergehenden Stu- von Gruppenmittelwerten, sollten mit Prozent-
fe gemittelt wird, wobei man für die niedrigs- rängen deshalb nicht angestellt werden. Hier-
te Stufe 0 als vorhergehenden Wert ansetzt. für greift man auf die Rohwerte zurück.

79
3 Merkmale und Gütekriterien psychologischer Tests

Tab. 3.2
Testwert
Berechnung von
Kennwert 0 1 2 3 4
Prozenträngen
Häufigkeit 20 60 60 40 20
Prozentuale Häufigkeit 10 30 30 20 10
Kumulierte prozentuale Häufigkeit 10 40 70 90 100
Prozentrang 5 25 55 80 95

Standardnormäquivalente sierte Werte sind im Allgemeinen nicht exakt


normalverteilt. Eine nachträgliche Normalisie-
Standardnormäquivalente stellen eine weitere rung von Variablen, die markant von der Nor-
Form der Normierung dar. Auch hier werden malverteilung abweichen, obwohl eine Nor-
die Rohwerte nichtlinear transformiert und malverteilung erwartet wird, ist jedoch proble-
zwar so, dass sich die transformierten Wer- matisch. Wird nämlich angenommen, dass das
te normal verteilen. Man spricht hier auch zu erfassende Merkmal in der Population nor-
von einer Normalisierung der Werte: Nicht- malverteilt ist, verweisen nichtnormalverteilte
normalverteilte Werte werden in normalver- Werte darauf, dass die Aufgabenzusammen-
teilte überführt. stellung suboptimal ist oder die Stichprobe
die Population nicht gut repräsentiert (oder
Für die Normalisierung ordnet man den Roh- beides). Solange die Aufgabenzusammenstel-
werten zunächst Prozentränge zu, wie gera- lung nicht optimal ist, besteht normalerweise
de beschrieben. Diese Prozentränge werden kein Grund für eine Normierung des Tests.
anschließend in diejenigen z-Werte zurück- Wenn die Stichprobe die Population nicht gut
übersetzt, die sich bei einer Normalverteilung repräsentiert, liefert auch die Normierung un-
der Werte ergeben hätten. Für eine grobe Nä- angemessene Werte. Das Vorgehen ist primär
herung kann man wiederum die beiden unte- geeignet, leichtere, stichprobenbedingte Ab-
ren Skalen der I Abb. 3.4 verwenden. Einem weichungen von der Normalverteilung gewis-
Prozentrang von 80 würde also ein normali- sermaßen kosmetisch zu korrigieren. Da es
sierter z-Wert von 0.8 zugeordnet werden, ei- sich auch hier wie bei Prozenträngen um eine
nem Prozentrang von 50 ein z-Wert von 0 usw. nichtlineare Transformation handelt, bleiben
Dies sind die Standardnormäquivalente. Ande- Intervalle auf der Rohwertskala nicht erhalten.
re Standardnormäquivalente lassen sich gewin- Bei kleineren Abweichungen von der Normal-
nen, indem die z-Werte in T-Werte oder ande- verteilung kann dies jedoch ignoriert werden.
re Skalen umgerechnet werden, wie oben be-
schrieben wurde. Stanine-Werte werden prak-
tisch immer mittels dieses Vorgehens gebildet.
Wie im oberen Teil der I Abb. 3.4 angedeutet Äquivalentnormen
ist, werden hier den 4 % niedrigsten Werten
eine Stanine von 1, den 7 % nächst höheren
Werten eine Stanine 2 zugeordnet usw. (Mit Eine weitere Art von Normen sind sog. Al-
diesem Vorgehen erhält man einen Mittelwert tersäquivalente. Derartige Normen finden sich
von 5 und eine Standardabweichung von 2.) häufig in Fähigkeits- und Leistungstests für
Kinder und Jugendliche. Mit Altersäquivalen-
Ein Vorteil solcher Standardnormäquivalente ten werden den Leistungen in einem Tests die-
wird in der direkten Korrespondenz zu Pro- jenigen Altersabschnitte zugeordnet, in denen
zenträngen gesehen. Rohwerte und standardi- sie typischerweise erbracht werden können.

80
3.6 Normen und Bezugssysteme

Das klassische Beispiel für eine Altersäqui- Gruppe nahe bei 7.0 Jahren liegt. Anschlie-
valentnorm ist das Intelligenzalter. Mit dieser ßend berechnet man den Leistungsmittelwert
Norm charakterisierten bereits Binet und Kol- oder -median getrennt für alle Altersgruppen.
legen den intellektuellen Entwicklungsstand (Der Median entspricht dem Wert, den ein
von Kindern (I Kap. 2). Wird einem Kind bei- Kind erreicht, das genau in der Mitte der Roh-
spielsweise ein Intelligenzalter von 8 Jahren wertverteilung liegt; er wird dem arithmeti-
und 6 Monaten attestiert, so bedeutet dies, dass schen Mittelwert bei der Bildung von Alters-
seine Leistung in dem absolvierten Test der normen üblicherweise vorgezogen, da er die
typischen (durchschnittlichen) Leistung von typische Leistung besser repräsentiert, wenn
Kindern entspricht, die achteinhalb Jahre alt asymmetrische Verteilungen vorliegen.) Tabel-
sind. Die Leistung des Kindes hat ein Alters- liert man anschließend die Altersmittelwerte
äquivalent von achteinhalb Jahren. Der Ver- gegen die berechneten typischen Rohwerte,
gleich zwischen Intelligenzalter und Lebensal- lassen sich für gegebene Rohwerte die entspre-
ter ermöglicht Rückschlüsse über den kogniti- chenden Altersäquivalente ablesen. In unseren
ven Entwicklungsstand des Kindes. Würde das Beispieldaten entspricht etwa ein Rohwert von
Intelligenzalter von achteinhalb von einem sie- 14 einem Altersäquivalent von 8 Jahren. Bei
benjährigen Kind erreicht werden, so könnte Rohwerten, die nicht in der Tabelle vorkom-
man dem Kind einen Entwicklungsvorsprung men, kann man interpolieren, einem Rohwert
in dem geprüften Leistungsbereich bescheini- von 12 z. B. ein Altersäquivalent von sieben-
gen. einhalb Jahren zuordnen.
Neben Altersäquivalenten gibt es noch eine
Tab. 3.3 Beispieldaten zur Erstellung von zweite populäre Art von Äquivalentnormen,
Altersnormen nämlich Klassenstufenäquivalente. Sie wer-
den häufig in Tests berichtet, die im Schul-
Altersgruppe Mittlerer Rohwert
kontext eingesetzt werden. An die Stelle von
6 8 Altersabschnitten als Referenzwert treten hier
7 10 Klassenstufen, in denen bestimmte Leistun-
8 14 gen typischerweise gezeigt werden. Ein Kind
9 17 mit einem Klassenstufenäquivalent von 5 in
einem Rechentest erbringt in diesem Bereich
10 20
also Leistungen, die einem durchschnittlichen
11 22
Fünftklässler entsprechen.
12 26
Äquivalentnormen verdanken ihre Beliebtheit
vor allem ihrer Anschaulichkeit; auch Laien
Die Erstellung von Altersnormäquivalenten ist können mit diesen Normen sofort etwas an-
möglich, solange deutliche altersbezogene Ver- fangen. In der diagnostischen Literatur sind
änderungen innerhalb eines bestimmten Ver- sie jedoch sehr umstritten (siehe z. B. Cron-
haltensbereichs vorliegen. Sie können relativ bach, 1990). Der Grund hierfür liegt darin,
einfach gewonnen werden. Zunächst werden dass die Leistung eines Kindes hier mit einer
die Kinder in Altersgruppen eingeteilt. In dem Bezugsgruppe verglichen wird, zu der es unter
in I Tab. 3.3 gezeigten Beispiel wurden alle Umständen gar nicht gehört. Dies kann sehr
Kinder, die älter als sechseinhalb und jünger leicht zu Fehlinterpretationen führen. Nehmen
als siebeneinhalb Jahre alt sind, der Alters- wir an, das Kind mit dem Klassenstufenäqui-
gruppe 7 zugeordnet. Diese Art der Einteilung valent von 5 im Rechnen sei in der siebten
gewährleistet, dass der Altersmittelwert der Klasse. Man könnte dies als einen massiven

81
3 Merkmale und Gütekriterien psychologischer Tests

Leistungsrückstand im Rechnen interpretieren. zu erkennen (I Kap. 12). Die Ursachen


Tatsächlich lässt sich jedoch ohne weitere In- des Anwachsens dieser Leistungen über
formation nicht mehr sagen, als dass das Kind die Generationen sind noch nicht geklärt.
die durchschnittliche Leistung von Siebtkläss- Der Effekt ist nach dem Autor benannt, der
lern nicht erreicht hat. Es könnte durchaus sein, ihn als erster systematisch dokumentiert hat
dass ein Viertel der Klassenkameraden des (Flynn, 1987; vgl. auch Dickens & Flynn,
Kindes nur ein Äquivalent von 5 oder weniger 2001; Neisser et al. 1996).
erreicht, was die Interpretation des Rückstands
doch sehr relativieren würde. Ohne Streuungs-Geprüft werden muss auch, ob die Eichstich-
angaben können Äquivalentnormen leicht zu probe für eine konkrete Testanwendung über-
unangemessenen Schlussfolgerungen Anlass haupt sinnvolle Referenzwerte liefert. So ist
geben. Standardnormen oder Prozentrangnor- z. B. die Interpretation von Leistungen aus-
men, mit denen Kinder relativ zu ihrer Alters-
ländischer Kinder in einem Intelligenztest, der
oder Klassenstufe eingeordnet werden, ist des-
bei deutschen Kindern normiert wurde, proble-
halb der Vorzug zu geben. matisch. Wenn die für die Durchführung des
Tests wichtigen Bedingungen in der Anwen-
Verwendung von Normen dung nicht hergestellt werden können, führen
natürlich auch aktuelle und „passende“ Nor-
Vor der Verwendung von Normen muss ge- men in die Irre.
prüft werden, ob diese für die zu testenden
Personen überhaupt angemessen sind. Auf drei
Fragen sollte dabei besonderes Augenmerk ge- 3.6.2 Kriteriumsorientierte
richtet werden: Vergleiche
1. Wie lange liegt die Normierung zurück?
2. Wie war die Eichstichprobe zusammenge- Normorientierte Interpretationen von Testwer-
setzt? ten werden häufig mit kriteriumsorientierten
3. Können die für die Testbearbeitung essen- Interpretationen kontrastiert. Kriteriumsorien-
ziellen Bedingungen der Eichstichprobe in tierte Vergleiche liefern eine zweite grundle-
der konkreten Testanwendung realisiert wer- gende Möglichkeit der Interpretation von Test-
den? werten. Hier ergibt sich die Bedeutung der
Testwerte nicht durch die Position der Person
Tests, deren Normierung längere Zeit zurück- relativ zu den Testwerten anderer Personen,
liegt, liefern unter Umständen keine angemes- sondern relativ zu einem definierten Kriteri-
senen Bezugssysteme mehr. So werden z. B. um, d. h. einem bestimmten Ziel oder einer be-
bestimmte Intelligenztests, deren Normen ver- stimmten Anforderung. Solche Kriterien könn-
altet sind, aufgrund des sog. Flynn-Effekts zu ten etwa sein:
hohe IQ-Werte liefern.
(a) Fähigkeit zum Lösen mathematischer
Flynn-Effekt Gleichungen mit einer Unbekannten,
(b) Beherrschung des englischen Grundwort-
Beim Flynn-Effekt handelt es sich um eine schatzes,
seit langem bekannte säkulare Zunahme der (c) Fahreignung,
Leistungen in Intelligenztests, die durch- (d) Fähigkeit zur Reflexion eines kontrover-
schnittlich etwa drei IQ-Punkte pro Dekade sen politischen Themas,
beträgt und vor allem die Fähigkeit betrifft, (e) Angstfreiheit in öffentlichen Redesituatio-
Relationen zwischen abstrakten Symbolen nen.

82
3.6 Normen und Bezugssysteme

Wie die Beispiele illustrieren, sind Kriterien andererseits können wir sie im Hinblick auf
nicht immer klar umrissen; entsprechend kön- die Erreichung eines festgelegten Richtwerts
nen sie auch nicht immer vollständig in ein beurteilen (also kriteriumsorientiert vorgehen).
objektives Testformat umgesetzt werden. In Beide Bezugssysteme haben logisch wenig
den Fällen (a) und (b) wäre dies offensichtlich miteinander zu tun. Eine Person könnte norm-
noch relativ einfach. Für die Prüfung von (b) orientiert deutlich unter dem Durchschnitt der
könnte es etwa genügen, eine Stichprobe von Leistungen anderer Personen liegen, das Kri-
Vokabeln zusammenzustellen, die die Schüler terium aber dennoch klar erfüllen.
übersetzen sollen. Die einzige Komplikation
ergibt sich hier in der Festsetzung eines Richt- Manchmal spricht man von norm- bzw. kriteri-
werts, der angibt, ab wann das Kriterium als umsorientierten Messungen oder sogar norm-
erreicht gelten soll. Bei (c) lassen sich zumin- bzw. kriteriumsorientierten Tests, was nahe-
dest wichtige Teilaspekte des Kriteriums, näm- legt, dass es sich hier um Eigenschaften von
lich das erforderliche Wissen über Verkehrsre- Messungen oder Tests handelt, nicht allein
gelungen, basale technische Kenntnisse usw. um mögliche Interpretationen von Testwer-
über Tests erfassen. Auch bei (d) werden be- ten. Dies ist deswegen gerechtfertigt, weil bei
stimmte Wissensvoraussetzungen eine Rolle vielen Tests nur eines der beiden Bezugssys-
spielen, die man über Tests prüfen kann. (An teme interessiert oder doch im Vordergrund
dem, was wir hier intuitiv für besonders re- steht, was sich in einem unterschiedlichen Auf-
levant erachten, würde ein Wissenstest aber bau der entsprechenden Verfahren niederschla-
vorbei laufen.) Kriterienorientierte Interpreta- gen kann. Normorientierte Tests zielen näm-
tionen können auch Verhaltens- und Erlebens- lich darauf ab, Unterschiede zwischen Perso-
merkmale außerhalb des Leistungsbereichs be- nen (interindividuelle Differenzen) in einem
treffen, wie in Beispiel (e). Bei kriteriumsori- Merkmal möglichst gut zu reflektieren. Dies
entierten Interpretationen von Testwerten in- kann zu einer anderen Zusammenstellung von
teressiert, ob oder inwieweit ein Ziel erreicht Aufgaben führen als bei kriteriumsorientier-
wurde. Dabei bezieht man sich auf Maßstäbe, ten Tests, in der solche Unterschiede eventuell
die „in der Sache begründet“ sind, weshalb wenig oder gar nicht interessieren. Tatsächlich
hier auch von sachlichen Bezugsnormen ge- können kriteriumsorientierte Tests so konstru-
sprochen wird (Rheinberg & Fries, 2010). Mit iert werden, dass sie zwar die relevante An-
sachlichen Bezugsnormen wird der Grad der forderung gut erfassen, aber nur sehr grobe
Zielerreichung spezifiziert. Information über die relativen Positionen von
Personen liefern (I Kap. 16.2.3).
Die Differenzierung zwischen Norm- und Kri-
teriumsorientierung betrifft das Bezugssys-
tem, in das individuelle Testwerte eingeord-
net werden, also die Interpretation von Test- 3.6.3 Individuelle und ipsative
werten. Prinzipiell können Testwerte in bei- Vergleiche
den Bezugssystemen lokalisiert werden, d. h.
die gleiche Leistung kann sowohl normorien-
tiert als auch kriteriumsorientiert interpretiert Ein drittes Bezugssystem für die Interpretation
werden. Nach Durchführung eines Englisch- von Testwerten liefert das frühere Verhalten ei-
Vokabeltests können wir z. B. eine Person ei- ner Person. Der aktuelle Testwert einer Person
nerseits hinsichtlich ihrer Leistung relativ zu wird hier in Relation zu einem oder mehre-
den anderen getesteten Personen charakteri- ren in der Vergangenheit erhobenen Werten
sieren (und damit normorientiert vorgehen), gesetzt. Da hier Veränderungen im Erleben

83
3 Merkmale und Gütekriterien psychologischer Tests

und Verhalten einzelner Personen interessie- trum standen dabei die Begriffe Objektivität,
ren, spricht man von individuellen Bezugssys- Reliabilität und Validität, die als die Hauptgü-
temen. Individuelle Bezugssysteme spielen in tekriterien von Tests betrachtet werden. Auch
vielen Praxisfeldern der psychologischen Dia- die Verfügbarkeit von Normen ist für viele
gnostik eine zentrale Rolle. In pädagogischen Testanwendungen wichtig. Zentrale Gesichts-
Kontexten könnte etwa der Zuwachs an Wis- punkte für die Bewertung von Tests liefern
sen und Kompetenzen bei Schülern nach einer darüber hinaus Nutzenanalysen, auf die wir im
Unterrichtseinheit interessieren, in klinischen Rahmen der Darstellung entscheidungstheore-
Kontexten der Abbau von Angst bei einer pho- tischer Modelle in I Kap. 6 näher eingehen
bischen Person nach einer Verhaltenstherapie. werden.
Eine Variante individueller Maßstäbe sind sog. Für die Bewertung von Tests existieren noch
ipsative Vergleiche. Auch hier orientiert sich weitere Qualitätsmerkmale, die sich allerdings
das Bezugssystem zur Einordnung der Test- teilweise aus den Hauptgütekriterien ableiten
werte an der Person selbst (lateinisch ipse). oder doch mit ihnen überlappen. Sie werden
Von ipsativen Vergleichen spricht man dabei, häufig als Nebengütekriterien angesprochen,
wenn zwei oder mehr Testwerte miteinander womit angedeutet wird, dass sie einen eher
in Bezug gesetzt werden, die unterschiedli- ergänzenden Charakter besitzen und nicht für
che Merkmale reflektieren. Sie werden häu- alle Verfahren gleichermaßen bedeutsam sind.
fig bei der Bestimmung von Präferenzen ver- Hierher gehören die äußere Testgestaltung, die
wendet. In einem Berufsinteressentest könnten Zumutbarkeit des Verfahrens für die Proban-
z. B. Präferenzen für naturwissenschaftlich- den, die Störanfälligkeit und Verfälschbarkeit
technische, künstlerische und sprachliche The- des Tests, die Bandbreite erfasster Merkmale,
men geprüft werden. Diagnostisch relevant wä- die Testökonomie sowie die Akzeptanz des
ren hier weniger die absoluten Ausprägungen Verfahrens durch die Probanden. Für letztere
der Interessenstärken für diese oder weitere ist neben der Zumutbarkeit vor allem die sog.
Gebiete als vielmehr deren relatives Niveau Augenscheinvalidität – die Gültigkeit (und da-
(I Kap. 10.4). mit auch die Fairness) eines Verfahrens in den
Natürlich schließt die Einordnung von Test- Augen von Laien – verantwortlich (Testkura-
werten in ein individuelles Bezugssystem die torium der Föderation Deutscher Psychologen-
gleichzeitige Verwendung norm- oder kriteri- vereinigungen, 2009).
umsorientierter Bezugssysteme nicht aus. In
An Tests, die für praktisch folgenreiche Ent-
manchen Fällen ist es sinnvoll und wünschens-
scheidungen eingesetzt werden, müssen hohe
wert, Testwerte in allen drei Bezugssystemen
Qualitätsanforderungen gestellt werden. Zur
gleichzeitig zu lokalisieren. Wir erhalten dann
Sicherung und Unterstützung dieser Anfor-
Information über die Merkmalsausprägung (a)
derungen wurden in einigen Ländern stan-
relativ zu anderen Personen, (b) einem defi-
dardisierte Systeme zur Testinformation und
nierten Kriterium und (c) früheren Ausprägun-
-beurteilung eingerichtet. Auch im deutschen
gen des Merkmals bei der Person (Rheinberg
Sprachraum existieren Initiativen, ein einheit-
& Fries, 2010).
liches System zu etablieren. Kersting (2006)
diskutiert verschiedene existierende Systeme.
3.7 Testbewertung Wie wir sahen, lassen sich Gütemerkmale von
Items (z. B. deren Trennschärfe) und Tests
In diesem Kapitel wurden grundlegende Merk- (z. B. Reliabilität) teilweise numerisch be-
male psychologischer Tests behandelt. Im Zen- schreiben. An manchen Stellen hatten wir an-

84
3.7 Testbewertung

gegeben, ab welchem Wert solche Indices als Weiterführende Literatur


„ausreichend“ oder „gut“ angesehen werden.
Derartige Werte sind jedoch lediglich als Ori-
Weiterführende Darstellungen der Testheorie
entierungspunkte zu verstehen. Fixe, anwen-
und -konstruktion finden sich in den Büchern
dungsübergreifende Grenzen lassen sich sach-
von Bühner (2011), Eid und Schmidt (2014)
lich nicht begründen. Der Wert eines Tests
sowie Moosbrugger und Kelava (2008). Die
muss vielmehr im Kontext einer konkreten
mathematischen Grundlagen der Klassischen
Anwendung beurteilt werden. Interessieren im
Testtheorie werden ausführlich von McDonald
Rahmen einer Untersuchung z. B. nur Grup-
(1999) sowie Steyer und Eid (1993) dargelegt.
penmittelwerte, können Reliabilitätsanforde-
rungen niedriger angesetzt werden als bei indi-
vidualdiagnostischen Entscheidungen, die für
die betroffenen Personen gravierende Konse- Fragen zur Wissenskontrolle
quenzen besitzen.
Überdies muss bedacht werden, dass sich nicht 1. Welche Hauptgütekriterien werden an psy-
alle Idealforderungen an Tests gleichzeitig er- chologische Tests angelegt?
füllen lassen, da sie teilweise konfligieren. Ein 2. Was beinhaltet Cronbachs Unterscheidung
kurzer und für die Probanden wenig belasten- zwischen „tests of maximum performance“
der Test ist z. B. meist weniger zuverlässig und und „tests of typical response“?
valide als ein längeres Verfahren. Schließlich 3. Wie ist die Trennschärfe eines Items defi-
lassen sich essenzielle Gütemerkmale, insbe- niert?
sondere solche, welche die Inhalts- und Kon- 4. Welche grundlegenden Zugangsweisen zur
struktvalidität betreffen, nicht zu handlichen Schätzung der Reliabilität gibt es?
numerischen Kennwerten bündeln. Hier müs- 5. Was versteht man unter konvergenter und
sen die Angemessenheit der konzeptuellen diskriminanter Validität?
Grundlagen sowie Umfang, Qualität und Re- 6. Welche Bezugssysteme zur Einordnung von
sultate der empirischen Untersuchungen zum Testwerten lassen sich differenzieren?
Test berücksichtigt werden.

85
4 Modelle psychologischen Testens

4.1 Faktorenanalytische Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . 87


4.1.1 Grundlegende Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.1.2 Ein-Faktor-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.1.3 Mehr-Faktoren-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.2 Item-Response-Theorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
4.2.1 Probleme linearer Modelle . . . . . . . . . . . . . . . . . . . . . . . . 108
4.2.2 Logistische Testmodelle . . . . . . . . . . . . . . . . . . . . . . . . . 111
4.2.3 1PL-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
4.2.4 2PL-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.2.5 3PL-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.2.6 Lokale Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.2.7 Parameterschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
4.2.8 Informationsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

Die Klassische Testtheorie, deren Konzepte hungen zwischen dem Merkmal, den beob-
und analytisches Instrumentarium im letzten achteten Antworten und hieraus abgeleiteten
Kapitel dargestellt wurden, ist in erster Li- Größen werden dagegen nicht expliziert.
nie auf ganze Tests abgestimmt. Wie Fischer
(1974) bemerkt, geht die Klassische Testtheo- Während die Klassische Testtheorie an „gan-
rie von gegebenen Messungen aus – im Allge- zen“ Tests orientiert ist, setzen die im vorlie-
meinen Summenwerten – und fragt, wie relia- genden Kapitel behandelten Modelle eine Ebe-
bel und valide diese Messungen sind. Wie die ne tiefer an, nämlich an den Antworten auf
Messung selbst begründet werden kann, wird einzelne Items. Die Antworten werden hier
dagegen nicht thematisiert. So bleibt zum Bei- durch Einführung latenter Variablen, die sich
spiel unklar, inwiefern es eigentlich legitim ist, auf Persönlichkeitseigenschaften oder aktuelle
einen Testwert als Indikator der Ausprägung Zustände beziehen, mathematisch dargestellt
eines psychologischen Merkmals anzusehen. und damit – in einem später noch zu präzisie-
renden Sinn – erklärt.
Zur Rechtfertigung werden hier vor allem in-
haltliche Überlegungen und pragmatische Ar- Das Kapitel gliedert sich in zwei größere Ab-
gumente angeführt, die sich z. B. auf (nach- schnitte. Im ersten Abschnitt werden fakto-
trägliche) Untersuchungen der externen Kor- renanalytische Modelle behandelt. Solche Mo-
relate einer Testvariablen berufen. Die Bezie- delle sind für die Analyse der Struktur von

86
4.1 Faktorenanalytische Modelle

Tests, die quantitative Items beinhalten, ge- turen von Variablen untersucht werden kön-
eignet. Faktorenanalytische Modelle, deren nen. Das generelle Ziel der Faktorenanalyse
Grundlagen von Spearman (1927) und Thur- ist es, die Zusammenhänge einer Reihe ma-
stone (1947) ausgearbeitet wurden, haben sich nifester Variablen durch eine kleinere Zahl
für die Testkonstruktion und -evaluation als latenter Variablen zu beschreiben. Manifeste
außerordentlich fruchtbar erwiesen. Die Be- Variablen sind beobachtbare Größen, wie sie
gründer der Klassischen Testtheorie stützten z. B. mit Item- oder Testwerten vorliegen. La-
sich stark auf die Ergebnisse Spearmans, so tente Variablen beziehen sich auf Größen, die
dass es ganz natürlich erscheint, die Faktoren- nicht direkt beobachtbar oder mit einfachen,
theorie zur Optimierung der Item- und Test- etablierten Messoperationen zu erfassen sind
analyse zu nutzen. Im zweiten Abschnitt des (I Kap. 3). Die im Rahmen der Faktorenana-
Kapitels werden drei grundlegende logistische lyse betrachteten latenten Variablen werden
Testmodelle dargestellt, die für die Analyse Faktoren genannt. In unserem Kontext reprä-
binärer Items konzipiert wurden. Diese Mo- sentieren Faktoren die Ausprägung von Perso-
delle werden zur Item-Response-Theorie ge- nen auf bestimmten Merkmalen.
zählt, einem neueren Ansatz, der besonders
durch die Pionierarbeiten von Rasch (1960) Faktorenanalytische Techniken werden in vie-
und Birnbaum (in Lord & Novick, 1968) ge- len Bereichen der Psychologie eingesetzt, um
prägt wurde. Variablen statistisch zu klassifizieren. Dabei
sollen Gruppen von Variablen identifiziert wer-
Die Entwicklung der Faktorentheorie und den, innerhalb derer hohe und zwischen denen
der Item-Response-Theorie wurde lange Zeit niedrige Zusammenhänge bestehen. Durch ge-
mehr oder weniger isoliert voneinander vor- eignete Kombinationen der Variablen, die zur
angetrieben. Manchmal wurden sie als kon- selben Gruppe gehören, lässt sich dann der mit
kurrierende Modelle des Testverhaltens auf- den Variablen erfasste Merkmalsbereich ein-
gefasst. In neuerer Zeit setzt sich jedoch die facher darstellen. Anstatt ein Profil aus, sagen
Sichtweise durch, dass beide zusammengehö- wir, zwanzig korrelierten Variablen zu betrach-
ren. Faktoren-Modelle sind angemessen, so- ten, könnte es sich z. B. als hinreichend erwei-
lange eine im Wesentlichen lineare Beziehung sen, Personen durch drei oder vier kombinierte
zwischen dem zu messenden Merkmal und Variablen zu charakterisieren, welche die mit
den Itemantworten vorausgesetzt werden kann. den Ausgangsvariablen erfassten Unterschiede
Item-Response-Modelle sind dagegen ange- gut wiedergeben.
bracht, wenn diese vereinfachende Vorausset-
zung nicht gegeben ist, also nichtlineare Zu- Im Rahmen der Item- und Testanalyse ist Va-
sammenhänge zwischen Merkmal und Ant- riablenklassifikation nur ein Ziel, das mit Fak-
worten angenommen werden müssen.1 torenanalysen verfolgt wird. Tatsächlich steht
dieses Ziel nicht immer im Vordergrund. Ge-
nerell geht es darum, ein Modell des Zustande-
kommens von Antworten zu formulieren. Mit
4.1 Faktorenanalytische Modelle
Hilfe eines solchen Modells kann z. B. geklärt
werden, ob die Items eines Tests eine homo-
Faktorenanalysen sind multivariate statistische gene Gruppe bilden, wie gut einzelne Items
Verfahren, mit denen Zusammenhangsstruk- den Faktor reflektieren und wie genau der Test
1 Diese Grenzen zwischen beiden Modellfamilien ver- misst.

schwimmen. Inzwischen gibt es z. B. nichtlineare Va-


rianten der Faktorenanalyse, die mit bestimmten Item- In diesem Abschnitt des Kapitels stellen wir
Response-Modellen identisch sind. zunächst Begriffe dar, die für das Verständnis

87
4 Modelle psychologischen Testens

der Faktorenanalyse wichtig sind. Anschlie- Lambda) und λ j2 (Gewicht des zweiten Fak-
ßend beschreiben wir die Prüfung der Homo- tors). Der Einfachheit halber wählen wir für
genität und die Bestimmung der Reliabilität unser Beispiel die Gewichte so, dass die ma-
im Rahmen des Ein-Faktor-Modells. Im drit- nifesten Variablen X1 und X2 nur von Faktor 1
ten Unterabschnitt skizzieren wir basale An- abhängen – wir setzen also die Gewichte für
wendungen mehrfaktorieller Modelle bei der Faktor 2 hier auf Null –, die Variablen X3 und
Testkonstruktion und -analyse. X4 dagegen nur von Faktor 2 – hier werden die
beiden Gewichte für Faktor 1 auf Null gesetzt.
Für die beiden ersten Variablen wählen wir
4.1.1 Grundlegende Begriffe (willkürlich) Gewichte von 0.8 und 0.9, für
die dritte und vierte Variable 0.4 und 0.7. Für
Faktoren sind latente Variablen, die ein be- X5 und X6 produzieren wir dagegen Abhän-
stimmtes Zusammenhangsmuster unter mani- gigkeiten von beiden Faktoren: Wir wählen
festen Variablen stiften. Aus dem Zusammen- Gewichte von λ51 = 0.6 und λ52 = 0.2 sowie
hangsmuster, den Korrelationen oder Kovari- λ61 = 0.3 und λ62 = 0.7. Die Variable X5 wird
anzen der manifesten Variablen, sollen (a) die also primär, aber nicht ausschließlich, durch
Zahl der Faktoren und (b) deren Bedeutung für den ersten Faktor, X6 dagegen primär durch
die einzelnen Variablen rekonstruiert werden. den zweiten Faktor bestimmt. Die Gewichte
spielen in Faktorenmodellen eine zentrale Rol-
Für das Verständnis der Faktorenanalyse ist
le und werden daher mit einem eigenen Na-
hilfreich, zunächst ein Szenario zu betrach-
men belegt: Sie heißen Faktorladungen oder
ten, in dem wir Faktoren und manifeste Varia-
einfach Ladungen. Auf deren Bedeutung ge-
blen selbst konstruieren. Wir bilden als erstes
hen wir gleich noch genauer ein.
zwei Faktoren F1 und F2 , indem wir mit einem
Zufallsgenerator zwei große Zahlenreihen er- Bislang sind die sechs manifesten Variablen
zeugen, sagen wir jeweils 500 für jeden Fak- durch die beiden Faktoren genau festgelegt. Im
tor. Die Ziehung von Zufallszahlen repräsen- dritten Schritt heben wir dies auf, indem wir
tiert hier die Erhebung einer Personenstichpro- auf jeden der Werte eine Zufallszahl addieren.
be. Die Zahlenpaare stellen die Ausprägungen Die jeweils 500 Zufallszahlen pro Variable
zweier latenter Merkmale bei den Personen notieren wir mit E j . Um die Zufallseinflüsse
dar, deren Faktorwerte. Aufgrund ihrer Kon- nicht allzu groß werden zu lassen, standardisie-
struktion durch Zufallsprozesse sind F1 und ren wir diese Variablen und multiplizieren sie
F2 in der Population unkorreliert. Wenn wir mit kleinen Werten. Für unser Beispiel wählen
viele Zahlen generieren, gilt dies mit guter Nä-wir Multiplikatoren von 0.4 für die Variablen
herung auch für die Stichprobe. Die beiden X1 bis X3 und 0.5 für die Variablen X4 bis X6 .
Faktoren werden standardisiert, so dass sich Die Multiplikatoren legen die Standardabwei-
jeweils Mittelwerte von Null und Streuungen chungen der E-Variablen fest, ihre Varianzen
von Eins ergeben. betragen entsprechend 0.16 bzw. 0.25. Kon-
struktionsbedingt sind die E-Variablen weder
Im zweiten Schritt simulieren wir sechs ma-
untereinander noch mit den Faktoren korre-
nifeste Variablen X1 bis X6 . Diese Variablen
liert. Die manifesten Variablen setzen sich nun
bilden wir so, dass sich unterschiedlich starke
wie in I Abb. 4.1 gezeigt zusammen.
Zusammenhänge mit den Faktoren ergeben.
Hierfür multiplizieren wir die Faktorwerte je- Die sechs Variablen haben Anteile, die sie
weils mit variablenspezifischen Gewichten λ j1 mit mindestens einer anderen Variable teilen
(Gewicht des ersten Faktors für die manifes- – also gemeinsame Anteile, die hier durch die
te Variable j; λ ist der griechische Buchstabe Teilausdrücke λ F repräsentiert werden – und

88
4.1 Faktorenanalytische Modelle

X1 = 0.8 · F1 + 0 · F2 + E1 mit Var(E1 ) = 0.16


X2 = 0.9 · F1 + 0 · F2 + E2 mit Var(E2 ) = 0.16
X3 = 0 · F1 + 0.4 · F2 + E3 mit Var(E3 ) = 0.16
Abb. 4.1 X4 = 0 · F1 + 0.7 · F2 + E4 mit Var(E4 ) = 0.25
Beispiel für ein X5 = 0.6 · F1 + 0.2 · F2 + E5 mit Var(E5 ) = 0.25
Faktorenmodell. X6 = 0.3 · F1 + 0.7 · F2 + E6 mit Var(E6 ) = 0.25

spezifische Anteile, die durch die aufaddier- Faktoren, wie in unserem Beispiel, gilt also
ten Zufallszahlen E dargestellt werden. Die
Teilausdrücke 0 · F könnte man natürlich her- Cov(X j , Xk ) = λ j1 λk1 + λ j2 λk2 , (4.1)
auslassen, sie illustrieren jedoch die Struktur so dass wir für die Kovarianz von X5 und X6
unserer Konstruktion. Da die spezifischen An- z. B. 0.6 · 0.3 + 0.2 · 0.7 = 0.32 erhalten.
teile weder untereinander noch mit den Fakto-
ren korreliert sind, können die Zusammenhän- Die Varianz einer Variablen wird bestimmt, in-
ge unter den manifesten Variablen nur auf die dem man die Quadrate ihrer Ladungen auf al-
gemeinsamen Anteile zurückgehen. Ihre Vari- len Faktoren summiert und hierauf die Varianz
anzen hängen dagegen von gemeinsamen und ihrer spezifischen Anteile addiert. In unserem
spezifischen Anteilen ab. Dies sind die bei- Fall berechnet man also:
den essenziellen Punkte der Faktorenanalyse. 2 2
Var(X j ) = λ j1 + λ j2 + Var(E j ). (4.2)
Tatsächlich definieren die sechs Gleichungen
zusammen ein Zwei-Faktoren-Modell der ma- Für die Variable X5 ergibt sich z. B. eine Va-
nifesten Variablen. rianz von 0.62 + 0.22 + 0.25
√ = 0.65 und eine
Standardabweichung von 0.65 = 0.806, für
Unter den genannten Bedingungen (Standar- X ergibt sich eine Varianz von 0.32 + 0.72 +
6
disierung der Faktoren, Unkorreliertheit der 0.25 = 0.83 und eine Standardabweichung
Faktoren, Unkorreliertheit der Zufallseinflüs- von √0.83 = 0.911.
se, Unkorreliertheit der Zufallseinflüsse mit
den gemeinsamen Faktoren) lassen sich Ko- Aus den Kovarianzen und Standardabweichun-
varianzen, Varianzen und damit auch die Kor- gen lassen sich nun auch die Korrelationen
relationen unter den X-Variablen in der Po- berechnen, in dem man die Kovarianz durch
pulation in recht einfacher Weise bestimmen, das Produkt der Standardabweichungen teilt.
wie sich algebraisch zeigen lässt (siehe z. B. Für die Korrelationen zwischen X5 und X6 er-
McDonald, 1999). halten wir z. B.
Cov(X5 , X6 )
Die Kovarianz zwischen zwei Variablen X j Kor(X5 , X6 ) =
Std(X5 ) · Std(X6 )
und Xk kann bestimmt werden, indem man die
Ladungen der diesen Variablen gemeinsamen 0.32
=
Faktoren multipliziert. Für die Kovarianz von 0.806 · 0.911
X1 und X2 ergibt sich z. B. 0.8 · 0.9 = 0.72, da = 0.44.
diese Variablen nur vom ersten Faktor abhän-
gen, für die Kovarianz zwischen X1 und X3 Wir können nun alle Kovarianzen bzw. Kor-
ergibt sich 0, da keine gemeinsame Einfluss- relationen zwischen den Variablen berech-
größe vorliegt. Generell berechnet man die nen und in einer Tabelle zusammenfassen. In
Ladungsprodukte für jeden Faktor und sum- I Tab. 4.1 haben wir dies für die Korrelatio-
miert die Produkte auf. Für zwei unabhängige nen getan. Diese Korrelationen repräsentieren

89
4 Modelle psychologischen Testens

Tab. 4.1
X1 X2 X3 X4 X5 aj1 aj2
Korrelationen und korrelative
X1 1 .89 0
Ladungen in der Population
X2 .82 1 .91 0
X3 0 0 1 0 .70
X4 0 0 .58 1 0 .81
X5 .67 .68 .18 .20 1 .74 .25
X6 .29 .30 .54 .63 .44 .33 .77

die Zusammenhänge in der Population, wie X-Variablen an. Eine standardisierte Ladung
sie sich durch unsere Konstruktion ergeben. von 0.5 besagt also, dass ein um eine Einheit
erhöhter Faktorwert sich in der betreffenden
Wie gerade erwähnt, heißen die Gewichte (λ ),
manifesten Variablen in einer Erhöhung um
mit deren Hilfe wir die Kovarianzen und Kor-
0.5 Standardabweichungen bemerkbar macht.
relationen berechnet haben, Faktorladungen.
Standardisierte Ladungen notieren wir im Fol-
Ladungen geben an, wie bedeutsam der ent-
genden mit a. I Tab. 4.1 enthält die standar-
sprechende Faktor für das Zustandekommen
disierten Ladungen für unser Beispiel in den
der jeweiligen Variable ist. Technisch handelt
beiden letzten Spalten.
es sich um ein Regressionsgewicht: Eine um
eine Einheit (Standardabweichung) erhöhter Korrelationen sind spezielle Kovarianzen,
Faktorwert schlägt sich in der Variablen X j nämlich Kovarianzen standardisierter Varia-
durchschnittlich in einer Erhöhung von λ j Ein- blen. Betrachtet man standardisierte manifeste
heiten (in deren Skala) nieder. Neben diesen Variablen Z j und Zk , kann man die Gleichung
sog. unstandardisierten Ladungen werden bei 4.1 so schreiben:
einer Faktorenanalyse auch standardisierte La- Cov(Z j , Zk ) = Kor(X j , Xk )
dungen betrachtet. (4.3)
= a j1 ak1 + a j2 ak2 .
Standardisierte Ladungen erhält man, indem
Aus den korrelativen Ladungen lassen sich
man die unstandardisierten Ladungen durch
die Interkorrelationen der X-Variablen also di-
die Standardabweichung der jeweiligen Varia-
rekt berechnen. Für den spezifischen Anteil
ble teilt. (Die Faktoren hatten wir bereits stan-
bei standardisierten Variablen ergibt sich dann
dardisiert, so dass deren Streuung hier nicht
nach 4.2:
berücksichtigt werden muss.) Wir erhalten als
standardisierte Ladung der Variable X5 auf 1 = a2j1 + a2j2 + Var(EZ j ),
dem ersten Faktor z. B. Var(E ) = 1 − (a2 + a2 ). (4.4)
Zj j1 j2
0.6/0.806 = .74. Wir haben die spezifischen Anteile hier mit
Z indiziert, um deutlich zu machen, dass sie
Standardisierte Ladungen sind für die Bewer-
sich auf standardisierte X-Variablen beziehen
tung der Bedeutung eines Faktors für eine
und daher nicht mit den spezifischen Antei-
Variable sehr nützlich, da sie (bei Modellen
len der unstandardisierten Variablen identisch
mit unabhängigen Faktoren wie in unserem
sind. Die spezifischen Anteile standardisierter
Beispiel) Korrelationen zwischen dem Faktor
Variablen lassen sich aus denen für unstandar-
und der Variablen darstellen. Standardisierte
disierte durch Division mit der Varianz der
Ladungen werden daher auch als korrelati-
Variablen gewinnen,
ve Ladungen bezeichnet. Sie geben den Ef-
fekt des Faktors in Standardabweichungen der Var(EZ j ) = Var(E j )/Var(X j ).

90
4.1 Faktorenanalytische Modelle

Tab. 4.2 Empirische Korrelationen sowie modellimplizierte Korrelationen (in Klammern) und
korrelative Ladungen für ein Ein-Faktor-Modell

X1 X2 X3 X4 X5 aj1
X1 0.89
X2 .81 (.80) 0.91
X3 .03 (.09) .05 (.09) 0.10
X4 −.04 (.03) −.03 (.03) .56 (.00) 0.04
X5 .66 (.67) .68 (.69) .21 (.08) .19 (.03) 0.76
X6 .32 (.36) .34 (.37) .55 (.04) .60 (.02) .47 (.31) 0.41

Sie geben den Anteil der Varianz einer Varia- gekehrt formuliert – wie gut das Modell auf
blen an, die nicht durch Faktoren aufgeklärt die Daten passt. Bei einem perfekt passenden
wird. Modell wären modellimplizierte und empiri-
sche Kovarianzen identisch, alle Diskrepanzen
In unserem Beispiel hatten wir die Ladungen
also Null.
mehr oder weniger willkürlich gewählt und
daraus (unter Zugrundelegung unseres Wis-
Praktisch beginnt man mit einem Ein-Faktor-
sens über das Zustandekommen der Variablen)
Modell: Man extrahiert, wie man auch sagt,
die Korrelationsmatrix berechnet. Die Fakto-
einen Faktor aus den Zusammenhängen der
renanalyse ist die umgekehrte Prozedur: Hier
Variablen. Ist die Passung dieses Modells nicht
ist eine Kovarianzmatrix oder eine Korrelati-
zufriedenstellend, extrahiert man einen zwei-
onsmatrix gegeben, aus der – wiederum un-
ten Faktor, dann einen dritten usw., bis die
ter Zugrundelegung bestimmter Annahmen –
Passung gut ausfällt. Die Festlegung der Zahl
Faktorladungen, spezifische Anteile und eini-
zu bildender Faktoren ist – neben der Angabe
ge weitere Kennwerte rekonstruiert werden
der zu verwendenden Daten- oder Kovarianz-
sollen. Die zentralen Größen, die rekonstru-
matrix – die wesentliche Spezifikation bei der
iert werden sollen, sind dabei die Ladungen.
Durchführung einer Faktorenanalyse. Je mehr
Mit ihrer Hilfe können weitere interessierende
Faktoren ein Modell enthält, desto geringer
Kennwerte berechnet werden.
wird die Diskrepanz zwischen Modell und Em-
Faktorenanalysen sind Suchprozeduren: Ge- pirie. Die Kehrseite der Diskrepanzreduktion
sucht wird nach Ladungen, aus denen sich vor- ist eine höhere Komplexität des Modells.
gegebene (im Allgemeinen: empirisch ermit-
telte) Kovarianzen (bzw. Korrelationen) gut Zu Demonstrationszwecken bilden wir nun
reproduzieren lassen. Gut reproduzieren heißt zunächst unsere „empirischen“ Daten, indem
dabei, dass die Diskrepanzen zwischen den wir, wie oben besprochen, für jede X-Variable
aus den Ladungen berechneten Kovarianzen – 500 Werte konstruieren. In einer realen An-
den modellimplizierten Kovarianzen – und den wendung könnten die Variablen X1 bis X6 Ant-
empirisch ermittelten Kovarianzen minimal worten von 500 Personen auf die sechs Items
werden. Den Ladungssatz, der diesem Kriteri- eines kleinen Tests darstellen. Wir berechnen
um genügt – minimale Diskrepanz zwischen nun die Korrelationen zwischen den Variablen.
Modell und Empirie – präsentiert die Fakto- (Wir verwenden hier Korrelationen, weil sie
renanalyse uns als wesentliches Ergebnis. Dar- für eine Betrachtung von Diskrepanzen an-
über hinaus erhalten wir auch Information dar- schaulicher sind als Kovarianzen.) Diese Kor-
über, wie hoch die Diskrepanz ist oder – um- relationen sind in I Tab. 4.2 aufgeführt. Sie

91
4 Modelle psychologischen Testens

entsprechen den berechneten Populationsver- Tab. 4.3 Resultate für das


hältnissen, die wir bereits kennen, recht gut, Zwei-Faktoren-Modell
aber nicht genau (I Tab. 4.1). Die Abwei-
Variable aj1 aj2 Var(EZj )
chungen gehen darauf zurück, dass wir nur
eine Stichprobe aus der Population ziehen kön- X1 0.893 −0.002 0.202
nen (sog. Stichprobenfehler). X2 0.910 0.016 0.172
X3 0.035 0.700 0.509
Wir extrahieren aus der empirischen Matrix zu- X4 −0.046 0.809 0.343
nächst einmal nur einen Faktor – gewisserma- X5 0.742 0.274 0.374
ßen wider besseres Wissen – und erhalten als
X6 0.357 0.763 0.290
Resultat der Analyse einen Ladungssatz. Der
Ladungssatz (korrelative Ladungen) ist eben- Eigenwert 2.308 1.802
falls in I Tab. 4.2 aufgeführt. Aus den korre- Varianz 0.385 0.300
lativen Ladungen berechnen wir die modellim-
plizierten Korrelationen nach Gleichung (4.3).
noch Werte nahe Null auf. Das Zwei-Faktoren-
Da nur ein Faktor vorhanden ist, genügt es
Modell passt also nahezu perfekt auf die Da-
hier, die korrelativen Ladungen jeweils zweier
ten, so dass wir keinen weiteren Faktor mehr
Variablen zu multiplizieren. Für einen Faktor
extrahieren müssen.
und korrelative Ladungen gilt also
Die Ergebnisse einer Faktorenanalyse werden
in der Ladungsmatrix festgehalten, welche die
Kor(X j , Xk ) = a j · ak .
Faktorladungen der manifesten Variablen auf
den extrahierten Faktoren wiedergibt. Mit Hil-
Die modellimplizierten Korrelationen sind in fe der Ladungsmatrix lassen sich weitere sum-
I Tab. 4.2 in Klammern neben den empiri- marische Kennwerte berechnen, die bei der
schen aufgeführt. Wie ersichtlich, lassen sich Interpretation der Ergebnisse einer Faktoren-
in unserem Beispiel mit einem Faktor nur die analyse hilfreich sind und deshalb häufig mit-
Korrelationen, in die die Variablen X1 und X2 angegeben werden.
eingehen, gut reproduzieren, die anderen Kor- 2
relationen dagegen nicht. Für eine gute Repro- Die Kommunalität (abgekürzt h ) ist der An-
duktion gilt als Faustregel, dass alle korrelati- teil der Varianz einer Variablen, die durch alle
ven Diskrepanzen kleiner als 0.1 sein sollten. extrahierten Faktoren erklärt wird. Sie wird be-
Dies ist für die Korrelationen zwischen den rechnet, indem man die korrelativen Ladungen
Variablen X3 bis X6 bei uns nicht der Fall. Ins- der jeweiligen Variable quadriert und aufsum-
gesamt zeigt das Ein-Faktor-Modell also keine miert. Für X6 ergibt sich z. B. eine Kommuna-
2 + 0.7632 = 0.71. Es werden
gute Passung. lität von 0.357
also 71 % der Varianz von X6 durch die bei-
den Faktoren aufgeklärt. (Die einfache Sum-
Das ändert sich, wenn wir einen zweiten Fak-
mierung ist möglich, wenn die Faktoren unab-
tor bilden. Die korrelativen Ladungen für das
hängig sind.) Zwischen Kommunalitäten und
Zwei-Faktoren-Modell sind in I Tab. 4.3 zu-
spezifischen Anteilen besteht die Beziehung
sammengestellt. Wie man durch Vergleich mit 2
h = 1 − Var(EZ j ).
I Tab. 4.1 feststellen kann, entsprechen diese
Ladungen sehr gut den korrelativen Ladun- Summiert man die Quadrate aller korrelati-
gen in der Population. Die reproduzierten Kor- ven Ladungen, die zu einem Faktor gehören,
relationen sind daher praktisch identisch mit erhält man den Eigenwert des Faktors. Der
den empirischen, die Diskrepanzen weisen nur Eigenwert beschreibt die durch einen Faktor

92
4.1 Faktorenanalytische Modelle

aufgeklärte Varianz der manifesten Variablen. Faktorenanalysen können weitgehend datenge-


Den Anteil der aufgeklärten Varianz erhält leitet oder hypothesentestend eingesetzt wer-
man, indem man den Eigenwert durch die den. Im ersten Fall spricht man von einem
Zahl der manifesten Variablen teilt. Für den explorativen, im zweiten von einem konfirma-
ersten Faktor ergibt sich in unserem Beispiel torischen Vorgehen. In explorativen Faktoren-
2.308/6 = 0.385. Der Faktor klärt also ca. analysen überlässt man die Bestimmung der
39 % der Varianz aller Variablen auf. Der zwei- Anzahl von Faktoren sowie die ihrer Zusam-
te Faktor erklärt bei uns weitere 30 % der Va- menhänge allein statistischen Techniken und
rianz, so dass durch beide Faktoren insgesamt Kriterien. Abgesehen von einigen technischen
ca. 69 % der Varianz erklärt werden. Eigenwer- Annahmen (siehe S. 107), welche die Faktor-
te zeigen mithin die Bedeutung der Faktoren lösung und deren Interpretierbarkeit sichern
für die Zusammenhänge unter den Variablen sollen, wird bei diesem Vorgehen gewisser-
an. maßen nur die Minimalhypothese investiert,
dass sich die Variablen überhaupt statistisch
Die Ladungen und die aus ihnen abgeleiteten
gruppieren lassen. In der gerade durchgeführ-
Kennwerte bilden die Grundlage für die inhalt-
ten Beispielanalyse sind wir explorativ vorge-
liche Interpretation der Faktoren. Dabei zieht
gangen. Dies ist daran erkennbar, dass wir (a)
man Variablen heran, die nur auf einem Fak-
Faktoren sukzessive extrahiert haben, bis sich
tor betragsmäßig hohe Ladungen aufweisen,
eine gute Passung des Modells ergab und (b)
auf den anderen Faktoren dagegen betragsmä-
alle Faktorladungen schätzen ließen.
ßig niedrige. Variablen, die diesen Bedingun-
gen genügen, werden als Markiervariablen In konfirmatorischen Analysen werden dage-
des Faktors bezeichnet. Für die Beurteilung gen Modellannahmen in einem strikteren Sin-
der Ladungen kann man die gleichen Orien- ne geprüft. Diese Annahmen können die Zahl
tierungswerte heranziehen wie für die Trenn- der Faktoren, deren Zusammenhänge oder die
schärfen (vgl. S. 52): Ladungen, deren Betrag Faktorladungen betreffen. In der Praxis wer-
kleiner als .30 ist, werden als niedrig bzw. ver- den mit konfirmatorischen Faktorenanalysen
nachlässigbar angesehen, ab .40 kann man von meist drei Arten von Hypothesen geprüft, näm-
einer moderaten, ab .60 von einer hohen La- lich erstens Hypothesen über die Anzahl von
dung sprechen. In unserem Beispiel wird der Faktoren, die für die Erklärung der Zusam-
erste Faktor durch die Variablen X1 , X2 und menhänge unter den Variablen notwendig sind,
X5 markiert, der zweite durch die Variablen zweitens Hypothesen über Zusammenhänge
X3 und X4 . Die Variable X6 ist – diesen Krite- unter Faktoren und drittens Hypothesen über
rien zufolge – keine Markiervariable, da sie Zusammenhänge zwischen Faktoren und ma-
auf beiden Faktoren Ladungen größer als .30 nifesten Variablen. Beispiele für solche Hypo-
zeigt. thesen sind: Die Zusammenhänge unter den
Variablen lassen sich durch zwei Faktoren dar-
Um die Faktoren zu interpretieren und ggf.
stellen; die beiden Faktoren sind nicht korre-
mit einer griffigen Bezeichnung zu belegen,
liert; die manifeste Variable X1 korreliert nur
überlegt man nun, was Variablen, die zu ei-
mit dem ersten Faktor, aber nicht mit dem
nem Faktor gehören, gemeinsam haben und
zweiten; X1 korreliert mit dem ersten Faktor
was Variablen, die zu verschiedenen Fakto-
genauso hoch wie die Variable X2 .
ren gehören, voneinander absetzt. Im Rahmen
der Testanalyse stützt man sich dabei auf die Die Unterscheidung explorativ vs. konfirma-
Iteminhalte. Gesucht wird also nach der inhalt- torisch betrifft nicht die hinter dem Verfahren
lichen Gemeinsamkeit der Markiervariablen stehende Mathematik – die ist in beiden Fäl-
(hier: Markieritems) eines Faktors. len die gleiche –, sondern vielmehr die Ver-

93
4 Modelle psychologischen Testens

wendung des Verfahrens. In einigen Schritten auch statistisch bewähren. Die Bewährungs-
der Testkonstruktion wird man eher explorativ, probe besteht in der Passung des Ein-Faktor-
in anderen konfirmatorisch vorgehen. Explo- Modells. Tests, die diese Bewährungsprobe
rativ werden Faktorenanalysen zum Beispiel bestehen, werden als faktoriell homogen oder
eingesetzt, um aus einer anfänglichen Item- faktoriell einfach bezeichnet: Die Zusammen-
menge diejenigen auszuwählen, die das zu hänge unter den Items des Tests lassen sich
messende Merkmal am besten repräsentieren. dann auf einen Faktor zurückführen. (Andern-
Mittels konfirmatorischer Analysen kann an- falls spricht man von einem faktoriell kom-
schließend an einem neuen Datensatz geprüft plexen Test.) Wurde faktorielle Homogenität
werden, inwieweit sich die Zusammenstellung nachgewiesen, kann man auf der Basis des
bewährt. Die Überprüfung eines zunächst ex- Modells die Güte einzelner Items und die Re-
plorativ erstellten Modells anhand einer un- liabilität des Tests bestimmen.
abhängigen Stichprobe wird als Kreuzvalidie-
rung bezeichnet.
Annahmen

4.1.2 Ein-Faktor-Modell Bezeichnen wir die Itemvariablen mit


X1 , X2 , . . . Xm und den ihnen zugrunde liegen-
Nachdem wir zentrale Begriffe der Fakto- den gemeinsamen Faktor mit F, so können
renanalyse dargestellt haben, diskutieren wir wir das Modell folgendermaßen notieren:
nun die Anwendung der Faktorenanalyse zur
Xj = µ j + λ jF + E j. (4.5)
Untersuchung von Test- und Itemeigenschaf-
ten. Wir beschäftigen uns dabei zunächst mit Hierbei handelt es sich um eine abgekürzte
dem einfachsten Modell der Familie, dem Schreibweise für ein Gleichungssystem, dass
Ein-Faktor-Modell. Als Ausgangsvariablen be- m (Anzahl der Items) Gleichungen umfasst
trachten wir hier quantitative Items. (für jedes Item eine Gleichung). Ausgeschrie-
Mit Hilfe des Ein-Faktor-Modells lassen sich ben würden wir für einen Test mit vier Items
die folgenden, für Test- und Itemanalysen zen- vier Gleichungen erhalten, nämlich
tralen, Fragen beantworten:
X1 = µ1 + λ1 F + E1 ,
1. Reflektieren die Items (oder Testteile) das X2 = µ2 + λ2 F + E2 ,
gleiche Merkmal, bilden sie eine (statis-
X3 = µ3 + λ3 F + E3 ,
tisch) homogene Gruppe?
2. Welche Items repräsentieren die mit dem X4 = µ4 + λ4 F + E4 .
Test gemessene Eigenschaft gut, welche we-
Die interessierende Personeigenschaft wird in
niger gut?
den Gleichungen durch F vertreten. Es handelt
3. Wie reliabel ist der Test?
sich um die Ausprägung der Person auf dem
Wie in Kapitel 3 dargestellt wurde, hat Ho- in Frage stehenden (durch die Items indizier-
mogenität sowohl inhaltliche als auch statis- ten) Merkmal, den gemeinsamen Faktor (engl.
tische Aspekte. In konkreten Anwendungen common factor). Der Ausdruck „gemeinsam“
stellt man die Items eines Tests zunächst nach besagt dabei, dass der Einfluss des Faktors von
theoretischen und inhaltlichen Gesichtspunk- mehreren Variablen (Items) geteilt wird. Im
ten zusammen. Faktorenanalysen werden an- Ein-Faktor-Modell ist es ein Faktor, der allen
schließend zur Prüfung der Frage eingesetzt, Items gemeinsam ist und die Korrelationen un-
inwieweit sich die inhaltlichen Überlegungen ter den Items stiftet. Bei der Wahl der Skala für

94
4.1 Faktorenanalytische Modelle

F ist man frei, so dass der Einfachheit halber voneinander unabhängig, d. h.


eine Standardskala (Mittelwert 0, Standardab-
weichung 1) verwendet wird. Da sich in den Cov(E j , Ek ) = 0 für j 6= k,
Itemantworten nur ein Merkmal niederschla-
gen soll, muss der Faktor hier nicht indiziert und nicht mit dem gemeinsamen Faktor korre-
werden. liert,
Cov(F, E j ) = 0.
µ j und λ j stehen für Eigenschaften der Items.
Die µ-Werte repräsentieren dabei die Itemmit- Die Modellgleichung zusammen mit beiden
telwerte bzw. -schwierigkeiten. (Die konnten Bedingungen definiert mathematisch, was un-
wir oben auslassen, weil sie konstruktionsbe- ter einem Faktor verstanden wird.
dingt Null waren.) Die λ -Werte stellen die Es ist an dieser Stelle sinnvoll, die Gemein-
bereits vorgestellten Faktorladungen dar. In samkeiten und Unterschiede zwischen dem in
unserem Kontext liefern die Faktorladungen Kapitel 3 behandelten klassischen Modell und
ein Maß dafür, wie gut einzelne Items zwi- dem Faktorenmodell hervorzuheben. Wenden
schen Personen mit hohen und niedrigen Aus- wir das klassische Modell paralleler Tests auf
prägungen auf dem Faktor trennen oder dis- die einzelnen Items eines Tests an, erhalten
kriminieren, also Kennwerte der Trennschärfe wir als Modellgleichung
der Items (I Kap. 3.3.3).
Für die Interpretation der Ladungshöhe ist es Xj = T + E j, (4.6)
hilfreich, neben den (unstandardisierten) La-
wobei als Zusatzbedingungen Unkorreliertheit
dungen auch standardisierte oder korrelative
der wahren Werte (T ) und Fehler sowie Un-
Ladungen zu betrachten. Diese würde man di-
korreliertheit der Fehler untereinander ange-
rekt erhalten, wenn man anstelle der Itemroh-
nommen wird – wie im Faktorenmodell. Ge-
werte die Faktorenanalyse mit standardisierten
genüber dem Modell paralleler Items muss
Items durchführen würde. In Modellen mit ei-
man im Faktorenmodell weniger restriktive
nem Faktor sowie in Modellen mit mehreren
weitere Annahmen machen. In den in Kapitel
unabhängigen Faktoren sind standardisierte
3 dargestellten Ableitungen wurden Gleich-
Ladungen identisch mit der Korrelation zwi-
heit der wahren Werte und der Fehlervarianzen
schen Item und Faktor, wie wir bereits gesehen
der Messungen vorausgesetzt. Dies impliziert,
hatten.
dass die Messungen gleiche Mittelwerte und
Bei E j handelt es sich um Restwerte (Residu- Streuungen aufweisen und die wahren Wer-
en), die Einflüsse auf die Itemantworten re- te gleich gut reflektieren. Diese sehr strengen
präsentieren, die nicht auf den gemeinsamen Voraussetzungen werden im Faktorenmodell
Faktor zurückgehen und daher jeweils nurein nicht gemacht. Das Modell lässt es zu, dass
Item betreffen. Im Kontext der Testanalyse Items unterschiedliche Mittelwerte und Streu-
stellen diese Einflüsse Fehler dar, im gleichen ungen aufweisen. Darüber hinaus wird auch
Sinne wie in der Klassischen Testtheorie. Hier- zugelassen, dass Items unterschiedlich gute In-
her rührt die Abkürzung E (für error). dikatoren des Faktors sind. Die Flexibilität des
Faktorenmodells rührt daher, dass hier Mittel-
Die Gleichungen spezifizieren Regressionen
werte (Schwierigkeiten) und Ladungen (Trenn-
der Items auf den Faktor, wobei µ das Inter-
schärfen) als zusätzliche Parameter vertreten
zept, λ das Regressionsgewicht und E das Re-
sind, die von Item zu Item variieren können.
siduum ist. Wie in der im vorhergehenden Ka-
pitel dargestellten Fehlertheorie sind im Fak- Wie wir bereits besprochen hatten, ist es bei
torenmodell diese spezifischen Komponenten der Testkonstruktion meist zweckmäßig, Items

95
4 Modelle psychologischen Testens

unterschiedlicher Schwierigkeit aufzunehmen, den Modellbedingungen ableiten, dass zwei


um eine breite Differenzierung der Proban- beliebige Kovarianzen zwischen Items iden-
den durch die Testvariable sicherzustellen tisch mit dem Produkt der zugehörigen Faktor-
(I Kap. 3.3.1). Aufgrund der bei Items ge- ladungen sein müssen,
gebenen Abhängigkeit zwischen Schwierig-
Cov(X j , Xk ) = λ j λk , (4.7)
keit und Streuung werden damit aber auch
die Streuungen zwischen den Items differie- und dass sich die Varianz der Items aus der
ren. Darüber hinaus stellen in praktischen An- Summe der quadrierten Faktorladung eines
wendungen nicht alle Items gleich gute In- Items sowie seiner spezifischen Varianz ergibt,
dikatoren des zu erfassenden Merkmals dar.
Einige Items werden etwas besser sein, ande- Var(X j ) = λ j2 + Var(E j ). (4.8)
re schlechter. Während das Modell paralleler Dies sind spezielle Versionen der Formeln
Messungen für ganze Tests zutreffen kann, ist (4.1) und (4.2), die für das Ein-Faktor-Modell
es für Items eines Tests häufig zu restriktiv. gelten. Wie bereits beschrieben wurde, impli-
Ein Faktorenmodell ist hier besser geeignet. zieren diese Gleichungen ein bestimmtes Mus-
Die Anwendung der Faktorenanalyse im Rah- ter aus Varianzen und Kovarianzen der Items,
men der Testkonstruktion involviert zwei das genutzt werden kann, um die Passung des
Schritte. Im ersten Schritt wird geprüft, ob Modells zu bewerten.
die Kovarianzen der Items im Wesentlichen Für die Durchführung einer Faktorenanalyse
ein Merkmal reflektieren. Dies geschieht, in- werden mindestens drei Items (bzw. Variablen)
dem die Passungsgüte des Ein-Faktor-Modells benötigt. Dieser „minimale Fall“ ist insofern
getestet wird. Sofern die Passung akzeptabel speziell, als sich hier die Faktorladungen und
ist, kann man in einem zweiten Schritt die Re- damit auch die Fehlervarianzen direkt berech-
liabilität des Tests aus den Modellparametern nen lassen, also nicht gesucht bzw. geschätzt
– Ladungen und Fehlervarianzen – berechnen. werden müssen: Hier liegen drei (bekannte)
Wir betrachten im Folgenden zunächst die bei- Kovarianzen zwischen den Items vor, aus de-
den Schritte in allgemeiner Form. Anschlie- nen sich nach Gleichung (4.7) die drei (un-
ßend illustrieren wir das Vorgehen an einem bekannten) Faktorladungen direkt berechnen
konkreten Beispiel. lassen. Sobald die Ladungen bekannt sind, las-
sen sich nach Gleichung (4.8) auch die Feh-
lervarianzen bestimmen. Die Passung eines
Modelltest
Ein-Faktor-Modells, das nur drei manifeste
Variablen beinhaltet, ist damit immer perfekt.
Wir wollen prüfen, ob die Items eines Tests
Umgekehrt bedeutet dies allerdings auch, dass
faktoriell homogen sind. Für die Prüfung die-
sich hier keine empirisch prüfbaren Folgerun-
ser Hypothese sind deren Implikationen für
gen ergeben. Die Passung des Modells ist trivi-
die Kovarianzen und Varianzen der Items ent-
al. Erst ab mindestens vier Items können sich
scheidend, wie wir bereits sahen. Unter den
Diskrepanzen zwischen Modell und Empirie
Modellbedingungen können die Kovarianzen
einstellen, so dass es Sinn macht, von einem
zwischen den Items allein von den Faktorla-
Test des Modells zu sprechen.
dungen abhängen: Außer dem Faktor F trägt
im Modell ja nichts zur gemeinsamen Vari- Nachdem wir die Faktorenanalyse durchge-
anz der Items bei. Entsprechend hängen die führt haben, können wir die modellimplizier-
Varianzen der Items nur von den jeweiligen ten mit den empirisch ermittelten Korrelatio-
Faktorladungen plus den Varianzen der Feh- nen oder Varianzen und Kovarianzen verglei-
lerkomponenten ab. Tatsächlich lässt sich aus chen und die Passung des Modells beurteilen.

96
4.1 Faktorenanalytische Modelle

Wie erwähnt, wird erwartet, dass alle korrela- wird berechnet nach
tiven Diskrepanzen betragsmäßig kleiner als s
p p
0.1 ausfallen. Darüber hinaus kann man sum- ∑ j=1 ∑k< j r2jk
marische Kennwerte heranziehen, die von Pro- SRMR = , mit
p(p + 1)/2
grammen zur Durchführung von Faktorenana- s jk σ̂ jk
lysen mit ausgegeben werden. Summarische r jk = √ √ − p √ .
s j j skk σ̂ j j σ̂kk
Kennwerte beschreiben die generelle Passung
(„Fit“) oder Fehlanpassung („Misfit“) eines Dabei steht s für empirische Varianzen
bestimmten Modells bezüglich der Daten. (wenn die Indices gleich sind) und Kova-
Faktorenanalysen werden meist über speziel- rianzen, σ̂ für modellimplizierte Varian-
le numerische Methoden berechnet, auf deren zen und Kovarianzen, p ist die Anzahl der
Basis statistische Prüfgrößen abgeleitet wer- Items. (Das Dach über einem Kennwert
den können, über die sich die Abweichung zeigt an, dass es sich um eine Schätzung
eines Modells von den Daten formell prüfen auf der Grundlage eines Modells handelt.)
lässt. Bei der heute gebräuchlichen Maximum-
Likelihood-Methode handelt sich um einen
Chi-Quadrat-Wert, der bei guter Passung des Die Komponenten r jk , deren Quadrate in der
Modells Werte nahe 0 annimmt und insignifi- Formel summiert werden, repräsentieren je-
kant ausfällt, bei schlechter Passung dagegen weils Differenzen zwischen empirischen und
hohe positive Werte aufweist und signifikant modellimplizierten Korrelationen, wie aus der
wird. Diese Prüfgröße ist allerdings sehr sen- Definition des Ausdrucks hervorgeht, es sind
sitiv für den Stichprobenumfang: Bei großen also die Restkorrelationen. Bei perfekter Pas-
Stichproben, wie sie im Rahmen der Testkon- sung würden alle Restkorrelationen und da-
struktion allgemein vorliegen, kann sie man- mit auch der SRMR 0 werden. Die Division
gelnde Passung des Modells bereits bei ver- durch p(p+1)/2 bewirkt, dass die Summe der
nachlässigbaren Abweichungen anzeigen. Um- quadrierten Restkorrelationen auf die Anzahl
gekehrt reagiert sie bei kleinem Stichproben- der nichtredundanten Elemente der Varianz-
umfang oft zu unempfindlich auf Abweichun- Kovarianz-Matrix bezogen wird, die anschlie-
gen. Man hat daher versucht, alternative Kenn- ßend gezogene Wurzel kompensiert die Qua-
werte zu entwickeln, die dieses „Fehlverhal- drierung. Beim SRMR indizieren Werte klei-
ten“ nicht zeigen. Zwei dieser Kennwerte sind ner als 0.08 eine akzeptable Passung.
das SRMR (Standardized Root Mean Square
Residual) und der RMSEA (Root Mean Square
Error of Approximation). RMSEA
Beide Kennwerte sind Diskrepanzindices, die In den RMSEA gehen neben dem χ 2 -Wert
wie der χ 2 -Wert gegen 0 gehen, wenn die Pas- dessen Freiheitsgrade (df ) und der Stichpro-
sung des Modells gut ist und hohe Werte an- benumfang (N) ein. Er lässt sich berechnen
nehmen, wenn die Passung schlecht ist. nach
s
χ 2 − df
RMSEA = .
SRMR df (N − 1)
Der SRMR ist eine Funktion der mittle-
ren Abweichung zwischen empirischer und Ist der χ 2 -Wert kleiner als die Zahl der Frei-
modellimplizierter Korrelationsmatrix. Er heitsgrade, wird der RMSEA auf 0 gesetzt.

97
4 Modelle psychologischen Testens

Da die Anzahl der Freiheitsgrade mit der Kom- Modellgleichung (4.5). Wir erhalten
plexität des Modells sinkt, „bevorzugt“ der
RMSEA einfache gegenüber komplexen Mo- Y = ∑ X j = ∑ µ j + (∑ λ j )F + ∑ E j . (4.9)
j j j j
dellen. Darüber hinaus wird die Abweichung
zwischen Empirie und Modell bei großen Der erste Summand (die Summe der Itemmit-
Stichproben geringer gewichtet als bei klei- telwerte) ist dabei identisch mit dem Mittel-
nen. In der Formel tauchen Abweichungen wert von Y , µY . Der zweite Summand reprä-
zwischen empirischen und modellimplizier- sentiert den Teil von Y , der auf den gemeinsa-
ten Kovarianzen nicht explizit auf, sie sind men Faktor zurückgeht, der dritte Summand
jedoch implizit im χ 2 -Wert enthalten. Im Un- den Teil, der von spezifischen Eigenschaften
terschied zu anderen Passungsindices kann für der einzelnen Items verantwortet wird. Notiert
den RMSEA der Standardfehler und damit man den gemeinsamen Teil in Analogie zum
auch ein Konfidenzintervall berechnet werden. klassischen Fehlermodell mit TY , den spezi-
Üblicherweise wird dabei ein 90 %-Intervall fischen Teil mit EY , lässt sich die Gleichung
zugrunde gelegt. Beim RMSEA werden für (4.9) so schreiben:
akzeptable bzw. gute Modellpassung Werte
kleiner als 0.08 (dieser Grenzwert wird für Y = µY + TY + EY .
kleinere Stichproben mit einem Umfang von
N < 250 empfohlen) bzw. 0.06 (für größere In Begriffen des Fehlermodells stellt TY den
Stichproben) gefordert. wahren und EY der Fehleranteil der mit Y ge-
gebenen Messung dar. Für die Bestimmung
Die beiden Indices sind für unterschiedliche der Reliabilität benötigen wir die Varianzen
Aspekte der Modellabweichung sensitiv und von TY und EY . Im Ein-Faktor-Modell ergeben
werden daher meist gemeinsam, zusätzlich sich diese Varianzen aus dem Quadrat der sum-
zum χ 2 -Test, betrachtet. Neben dem SRMR mierten Faktorenladungen und der Summe der
und dem RMSEA wurde eine Vielzahl weite- Fehlervarianzen der einzelnen Items, d. h.
rer Indices der Modellpassung vorgeschlagen.
Welche dieser Indices – oder welche Kombi- Var(Y ) = Var(TY ) + Var(EY )
nation von Indices – für die Beurteilung der
= (∑ λ j )2 + ∑ Var(E j ).
Passung optimal ist, lässt sich noch nicht sa-
gen (für Übersichten und praktische Empfeh- Setzt man diese Ausdrücke in die Definition
lungen siehe Beauducel & Wittmann, 2005; der Reliabilität („wahre Varianz geteilt durch
Bühner, 2011; Eid, Gollwitzer & Schmitt, Gesamtvarianz“) ein, erhält man einen Relia-
2011; Hu & Bentler, 1999; Schermelleh-Engel, bilitätskoeffizienten, der mit ω (Omega) be-
Moosbrugger & Müller, 2003). zeichnet wird:
Var(TY )
ω=
Schätzung der Messpräzision Var(Y )
Var(TY )
=
Wenn ein Ein-Faktor-Modell auf die Daten Var(TY ) + Var(EY )
passt, lässt sich die Reliabilität des Tests aus (∑ λ j )2
den Ladungen und den Fehlervarianzen der = . (4.10)
(∑ λ j )2 + ∑ Var(E j )
Items bestimmen. Auf der Basis des Ein-
Faktor-Modells ergibt sich der Testwert Y – Der Koeffizient gibt das Ausmaß an, in dem
also die Summe der Itemwerte – einer Per- eine Testvariable von den Items geteilte Vari-
son durch Summierung der Teilausdrücke der anz reflektiert. Omega hat drei grundlegende

98
4.1 Faktorenanalytische Modelle

Eigenschaften (McDonald, 1999, S. 89f), die schätzen, ist also problematisch. Auch α kann
den Kennwert als Reliabilitätsschätzer prädes- nur dann sinnvoll als Reliabilitätskoeffizient
tinieren: interpretiert werden, wenn der Test faktori-
ell homogen ist. Die Homogenität eines Tests
1. Der Koeffizient ist identisch mit der Korre-
muss also vorab geprüft werden. Als Neben-
lation zweier Tests, deren Items aus einer
effekt dieser Prüfung erhält man gleichzeitig
homogenen Itemmenge stammen, und de-
die für die Berechnung von ω benötigte Infor-
ren mittlere Ladungen und mittlere spezifi-
mation.
sche Varianzen gleich sind. Die Korrelation
zweier paralleler Tests ist ein Spezialfall
hiervon. Speziellere Modelle
2. Die Wurzel aus ω ist die Korrelation zwi- Das Ein-Faktor-Modell stellt für sich ge-
schen der Testvariablen und dem gemeinsa- nommen bereits relativ strikte Bedingun-
men Faktor und liefert daher ein Maß der gen an die Items eines Tests. Items oder
Präzision, mit dem der Test das von den generell Messungen, die faktoriell homo-
Items gemeinsam erfasste Merkmal (den gen sind, werden in der Literatur auch als
Faktor) misst. kongenerisch bezeichnet. Weisen die Items
3. Die Fehlerquelle, die sich in ω ausdrückt, eines Tests zusätzlich alle die gleichen Fak-
besteht darin, dass aus einer potenziell un- torladungen auf, sind sie essenziell tau-
endlich großen, homogenen Itemmenge nur äquivalent. (Tau steht für den wahren Wert;
eine begrenzte, evtl. kleine Zahl von Items essenziell tau-äquivalente Items reflektie-
für die Messung des Merkmals verwendet ren „im Wesentlichen“, d. h. bis um eine
wird. Der Koeffizient gibt an, wie gut man Verschiebung um eine Konstante den glei-
auf Grundlage der im Test verwendeten chen wahren Wert.) Liegt essenzielle tau-
Items auf diese Menge schließen kann. Äquivalenz vor, liefert α eine genaue Schät-
Omega liefert einen Schätzer der Reliabilität zung der Reliabilität. Sind die Items essen-
eines Tests, mit dessen Hilfe sich der Stan- ziell tau-äquivalent und weisen zusätzlich
dardmessfehler, Effekte der Testverlängerung die gleichen Fehlervarianzen auf, sind sie
oder -verkürzung und weitere Größen, in die parallel. Parallele Items weisen gleiche Ko-
die Reliabilität eingeht, bestimmen lassen. Der varianzen auf, reflektieren das zugrunde
Koeffizient weist eine enge Beziehung zu der liegende Merkmal also mit gleicher Prä-
in Kapitel 3 behandelten internen Konsistenz zision. Besitzen die Items überdies noch
(Cronbachs α) auf. Ist ein Test faktoriell ho- die gleichen Mittelwerte, spricht man von
mogen und weisen zusätzlich alle Items des strikt parallelen Items. Formelle Tests auf
Tests die gleichen Faktorladungen auf, liefert Äquivalenz bzw. Parallelität lassen sich vor-
die Formel für Cronbachs α dieselbe Reliabili- nehmen, indem man in Programmen zur
tätsschätzung wie ω. Ist die zweite Bedingung Durchführung konfirmatorischer Faktoren-
(gleiche Ladungen) nicht erfüllt, wird die Re- analysen die Ladungen bzw. zusätzlich die
liabilität des Tests durch α unterschätzt. Es Fehlervarianzen als gleich spezifiziert. Es
gilt also α ≤ ω, so dass α eine untere Gren- lässt sich dann prüfen, ob diese strikteren
ze für die Reliabilität eines homogenen Tests Modelle noch eine akzeptable Passung auf
darstellt. Diese Beziehung gilt für faktoriell die Daten besitzen.
inhomogene Tests allerdings nicht: Hier kann
α die Reliabilität durchaus überschätzen. Die
Idee, die Reliabilität bzw. deren untere Grenze
ohne den „Umweg“ der Faktorenanalyse zu

99
4 Modelle psychologischen Testens

Tab. 4.4 Korrelationen und Varianzen (in der Diagonalen) der Items eines Angstfragebogens

Item 1 2 3 4 5 6 7
1 0.529
2 .507 0.381
3 .402 .558 0.302
4 .562 .758 .543 0.420
5 .175 .366 .283 .232 0.341
6 .285 .429 .407 .371 .442 0.313
7 .099 .326 .252 .252 .207 .482 0.299
Anmerkung. Items 1 bis 4 beziehen sich auf Emotionalität, Items 5 bis 7 auf Besorgnis.

Ein Beispiel tenz substanzieller Korrelationen zwischen


den Items noch nichts über die Homoge-
Um die Berechnung der Kennwerte zu illus- nität des Tests aussagt. Die Anforderungen
trieren benutzen wir einen realen, wenn auch des Ein-Faktoren-Modells sind strenger. Wie
einfachen Datensatz. In einem psychologi- dargestellt, müssen hierfür bestimmte Rela-
schen Experiment wurde den Teilnehmern zu tionen zwischen den Itemkovarianzen bzw.
Beginn der Untersuchung ein Fragebogen zu -korrelationen erfüllt sein.
aktuellen Gefühlen vorlegt, der u. a. die fol-
genden vier Items zur Messung der Emotiona- Die Homogenität der Skala soll getestet wer-
litätskomponente der Zustandsangst (Aufge- den. Hierfür prüfen wir, ob sich die Zusam-
regtheit; I Kap. 10) enthielt: menhänge der Items mittels eines Ein-Faktor-
Modells hinreichend gut beschreiben lassen.
Die Spezifikation des Modells ist mit neue-
1. Ich fühle mich angespannt ... rer Software für die Berechnung konfirmatori-
2. Ich bin nervös ... scher Faktorenanalysen recht einfach. Im We-
3. Ich bin verkrampft ... sentlichen übergibt man dem Programm die
4. Ich bin aufgeregt ... Daten oder die zu analysierende Kovarianzma-
trix zusammen mit einer jeweils programm-
Die Antwortoptionen und ihre Kodierung wa- spezifischen Beschreibung des zu prüfenden
ren gar nicht (1), ein wenig (2), ziemlich (3) Modells. Die Programmausgabe enthält im
und sehr (4), so dass die Testsummenwerte, Allgemeinen eine Reihe von Passungs- bzw.
die als Indikator der Emotionalität verwendet Diskrepanzindices sowie die Ladungen und
werden sollen, prinzipiell zwischen 4 und 16 Fehlervarianzen für das angegebene Modell.
variieren können. I Tab. 4.4 zeigt die Korre-
Im unserem Beispielfall weisen die Passungs-
lationen und Varianzen (in der Diagonale) der
indices auf einen sehr guten „Fit“ des Ein-
Items. Relevant sind zunächst nur die Items 1
Faktor-Modells hin. Der χ 2 -Wert ist insigni-
bis 4. Auf die drei weiteren Items werden wir
fikant, der SRMR beträgt 0.012, der RMSEA
unten eingehen.
ist 0. Bei weniger guter Passung ist es sinn-
Da alle Items in gleicher Richtung gepolt sind, voll, sich die Diskrepanzmatrix ausgeben zu
erwartet man hier deutlich positive Korrela- lassen, da man hierdurch Hinweise auf die
tionen, was im Beispiel der Fall ist. Es ist al- Ursachen für die mangelnde Passung des Mo-
lerdings wichtig zu notieren, dass die Exis- dells erhalten kann. In unserem Fall sind die

100
4.1 Faktorenanalytische Modelle

Tab. 4.5
Unstandardisiert Standardisiert
Ladungen und
Item Ladung Fehlervarianz Ladung Fehlervarianz
Fehlervarianzen der
Items des 1 0.450 0.326 0.618 0.617
Beispieldatensatzes 2 0.528 0.102 0.855 0.269
3 0.348 0.181 0.632 0.600
4 0.574 0.091 0.885 0.216

Abweichungen nur gering; die maximale Ab- Für die Berechnung der Reliabilität addieren
weichung zwischen der empirischen und der wir zunächst die unstandardisierten Ladungen
modellimplizierten Korrelationsmatrix beträgt und quadrieren die resultierende Summe:
0.022, liegt also deutlich unter 0.1.
(∑ λ j )2 = (0.450 + 0.528 + 0.348 + 0.574)2
Zwischen empirisch ermittelten und modell-
implizierten Kovarianzen bzw. Korrelationen = 3.608.
sind immer Abweichungen zu erwarten und
zwar allein aufgrund der Tatsache, dass die Anschließend summieren wir die Fehlervari-
Daten an Stichproben gewonnen wurden. Wie anzen:
andere Parameter auch, sind die ermittelten
Kennwerte nur Schätzungen der Zusammen- ∑ Var(E j ) = 0.326 + 0.102 + 0.181 + 0.091
hänge in der Population und werden deshalb = 0.701.
von Stichprobe zu Stichprobe variieren. Ge-
ringfügige Abweichungen zwischen „Theorie Nach Einsetzen in die Formel zur Berechnung
und Empirie“ würden sich aufgrund des Stich- von ω erhalten wir als Reliabilitätsschätzung
probenfehlers also auch dann ergeben, wenn
ein Modell die Verhältnisse in der Population 3.608/(3.608 + 0.701) = 0.837.
exakt widerspiegeln würde.
Zu beachten ist dabei, dass ω auf der Basis der
Da das Modell auf unsere Daten passt, können unstandardisierten Ladungen berechnet wer-
wir nun die Ladungen und Fehlervarianzen den muss.
betrachten. I Tab. 4.5 führt die unstandardi-
sierten Ladungen und die entsprechenden Feh- In Abschnitt 3.3.3 hatten wir bereits die Ver-
lervarianzen auf. Zum Vergleich sind auch die wendung von Trennschärfen für die Itemse-
standardisierten (korrelativen) Ladungen an- lektion besprochen. Die Kennwerte des Fakto-
gegeben. Es ist ersichtlich, dass die Items 2 renmodells liefern hierfür jedoch geeignetere
und 4 höhere Ladungen und geringere Feh- Größen. Für Zwecke der Itemselektion stützt
lervarianzen aufweisen als die Items 1 und man sich auf die Faktorladungen und Fehlerva-
3. Für die korrelativen Ladungen ergibt sich, rianzen, nicht auf die Item-Testkorrelationen.
wie zu erwarten ist, das gleiche Bild. „Nervös“ In der Praxis orientiert man sich dabei meist
und „aufgeregt“ scheinen also etwas bessere an den standardisierten Ladungen. Werden die
Indikatoren des durch alle Items gemessenen Testwerte (wie üblich) durch Summen- oder
Konstrukts zu sein als „angespannt“ und „ver- Mittelwertbildungen aus den Itemantworten
krampft“. Die korrelativen Ladungen weisen gewonnen, liefern im Rahmen des Modells die
jedoch alle Items als recht geeignet aus, da Verhältnisse aus unstandardisierten Ladungen
deren Werte jeweils sehr deutlich über 0.40 und Fehlervarianzen jedoch besser geeignete
liegen. Kennwerte (siehe McDonald, 1999).

101
4 Modelle psychologischen Testens

X1 E1 .62
.62

.86 X2 E2 .27
1 F .63
.89 X3 E3 .60

Abb. 4.2
Pfaddiagramm für ein X4 E4 .22
Ein-Faktor-Modell.

Pfaddiagramme tete Pfade zwischen zwei verschiedenen Varia-


blen repräsentieren Kovarianzen oder Korrela-
tionen. Die Verwendung von zwei Pfeilspitzen
Faktoren-Modelle lassen sich anschaulich
soll dabei andeuten, dass hier keine Einfluss-
in Form sog. Pfaddiagramme darstellen
richtung spezifiziert wird. (Letztere kommen
(I Abb. 4.2). In solchen Diagrammen werden
in unserem Modell nicht vor, wir werden sie
alle Variablen eines Modells durch Rechtecke
aber später noch benötigen.)
oder Ellipsen (bzw. Kreise) dargestellt. Recht-
ecke symbolisieren dabei manifeste Variablen,
in unserem Beispielfall die vier Items des Fra- Beim Lesen solcher Diagramme muss man
gebogens. Ellipsen stehen dagegen für latente beachten, dass das Weglassen möglicher Pfa-
Variablen, in unserem Fall den gebildeten Fak- de zwischen verschiedenen Variablen von es-
tor sowie die Fehler. senzieller Bedeutung ist. So meint z. B. das
Fehlen eines Pfads zwischen F und E1 , dass
Neben Rechtecken und Ellipsen werden in zwischen den entsprechenden Variablen kei-
Pfaddiagrammen zwei Arten von Linien, sog. ne direkten Beziehungen (seien sie gerichtet
Pfade, verwendet. Gerade Linien mit einer oder ungerichtet) bestehen sollen. Das Weglas-
Pfeilspitze, die zwei Variablen verknüpfen, sen eines solchen Pfads impliziert in diesem
heißen gerichtete Pfade. Hier wird in einem Beispiel Unkorreliertheit, da weder F noch E1
sehr allgemeinen Sinn ein Einfluss einer Varia- von einer anderen Variablen im betrachteten
blen auf eine andere angenommen. Dabei kann System abhängt.
es sich um kausale Zusammenhänge handeln,
die in einem Modell postuliert werden, oder Für Variablen, die von einer oder mehreren
– wie in unserem Kontext – um Beziehungen anderen der im Modell thematisierten Größen
zwischen Konstrukten (Faktoren) und ihren beeinflusst werden, bedeutet das Weglassen
empirischen Indikatoren (Items). Die über den von Pfaden dagegen nicht unbedingt Unkorre-
gerichteten Pfaden stehenden Werte heißen liertheit. In unserem Modell betrifft dies die
Pfadkoeffizienten. Die Koeffizienten über den Items X j . Auch wenn zwischen diesen Varia-
vom Faktor ausgehenden Pfaden sind in un- blen keine direkten Pfade eingezeichnet sind,
serem Fall die (standardisierten) Faktorladun- so müssen sie doch (wenn das Modell zutrifft)
gen. Gebogene Linien mit zwei Pfeilspitzen korreliert sein. Diese Korrelationen gehen je-
repräsentieren ungerichtete Pfade. Ein unge- doch allein darauf zurück, dass alle Itemvaria-
richteter Pfad einer Variablen auf sich selbst blen von dem gemeinsamen Faktor abhängen.
kennzeichnet dabei deren Varianz. Ungerich- Zwischen ihnen bestehen deshalb keine direk-

102
4.1 Faktorenanalytische Modelle

ten Beziehungen; ihre Zusammenhänge gehen Häufig hat man jedoch ein breiteres bzw. ab-
vielmehr auf den gemeinsamen Faktor zurück. strakteres Merkmal im Auge, das sich in ver-
schiedene Komponenten oder Facetten aufglie-
Die Modellgleichung und die Bedingungen dern lässt (z. B. Zustandsangst). In diesem Fall
des Modells (Unkorreliertheit der Fehlerkom- wird man von vornherein mit einer multifakto-
ponenten; Unkorreliertheit des Faktors und der riellen Struktur rechnen und daher zwei oder
Fehlerkomponenten; Standardisierung des ge- mehr Faktoren bilden. Wie wir bereits sahen,
meinsamen Faktors) werden in dem Pfaddia- reduziert die Einführung weiterer Faktoren die
gramm also in übersichtlicher Weise repräsen- Diskrepanzen zwischen Modell und Daten.
tiert. Für die Darstellung eines so einfachen
Modells wie in unserem Beispiel sind Pfaddia- Zur Illustration von Mehr-Faktoren-Modellen
gramme allerdings nicht unbedingt erforder- erweitern wir unseren Emotionalitätsfragebo-
lich. Nützlich sind sie besonders zur Darstel- gen zu einem Angstfragebogen, indem wir
lung komplexerer Modelle, die im folgenden ihn um die drei folgenden Items ergänzen,
Abschnitt skizziert werden. welche die Besorgniskomponente der Angst
(I Kap. 10) ansprechen sollen:

5. Ich bin besorgt.


4.1.3 Mehr-Faktoren-Modelle 6. Ich denke an die Möglichkeit einer
schlechten Bewertung meiner Leistung.
Eine inakzeptable Passung des Ein-Faktor- 7. Ich habe das Gefühl, dass ich mit den
Modells an die Daten weist darauf hin, dass Aufgaben nicht gut zurecht kommen wer-
ein Faktor nicht genügt, um die Variabilität im de.
Antwortverhalten der Probanden hinreichend
gut abzubilden. In diesem Fall kann man versu- Diese Items wurden den Probanden in der ge-
chen, die Passung des Modells auf die Daten nannten Untersuchung zusammen mit den vier
zu verbessern, indem man Items eliminiert, Emotionalitätsitems vorgelegt, nachdem sie
die für die mangelnde Passung verantwortlich kurz mit der bevorstehenden Aufgabe vertraut
sind. Ziel ist es dabei, eine Untermenge von gemacht worden waren. Das Antwortformat
Items zu identifizieren, die zusammen einen war das gleiche wie bei den Emotionalitäts-
homogenen Test ergeben. Hilfreich kann hier items.
eine genaue Inspektion der Diskrepanzen zwi-
In unserem Fall sprechen die Items des Fra-
schen den empirischen und den modellimpli-
gebogens zwei inhaltlich recht klar unter-
zierten Korrelationen sein. Manchmal sind es
scheidbare Verhaltensmerkmale an, Emotio-
nur einzelne Items, die für die Abweichung
nalität und Besorgnis, weshalb die Hypothese
verantwortlich sind. Diese werden dann aus
eines Zweifaktoren-Modells naheliegend ist.
dem Test entfernt oder umformuliert. Der re-
Um diese Hypothese zu untermauern, ist es
vidierte Test wird dann anhand einer neuen
sinnvoll, zunächst das sparsamere Ein-Faktor-
Stichprobe auf Homogenität geprüft. Auch
Modell zu testen. Wenn wir dieses Modell ver-
die Durchführung explorativer Faktorenana-
werfen müssen, wissen wir, dass mindestens
lysen kann zu diesem Zweck nützlich sein.
zwei Faktoren benötigt werden.
Die Elimination oder Neuformulierung von
Items wird man vor allem dann in Betracht zie- Wie eine Inspektion der Korrelationen in
hen, wenn die Erfassung eines eng umgrenzten I Tab. 4.4 zeigt, sind die Zusammenhänge
Merkmals intendiert ist (z. B. die Emotionali- unter den drei Besorgnisitems im Mittel et-
tätskomponente der Zustandsangst). was geringer als die der Emotionalitätsitems.

103
4 Modelle psychologischen Testens

Die Korrelationen zwischen den beiden Item- nen I Abb. 4.3 einige aufführt. Modell A ist
gruppen sind alle positiv, im Durchschnitt aber das sparsamste. Hier wird angenommen, dass
kleiner als die Korrelationen innerhalb der den Antworten zwei unkorrelierte Faktoren
Gruppen. Ein derartiges Muster kann man für zugrunde liegen. Der erste Faktor repräsen-
zwei korrelierte Facetten eines abstrakteren tiert die Emotionalitäts-, der zweite die Besorg-
Merkmals erwarten. Erwartungsgemäß zeigt niskomponente der Angst. Die Unkorreliert-
das Ein-Faktor-Modell eine schlechte Passung heit der beiden Komponenten kommt in der
(hochsignifikanter χ 2 -Wert, SRMR = 0.083, graphischen Darstellung darin zum Ausdruck,
RMSEA = 0.131). Ein Blick auf die Diskre- dass zwischen den beiden Faktoren kein unge-
panzen ergibt, dass besonders die Korrelatio- richteter Pfad eingezeichnet ist. Die Passung
nen unter den Besorgnisitems durch das Mo- des Modells ist schlecht (hochsignifikanter χ 2 -
dell nicht gut aufgeklärt werden. Wert, SRMR = 0.199, RMSEA 0.130), was
zu erwarten ist, da unkorrelierte Faktoren al-
Betrachten wir, trotz der schlechten Passung
lein die Kovariationen innerhalb der beiden
des Modells, die Faktorladungen als Indikato-
Gruppen, nicht aber die Kovariationen zwi-
ren der Trennschärfe für den ersten Faktor. Die
schen den Gruppen aufklären können. Für die
korrelativen Ladungen betragen für die vier
Korrelationen zwischen den beiden Itemgrup-
Emotionalitätsitems 0.60, 0.88, 0.65 und 0.84,
pen impliziert dieses Modell Nullwerte, die
sind also alle recht hoch. Die Ladungen der
empirisch nicht vorliegen.
drei Besorgnisitems fallen demgegenüber ab.
Sie betragen 0.39, 0.52 und 0.36. Beide Befun- Modell B berücksichtigt die substanziellen
de könnten es nahelegen, Besorgnisitems (be- Zusammenhänge zwischen den Itemgruppen.
ginnend mit Item 7) sukzessive aus dem Frage- Dies geschieht dadurch, dass die Korrelation
bogen auszuscheiden und das Modell mit dem zwischen den beiden Faktoren explizit zuge-
kleineren Itemsatz neu zu berechnen, um eine lassen und geschätzt wird. Deshalb ist in der
homogene und reliable Skala zu erhalten. Die- graphischen Darstellung des Modells ein Ko-
ses Vorgehen ist möglich, nur muss man sich varianz/Korrelationspfad zwischen den beiden
darüber im Klaren sein, dass man hiermit das Faktoren eingezeichnet. Inhaltlich drückt das
mit dem Test indizierte Merkmal verändert. In Modell aus, dass zwei separate Itemgruppen
unserem Beispiel würden nach einer solchen, (engl. independent clusters) angenommen wer-
gewissermaßen rein technischen, Itemselekti- den, die unterschiedliche, aber mehr oder we-
on anhand von Ladungen oder Trennschärfen niger stark korrelierte Merkmale reflektieren.
nur die Emotionalitätsitems übrig bleiben. Wir Modelle dieser Art werden als Independent-
erhalten dann zwar eine homogene Skala, die Cluster-Modelle bezeichnet.
aber ein enger umgrenztes Merkmal als das
Eine solche Struktur ist in unserem Fall ei-
eigentlich intendierte erfasst und für letzteres
ne konzeptuell sehr plausible Hypothese. Das
vermutlich nicht valide wäre. Man spricht hier
Modell zeigt insgesamt eine gute Passung. Der
(etwas abfällig) von „bloated specifics“: Dies
χ 2 -Wert bleibt zwar signifikant, SRMR (=
sind sehr ähnlich formulierte Items, die die
0.044) und RMSEA (= 0.014) fallen aber deut-
Reliabilität eines Tests künstlich in die Höhe
lich unter die Grenzwerte von 0.08 bzw. 0.06,
treiben, dessen Validität aber beeinträchtigen,
so dass wir die auf der Basis des Modells ge-
da sie nur einen sehr spezifischen Teil des in-
schätzten Parameter verwenden können. Sie
tendierten Merkmals ansprechen.
sind in I Abb. 4.3 B ebenfalls dargestellt (ge-
Gehen wir zu Zwei-Faktoren-Modellen über. zeigt sind standardisierte Kennwerte). Wie er-
Selbst in unserem sehr simplen Beispiel exis- sichtlich ist, sind alle korrelativen Ladungen
tieren hier mehrere spezielle Modelle, von de- substanziell. Wir können also davon ausgehen,

104
4.1 Faktorenanalytische Modelle

(A) X1 E1 (B) X1 E1 .63


.61

X2 E2 .87 X2 E2 .24
1 F1 1 F1 .64
X3 E3 .86 X3 E3 .58

X4 E4 X4 E4 .26
.57

X5 E5 .50 X5 E5 .74

.86
1 F2 X6 E6 1 F2 X6 E6 .25
.54

X7 E7 X7 E7 .70

(C) X1 E1 (D) X1 E1

X2 E2 X2 E2
1 F1 1 F1
X3 E3 X3 E3

1 G X4 E4 X4 E4

X5 E5 X5 E5

1 F2 X6 E6 1 F2 X6 E6

X7 E7 X7 E7

Abb. 4.3 Faktoren-Modelle: (A) zwei unabhängige Faktoren, (B) Independent-Cluster-Modell,


(C) hierarchisches Modell, (D) explorative Faktorenanalyse.

dass die Items brauchbare Indikatoren der Fak- on zwischen den Summenwerten der beiden
toren darstellen. Itemgruppen, die in unserem Fall 0.46 beträgt.
Der jetzt interessante Kennwert ist die Korre- Der Grund hierfür liegt darin, dass Korrelatio-
lation der beiden Faktoren, die mit 0.57 eben- nen zwischen Faktoren (und anderen latenten
falls recht hoch ausfällt. Diese Korrelation ist Variablen) frei von Messfehlern sind. Korrela-
höher als die empirisch ermittelte Korrelati- tionen zwischen Faktoren entsprechen (zumin-

105
4 Modelle psychologischen Testens

dest ungefähr) den Korrelationen zwischen Ladungen des Independent-Cluster-Modells


messfehlerbereinigten Variablen, wie sie sich mit der Quadratwurzel der Faktorkorrelation.
mit Hilfe der Formel zur Minderungskorrektur Für die korrelative Ladung von Item 1 er-
schätzen lassen, I Kap. 3.4.3. haltenpwir zum Beispiel eine g-Ladung von
0.61 · (0.57) = 0.46. Die Ladungen auf den
Für eine Reihe von Zwecken kann es nun sinn-
hierarchischen Gruppenfaktoren lassen sich
voll sein, einen globalen Angstwert zu betrach-
durch Multiplikation mit der Quadratwurzel
ten, den man durch Summierung oder Mitte-
des Gegenwerts (1 minus der Faktorkorrela-
lung aller sieben Itemantworten gewinnt. In
tion) berechnen;pfür Item 1 erhalten wir zum
diesem Fall stellt sich die Frage, wie sich die
Beispiel 0.61 · (1 − 0.57) = 0.40. Die Be-
Reliabilität der globalen Angstvariablen be-
stimmung der unstandardisierten Ladungen
stimmen lässt. Um die Frage zu beantworten,
des hierarchischen Modells erfolgt in analo-
betrachten wir ein drittes Modell. Es handelt
ger Weise. Wie man sieht, werden die Ladun-
sich um ein sog. hierarchisches Modell, des-
gen aus dem Independent-Cluster-Modell im
sen Struktur in I Abb. 4.3 C dargestellt ist.
hierarchischen Modell auf den g-Faktor und
Anstelle zweier korrelierter Faktoren werden
jeweils einen Gruppenfaktor verteilt, wobei
in diesem Modell drei unkorrelierte Faktoren
die jeweiligen „Portionen“ von der Höhe der
postuliert, die allerdings auf zwei miteinander
Faktorkorrelation abhängen. Je höher die Fak-
verschachtelten Hierarchieebenen angesiedelt
torkorrelation ist, desto größer fällt der Anteil
sind (daher der Name der Modellfamilie). Auf
des g-Faktors und desto geringer der des Grup-
der unteren Ebene stehen die beiden Gruppen-
penfaktors aus.
faktoren, die jeweils nur Emotionalitäts- oder
Besorgnisitems beeinflussen. Den Gruppen- Die globale Angstvariable wird im hierarchi-
faktoren übergeordnet ist ein allgemeiner Fak- schen Modell durch den g-Faktor repräsentiert.
tor (general factor oder kurz g-Faktor), von Deren Reliabilität können wir nun auf der Ba-
dem alle Items abhängen. Der g-Faktor reprä- sis der (unstandardisierten) g-Ladungen und
sentiert den Teil der Antwortvariation, der den der Varianz der Variablen nach Formel (4.10,
Items beider Gruppen gemeinsam ist. Er ist da- S. 98) schätzen (Zinbarg, Revelle, Yovel &
mit auf einem höheren Abstraktionsniveau an- Li, 2005). In unserem Fall erhalten wir einen
gesiedelt. Solche Modelle, welche die Kovaria- Reliabilitätskoeffizienten von ω = 0.60, also
tionen von Items mit unabhängigen Faktoren einen nicht sonderlich hohen Wert. Für die Ge-
unterschiedlicher Breite repräsentieren (ein g- winnung einer reliableren Messung würde es
Faktor; mehrere bereichsspezifische Faktoren) hier notwendig sein, den Test zu verlängern.
werden auch Bifaktoren-Modelle genannt (Gi-
gnac, 2008; Reise, 2012). Hierarchische Modelle können auch zur Be-
antwortung der Frage eingesetzt werden, ob
Die hinter hierarchischen Modellen stehende es überhaupt lohnend ist, einen Test, der nicht
Algebra ist recht komplex. Für unsere Zwe- ganz den Homogenitätsanforderungen des Ein-
cke genügt es jedoch festzustellen, dass sich Faktor-Modells genügt, in mehrere Untertests
die Faktorladungen des hierarchischen Mo- aufzuspalten. Fallen die Ladungen auf den
dells C aus dem Independent-Cluster-Modell hierarchischen Gruppenfaktoren relativ gering,
B gewinnen lassen.2 Die Ladungen auf dem die auf dem g-Faktor relativ hoch aus, würde
g-Faktor erhält man durch Multiplikation der man diese Frage verneinen. In unserem Bei-
2 Die Möglichkeit, Ladungen eines hierarchischen Mo- spiel liegen alle g-Ladungen wie auch alle hier-
dells indirekt (über ein Independent-Cluster-Modell) zu
bestimmen ist instruktiv, jedoch nicht ganz identisch le Restriktionen vorgenommen werden (Gignac, 2008;
mit der direkten Berechnung, wenn hier nicht speziel- McDonald, 1999).

106
4.1 Faktorenanalytische Modelle

archischen Gruppenladungen über 0.30. Da- Ladungsmuster. (Beim Ein-Faktor-Modell ent-


mit wäre sowohl die Bildung einer globalen steht dieses Problem nicht, da wir hier nur eine
Angstvariablen als auch die zweier separater Achse haben.)
Variablen, die Emotionalität und Besorgnis re-
präsentieren, zu rechtfertigen. Um dieser Schwierigkeit zu begegnen, wur-
den eine Reihe von Rotationskriterien erfun-
Besonders in den anfänglichen Phasen der den, die eine interpretierbare Lösung sichern
Testkonstruktion können auch explorative Fak- sollen. Häufig verwendet werden die Varimax-
torenanalysen zur Strukturierung einer Item- und die Promax-Rotation. Beide versuchen,
menge sehr nützlich sein. Im Unterschied zu die Achsen so zu legen, dass die Items auf
den bislang dargestellten konfirmatorischen jeweils nur einem Faktor betragsmäßig hohe
(hypothesentestenden) Modellen werden hier Ladungen aufweisen, auf den anderen jeweils
Faktorladungen aller Items auf allen Fakto- geringe. Hiervon erhofft man sich eine Ver-
ren bestimmt, wie dies in I Abb. 4.3 D ange- einfachung der Faktoreninterpretation, da sich
deutet ist. Wie wir in Abschnitt 4.1.1 erläu- in diesem Fall eher distinkte Itemgruppen er-
tert hatten, geht man dabei so vor, dass man geben. Die Varimax-Rotation liefert unkorre-
die Zahl der spezifizierten Faktoren, begin- lierte Faktoren (bildlich: orthogonale Achsen),
nend mit 1, sukzessive erhöht, bis eine akzep- ähnelt also unserem Modell A. In unserem ein-
table Passung des Modells erreicht ist. Das führenden Beispiel (I Tab. 4.3, S. 92) wurde
Ladungsmuster dieses Modells und die auf diese Rotation verwendet, um die Faktorladun-
seiner Basis bestimmten Markieritems bilden gen für das Zwei-Faktoren-Modell zu bestim-
die Grundlage für die Interpretation der Fakto- men. Die Promax-Rotation liefert korrelierte
ren. Dabei sucht man für die Markieritems je- Faktoren (schiefwinklig zueinander stehende
des Faktors gewissermaßen den gemeinsamen Achsen), ähnelt also unserem Modell B.
semantischen Nenner. Unter anderem wegen
dieses „kreativen“ Teils der Prozedur werden Kein Rotationskriterium garantiert allerdings
explorative Faktorenanalysen manchmal etwas sinnvolle und interpretierbare Lösungen. Prak-
kritisch betrachtet. tische Ratschläge zum Umgang mit diesen und
weiteren Problemen im Rahmen psychome-
Es gibt darüber hinaus einige mathematische trischer Untersuchungen finden sich bei Mc-
Schwierigkeiten, die darin gründen, dass für Donald (1999). In unserem Beispieldatensatz
explorative Modelle mit zwei oder mehr Fak- würde ein exploratives Zwei-Faktoren-Modell
toren die Ladungen nicht genau identifizier- mit schiefwinkliger Rotation zu nahezu identi-
bar sind; die Modellannahmen sind hierfür zu schen Ergebnissen führen wie das konfirmato-
schwach. Dieser Sachverhalt wird als „Rota- rische Modell mit korrelierten Faktoren.
tionsproblem“ bezeichnet. Stellt man sich die
Faktoren als Achsen in einem mehrdimensio- Für die Testkonstruktion sind konfirmatori-
nalen Raum vor, die Variablen/Items als Punk- sche Analysen den explorativen vorzuziehen.
te, deren Ladungen die Position im Raum be- Im Allgemeinen sollte man hier ja Hypothesen
stimmen, so lassen sich in explorativen Ana- über die Struktur eines Datensatzes formulie-
lysen nur die relativen Positionen der Items ren können. Der Einsatz explorativer Metho-
zueinander festlegen, aber nicht ihre genauen den kann jedoch hilfreich sein, wenn die Hypo-
Koordinatenwerte. Man kann die Achsen um thesen (am Anfang eines Projekts) noch nicht
ihren Ursprung drehen und wenden, wie man sehr stark sind, sich plausible Alternativen for-
will, und erhält damit eine unendliche Zahl ma- mulieren lassen oder sich die theoretischen
thematisch gleichwertiger Lösungen für das Annahmen empirisch nicht bewähren und man

107
4 Modelle psychologischen Testens

Anhaltspunkte für eine geeignetere Strukturie- ansehen kann (McDonald, 1999), hier Schwie-
rung der Variablen gewinnen möchte. rigkeiten mit sich bringt.

4.2.1 Probleme linearer Modelle


4.2 Item-Response-Theorie
Die Anwendung der Faktorenanalyse auf Va-
riablen, die nur wenige diskrete Werte anneh-
Die Item-Response-Theorie umfasst eine in- men können, kann zu Problemen führen. Die-
zwischen sehr reiche Familie von Testmodel- se Probleme sind nicht auf binäre Items be-
len, die ursprünglich für die Analyse binärer schränkt, stellen sich hier allerdings besonders
Items konzipiert wurden. Wie die Bezeich- scharf, so dass wir sie an diesem Beispiel er-
nung der Familie nahelegt, zielen die Modelle läutern.
von vornherein auf die theoretische Behand-
lung der Antworten auf einzelne Items. Dies
steht in Kontrast zur Klassischen Testtheo- Schwierigkeitsfaktoren
rie, die, wie wir sahen, von ganzen Tests aus-
geht. Mit Hilfe der Item-Response-Theorie Ein seit langem bekanntes Problem der An-
lassen sich Antworten modellieren, für die wendung der Faktorenanalyse auf Itemebene
nichtlineare Beziehungen zu latenten Merkma- wird unter dem Schlagwort „Schwierigkeits-
len angenommen werden müssen. Die Model- faktoren“ diskutiert. Etwas vereinfacht ausge-
lierung nichtlinearer Zusammenhänge sowie drückt, ist hiermit der Sachverhalt gemeint,
die stärkere Anbindung der Item-Response- dass Faktorenanalysen Items manchmal nicht
Theorie an fundamentale wissenschafts- und nur nach den Personmerkmalen klassifizieren,
messtheoretische Konzepte bedingen einen im die sich in den Antworten ausdrücken, sondern
Vergleich zum klassischen Ansatz (und zur auch nach den Schwierigkeiten der Items. Es
Faktorentheorie) erhöhten Aufwand an forma- ergeben sich dann mehr Faktoren, als auf der
len Methoden. Der Aufwand lohnt jedoch, da Grundlage der Abhängigkeiten der Antworten
sich eine Reihe zentraler Fragen der Testkon- von dem/den Personmerkmal/en zu erwarten
struktion, -analyse und -anwendung erst auf sind, sog. „Schwierigkeitsfaktoren“. Das Pro-
der Basis von Item-Response-Modellen in ad- blem kann resultieren, wenn (a) der Wertebe-
äquater Weise beantworten lassen. reich der Antwortvariablen diskret ist und nur
wenige Stufen umfasst und (b) ihre Verteilun-
Wie wir eingangs dieses Kapitels erwähnt hat-
gen unterschiedlich ausfallen. Beides ist bei
ten, ist die Item-Response-Theorie ein relativ
Itemvariablen normalerweise der Fall.
junger Ansatz der Psychologischen Diagnos-
tik. Pionierarbeiten wurden hier von dem Dä- Es ist instruktiv, den Grund für das Auftau-
nen Georg Rasch und dem Amerikaner Allan chen von Schwierigkeitsfaktoren etwas näher
Birnbaum geleistet, nach deren Namen auch zu beleuchten. Generell können für zwei dis-
zwei grundlegende spezielle Item-Response- krete Variablen Kovarianz und Korrelation nur
Modelle benannt werden. Diese Modelle, die dann maximal werden, wenn die Verteilungs-
für binäre Items geeignet sind, werden im Fol- formen der Variablen gleich sind. Ist dies nicht
genden skizziert. Zuvor stellen wir dar, warum der Fall, können sich die Wertepaare der Varia-
die Anwendung der Klassischen Testtheorie blen nicht genau decken, entsprechend muss
und ihrer Weiterentwicklungen in der Form die Korrelation Werte kleiner als Eins anneh-
der dargestellten faktorenanalytischen Model- men. Die Beschränkung der maximal mögli-
le, die man als lineare Item-Response-Modelle chen Korrelation ist umso deutlicher, je stärker

108
4.2 Item-Response-Theorie

die Abweichung der Verteilungsformen der Tab. 4.6 Korrelationen unter sechs
beiden Variablen ist. Bei binären Items schlägt dichotomisierten Itemvariablen.
sich dies besonders stark nieder, da deren
X1 X2 X3 X4 X5 X6
Verteilung durch die Schwierigkeit der Items
vollständig festgelegt ist. Wenn nun in einem X1 1
Test Gruppen von Items mit unterschiedlicher X2 .31 1
Schwierigkeit vorhanden sind, werden die Kor- X3 .30 .29 1
relationen innerhalb dieser Gruppen tendenzi- X4 .16 .17 .16 1
ell höher ausfallen als zwischen den Gruppen; X5 .16 .17 .16 .30 1
dieses Muster kann dann durch einen Faktor
X6 .16 .17 .17 .28 .28 1
nicht mehr vollständig erklärt werden.
Zur Illustration der Effekte unterschiedlicher
Itemschwierigkeiten auf die Ergebnisse von Ausgangsvariablen herrührt. Im Hinblick auf
Faktorenanalysen betrachten wir einen simu- die Anzahl der Faktoren ist dieser Effekt je-
lierten Test, der aus drei leichten und drei doch nicht wichtig. Wichtig ist vielmehr, dass
schwierigen Aufgaben besteht. Wir gehen sich die beiden Schwierigkeitsgruppen, die
zunächst von normalverteilten quantitativen die Items 1 bis 3 und 4 bis 6 umfassen, in
Itemvariablen Q1 bis Q6 aus, von denen wir an- den Korrelationen abzeichnen; die Korrelatio-
nehmen, dass sie sich je zur Hälfte aus einem nen innerhalb der leichten und der schwieri-
gemeinsamen Faktor und spezifischen Einflüs- gen Items sind mit etwa .30 deutlich höher
sen erklären lassen. Hieraus ergibt sich, dass als die Korrelationen zwischen den Gruppen,
die Korrelationen aller Items jeweils 0.5 be- die jeweils etwa .16 betragen. Ein Ein-Faktor-
tragen. Eine Faktorenanalyse würde entspre- Modell zeigt entsprechend eine schlechte Pas-
chend sung. Erst ein Zwei-Faktoren-Modell zeigt
√ eine perfekte Passung mit Ladungen
von .5 = .71, spezifischen Anteilen von .5 eine gute Passung, mit hohen Ladungen der
und einer aufgeklärten Varianz von .5 ergeben. leichten Items auf dem einen und hohen La-
dungen der schwierigen Items auf dem ande-
Simulieren wir nun binäre Itemvariablen X1 ren Faktor. Hier wird eine falsche Schlussfol-
bis X6 . Hierfür dichotomisieren wir die quanti- gerung über die Zahl der den Antworten zu-
tativen Items künstlich. Die drei leichten Items grunde liegenden latenten Variablen nahege-
1 bis 3 betrachten wir als gelöst, wenn die legt.
korrespondierenden standardisierten quantita-
tiven Werte über einer Schwelle von -1 lie- Bei der Anwendung der Faktorenanalyse auf
gen; sie haben also Schwierigkeiten von etwa binäre Antwortvariablen können sich also Fak-
.84. Die schwierigen Items 4 bis 6 betrach- toren ergeben, die als Artefakte unterschied-
ten wir als gelöst, wenn eine Schwelle von 1 licher Itemschwierigkeiten betrachtet werden
überschritten wird. Diese Items weisen damit müssen. Das gleiche Problem kann auch bei
Schwierigkeiten von etwa .16 auf. I Tab. 4.6 Items mit mehr als zwei Antwortkategorien
zeigt die Effekte hinsichtlich der Korrelatio- auftreten. Allerdings handelt es sich hier nicht
nen. etwa um einen Defekt der Faktorenanalyse,
sondern um das Ergebnis ihrer Anwendung
Zwei Wirkungen fallen auf: Erstens sind al- auf Variablen, für die sie nicht gebaut ist. Die
le Korrelationen deutlich niedriger als die der Faktorenanalyse ist für die Beschreibung der
quantitativen Ausgangsvariablen Q. Dieser Ef- Struktur kontinuierlicher Variablen geeignet.
fekt ist auf den Informationsverlust zurück- Wendet man sie auf diskrete Variablen an,
zuführen, der von der Dichotomisierung der muss sichergestellt sein, dass die Ausprägun-

109
4 Modelle psychologischen Testens

1.0

Lösungswahrscheinlichkeit
Item 1
0.8

0.6
Item 2
0.4
Abb. 4.4 0.2
Lineare Beziehungen zwischen Item 3
Faktorwerten und Lösungs- 0.0
wahrscheinlichkeiten für drei Items. Faktorwert

gen der Variablen einem Kontinuum hinrei- I Abb. 4.4 für mehrere Items unterschied-
chend nahe kommen. Dies trifft für binäre Va- licher Schwierigkeiten und Ladungen ge-
riablen nicht zu. schehen ist. Solche Funktionen heißen Item-
Response-Funktionen oder Itemcharakteristi-
ken; sie spezifizieren die Abhängigkeit der
Modellierung von Antworten auf ein Item von dem zugrunde
Lösungswahrscheinlichkeiten liegenden Merkmal.
Wie ersichtlich, ist es bei linearen Item-
Bei binären Items entsteht noch ein weiteres, Response-Funktionen nicht ausgeschlossen,
schwerwiegenderes Problem: Es ist in der Be- dass für Personen mit hohen Faktorwerten
schränkung des Wertebereichs der Antwortva- Schätzungen von Lösungswahrscheinlichkei-
riablen auf Null und Eins in Verbindung mit ten resultieren, die größer als 1 sind. Umge-
der im Modell angenommenen Linearität der kehrt können sich für Personen mit niedrigen
Beziehung zwischen Faktor und Antwortva- Faktorwerten negative Lösungswahrschein-
riable begründet. Im Faktorenmodell erhalten lichkeiten ergeben. In der Abbildung sind die-
wir für ein Item j bei Personen mit der Aus- se Möglichkeiten durch die vertikalen gestri-
prägung f auf dem Faktor als Schätzwert chelten Linien angedeutet. Bei einer Person
mit einem relativ hohen Faktorwert (rechte
X̂ j = µ j + λ j f . (4.11) Linie) würde sich für Item 1 eine Lösungs-
wahrscheinlichkeit größer als 1 ergeben, bei
Wird das Faktorenmodell auf binäre Items einer Person mit relativ niedrigem Faktorwert
angewendet, repräsentiert X̂ j die geschätzte (linke Linie) würde bei Item 3 eine Lösungs-
Lösungswahrscheinlichkeit für Personen mit wahrscheinlichkeit unter 0 resultieren. Beides
einem Faktorwert von f , µ j die über Perso- ist natürlich nicht sinnvoll, da Wahrscheinlich-
nen gemittelte Lösungswahrscheinlichkeit des keiten nur innerhalb des Intervalls von 0 und
Items und λ j den erwarteten Anstieg der Lö- 1 variieren können. Je unterschiedlicher die
sungswahrscheinlichkeit bei Personen mit ei- Schwierigkeiten und Ladungen (Trennschär-
nem gegenüber f um eine Einheit (Standard- fen) der Items eines Tests sind, desto eher tritt
abweichung) erhöhten Faktorwert. das Problem auf.
Das Problem erkennt man am einfachsten, Modelle, die lineare Beziehungen zwischen
wenn man für mehrere Items eines Tests die dem latenten Merkmal und den Itemantwor-
erwarteten Lösungswahrscheinlichkeiten ge- ten zugrunde legen, können für Variablen mit
gen die Faktorwerte aufträgt, wie dies in wenigen diskreten Stufen von vornherein nur

110
4.2 Item-Response-Theorie

Näherungslösungen liefern. Die Näherung ist mit b) und Trennschärfen bzw. Diskrimina-
für quantitative Items (mit vier oder mehr von tionen (a) sowie ihre Anfälligkeit gegenüber
den Probanden genutzten Antwortoptionen) Ratetendenzen (c).
meist akzeptabel. Bei Tests, die aus binären
Allen hier behandelten Modellen sind zwei
Items bestehen, ist die Anwendung der Fakto-
Eigenschaften gemeinsam. Erstens gehen die
renanalyse jedoch problematisch. Hier werden
Modelle davon aus, dass das Antwortverhal-
Modelle benötigt, die der kategorialen Natur
ten von nur einer latenten Variablen (einem
der Antworten gerecht werden.
Personmerkmal) beeinflusst wird, es handelt
Bei Verfahren, die aus binären Items bestehen, sich um eindimensionale Modelle. Wie im Ein-
werden für die Berechnung von Faktorenanaly- Faktor-Modell wird vorausgesetzt, dass die
sen und hierauf aufbauender Kennwerte (etwa Zusammenhänge unter den Antwortvariablen
Reliabilitätsschätzungen) Items häufig nach durch genau ein Merkmal erklärt werden kön-
inhaltlichen und/oder statistischen (Schwierig- nen. Wenn zwei oder mehr Variablen existie-
keiten, Trennschärfen usw.) Gesichtspunkten ren, die das Antwortverhalten in unterschied-
zu Testteilen („Itembündeln“) zusammenge- licher Weise beeinflussen, sind die Modelle
fasst, also summiert. Hierdurch werden Varia- nicht angemessen.
blen gewonnen, die kontinuierlichen Messun-
gen näherkommen und daher für Faktorenana- Die zweite Gemeinsamkeit besteht in der Mo-
lysen besser geeignet sind. Dieses Vorgehen dellierung der Lösungswahrscheinlichkeiten.
ist sinnvoll, da es die beiden gerade bespro- Als Itemcharakteristiken werden hier nicht Ge-
chenen Probleme vermeidet. Der Nachteil der raden, sondern S-förmige Kurven verwendet,
Bündelung besteht aber darin, dass Informa- die den Wert 0 nicht unter- und den Wert 1
tion über das Funktionieren einzelner Items nicht überschreiten können. Mit dem Einsatz
verlorengeht: Die Faktorenanalyse wird hier solcher Itemcharakteristiken werden die gera-
nicht mehr als Item-Response-Modell einge- de beschriebenen Probleme linearer Modelle
setzt. vermieden.
Bei der Wahl des konkreten Funktionstyps ste-
hen dabei verschiedene Möglichkeiten offen.
4.2.2 Logistische Testmodelle Die in den folgenden Abschnitten dargestell-
ten Modelle verwenden die (kumulative) logis-
Im Folgenden werden drei grundlegende Item- tische Funktion, um Lösungswahrscheinlich-
Response-Modelle beschrieben, die für binäre keiten mit Person- und Itemparametern zu ver-
Antwortvariablen konstruiert wurden. In die- knüpfen. Solche Modelle werden daher auch
sen Modellen werden die Lösungswahrschein- als logistische Testmodelle bezeichnet.
lichkeiten der Items (bzw. die Wahrschein- Die logistische Funktion ist allgemein durch
lichkeiten für eine Antwort „in Schlüsselrich-
tung“) als Funktion jeweils eines Personpa- ex exp(x)
rameters und eines oder mehrerer Itempara- y= x
= (4.12)
1+e 1 + exp(x)
meter beschrieben. Der Personparameter ver-
tritt dabei die Ausprägung des zu messenden definiert. Dabei steht e für die Basis des na-
Merkmals. Er wird meist mit θ (dem griechi- türlichen Logarithmus, die ungefähr 2.718
schen Buchstaben Theta) notiert, was hier bei- beträgt. Der Ausdruck ex wird auch häufig
behalten wird. Die Itemparameter charakteri- exp(x) geschrieben; er bezeichnet die Expon-
sieren Eigenschaften der einzelnen Items eines tentialfunktion. Die logistische Funktion lie-
Tests, nämlich ihre Schwierigkeiten (notiert fert Werte, die nur zwischen Null und Eins

111
4 Modelle psychologischen Testens

variieren können. In Item-Response-Modellen 4.2.3 1PL-Modell


stehen an der Stelle von y die von den
Person- und Itemparametern abhängigen Lö- Modellgleichung und Itemcharakteristik
sungswahrscheinlichkeiten. Der Exponent (x)
wird durch eine für das jeweilige Modell spezi- Im 1PL-Modell werden für die Beschreibung
fische Kombination von Person- und Itempara- der Lösungswahrscheinlichkeiten eines Items
metern ersetzt. Die logistische Funktion wird ein Personparameter und ein Itemparameter,
anderen Möglichkeiten zur Spezifizierung S- nämlich die Schwierigkeit des Items, verwen-
förmiger Item-Response-Funktionen aufgrund det. Wie gesagt, bezeichnen wir den Person-
ihrer bequemen mathematischen Behandlung parameter mit θ . Er steht für die den Itemant-
vorgezogen. worten zugrunde liegende latente Personvaria-
Je nach Zahl der im Modell vorkommenden ble, entspricht also F im Faktorenmodell. Den
Itemparameter spricht man dabei vom Ein-, Schwierigkeitsparameter eines Items j notie-
Zwei- oder Drei-Parameter Logistischen Mo- ren wir mit b j . Der Ausdruck P(X j = 1 | θ ) be-
dell. Gängige Abkürzungen hierfür sind 1PL-, schreibt die bedingte Wahrscheinlichkeit, das
2PL- bzw. 3PL-Modell. Das einfachste Mo- Item j zu lösen als Funktion der Ausprägung
dell enthält nur einen Itemparameter, nämlich der latenten Variablen θ . Wir notieren diese
die Itemschwierigkeit. Es wird auch als Rasch- bedingten Wahrscheinlichkeiten auch kurz mit
Modell bezeichnet. Das 2PL- oder Birnbaum- Pj (θ ), die entsprechenden Gegenwahrschein-
Modell beinhaltet darüber hinaus noch einen lichkeiten (Nichtlösung) P(X j = 0 | θ ) mit
Diskriminationsparameter. Das 3PL-Modell, Q j (θ ). Korrekte Antworten kodieren wir mit
das keinen Zweitnamen besitzt, berücksichtigt 1, inkorrekte mit 0. Das 1PL-Modell (seine
neben Schwierigkeit und Diskrimination noch Itemcharakteristik) kann dann wie folgt ge-
itemspezifische Ratetendenzen. schrieben werden:

Die meisten Anwendungen dieser Modelle exp(θ − b j )


P(X j = 1 | θ ) = . (4.13)
betreffen Fähigkeits- und Leistungstests, de- 1 + exp(θ − b j )
ren Items gelöst oder nicht gelöst werden.
Für den Exponenten der logistischen Funktion
Modelliert werden in diesen Fällen die Lö-
in Gleichung (4.12) wird hier also die Diffe-
sungswahrscheinlichkeiten (oder Funktionen
renz θ − b j eingesetzt.
der Lösungswahrscheinlichkeiten). Die Mo-
delle können jedoch auch außerhalb des Leis- Betrachten wir zunächst die linke Seite der
tungsbereichs, also bei Persönlichkeits-, Ein- Gleichung. Hier stehen die personbedingten
stellungs-, Interessentests usw. mit binärem Lösungswahrscheinlichkeiten der Items. Per-
Antwortformat eingesetzt werden. In diesen sonbedingt bringt zum Ausdruck, dass diese
Fällen wird die Wahrscheinlichkeit von Ant- Wahrscheinlichkeiten von der Ausprägung des
worten in Schlüsselrichtung modelliert. Um Personmerkmals abhängen. Für die Interpreta-
umständliche Formulierungen zu vermeiden, tion dieser Wahrscheinlichkeiten können wir
sprechen wir im Folgenden nur von Lösungs- uns für jeden Punkt auf dem Merkmalskontinu-
wahrscheinlichkeiten; der Begriff ist hier also um Subpopulationen vorstellen, die jeweils die
generisch gemeint und soll nicht implizieren, gleiche Ausprägung aufweisen. P(X j = 1 | θ )
dass der Anwendungsbereich der Modelle auf ist dann die Wahrscheinlichkeit, dass ein zu-
Leistungstests beschränkt ist. fällig gewähltes Mitglied einer solchen homo-
genen Subpopulation das jeweilige Item j löst.
Ebenso möglich ist eine Interpretation in Be-
griffen des Anteils der Populationsmitglieder,

112
4.2 Item-Response-Theorie

die das Item korrekt beantworten. Wenn wir im dass diese Werte prinzipiell nach unten und
Folgenden einfach von Lösungswahrschein- oben offen sind, also zwischen −∞ und +∞ va-
lichkeiten Pj (θ ) sprechen, beziehen wir uns riieren können, in praktischen Anwendungen
immer auf diese bedingten Wahrscheinlichkei- aber deutlich begrenzter ausfallen. In unseren
ten. Beispielen umfasst der Wertebereich von −4
bis +4 die meisten Personen; θ -Werte von 0
I Abb. 4.5 stellt die Funktion für drei Items
repräsentieren eine mittlere Ausprägung des
unterschiedlicher Schwierigkeit dar. Die Funk-
Merkmals.
tion wird als Item-Response-Funktion, Item-
funktion oder Itemcharakteristik bezeichnet. Die Abbildung veranschaulicht eine essenziel-
Die graphische Darstellung heißt im Engli- le Eigenschaft des 1PL-Modells: alle Itemcha-
schen item characteristic curve, kurz ICC. Die rakteristiken verlaufen parallel. Die Kurven
Itemcharakteristik gibt an, wie sich die Lö- können entsprechend durch eine Verschiebung
sungswahrscheinlichkeit eines Items als Funk- entlang der Abszisse ineinander überführt wer-
tion des latenten Merkmals, dessen Indikator den. Die Tatsache, dass die Kurven parallel
es ist, verändert. sind, sich mithin nicht kreuzen, hat eine wich-
tige Implikation: die Schwierigkeitsrangreihe
Die Lösungswahrscheinlichkeiten hängen von
der Items bleibt bei Personen mit unterschiedli-
der Differenz zwischen der Merkmalsausprä-
cher Merkmalsausprägung immer die gleiche.
gung und dem Schwierigkeitsparameter eines
Sie hängt nicht vom Personmerkmal ab. Intui-
Items ab. Je höher die Merkmalsausprägung
tiv würde man dies von einem eindimensiona-
ist, desto höher ist auch die Lösungswahr-
len Modell auch erwarten. Es ist jedoch wich-
scheinlichkeit. Je höher der Schwierigkeits-
tig zu notieren, dass nichtüberlappende Item-
parameter eines Items ist, desto niedriger ist
charakteristiken weder im Ein-Faktor-Modell
die Lösungswahrscheinlichkeit. Diese Verhält-
noch in den beiden weiter unten besproche-
nisse entsprechen also genau dem, was man
nen Item-Response-Modellen garantiert sind.
intuitiv erwarten würde. Zu beachten ist, dass
Wie man sich leicht veranschaulichen kann,
die Polung des Schwierigkeitskennwerts der in
können im Ein-Faktor-Modell solche Über-
der Klassischen Testtheorie üblichen Polung
lappungen immer dann auftreten, wenn un-
entgegengesetzt ist.
terschiedliche Ladungen (Steigungen, Trenn-
Sind Personwert und Schwierigkeitsparameter schärfen) der Items zugelassen sind. Konse-
gleich (θ = b j ), so ist die Lösungswahrschein- quenz ist, dass ein Item j, das für Personen
lichkeit 0.5. Ist der Personwert höher als der mit niedrigen Faktorwerten schwieriger ist als
Schwierigkeitsparameter (θ > b j ), steigt die ein anderes Item k, für Personen mit hohen
Lösungswahrscheinlichkeit über 0.5 und nä- Faktorwerten leichter sein kann als k.
hert sich mit zunehmender Differenz asympto-
Die Kurven besitzen ihren Wendepunkt bei
tisch dem Wert 1. Ist der Personwert niedri-
θ -Werten, die den Schwierigkeitsparametern
ger als der Schwierigkeitsparameter (θ < b j ),
der Items entsprechen. Für Item 1 mit dem
sinkt die Lösungswahrscheinlichkeit unter 0.5
Schwierigkeitsparameter b1 = −2 liegt der
und nähert sich mit zunehmender Differenz
Wendepunkt zum Beispiel bei θ = −2. Wie
asymptotisch dem Wert 0.
erwähnt, ergeben sich an diesen Stellen Lö-
Die Interpretation der θ -Werte hängt von der sungswahrscheinlichkeiten von 0.5. Gleich-
gewählten Normierung ab. Hierfür existieren zeitig wirken sich hier Unterschiede in den
unterschiedliche Möglichkeiten, auf die wir Personmerkmalen stärker hinsichtlich der Lö-
noch kurz zu sprechen kommen. Für das Ver- sungswahrscheinlichkeit aus als an den ande-
ständnis des Folgenden genügt es zu wissen, ren Stellen, da die Kurven an ihrem Wende-

113
4 Modelle psychologischen Testens

1.0

Lösungswahrscheinlichkeit
0.8

0.6 Item 1 2 3

0.4

0.2

Abb. 4.5 0.0


Itemcharakteristiken des 1PL-Modells.
Die Schwierigkeiten der Items sind −2 −6 −4 −2 0 2 4 6

(Item 1), 0 (Item 2) und 3 (Item 3). Merkmalsausprägung

punkt am schnellsten steigen. Wie wir gleich Logit-Formulierung


noch darstellen werden, bedeutet dies, dass
die Information, die wir durch ein Item über
Das 1PL-Modell lässt sich in einer anderen,
die Merkmalsausprägung gewinnen, an die-
mathematisch äquivalenten Form schreiben,
sem Punkt am höchsten ist und mit zunehmen-
in der nicht die Lösungswahrscheinlichkeiten,
der Distanz geringer wird.
sondern bestimmte Transformationen der Lö-
Das 1PL-Modell kann um eine multiplikati- sungswahrscheinlichkeiten als abhängige Grö-
ve Konstante a ergänzt werden, die steilere ßen betrachtet werden. Verwendet wird die
oder flachere Itemcharakteristiken als die in Logit-Transformation, die durch
I Abb. 4.5 gezeigten zulässt. Das ergänzte
Modell lautet p
logit(p) = ln
1− p
exp[a(θ − b j )]
P(X j = 1 | θ ) = . (4.14)
1 + exp[a(θ − b j )] definiert ist. Dabei ist p ein Wahrscheinlich-
keitswert und ln der natürliche Logarithmus.
Für a = 1 erhalten wir das ursprüngliche
Modell (4.13). Für a > 1 resultieren steile- Der Teilausdruck p/(1 − p) heißt Wettquoti-
re (schneller ansteigende) Kurven, für a < 1 ent (englisch odds ratio). In unserem Kon-
entsprechend flachere (langsamer steigende). text gibt dieser Ausdruck an, wie hoch die
Diesen Steigungen korrespondieren im klas- Wahrscheinlichkeit, ein Item zu lösen, relativ
sischen Modell die Trennschärfen, im Fakto- zur Wahrscheinlichkeit, es nicht zu lösen, aus-
renmodell die Ladungen der Items, die in der fällt. Für eine Lösungswahrscheinlichkeit von
Item-Response-Theorie als Diskrimination be- 0.75 ergibt sich zum Beispiel ein Wettquoti-
zeichnet werden. Das Rasch-Modell schreibt ent von 3 (die Chancen stehen hier 75:25 oder
also keine bestimmte Diskrimination vor. We- 3:1 für die Lösung). Dieser Teil der Trans-
sentlich ist jedoch, dass alle Itemdiskrimina- formation bewirkt, dass die nach unten und
tionen gleich sein müssen. Ist dies nicht der oben geschlossene Wahrscheinlichkeitsskala
Fall, passt das Modell nicht auf die Daten. auf eine nach oben offene Skala gestreckt wird.

114
4.2 Item-Response-Theorie

Tab. 4.7
Wahrscheinlichkeit Wettquotient Logit
Wettquotienten und Logits für
ausgewählte Wahrscheinlichkeiten
0.01 0.01 −4.60
0.05 0.05 −2.94
0.10 0.11 −2.20
0.25 0.33 −1.10
0.50 1 0
0.75 3 1.10
0.90 9 2.20
0.95 19 2.94
0.99 99 4.60

Der zweite Teil der Transformation, die Lo- (4.14) anwenden, erhalten wir
garithmierung, öffnet auch die untere Gren-
ze, die beim Wettquotienten bei 0 liegt (für logit[P(X j = 1 | θ )] = θ − b j (4.15)
p = 0). Die Logit-Transformation liefert also bzw.
eine nach oben und unten offene Skala, die für
kleine Wahrscheinlichkeitswerte gegen −∞, logit[P(X j = 1 | θ )] = a(θ − b j ). (4.16)
für große Werte gegen ∞ strebt. Bei p = .5
ergibt sich ein Wert von 0. I Tab. 4.7 zeigt Für die logit-transformierten Wahrscheinlich-
die Wettquotienten und die Logits für einige keiten liefert das Rasch-Modell lineare Re-
ausgewählte Wahrscheinlichkeiten. Die Logit- gressionen mit konstanten Steigungen. Die
Werte stellen monotone Transformationen der logit-transformierten Lösungswahrscheinlich-
Wahrscheinlichkeitswerte dar. Am einfachsten keiten werden als einfache Differenz von Per-
denkt man hierbei an eine alternative Skala sonkennwert und Schwierigkeitskennwert be-
für die Beschreibung der Lösungswahrschein- schrieben, evtl. gewichtet mit einem konstan-
lichkeiten. Wenn wir also sagen, dass die Lö- ten Steigungsparameter.
sungswahrscheinlichkeit für ein Item bei einer Es existieren also zwei äquivalente Wege, den
bestimmten Persongruppe .75 beträgt, können Problemen bei der Anwendung des linearen
wir genauso gut sagen, dass der Logit-Wert des Modells auf Wahrscheinlichkeiten zu entge-
betreffenden Items für die Gruppe 1.1 beträgt. hen: Der eine besteht in der Veränderung der
Die Information ist die gleiche. Logit-Werte Funktionsgleichung, was sicherstellt, dass ihr
sind um einen Wahrscheinlichkeitswert von Wertebereich durch 0 und 1 begrenzt ist – sie-
0.5 symmetrisch, wie man anhand der Tabelle he Gleichung (4.13) –, der andere in der Stre-
erkennen kann. Im Schwierigkeitsbereich, der ckung der Wahrscheinlichkeitsskala auf einen
normalerweise für Testitems in Frage kommt Wertebereich, der nach beiden Seiten hin offen
(p zwischen .05 und .95), variieren die Logit- ist – Gleichung (4.15).
Werte ungefähr zwischen −3 und +3.
Im Rasch-Modell ist es die „Logit-
Warum in Logits anstatt in Wahrscheinlichkei- Formulierung“ (4.15), die den Ansatzpunkt für
ten denken? Die Antwort ist, dass diese klei- weitere Überlegungen liefert. Sie verdeutlicht,
ne Komplikation die Betrachtung der Eigen- dass Personen und Items im Rasch-Modell
schaften des Modells stark vereinfacht. Wenn auf einer gemeinsamen Skala lokalisiert
wir nämlich die Logit-Transformation auf bei- werden, deren Einheiten logit-transformierte
de Seiten der Modellgleichungen (4.13) bzw. Wahrscheinlichkeiten darstellen.

115
4 Modelle psychologischen Testens

Spezifische Objektivität ein beliebiges Item j aus dieser Menge heran.


Für die Logitvariablen erhalten wir hier
Eine besondere Eigenschaft von Items bzw. logit(P1 j ) = θ1 − b j für Person 1 und
Tests, die dem Rasch-Modell genügen, liegt logit(P2 j ) = θ2 − b j für Person 2.
darin, dass spezifisch objektive Vergleiche er-
möglicht werden. Vergleicht man nun die transformierten
Lösungswahrscheinlichkeiten der Personen
durch Bildung des Differenzwerts,
Spezifische Objektivität
logit(P1 j ) − logit(P2 j ) = θ1 − b j − θ2 + b j
Allgemein gesprochen sind Messungen spe-
zifisch objektiv, wenn = θ1 − θ2 ,

• Vergleiche zwischen den gemessenen so ist ersichtlich, dass der Schwierigkeitspara-


Objekten nicht davon abhängen, welche meter herausfällt. Die Differenz der transfor-
Instrumente zur Messung herangezogen mierten Lösungswahrscheinlichkeiten zweier
werden und Personen für beliebige Items hängt also allein
• Vergleiche zwischen Instrumenten nicht von der Differenz ihrer Merkmalsausprägun-
von den Objekten abhängen, die für den gen ab. Welches besondere Item für die Mes-
Vergleich verwendet werden. sung eingesetzt wird, ist irrelevant.
Die zweite Invarianzeigenschaft, die Itemver-
gleiche betrifft, lässt sich in analoger Weise de-
Dieser Begriff der Objektivität ist nicht iden-monstrieren. Für den Vergleich des Funktionie-
tisch mit dem in Kapitel 3 behandelten Test- rens zweier Items mit den Schwierigkeitspa-
gütekriterium gleichen Namens; er bringt viel- rametern b1 und b2 betrachten wir wiederum
mehr einen neuen Aspekt ins Spiel. Spezifisch die Differenz der Logit-Werte, diesmal jedoch
objektive Vergleiche sind invariant gegenüber bei „beliebigen“ Personen mit der Merkmals-
Instrumenten (in unserem Kontext: Items bzw. ausprägung θi . Wir erhalten
Tests) und Objekten (in unserem Kontext: Per-
logit(Pi1 ) = θi − b1 für Item 1 und
sonen). Rasch sah hierin ein wesentliches Prin-
zip wissenschaftlich begründeter Messungen logit(Pi2 ) = θi − b2 für Item 2.
(vgl. Fischer, 1988). Bildet man die Differenz, so ergibt sich b2 −
b ; der Personparameter fällt also heraus. Für
Betrachten wir zunächst die Vergleiche zwi- 1
Itemvergleiche sind also die Personwerte ir-
schen Personen. Spezifisch objektive Verglei-
relevant: Die Ergebnisse solcher Vergleiche
che zwischen Personen sind danach invariant
hängen allein von den Schwierigkeitsparame-
gegenüber den Items, die zur Messung des
tern ab.
Merkmals herangezogen werden. Dies bedeu-
tet, dass Ergebnisse des Vergleichs zweier Per- Im Ein-Faktor-Modell und den anderen noch
sonen mit den Merkmalsausprägungen θ1 und zu besprechenden Item-Response-Modellen
θ2 nicht von den Parametern der Items abhän- ist spezifische Objektivität nicht gewährleistet.
gen, mit denen der Vergleich vorgenommen Wie man sich anhand der entsprechenden Be-
wird. Gehen wir von einer rasch-homogenen rechnungen für das Faktorenmodell verdeutli-
Itemmenge aus, also Items, die zusammen die chen kann, hängen die Ergebnisse von Person-
Gleichungen (4.13) bzw. (4.15) erfüllen. Für vergleichen hier nicht nur von den Faktorwer-
den Vergleich der beiden Personen ziehen wir ten, sondern auch von der Ladung des jeweils

116
4.2 Item-Response-Theorie

herangezogenen Items ab (siehe Gleichung zulässt. Die Elimination von Items kann un-
4.11, S. 110); für die Differenz der Itemwerte ter Umständen zu einer substanziellen Reduk-
zweier Personen ergibt sich λ j ( f1 − f2 ). Für tion der Itemzahl führen, was auch in Item-
ein Item mit hoher Faktorladung resultieren Response-Modellen mit einer entsprechenden
also deutlichere Differenzen im Antwortver- Erniedrigung der Messpräzision einhergeht.
halten als für ein Item mit niedriger Ladung. In Dies kann in einigen Anwendungen nicht ak-
analoger Weise hängen Itemvergleiche nicht zeptabel sein. Auch die Ersetzung gestriche-
allein von den Schwierigkeiten der Items ab. ner Items durch modifizierte, von denen man
In Itemvergleiche gehen darüber hinaus eben- sich eine bessere Modellpassung erhofft, ist
falls die Ladungen, zusätzlich aber noch die manchmal schwer möglich, da die konzeptu-
Faktorwerte der herangezogenen Personen ein. ell treffendsten Items bereits erschöpft sind.
Mit der Verwendung eines erweiterten Mo-
Die Tatsache, dass rasch-homogene Items bzw. dells dagegen werden einige wünschenswerte
Tests spezifisch objektive Vergleiche ermögli- Eigenschaften des 1PL-Modells aufgegeben.
chen, liefert ein starkes Argument für den Ein- Insbesondere genügt das 2PL-Modell nicht der
satz des Modells in der Testkonstruktion. Im Forderung nach spezifischer Objektivität, wie
Hinblick auf die in diagnostischen Anwendun- wir gleich sehen werden.
gen besonders interessierenden Schätzungen
der Personparameter bedeutet spezifische Ob- Das 2PL- oder Birnbaum-Modell stellt eine
jektivität, dass Aussagen über Merkmalsunter- Generalisierung des 1PL-Modells dar, in dem
schiede zweier Personen unabhängig von der unterschiedliche Itemdiskriminationen zuge-
gewählten Normierung der Itemparameter (sie- lassen sind. Die Lösungswahrscheinlichkeiten
he Abschnitt 4.2.7), der Schwierigkeitsvertei- werden hier mit zwei Itemparametern model-
lung der Items sowie den Merkmalsausprägun- liert, nämlich Schwierigkeit (b j ) und Diskri-
gen anderer Personen sind (siehe Rost, 2004). mination (a j ). Für die Formulierung als logis-
Diese Invarianzeigenschaften sind weder im tisches Modell lautet die Modellgleichung
klassischen noch im Faktorenmodell gewähr- exp[a j (θ − b j )]
leistet. P(X j = 1 | θ ) = . (4.17)
1 + exp[a j (θ − b j )]
Für die Formulierung als Logit-Modell lautet
sie
4.2.4 2PL-Modell
logit[P(X j = 1 | θ )] = a j (θ − b j ). (4.18)
Die Voraussetzung konstanter Itemdiskrimi-
Im Unterschied zum Rasch-Modell ist die Dis-
nationen im Rasch-Modell bringt vorteilhafte
krimination hier nicht konstant. Vielmehr kann
Eigenschaften mit sich. Sie macht das Modell
sie von Item zu Item variieren. Das Rasch-
einfach und sichert spezifische Objektivität
Modell ist ein spezieller Fall des Birnbaum-
der Messung. Andererseits wird sie für man-
Modells: Setzt man a j auf einen konstanten
che Tests zu restriktiv sein. Will man bei ei-
Wert (etwa 1), geht das Birnbaum-Modell in
nem eindimensionalen Modell bleiben, steht
das Rasch-Modell über.
man vor der Wahl, entweder Items, die für
die mangelnde Passung des Modells verant- I Abb. 4.6 veranschaulicht die Effekte unter-
wortlich sind, aus dem Test zu eliminieren schiedlicher Diskriminationen auf die Item-
und eventuell durch neue Items zu ersetzen, charakteristiken. Der Diskriminationsparame-
oder ein erweitertes Modell zu verwenden, das ter gibt an, wie schnell sich die Lösungswahr-
unterschiedliche Diskriminationen der Items scheinlichkeiten mit der Merkmalsausprägung

117
4 Modelle psychologischen Testens

1.0
Item 1

Lösungswahrscheinlichkeit
0.8

0.6 Item 3

0.4

Item 2
0.2
Abb. 4.6
Itemcharakteristiken des 2PL-Modells.
Die Schwierigkeiten sind 0, 0 und 1, die 0.0
Diskriminationen sind 1, 0.5 und 0.5
(jeweils in der Reihenfolge der −6 −4 −2 0 2 4 6

Itemnummern). Merkmalsausprägung

verändern. Er ist ein Maß der Sensitivität eines Rangfolge der Lösungswahrscheinlichkeiten
Items für Merkmalsunterschiede, entspricht al- bei Personen mit θ = 2 für die drei Items
so den Trennschärfen bzw. Ladungen in linea- 1 > 2 > 3. Für Personen mit θ = −2 dagegen
ren Modellen. ist sie 2 > 3 > 1.
Mathematisch stellen die Itemdiskriminatio- Ein derartiger Effekt ist intuitiv wenig plau-
nen die Steigungen der Itemcharakteristiken sibel und könnte als Defekt des 2PL-Modells
an ihrem jeweiligen Wendepunkt b j dar. Für (und des Faktorenmodells) angesehen werden.
ein Item mit dem Schwierigkeitsparameter Natürlich wäre ein solcher Effekt praktisch
b j = 1 ist dies die Steigung am Punkt θ = 1. irrelevant, wenn er erst bei θ -Werten auftritt,
Wie im 1PL-Modell ist dies gleichzeitig der die außerhalb des normalen oder interessie-
Punkt im Merkmalskontinuum, an dem das renden Merkmalsbereichs liegen. Er illustriert
Item am schärfsten zwischen Personen mit jedoch, dass das 2PL-Modell keine spezifisch
unterschiedlichen Ausprägungen der Person- objektiven Messungen liefert. Vergleiche zwi-
variablen differenziert. schen den Items hängen hier von den jeweils
betrachteten Personen ab. Bei Personen mit
Eine bemerkenswerte Eigenschaft des 2PL- θ < 0 würde Item 2 leichter erscheinen als
Modells, die es mit dem linearen Faktorenmo- Item 1, bei Personen mit θ > 0 wäre dies um-
dell teilt, besteht darin, dass sich Itemcharak- gekehrt.
teristiken mit unterschiedlichen Diskrimina-
tionen auch in nichtextremen Bereichen des
Merkmalskontinuums überschneiden können.
In den Beispielkurven betrifft dies Item 1 (fet- 4.2.5 3PL-Modell
te Kurve), dessen Charakteristik sich mit der
der beiden anderen Items kreuzt. Dies hat Im 1PL- und 2PL-Modell nähern sich die
die Konsequenz, dass die Rangfolge der Lö- Lösungswahrscheinlichkeiten mit sinkender
sungswahrscheinlichkeiten bei Personen mit Merkmalsausprägung asymptotisch dem Wert
unterschiedlicher Merkmalsausprägung diffe- 0. Diese Annahme wird bei manchen Tests
rieren kann. In unserem Beispiel ist etwa die nicht für alle Items realistisch sein. Bei

118
4.2 Item-Response-Theorie

1.0

Lösungswahrscheinlichkeit
0.8 bj = 1, aj = 1

0.6

0.4

c2 = 0.25
0.2

c1 = 0
0.0

Abb. 4.7 −6 −4 −2 0 2 4 6

Itemcharakteristiken des 3PL-Modells. Merkmalsausprägung

Fähigkeits- und Leistungstests, in denen ein bereich gemacht werden. Bei Fähigkeits- und
Mehrfachwahlformat verwendet wird, besteht Leistungstests wird es allerdings in der Regel
für Personen, welche die korrekte Antwort tatsächlich so sein, dass Items in unterschiedli-
nicht kennen, eine gewisse Wahrscheinlich- chem Maße für Raten anfällig sind. Die Grund-
keit, das Item durch Raten zu lösen. Dies gleichung des resultierenden 3PL-Modells lau-
macht sich darin bemerkbar, dass die unte- tet:
re Asymptote der Itemcharakteristik größer
als 0 ausfällt: Sie wird ungefähr der Ratewahr- P(X j = 1 | θ ) =
scheinlichkeit entsprechen (1 / Anzahl der Ant- exp[ai (θ − bi )]
wortoptionen). Auch beim offenen Antwortfor- ci + (1 − ci ) . (4.19)
1 + exp[ai (θ − bi )]
mat können Ratetendenzen eine gewisse Rolle
spielen. Im Allgemeinen wird man hier jedoch
Wie ersichtlich, stellt dieses Modell eine Er-
versuchen, die Items so zu formulieren, dass
weiterung der bislang skizzierten Modelle dar,
entsprechende Effekte zu vernachlässigen sind.
das für c j = 0 (bei keinem Item wird „gera-
In Tests zur Messung von motivationalen Per-
ten“) in das Birnbaum-Modell übergeht. Auch
sönlichkeitseigenschaften, Einstellungen usw.
mit dem 3PL-Modell sind spezifisch objektive
können sich im Prinzip ebenfalls Asymptoten
Vergleiche nicht gewährleistet.
größer als 0 ergeben. Sie spielen hier aller-
dings keine so große Rolle wie in Fähigkeits- I Abb. 4.7 illustriert den Effekt des Ratepara-
tests. meters. Im Beispiel beträgt er für Item 2 c2 =
0.25. Generell gibt er die asymptotische Lö-
Um Ratetendenzen zu berücksichtigen, muss sungswahrscheinlichkeit an, die Personen mit
ein dritter Itemparameter ci in die Modellglei- niedriger Merkmalsausprägung erreichen. Ein
chung eingeführt werden. Er wird Rateparame- Wert von 0.25 wäre für ein Multiple-Choice-
ter oder Pseudo-Rateparameter genannt. Die Item mit vier Antwortoptionen zu erwarten,
Qualifikation „Pseudo“ soll andeuten, dass wenn (a) alle Optionen für Personen, die die
hier keine Annahmen über die Grundlage von Antwort nicht kennen, gleich attraktiv sind und
Asymptoten größer Null im unteren Merkmals- (b) all diese Personen raten.

119
4 Modelle psychologischen Testens

4.2.6 Lokale Unabhängigkeit wir nun merkmalshomogene Subpopulatio-


nen, so bedeutet dies, dass die Varianzquel-
len durch Konstanthalten ausgeschaltet wer-
Bislang wurden einige der basalen Eigen- den: innerhalb dieser Populationen variieren
schaften logistischer Testmodelle anhand ihrer die Faktoren nicht. Folglich müssen Abhän-
Grundgleichungen beschrieben. Diese Grund- gigkeiten zwischen den Items, die auf diese
gleichungen sind (ganz wie beim Faktorenmo- Quellen zurückgehen, verschwinden. Im Rah-
dell) nicht als Rechenformeln anzusehen, die men der Item-Response-Theorie ist es üblich,
man nach den interessierenden Person- und das „Verschwinden“ der Zusammenhänge un-
Itemparametern auflösen könnte. Vielmehr for- ter den Items bei Konstanthalten der zugrunde
mulieren sie einschränkende Bedingungen für liegenden Merkmale als lokale Unabhängig-
Items, die – im Sinne des jeweiligen Modells keit oder genauer lokale stochastische Unab-
– homogen sind, also den in den Gleichun- hängigkeit zu bezeichnen. Die Qualifikation
gen formulierten Bedingungen genügen. Um „lokal“ meint dabei, dass Unabhängigkeit für
Person- und Itemparameter in empirischen An- jeden Ort in dem betrachteten latenten Merk-
wendungen schätzen zu können, müssen wei- malsraum besteht.
tere einschränkende Bedingungen (Restriktio-
nen) formuliert werden. Die wichtigste ist die Im Ein-Faktor-Modell wird nur eine Quelle an-
sog. lokale Unabhängigkeit. genommen, die für die Kovariation der Items
verantwortlich ist; dies ist eine relativ strikte
Annahme. Auch in den hier betrachteten Item-
Lokale Unabhängigkeit Response-Modellen wird diese Annahme ge-
macht: Es handelt sich um eindimensionale
Lokale Unabhängigkeit bedeutet, dass sich Modelle. Entsprechend bezieht sich lokale Un-
die Zusammenhänge unter den Items voll- abhängigkeit auf die einzelnen Punkte in ei-
ständig durch das Modell (seine Person- nem Merkmalskontinuum. Die Begriffe lokale
und Itemparameter) erklären lassen. Sie Unabhängigkeit und Dimensionalität sind eng
liegt vor, wenn innerhalb merkmalshomo- miteinander verknüpft.
gener Subpopulationen keine Abhängigkei-
ten zwischen den Itemvariablen existieren.
Definition: Dimensionalität

Die Dimensionalität eines Tests ist die Zahl


Für das Verständnis des Konzepts ist ein Rück- der den Antworten zugrunde liegenden la-
griff auf das Faktorenmodell nützlich. Auch tenten Merkmale, die angenommen werden
Faktoren klären die statistischen Zusammen- müssen, um lokale Unabhängigkeit zu er-
hänge zwischen den Items eines Tests in dem reichen. Eindimensionale Modelle gehen
Sinne auf, dass in Subpopulationen mit fixier- davon aus, dass hierfür ein latentes Merk-
ten Faktorwerten die Kovarianzen zwischen mal genügt.
den Items den Wert 0 annehmen. Dies klingt
zunächst kontraintuitiv, da die Items in der Ge-
samtpopulation ja positiv miteinander korre- Es existieren zwei unterschiedlich starke For-
lieren. Im Faktorenmodell werden die Zusam- men der lokalen Unabhängigkeit. Schwache
menhänge zwischen den Items auf gemeinsa- (oder bivariate) lokale Unabhängigkeit meint,
me Varianzquellen zurückgeführt. Diese Va- dass in einer Subpopulation mit fixierten laten-
rianzquellen – die Faktoren – bedingen die ten Merkmalen die Items paarweise unabhän-
Abhängigkeiten unter den Items. Betrachten gig sind. Diese Form liegt der Faktorenanalyse

120
4.2 Item-Response-Theorie

zugrunde. In ihr werden nur die bivariaten Zu- bestehenden Test 0.2, 0.4 und 0.9. Bei Vorlie-
sammenhänge (also Kovarianzen oder Korrela- gen der starken Form der lokalen Unabhängig-
tionen) unter den Antwortvariablen erklärt und keit muss die Wahrscheinlichkeit, alle Items
für die Schätzung der Modellparameter heran- zu lösen, dort 0.2 · 0.4 · 0.9 = 0.072 betragen,
gezogen. Die starke Form der lokalen Unab- die Wahrscheinlichkeit, nur Item 3 zu lösen
hängigkeit fordert dagegen nicht nur bivariate, (1 − 0.2) · (1 − 0.4) · 0.9 = 0.432 usw.
sondern vielmehr vollständige Unabhängig-
keit der Antwortvariablen in Subpopulationen Es ist deutlich, dass starke lokale Unabhän-
mit fixierten latenten Merkmalen. Wird der gigkeit strengere Anforderungen stellt als die
Begriff lokale Unabhängigkeit ohne weitere schwache. Liegt starke lokale Unabhängigkeit
Qualifikation verwendet, bezieht man sich da- vor, ist immer auch die schwache erfüllt. Um-
bei auf die starke Form. gekehrt kann es jedoch prinzipiell sein, dass
schwache lokale Unabhängigkeit gegeben, die
Formal bedeutet die schwache Form der Un- starke jedoch verletzt ist. In diesem Fall müss-
abhängigkeit, dass die Wahrscheinlichkeit für ten zur Erfüllung der starken Form mehr Merk-
die Lösung zweier Items j und k in merkmals- male (und damit Personparameter) eingeführt
homogenen Subpopulationen identisch ist mit werden als zu der der schwachen.
dem Produkt ihrer Lösungswahrscheinlichkei-
Lokale Unabhängigkeit muss bei der Schät-
ten. (Dies ist die Definition der Unabhängig-
zung der Personparameter in Item-Response-
keit für zwei Ereignisse.) Notieren wir die
Modellen vorausgesetzt werden. Einige Me-
Wahrscheinlichkeit, dass beide Items gelöst
thoden zur Schätzung der Parameter nutzen
werden mit P(X j = 1, Xk = 1 | θ ), so muss für
dabei die ganze Information im Antwortmus-
jedes Itempaar eines Tests gelten
ter, wie es der starken Form der lokalen Un-
abhängigkeit entspricht. Sie heißen entspre-
P(X j = 1, Xk = 1 | θ ) = Pj (θ )Pk (θ ) chend full information methods. Andere Me-
thoden stützen sich lediglich auf die bivaria-
Für zwei Items mit den Lösungswahrschein- te Information, verwenden also die schwache
lichkeiten von 0.5 und 0.4 in einer merkmals- Form der lokalen Unabhängigkeit. Hier wird
homogenen Gruppe muss zum Beispiel die argumentiert, dass es die Standardprozeduren
Wahrscheinlichkeit, beide Items zu lösen, bei für die Formulierung und Zusammenstellung
Unabhängigkeit 0.2 betragen. Gilt diese Be- von Testitems in realen Anwendungen ausge-
ziehung nun für alle Itempaare und alle Orte sprochen unwahrscheinlich machen, dass das
auf dem Merkmalskontinuum, wäre die Be- schwache Prinzip erfüllt, das starke dagegen
dingung schwacher lokaler Unabhängigkeit verletzt ist (McDonald, 1999).
erfüllt.
In praktischen Anwendungen wird die Dimen-
Starke lokale Unabhängigkeit fordert mehr. sionalität eines Tests oft über faktorenanalyti-
Dies drückt sich darin aus, dass hier nicht sche Techniken geprüft. Wie in Abschnitt 4.2.1
nur die Lösungswahrscheinlichkeiten für Item- dargestellt wurde, führt dies bei binären Items
paare herangezogen werden müssen; vielmehr jedoch zu dem Problem, dass die Ergebnisse
muss das ganze Antwortmuster betrachtet wer- einer Faktorenanalyse die Existenz von mehr
den, also alle Kombinationen aus Lösungen latenten Variablen nahelegen kann, als zur Er-
und Nichtlösungen einzelner Items. Nehmen klärung der Antworten wirklich benötigt wer-
wir an, für einen spezifischen Ort auf dem den („Schwierigkeitsfaktoren“). Diesem Pro-
Merkmalskontinuum betrügen die Lösungs- blem kann man begegnen, indem man Fakto-
wahrscheinlichkeiten für einen aus drei Items renanalysen nicht auf der Basis von Kovarian-

121
4 Modelle psychologischen Testens

zen oder (Produkt-Moment-) Korrelationen be- Weise berechnen, vielmehr müssen sie auf
rechnet, sondern auf der Grundlage sog. tetra- der Basis der Testdaten geschätzt werden. Bei
chorischer Korrelationen. Tetrachorische Kor- diesen Schätzungen werden zwei Vorausset-
relationen ermöglichen es (unter bestimmten zungen gemacht. Erstens wird vorausgesetzt,
Annahmen), die Höhe der Korrelation zweier dass die jeweils zugrunde gelegte Modellglei-
quantitativer Variablen zu schätzen, für die le-chung gültig ist, beim Rasch-Modell also die
diglich binäre Indikatoren verfügbar sind. Sie Gleichung 4.13, beim Birnbaum-Modell die
fallen generell höher aus als die entsprechen- Gleichung 4.17, beim 3PL-Modell die Glei-
den Produkt-Moment-Korrelationen, insbeson- chung 4.19. Zweitens wird vorausgesetzt, dass
dere für Items unterschiedlicher Schwierigkeit. lokale Unabhängigkeit erfüllt ist. In diesem
Mit diesem Vorgehen wird die schwache Form Abschnitt skizzieren wir, wie sich die interes-
der lokalen Unabhängigkeit getestet. sierenden Kennwerte schätzen lassen, wenn
beide Voraussetzungen erfüllt sind. Wir bezie-
Ist lokale Unabhängigkeit verletzt, so lassen
hen uns dabei auf das Rasch-Modell.
sich die Antworten nicht auf ein latentes Merk-
mal zurückführen. Im Rahmen des Hauptan-
wendungsbereichs der Modelle, Fähigkeits-
Itemparameter
und Leistungstests, kann dies etwa bedeuten,
dass In Abschnitt 4.2.3 wurde als eine bemer-
• die Lösung eines Items die eines anderen kenswerte Eigenschaft des Rasch-Modells der
begünstigt oder sogar voraussetzt, Sachverhalt herausgehoben, dass Itemverglei-
• sich im Testverlauf differenzielle Lern- oder che von den Personwerten unabhängig sind:
Transfereffekte einstellen, Für die Differenz zweier Itemparameter macht
• der Test Itempaare oder -gruppen umfasst, es keinen Unterschied, welche Personen oder
die in sehr ähnlicher Weise formuliert sind, Persongruppen jeweils betrachtet werden. Aus
• die Beantwortung einiger Items an Bedin- dieser Invarianzeigenschaft (und lokaler Unab-
gungen geknüpft ist, die nicht bei allen Per- hängigkeit) lässt sich ableiten, dass die Diffe-
sonen vorliegen. renz zweier Schwierigkeitsparameter der fol-
genden Bedingung genügt:
Ein häufig genanntes Beispiel für den letz-
ten Punkt ist ein für die Erfassung mathemati- P(X j = 0, Xk = 1)
scher Fähigkeiten konzipierter Test, der einige b j − bk = ln . (4.20)
P(X j = 1, Xk = 0)
schwer verständliche Textaufgaben umfasst.
In diesen Aufgaben würden neben mathema- Ist zum Beispiel die Wahrscheinlichkeit, dass
tischen auch sprachliche Kompetenzen eine Item k gelöst wird, Item j aber nicht, 0.20, die
Rolle spielen, die eventuell nicht bei allen Per- Wahrscheinlichkeit, dass Item j gelöst wird,
sonen vorausgesetzt werden können. Konse- Item k aber nicht, 0.10, ergibt sich hier eine
quenz ist, dass die Assoziationen unter den positive Differenz von
Items stärker ausfallen werden als unter Zu- 0.20
grundelegung nur eines latenten Merkmals zu b j − bk = ln = ln(2) ≈ 0.69.
0.10
erwarten ist.
Item j ist also schwieriger als Item k. Der Wert
von 0.69 ist der horizontale Abstand der Item-
4.2.7 Parameterschätzung charakteristiken. Bei gleicher Schwierigkeit
würden sich Werte von 0 ergeben. Wäre Item
Item- und Personkennwerte lassen sich in j leichter als Item k, würde ein negativer Wert
Item-Response-Modellen nicht in direkter resultieren.

122
4.2 Item-Response-Theorie

Diese Berechnungen können wir paarweise Personwerte


für alle Items eines Tests anstellen. Um nun
eine Skala für die Schwierigkeitsparameter zu Wenn die Itemparameter vorliegen, können die
gewinnen, kann man ein beliebiges Item her- Personwerte auf der Basis der Antwortmuster
ausgreifen und ihm den Schwierigkeitswert geschätzt werden. Eine direkte Berechnung
0 zuordnen. Die Schwierigkeitsparameter der ist auch hier nicht möglich. Was jedoch be-
übrigen Items werden dann relativ zu diesem rechnet werden kann, ist die Wahrscheinlich-
Item ausgedrückt. Die Wahl eines Items für keit, mit der ein gegebenes Antwortmuster bei
die Normierung entspricht der Festlegung ei- Personen mit einem bestimmten Wert von θ
nes Ankerpunkts der Skala. Wenn wir im Bei- vorkommt. Maximum-Likelihood-Methoden
spiel Item j als Ankerpunkt wählen, ergibt kann man sich als numerische Suchprozeduren
sich für Item k ein Schwierigkeitsparameter vorstellen; sie suchen nach Parameterwerten,
von −0.69; wird Item k gewählt, resultiert für hier einem Wert θ , für den die Wahrschein-
Item j ein Parameterwert von 0.69. lichkeit eines Antwortmusters bei Geltung des
Modells maximal wird. Derartige, nachträg-
Man kann hier jede Konstante addieren oder lich berechnete Wahrscheinlichkeiten heißen
subtrahieren, ohne dass sich die übrigen Ska- Likelihoods (im Unterschied zu probabilities,
leneigenschaften verändern. Häufig wählt man die sich auf Erwartungen künftiger Ereignisse
die Konstante so, dass die Summe aller Item- beziehen). Der Wert mit der maximalen Wahr-
parameter den Wert 0 ergibt, ∑ b j = 0. Die- scheinlichkeit/Likelihood liefert den Schätz-
se Art der Normierung heißt Summennor- wert für Personen mit dem entsprechenden
mierung. Bei der Summennormierung erhält Antwortmuster.
ein Item mit durchschnittlicher Lösungswahr-
scheinlichkeit (bezogen auf die anderen Items Betrachten wir zur Verdeutlichung einen Test,
des Tests) den Schwierigkeitswert 0. Praktisch der aus vier Items besteht. Es sei das 1PL-
werden die in Gleichung (4.20) auftauchen- Modell zugrunde gelegt worden und die
den Wahrscheinlichkeiten durch die entspre- Schwierigkeitsparameter der Items seien ge-
chenden relativen Häufigkeiten geschätzt. Wir schätzt worden mit
besitzen damit die Möglichkeit, die Itempara- b1 = −1,
meter auf der Grundlage empirischer Daten zu
b2 = 0,
bestimmen.
b3 = 1 und
Hier entsteht allerdings das Problem, dass sich
b4 = 2.
mehr Wahrscheinlichkeitsverhältnisse berech-
nen lassen als zur Etablierung der Skala benö- Wir wollen nun den Personkennwert für Perso-
tigt werden. Würden nur die paarweisen Ver- nen mit dem Antwortmuster (1, 1, 0, 0) schät-
hältnisse herangezogen, könnten entsprechend zen, d. h. die beiden ersten (leichten) Items
unterschiedliche Schätzwerte resultieren. Ge- wurden gelöst, die beiden letzten (schwieri-
eignete Schätzwerte lassen sich jedoch durch gen) dagegen nicht. Hierbei müssen wir von
numerische Prozeduren finden. In Program- der Voraussetzung lokaler Unabhängigkeit
men zur Schätzung der Itemparameter werden ausgehen. Bei lokaler Unabhängigkeit können
hierzu, wie in der Faktorenanalyse, Varianten wir die Likelihood L dieses Antwortmusters
der Maximum-Likelihood-Schätzung verwen- für jeden beliebigen Wert von θ aus
det. Auf eine Darstellung dieser komplexen
L(θ ) = P1 (θ ) P2 (θ ) Q3 (θ ) Q4 (θ ) (4.21)
Algorithmen verzichten wir hier. Ihr Prinzip
soll aber anhand der Schätzung der Personpa- errechnen. Wie bereits besprochen, vertreten
rameter zumindest veranschaulicht werden. Pj (θ ) und Q j (θ ) die Wahrscheinlichkeiten

123
4 Modelle psychologischen Testens

für korrekte und inkorrekte Antworten. Die entnehmen, dass die Likelihood bei einem θ -
Werte Pj (θ ) erhalten wir aus der Modell- Wert von 0.5 ihre Maximum erreicht. Dieser
gleichung, indem wir dort die entsprechen- Wert wäre in unserem Fall der gesuchte Schätz-
den Itemparameter b j und einen bestimmten wert für Personen, die dieses Antwortmuster
Personkennwert einsetzen. Q j (θ ) ergibt sich aufweisen.
aus 1 − Pj (θ ). Dies funktioniert im 2PL- und
Im Beispielfall hätten wir den Personwert in
3PL-Modell in ganz analoger Weise, aller-
relativ einfacher Weise eingrenzen können.
dings müssen hier im Unterschied zum Rasch-
Hier wurden die beiden einfachen Items 1 und
Modell natürlich auch für die Diskriminations-
2 gelöst, die beiden schwierigen Items 3 und
und Rateparameter Schätzwerte vorliegen.
4 dagegen nicht. Da Person- und Itemparame-
Für die Berechnung der Likelihood des Ant- ter im Rasch-Modell auf der gleichen Skala
wortmusters setzen wir nun probeweise einen lokalisiert werden, wissen wir also von vorn-
Personwert von 0 ein und berechnen die vier herein, dass der dem Antwortmuster zuzuord-
Antwortwahrscheinlichkeiten auf der Basis nende Personwert zwischen dem Schwierig-
der Modellgleichung (4.13). Wir erhalten keitskennwert von Item 2 (b2 = 0) und Item
3 (b2 = 1) liegen muss. Entsprechendes gilt
P1 = exp(0 − (−1)) / (1 + exp(0 − (−1))) auch für das Antwortmuster (1, 1, 1, 0), dessen
= 0.731, Likelihood-Funktion ebenfalls in I Abb. 4.8
dargestellt ist.
P2 = exp(0 − 0) / (1 + exp(0 − 0))
= 0.5, Betrachten wir die dritte der in der Abbil-
dung gezeigten Likelihood-Funktionen, die
Q3 = 1 − exp(0 − 1) / (1 + exp(0 − 1)) man für das Antwortmuster (1, 0, 1, 0) er-
= 0.731, halten würde. Sie illustriert eine besondere
Q4 = 1 − exp(0 − 2) / (1 + exp(0 − 2)) Eigenschaft des Rasch-Modells. Wie im An-
= 0.881. fangsbeispiel werden hier jeweils zwei Auf-
gaben gelöst, die Testsummenwerte sind al-
so 2. Auch die Likelihood-Funktionen errei-
Durch Multiplikation der vier Werte erhalten chen ihr Maximum an der gleichen Stelle; den
wir die Likelihood des Antwortmusters für den beiden Antwortmustern wird also der gleiche
θ -Wert von 0, also L(θ = 0). Sie beträgt hier Personwert von 0.5 als Schätzer zugeordnet.
0.235. Um nun denjenigen θ -Wert zu ermit- Es ist eine wesentliche Eigenschaft des Rasch-
teln, bei dem die Likelihood ihren maximalen Modells, dass alle Antwortmuster, die den glei-
Wert erreicht, können wir probeweise weitere chen Testsummenwert ergeben, ihre maxima-
Personwerte einsetzen, die den Bereich abde- le Likelihood an der gleichen Stelle besitzen.
cken, in dem der Parameterwert liegen kann. Für sie wird jeweils der gleiche Personwert
Dies würde es erlauben, das Maximum der geschätzt. Tatsächlich ist der Personwert ei-
Likelihood einzugrenzen. Wir würden dann ne monotone, leicht kurvilineare Funktion des
verschiedene Werte der Likelihood-Funktion Testsummenwerts. Technisch gesprochen lie-
erhalten. Sie beschreibt die Likelihood eines fert der Testsummenwert im Rasch-Modell ei-
Antwortmusters als Funktion der Personwerte. ne erschöpfende Statistik für den Personwert.
Für I Abb. 4.8 wurden diese Berechnungen Dies meint, dass bei Gültigkeit des Modells
für viele Werte in einem Bereich von θ = −1 der Summenwert die einzige Information ist,
und θ = 3 durchgeführt. Die fette Linie stellt die wir aus dem Antwortmuster benötigen, um
die Likelihood-Funktion unseres Beispielant- den Personwert bestimmen zu können. Wel-
wortmusters (1, 1, 0, 0) dar. Der Kurve ist zu che spezifischen Items gelöst oder nicht ge-

124
4.2 Item-Response-Theorie

(1,1,1,0)
0.30
(1,1,0,0)
0.25

Likelihood
0.20

0.15

(1,0,1,0)
0.10

0.05
(0,0,1,1)
Abb. 4.8
Likelihood-Funktionen für vier −1 0 1 2 3

Antwortmuster in einem Test. Merkmalsausprägung

löst wurden, ist für die Schätzung also irre- sonparameter verdient als das Muster (1, 1, 0,
levant. Im 1-PL-Modell liefern die einfachen 0), in dem allein die beiden leichten Aufga-
Testsummenwerte im Allgemeinen sehr gute ben gelöst werden. Es ist für das Verständnis
Näherungen für die Personparameter. Im 2PL- der behandelten Testmodelle essenziell nach-
Modell und im 3PL-Modell ist dies nicht der zuvollziehen, weshalb die Intuition hier in die
Fall: Hier müssen bei der Schätzung auch die Irre führt.
Diskriminationen bzw. die Rateparameter der
Items berücksichtigt werden. Dies kann man sich am Verlauf der Likelihood-
Die Tatsache, dass die Information, die für die Funktion klarmachen. Die Likelihood-Werte
Schätzung der Personwerte benötigt wird, be- liegen beim zweiten Muster generell deutlich
reits im Testsummenwert steckt, ist neben der unter den Werten des ersten Musters. Beim
spezifischen Objektivität ein zweites zentra- dritten Muster (0, 0, 1, 1), dessen Likelihood-
les Merkmal des Rasch-Modells. Zwei Punk- Funktion unten in der Abbildung angedeutet
te, die den Testsummenwert als erschöpfende ist, wird das noch deutlicher: das Maximum
Statistik betreffen, sollen kurz angesprochen ist in der Abbildung kaum zu erkennen. Die
werden (siehe Rost, 1999, für eine detaillierte beiden letzten Muster sind unter Zugrundele-
Diskussion). gung des Rasch-Modells also insgesamt we-
niger wahrscheinlich als das erste (vgl. die
Der erste bezieht sich auf einen Einwand, der Flächenanteile unter den Kurven). Etwas sa-
sich besonders bei der Anwendung des Rasch- lopp kann man sagen, dass das Rasch-Modell
Modells auf Leistungstests aufdrängen könnte: diese Muster zwar nicht verbietet, jedoch (und
Personen mit den Antwortmustern (1, 1, 0, 0), dies betrifft besonders das dritte Muster) ihr
(1, 0, 1, 0) und (0, 0, 1, 1) haben zwar die Auftreten nur mit geringer Wahrscheinlichkeit
gleiche Zahl von Items gelöst; hierunter befin- zulässt. Treten sie häufiger auf, sind die Mo-
den sich aber bei den beiden letzten Gruppen dellannahmen verletzt. Es ist naheliegend, Ant-
schwierigere Items. Besonders das Muster (0, wortmuster, die dem dritten ähneln, damit zu
0, 1, 1), in dem zwei schwierige Aufgaben ge- erklären, dass einige sehr fähige Personen mit
löst werden, hätte intuitiv einen höheren Per- leichten Aufgaben unterfordert sind und ihnen

125
4 Modelle psychologischen Testens

hier manchmal Flüchtigkeitsfehler unterlaufen. wird in Item-Response-Modellen zur Beschrei-


Für den Test würde dies aber bedeuten, dass bung der Messpräzision eines Items verwen-
hier nicht nur ein Merkmal gemessen wird, die det.
interessierende Fähigkeit, sondern mindestens
zwei, also zum Beispiel zusätzlich Unachtsam-
keit. Die Annahme einer latenten Dimension, Iteminformation
die in den drei hier behandelten Modellen ge- Die Iteminformation beschreibt den Beitrag
macht wird, wäre dann verletzt. eines Items zur Messung des jeweils in Re-
Der zweite Punkt betrifft den Sachverhalt, dass de stehenden Merkmals. Items mit hohen
auch im klassischen Modell Testsummenwerte Informationswerten tragen mehr zur Mes-
als Indikatoren der Ausprägung von Person- sung eines Merkmals bei – reduzieren den
merkmalen verwendet werden. Wenn nun der Messfehler des gesamten Tests stärker – als
Summenwert im Rasch-Modell für die Schät- Items mit niedriger Information.
zung des Personwerts im Prinzip ausreicht,
warum dann den mit dem Einsatz des Modells
in der Testkonstruktion verbundenen erhöh- In der Klassischen Testtheorie und im Fak-
ten Aufwand in Kauf nehmen? Aus der Per- torenmodell werden Standardmessfehler bzw.
spektive der Item-Response-Theorie kann man Iteminformation als konstante, fixe Merkmale
hier antworten, dass erst das Rasch-Modell von Tests bzw. Items in bestimmten Popula-
eine strikte theoretische Begründung für die tionen behandelt. In Item-Response-Modellen
Verwendung von Summenwerten liefert. Im werden sie dagegen als Funktionen der Person-
Rahmen des klassischen Ansatzes existieren kennwerte eingeführt. Hiermit wird berück-
hierfür primär intuitive (die Items korrelieren sichtigt, dass Items und Tests in bestimmten
substanziell) oder pragmatische Argumente Bereichen des Merkmalskontinuums mehr, in
(die Summenwerten sagen bestimmte Kriteri- anderen dagegen weniger informativ sein kön-
en vorher). In einer manchmal vorgebrachten nen als andere Tests bzw. Items. Während die
schärferen Form lautet das Gegenargument, im klassischen Ansatz berechneten Kennwer-
dass die Verwendung von Summenwerten al- te gewissermaßen „Durchschnittswerte“ dar-
lein bei Gültigkeit des Rasch-Modells legitim stellen, die über das Merkmalsspektrum einer
ist, man sich also den erhöhten Aufwand auf Stichprobe berechnet werden und damit die
keinen Fall sparen darf. Dies ist jedoch nicht Präzision von Tests und Items „im Großen und
ganz unstrittig (siehe McDonald, 1999, für ei- Ganzen“ beschreiben, sind die entsprechenden
ne Gegenposition). Größen in Item-Response-Modellen von vorn-
herein spezifisch für bestimmte Bereiche aus
dem Kontinuum.
4.2.8 Informationsfunktion
Informationsfunktionen lassen sich für ein-
Wie wir sahen, kann die Messpräzision eines zelne Items wie für ganze Tests bestim-
Tests im Rahmen des Klassischen Testtheorie men. Betrachten wir zunächst die Informa-
durch seinen Standardmessfehler charakteri- tionsfunktion für einzelne Items, die Item-
siert werden: Je niedriger der Standardmess- Informationsfunktion I j (θ ). Im Rahmen des
fehler, desto höher die Messpräzision. Das 1PL-Modells lässt sich diese Funktion in sehr
Pendant zum Standardmessfehler des Tests einfacher Weise berechnen; es gilt nämlich:
auf Itemebene ist die spezifische Varianz bzw.
ihr Gegenstück, die Iteminformation. Letztere I j (θ ) = Pj (θ ) · Q j (θ ). (4.22)

126
4.2 Item-Response-Theorie

0.30 0.30 0.30


−2 0 1 1.1 0
0.25 0.25 0.25
Iteminformation

0.20 0.20 0.20


0.25
0.15 0.15 0.7 0.15
0.10 0.10 0.10
0.05 0.05 0.05 0.5
0.3
0.00 0.00 0.00
−4 0 2 4 −4 0 2 4 −4 0 2 4
Merkmalsausprägung

Abb. 4.9 Informationsfunktionen für drei Items mit unterschiedlichen Schwierigkeiten (links),
Diskriminationsparametern (Mitte) und Pseudorateparametern (rechts).

Für die Bestimmung der Funktion ist hier für (a < 1) verlaufen als die im linken Teil der
Pj (θ ) bzw. Q j (θ ) wiederum die Modellglei- I Abb. 4.9 gezeigten Kurven.
chung zu verwenden.
Im 2PL-Modell hängen die Informationsfunk-
I Abb. 4.9 (linke Graphik) illustriert die tionen der Items zusätzlich von den Diskrimi-
Funktionen für drei Items unterschiedlicher nationsparametern ab:
Schwierigkeit (b j = −2, 0, und 1). Im 1PL-
I j (θ ) = a2j · Pj (θ ) · Q j (θ ). (4.24)
Modell ergeben sich parallele Kurven, die
sich nur hinsichtlich der Lokation ihres Maxi- Da sich die Diskriminationsparameter von
mums unterscheiden. Es ist ersichtlich, dass Item zu Item unterscheiden können, sind
die Iteminformation jeweils dort ihr Maximum die Verläufe der Informationsfunktion nicht
erreicht, wo sich Schwierigkeit und Merkmals- mehr parallel, wie dies im mittleren Teil der
ausprägung genau entsprechen. Ein Item lie- I Abb. 4.9 für drei Items gleicher Schwierig-
fert dann viel Information über das in Rede keit (b = 0), aber unterschiedlicher Diskrimi-
stehende Merkmal, wenn sich Schwierigkeits- nationsparameter illustriert ist. Der Abbildung
parameter und Personwert die Waage halten. ist zu entnehmen, dass unterschiedliche Item-
Für Personen mit θ = 1 sind also Items mit diskriminationen zwei Effekte besitzen. Das
Schwierigkeiten von b = 1 am informativsten, trennschärfste Item (a = 1.1) liefert, wie man
für Personen mit θ = −2 dagegen Items mit erwarten kann, über einen weiten Bereich des
Schwierigkeiten von b = −2. Dies sind Items Merkmalskontinuums mehr Information als
mit mittlerer Schwierigkeit für die jeweiligen das weniger trennscharfe (a = 0.7). Entfernt
Persongruppen. man sich jedoch von dem Bereich, in dem die
Für Tests mit stärkerer oder geringerer Diskri- Items optimal diskriminieren, kippt das Bild,
mination der Items errechnet sich die Itemin- da sich die Kurven kreuzen. Für Personen
formation aus mit sehr niedriger oder sehr hoher Merkmals-
ausprägung liefert das weniger trennscharfe
I j (θ ) = a2 · Pj (θ ) · Q j (θ ). (4.23) Item auf einmal mehr Information. Ein wenig
trennscharfes Item (a = 0.3) trägt dagegen ge-
Hier ergeben sich wiederum parallele Kurven- nerell kaum Information zur Merkmalsausprä-
verläufe, die jedoch steiler (a > 1) oder flacher gung bei.

127
4 Modelle psychologischen Testens

0.6

Testinformation
0.5

0.4

Information
Iteminformation
0.3
b = −3 b = −1.5 b = 1.8 b = 2.7
0.2

0.1

Abb. 4.10 0.0


Item- und Test- −4 −2 0 2 4
informationsfunktionen. Merkmalsausprägung

Die Informationsfunktionen der Items des extremeren Bereichen, die den Schwierigkei-
3PL-Modells ist etwas komplizierter, da zu- ten der Items korrespondieren. Soll der Test
sätzlich der Rateparameter berücksichtigt wer- in diesem Bereich informativer sein, müssten
den muss. Die rechte Graphik der I Abb. 4.9 Items aufgenommen werden, deren Schwie-
veranschaulicht dessen Effekte für drei Items rigkeiten dem θ -Wert der Talsohle entspricht.
mit gleichen Schwierigkeits- (b = 0) und Dis- Generell erlauben es Informationsfunktionen,
kriminationsparametern (a = 1). Im Vergleich die Items exakt so zusammenzustellen, dass
zum Item, in dem Raten keine Rolle spielt die Testwerte dort gut messen, wo dies für
(c = 0), verlieren Items bei zunehmender Rate- die konkrete Testanwendung am wichtigsten
tendenz an Informationswert; darüber hinaus ist. Wie wir in Kapitel 3 sahen, existieren
verschiebt sich der Punkt, an dem die Items diehierfür im klassischen Ansatz allenfalls un-
maximale Information liefern, leicht in Rich- gefähre Faustregeln. Fragen der Itemselektion
tung höherer Merkmalsausprägungen. und -zusammenstellung lassen sich nur auf
der Grundlage von Item-Response-Modellen
Die Informationsfunktion eines Tests, I(θ )
in wirklich befriedigender Weise beantworten.
lässt sich durch Summierung aller Iteminfor-
mationsfunktionen gewinnen: Die Fehlerbehaftetheit der Schätzung eines
gegebenen Punkts im Merkmalskontinuum ist
I(θ ) = ∑ I j (θ ). (4.25) eine inverse Funktion der Testinformation. Sie
Die einfache Summierung ist möglich, da die wird als Standardschätzfehler bezeichnet und
Items aufgrund der lokalen Unabhängigkeit lautet 1
additive Beiträge zur Testinformation liefern. SE(θ̂ ) = p (4.26)
I Abb. 4.10 illustriert dies für einen Rasch- I(θ )
homogenen Test, der aus vier Items besteht. Der Standardschätzfehler ist das Pendant zum
Da der Beispieltest aus zwei leichten und zwei Standardmessfehler (SEM) in der Klassischen
schwierigen Items zusammengesetzt ist, er- Testtheorie. Im Unterschied zum SEM variiert
gibt sich hier für die Testinformation im Mit- er mit der Ausprägung des Merkmals, ist also
telbereich des Merkmalskontinuums ein Tal. keine „Durchschnittsgröße“, für die dann (un-
Dort liefert der Test also weniger Informati- realistischerweise) angenommen wird, dass
on über die Merkmalsausprägung als in den sie für den ganzen Merkmalsbereich gilt. Bei

128
4.2 Item-Response-Theorie

hinreichend großer Itemanzahl lässt sich mit Monographie sich auch sehr gut zur Vertie-
Hilfe des Standardmessfehlers ein Konfidenz- fung des Themas eignet. Speziellere Anwen-
intervall für den Personwert bestimmen. Für dungen faktorenanalytischer Modelle werden
ein 95 %-Intervall berechnet man zum Bei- bei Eid, Gollwitzer und Schmitt (2011) sowie
spiel θ ± 1.96 · SE(θ̂ ), I Kap. 3.4.2. Auch Moosbrugger und Kelava (2008) behandelt.
summarische Schätzungen der Reliabilität Beaujean (2014) gibt eine praktisch orientier-
sind auf der Basis der Informationsfunktion te, recht umfassende Darstellung von Faktoren-
möglich (siehe Rost, 2004). und anderen Strukturgleichungsmodellen und
führt in deren Berechnung mit Hilfe des Sta-
Informationsfunktionen besitzen eine Reihe tistiksystems R (http://www.r-project.org) ein.
wichtiger Anwendungen. Sie bieten z. B. die
Möglichkeit, die Items eines Test so auszuwäh-
Im zweiten Abschnitt wurden grundlegen-
len, dass sie dem Fähigkeitsniveau der zu tes-
de Begriffe dreier eindimensionaler Item-
tenden Personen in optimaler Weise angepasst
Response-Modelle dargestellt. Wichtige tech-
sind. Dies geschieht beim adaptiven Testen
nische Fragen, wie etwa Möglichkeiten der
(I Kap. 6.7). Eine zweite Anwendungsmög-
Normierung, der Modellkontrolle oder der
lichkeit ist die Zusammenstellung von Tests,
Auswahl zwischen Testmodellen konnten hier
die in bestimmten Bereichen des Merkmals-
nur angedeutet werden bzw. mussten ausge-
kontinuums besonders gut zwischen den Pro-
spart bleiben. Derartige Fragen werden z. B. in
banden differenzieren. In diesem Fall würde
den Büchern von Eid und Schmidt (2014), Em-
man die Items so zusammenstellen, dass die
bretson und Reise (2000), McDonald (1999),
Testinformation im interessierenden Bereich
Rost (2004) sowie Steyer und Eid (1993) be-
des Merkmalskontinuums besonders hoch ist.
handelt. Strobl (2012) gibt eine kompakt ge-
Für die nicht interessierenden Bereiche wür-
haltene Einführung in das Rasch-Modell und
de man dann weniger Items verwenden, so
wesentliche Erweiterungen, wobei sie auch die
dass die Testökonomie erhöht und die Belas-
Berechnung der Modelle mit R erläutert.
tung der Probanden gesenkt werden könnte.
Auch bei Erstellung paralleler Formen eines
Die Item-Response-Theorie verfügt inzwi-
Testverfahrens ist die Verfügbarkeit von Infor-
schen über ein sehr umfangreiches Modell-
mationsfunktionen sehr nützlich.
und Methodeninventar, deren Anwendungen
weit über die hier besprochenen Möglichkei-
ten hinausgehen. So existieren etwa Modelle
für mehr als zwei Antwortkategorien, Model-
Weiterführende Literatur
le, die mehr als ein latentes Merkmal zulas-
sen, oder Modelle, die Messung und Klassi-
fikation von Personen miteinander verbinden.
Im ersten Abschnitt dieses Kapitels wurden ba- Einführende Darstellungen dieser Themen lie-
sale Anwendungen faktorenanalytischer Tech- fern die Bücher von Eid und Schmidt (2014)
niken für psychometrische Zwecke vorgestellt. sowie Rost (2004). Über spezifische Ansätze
Wie wir sahen, stellen Faktorenanalysen Infor- informieren die Herausgeberbände von Nering
mation bereit, die zur Bestimmung der Mess- und Ostini (2010) sowie Rost und Langeheine
präzision eines Verfahrens benötigt werden. (1997).
Darüberhinaus ermöglichen sie es, theoreti-
sche Annahmen über die Struktur eines Item-
satzes zu testen. Die Darstellung folgte in
zentralen Teilen McDonald (1999), dessen

129
4 Modelle psychologischen Testens

Fragen zur Wissenskontrolle

1. Welche allgemeinen Fragen der Item-


und Testanalyse lassen sich mit faktoren-
analytischen Modellen beantworten?
2. Was versteht man unter explorativen und
konfirmatorischen Faktorenanalysen?
3. Wie ist ein Ein-Faktor-Modell mathema-
tisch definiert? Für was stehen die Teil-
ausdrücke des Modells?
4. Wie kann man die Güte der Passung eines
Faktorenmodells beurteilen?
5. In welcher Beziehung steht der Reliabili-
tätskoeffizient ω zu Cronbachs α?
6. Mit welchen faktorenanalytischen Model-
len lassen sich faktoriell komplexe Tests
beschreiben?
7. Aus welchen Gründen führt die Anwen-
dung linearer Modelle bei binären Items
zu Problemen?
8. Was versteht man unter Item-Response-
Funktionen (Itemcharakteristiken)?
9. Welche zentralen Eigenschaften besit-
zen die Itemcharakteristiken im Rasch-
Modell?
10. Welche Bedingungen müssen erfüllt sein,
damit von „spezifischer Objektivität“ ge-
sprochen werden kann?
11. Woran lässt sich erkennen, dass spezi-
fische Objektivität im 2PL- und 3PL-
Modell nicht gegeben ist?
12. In welcher Beziehung stehen lokale Un-
abhängigkeit und Dimensionalität?
13. Wofür sind Item- und Testinformations-
funktionen nützlich?

130
III Diagnostische Urteile und
Entscheidungen
5 Der Prozess der diagnostischen Urteilsbildung

5.1 Klinische und statistische Urteilsbildung . . . . . . . . . . . . . . . . . . . . 134


5.1.1 Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
5.1.2 Statistische Vorhersage . . . . . . . . . . . . . . . . . . . . . . . . . . 137
5.1.3 Empirische Befunde . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
5.1.4 Kritik und Antikritik . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
5.2 Paramorphe Modelle des Diagnostizierens . . . . . . . . . . . . . . . . . . . 147
5.2.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
5.2.2 Erstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
5.2.3 Lineare Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.2.4 Konfigurationsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . 153
5.3 Vorteile expliziter Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
5.4 Nutzung der klinischen Inferenz . . . . . . . . . . . . . . . . . . . . . . . . 158
5.5 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

Diagnostische Urteile sind Aussagen, die auf Datensammlung und -erhebung, die Datenbe-
der Basis vorliegender oder eigens erhobener wertung und -kombination im Hinblick auf
psychologischer Daten über eine Person, ei- die Hypothesen, die diagnostische Entschei-
ne Gruppe oder einen Sachverhalt getroffen dung sowie die Überprüfung der Folgen von
werden. Beispiele für diagnostische Urteile Entscheidungen beinhaltet (I Kap. 7). Es ist
sind: „Herr X leidet unter einer generalisier- klar, dass die einzelnen Schritte dieses Prozes-
ten Angststörung“, „Die Arbeitsgruppe Y ist ses jeweils ein erhebliches Maß an Inferenz,
durch starkes Konkurrenzverhalten geprägt“, also Schlussfolgerung, Gewichtung und Be-
oder „Therapie A hat bei Frau Z eine höhere wertung, verlangen.
Erfolgschance als Therapie B“. Im Rahmen
Im vorliegenden Kapitel beschäftigen wir uns
von Interventionen liefern diagnostische Ur-
mit einer zentralen Komponente der Urteils-
teile die Grundlage für Empfehlungen oder
bildung, nämlich der Datenkombination oder
Entscheidungen.
-integration. Diesem Thema kann man sich un-
ter drei Fragestellungen nähern:
Die Urteilsbildung ist Teil eines mehrstufigen
und rückgekoppelten Vorgangs, der die erste 1. Wie kommen diagnostische Urteile zustan-
Analyse sozusagen „von selbst eingehender“ de?
Daten, die Hypothesenbildung, die Herstel- 2. Wie gültig sind diese Urteile?
lung von Untersuchungssituationen, die Aus- 3. Wie lässt sich deren Qualität sichern und
wahl geeigneter diagnostischer Verfahren, die gegebenenfalls optimieren?

133
5 Der Prozess der diagnostischen Urteilsbildung

Unser Ausgangspunkt ist die zweite Frage, Jahren kristallisierten sich zwei Positionen her-
in der die Validität der Urteilsbildung ange- aus, deren Vertreter scheinbar antagonistische
sprochen ist. Die Validität von Diagnosen war Verfahren der Diagnosefindung favorisierten,
Thema einer lang anhaltenden Diskussion um nämlich „klinische“ oder „statistische“. Im
die Vor- und Nachteile klinischer (informel- Fokus standen dabei vor allem prognostische
ler) und statistischer (formeller) Methoden der Fragestellungen, etwa die Erfolgschancen ei-
Datenkombination. Wir stellen diese Diskussi- ner bestimmten Therapie bei einem Klienten,
on und die hieraus zu ziehenden Schlussfolge- das Rückfallrisiko von Straftätern, der aka-
rungen im ersten Abschnitt des Kapitels dar. demische Erfolg von Studienbewerbern oder
der Ausgang schwerwiegender physischer Ein-
Der zweite Abschnitt widmet sich einem Teil-
griffe zur Behandlung psychischer Störungen
aspekt der Frage nach dem Zustandekommen
(Grove & Meehl, 1996). Aus diesem Grund
diagnostischer Urteile. Auch hier fokussieren
wurde die Debatte unter dem Titel „klinische
wir die Gewichtung und die Kombination vor-
vs. statistische Vorhersage“ geführt. Sie be-
liegender Daten. Die Gewichtung und Kom-
trifft jedoch nicht nur Prognosen, sondern viel-
bination von Daten lässt sich mit Hilfe sog.
mehr auch andere Arten diagnostischer Urteile
paramorpher Modelle abbilden. Es handelt
unter Unsicherheit (z. B. Retrodiktionen, etwa
sich um Modelle, in denen die Datenkombi-
wenn das Vorliegen von Kindesmissbrauch auf
nation bei Diagnostikern in formeller Weise
der Basis von Zeugenaussagen beurteilt wer-
dargestellt wird. Mit derartigen Modellen wird
den soll).
die Urteilsbildung explizit beschrieben.
Einen Meilenstein in der Kontroverse um die
Paramorphe Modelle liefern auch Ansatzpunk-
angemessene Art des Vorgehens stellt Paul
te für die Optimierung des diagnostischen Vor-
Meehls (1954) inzwischen klassische Mono-
gehens, die wir im dritten Abschnitt zusam-
graphie „Clinical versus statistical prediction“
menfassen. Im vierten Abschnitt des Kapitels
dar. Meehl, selbst praktizierender (psychoana-
wird eine Möglichkeit dargestellt, klinische
lytisch orientierter) klinischer Psychologe, ver-
und statistische Formen der Datenkombina-
suchte hier als einer der ersten, den Diagno-
tion miteinander zu verbinden, indem klini-
seprozess rational zu rekonstruieren, indem
sche Inferenz im Rahmen formeller Prozedu-
er die Argumente der klinischen und der sta-
ren genutzt wird. Auch hier geht es um die
tistischen Seite gegenüberstellte und auf die
Optimierung der Qualität diagnostischer Ur-
Ergebnisse bis dahin vorliegender empirischer
teile.
Untersuchungen bezog.
Die klinische Vorhersage repräsentierte da-
5.1 Klinische und statistische mals gewissermaßen das Standardmodell des
diagnostischen Vorgehens. Ihr Fundament ist
Urteilsbildung
menschliche Beurteilung. Im Allgemeinen
handelt es sich dabei um Beurteilungen durch
5.1.1 Definitionen Experten oder Expertengremien, in psycho-
therapeutischen Kontexten etwa einer Fallkon-
Historisch gesehen wurde die diagnostische ferenz. Charakteristisch für das Vorgehen ist
Urteilsbildung zunächst fast ausschließlich un- eine deutliche Orientierung an den jeweili-
ter dem Gesichtspunkt ihrer Validität disku- gen Besonderheiten des konkret vorliegenden
tiert. Wie gut treffen Diagnosen und Vorher- Falls. Dies manifestiert sich sowohl in der Prä-
sagen zu, die mittels unterschiedlicher Metho- ferenz für individuumszentrierte („biographi-
den gewonnen werden? Bereits in den 1920er sche“) Formen der Datenerhebung (Gespräch,

134
5.1 Klinische und statistische Urteilsbildung

Anamnese, Interview usw.) als auch in der Art den akademischen Erfolg beispielsweise die
der Datenintegration. Letztere ist stark durch allgemeine Intelligenz und die Schulabschluss-
kasuistische Erwägungen geprägt: Diagnosen note. Statistische Modelle sehen im einfachs-
werden also durch Vergleich mit ähnlichen ten Fall so aus, dass ein interessierendes Kri-
Fällen, die in der Vergangenheit auftraten und terium (Rückfall, Ausmaß des Studienerfolgs)
deren Ausgang bekannt ist, sowie der Bewer- durch eine gewichtete Kombination von Prä-
tung der jeweiligen „spezifischen Differenzen“ diktoren vorhergesagt wird. Die hierfür opti-
zum aktuellen Fall getroffen. Die klinische malen Gewichte werden in empirischen Un-
Vorhersage ist weitgehend erfahrungs- und – tersuchungen vorab geklärt. Die Regeln, nach
wie Kritiker hinzufügen würden – intuitions- denen eine Vorhersage erfolgt, sind also im
gesteuert: Die Regeln, auf deren Grundlage Unterschied zur klinischen Urteilsbildung völ-
Entscheidungen gefällt werden, sind häufig lig explizit. Menschliche Beurteilung ist in die
weder explizit noch gar empirisch validiert. Datenkombination nicht involviert. Sie kann
Es wird erwartet, dass die mehrjährige Aus- allein bei der Datenerhebung eine Rolle spie-
bildung, die Arbeitserfahrung, sowie die Fä- len, etwa wenn die Schwere einer Gewalttat
higkeit, große Datenmengen in angemessener durch Beurteiler eingestuft wird. Ein weite-
Weise zu integrieren, es klinischen Diagnosti- rer Unterschied zur klinischen Urteilsbildung
kern dennoch erlaubt, zu validen Vorhersagen betrifft die Tatsache, dass individuelle Beson-
zu gelangen (Wiggins, 1973). Zu beachten ist, derheiten nur insoweit berücksichtigt werden,
dass sich die „klinische“ Methode nicht nur als sie durch die ins Modell einbezogenen Prä-
in der klinisch-psychologischen Diagnostik, diktorvariablen abgedeckt sind. Da die Menge
sondern vielmehr auch in anderen Bereichen der Prädiktorvariablen im Allgemeinen recht
der Angewandten Psychologie findet, z. B. in begrenzt ist, fallen viele Eigenheiten konkreter
der Personalauslese (I Kap. 14). Ihr wesentli- Fälle bei der statistischen Vorhersage „unter
ches Merkmal ist der Rekurs auf menschliche den Tisch“, werden also nicht genutzt, obwohl
Beurteilung bei der Erhebung und Integration sie vielleicht verfügbar sind.
diagnostischer Information.
Als Meehl (1954) sein Buch vorlegte, war be-
Das Alternativmodell der statistischen Vorher-
reits eine hitzige Debatte über die angemes-
sage stützt sich allein auf empirisch gesicherte
sene Vorgehensweise entbrannt. Empirische
Regelmäßigkeiten in Daten, die für den vorlie-
Untersuchungen zur Klärung der Frage, wel-
genden Fall einschlägig sind. Man rekurriert
che Vorgehensweise bessere Ergebnisse liefert,
hier also auf bereits festgestellte Zusammen-
ließen allerdings noch keine allgemein akzep-
hänge zwischen bestimmten Prädiktor- und
tierten Schlussfolgerungen zu.
Kriteriumsvariablen, die auf einen neuen Fall
angewendet und damit in die Zukunft proji-
Wichtig in Meehls Beitrag zur Klärung der
ziert werden.
Kontroverse war eine Unterscheidung, die,
Prädiktorvariablen oder kurz Prädiktoren sind manchmal leicht modifiziert, in vielen nachfol-
Variablen, deren Ausprägung bekannt ist und genden Untersuchungen übernommen wurde.
die zur Vorhersage eines noch nicht bekannten Meehl differenzierte zwischen der Art der Da-
Kriteriumswerts – des Werts der interessieren- tenerhebung oder Messung und der Art der
den Variablen – genutzt werden. In einem Mo- Kombination der Daten für eine Vorhersage
dell des Rückfallrisikos von Straftätern könn- (I Abb. 5.1). Er wies darauf hin, dass bei-
ten z. B. die Schwere der Straftat, die Häu- de Aspekte des diagnostischen Vorgehens oft
figkeit früherer Rückfälle und das Geschlecht nicht streng genug unterschieden worden sei-
Prädiktorvariablen sein, in einem Modell für en. Damit seien sie meist auch in empirischen

135
5 Der Prozess der diagnostischen Urteilsbildung

Datenerhebung Datenkombination
Diagnose
Prognose
psychometrisch formell/statistisch
Entscheidung
nichtpsychometrisch informell/klinisch

Abb. 5.1 Datenerhebung und Datenkombination.

Untersuchungen konfundiert gewesen. Erhe- Auf der Seite der Datenkombination differen-
bung und Kombination sind jedoch logisch ge- ziert Meehl ebenfalls zwei Methoden. Die
trennte Schritte. Wer die Leistungsfähigkeit ei- Datenkombination kann entweder formell (al-
ner diagnostischen Prozedur untersuchen will, ternative Ausdrücke sind: mechanisch, aktua-
muss beide Vorgänge also separat betrachten. risch, algorithmisch, explizit) oder informell
(beurteilend, intuitiv, holistisch, implizit) er-
Auf der Seite der Datenerhebung unterschei- folgen. Entscheidend für die Qualifikation der
det Meehl zwischen zwei Informationsquellen, Datenkombination als formell ist die Existenz
die für eine Vorhersage genutzt werden kön- angebbarer Regeln, wie sie z. B. bei statisti-
nen, nämlich psychometrischen und nichtpsy- schen Vorhersagemodellen (aber nicht allein
chometrischen. Psychometrische Daten wer- hier) vorliegen.
den von Tests und anderen Verfahren geliefert,
für die eine standardisierte Vorgabe sowie eine Es ist wichtig zu notieren, dass die Art der
einheitliche Klassifikation und Verrechnung Methode, formell oder informell, mit der Ef-
der Reaktionen gewährleistet ist (I Kap. 3). fektivität eines Vorhersagesystems logisch
Solche Daten sind von Ermessensentscheidun- nichts zu tun hat. Ein formelles System würde
gen der beurteilenden Person frei. Bei nicht- z. B. auch dann vorliegen, wenn ein Personal-
psychometrischen Daten, die Erleben und Ver- auswahlgremium konsistent der Regel folgt
halten von Menschen betreffen, ist dies nur sel- „Wenn der Bewerber blaue Augen hat, zum
ten der Fall. Ein Beispiel für nichtpsychome- Vorstellungstermin einen quergestreiften Pull-
trische Daten sind die Eindrücke eines Diagno- over trägt und ,Grüß Gott‘ als Begrüßung ver-
stikers, die er aus den Äußerungen einer Per- meidet, ist er für die Stelle geeignet, ansonsten
son während eines Interviews gewinnt. Hier nicht“. Dieses System wäre formell, allerdings
fungiert der beurteilende Diagnostiker gewis- im Hinblick auf die Vorhersage der beruflichen
sermaßen selbst als Messinstrument. Bewährung vermutlich nicht sonderlich vali-
de.
Die Differenzierung zwischen psychometri-
schen und nichtpsychometrischen Daten ist üb- Psychometrische und nichtpsychometrische
rigens nicht identisch mit der Unterscheidung Daten können formell oder informell integriert
zwischen quantitativen und qualitativen Daten. werden, was vier basale Möglichkeiten der
Auch nichtpsychometrische Verhaltensdaten Diagnosefindung liefert:
können quantitativ sein, etwa dann, wenn der
Diagnostiker Ratingskalen für die Aufzeich- 1. nichtpsychometrische Daten werden infor-
nung seiner Eindrücke einsetzt. Darüber hin- mell kombiniert (z. B. wird die Fahreig-
aus sagt Meehls Unterscheidung im Prinzip nung eines alkoholauffälligen Verkehrsteil-
nichts über die Objektivität oder Zuverlässig- nehmers auf der Grundlage eines Interviews
keit der Messung aus. Auch trainierte Beurtei- beurteilt),
ler können einen hohen Grad an Objektivität 2. psychometrische Daten werden informell
und Zuverlässigkeit erreichen. kombiniert (z. B. werden die Ergebnisse von

136
5.1 Klinische und statistische Urteilsbildung

Konzentrations-, Vigilanztests usw. heran- 5.1.2 Statistische Vorhersage


gezogen und intuitiv für die Diagnose ge-
nutzt), Wie erwähnt, stellt ein statistisches Vorgehen
3. nichtpsychometrische Daten werden for- nicht die einzige Möglichkeit dar, Daten in for-
mell kombiniert (es wird z. B. ein Interview meller Weise miteinander zu kombinieren. Für
durchgeführt, die dabei anfallenden Daten Vorhersagezwecke ist dies jedoch sicherlich
jedoch nach einem fixierten Regelsystem die naheliegenste Methode.
integriert),
4. psychometrische Daten werden formell kom- Ein häufig verwendetes Modell ist die mul-
biniert (es werden die Ergebnisse von tiple Regression. In der multiplen Regressi-
Konzentrations-, Vigilanztests usw. heran- on wird die Variation einer quantitativen Kri-
gezogen, die anschließend in eine Glei- teriumsvariablen durch eine additive und ge-
chung zur Bestimmung des Unfallrisikos wichtete Kombination mehrerer („multipler“)
eingesetzt werden). quantitativer oder binärer Prädiktorvariablen
beschrieben. Die einfache Regression ist ein
Zwei weitere Möglichkeiten entstehen da- Spezialfall dieses Modells, die nur einen Prä-
durch, dass psychometrische und nichtpsycho- diktor umfasst. Kriterium könnte z. B. ein Maß
metrische Daten vorliegen, die entweder for- des Berufserfolgs wie erreichte Gehaltsstufe,
mell oder informell kombiniert werden kön- die Durchschnittsnote im Abschlusszeugnis
nen (Sawyer, 1966). Die beiden letzten Fälle eines akademischen Ausbildungsgangs oder
dürften in der diagnostischen Praxis die häu- ein Indikator der Lebenszufriedenheit nach ei-
figsten sein, da im Allgemeinen Daten aus bei- ner psychotherapeutischen Behandlung sein.
den Quellen vorliegen werden. Relevante Prädiktoren könnten etwa Daten
aus Fähigkeitstests, Interessentests oder Per-
Die von Meehl monierte Konfundierung ent- sönlichkeitsinventaren sein. Voraussetzung für
steht nun daraus, dass Befürworter formel- die Anwendung eines regressionsanalytischen
ler Methoden (statistische Vorgehensweise) Vorhersagemodells ist, dass sich das Kriterium
häufig psychometrische (und andere „harte“) in einem quantitativen Wert ausdrücken lässt.
Verhaltensdaten gegenüber nichtpsychometri- Hierfür werden evtl. mehrere Variablen aggre-
schen („weichen“) Daten bevorzugen, wäh- giert (für die Messung des Berufserfolgs z. B.
rend Befürworter informeller Methoden (klini- Beurteilungen von Vorgesetzten oder Maße
sche Vorhersage) nichtpsychometrischen Da- der Arbeitsproduktivität).
ten einen vergleichsweise hohen Stellenwert
einräumen. Unterschiede in der Validität kli- Liegen Messungen für das Kriterium Y und
nischer und statistischer Vorhersagen können die Prädiktoren X1 , X2 , . . . vor, so lässt sich ein
damit auf die Art der verwendeten Daten, die multiples Regressionsmodell erstellen. Dieses
Methode der Datenkombination oder beides Modell hat die Form
zurückgehen. Für eine adäquate Bewertung
der Vorgehensweisen ist es notwendig, diese Ŷ = a + b1 X1 + b2 X2 . . . + bn Xn .
Konfundierung aufzuheben. Beiden Methoden
der Datenkombination sollten also die glei- Ŷ repräsentiert dabei die durch das Modell vor-
chen Daten zur Verfügung stehen. hergesagten Kriteriumswerte, a ist eine additi-
ve Konstante, die in psychologischen Untersu-
Bevor wir hierfür relevante Untersuchungen chungen meist ohne genuines Interesse ist, b1
und deren Resultate schildern, ist es sinnvoll, bis bn sind die Gewichte, mit denen die Prädik-
die statistische Datenkombination etwas näher toren zur Vorhersage des Kriteriums beitragen.
zu beleuchten. Sie werden Regressionsgewichte genannt und

137
5 Der Prozess der diagnostischen Urteilsbildung

stellen die eigentlich interessierenden Parame- Beispiel


ter des Modells dar. In der Regressionsanalyse
werden die Parameter (a und bi ) so festgelegt, Angenommen, als Kriterium sei der finanzi-
dass eine mathematisch optimale Vorhersage elle Profit in 1000 e gemessen worden, den
der Kriteriumswerte erfolgt, also die (quadrier- eine Person einer Organisation im Mittel
ten) Abweichungen zwischen den durch das jährlich einbringt. Erhält die Prädiktorva-
Modell prädizierten Kriteriumswerten Ŷ und riable „numerische Intelligenz“, gemessen
den faktischen Kriteriumswerten Y minimal auf einer IQ-Skala, ein b-Gewicht von 2
werden. (2000 e pro IQ-Punkt), so bedeutet dies,
dass eine Person mit einem IQ-Wert von
Bei der Erstellung eines regressionsanalyti- 115 der Organisation im Mittel 15 × 2 ×
schen Vorhersagemodells interessieren primär 1000 e = 30 000 e mehr einbringt als eine
zwei Sachverhalte. Der erste betrifft die Vor- Person mit einem IQ-Wert von 100 (Durch-
hersagekraft des Modells: Wie genau lässt sich schnitt) und sonst gleichen Ausprägungen
der faktische Kriteriumswert Y durch den vor- aller anderen in das Modell eingehenden
hergesagten Kriteriumswert Ŷ approximieren? Prädiktorvariablen.
Ein Maß hierfür liefert die Korrelation zwi-
schen Y und Ŷ . Dieses Maß heißt multiple Kor-
relation und wird mit R symbolisiert. Die mul-
Um die Bedeutung von Prädiktorvariablen,
tiple Korrelation kennzeichnet die Stärke des
die auf unterschiedlichen Skalen (z. B. IQ-
Zusammenhangs zwischen mehreren Prädikto-
Werte, Rohwerte) gemessen wurden, einfacher
ren und einem Kriterium. Sie kann prinzipiell
vergleichen zu können, werden die Regressi-
zwischen 0 und 1 variieren. Ein Wert nahe
onsgewichte meist standardisiert, indem man
0 bedeutet einen schwachen Zusammenhang
sie mit der Standardabweichung ihrer zuge-
zwischen Prädiktoren und Kriterium. Die Vor-
hörigen Prädiktorvariablen multipliziert und
hersage ist in diesem Fall sehr fehlerbehaftet.
durch die des Kriteriums teilt. Tatsächlich wür-
Dagegen weist ein Wert von 1 auf einen perfek-
de man standardisierte Koeffizienten direkt
ten Zusammenhang hin. In diesem Fall könn-
als Ergebnis der Regressionsanalyse erhalten,
te das Kriterium fehlerfrei aus den Prädiktor-
wenn man Kriterium und Prädiktoren zuvor z-
variablen vorhergesagt werden. Das Quadrat
transformiert. Diese standardisierten Gewichte
der multiplen Korrelation, R2 , gibt den Anteil
werden in der psychologischen Literatur meist
der Varianz des Kriteriums an, das durch alle
als β -Gewichte bezeichnet. Ihre Interpretation
im Modell enthaltenen Prädiktoren aufgeklärt
ist analog zu den unstandardisierten Gewich-
wird.
ten, nur dass hier die Einheiten des Kriteriums
Wenn ein psychologisch bedeutsamer Zusam- und der Prädiktoren jeweils Standardabwei-
menhang zwischen Prädiktoren und Kriterium chungen sind. Ein β -Gewicht von 0.5 würde
festgestellt werden konnte, ist die zweite inter- beispielsweise bedeuten, das eine Erhöhung
essierende Frage, welche Prädiktorvariablen des zugehörigen Prädiktors um eine Standard-
mit welchem Gewicht zur Vorhersage beitra- abweichung im Mittel (sofern alle anderen Prä-
gen. Hierfür werden die Regressionskoeffizi- diktoren auf dem gleichen Wert fixiert werden)
enten (b-Gewichte) herangezogen. Sie geben mit einer Erhöhung des vorhergesagten Kri-
an, um welchen Betrag das Kriterium dem Mo- teriums um eine halbe Standardabweichung
dell zufolge steigt oder sinkt, wenn die zugehö- einhergeht. Standardisierte Gewichte vereinfa-
rige Prädiktorvariable um eine Skaleneinheit chen es, den relativen Beitrag verschiedener
erhöht und alle anderen Prädiktoren konstant Variablen zur Vorhersage miteinander zu ver-
gehalten werden. gleichen, da sie sich analog zu Korrelationen

138
5.1 Klinische und statistische Urteilsbildung

interpretieren lassen: bei der einfachen (nicht zu einem geringeren, dafür aber realistischeren
aber bei der multiplen) Regression sind stan- Schätzwert seiner Vorhersagekraft. Darüber
dardisierte Gewichte identisch mit der Korre- hinaus wird geprüft, ob sich die Gewichte, die
lation zwischen Prädiktor und Kriterium. den einzelnen Variablen zugeordnet wurden,
an der neuen Stichprobe bewähren.
Die Identifikation potenziell relevanter Prädik-
toren wie auch die operationale Bestimmung
Für den Vergleich zwischen klinischer und sta-
des Kriteriums selbst verlangen umfangrei-
tistischer Vorhersage ist eine Eigenschaft des
che konzeptuelle Vorarbeiten. Auch die em-
multiplen Regressionsmodells bemerkenswert:
pirischen Untersuchungen, die zur Formulie-
Es handelt sich um ein additives Modell; bei
rung eines geeigneten Modells führen, können
der Vorhersage werden die Prädiktoren also
sehr aufwändig sein und sind nicht immer von
additiv kombiniert. Das bedeutet z. B., dass ei-
dem gewünschten Erfolg gekrönt. Die Erstel-
ne Person niedrige Werte auf einem Prädiktor
lung eines Regressionsmodells auf der Basis
durch hohe Werte auf einem anderen kompen-
vorliegender Daten ist demgegenüber relativ
sieren kann.
einfach und weitgehend standardisierbar. Die
Prädiktorvariablen bzw. spezifische Kombina-
Zu den Prädiktoren eines Kriteriums für beruf-
tionen dieser Variablen werden schrittweise in
lichen Erfolg als Flugzeugführer könnten z. B.
das Modell aufgenommen (und evtl. wieder
das räumliche Vorstellungsvermögen und ma-
entfernt), wobei angestrebt wird, viel Varianz
thematische Fähigkeiten gehören. Kombiniert
im Kriterium mit möglichst wenigen Prädik-
man die entsprechenden Daten für die Vor-
toren bzw. Prädiktorkombinationen aufzuklä-
hersage nach dem Modell der multiplen Re-
ren. Dies entspricht dem wissenschaftlichen
gression, so könnte der Fall eintreten, dass ein
Sparsamkeitsprinzip. Die Vorgehensweise fa-
Bewerber niedrige Werte in Tests zum räum-
vorisiert also einfache gegenüber komplexeren
lichen Vorstellungsvermögen durch sehr ho-
Modellen; Komplexität wird gewissermaßen
he Werte in Tests mathematischer Fähigkeiten
nur dann akzeptiert, wenn sich hierdurch die
kompensiert und so immer noch einen Krite-
Aufklärung des Kriteriums substanziell ver-
riumswert erreicht, der zum Urteil „geeignet“
bessern lässt. Auch für die Prüfung der An-
führt. Ob dies bei einem Flugzeugführer wün-
gemessenheit eines Modells existieren geeig-
schenswert ist, erscheint fraglich. Wir werden
nete Prozeduren (siehe z. B. Cox & Wermuth,
später noch Möglichkeiten kennen lernen, wie
1996).
sich solche Kompensationsmöglichkeiten be-
Ist ein passendes Modell identifiziert, sollte grenzen oder ganz ausschalten lassen, wenn
eine Kreuzvalidierung vorgenommen werden, sie sachlich nicht sinnvoll sind (I Kap. 5.2.4).
in der das Modell anhand neuer Daten auf sei-
ne Tauglichkeit zur Vorhersage geprüft wird. Für die Erstellung eines multiplen Regressi-
Die anhand einer Stichprobe A berechneten onsmodells müssen quantitative Kriterien so-
Gewichte werden dabei zur Vorhersage des wie quantitative oder binäre Prädiktoren vor-
Kriteriums bei einer zweiten Stichprobe B ver- liegen. Ist dies nicht der Fall, können andere
wendet. Deren Daten dürfen nicht bereits in statistische Modelle eingesetzt werden, die für
die Erstellung des Modells eingegangen sein. die jeweilige Datenart angemessen sind. Für
Auf diese Weise werden Überschätzungen der binäre Kriterien (z. B. die Klassifikation geeig-
Güte eines Modells, die sich aus Spezifika der net/nicht geeignet) kämen etwa die logistische
ursprünglichen Stichprobe A herleiten, vermie- Regression, für mehrstufige Kriterien die Dis-
den. Die Anwendung des Modells auf Daten kriminanzanalyse oder andere Klassifikations-
einer neuen Stichprobe führt im Allgemeinen verfahren in Betracht.

139
5 Der Prozess der diagnostischen Urteilsbildung

Statistische
Kombination
r sk

Daten Kriterium

r kk
Klinische
Kombination

Abb. 5.2 Basisdesign zur Kontrastierung klinischer und statistischer Datenkombination.

5.1.3 Empirische Befunde Abweichungen vom Idealfall begünstigten da-


bei im Allgemeinen die klinische Seite, der
I Abb. 5.2 zeigt das Basisdesign empirischer mehr Information zur Verfügung gestellt wur-
Studien zur Kontrastierung klinischer und sta- de als der statistischen. Dabei handelte es sich
tistischer Datenkombination. Ein oder mehre- meist um Information aus Interviews der zu
re Beurteiler erhalten Daten über eine Reihe beurteilenden Personen.
von Personen, auf deren Grundlage sie eine
Vorhersage über ein bestimmtes Kriterium tref-
Die Untersuchungen von Sarbin
fen. Im Idealfall werden dieselben Daten als
Eingabe eines statistischen Vorhersagesystems Zentraler Streitpunkt in der Kontroverse war
verwendet, das ebenfalls eine Prädiktion des die Frage, ob die für eine Prognose vorliegen-
Kriteriums liefert. Die Vorhersagen werden de Evidenz klinisch oder statistisch kombiniert
dann mit dem tatsächlichen Kriterium, das be- werden sollte. Systematische Untersuchungen
kannt sein muss, korreliert. Es resultieren zwei dieser Frage wurden bereits in den vierziger
Korrelationen, rkk für die klinische Datenkom- Jahren des letzten Jahrhunderts von dem klini-
bination, rsk für die statistische Datenkombi- schen Psychologen Sarbin (1941, 1942, 1944)
nation, deren Höhe über die Validität der ent- vorgelegt. Sarbin wollte dabei die Gültigkeit
sprechenden Vorhersagen Auskunft gibt. klinisch-diagnostischer Urteile demonstrieren.
Sind die Vorhersageleistungen der klinischen Wie viele andere Forscher, die in die Diskussi-
und der statistischen Datenkombination unge- on für die klinische oder die statistische Vorge-
fähr gleich, kann die Validität kein Kriterium hensweise votierten, ging er zunächst von der
für die Wahl der einen oder anderen Methode Erwartung aus, dass die professionelle Kom-
sein. In diesem Fall werden besonders die mit petenz klinischer Diagnostiker bessere Vorher-
den jeweiligen Verfahren verbundenen Kos- sagen erlaube, als es auf der Basis einfacher
ten ausschlaggebende Gesichtspunkte liefern mathematischer Formeln möglich ist. Auch
(I Kap. 6). die in Anwendungskontexten meist verfügbare
Zusatzinformation, die in statistische Modelle
In empirischen Untersuchungen wurde dieses nicht eingeht (etwa aus dem persönlichen Kon-
Design nicht immer in „reiner Form“ realisiert. takt mit der zu beurteilenden Person), sowie

140
5.1 Klinische und statistische Urteilsbildung

die Berücksichtigung individueller Besonder- genau waren, für Männer dagegen die einfa-
heiten einzelner Fälle sollte der klinischen Vor-
che Zwei-Variablen-Gleichung der Vorhersage
hersage Vorteile verschaffen. Diese Erwartung der Studienberater überlegen war. Die den Be-
erfüllte sich nicht. ratern verfügbare Zusatzinformation erhöhte
deren Vorhersagegenauigkeit gegenüber der
In einer 1942 vorgelegten Studie verglich Sar- Formel also erstaunlicherweise nicht.
bin die Vorhersagegenauigkeit einer Gruppe
professioneller Studienberater, die den akade- Tab. 5.1 Korrelationen klinischer und
mischen Erfolg von 162 Studienanfängern auf statistischer Vorhersagen mit dem
der Basis diverser Tests, biographischer Anga- Studienerfolg in der Untersuchung
ben und eines Interviews prädizieren sollten, von Sarbin (1942)
mit der Vorhersagegenauigkeit einer einfachen
linearen Gleichung, in der nur die Werte ei- Vorhersage Männer Frauen
nes Eignungstests sowie die Abschlussnote Klinisch .35 .69
der Schule (also zwei Variablen) eingingen. Statistisch .45 .70
Die Werte des Eignungstests und die Schul-
abschlussnoten hatten sich in vorhergehenden
Studien als relativ gute Prädiktoren der Stu- Ergebnisse wie die von Sarbin (1942) favori-
dienleistung herausgestellt und waren auch sieren für den untersuchten Bereich das sta-
den Beratern mitgeteilt worden. Die Berater- tistische Vorgehen – so jedenfalls sieht es die
gruppe verfügte darüber hinaus jedoch über statistische Seite. Selbst wenn sich zwischen
weit mehr Information, die für die Prognose klinischer und statistischer Vorhersage (wie in
des Studienerfolgs als relevant erachtet wer- Sarbins Fall bei Frauen) ein Patt ergebe, sei
den kann. Hierzu gehörten unter anderem die die statistische Vorhersage der klinischen im
Aufzeichnungen eines früheren Interviewers, Allgemeinen allein aus ökonomischen Grün-
die Ergebnisse eines Interessentests, die Re- den vorzuziehen: Sieht man einmal von der
sultate weiterer Fähigkeits- und Leistungstests Erstellung eines Vorhersagemodells ab – hier-
sowie biographische Angaben der Studieren- für müssen entsprechende empirische Untersu-
den. Überdies hatten die Berater die Studieren- chungen durchgeführt werden – benötigt das
den vor Studienbeginn interviewt, kannten sie statistische Vorgehen weitaus weniger perso-
also aus persönlichem Kontakt. Die Berater nelle, zeitliche und finanzielle Ressourcen als
schätzten auf der Basis dieser umfangreichen das klinische. Allerdings kann die Erstellung
Information den Studienerfolg auf einer Acht- eines statistischen Modells mit hohen Kosten
Punkte-Skala ein. Als Kriterium, mit der kli- verbunden sein. Diesem Konter der klinischen
nische und statistische Vorhersagen konfron- Seite lässt sich allerdings entgegenhalten, dass
tiert wurden, dienten Notenäquivalente, die auch die klinische Datenkombination „empi-
die Studierenden im ersten Studienabschnitt risch informiert“ sein sollte; ein Verzicht auf
erhielten. (manchmal aufwändige) Untersuchungen un-
terminiert die rationale Basis diagnostischer
I Tab. 5.1 zeigt die Korrelationen der beiden Entscheidungen ganz unabhängig davon, wie
Vorhersagen mit dem Indikator des Studiener- die Daten integriert werden.
folgs getrennt für männliche und weibliche
Studierende. Wie ersichtlich, fallen die Vor- Es ist klar, dass Vertreter der klinischen Sei-
hersagen für Frauen mit beiden Methoden bes- te solchen Schlussfolgerungen nicht einhel-
ser aus als für Männer. Wichtiger ist jedoch, lig Beifall zollten. Tatsächlich lässt eine ein-
dass beide Vorhersagen für Frauen etwa gleich zelne Studie meist mehr Fragen offen als sie

141
5 Der Prozess der diagnostischen Urteilsbildung

beantworten kann. Zum Beispiel wurde be- dem Kriterium, also der psychiatrischen Dia-
zweifelt, ob die Vorhersage von Indikatoren gnose, verglichen werden konnten. Bei den Be-
des Studienerfolgs wirklich zur Aufgabe von urteilern konnte man einige Erfahrung im Um-
Studienberatern gehört oder inwieweit die No- gang mit MMPI-Profilen voraussetzen, so dass
ten nach den ersten Semestern diesen Erfolg man diesem Vorgehen einen gewissen Grad an
reflektieren. Wichtig ist auch die Frage nach „klinischem Realismus“ attestieren kann. Un-
interindividuellen Unterschieden der Vorhersa- ter der Voraussetzung, dass die ursprüngliche
gegenauigkeit zwischen den Beratern, zu der psychiatrische Diagnose valide war, lässt sich
Sarbins Studie keine Antwort lieferte. Denk- die Genauigkeit der Datenkombination eines
bar wäre ja, dass einzelne Studienberater deut- Beurteilers an der Höhe der Korrelation sei-
lich besser abschnitten als die mathematische ner Einschätzung mit den Kriteriumswerten
Gleichung. ablesen.
Für die Bewertung der Genauigkeit der statis-
tischen Kombination verwendete Goldberg ei-
ne Reihe von Indices, die teilweise empirisch
Die Untersuchung von Goldberg abgeleitet worden waren, teilweise auf Vor-
schlägen von MMPI-Experten beruhten. Von
besonderem Interesse ist ein sehr einfacher,
Eine sehr bekannt gewordene Untersuchung
rein empirisch gewonnener Index, der aus ei-
von Goldberg (1965) griff diese Punkte auf.
ner ungewichteten Kombination von fünf der
Die Studie stützte sich auf Persönlichkeitspro-
elf MMPI-Skalen bestand:
file von insgesamt 861 männlichen Patienten,
deren psychiatrische Diagnose entweder „Psy- (L + Pa + Sc) - (Hy + Pt).
chose“ oder „Neurose“ lautete. Diese Diagno-
se diente als Kriterium, das auf der Basis kli- L steht dabei für die Tendenz, sozial uner-
nischer und statistischer Datenkombination wünschte Verhaltensweisen abzustreiten (z. B.
bestimmt werden sollte. Bei den Persönlich- „Ich werde manchmal wütend“), Pa für gestei-
keitsprofilen handelte es sich um Werte auf gerten Argwohn („Niemand scheint mich zu
elf Skalen des Minnesota Multiphasic Perso- verstehen“), Sc für ungewöhnliche, bizarre Ge-
nality Inventory (MMPI; Hathaway & McKin- danken und Denkmuster („Ich habe Zeiten ge-
ley, 1943), einem Testverfahren zur Diagnose habt, in denen ich etwas tat, ohne später zu
unterschiedlicher Formen klinisch relevanter wissen, was ich getan hatte“). Diese Skalen
Persönlichkeitsmerkmale (I Kap. 10.2.4). gehen mit positivem Gewicht in den Index ein.
Die beiden Skalen mit negativem Gewicht ste-
hen für körperliche Beschwerden (Hy, „Meist
Zur Bestimmung der Genauigkeit der klini-
wache ich am Morgen frisch und ausgeruht
schen Datenkombination wurden die Profile
auf“; bei diesem Item zählt Verneinung im
29 unabhängigen Beurteilern vorgelegt. Bei 13
Sinne des Merkmals) sowie für angstassoziier-
der Beurteiler handelte es sich um erfahrene
te Gedanken und Verhaltensweisen (Pt, „Ich
klinische Psychologen mit Doktorgrad, die üb-
habe Angst, den Verstand zu verlieren“).
rigen 16 waren klinische Psychologen, die sich
noch in der Ausbildung befanden. Die Aufga- Der Index wurde auf Basis der Ergebnisse
be der Beurteiler war es, die Profile auf einer von Korrelations- und Regressionsanalysen
elfstufigen Skala, die sich von „neurotisch“ an einer separaten Stichprobe von 402 klini-
bis „psychotisch“ erstreckte, zu sortieren. Auf schen Fällen gebildet, für die ebenfalls MMPI-
diese Weise wurden von jedem Beurteiler Ein- Profile und psychiatrische Diagnosen vorla-
schätzungen gewonnen, die anschließend mit gen. Die fünf MMPI-Skalen, die Goldberg zur

142
5.1 Klinische und statistische Urteilsbildung

Tab. 5.2 Validitätskoeffizienten (Korrelationen) und Trefferquoten (Prozentwerte) klinischer und


statistischer Datenkombination in der Studie von Goldberg (1965)

Datenkombination Validität Treffer A Treffer Ba


Klinisch
Spannweite .14 bis .39 55 bis 67 60 bis 73
Durchschnitt .28 62 66
Statistisch .44 70 74
a Schwer entscheidbare Fälle wurden hier ausgeschlossen.

Bildung des Index verwendete, hatten in die- Die Validitätskoeffizienten und die ihnen ent-
ser Stichprobe sowohl einzeln als auch kombi- sprechenden Trefferquoten streuten, wie man
niert die stärksten Gewichte erhalten, diskrimi- erwarten konnte, erheblich zwischen den 29
nierten also am besten zwischen Neurotikern Beurteilern. Bemerkenswerterweise waren die
und Psychotikern. Wie sich aus der kurzen Leistungen der erfahrenen klinischen Psycho-
Beschreibung der Skalen bereits erraten lässt, logen nicht besser als die ihrer noch in Aus-
sind hohe (positive) Werte des Index mit der bildung befindlichen Kollegen. Die klinische
Diagnose „Psychose“ assoziiert, niedrige (ne- Erfahrung wirkte sich in dieser Studie also
gative) dagegen mit der Diagnose „Neurose“. nicht fördernd auf die Trefferquote aus, so
dass die Ergebnisse beider Gruppen hier nicht
I Tab. 5.2 fasst die Ergebnisse der Studie in
getrennt betrachtet werden müssen. (Dieser
stark vereinfachter Form zusammen. Angege-
Befund ist in der Literatur übrigens keines-
ben sind die Validitätskoeffizienten, also die
wegs ungewöhnlich; siehe Grove, Zald, Le-
Korrelationen zwischen den Angaben der Kli-
bow, Snitz & Nelson, 2000.) Wie vermutet,
niker bzw. den Resultaten der statistischen
stieg die Trefferquote nach Ausscheiden nicht
Datenkombination und den psychiatrischen
oder schwer zu entscheidender Fälle an, wenn
Diagnosen der zu beurteilenden Patienten so-
auch nicht in sehr starkem Maß, wobei auch
wie die diesen Koeffizienten entsprechenden
die statistische Kombination vom Ausschluss
Trefferquoten, d. h. die relativen Häufigkeiten
schwer entscheidbarer Fälle profitierte.
korrekter Zuordnungen von Profilen und Dia-
gnosen. Goldberg berechnete die Trefferquote Zentrales Anliegen war der Vergleich der
sowohl für die Gesamtstichprobe aller 861 Pro- Genauigkeit der klinischen und statistischen
file als auch für eine Teilstichprobe, aus der Datenkombination. Wie aus der Tabelle er-
nicht oder nur schwer klassifizierbare Profile sichtlich, war die einfache Linearkombination
(etwa 30 %) entfernt worden waren. Die Eli- von fünf MMPI-Skalen der gemittelten Leis-
minierung dieser Profile sollte der Tatsache tung der klinischen Psychologen deutlich über-
Rechnung tragen, dass die Beurteiler im All- legen. Betrachtet man die Spannweite der Ge-
gemeinen nicht alle Fälle mit gleicher Sicher- nauigkeitswerte, so zeigt sich, dass kein einzi-
heit zuordnen können, sie entspricht also der ger der 29 Psychologen die Leistung der statis-
Aufnahme einer „Unentschieden“-Kategorie. tischen Kombination übertreffen konnte. Der
Erwartet wurde, dass die Trefferquote nach beste Kliniker erreichte eine Trefferquote von
Ausschluss dieser „Zweifelsfälle“ höher aus- 73 %, was im Vergleich zur statistischen Kom-
fallen würde als die der Gesamtstichprobe al- bination allenfalls als Patt gewertet werden
ler Profile. kann.

143
5 Der Prozess der diagnostischen Urteilsbildung

Weitere Untersuchungen und klinische und statistische Vorhersagen zur Ver-


Schlussfolgerungen fügung stand, sowie die Verwendung kreuzva-
lidierter (vs. nicht kreuzvalidierter) Gleichun-
gen für die statistische Vorhersage. Keine die-
Die Ergebnisse von Sarbin (1942) und Gold-
ser Variablen hatte einen markanten Einfluss
berg (1965) sind repräsentativ für eine Viel-
auf das Ausmaß der Überlegenheit einer Me-
zahl weiterer Studien, die durch Meehls Mo-
thode. In den acht Studien, in denen die klini-
nographie angeregt worden waren. In diesen
sche Vorhersage überlegen war, stand für sie
Studien wurden klinische und statistische Pro-
mehr Information zur Verfügung als für die
gnosen über ein breites Spektrum praktisch re-
statistische. Dies betraf allerdings auch viele
levanter Kriterien geprüft, z. B. Ausbildungs-
andere Studien: In keiner der Untersuchungen
erfolg im akademischen und militärischen Be-
ging in die statistische Vorhersage mehr In-
reich, Rückfallrisiko bei Bewährungstrafen,
formation ein als in die klinische. Grove und
Behandlungserfolg von Psychotherapien, Re-
Meehl (1996) vermuten, dass die Resultate
mission von psychotischen Störungen, Berufs-
der acht vom allgemeinen Bild abweichenden
erfolg und Berufszufriedenheit. In den 51 Stu-
Untersuchungen sich aus dem generellen In-
dien, auf die Meehl in seinem 1965 erschiene-
formationsvorsprung der Kliniker und zufäl-
nen Überblick zurückgreifen konnte, zeigten
ligen Stichprobenfluktuationen herleiten. Be-
33 eine Überlegenheit der statistischen Pro-
merkenswert ist, dass die Verfügbarkeit von
gnose, in 17 Studien erwiesen sich statistische
Daten aus klinischen Interviews die generelle
und klinische Prognose als gleichwertig in ih-
(über alle Studien bestimmte) Überlegenheit
rer Vorhersageleistung. Die einzige Studie, die
der statistischen Kombination nicht verringer-
auf eine Überlegenheit der klinischen Vorher-
te, sondern vielmehr verstärkte.
sage hindeutete, wurde aufgrund methodischer
Gesichtspunkte nachträglich als Patt klassifi- Zu ähnlichen Ergebnissen kommen Kuncel,
ziert. Klieger, Conelly und Ones (2013) in einer
weiteren Metaanalyse, die sich speziell auf
Auch eine neuere umfassendere Meta- Leistungen im akademischen und beruflichen
Analyse, in die insgesamt 136 Einzelstudien Bereich konzentrierte. In den betrachteten 25
aus sehr disparaten diagnostischen Bereichen Studien erwies sich die statistische Vorhersage
einging, bestätigt dieses Bild (Grove et al., der klinischen im Mittel in allen betrachteten
2000). In jeweils ungefähr der Hälfte der Leistungsbereichen als moderat bis deutlich
Studien war die formelle Datenkombination überlegen (z. B. betrug die mittlere Korrela-
der informellen überlegen (63 Studien) oder tion bei beruflichen Leistungsindikatoren .44
gleichwertig (65 Studien). In nur acht Studien für die statistische gegenüber .28 für die klini-
erbrachte die klinische Datenkombination sche Vorhersage; für akademische Leistungen
bessere Vorhersagen als die statistische. betrugen die Koeffizienten .58 gegenüber .48).
Die Autoren untersuchten eine Reihe von De- Welches sind die Gründe für die Unterlegen-
signvariablen, die für die Unterschiede zwi- heit der klinischen Datenkombination? Zu-
schen klinischer und statistischer Vorhersage nächst ist festzustellen, dass auch in profes-
verantwortlich sein können. Hierbei handel- sionelle Diagnosen menschliche Beurteilung
te es sich um das Veröffentlichungsdatum der eingeht. Prinzipiell können sich hier also die
Studie, die Stichprobengröße, die Art des Kri- gleichen Verzerrungs- und Fehlertendenzen
teriums, die verwendeten Prädiktoren, die be- bemerkbar machen, welche die Personbeur-
rufliche Ausbildung der Beurteiler, deren Be- teilung im Alltag bestimmen. Zumindest bei
rufserfahrung, die Informationsmenge, die für einem Teil der hier wirkenden Mechanismen

144
5.1 Klinische und statistische Urteilsbildung

handelt es sich um universelle Merkmale der etwa Selektionsentscheidungen, in denen es


menschlichen Informationsverarbeitung, de- bei abgelehnten Bewerbern im Allgemeinen
nen auch professionelle Diagnostiker mehr nicht möglich ist, die Güte der Entscheidung
oder weniger unterliegen. Bestimmte, diagnos- im Nachhinein zu überprüfen. In jedem Fall
tisch relevante Hinweise bleiben unberück- behindert die mangelnde Nutzung von Rück-
sichtigt, andere – vielleicht weniger relevante meldungen natürlich die Korrektur ungünsti-
– werden überakzentuiert. Auch die Gewich- ger Formen der Datenkombination. In kreuz-
tung einzelner diagnostischer Indikatoren wird validierte statistische Diagnosesysteme sind
nicht immer optimal sein. Es wäre naiv zu solche Rückmeldungen dagegen von vornher-
glauben, dass psychologisch-diagnostisches ein eingebaut.
Wissen und Training gegenüber solchen Feh-
lern völlig immun macht.
Ein zweiter und wahrscheinlich noch wichti- 5.1.4 Kritik und Antikritik
gerer Grund sind Inkonsistenzen bei der Ver-
wendung diagnostischer Entscheidungsstrate- Der Schlussfolgerung, dass formellen Metho-
gien. Wie wir unten im Rahmen der Beschrei- den der Datenkombination der Vorzug zu ge-
bung paramorpher Modelle der Urteilsbildung ben sei, wurde von Vertreten der klinischen
noch darstellen werden, setzen Diagnostiker Seite vehement widersprochen. Betont wur-
Entscheidungsregeln, denen sie implizit fol- de dabei besonders die jeweilige Einzigartig-
gen, nicht konsistent ein, sondern wandeln sie keit der diagnostischen Entscheidungssitua-
von Fall zu Fall ab. In einer Reihe von Un- tion und die damit zusammenhängende Not-
tersuchungen wurde belegt, dass Vorhersagen, wendigkeit, die konkreten Bedingungen des
die durch „rigide“ Anwendung der bei einem jeweils vorliegenden Falls zu berücksichtigen.
Diagnostiker rekonstruierten Entscheidungsre- So notiert etwa Allport (1942, S. 156):
geln gewonnen wurden, im Allgemeinen bes-
ser ausfallen, als die „flexiblen“ Entscheidun-
gen des Diagnostikers selbst (Wiggins, 1973). Statistische Vorhersagemodelle sind irre-
Das Zustandekommen derartiger Inkonsisten- führend, wenn sie auf einzelne Fälle anstatt
zen ist sehr verständlich, da sich bei der Be- auf Populationen angewendet werden. So
trachtung individueller Fälle häufig gewisse folgt z. B. aus der Tatsache, dass 80 % der
Besonderheiten aufdrängen, die als so wichtig Delinquenten, die aus zerrütteten Familien
erachtet werden, dass von der generell verfolg- stammen, rückfällig werden, nicht, dass die-
ten Strategie abgewichen und gewissermaßen ser konkrete Delinquent, der aus einer zer-
„eine Ausnahme“ gemacht wird. Über viele rütteten Familie stammt, ein 80-prozentiges
Fälle betrachtet scheinen solche Abweichun- Risiko hat, rückfällig zu werden. [... Ob der
gen jedoch eher kontraproduktiv zu sein (Kun- Delinquent rückfällig wird] könnten wir ex-
cel et al., 2013) akt vorhersagen, wenn wir alle verursachen-
den Bedingungen und Umstände im kon-
Drittens ist die manchmal nicht oder nur be- kreten Fall kennen würden. [...] Sein Rück-
schränkt realisierte Möglichkeit in Betracht zu fallrisiko wird durch das Muster seiner Le-
ziehen, aus Rückmeldungen über die Diagno- bensumstände determiniert, nicht durch re-
serichtigkeit zu lernen (Holt, 1958). Dabei ist lative Häufigkeiten in der Population als
allerdings zu berücksichtigen, dass nicht bei al- ganzer. Tatsächlich ist psychologische Ver-
len diagnostischen Entscheidungen Rückmel- ursachung immer personell, niemals statis-
dungen im eigentlich wünschenswerten Um- tisch.
fang eingeholt werden können. Dies betrifft

145
5 Der Prozess der diagnostischen Urteilsbildung

Die klinische Diagnostik hat es hiernach mit werden. Inwieweit diese Daten kausal wirksa-
Vorhersagen in einem Einzelfall zu tun, nicht me Variablen beinhalten, ist eine andere Frage,
mit statistischen Durchschnittswerten, Häufig- die in diagnostischen Kontexten nicht immer
keiten oder Trends, die Gruppen von Personen relevant ist (z. B. wenn aus einem Symptom
betreffen. auf einen latenten Krankheitsprozess geschlos-
sen werden kann).
Von Befürwortern formeller Methoden wird
Allports Argument entgegnet, dass statistisch Auch ein zweites häufig vorgebrachtes Argu-
registrierte Häufigkeiten das Rückfallrisiko ment bezieht sich auf individuelle Besonder-
des Delinquenten natürlich nicht determinie- heiten konkreter Fälle. Danach kann der Kli-
ren. Solche Häufigkeiten erlauben es aber, das niker unter den Variablen einzigartige Muster
Risiko einzelner Personen abzuschätzen, die von Merkmalen entdecken, die statistischen
bestimmten Gruppen zugehören (im Beispiel: Modellen entgehen würden. So mag er bei ei-
Delinquenten mit zerrütteten Familienverhält- nem Klienten ein bestimmtes Muster aus Test-
nissen). Grundsätzlich ist jede Form der Dia- und Verhaltensdaten beobachten, das er schon
gnose oder Prognose probabilistisch. Ob die einmal bei einem anderen Klienten als Vorläu-
Vorhersagen einzelne Personen oder Gruppen fer eines Suizidversuchs registriert hat. Dar-
von Personen betreffen, ist hierfür unerheb- über hinaus wird vorgebracht, dass Kliniker
lich. Darüber hinaus müssen statistische Mo- meist noch über zusätzliche Information ver-
delle nicht notwendigerweise auf Gruppenda- fügen, z. B. aus dem unmittelbaren Kontakt
ten basieren. Auch für die Modellierung von mit dem Klienten oder aus Aussagen von Ver-
Regelmäßigkeiten, die einzelne Fälle betref- wandten und Freunden, die in eine statistische
fen, existiert ein reiches statistisches Metho- Vorhersage ebenfalls nicht eingehen, obwohl
denrepertoire. Einzelfallanalysen stellen kein sie evtl. Vorhersagewert besitzen.
statistisches, sondern eher ein praktisches Pro- Die „Statistiker“ weisen demgegenüber darauf
blem dar, da die Datengewinnung sehr viel hin, dass es letztlich Sache der empirischen
aufwändiger ist als bei den üblichen Gruppen- Forschung bleiben sollte, welche Variablen für
untersuchungen. eine Vorhersage genutzt werden. Grundsätz-
lich kann jedes Faktum in eine mathematische
Im Hinblick auf die Frage nach der Verur- Vorhersagefunktion eingehen, auch ein selte-
sachung sind statistische Modelle indifferent. nes Ereignis. Gleiches gilt für die Zusatzinfor-
Tatsächlich impliziert Vorhersage nicht Verur- mation aus Quellen, die in einem bestehenden
sachung. Beispielsweise bedeutet der Sachver- Modell bislang nicht berücksichtigt wurden.
halt, dass das Rückfallrisiko bei zerrütteten Fa- Wenn diese Information brauchbar ist (die Ge-
milienverhältnissen höher ist als bei normalen, nauigkeit der Vorhersage erhöht), sollte sie in
keineswegs, dass die Familienverhältnisse als die Gleichung aufgenommen werden. Erweist
Ursache oder auch nur Mitursache des Rück- sie sich als unbrauchbar oder redundant, ist es
falls anzusehen sind (obwohl dies natürlich unnötig, sie überhaupt zu erheben.
der Fall sein mag). Ob bestimmte Merkmale
Ursache eines Kriteriums sind, ist eine Frage Im Rahmen der Debatte zwischen Vertreten
der Theoriebildung und der darauf aufbauen- formeller und informeller Methoden wurde
den empirischen Forschung. Statistische Mo- eine Vielzahl weiterer Argumente und Gegen-
delle allein geben hierzu keine Auskunft. Mit argumente vorgebracht (siehe Grove & Meehl,
ihnen werden vielmehr bescheidenere Ziele 1996, für eine ausführliche Darstellung). Was
verfolgt: Auf der Basis gegebener Daten sol- auch immer man für informelle Methoden vor-
len die bestmöglichen Vorhersagen gemacht bringen mag: Die Tatsache, dass es bislang

146
5.2 Paramorphe Modelle des Diagnostizierens

nicht gelungen ist, Bedingungen ausfindig zu eines diagnostischen Systems ohnehin unab-
machen, unter denen sich die klinische Vor- dingbar. Der Mehraufwand für die Adaptation
hersage der statistischen als überlegen erweist, eines bestehenden Systems dürfte nicht viel
scheint es müßig zu machen, nach Defiziten höher ausfallen.
der formellen Datenkombination zu suchen,
Die Diskussion um die angemessene Metho-
die klinisch kompensierbar wären. Aussichts-
de der Datenkombination hält bis zur jüngs-
reicher ist es vielmehr, derartige Defizite durch
ten Zeit an (siehe z. B. Grove & Meehl, 1996;
die Weiterentwicklung formeller Methoden zu
Kuncel et al., 2013; Westen & Weinberger,
beheben.
2004). Eine ihrer wichtigsten Konsequenzen
bestand in dem Versuch, das Zustandekom-
Vieles spricht für die Forderung einer mög-
men der klinischen Urteilsbildung transparen-
lichst breiten Anwendung formeller Metho-
ter zu machen. Dieser Versuch mündete in die
den zur Beantwortung diagnostischer Frage-
Entwicklung paramorpher Modelle des Dia-
stellungen (Wiggins, 1973). Der vermehrten
gnostizierens.
Nutzung formeller Methoden der Datenkom-
bination steht allerdings die mangelnde Ver-
fügbarkeit geeigneter Modelle gegenüber. Wo
solche Modelle existieren, ist ihre Anwend- 5.2 Paramorphe Modelle des
barkeit auf die jeweiligen lokalen Gegeben- Diagnostizierens
heiten fraglich. So lässt sich etwa ein in den
USA entwickeltes Modell sicherlich nicht un-
besehen auf deutsche Verhältnisse übertragen,
5.2.1 Definition
auch wenn sich die jeweiligen Fragestellungen
Der Philosoph Hans Reichenbach (1938) hatte
weitgehend decken. Hier ist zumindest eine er-
in einer vielbeachteten Arbeit zwischen dem
neute Erprobung, ggf. auch eine Modifikation
„Kontext der Entdeckung“ und dem „Kontext
oder sogar Neukonstruktion des Modells not-
der Rechtfertigung“ wissenschaftlicher Theo-
wendig, was natürlich mit Kosten verbunden
rien unterschieden. Der Kontext der Entde-
ist.
ckung bezieht sich auf das „Wie“ des Zustan-
dekommens einer wissenschaftlichen Hypo-
Grove und Meehl (1996) weisen jedoch darauf
these, eines Modells oder einer Theorie. „Wie
hin, dass die hier anfallenden Kosten haupt-
kam Einstein dazu, die spezielle Relativitäts-
sächlich durch das systematische Verfolgen
theorie zu formulieren?“ wäre etwa eine Frage,
der Konsequenzen von Entscheidungen ent-
die man in diesem Kontext stellen könnte. Im
stehen, die auf Grundlage des Modells gefällt
Kontext der Rechtfertigung geht es dagegen
werden. Es müssen also Rückmeldungen über
um die logische Analyse der Bewährung einer
die Gültigkeit der Diagnosen bzw. Prognosen
Theorie. Hierfür könnte man z. B. Vorhersagen
eingeholt werden. Die Rückmeldungen geben
der relativistischen mit entsprechenden Vorher-
nicht nur Auskunft über das Funktionieren des
sagen der klassischen Mechanik vergleichen.
Systems, sie liefern auch wichtige Informati-
on für eine lokale Optimierung. Das Einholen Meehl (1954) wendet diese Unterscheidung
und Verarbeiten solcher Rückmeldungen ist auf den Prozess der klinischen Vorhersage an.
jedoch ein Teil der diagnostischen Tätigkeit, Der Kontext der Rechtfertigung bezieht sich
der in keinem Fall „eingespart“ werden sollte – dabei auf die etablierten Vorgehensweisen bei
auch nicht bei informeller Datenkombination. der Überprüfung der Gültigkeit einer Diagno-
Will man wissenschaftlich begründet arbeiten, se bzw. Vorhersage. Diese Vorgehensweisen
ist die periodische Prüfung des Funktionierens gelten in gleichem Maße für die klinische wie

147
5 Der Prozess der diagnostischen Urteilsbildung

für die statistische Vorhersage. Die bislang Hoffman (1960, 1968) nennt formelle Reprä-
geschilderten Untersuchungen und Überlegun- sentationen des diagnostischen Entscheidungs-
gen zum Vergleich formeller und informeller verhaltens paramorphe Modelle. Die Bezeich-
Methoden gehören in den Kontext der Recht- nung „paramorph“ soll betonen, dass solche
fertigung. Modelle nicht auf eine Abbildung der kogniti-
ven Prozesse beim Diagnostiker zielen. Viel-
Eine ganz andere Frage ist es, wie Diagnosti- mehr sollen sie den Zusammenhang zwischen
ker zu ihren Vorhersagen kommen. Hier befin- der Information, die ein Diagnostiker erhebt
den wir uns im Kontext der Entdeckung. Im oder die ihm zur Verfügung steht, und seinen
Kontext der Entdeckung geht es nicht um die Entscheidungen reproduzieren. Ein bestimm-
Validität eines Urteils, sondern vielmehr dar- tes paramorphes Modell stellt immer nur ei-
um, auf welchem Wege es zustande kommt. ne von mehreren möglichen Repräsentationen
Die Frage ist also: Welche Algorithmen und des Entscheidungsverhaltens dar – allerdings
Heuristiken wendet ein Diagnostiker an, um eines, das im Rahmen eines gegebenen Mo-
auf der Grundlage gegebener Information zu delltyps optimal ist. Im Vordergrund steht hier
einer Prädiktion zu gelangen? die Auswahl, Gewichtung und Kombination
von Daten im Hinblick auf Diagnosen. Es wird
Diese Frage lässt sich empirisch klären. Ein also versucht, durch ein formelles Modell dar-
naheliegender Weg wäre es, Diagnostiker ein- zustellen, welche Variablen ein Diagnostiker
fach zu befragen. Wir könnten einen Diagnos- als relevant erachtet und welche Bedeutung er
tiker also bitten, sein Vorgehen bei mehreren diesen Variablen für sein Urteil beimisst.
konkreten Diagnosefällen zu erläutern und ver-
suchen, die Regeln, nach denen er vorgeht, aus
seinen Angaben zu rekonstruieren. Eine ande-
re Möglichkeit bestünde darin, Diagnostiker 5.2.2 Erstellung
während der Bearbeitung eines Falls „laut den-
ken“ zu lassen und die resultierenden Protokol- Bei der Erstellung paramorpher Modelle fun-
le zu verwerten. Darüber hinaus kann man ver- gieren Diagnostiker als Probanden. Sie erhal-
suchen, die Input-Output-Relation zwischen ten Daten über eine Reihe von Personen und
Daten und Diagnosen mittels formeller Model- geben auf der Grundlage dieser Information
le zu beschreiben. Die genannten Vorgehens- für jede Person eine jeweils spezifische Dia-
weisen lassen sich natürlich auch kombinieren gnose hinsichtlich eines Merkmals ab. Bei
und miteinander vergleichen. Sie führen zu den Daten handelt es sich meist (aber nicht
deskriptiven (beschreibenden) Modellen des notwendigerweise nur) um Testdaten, etwa
Diagnostizierens. In deskriptiven Modellen ist ein Intelligenzprofil oder die Ergebnisse von
damit ein Diagnostiker gewissermaßen selbst Persönlichkeits-, Interessentests usw., sowie
Objekt psychologischer Modellbildung. um weitere Angaben, die für die Diagnose po-
tenziell relevant sind (etwa Geschlecht und
Wir konzentrieren uns im Folgenden auf for- Alter). Die Daten sollten natürlich möglichst
melle Repräsentationen der Beziehung zwi- repräsentativ für die Entscheidungssituation
schen Daten und Diagnosen. Solche formellen sein. Wichtig ist auch, dass sie sich in einer für
Repräsentationen sind von besonderem Inter- den jeweiligen Modelltyp geeigneten Weise
esse, weil es mit ihrer Hilfe in relativ einfacher symbolisch repräsentieren lassen (etwa durch
Weise möglich ist, die Datenkombination bei Zahlen). Das gleiche gilt auch für das jeweils
einem Diagnostiker auf die eines formellen geforderte Urteil (etwa Eignung für eine Stel-
Vorhersagesystems zu beziehen. le, Vorliegen einer spezifischen Angststörung),

148
5.2 Paramorphe Modelle des Diagnostizierens

was z. B. durch den Einsatz von Ratingskalen Um diese Grundtypen zu veranschaulichen,


erreicht werden kann. betrachten wir ein sehr einfaches fiktives Bei-
spiel. Nehmen wir an, das zu diagnostizieren-
Für die Modellierung des Urteils bieten sich de Kriterium Y sei das Auftreten schulischer
als erstes lineare Modelle an, etwa Regressio- Leistungsdefizite bei Grundschulkindern, das
nen der Entscheidung auf die Variablen, die der Diagnostiker auf einer Ratingskala ein-
Basis der Entscheidung sind. Anhand der ab- schätzt. Als Prädiktoren betrachten wir nur
gegebenen Urteile wird errechnet, welches pa- zwei Variablen, nämlich das Ausmaß des Kon-
ramorphe Modell die Datenkombination eines trollverhaltens beider Elternteile, jeweils ge-
Diagnostikers am besten repräsentiert. Neben messen auf einer Skala, die von „Laissez faire“
linearen Modellen betrachten wir im Folgen- bis zu extremer Einschränkung und Überwa-
den noch einen zweiten Modelltyp, nämlich chung reicht. X1 repräsentiere das Kontrollver-
Konfigurationsmodelle, bei deren Konstrukti- halten der Mutter, X2 das Kontrollverhalten
on stark von den Angaben des Diagnostikers des Vaters.
über sein Vorgehen Gebrauch gemacht wird.
Bei linearen Modell sind derartige Angaben Ein Haupteffektmodell zur Vorhersage einer
nicht notwendig. Diagnose könnte so aussehen:

Es ist wichtig, sich klar zu machen, dass es in Ŷ = 0.6X1 + 0.3X2 .


keinem der Modelle um die Bestimmung der
„Richtigkeit“ einer Diagnose geht. Vielmehr Dieses Modell würde aussagen, dass der Dia-
soll ein Algorithmus (im einfachsten Fall eine gnostiker das Erziehungsverhalten von Mutter
Gleichung) erstellt werden, der es ermöglicht, und Vater für die Vorhersage von Leistungs-
die Diagnose bei gegebenen Daten zu reprodu- defiziten als relevant erachtet: Je höher die
zieren. Ein gutes paramorphes Modell liefert Kontrolle beider Eltern ist, umso höher schätzt
bei gleichen Daten die gleichen Vorhersagen er das Risiko des Auftretens von Leistungsde-
wie der modellierte Diagnostiker. Ob diese fiziten ein. Dabei gibt er allerdings dem Ver-
Vorhersagen selbst valide sind oder nicht, ist halten der Mutter ein höheres Gewicht als dem
eine andere Frage. Verhalten des Vaters. Das Ausmaß väterlicher
Kontrolle wird vom Diagnostiker also als we-
niger bedeutsam eingeschätzt als das der Mut-
ter.
5.2.3 Lineare Modelle
Die allgemeine Form solcher Modelle hatten
wir bereits kennengelernt: Es handelt sich um
Bausteine ein multiples Regressionsmodell, in dem zwei
Prädiktoren additiv kombiniert werden. Dies
impliziert, dass der Effekt hoher Kontrolle der
In empirischen Untersuchungen mittels linea-
Mutter durch niedrige Kontrolle des Vaters
rer Modelle ließen sich mehrere Typen para-
teilweise kompensiert werden kann und um-
morpher Repräsentationen finden: (a) Hauptef-
gekehrt. Das Modell stellt gewissermaßen die
fektmodelle, (b) Modelle, die kurvilineare Be-
mathematische Formulierung der (eventuell
ziehungen beinhalten, und (c) Modelle, die In-
impliziten) Theorie des Diagnostikers über
teraktionen unter den Prädiktoren berücksich-
den Einfluss der beiden Erziehungsvariablen
tigen (Hoffman, 1960, 1968; Wiggins & Hoff-
auf die betrachtete abhängige Variable dar.
man, 1968; die Begriffe „Haupteffekt“ und
„Interaktion“ entstammen dem statistischen Ein zweiter Diagnostiker könnte von einem
Modell der Varianzanalyse). ganz anderen Modell geleitet werden. Für ihn

149
5 Der Prozess der diagnostischen Urteilsbildung

Abb. 5.3 Beispiele für kurvilineare (links) und interaktive (rechts) Beziehungen zwischen
Prädiktoren und einem Kriterium.

sind starke Kontrolle, aber auch extreme Ver- dies auch dann der Fall sein, wenn eine Prä-
nachlässigung für schulische Probleme ver- diktorvariable, z. B. das Kontrollverhalten der
antwortlich. Optimal ist für ihn ein mittleres Mutter, für die Diagnose umso bedeutsamer
(„ausgewogenes“) Maß an Kontrolle. In sei- ist, je stärker sie ausgeprägt ist.
nem Modell würde deshalb eine kurvilineare
Ein dritter Diagnostiker könnte Interaktionen
Beziehung zwischen Kontrolle (X1 ) und Leis-
zwischen den beiden Prädiktorvariablen für
tungsdefiziten bestehen, wie sie im linken Teil
die Vorhersage nutzen. Interaktive oder mo-
von I Abb. 5.3 dargestellt ist: Das Risiko für
derierende Beziehungen zwischen zwei Va-
Defizite ist bei mittlerer Kontrolle gering, bei
riablen liegen vor, wenn der Zusammenhang
extrem hoher und extrem niedriger Kontrol-
einer der beiden Variablen mit dem Kriteri-
le dagegen groß. Auch dieses Modell lässt
um von der Ausprägung der anderen Varia-
sich mathematisch darstellen: Es beinhaltet
blen abhängt. So könnte es z. B. sein, dass
Quadrat-Terme für einzelne Prädiktoren, z. B.
im Modell des Diagnostikers der väterlichen
Kontrolle ein nur geringer Effekt beigemessen
Ŷ = 5 − 2X1 + 0.2X12 .
wird, wenn die mütterliche Kontrolle niedrig,
Die sich ergebende Kurvilinearität erkennt dagegen ein deutlicher Effekt, wenn sie hoch
man, indem man probeweise Werte zwischen ausgeprägt ist (siehe I Abb. 5.3, rechter Teil).
1 und 9 für X1 einsetzt. Für den (mittleren) Interaktionen zwischen zwei Variablen kön-
Wert 5 wird das vorhergesagte Kriterium mi- nen mathematisch dargestellt werden, indem
nimal, mit zunehmenden Abweichungen von man die Terme des Haupteffektmodells um
diesem Wert fällt es höher aus. Generell lassen Produktausdrücke (gewichtete Produkte der
sich mit kurvilinearen Modellen Diagnosen Variablen) ergänzt wie in
abbilden, in denen die einer Variablen beige- Ŷ = 0.4X1 + 0.1X2 + 0.2X1 X2 .
messene Bedeutung von deren Ausprägung
abhängt und nicht – wie bei Haupteffektmo- Die beiden ersten Terme repräsentieren hier
dellen – konstant ist. Neben U-förmigen oder die Haupteffekte, der dritte die Interaktion zwi-
umgekehrt U-förmigen Beziehungen würde schen den beiden Erziehungsvariablen. Im Un-

150
5.2 Paramorphe Modelle des Diagnostizierens

terschied zum Haupteffektmodell hängt es in ist allerdings zu bemerken, dass ein Haupt-
interaktiven Modellen vom Muster der Varia- effektmodell auch manche nichtlineare Be-
blenausprägungen ab, welche Diagnose getrof- ziehung, die bei der Datenkombination ver-
fen wird. wendet wird, approximieren kann. Dies gilt
etwa für viele monoton steigende oder fallen-
Aus diesen einfachen Grundbausteinen de Funktionen. Hier ist der nichtlineare An-
(Haupteffekte, Quadrate, Produkte) lassen teil häufig zu gering ausgeprägt, um von der
sich durch Einführung weiterer Variablen mathematischen Prozedur „entdeckt“ werden
bereits recht komplexe Modelle zusammen- zu können. Auch Einschränkungen des Wer-
bauen, mit der sich eine Vielzahl diagnostisch tebereichs einer Variablen können dazu füh-
relevanter Prädiktorkombinationen abdecken ren, dass sich eigentlich nichtlineare Kombina-
lassen. tionen durch ein Haupteffektmodell recht gut
darstellen lassen. Im unserem Kontrollbeispiel
könnte dieser Fall etwa eintreten, wenn für
Empirische Befunde die Erstellung des paramorphen Modells nur
Diagnosefälle vorliegen, in denen mittlere bis
moderat hohe Kontrolle realisiert sind (Green,
Empirische Untersuchungen zeigen, dass sich
1968).
die Urteilsbildung bei Diagnostikern in vie-
len Bereichen bereits durch Haupteffektmo- Vergleichsstudien zeigen außerdem, dass Dia-
delle vergleichsweise gut repräsentieren las- gnostiker häufig die Gewichte, die sie einzel-
sen (Hoffman, 1960, 1968; Wiggins & Hoff- nen Variablen beimessen, anders einschätzen
man, 1968). Die Berücksichtigung kurvili- als „ihr“ paramorphes Modell. Einige Varia-
nearer oder interaktiver Variablenbeziehungen blen, die sie bei einer Diagnose für sehr wich-
verbessern die Anpassung der Modelle an das tig halten, kommen in der aufgrund ihres tat-
„Diagnoseverhalten“ häufig nicht substanziell. sächlichen Diagnoseverhaltens aufgestellten
Gleichung nur mit geringem Gewicht vor und
Dies steht in einem gewissen Kontrast zu den umgekehrt. Darüber hinaus halten Diagnos-
Angaben der Diagnostiker selbst. Wie bereits tiker oft mehr Variablen für relevant als zur
angedeutet, kann man Diagnostiker bitten, ihr Modellierung ihres Urteilsverhaltens benötigt
Vorgehen bei der Kombination von Daten so werden. Insgesamt sind die subjektiv reprä-
genau wie möglich zu beschreiben. Anschlie- sentierten Regeln meist komplizierter als die
ßend kann man diese Beschreibung ebenfalls paramorphen Modelle.
durch ein formelles Modell repräsentieren (ein
konkretes Beispiel hierfür werden wir unten Dies ist allerdings insofern nicht erstaunlich,
noch diskutieren). Man kann nun vergleichen, als die mathematischen Modelle, wie wir be-
welches Modell der Diagnostiker anzuwen- reits bemerkt hatten, gewissermaßen auf Spar-
den glaubt und welches Modell seine aktuelle samkeit getrimmt werden. Diagnostische Indi-
Datenkombination tatsächlich am besten re- katoren, die im Allgemeinen redundant sind,
präsentiert. werden aus den Modellen eliminiert. Immer-
hin lässt sich aus solchen Befunden der Ver-
Solche Vergleiche zeigen, dass manche Dia- dacht ableiten, dass Diagnostiker zu viele Va-
gnostiker ihr Vorgehen für komplexer halten, riablen benutzen, was eine Erhöhung der Kos-
als es faktisch ist. Sie geben z. B. an, nach ei- ten der Diagnostik, vermeidbare Belastung
nem quadratischen oder interaktiven Modell beim Klienten und eine Überlastung bei der
vorzugehen, wo schon ein einfaches Hauptef- Integration der Daten durch den Diagnostiker
fektmodell ihre Diagnosen gut abbildet. Hier zur Folge haben kann (I Kap. 7).

151
5 Der Prozess der diagnostischen Urteilsbildung

Ein auf den ersten Blick überraschender Be- Im Selbstverständnis von Diagnostikern sind
fund ist in die Literatur unter der Bezeichnung es meist Ausprägungsmuster von Variablen,
„Goldbergs Paradox“ eingegangen. Goldberg die für Entscheidungen ausschlaggebend sind.
(1970) hatte gefunden, dass regressionsanaly- Die Bedeutung einer Variablen hängt also da-
tische paramorphe Modelle von Klinikern das von ab, welche Ausprägungen auf anderen Va-
Kriterium „Vorliegen einer Psychose vs. Vor- riablen in einem konkreten Fall vorliegen. In
liegen einer Neurose“ besser diagnostizierten paramorphen Modellen würde sich dies in spe-
als die Kliniker selbst. (Die Daten waren die zifischen Interaktionen niederschlagen. Wie
gleichen wie in der oben beschriebenen Studie kurvilineare Beziehungen sind solche Inter-
von 1965.) Der Grund hierfür liegt offenbar aktionen jedoch manchmal schwer aufzude-
darin, dass Diagnostiker ihre Gewichte von cken, worunter die Akzeptanz des Modells
Fall zu Fall verändern – also in inkonsistenter leiden wird. Das Versagen des Aufdeckens
Weise anwenden. Ein derartige fallspezifische von Interaktionen betrifft insbesondere Kom-
Anpassung führt das paramorphe Modell nicht pensationsmöglichkeiten unter den relevanten
durch. Solche Befunde haben zu der Empfeh- Prädiktorvariablen, die in linearen Modellen
lung geführt, gute Diagnostiker zu modellieren grundsätzlich zugelassen, in der Praxis aber
und Diagnosen auf der Basis ihrer paramor- manchmal nicht sinnvoll sind und deshalb vom
phen Modelle zu erstellen (Dudycha & Naylor, Diagnostiker ausgeschlossen würden. So ist
1966; Wiggins, 1973). es offensichtlich, dass bei bestimmten Fragen
der Eignungsdiagnose ein Defizit in einer kri-
Schließlich zeigte sich, dass viele Diagnosti-
tischen Variablen durch keinen noch so hohen
ker ihre Entscheidungsregeln nicht vollstän-
Wert in einer anderen Variable kompensiert
dig explizieren können. Offensichtlich sind
werden kann. Hier sind Konfigurationsmodel-
sich Diagnostiker ihrer eigenen Kombinati-
le geeigneter, die – wie wir gleich sehen wer-
onsschritte nicht voll bewusst und können sie
den – Kompensationsmöglichkeiten nur dort
deshalb auch nicht ohne Weiteres verbal dar-
zulassen, wo diese auch sachlich gerechtfertigt
stellen. Wottawa, Krumpholz und Mooshage
sind.
(1982) bemerken, dass direktes Befragen von
Diagnostikern häufig nur Lehrbuchwissen zu Noch kritischer für die Akzeptanz dürfte al-
Tage fördert, das sich mit dem tatsächlichen lerdings sein, dass der tatsächliche Entschei-
Verhalten nicht immer deckt. dungsablauf in den Modellen in keiner Weise
repräsentiert ist. Diagnostische Entscheidun-
Obgleich lineare Modelle in der Regel gu-
gen bestehen in der Praxis nicht darin, dass
te Approximationen des Entscheidungsverhal-
man Variablenwerte, die man in einem Fall
tens von Diagnostikern liefern, werden sie von
gewonnen hat, in eine Vorhersagegleichung
Diagnostikern häufig als artifiziell empfunden
einsetzt; derartige Entscheidungen stellen viel-
und nicht als angemessene Beschreibungen ih-
mehr sequenziell organisierte Prozesse dar.
rer Urteilsbildung akzeptiert. Tatsächlich wäre
Diese wesentliche Eigenschaft wird in den
es erstaunlich und darüber hinaus ineffizient,
bislang besprochenen paramorphen Modellen
wenn ein Diagnostiker, der nicht von vorn-
jedoch nicht berücksichtigt. Bestimmte Konfi-
herein statistische Werkzeuge zur Vorhersage
gurationsmodelle kommen dieser Eigenschaft
benutzt, relevante Prädiktorvariablen nach ei-
näher, da sie es ermöglichen, die einzelnen
nem Regressionsmodell kombinieren würde,
Entscheidungsschritte, die zu einer Diagnose
nur eben nicht rechnerisch, sondern intuitiv.
führen, in logischer Form abzubilden. Solche
Dies käme einem Wettstreit mit einem Com-
Modelle und deren Erstellung werden im Fol-
puterprogramm gleich, den der Diagnostiker
genden dargestellt.
kaum gewinnen kann.

152
5.2 Paramorphe Modelle des Diagnostizierens

5.2.4 Konfigurationsmodelle können. Erreicht eine Person auf V überdurch-


schnittliche Werte bleibt sie im Verfahren,
auch wenn sie das Kriterium für Test K nicht
Definition
erfüllt. Kompensationsmöglichkeiten entspre-
chen damit logischen „oder“-Verknüpfungen
Konfigurationsmodelle lassen sich als Fluss- von Aussagen. Im Beispiel muss der K-Wert
diagramme darstellen. In ihnen werden Ent- größer als 0.5 oder der V-Wert größer als 1
scheidungen in der Form einer Sequenz von sein, damit ein Bewerber nicht bereits ohne
Wenn-Dann-Regeln rekonstruiert, die bei ei- Ansehen des E-Werts abgelehnt wird.
ner Diagnose abgearbeitet werden. Die Mo-
delle heißen deshalb konfigurational, weil die Für die Erstellung und Prüfung solcher Mo-
Personen ein bestimmtes Muster von Werten delle existieren statistische Prozeduren, die
(eine Konfiguration) aufweisen müssen, da- allerdings komplexer und rechnerisch aufwän-
mit eine bestimmte Diagnose, z. B. geeigneter diger sind als die Regressionsmodelle, die wir
Bewerber, depressiv, schulängstlich, gestellt bislang behandelt haben. Um zu sinnvoll inter-
wird. Zwischen den Variablen, auf denen die pretierbaren Ergebnissen zu gelangen, ist hier
Diagnose basiert, können auch kompensato- menschliche Supervision und Intervention (et-
rische Beziehungen bestehen. Allerdings er- wa im Sinne des Einbaus von Wissens über
geben sich diese nicht, wie bei den linearen den Gegenstandsbereich) in stärkerem Maße
Modellen, zwangsläufig. gefordert als dies bei Regressionsmodellen der
I Abb. 5.4 (linker Teil) illustriert ein ein- Fall ist. Im folgenden Abschnitt betrachten wir
faches Konfigurationsmodell, in dem keine ein konkretes Beispiel für das Vorgehen.
Kompensation zugelassen ist. In dem fiktiven
Beispiel handelt es sich um eine Bewerbungs-
situation, in der drei Variablen für die Emp-
fehlung zur Annahme oder Ablehnung rele- Hypothesenagglutinierung
vant sind: Konzentrationsvermögen (K), emo-
tionale Stabilität (E) und Gewissenhaftigkeit
(G), jeweils gemessen in z-Werten. In Wor- Eine sehr elaborierte Form der Rekonstrukti-
ten kann man dieses Modell so ausdrücken: on der diagnostischen Urteilsbildung in Form
„Wenn die Konzentration mindestens leicht konfigurationaler Modelle wurde von Wotta-
überdurchschnittlich ausfällt (z > 0.5) und die wa und Kollegen unter der Bezeichnung Hy-
emotionale Stabilität nicht deutlich unter dem pothesenagglutinierung (abgekürzt HYPAG)
Durchschnitt liegt (z > -1) und die Gewissen- vorgestellt (Wottawa, 1987; Wottawa & Hos-
haftigkeit überdurchschnittlich ausfällt (z > siep, 1987; Wottawa et al., 1982). Es handelt
1), empfehle Annahme, ansonsten empfehle sich um ein Verfahren der schrittweisen Re-
Ablehnung.“ Es sind hier also bestimmte Kon- konstruktion diagnostischer Entscheidungen
figurationen von Variablenausprägungen, die in der Form logisch miteinander verknüpfter
vorliegen müssen, damit eine bestimmte Dia- („agglutinierter“) Hypothesen (Wenn-Dann-
gnose erfolgt. Regeln), die zu einer Diagnose führen. Ziel ist
es dabei, die häufig nur impliziten Entschei-
Der rechte Teil von I Abb. 5.4 zeigt ein Mo- dungsregeln von Diagnostikern im Rahmen
dell, in dem niedrige Werte auf der Variablen eines Wechselspiels zwischen Befragung, Be-
K nicht sofort zu Ablehnung führen, sondern gründung, vorläufiger Regelformulierung und
vielmehr durch hohe Werte auf der Variablen deren anschließender Modifikation explizit zu
V (einem Vigilanztest) kompensiert werden machen.

153
5 Der Prozess der diagnostischen Urteilsbildung

(A) Ohne Kompensation (B) Mit Kompensation

K > 0.5 E > -1 G>1 K > 0.5 E > -1 Annahme

Ja
Ablehnung Annahme V>1 Ablehnung
Nein

Abb. 5.4 Zwei einfache Konfigurationsmodelle.

Die Rekonstruktion der Entscheidungsregeln der Bewerber abgelehnt, ansonsten bleibt er


erfolgt in einem Dialog zwischen einem In- vorläufig im Verfahren. Wichtig ist, dass sich
terviewer und einem Diagnostiker und zwar „Begründung“ hier nicht auf die rationale Ba-
anhand einer Reihe dokumentierter Fälle. Als sis der Regel bezieht – etwa auf Fragen wie
Beispiel betrachten wir eine realistische Se- „Warum ist räumliches Vorstellungsvermögen
lektionsfragestellung (Wottawa & Echterhoff, hier relevant?“ oder „Weshalb wurde für die
1982): Kann ein Bewerber für den Beruf des Messung Test A und nicht Test B verwendet?“
Metallfacharbeiters empfohlen werden oder – sondern auf die Spezifikation der Ausprägung
nicht? einer Indikatorvariablen.
Der Interviewer legt dem Diagnostiker einen Möglicherweise ist es bereits an dieser Stelle
der Fälle vor und bittet ihn um eine Begrün- möglich, für weitere Variablen, die der Dia-
dung seiner Entscheidung. Nehmen wir an, gnostiker als relevant erachtet, entsprechende
der Bewerber sei abgelehnt worden. Der Dia- Regeln zu formulieren. Der Interviewer könn-
gnostiker begründet seine Entscheidung damit, te etwa fortfahren: „Sie hatten erwähnt, dass
dass der Bewerber in einem Test des räumli- noch andere Variablen für die Entscheidung
chen Vorstellungsvermögens weit unterdurch- wichtig waren.“ – „Ja, der Bewerber hatte z. B.
schnittliche Leistungen manifestiert habe, was eine fünf in Mathematik. Nun muss ein Me-
für den Beruf des Metallfacharbeiters ungüns- tallfacharbeiter sicherlich kein Rechengenie
tig sei. Der Interviewer wird hier etwas nach- sein, aber mindestens eine 4 im Abschluss-
haken und den Diagnostiker fragen, wo er zeugnis sollte man erwarten.“ Damit hat der
denn bei dem verwendeten Test zum räum- Interviewer eine zweite Regel gewonnen. Die
lichen Vorstellungsvermögen den Trennwert Regeln bilden einen Teil des vorläufigen Mo-
(engl. cutoff ) festsetzen würde. Der Diagnosti- dells und werden in EDV-gerechter Form ge-
ker antwortet, dass der entsprechende C-Wert speichert. Anschließend wird zum nächsten
für eine Empfehlung mindestens 4 betragen Fall übergegangen, anhand dessen sich evtl.
solle, dass aber natürlich weitere Variablen zu weitere Regeln, die der Diagnostiker für seine
berücksichtigen seien. (C-Werte sind Standard- Entscheidung benutzt, aufdecken lassen. Das
normen mit einem Mittelwert von 5 und einer Modell wird anhand der bearbeiteten Fälle al-
Standardabweichung von 2.) Damit kann der so sukzessive angereichert.
Interviewer eine erste explizite Regel formulie-
ren: Wenn der C-Wert im Test zum räumlichen Sobald ein genügend angereichertes Modell
Vorstellungsvermögen kleiner als 4 ist, wird vorliegt, wird dieses auf den jeweils bearbeite-

154
5.2 Paramorphe Modelle des Diagnostizierens

ten Entscheidungsfall angewendet. Diese An- Modelltests können Modifikationen notwen-


wendung kann drei mögliche Resultate haben. dig machen.
Der Algorithmus des Modells kann zur glei-
Die beschriebenen Schritte werden so lange
chen Entscheidung gelangen wie der Diagnos-
iteriert, bis sich eine akzeptable Passung zwi-
tiker. In diesem Fall liegt ein Treffer des Mo-
schen den Entscheidungen des Modells und
dells vor, woraufhin man direkt zum nächsten
den Entscheidungen des Diagnostikers ein-
Fall übergehen kann.
stellt. „Akzeptable Passung“ könnte dabei et-
Es kann zweitens sein, dass die Modellent- wa so festgelegt werden, dass Modell und Dia-
scheidung anders ausfällt als die des Diagno- gnostiker in mindestens 95 % der Fälle zur
stikers. Diese Diskrepanz wird als Fehler be- gleichen Entscheidung (positiv oder negativ)
zeichnet. Fehler können darauf zurückgehen, gelangen. Ist das Modell erstellt, wird in ei-
dass das Modell noch nicht perfekt ist und mo- nem letzten Schritt eine Kreuzvalidierung an
difiziert werden muss. Sie können aber auch in neuen (z. B. bislang zurückgehaltenen) Fällen
einem inkonsistenten Vorgehen des Diagnosti- vorgenommen. Die Trefferrate, die anhand der
kers begründet sein. In jedem Fall werden Feh- neuen Fälle gewonnen wird, liefert einen Indi-
ler dem Diagnostiker zurückgemeldet. Even- kator der Leistungsfähigkeit des Modells und
tuell wird das Modell dann auf der Grundlage stellt die eigentliche Bewährungsprobe des ge-
seiner Kommentare modifiziert. samten Verfahrens dar. Wir hatten bereits be-
sprochen, dass Kreuzvalidierung hier nichts
Ein drittes Resultat besteht darin, dass das Mo- über die Validität der Diagnose selbst aussagt,
dell keine Entscheidung treffen kann, weil sei- sondern vielmehr die Güte betrifft, mit der die
ne „Wenn-Teile“ im konkreten Fall nicht grei- diagnostischen Urteile vorhersagt werden kön-
fen: Der Fall ist durch das Modell (noch) nicht nen.
entscheidbar. In unserem Beispiel würde das
alle Bewerber betreffen, deren C-Wert im Test I Abb. 5.5 stellt das endgültige Modell dar,
zum räumlichen Vorstellungsvermögen min- das von Wottawa und Echterhoff (1982) re-
destens 4 und deren Mathematiknote besser konstruiert wurde. Wie ersichtlich, wird hier
als 5 ist. Das Modell kann noch keine positive zunächst geprüft, ob die Anwendung des Mo-
Entscheidung fällen und muss entsprechend dells überhaupt sinnvoll ist. Ein Sonderfall, bei
elaboriert werden. Auch dies wird dem Dia- denen die Modellanwendung unangebracht ist,
gnostiker rückgemeldet. Auf der Basis seiner könnte z. B. bei einem Bewerber mit Sprach-
Kommentare wird dann versucht, das Modell problemen oder bei einem Schwerbehinderten
um weitere Regeln zu ergänzen, die eine Ent- vorliegen. Geprüft werden Aspekte des räum-
scheidung im konkreten Fall ermöglichen. lichen Vorstellungsvermögens (LPS 8), das lo-
gische Denken (LPS 3+4; die Kriterien sind je-
Nach Modifikationen oder Ergänzungen des weils C-Werte), die längerfristige Konzentrati-
alten Modells wird das neue Modell an allen onsfähigkeit (Pauli-Test) sowie die Zeugnisno-
bereits abgearbeiteten Fällen geprüft. Hiermit ten im Grundrechnen und angewandten Rech-
soll sichergestellt werden, dass sich dessen nen (I Kap. 12). Im Modell besteht an einer
Leistung durch die vorgenommenen Revisio- Stelle eine Kompensationsmöglichkeit. In der
nen nicht verschlechtert: Die vorher bearbeite- Abbildung ist der letzte Schritt vor der Ent-
ten Fälle sollten also nach der Revision noch scheidung die Prüfung der Note im angewand-
in gleicher Weise klassifiziert werden wie vor ten Rechnen. Wer hier nicht mindestens ein
ihr. Zudem sollten alle vorher bearbeiteten Fäl- „ausreichend“ aufweist, scheidet nicht sofort
le auch durch das revidierte Modell noch ent- aus, sondern kann dies durch seine Leistung in
scheidbar sein. Auch die Ergebnisse dieses den Tests zum logischen Denken (LPS 3 und

155
5 Der Prozess der diagnostischen Urteilsbildung

Hinweise auf Modellanwendung


Sonderfall? unangebracht

LPS 8 > 3

LPS 3+4 > 2

Pauli-Test > 1200 Ablehnung

Grundrechnen < 5

Angewandtes
LPS 3+4 > 3
Rechnen < 5

JA
Annahme
NEIN

Abb. 5.5 Beispiel eines konfigurationalen Modells (nach Wottawa & Echterhoff, 1982).

4) eventuell kompensieren. Dieser Test war dungsfindung eingesetzt werden. Ein gut pas-
bereits in einem vorhergehenden Prüfschritt sendes konfigurationales Modell trifft bei ge-
involviert, dort allerdings mit einem schwä- gebener Datenlage ja meist die gleichen Urtei-
cheren Trennwert, nämlich 2. le wie der Diagnostiker. Die Erstellung eines
kleinen Computerprogramms, das die jeweils
Für die Erstellung eines Modells müssen ca. relevanten Daten aufnimmt und entsprechend
200 bis 300 Fälle abgearbeitet werden. Die des rekonstruierten Regelsystems verarbeitet,
jeweils benötigte Zahl hängt allerdings sehr ist nicht sonderlich aufwändig.
stark von der Komplexität der jeweiligen Ent-
scheidungssituation ab. In Kreuzvalidierungen Wottawa und Hossiep (1987) berichten über
können häufig Trefferraten von mehr als 90% eine Reihe interessanter Erfahrungen bei der
erreicht werden. Modelle, die auf der Basis Erstellung solcher Modelle. Zunächst fällt auf,
der Hypothesenagglutinierung erstellt werden, dass eine gewisse fachliche Naivität des In-
schneiden dabei manchmal deutlich besser ab terviewers in dem in Rede stehenden Anwen-
als „automatische“ Methoden auf der Basis li- dungsbereich günstig ist. Offenbar verhindert
nearer Modelle. Wie andere formelle Modelle dies Diskussionen über die Angemessenheit
können die erstellten Algorithmen zur Verein- des diagnostischen Vorgehens und schwächt
fachung und Automatisierung der Entschei- eine beim Interviewer evtl. vorhandene Ten-

156
5.3 Vorteile expliziter Modelle

denz, eigene („bessere“) Regeln einzubrin- Transparenz. Es werden explizite Regeln, Al-
gen. Die Rückmeldung von Fehlern, die ja gorithmen oder Prozeduren formuliert, auf de-
manchmal auf Widersprüche und Inkonsisten- ren Grundlage Diagnosen und Prognosen er-
zen in der Diagnosebegründung zurückgehen, stellt werden. Das Zustandekommen der Ent-
verlangt ein gewisses gesprächstaktisches Ge- scheidung ist damit transparent und nachvoll-
schick des Interviewers. Auch die Überset- ziehbar. Für die rationale Begründung eines
zung der Aussagen des Diagnostikers in ein Diagnosesystems ist Transparenz unabding-
formelles Regelsystem stellt natürlich recht bar.
hohe Ansprüche.
Optimierbarkeit. Explizite Regeln ermögli-
Was die Akzeptanz der Modelle betrifft, wer- chen es darüber hinaus, ein System auf der
den Vorteile gegenüber rein statistischen Ver- Basis von Rückmeldungen zu verbessern. Bei
fahren erwartet. Diese Erwartung gründet in impliziter Datenkombination kann man nur
der Nähe der Modelle zum diagnostischen Ent- global feststellen, wie gut das System als
scheidungsablauf sowie in der Tatsache, dass Ganzes funktioniert. Allein explizite Systeme
die Modellkonstruktion in „lebendiger Zusam- bieten spezifische Ansatzpunkte für notwen-
menarbeit“ mit dem Diagnostiker erfolgt. dige Optimierungsbemühungen. Eine syste-
matische, sinnvollerweise datenbankgestützte
Die Akzeptanz scheint allerdings nicht in allen
Falldokumentation ermöglicht es, die Konse-
diagnostischen Anwendungsfeldern gleichmä-
quenzen von Modellmodifikationen an bereits
ßig hoch zu sein. Während etwa Diagnostiker
bestehenden Datensätzen abzuschätzen. Hier-
im Bereich der Personalberatung und -auslese
mit wird gewährleistet, dass Eingriffe in das
die Modelle gern zur Vereinfachung der ei-
Modell dessen diagnostischen bzw. prognosti-
genen Entscheidungsfindung einsetzen, sind
schen Wert nicht mindern. Vergangene Erfah-
Psychologen im klinischen Bereich teilweise
rungen können damit für die Weiterentwick-
überrascht, dass sich Entscheidungsprozesse
lung diagnostischer Prozeduren genutzt wer-
überhaupt modellieren lassen und begegnen
den. Die Verfügbarkeit leistungsfähiger und
den Modellen (auch wenn es „ihre“ Modelle
billiger Hardware, sowie einfach zu benutzen-
sind) manchmal mit einer gewissen Skepsis.
der Software zur Falldokumentation und Da-
tenanalyse hält den hierfür nötigen zeitlichen
Aufwand in Grenzen, die den der traditionel-
len Archivierung nicht überschreiten.
5.3 Vorteile expliziter Modelle
Lernen und Erfahrungsaustausch. Das Er-
lernen der diagnostischen Praxis ist einfacher
Formelle Methoden der Datenkombi- und für diagnostische Anfänger durchschau-
nation, wie man sie auf der Basis der barer. Wie Wottawa und Hossiep (1987) aus-
empirischen Untersuchung von Prädiktor- führen, ist die (manchmal noch geübte) Praxis
Kriteriumszusammenhängen, aber auch auf des „Lernens am Modell“ – jüngere Kollegen
der Basis paramorpher Modelle gewinnen beobachten ältere und lesen an deren Entschei-
kann, besitzen eine Reihe gewichtiger Vorteile dungen die „angemessene“ Vorgehensweise
gegenüber informellen Vorgehensweisen. Wir ab – recht ineffizient. Darüber hinaus ist sie ge-
hatten solche Vorteile in den vorhergehenden genüber Innovationsvorschlägen naturgemäß
Abschnitten bereits an diversen Stellen nicht sehr offen. Auch die Kommunikation
besprochen und wollen sie hier noch einmal von Erfahrungen zwischen verschiedenen Dia-
zusammenfassen. gnostikern, die an ähnlichen Fragestellungen

157
5 Der Prozess der diagnostischen Urteilsbildung

arbeiten, wird durch explizite Regeln geför- Kriterien), diese Frage offen lassen. Einiges
dert (Wottawa et al., 1982). Wichtig ist dies spricht jedoch dafür, dass paramorphe Model-
z. B. hinsichtlich einer wünschenswerten Ver- le mindestens genauso gut abschneiden wie
einheitlichung des Vorgehens. Nur bei Vorlie- die informellen Urteile von Diagnostikern, de-
gen expliziter Regeln können Gemeinsamkei- ren Verhalten sie abbilden. In jedem Fall er-
ten und Differenzen verschiedener Diagnos- leichtern explizite Modelle die Identifikation
tiker genau lokalisiert und im Hinblick auf von Regeln oder Teilregeln, die die Vorher-
mögliche Konsequenzen bewertet werden. sagegenauigkeit beeinträchtigen und machen
diagnostische Prozeduren offen für empirie-
Entlastung. Bei der Erstellung paramorpher geleitete Modifikationen, die deren Validität
Modelle werden oft Redundanzen zwischen erhöhen. Die systematische Aufzeichnung und
Indikatoren aufgedeckt, die eliminiert werden Verwertung des Erfolgs einzelner Diagnosen
können. Die Reduktion der Zahl erhobener oder Prognosen ermöglicht es, Information zu
Variablen mindert nicht nur die Kosten der gewinnen, die für eine Verbesserung künftiger
Diagnostik, sie verringert auch die Belastung Entscheidungen sehr hilfreich sein kann.
der Klienten. Überdies können Teilaspekte der
Entscheidungsfindung – insbesondere bei Rou-
tinefällen – automatisiert werden, was auch
den Diagnostiker entlastet. Die Bereitstellung 5.4 Nutzung der klinischen
von Entscheidungshilfen, teilweise auch die Inferenz
computergestützte automatische Diagnose auf
der Basis formeller Prozeduren sind vielver-
sprechende Anwendungen paramorpher Mo- Wir kehren abschließend noch einmal zur Va-
delle. lidität der informellen diagnostischen Urteils-
bildung zurück. Eine wesentliche Datenquelle
Konsistenz. Ein wesentliches Merkmal for- für diese Art der Urteilsbildung liefern ver-
meller Prozeduren liegt darin, dass sie kon- bale und nonverbale Äußerungen von Perso-
sistente Entscheidungen liefern. Sie sind da- nen, die klinische Psychologen im Rahmen
mit – im Sinne des Testgütekriteriums – objek- von Interviews und anderen mehr oder we-
tiv. Hinsichtlich der Fairness diagnostischer niger vorstrukturierten Erhebungssituationen
Entscheidungen, besonders solcher, die mit beobachten. Die bislang dargestellten Untersu-
weitreichenden Konsequenzen für die beur- chungsergebnisse und Überlegungen scheinen
teilten Personen verbunden sind, ist dies eine den Nutzen solcher Daten in Frage zu stellen
sehr wichtige Eigenschaft. Konsistenz allein – was natürlich in scharfem Kontrast zur Ein-
gewährleistet natürlich noch keine Fairness; schätzung vieler klinisch tätiger Psychologen
mangelnde Fairness kann auch in den Ent- steht.
scheidungsregeln begründet sein. Immerhin
garantiert sie Gleichbehandlung aller Perso- Bereits Meehl (1959) hatte vermutet, dass Da-
nen, was bei intuitiver Datenkombination nicht ten aus Interviews wertvolle Beiträge zur Vor-
vorausgesetzt werden kann. hersage machen können, wenn sie in geeigne-
ter Weise verwertet werden, etwa durch Benut-
Validität. Die Frage der Validität war, wie wir zung eines testähnlichen Formats zu ihrer Re-
sahen, Ausgangspunkt der Diskussion um die gistrierung (I Kap. 8). In Übereinstimmung
diagnostische Urteilsbildung. Wir hatten be- hiermit fand Sawyer (1966) anhand einer Li-
sprochen, dass Modelle, welche die Urteils- teraturanalyse Belege dafür, dass die statisti-
bildung selbst rekonstruieren (im Unterschied sche Vorhersage deutlich profitierte, wenn Da-
zu empirischen Vorhersagemodellen externer ten aus Interviews bzw. freien Beobachtungen

158
5.4 Nutzung der klinischen Inferenz

und psychometrische Daten (z. B. aus Tests) Kategorien ein (0 = trifft nicht zu/ist nicht an-
gleichzeitig berücksichtigt wurden. Er schluss- wendbar, 7 = trifft sehr zu). Die Feststellungen
folgerte, dass informelle Beobachtungen, wie beschreiben zum Teil relativ verhaltensnahe
sie im persönlichen Kontakt zwischen Diagno- Sachverhalte (z. B. „rennt von zu Hause weg“),
stiker und Klient anfallen, die Validität von zum Teil verlangen sie ein gewisses Maß an In-
Diagnosen und Prognosen substanziell erhö- ferenz (z. B. „glaubt, dass seine/ihre Probleme
hen können. Der wichtige Beitrag klinischer durch externe Faktoren bedingt sind“).
Diagnostiker liegt Sawyers Analyse zufolge
Alle Items sind relativ einfach und ohne Anbin-
nicht in der Vorhersage selbst, sondern viel-
dung an die Terminologie einer spezifischen
mehr im Bereitstellen von Daten für die Vor-
therapeutischen Schule formuliert. Dies soll
hersage, die in formeller Weise erfolgen solle.
eine breite Anwendbarkeit des Verfahrens si-
Hierfür müssen die „klinischen Daten“ aller-
chern. Die verwendeten Feststellungen wur-
dings in geeigneter Weise aufbereitet werden.
den in Zusammenarbeit mit klinischen Psycho-
Dieser Gedanke wurde in jüngerer Zeit weiter- logen auf ihre Brauchbarkeit geprüft. Darüber
geführt. Wie Westen und Weinberger (2004) hinaus wurde das Verfahren mit den gängigen
hervorheben, ist es dabei entscheidend, die psychometrischen Methoden optimiert.
Beobachtungen so aufzuzeichnen, dass der Westen et al. (2003) sammelten mit dem Ver-
potenzielle Nutzen klinischer Expertise maxi- fahren professionelle Beurteilungen von meh-
miert wird. Shedler und Westen (z. B. Shedler reren hundert Adoleszenten, die als Patien-
& Westen, 1998) entwickelten hierfür z. B. ein ten bei klinischen Psychologen oder Psych-
Q-Sort-Verfahren zur Persönlichkeitsbeschrei- iatern in Behandlung waren. Mittels einer sta-
bung, das speziell auf den Einsatz durch klini- tistischen Klassifikation der von den Psycho-
sche Experten abgestimmt ist (Shedler-Westen logen und Psychiatern vorgenommenen Q-
Assessment Procedure, SWAP-200). Sortierungen konnten sie fünf prototypische
Beim Q-Sort-Verfahren werden auf Karten ge- Muster, also distinkte Gruppenprofile, aus-
druckte persönlichkeitsbeschreibende Adjekti- machen: antisozial-psychopathisch, emotio-
ve oder Feststellungen in eine von mehreren nal dysreguliert, vermeidend, narzisstisch und
vorgegebenen Kategorien sortiert. Die Kate- gehemmt-selbstkritisch. Bei den ersten vier
gorien benennen das Ausmaß, in dem das Ad- handelt es sich um klinisch relevante Formen
jektiv oder die Feststellung auf die zu beur- von Persönlichkeitsstörungen, bei der letzten
teilende Person zutrifft. Das Verfahren eignet um einen weniger kritischen Persönlichkeits-
sich damit sehr gut zur Persönlichkeitsklassifi- stil.
kation und – wenn entsprechende empirische Das antisozial-psychopathische Bild etwa ist
Studien durchgeführt wurden – auch zur Vor- u. a. durch die folgenden Beschreibungen ge-
hersage mit den erfassten Merkmalen assozi- kennzeichnet: rebellisch, aufsässig gegen Au-
ierter Kriterien (I Kap. 9, S. 241f). toritätsfiguren, intensiver und situationsunan-
gemessener Ärgerausdruck, Schuld für eigene
In einer Version des Verfahrens, die zur Zeit
Fehler bei anderen suchen, Wut und Erniedri-
für die Klassifizierung von Persönlichkeits-
gung als Reaktion auf Kritik, Unzuverlässig-
störungen bei Adoleszenten entwickelt wird
keit und mangelnde Bereitschaft, Verantwor-
(SWAP-200-A), sortiert ein klinischer Psycho-
tung zu übernehmen.
loge auf der Basis eines Interviews oder an-
derer Beobachtungen, die etwa während ei- Die statistisch bestimmte Zugehörigkeit zu
ner Therapie anfallen, 200 persönlichkeitsbe- dieser Gruppe war mit einer Reihe externer
schreibende Feststellungen in insgesamt acht Kriterien assoziiert. Hierher gehörten z. B.

159
5 Der Prozess der diagnostischen Urteilsbildung

Klinische Tätigkeit Formelle Prozeduren

Datensammlung Klassifikation

Inferenz und Kombination

Vorhersage

Q-Sortierung oder andere


Form systematischer
Beschreibung

Abb. 5.6 Zusammenspiel klinischer und formeller Datenkombination nach dem Vorschlag von
Westen und Weinberger (2004).

schlechte schulische Leistungen, Drogenmiss- wird eine klinische Klassifikation verlangt;


brauch, Kriminalität und Erfahrung physischer auch diese wird formellen Prozeduren über-
Gewalt in der Kindheit. lassen. Erforderlich ist dagegen eine Beschrei-
bung der in Rede stehenden Person in Begrif-
In dem von Westen et al. vorgeschlagenen Ver-
fen diagnostisch relevanter Aussagen, im Bei-
fahren sind klinische und statistische Formen
spiel auf der Basis einer Q-Sortierung. Diese
der Diagnosefindung integriert, allerdings in
standardisierte Beschreibung liefert Daten, die
unterschiedlichen Rollen (I Abb. 5.6). Klini-
von formellen Prozeduren für Klassifikations-
ker führen die Datenerhebung durch. Dabei
und Vorhersagezwecke genutzt werden. Mit
kann Information aus sehr verschiedenen Quel-
Hilfe formeller Prozeduren wird die Zuord-
len gesammelt werden (Interviews mit den
nung des gewonnenen Profils zu einem empi-
zu beurteilenden Personen, Gespräche mit Be-
risch ermittelten Prototyp sowie die Ableitung
kannten, Aufzeichnungen von Kollegen, Be-
weiterer Aussagen vorgenommen, etwa auf
obachtungen im Rahmen einer Therapie usw.).
der Basis empirisch ermittelter Assoziationen
Neben der Datensammlung obliegen auch In-
zwischen dem Prototyp und bestimmten Krite-
ferenz und Integration dem klinischen Psycho-
riumsmerkmalen. Auf diese Weise lassen sich
logen. Den Klinikern wird dabei aber nicht ab-
die Vorteile klinischer Inferenz und formeller
verlangt, Aussagen über die Wahrscheinlich-
Klassifikation miteinander verbinden.
keit zu machen, mit der eine Person in den
nächsten sechs Monaten mit dem Gesetz in Besonders im Rahmen der klinisch-psycholo-
Konflikt gerät, auf eine spezifische Therapie- gischen Diagnostik bestand eine Konsequenz
form anspricht oder ein Studium der Betriebs- der im vorliegenden Kapitel geschilderten
wirtschaft innerhalb der Regelstudienzeit er- Überlegungen in dem Bemühen, das diagnos-
folgreich abschließt. Dies sind Aussagen, die tische Prozedere möglichst weitgehend zu
besser auf der Basis formeller Datenkombina- objektivieren. Dies schlug sich u. a. in der
tion erbracht werden können. Ebensowenig Formulierung detaillierter Richtlinien zur Be-

160
5.5 Ausblick

stimmung von Störungen in international ge- formelle Modelle heranziehen sollte. Dieser
bräuchlichen Klassifikationssystemen nieder Fall deckt jedoch nicht alle diagnostischen Ent-
(I Kap. 15). Der Anteil subjektiver Momen- scheidungen ab. Zwar beginnt jeder diagnos-
te, die Inkonsistenzen bei einem Diagnostiker tische Prozess mit eingehenden Daten, doch
(oder mangelnde Übereinstimmung zwischen reichen diese allein in der Regel nicht zu einer
Diagnostikern) bewirken, soll damit so weit brauchbaren Diagnose aus. Tatsächlich sind
wie möglich begrenzt werden. Wie Westen die Modelle, die wir in den vorangegangenen
und Weinberger bemerken, besteht damit je- Abschnitten kennengelernt haben, am ehesten
doch eine gewisse Gefahr, diagnostisch und für ein Diagnostizieren im Rahmen häufig wie-
prognostisch relevante Information zu opfern, derkehrender Klassifikations- oder Selektions-
die sich nicht vollständig objektivieren lässt aufgaben mit gleicher oder doch sehr ähnlicher
(weil sie auf klinischer Inferenz beruht). Struktur geeignet.
Die Perspektive des Ansatzes ist es, die Kennt- Diagnostizieren bei Modifikationsaufgaben
nisse, Erfahrungen und die darauf basieren- hat demgegenüber eine komplexere Struktur.
den Schlussfolgerungen klinischer Experten Hier muss psychologisches Wissen genutzt
auszuschöpfen, ohne dabei Leistungen zu ver- werden, um Hypothesen über verhaltenssteu-
langen, für die die menschliche Informations- ernde Strukturen und Prozesse einer Person
verarbeitung nicht gebaut ist und die sie nicht zu generieren, die anhand vorliegender oder
mit der Präzision formeller Prozeduren erbrin- noch zu erhebender Daten getestet werden.
gen kann (Westen & Weinberger, 2004). Das Aus einem hinreichend bewährten „Modell
Verfahren erlaubt es, Wissen (z. B. in Form be- der Person“ für einen interessierenden Verhal-
grifflicher Differenzierungen) zu nutzen, das tensausschnitt werden Erwartungen abgeleitet,
Laien nicht aufweisen, und deshalb z. B. nicht die einer erneuten Prüfung unterzogen wer-
bei der Formulierung der Items eines Per- den. In diese Prüfphasen müssen dabei auch
sönlichkeitsfragebogens vorausgesetzt werden Informationen über den Verlauf einer Interven-
darf. Darüber hinaus sind die gewonnenen tion einbezogen werden. Es handelt sich also
Daten von Antworttendenzen der beurteilten um einen mehrfach rückgekoppelten Prozess,
Personen weitgehend frei (I Kap. 10). Beide bei dem formelle Modelle lediglich Hilfen für
Sachverhalte lassen den Ansatz als wertvolle die Beantwortung von Teilfragen bereitstellen
Ergänzung diagnostischer Prozeduren erschei- können. Den Ablauf des Diagnostizierens im
nen, der nicht nur im Bereich der Klinischen Rahmen derartiger Interventionen werden wir
Psychologie fruchtbar sein kann. in I Kap. 7 noch näher beschreiben.
Eine wichtige Konsequenz der in diesem Ka-
pitel geschilderten Diskussion bestand darin,
5.5 Ausblick ein Bewusstsein für die Vorzüge rationaler und
empirisch begründeter Vorgehensweisen bei
der diagnostischen Urteilsbildung geschaffen
Die dargestellten Überlegungen und Model- zu haben. Dies betrifft insbesondere die Ver-
le zur Urteilsbildung gehen im Wesentlichen wendung expliziter und konsistenter Regeln,
davon aus, dass die Daten dem Diagnostiker die Kontrolle der Richtigkeit bzw. Angemes-
bereits vorliegen oder er zumindest weiß, wel- senheit von Diagnosen und Prognosen sowie
che Daten zu erheben sind. Seine Aufgabe ist die Nutzung dieser Information für die Verbes-
es also nur noch, diese Daten hinsichtlich ei- serung der Entscheidungsfindung. Petermann
ner Klassifikation oder Vorhersage optimal zu (1995) spricht hier von Diagnostik als „kon-
kombinieren, wofür er, wie wir sahen, auch trollierter Praxis“.

161
5 Der Prozess der diagnostischen Urteilsbildung

Weiterführende Literatur 3. Welche Ergebnisse zeigen empirische Stu-


dien zum Vergleich der Leistungsfähigkeit
informeller und formeller Arten der Daten-
Neben der Monographie von Meehl (1954)
kombination?
sind zur Vertiefung der Themen dieses Kapi-
4. Welche Arten paramorpher Modelle des
tels das Buch von Wiggins (1973) sowie die
Diagnostizierens lassen sich unterscheiden?
Artikel von Grove und Meehl (1996), Wottawa
5. Was unterscheidet ein Design zur Erstellung
(1987) sowie Westen und Weinberger (2004)
eines Vorhersagemodells für ein diagnosti-
geeignet.
sches Kriterium von einem Design zur Er-
stellung eines paramorphen Modells?
6. Inwieweit können paramorphe Modelle zur
Fragen zur Wissenskontrolle Verbesserung des Diagnostizierens beitra-
gen?
1. Was versteht man unter klinischer und sta- 7. Wie lassen sich klinische Inferenz und sta-
tistischer Vorhersage? tistische Datenkombination miteinander ver-
2. Wie geht man bei der Erstellung eines sta- knüpfen?
tistischen Vorhersagemodells vor? 8. Welche Vorteile verspricht man sich von
einer solchen Verknüpfung?

162
6 Entscheidungstheoretische Modelle und
antwortabhängiges Testen

6.1 Ein Rahmenmodell des diagnostischen Entscheidungsprozesses . . . . . . . 164


6.2 Arten diagnostischer Entscheidungen . . . . . . . . . . . . . . . . . . . . . . 166
6.3 Selektionsentscheidungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
6.3.1 Variablenauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
6.3.2 Variablenkombination . . . . . . . . . . . . . . . . . . . . . . . . . . 169
6.3.3 Entscheidungsgüte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
6.3.4 Entscheidungsnutzen . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
6.3.5 Entscheidungen außerhalb der Personalselektion . . . . . . . . . . . . 177
6.4 Sequenzielle Strategien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
6.5 Das Bandbreiten-Fidelitätsdilemma . . . . . . . . . . . . . . . . . . . . . . . 180
6.6 Aptitude-Treatment-Interaktionen . . . . . . . . . . . . . . . . . . . . . . . 181
6.7 Antwortabhängiges Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
6.7.1 Sequenzielle Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 185
6.7.2 Adaptive Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187

In der im ersten Kapitel gegebenen Definition Entscheidungstheorie aufbauen, rücken zwei


der Diagnostik hatten wir darauf hingewiesen, Merkmale des Diagnostizierens in den Vorder-
dass Diagnostizieren immer im Rahmen eines grund: Diagnostizieren ist erstens ein sequen-
Auftrags erfolgt, in dem es um die Optimie- ziell organisierter Prozess, in dem wiederholt
rung praktischer Problemlösungen geht. Mit aus unterschiedlichen Handlungsoptionen ei-
dem Einsatz von Tests und anderen diagnosti- ne begründete Wahl getroffen werden muss.
schen Verfahren wird die Erwartung verbun- Zweitens sind Diagnosen mit Entscheidungen
den, zu besseren Empfehlungen und Entschei- verbunden, deren Folgen für die Auftraggeber
dungen zu gelangen, als es ohne diese Verfah- und andere Betroffene berücksichtigt werden
ren möglich ist. Diagnostik soll also Entschei- müssen. Im Zentrum der Überlegungen von
dungshilfen bei praktischen Problemen bereit Cronbach und Gleser steht die Frage, wie nütz-
stellen. lich diagnostische Verfahren für die Entschei-
dungsfindung sind.
Der Gesichtspunkt der Diagnostik als Ent-
scheidungshilfe wurde besonders von Cron- Dieser Frage wurde vor Cronbach und Gleser
bach und Gleser (1965) herausgearbeitet. Ih- (1965) in der diagnostischen Grundlagenfor-
re Überlegungen, die auf Konzepten aus der schung nur wenig Aufmerksamkeit geschenkt

163
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

(Boudreau, 1991). Man konzentrierte sich viel- Institutionen. Sie ist ein Teilgebiet der psy-
mehr auf Tests als Messinstrumente, deren chologischen Grundlagenforschung (Junger-
Reliabilität und Validität man zu maximie- mann, Pfister & Fischer, 2005). Die normative
ren versuchte. Diagnostizieren sollte sich auf Entscheidungstheorie thematisiert dagegen die
möglichst präzise und vorhersagekräftige Ver- Frage, wie bei gegebenen Daten und Zielen op-
fahren stützen. Die Forderung nach Verwen- timal oder rational entschieden werden kann.
dung reliabler und valider Verfahren ist si- Wie sich Personen, Gruppen oder Organisa-
cherlich einsichtig. Aus entscheidungstheore- tionen tatsächlich verhalten, interessiert hier
tischer Perspektive sind diese Kriterien allei- nicht. Vielmehr werden Regeln formuliert, de-
ne jedoch unvollständig. Die Planung des dia- ren Einhaltung die Erfüllung bestimmter Opti-
gnostischen Vorgehens sollte darüber hinaus malitätskriterien gewährleistet. Für diagnosti-
Nutzenabschätzungen als zentrale Komponen- sche Anwendungen ist die normative Entschei-
te beinhalten. dungstheorie die relevante Disziplin.
Dieses Kapitel gibt eine Einführung in grund- Entscheidungen benötigen eine Informations-
legende Anwendungen der Entscheidungstheo- grundlage. Je nach Vollständigkeit dieser
rie in der Diagnostik. Hierzu skizzieren wir Grundlage lassen sich drei Arten von Entschei-
zunächst ein Rahmenmodell des diagnosti- dungssituationen differenzieren. Entscheidun-
schen Entscheidungsprozesses. Anschließend gen unter Sicherheit liegen vor, wenn eine Per-
werden wichtige Einteilungsgesichtspunkte son die Konsequenzen verschiedener Hand-
diagnostischer Entscheidungen im Überblick lungsalternativen genau kennt oder zu kennen
dargestellt. Diese Gesichtspunkte werden in glaubt. Von Entscheidungen unter Risiko wird
den folgenden Abschnitten anhand konkre- gesprochen, wenn die Folgen möglicher Hand-
ter Fragen vertieft. Hierbei geht es um Perso- lungen zwar nicht genau vorherzusehen sind,
nalselektion, die Anordnung und Zusammen- ihnen jedoch Wahrscheinlichkeiten zugeord-
stellung von Tests (sequenzielle Strategien, net werden können. Entscheidungen unter Si-
Bandbreiten-Fidelitätsdilemma), sowie Fragen cherheit kann man als Grenzfall des zweiten
der Klassifikation und Platzierung von Per- Typs auffassen, in denen die Wahrscheinlich-
sonen (Aptitude-Treatment-Interaktion). Ab- keiten gegen Eins streben. Beim dritten Typ,
schließend werden entscheidungstheoretische den Entscheidungen unter Ungewissheit ist die
Gesichtspunkte für die Gestaltung einzelner Informationsbasis so gering, dass nicht einmal
Tests behandelt (antwortabhängiges Testen). eine „probabilistische Lagebeurteilung“ mög-
lich ist. Im Rahmen der diagnostischen Arbeit
kommt Entscheidungen unter Risiko eine be-
sonders wichtige Rolle zu. Wir konzentrieren
6.1 Ein Rahmenmodell des uns deshalb im Folgenden auf diesen zweiten
diagnostischen Entscheidungstyp.
Entscheidungsprozesses I Abb. 6.1 zeigt eine vereinfachte Darstellung
des diagnostischen Entscheidungsprozesses,
die von Cronbach und Gleser (1965) primär
Entscheidungsprobleme lassen sich unter de- für Personalentscheidungen (I Kap. 14) ent-
skriptiven und normativen Gesichtspunkten worfen wurde. Auch andere Entscheidungs-
analysieren (Stegmüller, 1973). Gegenstand situationen, etwa im Bereich der klinisch-
der deskriptiven Entscheidungstheorie ist die psychologischen Diagnostik (I Kap. 15), fol-
Beschreibung und Erklärung des faktischen gen jedoch dieser Grundstruktur (vgl. Tack,
Entscheidungsverhaltens von Personen oder 1976). Ausgangspunkt sind Informationen

164
6.1 Ein Rahmenmodell des diagnostischen Entscheidungsprozesses

Abb. 6.1 Schematische Darstellung des diagnostischen Entscheidungsprozesses (nach


Cronbach & Gleser, 1965, S. 18, sowie Tack, 1976, S. 105).

über Personen oder Bedingungen. Diese Infor- torische Entscheidungen differenzieren. Ter-
mationen werden auf der Basis diagnostischer minale Entscheidungen führen stets zu einer
Strategien so ausgewertet, dass die jeweils an- bestimmten „Behandlung“. Unter Behandlung
visierten Ziele in effizienter Weise erreicht (engl. treatment) kann dabei sehr Verschie-
werden können. Strategien stehen im Zentrum denes verstanden werden, z. B. die Annahme
des diagnostischen Prozesses. Eine Strategie oder Ablehnung eines Bewerbers, die Zuwei-
besteht aus einer Menge von Regeln, die ange- sung zu einem bestimmten Arbeits- oder Aus-
ben, unter welcher Zielsetzung welche Infor- bildungsplatz, die Empfehlung einer bestimm-
mationen zu welchen Entscheidungen führen. ten Therapieform oder die Beurteilung eines
Es handelt sich um Wenn-Dann-Regeln der Zeugen als glaubwürdig oder unglaubwürdig.
Form „Falls die Person in Test 1 einen Wert Terminale Entscheidungen stützen sich auf die
größer als c aufweist, empfehle Behandlung A, Wahrscheinlichkeiten, mit der in Frage kom-
ansonsten gebe Test 2“. Strategien verknüpfen mende Behandlungen Resultate erwarten las-
also Informationen mit Entscheidungen unter sen, die unter einer gegebenen Zielsetzung als
einer gegebenen Zielsetzung. Dabei kann je günstig zu bewerten sind.
nach Zielsetzung die gleiche Information über
eine Person zu unterschiedlichen Entscheidun- Investigatorische Entscheidungen führen dage-
gen führen. Sind in einem Betrieb beispiels- gen zu „Fragen“, für deren Beantwortung wei-
weise mehrere Stellen mit unterschiedlichem tere behandlungsrelevante Information über
Anforderungsprofil zu besetzen, führt dies zu eine Person gewonnen werden muss. Hierbei
anderen diagnostischen Entscheidungen als kann man sich auf Tests (wie in der Abbil-
bei Vorliegen nur einer Position. dung angedeutet), aber auch auf Verhaltensbe-
obachtungen, biographische Angaben, Fremd-
Hinsichtlich ihrer Funktion im diagnostischen beurteilungen usw. stützen. Investigatorische
Prozess lassen sich terminale und investiga- Entscheidungen dienen der Optimierung der

165
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

Informationsbasis, auf der terminale Entschei- Gleser (1965) differenzieren hier zwischen in-
dungen beruhen. Der Zyklus von investigato- dividuellen und institutionellen Entscheidun-
rischen Entscheidungen, Informationssamm- gen.
lung und Entscheidungsfindung wird so lange
durchlaufen, bis eine terminale Entscheidung Individuelle Entscheidungen betreffen einma-
getroffen werden kann. Wann es zu investiga- lige oder seltene Entscheidungen, die sich an
torischen, wann zu terminalen Entscheidungen den Werten, Präferenzen und Zielen einer ein-
kommt, hängt von der jeweiligen Zielsetzung zelnen Person orientieren. Ein typisches Bei-
und der im Einzelfall verfolgten Strategie ab. spiel hierfür ist die diagnostisch gestützte Be-
Einige Strategien werden wir in Abschnitt 6.4 ratung bei der Wahl eines bestimmten berufli-
noch genauer betrachten. chen Bildungswegs. Da sich individuelle Ent-
scheidungen an personspezifischen Werten ori-
Wie in der Abbildung durch den Pfad „Resulta- entieren, können sie nicht ohne Weiteres auf
te → Information“ angedeutet ist, können die andere Fälle generalisiert werden.
Ergebnisse von Behandlungen selbst wieder
Daten liefern, die zu weiteren Fragen oder Be- Anders ist dies bei institutionellen Entschei-
handlungen führen (Tack, 1976). So können dungen. Hier wird eine große Zahl vergleich-
z. B. Therapieresultate diagnostisch genutzt barer Entscheidungen getroffen, wobei ein
werden, um den Verlauf einer Modifikation über die einzelnen Entscheidungen konstant
zu optimieren. Auch die Effektivitätskontrolle bleibendes Wertesystem zugrunde gelegt wird.
von Interventionen stützt sich auf diese Infor- Ein typisches Beispiel sind Selektionsentschei-
mation. Insgesamt wird Diagnostizieren nicht dungen, also etwa die Auswahl von Stellenbe-
als einmalige Datenerhebung aufgefasst, son- werbern.
dern als ein durch Diagnoseziele moderierter Individuelle und institutionelle Entscheidun-
und mehrfach rückgekoppelter Prozess. Die- gen folgen häufig unterschiedlichen Entschei-
ser Gesichtspunkt, der für Diagnostizieren im dungsprinzipien. Für institutionelle Entschei-
Rahmen von Modifikationsaufgaben von es- dungen ist es naheliegend, ein Entscheidungs-
senzieller Bedeutung ist, wird in I Kap. 7 prinzip zugrunde zu legen, das den erwar-
noch eingehend behandelt. Im vorliegenden teten Nutzen über eine Serie ähnlicher Ent-
Kapitel konzentrieren wir uns auf die Diagnos- scheidungen maximiert. Bei diesem sog. Er-
tik im Rahmen von Klassifikations- und Selek- wartungswertprinzip werden Entscheidungen
tionsentscheidungen. in der Weise getroffen, dass der Nutzen „im
Durchschnitt“ bzw. „auf lange Sicht“ ein Op-
timum erreicht. Gemessen am Erwartungs-
wertprinzip sind individuelle Entscheidungen
6.2 Arten diagnostischer manchmal risikoaversiv (z. B. beim Abschlie-
Entscheidungen ßen von Versicherungen), manchmal risiko-
freudig (bei vielen Glücksspielen, z. B. Lotto):
In beiden Fällen ist die langfristig zu erwarten-
Cronbach und Gleser (1965) haben ein Katego- de Auszahlung ja geringer als die Einzahlung.
riensystem erarbeitet, mit dem sich die wich- Dafür werden im ersten Beispiel die im un-
tigsten Parameter diagnostischer Entschei- günstigsten Fall entstehenden Kosten minimal
dungssituationen ordnen lassen (I Tab. 6.1). (sog. Minimax-Prinzip: minimiere den maxi-
Ein grundlegender Gesichtspunkt ist die Häu- mal möglichen Verlust), während im zwei-
figkeit, mit der sich gleichartige Entschei- ten Beispiel die im günstigsten Fall entstehen-
dungssituationen wiederholen. Cronbach und den Gewinne maximal werden (sog. Maximax-

166
6.2 Arten diagnostischer Entscheidungen

Tab. 6.1
Entscheidungsaspekt Alternativen
Wichtige Parameter
Häufigkeit, Nutzen individuell oder institutionell
diagnostischer
Entscheidungen Positionen eine oder mehrere
Zurückweisung möglich oder nicht möglich
Quote fixiert oder variabel
Relevante Information univariat oder multivariat
Diagnostische Strategie einstufig oder mehrstufig (sequenziell)

Prinzip: Maximiere den maximal möglichen Bei Selektionsaufgaben ist die Ablehnung von
Gewinn). Bewerbern bzw. Klienten zulässig. Einfache
Selektion liegt dabei vor, wenn nur eine Po-
Cronbach und Gleser (1965) fokussieren in ih- sition zur Verfügung steht. Für eine Position
ren Überlegungen institutionelle Entscheidun- (z. B. Referendar an einer Schule) können da-
gen, die auf der Basis des Erwartungswertprin- bei durchaus mehrere Stellen offen sein. Sind
zips getroffen werden. Hier steht die „Auszah- mehrere Positionen verfügbar, spricht man von
lung“ (engl. payoff ), also der mit wiederkeh- multipler Selektion. Ein Beispiel ist die Ein-
renden Entscheidungen verbundene Gewinn richtung einer neuen Abteilung in einer Or-
oder Verlust für eine Institution im Vorder- ganisation, in der funktional unterschiedliche
grund. Die Anwendung des Prinzips erfordert Positionen zu besetzen sind.
es, dass den nutzenrelevanten Konsequenzen
von Entscheidungen (z. B. ein tatsächlich ge- In den beiden verbleibenden Fällen ist Zurück-
eigneter Bewerber wird eingestellt, ein unge- weisung nicht möglich. Ist dabei lediglich eine
eigneter Bewerber wird eingestellt usw.) Wahr- Position zu besetzen, werden alle Kandidaten
scheinlichkeiten zugeordnet werden können. akzeptiert. Die Kategorie „Akzeptanz“ scheint
Darüber hinaus müssen die mit den verschiede- auf den ersten Blick etwas aus dem Rahmen zu
nen Entscheidungsfolgen verbunden Gewinne fallen, da sie offenbar keine diagnostisch fun-
oder Verluste auf einer gemeinsamen quantita- dierte Entscheidung beinhaltet. Dennoch stellt
tiven Skala bewertet werden können (z. B. in Akzeptanz eine wichtige Handlungsoption dar.
Geldeinheiten). Wenn sich z. B. die Zahl der Bewerber und
die der verfügbaren Stellen die Waage halten,
Institutionelle Entscheidungen werden unter kann es sinnvoll sein, überhaupt nicht zu dia-
verschiedenen Rahmenbedingungen getroffen. gnostizieren, sondern alle Bewerber zumindest
Zwei wichtige Bedingungen betreffen dabei vorläufig anzunehmen. Weitere Bedingungen
die Anzahl zur Verfügung stehender Positio- hierfür lassen sich aus Nutzenberechnungen
nen oder Plätze sowie die Frage, ob Zurück- ableiten, die wir unten noch besprechen wer-
weisung eine mögliche oder sinnvolle Maßnah- den. Auch für die Gewinnung von Daten, auf
me darstellt. Unterscheidet man für den ersten denen solche Berechnungen basieren, wäre
Gesichtspunkt der Einfachheit halber nur da- Akzeptanz, zumindest aus technischen Grün-
nach, ob eine oder mehrere Positionen zur Ver- den, wünschenswert (I Kap. 6.3.4).
fügung stehen, so lassen sich bei gleichzeitiger
Berücksichtigung des zweiten Gesichtspunkts Sind dagegen mehrere Positionen verfügbar,
vier Arten institutioneller Entscheidungen dif- werden die Bewerber klassifiziert oder plat-
ferenzieren: Einfache Selektion, multiple Se- ziert. Unter Klassifikation wird in diesem Kon-
lektion, Akzeptanz sowie Klassifikation bzw. text die Zuordnung von Personen zu qualitativ
Platzierung (I Tab. 6.2). unterschiedlichen Bedingungen oder Behand-

167
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

Tab. 6.2
Zurückweisung
Selektion, Klassifikation
Positionen möglich nicht möglich
und Platzierung
eine Einfache Selektion Akzeptanz
mehrere Multiple Selektion Klassifikation, Platzierung

lungen verstanden. Hierbei könnte es sich etwa sionen variieren. Bei univariater Information
um Trainingsmaßnahmen mit verschiedenen stützt sich die Entscheidung auf die Segmen-
inhaltlichen Schwerpunkten handeln (z. B. be- tierung einer Variablen. Dies wäre etwa der
triebswirtschaftlich, statistisch, juristisch). Fall, wenn nur ein einziger Test für eine Se-
lektionsentscheidung verwendet würde. Wenn
Stehen die Bedingungen in einer Rangreihe, mehrere Tests oder andere Variablen zu einem
spricht man von Platzierung. Dies wäre Prädiktor kombiniert werden, etwa auf der Ba-
der Fall, wenn sich die Trainingsmaßnah- sis einer Regressionsgleichung zur Vorhersage
men auf das gleiche Gebiet beziehen, je- des beruflichen Erfolgs, gründet die Entschei-
doch nach Vorkenntnissen gestaffelt sind, al- dung letztlich auch auf einer Variablen, ob-
so z. B. ein Anfänger-, ein Fortgeschrittenen- gleich die Informationsbasis hier multivariat
und ein Expertenkurs angeboten wird. Bei ist. Sind für eine Entscheidung mehrere Di-
Klassifikations- und Platzierungsaufgaben mensionen zu berücksichtigen, muss in jedem
geht es meist darum, eine optimale Passung Fall multivariate Information erhoben werden.
zwischen Person und Bedingung bzw. Behand- Entscheidungen nach Konfigurationsmodellen,
lung herzustellen. Praktische Fragen dieser die wir bereits kennen gelernt hatten, basieren
Art sind etwa: Welcher Ausbildungsgang ent- auf multivariater Information (I Kap. 5). Hier
spricht den Fähigkeiten eines Schülers am bes- wird das Ausprägungsmuster auf den einzel-
ten? Welches ist die für einen Patienten erfolg- nen Dimensionen zur Entscheidung herange-
versprechendste Therapieform? zogen. Die Zahl der Variablen bzw. Dimensio-
Häufig ist die Zahl der für bestimmte Behand- nen, die für eine Entscheidung sinnvollerweise
lungsoptionen zur Verfügung stehenden Plätze erhoben werden, hängt naturgemäß sehr stark
begrenzt. Es kann dann nur eine bestimmte von der konkreten diagnostischen Fragestel-
Quote von Kandidaten angenommen oder be- lung ab. Bei Personalentscheidungen ist hier
stimmten Bedingungen zugeordnet werden; z. B. das jeweilige Anforderungsprofil einer
die Quote ist fixiert. Liegen fixierte Quoten Position ausschlaggebend. Je diverser die An-
vor, sind die Entscheidungen über die ein- forderungen ausfallen, desto mehr diagnosti-
zelnen Personen voneinander abhängig. Dies sche Variablen werden im Allgemeinen benö-
kann zur Folge haben, dass Bewerber abge- tigt.
lehnt werden müssen, obwohl sie aufgrund
der Einstellungsuntersuchung als qualifiziertVor Cronbach und Gleser (1965) ging man
erscheinen. Bei einer variablen Quote werden meist davon aus, dass eine terminale Ent-
alle als geeignet angesehen Bewerber einge- scheidung auf der Basis von Tests getroffen
stellt. Quotierungen gehören, wie wir im fol-wird, die von allen Personen bearbeitet wer-
genden Abschnitt darstellen, zu den wesent- den. Dies ist jedoch nur eine von mehreren
lichen Determinanten des Nutzens diagnosti- diagnostischen Strategien. Cronbach und Gle-
scher Verfahren. ser sprechen hier von einer nichtsequenziel-
len bzw. einstufigen (single-stage) Strategie.
Informationen, auf denen Entscheidungen auf- Dieser stellen sie die sequenziellen oder mehr-
bauen, können auf einer oder mehreren Dimen- stufigen (multiple-stage) Strategien gegenüber:

168
6.3 Selektionsentscheidungen

Hier kommt es, zumindest für einen Teil der Sachliche Überlegungen, die die Erhebung ei-
Personen, zunächst zu einer investigatorischen, ner Variablen notwendig machen, beziehen
nach weiterer Informationssammlung dann zu sich z. B. auf physische Voraussetzungen (et-
einer terminalen Entscheidung (I Kap. 6.4). wa Sehtüchtigkeit, Schwindelfreiheit), die für
die erfolgreiche Ausfüllung einer bestimm-
Nachdem in diesem Abschnitt die wesentli-
ten Position unabdingbar sind. Auch für die
chen Parameter von Entscheidungsproblemen
Bestimmung entscheidungsrelevanter psycho-
im Überblick dargestellt wurden, wird im fol-
logischer Variablen sind sachliche Argumen-
genden Abschnitt die Anwendung entschei-
te essenziell. Konkrete Testvariablen werden
dungstheoretischer Überlegungen an einem
dann auf der Grundlage ihrer Assoziation mit
Beispiel genauer betrachtet. Wir greifen uns
dem Kriterium ausgewählt. Dabei ist man im
hierfür Selektionsentscheidungen heraus.
Allgemeinen bemüht, zunächst den besten Prä-
diktor zu wählen, also den Test mit der höchs-
ten prädiktiven Validität für das Kriterium.
6.3 Selektionsentscheidungen Weitere Tests werden hinsichtlich des Zuwach-
ses bewertet, den sie für die Eignungsvorher-
sage erwarten lassen (inkrementelle Validität).
Selektionsaufgaben ergeben sich bei institu- Hierbei handelt es sich nicht unbedingt um die
tionellen Entscheidungen, wenn die Zahl der Tests mit der höchsten Kriteriumskorrelation,
Bewerber bzw. Kandidaten die der verfügba- sondern vielmehr um Tests, die nichtredun-
ren Stellen bzw. Plätze übersteigt (z. B. bei dante Information zur Kriteriumsvorhersage
Arbeits-, Therapie- oder Studienplätzen). Für beitragen. Dies sind meist Tests, die mit dem
die Diagnostik stellen sich hier drei Teilaufga- Kriterium zwar nur moderat assoziiert sind, da-
ben: für aber nur gering mit den bereits gewählten
Prädiktoren zusammenhängen.
1. Auswahl und Erhebung entscheidungsrele-
vanter Variablen (Prädiktoren).
2. Festlegung der Variablenkombination und
6.3.2 Variablenkombination
kritischer Trennwerte.
3. Abschätzung der Entscheidungsgüte und
Im einfachsten Fall basiert die Selektion auf
des Entscheidungsnutzens der Prozedur.
univariater Information. Hier ist also nur eine
Prädiktorvariable (X) involviert. Da es sich
dabei meist um eine quantitative Variable han-
6.3.1 Variablenauswahl delt, etwa Intelligenz oder Punktzahl im Abi-
tur, wird ein kritischer Trennwert (c für engl.
Die Auswahl relevanter Variablen stützt sich cutoff ) auf der Variablen definiert, dessen Er-
primär auf sachliche Überlegungen, die von reichen oder Verfehlen zu Annahme bzw. Ab-
den Anforderungen einer Stelle ausgehen, so- lehnung führt. Trennwerte, die nur eine ein-
wie auf empirische Information über die Zu- zelne Variable segmentieren, werden als sin-
sammenhänge zwischen in Frage kommenden gle cutoffs bezeichnet. Liegt eine positive und
Prädiktoren (Tests) und dem jeweils in Rede monotone Beziehung zwischen Prädiktor und
stehenden Kriterium (z. B. Arbeitsproduktivi- Kriterium vor, lautet die Entscheidungsregel
tät, Studien- oder Therapieerfolg). Daneben dann:
sind manchmal auch Kostenüberlegungen für
die Auswahl einzelner Verfahren ausschlagge- Wenn x ≥ c, akzeptiere den Kandidaten,
bend. andernfalls lehne ihn ab.

169
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

Bei variabler Quote und hinreichender Zahl Wenn (x1 ≥ c1 ) und (x2 ≥ c2 ) und ... und
geeigneter Bewerber kann der Trennwert so (xn ≥ cn ),
festgesetzt werden, dass akzeptierte Kandida- akzeptiere den Kandidaten, andernfalls lehne
ten sehr günstige Prognosen in den jeweiligen ihn ab.
Kriteriumsvariablen aufweisen. Bei fixierter
Quote ist der Trennwert bereits impliziert, da Eine Entscheidungsregel, in der alle für die
die Bewerber entsprechend ihrer Rangreihe Annahme zu erfüllenden Bedingungen mit
auf der Prädiktorvariablen ausgewählt werden, „und“ verknüpft sind, wird als konjunktive Ent-
bis die Quote ausgeschöpft ist. scheidungsregel bezeichnet. („Konjunktion“
Beruht die Selektion auf multivariater Infor- ist in der Logik die Bezeichnung für die Und-
mation, stellt sich die Frage, wie die verschie- Verknüpfung von Aussagen.) Da hier im Un-
denen Prädiktoren (X1 , X2 usw.) am besten terschied zu einer linearen Kombination meh-
kombiniert werden können. Eine Möglichkeit rere Trennwerte involviert sind, spricht man
besteht darin, die Variablen linear zu kombi- auch von einem multiplen Trennwert (multiple
nieren, wie in der multiplen Regression. Der cutoff).
entsprechende Trennwert wird daher auch als Auch bei konfiguralen Regeln können Kom-
multiple-regression cutoff bezeichnet. Die Ent- pensationsmöglichkeiten zugelassen werden.
scheidungsregel ist die gleiche wie oben, mit Dies geschieht durch Einführung von Bedin-
dem Unterschied, dass hier der Prädiktorwert gungen, die mit „oder“ (anstatt mit „und“)
eine gewichtete Kombination mehrerer Aus- verknüpft sind. Eine extreme Variante der Se-
gangsvariablen (z. B. Intelligenz, Gewissen- lektion mit Kompensationsmöglichkeiten liegt
haftigkeit) darstellt: vor, wenn Personen akzeptiert werden, die auf
mindestens einer der entscheidungsrelevanten
x = b1 x1 + b2 x2 ... + bk xk .
Variablen hohe Werte erreichen. Eine solche
Die Gewichte, die den einzelnen Variablen Auswahlregel könnte z. B. lauten, alle Bewer-
zugeordnet werden, hängen von deren Bedeu- ber zu akzeptieren, die im Abitur mehr als 700
tung für das Kriterium sowie von deren Skala Punkte erreicht haben oder deren T-Wert im ei-
ab. nem Eingangstest über 70 liegt. Bei sehr hoher
Punktzahl wäre in diesem Fall das Abschnei-
Wie bereits dargestellt wurde (I Kap. 5), er-
den im Eingangstest vollkommen irrelevant
lauben lineare Kombinationen Kompensations-
(und umgekehrt). Man spricht in diesem Fall
möglichkeiten zwischen Variablen: Ein niedri-
von einer disjunktiven Selektionsregel. („Dis-
ger Wert auf einer Variablen (X1 , z. B. Punkt-
junktion“ bezeichnet in der Logik die Oder-
zahl im Abitur) kann durch einen hohen Wert
Verknüpfung von Aussagen.) Im Allgemeinen
auf einer anderen Variablen (X2 ; z. B. Ein-
kommen in konfiguralen Entscheidungsregeln
gangsprüfung) ausgeglichen werden und da-
sowohl Konjunktionen als auch Disjunktionen
mit ggf. zur Annahme führen. Eine Alternati-
vor (I Kap. 5).
ve zur linearen Variablenkombination bieten
konfigurale Selektionsregeln. Sie erlauben es, Die Auswahl geeigneter Variablen, die Be-
Kompensationsmöglichkeiten, die aus sachli- stimmung ihrer optimalen Kombination sowie
chen Gründen unerwünscht sind, von vornher- die Festlegung sinnvoller Trennwerte stützt
ein auszuschließen. Angenommen wird hier sich auf empirische Untersuchungen, in denen
z. B. nur, wer auf einer Variablen X1 und zu- Zusammenhänge zwischen den Prädiktoren
gleich auf weiteren Variablen X2 usw. die je- und Kriterien bestimmt wurden. Die in die-
weils festgelegten Trennwerte übertrifft. Die sen Schritten involvierten Festlegungen wer-
Entscheidungsregel besitzt hier die Form: den dabei so vorgenommen, dass die Entschei-

170
6.3 Selektionsentscheidungen

dungsgüte bzw. der Entscheidungsnutzen ma- der Personalselektion lieferten Taylor und Rus-
ximiert werden. Diesen Konzepten wenden sell (1939). Die Autoren machten darauf auf-
wir uns nun zu. merksam, dass der Wert eines Tests für Selek-
tionsverfahren an dessen Beitrag zur Entschei-
dungsgüte bemessen werden sollte. Die Frage
ist also: Inwieweit kann mit dem Einsatz eines
6.3.3 Entscheidungsgüte Tests der Anteil korrekter Entscheidungen er-
höht werden? Taylor und Russell wiesen auf,
Die Güte diagnostischer Entscheidungen mit dass dieser Beitrag nicht allein von der Vali-
Hilfe von Tests wird wesentlich, aber nicht dität abhängt und deshalb nicht nur anhand
allein, durch deren prädiktive Validität deter- von Validitätskoeffizienten beurteilt werden
miniert. Wie wir bereits sahen, wird die prädik- sollte. Tatsächlich kann ein Test mit relativ
tive Validität durch die Korrelation zwischen geringer Validität für diagnostische Entschei-
Test und Kriterium bestimmt. Sie liefert ein dungen sehr wertvoll sein. Umgekehrt ist es
Maß für die Genauigkeit der Vorhersage des jedoch auch möglich, dass ein Test mit hoher
Kriteriums durch den Test. Das Quadrat dieser Validität diagnostische Entscheidungen nicht
Korrelation entspricht dem Anteil der Krite- substanziell verbessert. Die Fokussierung auf
riumsvarianz, die durch den Test aufgeklärt Validitätskoeffizienten kann also in die Irre
wird. führen. Für die Bewertung der Entscheidungs-
güte sind neben der Validität noch mindestens
Kriteriumsvaliditäten einzelner Variablen zwei weitere wichtige Größen zu beachten,
überschreiten nur selten Marken von .3 oder nämlich die Basisquote und die Selektions-
.4 (Schmidt, Hunter & Pearlman, 1981). Sol- quote.
che, dem Augenschein nach niedrige, Koeffi-
zienten werden manchmal kritisch gegen den
Einsatz von Tests für diagnostische Entschei- Basisquote und Selektionsquote
dungen eingebracht. So argumentierte z. B. be- Unter Basisquote (engl. base rate) wird der
reits Hull (1928), dass Eignungstests, die nur Anteil der Personen in einer Population ver-
9 bis 16 % der beruflichen Leistungsvariation standen, die ein bestimmtes Merkmal oder
vorhersagen, als Grundlage für Selektionsent- eine bestimmte Merkmalskombination fak-
scheidungen wenig brauchbar seien. tisch aufweisen. Im Rahmen der Personal-
Nun sind niedrige Korrelationen zwischen auswahl bezeichnet die Basisquote den An-
Tests und Kriterien nicht allein den Tests an- teil der tatsächlich Geeigneten unter den
zulasten. Kriterien weisen Reliabilitäts- und Bewerbern. Sind unter 50 Bewerbern 20 für
Validitätsdefizite auf, was deren Korrelation eine ausgeschriebene Position geeignet, be-
mit Prädiktoren mindert. Darüber hinaus kön- trägt die Basisquote z. B. 20/50 = 0.4. Die
nen die Koeffizienten praktisch immer nur für Selektionsquote ist dagegen der Anteil der
akzeptierte Bewerber berechnet werden, da ab- Akzeptierten unter den Bewerbern. Sind
gelehnte Bewerber im Allgemeinen ja keine z. B. zehn Stellen offen und werden entspre-
Kriteriendaten liefern. Auch dies reduziert die chend nur die zehn Testbesten ausgewählt,
Test-Kriteriums-Korrelation. Dennoch stellt beträgt die Selektionsquote 10/50 = 0.2.
die nur moderate Höhe der Validität sicherlich
eine Herausforderung für die Diagnostik dar.
Für die Bestimmung der Entscheidungsgüte
Einen wegweisenden Beitrag zur Bedeutung werden die Häufigkeiten korrekter und inkor-
der Validität für Entscheidungen im Kontext rekter Entscheidungen betrachtet, die mit ei-

171
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

nem Test oder einer Testbatterie getroffen wer- verfehlen, heißen valide Negative. Die beiden
den. Hierzu müssen Vorhersagen auf der Basis verbleibenden Ausgänge repräsentieren fehler-
der Testtrennwerte mit Kriteriumswerten ver- hafte Entscheidungen: Falsch Negative unter-
glichen werden. Die Vorhersage – und damit schreiten den Testtrennwert, obwohl sie den
die Entscheidung über Akzeptanz oder Ableh- Kriteriumsstandard erfüllen, falsch Positive
nung – könnte z. B. mit einem Berufseignungs- überschreiten zwar den Testtrennwert, errei-
test erfolgen. Kriterium könnte ein Maß der chen den Kriteriumsstandard jedoch nicht. Die
Arbeitsproduktivität sein. Bei einem quantita- Häufigkeiten der vier Ausgänge kürzen wir
tiven Kriterium wie Arbeitsproduktivität wird mit VP (valide positiv), VN (valide negativ),
– analog zu den Testwerten – ein Trennwert FP (falsch positiv) und FN (falsch negativ) ab
bestimmt, der Eignung bzw. Nichteignung de- (I Tab. 6.3).
finiert. Dieser Trennwert heißt Kriteriumsstan-
Wie beeinflussen nun Basis- und Selektions-
dard. Der Kriteriumsstandard repräsentiert die
quote die Entscheidungsgüte? Zur Beantwor-
Mindestanforderung, die eine Organisation an
tung dieser Frage muss zunächst ein numeri-
einen geeigneten Mitarbeiter stellt und wird
sches Maß der Entscheidungsgüte festgelegt
entsprechend von der Organisation vorgege-
werden. Ein plausibler Kandidat hierfür ist die
ben. Wie bei den Prädiktoren kann es sich auch
relative Häufigkeit korrekter Entscheidungen,
beim Kriterium um eine einzelne Variable oder
also der Anteil valide Positiver und valide Ne-
um eine aus mehreren Variablen zusammen-
gativer an einer Bewerberstichprobe:
gesetzte Größe (z. B. ein Anforderungsprofil)
handeln. (VP + VN)/(VP + VN + FP + FN).
Kreuzklassifiziert man die Bewerber im Hin- Aus praktischer Sicht ist dieses Maß jedoch
blick auf Erreichen oder Verfehlen von Test- mit einem Problem behaftet. Um nämlich den
trennwert und Kriteriumsstandard, lassen sich Anteil korrekter Entscheidungen, der mit ei-
vier Ausgänge diagnostischer Entscheidungen nem Diagnosesystem erreicht wird, genau be-
differenzieren, die für die Bestimmung der Gü- stimmen zu können, müssten auch Kandidaten
te eines Auswahlverfahrens ausschlaggebend mit ungünstiger Prognose zunächst einmal ak-
sind: zeptiert werden. Ansonsten kann der Anteil
1. ein geeigneter Bewerber wird akzeptiert (va- valide Negativer ja nicht berechnet werden.
lide positiv) Die ideale Prozedur zur Bestimmung der Ent-
2. ein ungeeigneter Bewerber wird abgelehnt scheidungsgüte für dieses Maß wäre eine Zu-
(valide negativ) fallswahl von Bewerbern bis zur Ausschöp-
3. ein geeigneter Bewerber wird abgelehnt fung der Selektionsquote. Es ist verständlich,
(falsch negativ) dass Entscheidungsträger in Organisationen
4. ein ungeeigneter Bewerber wird akzeptiert mit einem solchen Verfahren kaum einver-
(falsch positiv) standen sind, da z. B. erniedrigte Produktivität
oder erhöhte Trainingskosten zu befürchten
Die beiden ersten Ausgänge repräsentieren
wären. Auch ethische Gesichtspunkte, die die
korrekte (valide) positive (Annahme) und ne-
Einzustellenden betreffen, insbesondere die
gative (Ablehnung) Entscheidungen. Perso-
Folgen eines möglichen Versagens auf der Po-
nen, deren Testwerte oberhalb des Testtrenn-
sition, sprechen gegen eine Zufallsauswahl.
werts liegen, und die zugleich auch den Krite-
riumsstandard erfüllen, werden entsprechend Ein alternatives Maß der Entscheidungsgüte
als valide Positive bezeichnet. Personen, die liefert der Anteil der Geeigneten an den Ak-
den Testtrennwert und den Kriteriumsstandard zeptierten. Dieses Maß wird als Erfolgsquote

172
6.3 Selektionsentscheidungen

Tab. 6.3
Entscheidung
Mögliche Ausgänge von
Faktisch Ablehnung Akzeptanz
Entscheidungen
Geeignet Falsch Negativ (FN) Valide Positiv (VP)
Ungeeignet Valide Negativ (VN) Falsch Positiv (FP)

bezeichnet und berechnet sich nach: Ein deutlicher Zuwachs der Erfolgs- gegen-
über der Basisquote ist besonders dann mög-
Erfolgsquote = VP/(VP + FP).
lich, wenn die Basisquote im mittleren Be-
Die Berechnung der Erfolgsquote stützt sich reich (also um 0.5) liegt, wie ein Blick auf die
allein auf die Akzeptierten und kann daher ein- I Tab. 6.4 erkennen lässt. Ist die Basisquote
facher bestimmt werden als der Anteil insge- dagegen sehr hoch oder sehr niedrig, dann ist
samt korrekter Entscheidungen. Darüber hin- der Nutzen der Selektion mit Hilfe des Tests
aus kann aus der Sicht der Institution für dieses geringer. Im ersten Fall – sehr hohe Basisquo-
Maß geltend gemacht werden, dass die Bewäh- te – bleibt wenig Raum für eine Verbesserung:
rung der Eingestellten wichtiger ist als der Sta- auch mit einem validen Test kann nur ein ge-
tus abgelehnter Personen: Abgelehnte liefern ringer Zuwachs der Erfolgs- gegenüber der
ja keinen Beitrag zur weiteren Entwicklung Basisquote erreicht werden. Der Einsatz eines
der Organisation. Taylor und Russell (1939) evtl. teuren Auswahlverfahrens lohnt hier also
legten ihren Überlegungen daher die Erfolgs- nicht; eine Zufallsauswahl wäre fast genauso
quote zugrunde. gut.
Aus sog. Taylor-Russell-Tabellen lassen sich
Im zweiten Fall – sehr niedrige Basisquote
die erwartete Erfolgsquote als Funktion
– hat auch ein valides Verfahren Schwierig-
der Basisquote, der Selektionsquote und
keiten, die „Nadel im Heuhaufen“ zu finden.
der Validität des Auswahlverfahrens ablesen.
Betragen z. B. Basis- und Selektionsquote .10,
I Tab. 6.4 zeigt einen kleinen Ausschnitt aus
so wird ein Test mit einer Validität von .40
diesen Tabellen, die das Zusammenwirken der
die Erfolgsquote von .10 auf .27 erhöhen, al-
drei Parameter auf die Erfolgsquote illustrie-
so eine Verbesserung um 17 % erreichen. Bei
ren.
mittlerer Basisquote ergibt sich hier dagegen
Betrachten wir zunächst die Rolle der Basis- ein Zuwachs um 27 % (.77 − .50). Liegen sehr
quote. Sie ist deshalb ein wichtiger Kennwert, niedrige Basisquoten vor, sollte man also ver-
weil sie eine Bezugsgröße für die Beurteilung suchen, die Position für geeignete Bewerber
der Erfolgsquote bereitstellt. Trifft man eine attraktiver zu machen. Eine Erhöhung der Va-
Zufallsauswahl unter den Bewerbern, ist die lidität des Auswahlverfahrens verspricht hier
erwartete Erfolgsquote gleich der Basisquote. weniger. Unter sonst gleichen Bedingungen ist
Die Differenz also eine mittlere Basisquote für den Einsatz
Erfolgsquote − Basisquote von Tests optimal.

drückt mithin die Verbesserung der Entschei- Auch die Selektionsquote besitzt einen deut-
dung mittels des Tests gegenüber einem Los- lichen Einfluss auf die Entscheidungsgüte: Je
verfahren aus – oder, was gleichbedeutend ist: niedriger die Selektionsquote angesetzt wird,
gegenüber einem Test mit einer Validität von umso höher fällt der Anteil der Geeigneten
Null. Von einem geeigneten Test muss natür- unter den Akzeptierten aus. Mit strikter Selek-
lich gefordert werden, dass diese Verbesserung tion wird gewissermaßen die „Creme“ unter
substanziell ausfällt. den Bewerbern abgeschöpft. Allerdings wird

173
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

Tab. 6.4 Taylor-Russell-Tabellen (Auszug): Erfolgsquote als Funktion von


Basisquote, Selektionsquote und Validität

Basisquote .10 .50 .90


Selektionsquote .10 .50 .90 .10 .50 .90 .10 .50 .90
Validität 0 0.10 0.10 0.10 0.50 0.50 0.50 0.90 0.90 0.90
0.2 0.17 0.13 0.11 0.64 0.56 0.52 0.95 0.93 0.91
0.4 0.27 0.15 0.11 0.77 0.63 0.53 0.98 0.95 0.92
0.6 0.39 0.18 0.11 0.90 0.70 0.54 1.00 0.98 0.93
0.8 0.56 0.20 0.11 0.98 0.80 0.55 1.00 1.00 0.95
0.9 0.69 0.20 0.11 1.00 0.86 0.56 1.00 1.00 0.97

– wie wir bereits bemerkt hatten – auch der ignoriert werden. Drei Gesichtspunkte, die
Anteil falsch Negativer größer, der in der Er- die weitere Entwicklung entscheidungstheore-
folgsquote jedoch nicht berücksichtigt wird. tischer Modelle in der Diagnostik bestimmten,
sind dabei essenziell:
Mit steigender Validität steigt generell auch
die Erfolgsquote. Die Validität macht sich da- 1. Die Ergebnisse des Verfahrens sind mit Aus-
bei besonders bei niedrigen Selektionsquoten zahlungen für die Institution verbunden. Die
bemerkbar. Ist die Selektionsquote dagegen Einstellung valide Positiver wird für das Un-
hoch, evtl. sogar höher als die Basisquote, ternehmen Gewinne mit sich bringen, die
verbessern Validitätsinkremente die Entschei- Einstellung falsch Positiver dagegen kann
dungsgüte praktisch nicht. evtl. Verluste verursachen.
Insgesamt belegen die Überlegungen von Tay- 2. Auf der Seite des Kriteriums wird im Taylor-
lor und Russell, dass eine alleinige Betrach- Russell-Modell lediglich zwischen geeignet
tung von Validitätskoeffizienten die Frage und nicht geeignet differenziert. Personen
nach dem Nutzen von Tests für Selektionsent- in beiden Gruppen können sich aber in ihren
scheidungen unzulässig vereinfacht. Insbeson- Leistungen und damit ihrem Beitrag zu Ge-
dere zeigen sie, dass bei niedriger Selektions- winnen oder Verlusten der Institution deut-
quote bereits eine relativ geringe Validität des lich unterscheiden.
Tests ausreichen kann, um eine passable Er- 3. Die Etablierung, Durchführung und ggf.
folgsquote und einen substanziellen Zuwachs Weiterentwicklung einer diagnostischen
gegenüber der Basisquote zu erreichen. Prozedur führt zu Kosten, die bei der Bewer-
tung des Verfahrens berücksichtigt werden
sollten.
6.3.4 Entscheidungsnutzen
Diese drei Gesichtspunkte wurden besonders
Das Taylor-Russell-Modell betrachtet allein von Brogden (1949) sowie von Cronbach und
die Entscheidungsgüte und konzentriert sich Gleser (1965) ausgearbeitet und formalisiert.
dabei auf den Anteil der Geeigneten unter den Das Modell wird nach den Namen der Au-
Akzeptierten. Diese Beschränkung macht das toren kurz als BCG-Modell bezeichnet. Die
Modell recht einfach und transparent, bringt originäre Zielsetzung des Modells besteht dar-
jedoch den Nachteil mit sich, dass eine Reihe in, den Nutzen einer diagnostischen Prozedur
von Gesichtspunkten, die für die Bewertung ei- für eine Selektionsaufgabe in Geldeinheiten
ner Selektionsprozedur ebenfalls wichtig sind, auszudrücken. Es soll also bestimmt werden,

174
6.3 Selektionsentscheidungen

wie hoch der von dem Einsatz eines Verfahren SDy Leistungsstreuung, Wert der
zu erwartende finanzielle Gewinn oder Verlust Differenz einer Standardabweichung
ausfällt. Damit lässt sich prüfen, ob eine Proze- im Kriterium
dur überhaupt profitabel ist. Außerdem können
verschiedene in Frage kommende Verfahren C Kosten des Verfahrens pro Bewerber
hinsichtlich ihres relativen Nutzens miteinan- Nb Zahl der Bewerber
der verglichen werden.
Die mit dem Modell zu schätzende Größe ist
der inkrementelle Nutzen (incremental utility, Die drei Parameter in der Mitte der Formel
∆U) eines diagnostischen Verfahrens. Unter (Z x , rxy , SDy ) machen den Kern des Modells
inkrementellem Nutzen versteht man den Nut- aus: Ihr Produkt (abzüglich der Kosten C) be-
zenzuwachs, der sich durch die Verwendung stimmt den Nettonutzen pro ausgewähltem Be-
eines Tests oder einer Testbatterie ergibt. Es werber. Wir betrachten diese Parameter des-
handelt sich also um die Differenz „Nutzen der halb als erste.
Selektion bei Einsatz des Tests“ minus „Nut-
zen der Selektion ohne Einsatz des Tests“, also Z x ist der mittlere standardisierte Testwert der
um einen „Nettonutzen“. Die Vergleichsbasis Akzeptierten. Dieser Wert wird durch die Eig-
kann dabei in einer Zufallsauswahl bestehen – nungsverteilung in der Bewerberstichprobe,
hierauf konzentrieren wir uns hier–, aber auch die Validität des Tests und die Selektions-
in einem bereits etablierten Verfahren, dem quote beeinflusst. (Je niedriger die Selekti-
der in Rede stehende Test hinzugefügt wird. onsquote gewählt wird, desto höher fällt Z x
Der Nettonutzen wird üblicherweise in Geld- aus.) Für die Berechnung von Z x müssen Mit-
beträgen ausgedrückt. telwert und Standardabweichung des Prädik-
tors in der Bewerberpopulation bekannt sein.
Ist dies nicht der Fall, kann der Wert über
(λ /Selektionsquote) geschätzt werden. λ ist
Berechnung des Nettonutzens dabei die Ordinate der Normalverteilung an
im BCG-Modell dem durch die Selektionsquote bestimmten
Der Nettonutzen lässt sich nach folgender Testtrennwert. Diese Schätzung ist akkurat,
Formel berechnen: sofern der Prädiktor normalverteilt ist und die
Bewerber – wie üblich – entsprechend ihrer
∆U = Na · T · Z x · rxy · SDy − C · Nb Rangreihe im Prädiktor selektiert werden.

rxy repräsentiert die Validität des Verfahrens in


Die Symbole bedeuten:
der Bewerberpopulation. Bei der Bestimmung
∆U Nettonutzen dieses Parameters stellt sich das gleiche Pro-
blem wie bei der Entscheidungsgüte: Für eine
Na Zahl akzeptierter Bewerber genaue Schätzung werden unselektierte Stich-
proben benötigt, die aber nur selten verfügbar
T mittlere Verweildauer (engl. tenure)
sind. Die Korrelation wird daher meist anhand
der Akzeptierten in der Institution
der Akzeptierten berechnet. Aufgrund der ge-
Z x Mittlerer standardisierter Testwert der genüber einer unausgelesenen Stichprobe ein-
Akzeptierten geschränkten Variation unter den Akzeptier-
ten liefern solche Korrelationen allerdings zu
rxy Validität des Verfahrens in der konservative Schätzungen. Unter bestimmten
Population der Bewerber Voraussetzungen ist es jedoch möglich, diese

175
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

Unterschätzung durch Verwendung von For- entsprechen. Die Experten werden z. B. ge-
meln zur Selektionskorrektur rückgängig zu beten, den Geldwert von Leistungen am 50.,
machen (siehe z. B. Olson & Becker, 1983). 15. und 85. Perzentil einzuschätzen. Die Dif-
ferenzen (50. Perzentil − 15. Perzentil) und
Die Leistungsstreuung, SDy , ist die Standard- (85. Perzentil − 50. Perzentil) entsprechen bei
abweichung der erwarteten Leistung in der Be- Normalverteilung der Werte jeweils ungefähr
werberpopulation, ausgedrückt in Geldäquiva- einer Standardabweichung. Zur Bestimmung
lenten. Es handelt es sich um den durchschnitt- der Leistungsstreuung werden diese Werte ge-
lichen Gewinn für die Institution pro Person mittelt.
und Jahr, der mit einer Erhöhung des Kriteri-
ums um eine Standardabweichung verbunden Noch einfacher ist die Verwendung propor-
ist. Die Leistungsstreuung setzt Kriteriumsun- tionaler Regeln. Diese Methode basiert auf
terschiede in Geldwerte um. empirischen Ergebnissen, die zeigen, dass die
Leistungsstreuung im Allgemeinen zwischen
Beispiel 40 und 70 % des mittleren Gehalts variiert
(Schmidt & Hunter, 1983). Proportionale Re-
Bringt eine Person mit durchschnittlichen
geln werden in vielen Nutzenanalysen ver-
Kriteriumsleistungen (Zy = 0) einem Unter-
wendet. 40 % des mittleren Gehalts gilt da-
nehmen z. B. 50 000 e pro Jahr ein, eine
bei als konservativer Schätzer der Leistungs-
Person mit überdurchschnittlichen Kriteri-
streuung. Erheblich aufwändiger sind indivi-
umsleistungen (Zy = 1) dagegen 70 000 e,
duelle Schätzmethoden, wie z. B. der CREPID-
so beträgt die Leistungsstreuung 20 000 e
Ansatz (Cascio & Ramos, 1986), in denen ein-
pro Jahr und Person. Je höher die Leistungs-
zelne Aktivitäten, die mit einer Position ver-
streuung ausfällt, umso bedeutsamer sind
bunden sind, hinsichtlich ihres Beitrags zur
individuelle Unterschiede im Kriterium für
Produktivität bewertet werden.
die Institution.
Die Bestimmung der Leistungsstreuung wur-
Die Leistungsstreuung wird auf der Grundlage de von Cronbach und Gleser (1965) als Achil-
objektiver Daten oder durch Schätzverfahren lesferse der Anwendung entscheidungstheore-
bestimmt. Da objektive Daten, z. B. Geldäqui- tischer Modelle bezeichnet. Tatsächlich füh-
valente von Verkaufszahlen oder geleisteter ren verschiedene Schätzmethoden zu teilwei-
Produktionseinheiten, selten verfügbar sind, se recht unterschiedlichen Ergebnissen. Die
wurden Schätzmethoden entwickelt, die z. T. Genauigkeit der diversen Verfahren kann zur
auf subjektiven Daten aufbauen. Einige die- Zeit noch nicht abschließend beurteilt werden.
ser Methoden sind recht einfach anzuwenden, Einige Autoren schlagen daher vor, nach Mög-
andere verlangen erheblichen Untersuchungs- lichkeit verschiedene Methoden einzusetzen,
aufwand. um etwaige Divergenzen bei den Schlussfol-
gerungen berücksichtigen zu können (Holling
Zu den einfachen Methoden gehören sog. glo- & Melles, 2004).
bale Schätzprozeduren und proportionale Re-
geln. Bei globalen Schätzprozeduren (engl. Das Produkt der drei bislang besprochenen
global estimation procedure; Schmidt, Hunter, Parameter liefert Nutzenwerte, die auf einen
McKenzie & Muldrow, 1979) liefern Exper- Akzeptierten und ein Jahr bezogen sind. Durch
ten (meist unmittelbare Vorgesetzte der Ein- Multiplikation mit der Zahl der Akzeptierten
zustellenden) Schätzungen des Geldwerts von (Na ) und deren durchschnittlicher Verweildau-
Leistungen, die zwei oder mehr Prozenträngen er in der Institution (T ) erhält man ein Maß

176
6.3 Selektionsentscheidungen

für den gesamten Nettonutzen des Auswahl- 1999). Neuere Entwicklungen auf der Basis
verfahrens. Hiervon sind noch die Kosten, die des BCG-Modells inkorporieren weitere öko-
durch die Anschaffung, Administration und nomische Faktoren, z. B. Steuern oder Diskon-
Auswertung der Tests verursacht werden, ab- tierung, und erlauben damit verfeinerte Be-
zuziehen. Diese Kosten hängen u. a. davon ab, rechnungen des Nutzens einer Prozedur (sie-
wie viele Tests verwendet werden, wie teu- he Boudreau, 1991; Holling & Melles, 2004;
er die einzelnen Tests sind und wie hoch der Roth, Bobko & Mabon, 2001).
zeitliche und personelle Aufwand für Durch-
führung und Auswertung ist. Für sehr valide
Verfahren sind im Allgemeinen höhere Kosten 6.3.5 Entscheidungen außerhalb
zu veranschlagen als für Verfahren geringerer der Personalselektion
Validität.
Nutzenmodelle im Rahmen der Personalselek-
Das BCG-Modell gestattet die Berechnung tion konzentrieren sich auf die Eignung unter
des finanziellen Gewinns bzw. Verlusts, der den Akzeptierten. Ein eventuell durch falsch
bei der Durchführung einer bestimmten dia- Negative entstehender Verlust wird ignoriert
gnostischen Prozedur zu erwarten ist. Eine bzw. als vernachlässigbar gering angesehen.
wichtige Anwendung ist dabei der Nutzen- Dies ist sicherlich nicht ganz unkritisch: Unter
vergleich verschiedener in Frage kommender den Abgelehnten könnten sich exzellente Be-
Verfahren. Es lässt sich also beispielsweise ab-
werber finden, die ihre Fähigkeiten bei einem
schätzen, inwieweit es lohnenswert ist, eine Konkurrenzunternehmen unter Beweis stellen
bestehende Prozedur durch Hinzunahme neu- und damit der Organisation schaden. Auch
er Tests oder Streichung verwendeter Tests zu die Reputation eines Unternehmens, das vie-
modifizieren. le Geeignete ablehnt, könnte leiden (Wiggins,
Auch für die optimale Festlegung von Trenn- 1973).
werten bzw. Selektionsquoten liefert das Mo- Für Selektions- und Klassifikationsentschei-
dell die geeignete Grundlage: Trennwerte las- dungen außerhalb des Kontexts der Personal-
sen sich über mathematische Prozeduren so auswahl ist ein Außerachtlassen der Abgelehn-
festsetzen, dass der Nutzen der Selektion ma- ten bzw. – allgemeiner – „negativ Diagnosti-
ximiert wird. Das Modell liefert damit einen zierten“ meist nicht gerechtfertigt (Wiggins,
wertvollen Beitrag zur Evaluation und Op- 1973). So wäre es z. B. irreführend, ein medizi-
timierung von Auswahlentscheidungen. Dar- nisches oder klinisch-psychologisches Diagno-
über hinaus helfen die Berechnungen bei der severfahren allein danach zu bewerten, wie-
Vermittlung und Begründung psychologischer viele positiv Diagnostizierte tatsächlich eine
Maßnahmen gegenüber „finanziell denkenden“ Krankheit oder Störung aufweisen. Für die
Verantwortlichen in Organisationen (Funke & Bewertung des Verfahrens ist vielmehr auch
Barthel, 1990). ausschlaggebend, wieviele negativ Diagnosti-
zierte die Krankheit oder Störung nicht auf-
Empirische Untersuchungen zeigen, dass
weisen.
selbst der Einsatz von Tests mit relativ ge-
ringer (inkrementeller) Validität zu einem er- Der Anteil positiv Diagnostizierter an den fak-
heblichen Gewinn führen kann. Sie belegen tisch Positiven, VP / (VP + FN), wird in die-
auch, dass sich Validitätssteigerungen einer sen Kontexten als Sensitivität bezeichnet. Ein
Prozedur im Allgemeinen recht schnell amor- Verfahren mit hoher Sensitivität identifiziert
tisieren (für konkrete Anwendungen siehe z. B. faktisch Positive also mit hoher Wahrschein-
Barthel & Schuler, 1989; Holling & Reiners, lichkeit. Der Anteil negativ Diagnostizierter an

177
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

den faktisch Negativen, VN / (VN + FP), wird Trennwert festgelegt werden. Durch mathe-
Spezifität genannt. Ein Verfahren mit hoher matische Prozeduren kann dann derjenige
Spezifität identifiziert also faktisch Negative Trennwert bestimmt werden, der den erwar-
mit hoher Wahrscheinlichkeit. teten Nutzen maximiert.
Bei gegebener Validität eines Verfahrens muss
dabei ein Abgleich zwischen Sensitivität und Nutzenberechnungen sind also durchaus nicht
Spezifität hingenommen werden. Eine Erhö- auf Geldwerte oder -äquivalente beschränkt.
hung der Sensitivität durch Herabsetzen des Der Nutzen diagnostischer Entscheidungen
Testtrennwerts hat notwendigerweise eine Re- kann sich z. B. auch daran bemessen, wie
duktion der Spezifität zur Folge. Umgekehrt gut die Zuordnung von Klienten zu therapeu-
führt eine Erhöhung der Spezifität durch Er- tischen Programmen oder Schülern zu För-
niedrigung des Testtrennwerts immer zu ei- derungskursen gelingt. Der Nutzen wäre in
ner Reduktion der Sensitivität. Die Entschei- diesen Fällen nicht monetär zu bestimmen,
dungstheorie kann hier dazu verwendet wer- sondern vielmehr an Verhaltenskriterien (wie
den, einen angemessenen Kompromiss unter Angstreduktion, Kompetenzzuwachs, Effekti-
Berücksichtigung des Nutzens korrekter und vität usw.) festzumachen.
des Schadens inkorrekter Klassifikationen zu
finden.
6.4 Sequenzielle Strategien
Illustration
Hierfür werden die vier möglichen Aus- Wie bereits angedeutet wurde, lassen sich dia-
gänge numerisch bewertet, wobei es allein gnostische Entscheidungsstrategien in nicht-
auf die Relationen zwischen den Werten sequenzielle und sequenzielle Strategien ein-
ankommt. Nehmen wir z. B. an, der durch teilen. Bei nichtsequenziellen (oder einstufi-
einen falsch Negativen entstehende Scha- gen, engl. single-stage) Strategien wird ein
den sei um einiges gravierender als der Test oder eine Testbatterie allen Personen ge-
durch einen falsch Positiven entstehende geben, über die eine Entscheidung getroffen
Schaden. Dies wäre etwa bei einer unbe- werden soll. Die Entscheidung basiert im ers-
dingt behandlungsbedürftigen Störung der ten Fall auf einem einzelnen Trennwert, im
Fall. Die vier Ausgänge könnten dann z. B. zweiten auf einem kombinierten oder multi-
so bewertet werden: plen Trennwert. In jedem Fall durchlaufen alle
U(VP) = 1, U(VN) = 1, U(FP) = −0.5, Personen gewissermaßen das „volle diagnos-
U(FN) = −2. tische Programm“, das dann in einem Schritt,
also ohne (weitere) investigatorische Phasen,
Der erwartete Nutzen (expected utility) zur terminalen Entscheidung führt. Sequenzi-
für einen bestimmten Testtrennwert kann elle Strategien beinhalten demgegenüber min-
durch destens eine (weitere) investigatorische Stufe.
Nach jeder Stufe wird ein Teil der Bewerber
EU = U(VP)P(VP) + U(VN)P(VN) + (terminal) akzeptiert, ein zweiter Teil der Be-
U(FP)P(FP) + U(FN)P(FN) werber wird (terminal) zurückgewiesen, ein
dritter Teil bleibt im Verfahren und absolviert
berechnet werden. P notiert dabei die Wahr- die nächste Stufe. Dieses Vorgehen wird so
scheinlichkeiten der Ausgänge, die bei lange fortgesetzt, bis über alle Bewerber ter-
gegebener Validität durch den gewählten minal entschieden wurde. Bei sequenziellen

178
6.4 Sequenzielle Strategien

Akzeptanz

X>O W>C

O>X>U
Test 1 Test 2

X<U W<C

Ablehnung

Abb. 6.2 Zweistufige sequenzielle Strategie. X und W sind Testwerte, O (oberer Trennwert,
Akzeptanzgrenze), U (unterer Trennwert, Ablehnungsgrenze) und C sind Trennwerte.

Verfahren sind damit immer mehrere Trenn- die das Kriterium voraussichtlich nicht erfül-
werte involviert. len, ausgesondert. Über die verbleibenden Be-
werber wird dann nach Durchführung des in
Sequenzielle Strategien erlauben es, eine kos- der Regel aufwändigeren zweiten Verfahrens
tenintensive Prozedur so aufzuteilen, dass Res- entschieden. Für die terminale Entscheidung
sourcen geschont werden, gleichzeitig jedoch über die verbleibenden Bewerber werden da-
ausreichend hohe Genauigkeit erhalten bleibt. bei die Testwerte aus der ersten und zweiten
Erreicht wird dies dadurch, dass nach der ers- Phase kombiniert. Die Kombination erhöht die
ten und ggf. weiteren Stufen nur noch Kandi- Validität des gesamten Verfahrens. – Die pre-
daten getestet werden, über die Unsicherheit accept-Strategie ist das Spiegelbild der pre-
besteht. Die für das Gesamtprogramm entste- reject-Strategie. Hier werden Bewerber, die
henden Kosten fallen damit allein für Kandi- das Kriterium mit hoher Wahrscheinlichkeit
daten in der letzten Stufe an. Bei allen anderen erfüllen, bereits nach der ersten Testung termi-
Kandidaten sind die Kosten der Diagnostik nal akzeptiert, der Rest absolviert das zweite
geringer. Verfahren. Danach wird über die verbleiben-
den Bewerber entschieden, wiederum auf der
Die einfachste Variante sequenzieller Strate-
Basis der Ergebnisse in beiden Testverfahren.
gien sind Zwei-Stufen-Pläne (double stage-
Strategien), in denen – wie die Bezeichnung
besagt – zweimal getestet wird. Man unter- Bei einer vollständigen Strategie werden für
scheidet hier zwischen unvollständigen und den Test der ersten Phase sowohl ein oberer
vollständigen Strategien. wie ein unterer Trennwert definiert. Bewerber,
die über bzw. unter diesen Trennwerten liegen,
Unvollständige Strategien sind die pre-reject werden unmittelbar akzeptiert bzw. zurückge-
und die pre-accept-Strategie. Bei der pre- wiesen. Nur über Bewerber im Mittelbereich
reject-Strategie wird zunächst ein kostengüns- werden mittels des zweiten Verfahrens weitere
tiges Verfahren mit allen Bewerbern durchge- Informationen eingeholt. I Abb. 6.2 illustriert
führt. Mit diesem Verfahren werden Bewerber, das Prinzip des Vorgehens. Pre-reject- und pre-

179
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

accept-Pläne sind gewissermaßen beschnitte- 6.5 Das Bandbreiten-


ne Versionen der vollständigen Strategie. Die Fidelitätsdilemma
beiden unvollständigen Pläne involvieren für
die erste Phase jeweils nur einen Trennwert,
Häufig stehen für die Diagnostik nur einge-
nämlich eine Ablehnungs- bzw. eine Akzep-
schränkte zeitliche, personelle und finanziel-
tanzgrenze, der vollständige Plan beinhaltet
le Ressourcen zur Verfügung. Diagnostiker
dagegen beide Grenzen.
sind damit bei der Planung ihrer Untersuchun-
Der Vorteil sequenzieller Strategien liegt dar- gen mit dem folgendem Dilemma konfron-
in, dass relativ teure Tests nur mit einem Teil tiert: Sollen mit den begrenzten Mitteln nur
der zu Diagnostizierenden durchgeführt wer- wenige Variablen sehr genau gemessen wer-
den müssen. In der ersten Phase wird nur ei- den oder sollen viele Variablen eher kursorisch
ne relativ grobe Einteilung vorgenommen, für erfasst werden? Cronbach und Gleser (1965)
die ein einfaches und leicht durchzuführendes nennen dies (in Anlehnung an die Terminolo-
Verfahren ausreicht. Hierbei kann es sich z. B. gie der Nachrichtentechnik) das Bandbreiten-
um einen Test aus der gesamten im Rahmen Fidelitätsdilemma. „Bandbreite“ steht für die
der Prozedur geplanten Batterie handeln oder Anzahl gemessener Merkmale, Fidelität für
um eine Kurzversion mit repräsentativen Tei- die Validität der einzelnen Messungen.
len aus mehreren oder allen Tests. Der erste
Unter den nahezu immer existierenden ein-
Test allein ist für die endgültige Auswahl je-
schränkenden Bedingungen beim Diagnosti-
doch noch nicht valide genug. Daher werden
zieren muss ein Kompromiss gefunden werden
hier auch Akzeptanz- bzw. Ablehnungsgren-
zwischen dem Einsatz sehr valider Verfahren,
zen relativ „liberal“ festgelegt. Hinreichende
die aber diagnostische Relevanz für nur we-
Validität für die endgültige Entscheidung wird
nige Merkmale besitzen, und Verfahren, die
erst in Kombination mit dem zweiten und ggf.
weniger genau messen, dafür aber gleich meh-
weiteren Verfahren erreicht.
rere Merkmale erfassen. Stehen für den Test-
Verglichen mit einstufigen Verfahren, in denen teil einer Auswahldiagnostik z. B. 90 Minuten
alle Bewerber alle Tests erhalten, müssen bei zur Verfügung, könnte die Frage entstehen,
sequenziellen Verfahren Einbußen an Validität ob man für die Erfassung relevanter Merkma-
in Kauf genommen werden. Gemessen an den le die Kurzform eines Intelligenztests, einen
Kosten können diese Einbußen aber vernach- Konzentrationstests und Skalen zur Bestim-
lässigbar gering sein. Sequenzielle Strategien, mung von Gewissenhaftigkeit, Verträglichkeit
insbesondere vollständige, sind meist um ei- und Leistungsmotiviertheit gibt, oder ob man
niges effizienter als einstufige (Cronbach & für die Bestimmung eines für die Position
Gleser, 1965; für Beispielrechnungen siehe sehr wichtigen Intelligenzmerkmals, sagen wir
auch Wiggins, 1973). Mit der Zahl der Stufen räumliches Vorstellungsvermögen, mehr Zeit
einer diagnostischen Prozedur steigt naturge- reserviert und dafür auf den Konzentrations-
mäß auch der Planungs- und Durchführungs- test oder die Persönlichkeitsskalen verzichtet.
aufwand. Zweistufiges Testen kann als eine „Bandbreite“ kann sich dabei sowohl auf ganze
in vielen Fällen geeignete Kompromisslösung diagnostische Prozeduren (wie viele verschie-
angesehen werden. Hierdurch kann hohe Ge- dene Tests sollen eingesetzt werden?) als auch
nauigkeit bei vergleichsweise geringem Tes- auf einzelne Tests innerhalb einer Prozedur
taufwand erreicht werden. Ein mehrstufiges beziehen (ein Test zur Erfassung verschiede-
Vorgehen ist dabei besonders dann anzuraten, ner Intelligenzdimensionen hat größere Band-
wenn die Kosten der Diagnostik für terminale breite als ein Test, der allein das räumliche
Entscheidungen relativ hoch sind. Vorstellungsvermögens misst, I Kap. 12).

180
6.6 Aptitude-Treatment-Interaktionen

Die jeweils angemessene Balance zwischen 6.6 Aptitude-Treatment-


Bandbreite und Fidelität hängt wesentlich da- Interaktionen
von ab, wie viele unterschiedliche Entschei-
dungen auf der Basis der Diagnostik getroffen
werden sollen. Breitbandprozeduren besitzen Bislang haben wir den Nutzen von Tests bei
einen großen Anwendungsbereich und sind Selektionsaufgaben betrachtet. Ein weitere
damit meist auch für mehr Entscheidungssi- Aufgabe, die von Cronbach und Gleser (1965)
tuationen nützlich als Verfahren mit geringer analysiert wird, stellen Platzierungen dar. Hier
Bandbreite. So könnte z. B. ein Verfahren mit geht es darum, Personen auf der Basis diagnos-
hoher Bandbreite nicht nur für die Selektion, tischer Information der für sie optimalen Be-
sondern auch für anschließende Platzierungs- handlung (z. B. Aus- oder Weiterbildungspro-
entscheidungen (etwa Zuordnung zu geeigne- grammen, Therapien) zuzuordnen. Nehmen
ten Trainingsprogrammen) verwendet werden. wir an, die Behandlungsoptionen bestünden
Der Beitrag eines Verfahrens ist nach Cron- in drei Kursen A, B und C zum gleichen The-
bach und Gleser (1965) über alle Entschei- ma, die jedoch unterschiedliche Vorkenntnisse
dungen zu bewerten, die mit seiner Hilfe ge- voraussetzen oder unterschiedlich schnell vor-
troffen werden, nicht allein auf der Grundlage gehen. Die diagnostische Aufgabe bestünde
seines Beitrags für eine spezifische Entschei- hier darin, mittels eines Wissens- oder Fähig-
dung. Die Information, die ein sehr valides, keitstests die Personen so platzieren, dass sie
aber spezifisches Verfahren liefert, beantwor- von den entsprechenden Kursen jeweils maxi-
tet evtl. nur eine Frage sehr genau, lässt weite- mal profitieren.
re Fragen dagegen unbeantwortet, so dass sein
Cronbach und Gleser argumentieren, dass
Nutzen insgesamt eher gering ausfallen kann.
hierfür nicht immer die Tests geeignet sind,
Ihre Analysen bringen Cronbach und Gle- für die sich im Durchschnitt über Behand-
ser (1965) zu einer günstigen Bewertung von lungen die größte Validität ergibt. Nützlich
Breitbandverfahren. Die Autoren schließen da- sind vielmehr solche Verfahren, für die sich
bei auch solche Zugangsweisen ein, die übli- deutliche Interaktionen zwischen Testwerten
cherweise aufgrund geringer oder fraglicher und Behandlung im Hinblick auf ein Krite-
Validität eher kritisch betrachtet werden, z. B. rium (z. B. Lernerfolg im Kurs) sichern las-
freie Interviews, projektive Tests oder Aufsatz- sen. Cronbach (1957) hat hierfür den Begriff
prüfungen. Der potenzielle Wert solcher Ver- Aptitude-Treatment-Interaktion geprägt. Er be-
fahren liegt darin, dass sie bedeutsame Sach- zog sich dabei vor allem auf pädagogisch-
verhalte ans Tageslicht bringen können, die psychologische Fragen.
eine Reihe stark fokussierter Tests allein nicht Mit dem Konzept Aptitude-Treatment-
aufdecken. Obgleich diese Sachverhalte mit Interaktion wird der Sachverhalt bezeichnet,
hoher Unsicherheit behaftet sind, liefern sie dass die Effektivität verschiedener Formen
doch Grundlagen für Hypothesen, die im Rah- der Instruktion von Fähigkeiten, Eignungen
men weiterer Untersuchungen geprüft, und und anderen Merkmalen der unterrichteten
dabei ggf. auch falsifiziert werden können. Personen abhängen. So fördert z. B. ein
Cronbach und Gleser (1965) empfehlen da- stark strukturierter und kontrollierender
her, Breitbandverfahren nach Möglichkeit an Unterricht den Lernerfolg bei Kindern
den Anfang einer sequenziellen Prozedur zu mit geringen Fähigkeiten, während er das
stellen, die zu reversiblen (nichtterminalen) Lernen bei Kindern mit hoch ausgeprägten
Entscheidungen führt. Fähigkeiten eher beeinträchtigt (Snow,
1989). Generell zielen Forschungen zu

181
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

Abb. 6.3 Zusammenhänge zwischen Aptitude und Kriteriumswerten (z. B. Lernerfolg) bei drei
Treatments (z. B. Kursen A bis C).

Aptitude-Treatment-Interaktionen darauf, parallel. Der Test sagt hier zwar den Lerner-
Information bereitzustellen, mit deren Hilfe folg vorher, liefert jedoch keine Anhaltspunkte
Behandlungen auf individuelle Merkmale für eine Platzierung der Personen. Alle Perso-
oder Voraussetzungen abgestimmt werden nen schneiden in Kurs A am besten ab, so
können, im Beispiel also Unterrichtsformen dass man in diesem Fall nach Möglichkeit alle
auf Fähigkeitsmerkmale. Personen auf Kurs A schicken sollte.

Interaktionen liegen dann vor, wenn Stärke


und/oder Richtung des Zusammenhangs zwi- Beim Szenario im rechten Teil besteht dage-
schen zwei Variablen (z. B. Fähigkeit und gen eine Interaktion, da sich die Kurven kreu-
Lernerfolg), von der Ausprägung einer drit- zen. Wie ersichtlich ist, profitieren Personen
ten Variable (z. B. Unterrichtsform) abhängen. mit niedrigen Testwerten am meisten von Kurs
I Abb. 6.3 zeigt zwei hypothetische Szena- C, Personen mit mittleren Werten am meisten
rios, in denen Beziehungen zwischen einem von Kurs B und Personen mit hohen Werten
Kriterium (Lernerfolg) und Testwerten (z. B. am meisten von Kurs A. Wenn sich die Kurven
zu Vorwissen oder Fähigkeiten) für jeweils kreuzen, ergeben sich unterschiedliche Plat-
drei Behandlungen (Kurse, z. B. A = Fortge- zierungsempfehlungen für verschiedene Per-
schrittene, B = Personen mit Vorkenntnissen, sonen. Personen mit hohen Merkmalsausprä-
C = Einsteiger) untersucht wurden. gungen (z. B. solche mit umfangreichem Vor-
wissen oder hohen bereichsspezifischen Fä-
In beiden Szenarios und für alle Kurse beste- higkeiten) lernen am besten in dem schnell
hen positive Beziehungen zwischen Testwer- voranschreitenden Kurs A. Von dem Einstei-
ten und Lernerfolg. Der linke Teil zeigt ein gerkurs C sind solche Personen unterfordert
Szenario, in dem keine Interaktion zwischen und nehmen hier entsprechend auch wenig mit.
der mit dem Test erfassten „Aptitude“ und der Personen mit niedrigen Testwerten lernen da-
Behandlung vorliegt: Die Kurven verlaufen gegen im Einsteigerkurs C wesentlich mehr

182
6.6 Aptitude-Treatment-Interaktionen

als im Fortgeschrittenenkurs A, dessen Vor- auf die Leistung auswirkt. Demgegenüber pro-
aussetzungen sie nicht mitbringen. fitieren niedrigängstliche Schüler stärker von
einem schülerzentrierten Unterricht, der viel
Für Platzierungsempfehlungen ist Informati-
Freiraum für selbstständigen Wissenserwerb
on über Aptitude-Treatment-Interaktionen von
lässt. Für Ängstlichkeit zeigte sich hier also
essenzieller Bedeutung. Tatsächlich wird die
eine ähnliche Interaktion, wie sie häufig für
Existenz solcher Interaktionen immer voraus-
Fähigkeiten festgestellt wurde.
gesetzt, wenn Bedingungen oder Behandlun-
gen auf individuelle Merkmale und Voraus- Das Konzept hat eine Vielzahl von Untersu-
setzungen einer Person abgestimmt werden chungen angeregt. Trotz dieser Tatsache wird
sollen. der Ertrag der Forschung in Übersichtsarbeiten
Zu beachten ist dabei, dass der Anwendungs- eher nüchtern bewertet. Cronbach und Snow
bereich des Begriffs weiter ist, als die Bezeich- (1977) bemerken im Hinblick auf die häu-
nung „Aptitude-Treatment-Interaktion“ nahe- fig schwierige Replizierbarkeit von Befunden,
legt. Anstelle von Eignungs- bzw. Fähigkeits- keine Aptitude-Treatment-Interaktion sei so
merkmalen können hier auch emotionale und gut bestätigt, dass sie direkt als Richtlinie für
motivationale Variablen, z. B. Ängstlichkeit, die Gestaltung von Unterrichtsprozessen her-
Leistungsmotivation oder Interessen betrach- angezogen werden könne. Dennoch resümie-
tet werden. Entsprechend kann sich „Behand- ren sie: „Aptitude-treatment interactions exist.
lung“ nicht nur auf Ausbildung, sondern auch To assert the opposite is to assert that whiche-
auf verschiedene präventive oder kurative In- ver educational procedure is best for Johnny
terventionen beziehen. Schließlich kommen is best for everyone else in Johnny’s school“
als Kriterien nicht nur Leistungsmerkmale, (p. 492; vgl. auch Snow, 1989).
sondern auch Arbeitszufriedenheit, Angstfrei- In unserem Kursbeispiel ging es um die opti-
heit usw. in Betracht, also prinzipiell alles, was male Zuordnung von Personen zu vorgegebe-
sich als Effekt einer Behandlung einstellen nen Behandlungen oder Bedingungen. Cron-
kann oder soll. bach und Gleser sprechen hier von fixierten
Die Forderung nach verstärkter Forschung zu Behandlungen. Inhalt und Ablauf der Behand-
Aptitude-Treatment-Interaktionen wurde be- lungen stehen hier von vornherein fest. Un-
sonders im Bereich der Pädagogischen Psy- ter adaptiven Behandlungen werden dagegen
chologie aufgegriffen, um Lehrmethoden und Interventionen verstanden, die sich auf Merk-
-inhalte besser an individuelle Lernvorausset- male und Voraussetzungen der behandelten
zungen von Schülern anpassen zu können. Personen einstellen.
Leitfrage war hier, welche Effekte unterschied-
Adaptive Behandlungen finden sich typischer-
liche Lehrmethoden oder -inhalte bei verschie-
weise bei therapeutischen Interventionen, de-
denen Schülern besitzen. Hier wurden neben
ren Bausteine und Ablauf auf das spezifische
Fähigkeitsmerkmalen auch nichtintellektuelle
Problem einer Person abgestimmt werden,
Eigenschaften betrachtet.
oder in pädagogischen Kontexten, in denen
Ein Beispiel hierfür liefert die Studie von Lehrinhalte und -methoden an die Vorausset-
Dowaliby und Schumer (1973), die Auswir- zungen einer Klasse angepasst werden. Beim
kungen unterschiedlicher Unterrichtsformen Unterrichten sind hier auch computergestütz-
auf die Leistung hoch- und niedrigängstli- te Lehrsysteme zu nennen, in denen die ver-
cher Schüler untersuchten. Sie fanden, dass mittelte Information dem Wissensstand bzw.
ein stark strukturierter, lehrerzentrierter Un- dem Lernfortschritt einer Person folgt (Leut-
terricht sich bei ängstlichen Schülern günstig ner, 1992). Im Rahmen von Personalentschei-

183
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

dungen in Organisationen werden adaptive Be- Bereichen des Merkmalskontinuums zu er-


handlungen praktiziert, wenn die Arbeitsbe- halten, wird eine große Zahl von Items un-
dingungen oder -anforderungen nach der Ein- terschiedlicher Schwierigkeit benötigt. Bei
stellung von Bewerbern auf die jeweils spezifi- Fähigkeitstests werden die Items dabei im
schen Stärken einzelner Personen zugeschnit- Allgemeinen nach ihrer Schwierigkeit gestaf-
ten werden. felt, man beginnt also mit leichten Aufgaben
und geht im Lauf der Testung sukzessive zu
schwierigeren Aufgaben über.
6.7 Antwortabhängiges Testen Von diesem Grundaufbau wird beim konven-
tionellen Testen nur manchmal aus ökonomi-
Entscheidungstheoretische Prinzipien lassen schen Gründen und zur Sicherung einer güns-
sich nicht nur zur Auswahl und Anordnung tigen Motivation der Probanden leicht abge-
von Tests oder anderen „ganzen“ diagnosti- wichen. Bei individuellen Intelligenzprüfun-
schen Verfahren einsetzen, sondern auch zur gen ist es z. B. üblich, nach mehreren Fehlver-
Auswahl und Anordnung der Items eines ein- suchen abzubrechen oder zu leichteren Auf-
zelnen Tests. Im ersten Fall spricht man von gaben überzugehen. Auch die Einstiegsitems
diagnostischen Makrostrategien, im zweiten werden bei Intelligenztests manchmal an das
dagegen von Mikrostrategien. In der Praxis (erwartete) Fähigkeitsniveau eines Probanden
werden entscheidungstheoretische Mikrostra- angepasst. Man verzichtet also z. B. bei intel-
tegien meist bei Fähigkeits- und Leistungs- ligenten Probanden auf die Darbietung sehr
tests implementiert, ihr Anwendungsfeld ist leichter Items und beginnt gleich mit Items hö-
jedoch nicht grundsätzlich auf diesen Bereich herer Schwierigkeit. Dahinter steht die Über-
beschränkt. Die wichtigste Umsetzung ent- legung, nur solche Items zu geben, die einen
scheidungstheoretischer Mikrostrategien stellt deutlichen Informationsgewinn versprechen.
das antwortabhängige Testen (Hornke, 1976, Diese, für das konventionelle Testen eher bei-
1977) dar. läufige Idee wird beim antwortabhängigen Tes-
ten systematisiert.
Antwortabhängiges Testen
Antwortabhängige Verfahren lassen sich zwei
Antwortabhängiges Testen (engl. response Prototypen zuordnen, die mit unterschiedli-
contingent testing) umfasst alle Verfahren, chen diagnostischen Zielsetzungen eingesetzt
bei denen die gegebenen Antworten über werden. Bei sequenziellen antwortabhängigen
den weiteren Verlauf des Testens entschei- Verfahren steht das Ziel einer Verkürzung der
den. Von konventionellen Tests heben sich Testdauer im Vordergrund. Sequenzielle Ver-
antwortabhängige Verfahren durch eine fle- fahren werden zur Einordnung von Personen
xible Strategie der Informationserhebung in zwei oder mehr vorab definierte Gruppen
ab, die auf das mit der Testung angestreb- verwendet. Bei adaptiven antwortabhängigen
te Ziel (z. B. Messung oder Klassifikation) Verfahren geht es demgegenüber primär um ei-
und die im Rahmen der Prozedur notwen- ne möglichst präzise quantitative Bestimmung
dige Präzision der Diagnostik abgestimmt eines zu diagnostizierenden Merkmals. Auch
ist. dies soll ökonomisch, also mit möglichst we-
nigen Items, erreicht werden.
Wie in I Kap. 3 dargestellt wurde, wird beim
konventionellen Testen eine fixierte Itemmen-
ge gegeben: Jeder Proband bearbeitet die glei-
chen Items. Um genaue Messungen in allen

184
6.7 Antwortabhängiges Testen

6.7.1 Sequenzielle Verfahren bezeichnet werden (andere gebräuchliche Be-


zeichnungen sind Sequenzialtest oder Folge-
Mit sequenziellen Tests werden Personen in test). Kennzeichnend für diese statistischen
eine von mehreren diagnostisch interessieren- Verfahren ist der variable Stichprobenumfang.
den Gruppen eingeteilt. Sie können also bei Im Unterschied zu vielen anderen statistischen
Selektions- und Klassifikationsaufgaben ein- Prüfverfahren wird dieser Umfang nicht vor-
gesetzt werden. Diagnostische Fragen, die mit ab festgelegt, vielmehr wird nach jeder Beob-
Hilfe sequenzieller Testung beantwortet wer- achtung entschieden, ob die Datenlage für die
den können, wären etwa: Hat ein Kandidat die Prüfung der Hypothesen schon ausreicht oder
Prüfungsanforderungen erfüllt? Liegt bei ei- noch weitere Beobachtungen notwendig sind.
nem Klienten eine Angststörung vor? Handelt
es sich bei einem Schüler um ein „hochbegab- Zur Illustration des Vorgehens betrachten wir
tes“ Kind? den Sequential Probability Ratio Test (SPRT;
Wald, 1947). Für die Anwendung des SPRT
In diesen Beispielen geht es um eine dicho- müssen (mindestens) zwei Hypothesen, zu-
tome Klassifikation von Personen. Auch po- sammen mit zugehörigen Irrtumswahrschein-
lytome Klassifikationen sind mit sequenziel- lichkeiten, formuliert werden. Hypothesen und
len Verfahren möglich. Weitere quantitative Irrtumswahrscheinlichkeiten erlauben dann
Differenzierungen innerhalb der Klassen in- die Bestimmung von Trennwerten für richtige
teressieren jedoch nicht. Der Grundgedanke bzw. falsche Antworten, bei deren Überschrei-
sequenzieller Verfahren ist es, das Testen abzu- ten das Testen abgebrochen und die terminale
brechen, sobald genügend Information für die Entscheidung getroffen wird. Die Logik der
Klassifikation vorliegt. Solche Verfahren kön- Prozedur lässt sich am besten anhand eines
nen erheblich ökonomischer sein als konven- konkreten Beispiels veranschaulichen.
tionelle Tests, in denen eine möglichst genaue
quantitative Bestimmung der Merkmalsausprä-
Für die Abschlussprüfung eines Weiterbil-
gung angestrebt wird. Der Ökonomiegewinn
dungskurses liege eine große und (ungefähr)
sequenzieller Verfahren rührt daher, dass auf
schwierigkeitshomogene Menge von Wissens-
eine (quantitative) Binnendifferenzierung in-
fragen vor. Zur Einsparung des Prüfungsauf-
nerhalb der Klassen verzichtet wird.
wands sollen die Items dieses Pools sequen-
Zu diesem Zweck müssen Entscheidungsre- ziell gegeben werden. In der Prüfung werden
geln in die Testprozedur eingebaut werden. hierfür zufällig Aufgaben aus dem Pool gezo-
Generell wird bei sequenziellen Tests nach gen und den Kandidaten nacheinander vorge-
jedem investigatorischen Schritt (jeder Item- legt.
vorgabe) geprüft, ob die vorliegenden Daten
(Antworten, Lösungen) bereits eine Klassifi- Von erfolgreichen Teilnehmern werde erwar-
kation des Probanden erlauben, oder ob noch tet, dass sie mindestens 80 % der Aufgaben
weitere investigatorische Schritte nötig sind. des Pools korrekt beantworten. Teilnehmer,
Konkret wird also gefragt, ob der bisherige die weniger als 60 % der Aufgaben lösen kön-
Testverlauf für eine terminale Entscheidung nen, gelten als nicht erfolgreich. Bezeichnet
ausreicht, oder ob noch mindestens ein weite- man die Lösungswahrscheinlichkeit eines Pro-
res Item vorgelegt werden muss. banden mit dem Kenntnisniveau θ als P(θ ),
so lassen sich die beiden Hypothesen mit
Für die Entscheidung in jedem Schritt wur-
den spezifische statistische Prüfverfahren kon-
zipiert, die ebenfalls als sequenzielle Tests H0 : P(θ ) < .6 und H1 : P(θ ) ≥ .8

185
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

notieren. Faktisch geprüft werden zunächst die fälschlicherweise abzulehnen, in unserem Bei-
Hypothesen spiel also Erfolg zu attestieren, obgleich der
Kandidat zur Gruppe der Nicht-Erfolgreichen
H0 : P(θ ) = .6 und H1 : P(θ ) = .8. gehört. Hier läge also eine falsch positive Ent-
scheidung vor. Im Rahmen von Selektions-
Für die Entscheidung werden die Wahrschein-
entscheidungen spricht man auch vom Insti-
lichkeiten für ein vorliegendes Antwort- bzw.
tutionenrisiko, weil hier sozusagen die Insti-
Lösungsmuster nach jedem Schritt (Item) k
tution das Risiko eingeht, einen ungeeigneten
unter beiden Hypothesen miteinander in Be-
Bewerber aufzunehmen. Das Risiko zweiter
ziehung gesetzt. Für eine Person, welche die
Art (β ) ist die Wahrscheinlichkeit, einen tat-
drei ersten Aufgaben gelöst hat, ergibt sich bei
sächlich Erfolgreichen der Gruppe der Nicht-
Gültigkeit der Hypothese H1 z. B. eine Wahr-
Erfolgreichen zuzuordnen. Bei Selektionsent-
scheinlichkeit von
scheidungen entspricht dieser Wahrscheinlich-
0.8 · 0.8 · 0.8 = 0.512, keit das Risiko einer fälschlichen Ablehnung
(falsch Negativer). Da dieses Risiko die ge-
bei Gültigkeit der Hypothese H0 eine dagegen testeten Personen betrifft, wird es auch als
eine Wahrscheinlichkeit von Personenrisiko bezeichnet. Bei der konkreten
Festlegung der Risiken orientiert man sich im
0.6 · 0.6 · 0.6 = 0.216.1 Allgemeinen an der in der statistischen Hypo-
Unter H1 sind drei richtige Lösungen also thesenprüfung üblichen Festlegung auf relativ
wahrscheinlicher als unter der H0 . Betrachtet kleine Werte, z. B. 0.05. Je nach Bedeutung
wird nun das Wahrscheinlichkeitsverhältnis von Institutionen- oder Personenrisiko kann
LRk (likelihood ratio) unter beiden Hypothe- man einen oder beide Werte auch höher oder
sen, das in unserem Fall niedriger ansetzen.
Wurden α und β festgelegt, lassen sich in
LR3 = 0.512/0.216 = 2.37 sehr einfacher Weise untere („nicht erfolg-
beträgt. Das Verhältnis gibt Auskunft darüber, reich“, Ablehnung) und obere Grenzen („er-
welche der beiden Hypothesen nach den be- folgreich“, Annahme) für die Entscheidung in
reits vorliegenden Daten eher zutrifft. Es wird jedem Schritt festlegen. Die beiden Grenzen
1, wenn die Evidenz für bzw. gegen beide Hy- lassen sich nämlich durch β /(1 − α) (Ableh-
pothesen gleich groß ist. Werte größer 1 favo- nungsgrenze) und (1 − β )/α (Akzeptanzgren-
risieren die Hypothese H1 , Werte kleiner 1 die ze) gut approximieren. Wie aus den Formeln
Hypothese H0 . für die beiden Grenzen ersichtlich ist, sind
mit der Festlegung des Institutionenrisikos auf
Es stellt sich nun die Frage, ob der LR-Wert niedrigere Werte höhere Akzeptanzgrenzen,
von 2.37 bereits ausreicht, um Erfolg zu attes- aber auch niedrigere Ablehnungsgrenzen ver-
tieren. Die Antwort hängt davon ab, welche Irr- bunden. Für das Personenrisiko verhält sich
tumsrisiken man zu tolerieren bereit ist. Diese dies umgekehrt.
Risiken müssen vorab festgelegt werden. Mit
dem Risiko erster Art (α) wird dabei die Wahr- Fixieren wir die beiden Risiken auf α = β =
scheinlichkeit bezeichnet, die Hypothese H0 .05, so ergibt sich in unserem Beispiel für die
Ablehnungsgrenze ein Wert von 0.053 und
1 Bei Nicht-Lösung ist hier jeweis die Gegenwahrschein-
für die Akzeptanzgrenze ein Wert von 19. Er-
lichkeit zu verwenden. Wenn also z. B. das erste Item
reicht oder unterschreitet LRk nun den Wert
nicht gelöst wird, wohl aber die beiden folgenden, er-
gibt sich bei Gültigkeit der H1 0.2 · 0.8 · 0.8 = 0.128, bei von 0.053, so wird die Diagnose „nicht erfolg-
Gültigkeit der H2 dagegen 0.4 · 0.6 · 0.6 = 0.144. reich“ gestellt. Erreicht oder überschreitet LRk

186
6.7 Antwortabhängiges Testen

den Wert von 19 wird dagegen die Diagnose Items, die für die Person ein mittleres Schwie-
„erfolgreich“ gestellt. In beiden Fällen wird rigkeitsniveau besitzen. Beim adaptiven Tes-
das Testen beendet. So lange LRk zwischen ten wird die Zahl informativer Items dadurch
den beiden Grenzen – im sog. Indifferenzbe- maximiert, dass die gegebenen Items während
reich – liegt, wird eine weitere Frage gestellt des Testverlaufs auf das Fähigkeitsniveau des
(ein weiteres Item vorgelegt). Probanden abgestimmt werden. Dabei wird in
jedem Schritt das für einen Probanden jeweils
Leistungsfähige und leistungsschwache Per- am besten geeignete nächste Item (oder die am
sonen können mit sequentiellen Prozeduren besten geeignete Itemgruppe) ausgewählt. Das
relativ rasch klassifiziert werden. Interessan- Rationale lässt sich am einfachsten anhand
terweise lässt sich zeigen, dass der Indiffe- einer spezifischen Art adaptiver Verfahren il-
renzbereich in endlich vielen Schritten verlas- lustrieren, die als pyramidal verzweigte Tests
sen, das Testen also auch bei Personen mit bezeichnet werden.
θ -Werten zwischen den festgelegten Grenzen
in jedem Fall beendet wird. In der Praxis setzt Die Itemvorgabe in jedem Schritt richtet sich
man jedoch vorab eine maximale Testlänge an, hier nach einer pyramidenförmigen Anord-
bei deren Erreichen ein Proband derjenigen nung, wie sie in I Abb. 6.4 dargestellt ist. Die
Gruppe zugeordnet wird, der er mit höherer Kreise symbolisieren die 21 Items des Tests.
Wahrscheinlichkeit angehört (Spray & Recka- Die vertikale Achse der Itempyramide wird
se, 1996). durch die Reihenfolge der Vorgabe, ihre hori-
zontale Achse durch die Schwierigkeiten der
Items festgelegt. Als erstes wird hier ein Item
mittlerer Schwierigkeit vorgelegt (kein leich-
6.7.2 Adaptive Verfahren tes Item wie beim konventionellen Testen). Je
nachdem, ob der Proband das Item löst (in der
Während es beim sequenziellen Testen um die Abbildung angedeutet mit +) oder nicht löst
Vereinfachung von Selektions- und Klassifi- (−), wird im zweiten Schritt auf ein leichte-
kationsaufgaben geht, ist es das Ziel adapti- res Item (Nr. 2) oder ein schwierigeres Item
ver Verfahren, die (quantitative) Messung von (Nr. 3) verzweigt. In unserem Beispiel gibt
Personmerkmalen zu optimieren. Der Grund- der Proband auf Item 1 die falsche Antwort
gedanke des adaptiven Testens ist es, einen und landet im zweiten Schritt daher bei Item
individuellen Itemsatz für jeden Probanden zu- 2. Dieser Verzweigungsprozess wird nach je-
sammenzustellen und zwar so, dass die Items dem Item wiederholt, bis alle vorgesehenen
auf das Fähigkeitsniveau der zu untersuchen- Schritte (im Beispiel 6) durchlaufen sind.
den Person passen.
Die Probanden pendeln sich während der Test-
Beim konventionellen Testen tragen manche prozedur auf ein Niveau der Itemschwierig-
Items nur wenig Information zur Messung bei. keit ein, das ihrem jeweiligen Fähigkeitsni-
Personen mit hoher Merkmalsausprägung wer- veau entspricht (hervorgehobener Bereich in
den leichte Items mit Sicherheit lösen, Perso- I Abb. 6.4). Sie erhalten dann Items, die sie
nen mit niedriger Merkmalsausprägung wer- mit einer Wahrscheinlichkeit von ca. 0.5 lösen
den an schwierigen Items mit Sicherheit schei- und damit, wie wir bereits sahen (I Kap. 4)
tern. Diagnostisch macht es wenig Sinn, Items den größten Informationszuwachs über die
zu geben, die ein Proband mit sehr hoher zu messende Dimension liefern. Bei längeren
oder sehr geringer Wahrscheinlichkeit löst. Sie Tests werden die meisten Probanden etwa die
verbessern die Messung nicht. Gut geeignet Hälfte der vorgelegten Aufgaben lösen, die
und für die Messung informativ sind dagegen andere Hälfte nicht.

187
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

Abb. 6.4 Pyramidale Itemanordnung. (Nach Hornke, 1977, S. 6, Abbildung 4.1.)

Da es sich hierbei jeweils um Aufgaben un- derte“, engl. tailored) Verfahren einteilen. Bei
terschiedlicher Schwierigkeit handelt – Per- fest verzweigten Verfahren ist die Itemanord-
sonen mit hoher Merkmalsausprägung bear- nung (und damit auch die Zahl der Schritte)
beiten Aufgaben hoher Schwierigkeit, Perso- von vornherein fixiert. Pyramidale Tests sind
nen mit niedriger Merkmalsausprägung be- ein Beispiel hierfür. In anderen Varianten fest
arbeiten Aufgaben geringer Schwierigkeit – verzweigter Tests wird nicht nach einzelnen
kann die Zahl der gelösten Aufgaben natür- Items, sondern erst nach der Bearbeitung einer
lich nicht als Indikator der zu messenden Di- Aufgabengruppe auf schwierigere oder leich-
mension herangezogen werden. (Dies ist nur tere Aufgaben verzweigt. Ein Beispiel hierfür
beim konventionellen Testen möglich.) Das ist das Adaptive Intelligenz Diagnostikum (Ku-
Fähigkeitsniveau einer Person wird beim ad- binger & Wurst, 2000), das wir noch beschrei-
aptiven Testen durch diejenige Itemschwierig- ben werden (I Kap. 12). Fest verzweigte Ver-
keit bestimmt, auf die sie sich im Testverlauf fahren lassen sich im Rahmen der traditionel-
einpendelt. In I Abb. 6.4 ist dieses Niveau len Individualtestung ohne weitere technische
durch den Pfeil angedeutet. Wie bereits darge- Hilfsmittel realisieren.
stellt wurde, lassen sich Person- und Itemkenn-
werte (Fähigkeit und Schwierigkeit) mit Hilfe Variable Verfahren erfordern dagegen Com-
von Item-Response-Modellen auf der gleichen puterunterstützung (I Abb. 6.5). Hier wird
Skala lokalisieren (I Kap. 4). Adaptive Ver- programmgesteuert nach jeder Itemvorgabe
fahren werden daher auf der Grundlage der das Fähigkeitsniveau der Person (Personpara-
Item-Response-Theorie konstruiert. meter) geschätzt. Anschließend wird aus ei-
nem großen Itempool dasjenige Item gesucht,
Adaptive Tests lassen sich in fest verzweigte das für das geschätzte Fähigkeitsniveau den
(engl. branched) und variable („maßgeschnei- höchsten Informationszuwachs erwarten lässt.

188
6.7 Antwortabhängiges Testen

Auswahl des Items


Itemvorgabe mit größtem
Informationsgewinn

Ja

Vorläufige Schätzfehler Nein


Schätzung des größer als Ende
Personparameters Vorgabe?

Abb. 6.5 Ablauf beim „tailored testing“.

Nach der Beantwortung dieses Items kann dass die Messpräzision in allen Bereichen des
auf Grundlage des hinzugekommenen Datums Merkmalskontinuums gleich ist und sogar an
eine verbesserte Schätzung des Personkenn- die jeweiligen Anforderungen einer konkre-
werts vorgenommen werden. ten Testanwendung angepasst werden kann.
Konventionelle Tests messen demgegenüber
Zusammen mit dem Personkennwert wird in den extremen Bereichen der Skala meist
auch der mit der Schätzung verbundene Feh- ungenauer als im Mittelbereich, da für diese
ler bestimmt. Die Schleife wird nun so lan- Bereiche in der Regel nur relativ wenige Items
ge durchlaufen, bis der Schätzfehler unter ei- vorgesehen sind.
nem vorgegebenen Wert liegt, der je nach er-
wünschter Präzision der Messung vom Testan- Auch hinsichtlich der Testmotivation sollten
wender höher oder niedriger angesetzt werden adaptive Verfahren Vorteile gegenüber kon-
kann. Die Prozedur verbindet damit die Idee ventionellen Tests besitzen. Besonders im Hin-
des adaptiven (Anpassung an die Fähigkeit) blick auf Prüfungsangst und Leistungsmotiva-
mit der des sequenziellen Testens (Abbruch, tion ist es bei konventionellen Tests ungünstig,
wenn genügend Information vorliegt). Es ist dass die Probanden je nach Fähigkeitsniveau
offensichtlich, dass computerunterstütztes va- in sehr unterschiedlichem Maße Erfolg und
riables Testen die unter technischen und öko- Misserfolg erleben. Personen mit geringen Fä-
nomischen Gesichtspunkten optimale Form higkeiten werden beim konventionellen Tes-
des adaptiven Testens darstellt. ten mit massierten „negativen Rückmeldun-
gen“ konfrontiert und könnten daher geneigt
Adaptive Verfahren verbinden hohe Messprä- sein, sich mit ihrer Leistung (und ggf. dem Ein-
zision mit hoher Testökonomie. Eine mit kon- druck, den diese beim Testleiter hervorruft) an-
ventionellen Tests vergleichbare Messpräzi- statt mit den Aufgaben selbst zu beschäftigen.
sion kann mit geringerer Itemzahl erreicht Evtl. werden sie sogar frustriert aufgeben oder
werden. Umgekehrt wird bei gleicher Item- sich „mental zurückziehen“. Dies würde zu
zahl genauer gemessen. Wesentlich ist dabei, einer Unterschätzung ihrer Fähigkeit führen.

189
6 Entscheidungstheoretische Modelle und antwortabhängiges Testen

Beim adaptiven Testen erleben demgegen- Weiterführende Literatur


über alle Probanden unabhängig von ihrem
Fähigkeitsniveau in gleichem Maße Erfolg
Die Monographie von Cronbach und Gleser
und Misserfolg. Dies eliminiert unerwünsch-
(1965) ist immer noch lesenswert. Neuere Ent-
te emotionale und motivationale Einflüsse auf
wicklungen werden von Boudreau (1991) so-
die Leistung zwar nicht vollständig, schaltet
wie Roth, Bobko und Mabon (2001) behandelt.
aber zumindest eine Quelle systematischer
Holling und Melles (2004) geben einen Über-
Fehler aus. Allerdings sind die Vorteile des
blick über die Anwendung von Entscheidungs-
adaptiven Testens hinsichtlich der Testmoti-
und Nutzenkonzepten in der Organisationspsy-
vation nicht ganz so eindeutig wie ursprüng-
chologie, in dem auch die Bedeutung deskrip-
lich angenommen wurde. Zumindest für einen
tiver Ansätze beschrieben wird. Swets, Dawes
Teil der Probanden kann die Anpassung der
und Monahan (2000) diskutieren praktische
Items an das Fähigkeitsniveau demotivieren-
Anwendungen der Entscheidungstheorie für
de Effekte mit sich bringen, da ja „nur“ 50 %
diagnostische Fragen. Antwortabhängiges Tes-
der Aufgaben erfolgreich bearbeitet werden
ten wird von Frey (2008) eingehender darge-
(was vielleicht weit unter der Erwartung ei-
stellt, neuere Entwicklungen finden sich bei
ner Person liegt) und vermehrte Anstrengung
van der Linden und Glas (2010).
die Lösungswahrscheinlichkeit im Verlauf der
Testsitzung nicht wahrnehmbar steigert (Frey,
Hartig & Moosbrugger, 2009).
Fragen zur Wissenskontrolle
Die Konstruktion adaptiver Verfahren ist rela-
tiv aufwändig. Benötigt wird ein großer Item-
pool, der nach Prinzipien der Item-Response- 1. Was versteht man unter individuellen und
Theorie (I Kap. 4) zusammengestellt ist. Da institutionellen Entscheidungen?
die Personen jeweils unterschiedliche Items 2. Wie wirken Basisquote, Selektionsquote
bearbeiten, sind hier Testmodelle gefordert, in und Validität hinsichtlich der Entschei-
denen Personkennwerte unabhängig von den dungsgüte zusammen?
eingesetzten Items geschätzt werden können. 3. Welche zentralen Parameter enthält das
Die Itemmenge muss recht strikten Homogeni- BCG-Modell?
tätsanforderungen genügen, da ansonsten das 4. Welche Bedeutung besitzen Aptitude-
Verzweigungsprinzip nicht optimal funktionie- Treatment-Interaktionen für diagnostische
ren kann. Inkorrekte Verzweigungen zu Be- Entscheidungen?
ginn des Testens oder fehlerhafte anfängliche 5. Was sind die Unterschiede zwischen se-
Fähigkeitsschätzungen können den Testver- quenziellem und adaptivem Testen? Erläu-
lauf gewissermaßen in die falsche Spur brin- tern Sie jeweils Zielsetzung und Vorgehens-
gen. Eine entsprechende „Kurskorrektur“ kann weise.
die Testökonomie erheblich beeinträchtigen.
An die einzelnen Items eines adaptiven Tests
sind daher hohe messtechnische Anforderun-
gen zu stellen.

190
7 Handlungstheoretische Modelle

7.1 Grundbegriffe der Handlungstheorie . . . . . . . . . . . . . . . . . . . . . . 191


7.2 Eine Handlungstheorie psychologischer Diagnostik . . . . . . . . . . . . . . 192
7.2.1 Ausgangspunkt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
7.2.2 Ein Modell des Arbeitsflusses in der diagnostischen Praxis . . . . . . . 193
7.2.3 Implikationen des Modells . . . . . . . . . . . . . . . . . . . . . . . . 196
7.2.4 Konkretisierung des Modells . . . . . . . . . . . . . . . . . . . . . . . 198
7.2.5 Analyse spezifischer Aspekte des Modells . . . . . . . . . . . . . . . . 200
7.2.6 Strategische und taktische Planung . . . . . . . . . . . . . . . . . . . . 205
7.2.7 Einzelfallorientierte und institutionelle Diagnostik . . . . . . . . . . . 208
7.3 Bewertung des Modells . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209

Innerhalb des entscheidungstheoretischen An- richtete Tätigkeit. Der in der Psychologie lan-
satzes hatten wir als zentralen Begriff den der ge Zeit üblichere Begriff des „Verhaltens“ ist
Strategie kennengelernt (I Kap. 6). Strategi- demgegenüber weiter gefasst. Er kann sich
en sind an die Aktivierung von Intentionen sowohl auf zielorientierte Aktivitäten bezie-
und die Formulierung von Zielen gebunden. hen als auch das reine Reagieren auf externe
Sie legen fest, wie eine Handlung organisiert oder interne Stimulation bezeichnen. Neben
werden sollte, damit sich eine Intention auch der Zielorientiertheit ist als zweiter wichtiger
tatsächlich erfüllt und ein angestrebter Zielzu- Aspekt die zeitliche Organisation von Hand-
stand erreicht wird. Strategie, Intention und lungen hervorzuheben. Handeln kann damit
Ziel sind zentrale Begriffe der Handlungstheo- als ein zeitlich organisierter, zielorientierter
rie (Lenk, 1981, 1984). Im Folgenden sollen Prozess bestimmt werden (Kaminski, 1981).
zunächst Grundbegriffe der Handlungstheorie
Handlungen werden in Gang gesetzt, indem ei-
und deren Verknüpfungen beschrieben wer-
ne Person eine bestimmte Intention bildet bzw.
den. Sodann wird das Konzept der Handlung
aktiviert und ein konkretes Ziel formuliert
anhand eines konkreten Modells auf die Analy-
(I Abb. 7.1). Dieses Ziel muss am Beginn der
se des Prozesses der diagnostischen Tätigkeit
Handlung bereits kognitiv repräsentiert sein,
angewendet.
d. h. das Ziel muss antizipiert, als Antizipa-
tion gespeichert und während des Handelns
zugänglich gehalten werden. Zur Erreichung
7.1 Grundbegriffe der eines Zieles muss die Person eine Reihe von
Handlungstheorie Mitteln einsetzen. Der Einsatz dieser Mittel
muss zuvor geplant und möglichst effektiv or-
Unter „Handeln“ bzw. „Handlung“ versteht ganisiert werden. Wir verwenden für Planung,
man innerhalb der Psychologie eine zielge- Organisation und Einsatz von Mitteln im Fol-

191
7 Handlungstheoretische Modelle

Intendierte
Folgen
Intention:
Formulierung Mittel Effekte
des Ziels

Unintendierte
Folgen

Reflexion des Handelnden

Abb. 7.1 Grundbegriffe der Handlungstheorie (nach Eckensberger & Reinshagen, 1979).

genden den Begriff Tätigkeit. Der Einsatz spe- des Wirksamwerdens der unintendierten Fol-
zifischer Mittel führt zu bestimmten Effekten. gen der ursprünglichen Tätigkeit.
Effekte einer Tätigkeit müssen wahrgenom-
Das Modell lässt sich am besten durch ein
men und im Hinblick auf das antizipierte Ziel
Beispiel aus dem Alltag verdeutlichen. An-
beurteilt werden. Dies gilt auch, wenn Zwi-
genommen, eine Person habe die Intention
schenziele formuliert werden und damit Zwi-
gebildet, ihre körperliche Fitness zu verbes-
schenergebnisse vorliegen, wie es bei komple-
sern. Als Mittel hierzu führt sie zweimal wö-
xen Handlungen die Regel ist.
chentlich Waldläufe von jeweils einer Stun-
Die Wahrnehmung und Beurteilung der Ef- de Dauer durch. Als Effekt wird sie registrie-
fekte führt dazu, dass die betreffende Person ren, dass sich nach einiger Zeit die Fitness er-
realisiert, welche konkreten Folgen die eigene höht. Die intendierte Folge ist eine steigende
Tätigkeit hatte. Wenn das eingangs formulier- Zufriedenheit mit dem körperlichen Zustand
te Ziel erreicht wurde, so ist die Folge inten- und der Ansporn weiterzumachen. Allerdings
diert. Des öfteren führt die eigene Tätigkeit könnten sich auch einige unintendierte Folgen
aber auch zu nicht beabsichtigten, meist nicht einstellen, in erster Linie Zeitverlust und da-
einmal antizipierten, Effekten, also zu einer mit evtl. ein engerer Terminplan, darüber hin-
unintendierten Folgenmenge (Eckensberger & aus vermutlich eine stärkere Müdigkeit nach
Reinshagen, 1979). dem Waldlauf, die anschließende Leistungen
erschwert.
Das Gewahrwerden einer nicht beabsichtigten
Wirkung eingesetzter Mittel führt im Allge-
meinen zu weiteren Beurteilungsprozessen (zu 7.2 Eine Handlungstheorie
einer Reflexion) beim Handelnden. Inhalt die-
psychologischer Diagnostik
ser Prozesse ist zunächst die Abschätzung der
Tolerierbarkeit der unintendierten Folgen. Soll-
te die Person dabei zu dem Schluss kommen, 7.2.1 Ausgangspunkt
dass nicht alle Folgen tolerierbar sind, so wird
hierdurch eine neue Handlung in Gang gesetzt. Wir hatten im Eingangskapitel dieses Buches
Ziel dieser Handlung ist jetzt die Reduzierung eine naiv-realistische Vorstellung des Diagnos-

192
7.2 Eine Handlungstheorie psychologischer Diagnostik

tizierens kritisiert. Nach dieser bei vielen Lai- Für Kaminski liegt diesem Ablauf ein
en – aber auch psychologischen Praktikern – durch kognitive Mikrokomponenten gesteuer-
herrschenden Vorstellung setzt sich der prakti- ter Beurteilungs- und Entscheidungsprozess
sche Diagnostiker ein Arbeitsziel, das man als zugrunde, der auf der Aktivierung spezifischer
„Entdecken“ umschreiben könnte. Dieser Vor- Wissensrepräsentationen basiert. Im Einzelnen
stellung nach ist das Ziel der diagnostischen sollen in diesem Kapitel folgende Punkte die-
Tätigkeit erreicht, wenn soviel wie möglich ses Prozesses angesprochen werden:
von der „wahren Natur“ eines Klienten „ent-
1. Ein Modell des Arbeitsflusses in der dia-
deckt“ wurde.
gnostischen Praxis,
Die moderne Diagnostik weist ein solches 2. Implikationen dieses Modells,
naiv-realistisches Modell zurück. Ging dieses 3. Konkretisierung des Modells an einem Bei-
Modell von der Frage aus „Wie ist dieser Kli- spiel,
ent?“, so steht für die moderne Diagnostik, 4. Analyse spezifischer Aspekte des Modells.
wie wir bereits zu Beginn von I Kap. 1 ge-
sehen haben, das eingegrenzte Anforderungs-
bild eines speziellen Auftrags im Mittelpunkt. 7.2.2 Ein Modell des
Ziel einer handlungstheoretischen Konzeption Arbeitsflusses in der
des Diagnostizierens ist es demnach auch, die
diagnostischen Praxis
Diagnostik aus dem Kontext des Entdeckens,
in den sie naiv-realistische Vorstellungen ge-
Kaminski stellt die diagnostische Urteilsbil-
legt hatten, in den des Planens, Veränderns,
dung als einen sequenziellen Arbeitsprozess
Entscheidens und Beurteilens zu bringen, al-
mit Rückmeldungsschleifen dar, der erst als
so Zielsetzungen zu realisieren, wie sie zu-
abgeschlossen gilt, wenn ein zuvor definiertes
vor auch bereits Cronbach und Gleser (1965;
Zielkriterium erreicht ist. Dieser Prozess ist
I Kap. 6), allerdings speziell für institutionel-
gekennzeichnet durch eine enge Verflechtung
le Entscheidungen und weniger für die Ein-
von Auftrag, Diagnose und praktischer, z. B.
zelfalldiagnostik, formuliert hatten (Hörmann,
modifikatorischer, Intervention. Integriert man
1967).
diese Aspekte, so ergibt sich das in I Abb. 7.2
Im vorangegangenen Kapitel war das Diagnos- dargestellte Schema des Ablaufs der gesam-
tizieren anhand entscheidungstheoretischer ten diagnostisch-praktischen Tätigkeit. Wie
und antwortabhängiger Verfahren insbeson- ersichtlich ist, wird hier im Sinne einer Grob-
dere im Hinblick auf seinen Beitrag zur Ver- gliederung von einer diagnostischen und einer
besserung von Selektionsstrategien analysiert praktischen Schleife gesprochen. Der Begriff
worden. In diesem Kapitel soll nun mit dem der Schleife betont die Rückmeldungsprozes-
Ansatz von Kaminski (1970) ein Modell vorge- se innerhalb dieser Phasen.
stellt werden, das die Bedeutung des Diagnos-
Zunächst müssen in diesem Schema zwei Ty-
tizierens auch innerhalb des Rahmens modifi-
pen von Handlungen unterschieden werden:
katorischer, speziell am Einzelfall orientierter,
Arbeit i. e. S. (repräsentiert durch ungefüllte
Interventionen deutlich macht. Kaminskis Mo-
Rechtecke) und Kontrolle der Arbeit (repräsen-
dell zielt also nicht nur auf eine Beschreibung
tiert durch gefüllte Rechtecke). Die einzelnen
des engeren Prozesses der diagnostischen Ur-
Komponenten sind wie folgt bestimmt:
teilsbildung, d. h. des Stellens einer Diagnose
anhand gegebener Daten, sondern umfasst den Eingangsdaten und Datenbeschaffung. Die
gesamten Ablauf interventionsbezogener psy- ersten Daten kommen gewissermaßen „von
chologischer Arbeit. selbst“. Es sind Fragestellungen von außen

193
7 Handlungstheoretische Modelle

Praktische Schleife

mit
Planung der Praktische Zielkriterium
Hypothesen
praktischen Phase Phase erreicht?
konkordant?

Ende
Kompetenz-
wissen

Änderungs-
kompetent?
wissen

Eingangsdaten Hypothesenbildung Planung der


Hypothesen
und und Daten-
ausreichend?
Datenbeschaffung -bearbeitung beschaffung

Ja
Bedingungs-
Gewissen
wissen
Nein

Diagnostische Schleife

Abb. 7.2 Schema des Ablaufs der diagnostisch-praktischen Tätigkeit (nach Kaminski, 1970).

(z. B. Klagen oder Wünsche). Diese Eingangs- welcher konkrete Auftrag sich daraus ableitet,
daten bilden zwar die Grundlage des Auftrags ist damit aber noch nicht festgelegt.
an den Psychologen, sind aber noch nicht der
Auftrag selbst. So bildet etwa die Klage einer Hypothesenbildung und -bearbeitung. Hy-
Mutter, dass ihr Sohn in der Schule in letz- pothesen werden anhand der Eingangsdaten
ter Zeit nicht mehr mitkomme und auch keine gebildet und sind die Grundlage des weite-
rechte Lust mehr an der Schule habe, zwar den ren diagnostischen und praktischen Tuns. Die
Anstoß für das Tätigwerden des Psychologen, Hypothesenbildung ist ein sehr komplizierter

194
7.2 Eine Handlungstheorie psychologischer Diagnostik

Prozess der Bearbeitung von Daten; auf ihn Die in der 2. Phase gebildeten Hypothesen
wird später noch genauer eingegangen. Zu- müssen also Antworten auf zwei Fragen ge-
nächst sei nur soviel erwähnt: Die Hypothesen ben: Erstens, wie ist der gegenwärtige Zustand
beziehen sich auf des Klienten im Hinblick auf die Fragestellung
von außen und wie ist es dazu gekommen? –
• eine psychologische Beschreibung des Ein-
Zweitens, auf welchen Zustand soll hingear-
gangszustands des Klienten, Z1, und da-
beitet werden und wie gelangt man dorthin?
mit verbunden auf die Ursachen dieses Zu-
stands sowie Hypothesenbeurteilung. Oft können diese
• auf eine Definition des Zustands, auf den Fragen auf der Grundlage der Eingangsdaten
hin geändert werden soll, Z2, sowie des nicht präzise beantwortet werden. In der psy-
Weges dorthin. chologischen Praxis, z. B. der Erziehungsbe-
ratung, dürfte dies sogar der Regelfall sein.
Illustration Entweder ist die erste Information so unspezi-
fisch, dass überhaupt keine präzisen Hypothe-
Konkretisieren wir das Konzept der Hypo- sen gebildet werden können (wenn die Mutter
these am bereits erwähnten Beispiel der beispielsweise sagt: „mein Kind ist immer so
Schulschwierigkeiten: Z1 könnte psycho- unruhig“), oder die vorgegebene Information
logisch als ein erlerntes Vermeidensverhal- lässt verschiedene alternative Hypothesen zu.
ten beschrieben werden. Ursachen für Z1 Für das Beispiel des Leistungsabfalls könnten
könnten Misserfolgserfahrungen als Konse- sich diese etwa beziehen auf emotionale Ursa-
quenz spezifischer fehlender Kompetenzen chen (z. B. das Auftreten häuslicher Spannun-
verbunden mit einer erhöhten Furcht vor gen oder den Tod einer für das Kind zentralen
Misserfolg sein. Der Zielzustand Z2 wäre Bezugsperson), intellektuelle Leistungsvoraus-
evtl. verringerte Schulunlust und erhöhte setzungen beim Kind oder das Vorliegen einer
Kompetenzen zur Bewältigung schulischer organischen Erkrankung.
Anforderungen. Der Weg dorthin könnte
im Aufbau dieser Kompetenzen sowie in Wie gut die Hypothesen sind, ob sich mit ihnen
einem Modifikationsprogramm zur Besei- bereits praktisch arbeiten lässt, oder ob noch
tigung von Misserfolgserwartungen liegen, mehr Information benötigt wird, damit präzi-
etwa durch eine sog. „Umattribuierung“ der sere Hypothesen aufgestellt werden können,
Zuschreibung von stabilen internalen Ursa- entscheidet sich in dieser Beurteilungsphase
chen des Misserfolges (Attribuierung auf (I Kap. 7.2.4 und 7.2.5).
mangelnde Fähigkeiten) auf variable inter-
Planung der Datenbeschaffung. Angenom-
nale Ursachen (Attribuierung auf mangeln-
men, der Psychologe kommt zu dem Schluss,
de Anstrengung; siehe hierzu Dweck, 1975;
seine Hypothesen seien nicht ausreichend.
Dweck & Wortman, 1982). Denkbar wäre
Dann kann er nach den bisherigen Überle-
natürlich auch eine bei den Eltern einset-
gungen natürlich auch noch nicht praktisch
zende Modifikation, etwa eine Veränderung
zu arbeiten beginnen, sondern muss zunächst
ihrer Leistungsansprüche an das Kind.
weitere Daten beschaffen. Diese Daten werden
allerdings nicht gleichsam mit einem „Schrot-
Schon jetzt wird anhand dieser knappen Skiz- schuss“ beschafft, sondern ganz ökonomisch
ze, die später noch ausgearbeitet wird, deut- so besorgt, dass es zu einer brauchbaren Ar-
lich, dass psychologisches Grundlagenwissen beitshypothese kommt. Nehmen wir unser Bei-
bei der diagnostisch-praktischen Urteilsbil- spiel mit den drei Alternativhypothesen zum
dung eine wesentliche Rolle spielt. Leistungsabfall wieder auf:

195
7 Handlungstheoretische Modelle

Die Hypothese 1 „häusliche Spannungen“ verhält sich aber nicht so, wie erwartet wur-
oder „Tod einer Bezugsperson“ müssten zu- de, zeigt etwa keine „Besserung“. Das Verhal-
nächst einmal Teil einer Modells sein, in dem ten des Klienten entspricht neuen Eingangs-
spezifiziert wird, wie sich diese Ereignisse auf daten. Die diagnostische Schleife muss dann
Schulleistungen auswirken. Information könn- nochmals durchlaufen werden. Es können sich
te dann über gezielte Fragen im Sinne einer aber auch Informationen über zwischenzeit-
Anamnese, über die Beobachtung der Interak- lich eingetretene oder vorher nicht bekann-
tion von Familienmitgliedern und über spezi- te Bedingungen ergeben, z. B. dass der Sohn
fische Tests, z. B. Spieltests, besorgt werden. nicht nur einen Leistungsabfall zeigt, sondern
– Zur Hypothese 2 „intellektuelle Ursachen“ neuerdings auch zu einer aggressiven Clique
könnte Information aus Intelligenz- und Schul- von Jugendlichen gehört.
leistungstests herangezogen werden. – Die Hy-
pothese 3 „organische Ursache“ würde die Be- In einem nächsten Schritt wird geprüft, ob das
schaffung von Daten aus einer medizinischen, Zielkriterium erreicht wurde. Auch hier fin-
vielleicht internistischen oder neurologischen,det wieder eine, wenn auch verglichen mit der
Untersuchung bedeuten. diagnostischen Schleife andersartige, diagnos-
tische Tätigkeit statt, in welcher der Erfolg der
Wichtig ist, dass in dieser sog. „diagnosti- Modifikation bewertet wird (I Kap. 7.2.5).
schen Schleife“ die Hypothesenbildung und
die Datenbeschaffung eng aufeinander bezo-
gen sind. Wie es überhaupt zur Hypothesenbil- 7.2.3 Implikationen des Modells
dung kommt, wird noch im Einzelnen darge-
stellt werden. In den bisher dargestellen Pha-
sen finden wir die bereits in I Kap. 1 mehr- Aus der bisherigen Darstellung des Modells
fach erwähnte enge Verzahnung von psycholo- leiten sich die folgenden fünf essenziellen
gischem Grundlagenwissen (Allgemeine und Schlussfolgerungen ab:
Entwicklungspsychologie, Persönlichkeitsfor- 1. Alle diagnostischen Auswertungen von Da-
schung) mit der diagnostischen Praxis. ten haben den Charakter von Hypothesen
Praktische Phase. Auch die praktische Pha- bzw. hypothetischen Interpretationen. Die-
se wird geplant und basiert auf psychologi- se werden auf der Basis der eingehenden
schem Wissen darüber, wie Änderungen ef- Daten (und natürlich psychologischen Wis-
fizient und nachhaltig bewirkt werden kön- sens) formuliert, zunächst provisorisch als
nen. Darüber hinaus enthält sie ebenfalls Prüf- gültig gesetzt, beurteilt, geprüft und schließ-
prozesse (I Abb. 7.2). Die praktische Phase lich beibehalten oder verworfen. Beim Dia-
selbst kann sehr vielfältig sein; neben thera- gnostizieren wird also nichts „entdeckt“,
peutischen Modifikationen kann die praktische sondern das jeweils zu Diagnostizierende
Phase auch in einer Selektions- bzw. Klassi- wird immer nur im Rahmen eines bestimm-
fikationsempfehlung, einer Beratung oder in ten Denkmodells so bezeichnet (z. B. als
einem Gutachten bestehen. erlerntes Vermeidensverhalten).
2. Jede Datenbeschaffung wird geplant und
Der erste Prüfprozess beantwortet die Frage, ist hypothesengeleitet. Auch das quasi-
ob die Phase in Übereinstimmung mit den Hy- automatische Testen, z. B. das routinemäßi-
pothesen verläuft, auf die sich die Intervention ge Durchführen eines Intelligenztests oder
gründet. Wann könnte diese Übereinstimmung eines projektiven Verfahrens, folgt, wenn
verfehlt werden? Zum einen könnte eine be- auch oft nur sehr vagen und nicht ausformu-
stimmte Behandlung geplant sein, der Klient lierten, Hypothesen.

196
7.2 Eine Handlungstheorie psychologischer Diagnostik

3. Was für den Grad der Explizitheit des Hypo- keitstheorie ein bestimmtes Schema, an das
thesenformulierens und Planens der Daten- die Information aus anderen Tests angeglichen
beschaffung gesagt wurde, gilt auch für die wird. So mag etwa ein Psychologe zunächst
Prüf- bzw. Entscheidungsprozesse, also für einmal einen Persönlichkeitsfragebogen des
die Prüfung, ob die Hypothesen ausreichen, Klienten auswerten und dabei hohe Werte für
die praktische Phase mit den Hypothesen Introversion und Ängstlichkeit finden. Auf der
konkordant ist oder das Ziel erreicht wurde. Grundlage des so gebildeten Schemas wird der
Auch diese Prozesse können vom Diagnos- Psychologe dann vermutlich weitere Testinfor-
tiker mehr oder weniger bewusst vollzogen mation akzentuieren. Auf diese Weise mag,
werden. je nach Geschick des Psychologen, eine mehr
4. Ohne die Formulierung diagnostischer Hy- oder weniger „stimmige“ Beschreibung des
pothesen kann die praktische Phase nicht Klienten resultieren, die dann vielleicht sogar
eingeleitet werden. in ein Gutachten eingeht; der Bezug zur Pra-
5. Die psychologische Arbeit muss stets von xisphase dürfte aber sicherlich eher schwach
erreichbaren Zielkriterien gesteuert werden. sein.
Der Arbeitsprozess wird dann solange rück-
gekoppelt, bis das Zielkriterium erreicht ist. Auch die therapeutische Tätigkeit lässt sich
von der Position des Kaminski-Modells aus
Häufig beginnt der Psychologe, evtl. nach ei- betrachten. Die soeben besprochene Arbeits-
nem kurzen Gespräch (I Kap. 8), die Bear- form, die Kaminski (1970) „reines Testen“
beitung eines Falles mit der Darbietung einer nennt, war dadurch gekennzeichnet, dass zwar
Serie von Tests, z. B. indem er einen Intelli- die Datenbeschaffung aktiv, dafür aber die
genztest gibt, ein projektives Verfahren ein- Hypothesenbildungs- und -prüfungsinstanzen
setzt und evtl. noch einen mehrdimensionalen weitgehend inaktiv blieben. Entsprechend kam
Persönlichkeitsfragebogen „mitlaufen“ lässt. es auch nicht zu einer hypothesengeleiteten
Hier wird die Hypothesenbildung weitgehend Planung der Datenbeschaffung.
ausgeschaltet. In diesem Vorgehen sieht Ka-
minski zwei große Probleme. Therapeutische Tätigkeit ist nun in vielen Fäl-
len durch ein kurzschlüssiges Überspringen
Indem erst am Ende des Sammelns einer re- der diagnostischen Schleife insgesamt gekenn-
lativ großen Menge von Daten mit der Hypo- zeichnet. Dies gilt insbesondere für jene Thera-
thesenbildung begonnen wird, steht der Psy- pieformen, die auf einer Theorie basieren, die
chologe erstens vor einem Kapazitätsproblem. ein weitgehend einheitliches Ursachenmuster
Die hypothesenlos gewonnenen Daten führen für Probleme und auch eine einheitliche The-
zu einer Überlastung der Informationsverar- rapie für eine Vielzahl von Persönlichkeitsstö-
beitungskapazität, wodurch u. U. wertvolle In- rungen vorsieht. Die Annahme einheitlicher
formation verloren gehen kann. Ursachen, beispielsweise eines unbewältigten
Ödipuskonflikts, enthebt den Psychologen ver-
Das zweite Problem hängt mit dem ersten zu- meintlich einer Diagnose im Sinne der Fest-
sammen. Überlastung bei der Integration kann stellung von Z1 und seiner Ursachen. Die An-
zur Informationsselektion führen. Diese kann nahme einer einheitlichen Therapie scheint
nun bei Anwendung von ganzen Testbatteri- dagegen die Indikationsfrage, d. h. die Bestim-
en häufig durch den Wunsch nach „Stimmig- mung von Z2 und des Weges dorthin, aufzuhe-
keit“ der Ergebnisse geleitet werden. Bestimm- ben.
te Testergebnisse bilden aufgrund der sie, zu-
mindest nach der Vorstellung des auswerten- Wenn bei derartigen therapeutischen Tätig-
den Psychologen, fundierenden Persönlich- keiten diagnostiziert wird, dann weniger im

197
7 Handlungstheoretische Modelle

Rahmen der Datenbeschaffung der „diagnos- Verschwinden zu bringen. – Zweitens, nach-


tischen Schleife“ als vielmehr innerhalb der dem dieses Ziel, zumindest grob, formuliert
Prüfoperationen der praktischen Phase. So worden ist, tritt als weiterer Aspekt die Frage
wird zum einen sicherlich die Erreichung von auf, ob der Psychologe weiß, wie er diesen
Zielkriterien geprüft, wenn diese auch oft nur Zustand ändern kann.
vage formuliert sind. Dies kann u. U. zu Mo-
Mit diesem zweiten Aspekt wird eine erste
difikationen bei der Fortführung der Therapie
Differenzierung des Grundmodells notwen-
führen. Zum anderen mag geprüft werden, ob
dig. Ein Rückgriff auf Wissen kommt im Ar-
die Therapie insgesamt so verläuft, wie die all-
beitsfluss bisher nicht explizit vor. Kaminski
gemeine Theorie der Therapie, die hier gewis-
(1970, S. 41ff) schlägt vor, die Gesamtheit
sermaßen die Formulierung spezifischer Hy-
des Wissens, das der Psychologe zur Bear-
pothesen ersetzt, dies vorsieht. Im Diskrepanz-
beitung eines Falles mitbringt und aktivieren
fall mag es hier tatsächlich zu einer gewissen
kann, durch Speicher mit spezifischem, abruf-
diagnostischen Tätigkeit kommen, wenn auch
barem Inhalt zu repräsentieren (I Abb. 7.2,
nicht ganz klar ist, wie sich diese ohne die
S. 194).
Formulierung und Prüfung von Hypothesen
vollziehen soll. Ein erster Speicher (Speicher 1) soll Wissen
darüber enthalten, auf welche Weise Men-
schen geändert werden können, oder präziser:
7.2.4 Konkretisierung des von einem spezifischen als wenig erwünscht
Modells angesehenen Ausgangszustand in einen er-
wünschten Zielzustand gebracht werden kön-
nen. Kaminski nennt dieses Wissen „Ände-
Nachdem die Grundstruktur des von Kamin-
rungswissen“.
ski entwickelten Modells vorgestellt wurde,
soll dieses Modell nun anhand eines Beispiels Die Aktivierung des Speichers „Änderungs-
konkretisiert werden. Dabei werden wir als wissen“ impliziert auch immer eine Kompe-
wesentliche Steuerungsinstanzen für diagnos- tenzentscheidung des Psychologen. Es kann ja
tische Planungs- und Entscheidungsprozesse z. B. sein, dass er bestimmte Kenntnisse dar-
die von Kaminski vorgeschlagenen Kompo- über hat, wie man einen unerwünschten Zu-
nenten der Wissensrepräsentation einführen stand ändert, dass er diese Änderung selbst
und somit eine Differenzierung innerhalb des aber nicht kompetent durchführen kann. Der
Modells vornehmen. Als Beispiel betrachten Psychologe braucht also eine zweite Art von
wir wiederum den Fall der Mutter, die sich Wissen, die ihm sagt, angesichts welcher Da-
über eine neu aufgetretene Schulunlust ihres ten welcher Fachmann (z. B. Internist, Neuro-
Sohnes verbunden mit einem schulischen Leis- loge, Heilpädagoge) für eine Änderung kom-
tungsabfall beklagt. petent ist. Kaminski nennt diesen zweiten Spei-
cher „Kompetenzwissen“.
Wie schon gesagt, wird diese Klage der Mut-
ter als das erste (gewissermaßen von selbst) Da ja bereits die ersten Daten zur Formulie-
einkommende Datum im Arbeitsfluss behan- rung von Hypothesen führen sollen, werden
delt. Es wird unter mindestens zwei Aspekten wir hier häufiger den Fall einer vorläufigen
ausgewertet: Erstens, welche Zielsetzung für Kompetenzabtretung vorfinden. Damit ist ge-
die Intervention ergibt sich aus der Klage der meint, dass ein Teil der Hypothesen sich auf
Mutter? Im vorliegenden Fall kann man davon Änderungsprozesse bezieht, die nicht in die
ausgehen, dass es Ziel der Behandlung sein Kompetenz des Psychologen fallen. Denken
soll, Schulunlust und Leistungsdefizit zum wir an die Hypothese, dass ein organischer

198
7.2 Eine Handlungstheorie psychologischer Diagnostik

Prozess für den schulischen Leistungsabfall Tätigkeit formuliert werden können, etwa die
des Sohnes verantwortlich sein könnte. Ein Beeinflussung sekundärer Merkmale, z. B. im
derartiger Prozess kann von Psychologen we- Rahmen eines Kompetenztrainings.) Primäres
der mit der nötigen Zuverlässigkeit diagnosti- Ziel der psychologischen Änderungstätigkeit
ziert noch gar verändert werden. Hier wird die ist in diesem Fall vielmehr die Umwelt, insbe-
Kompetenz aufgrund des in Speicher 2 vorlie- sondere die Eltern, wobei es vermutlich darum
genden Wissens vorläufig an einen Mediziner, gehen wird, die Einstellungen dieser Personen
etwa einen Internisten oder Neurologen, abge- zum Problem des Kindes zu ändern.
geben. Für den Fall, dass sich die Hypothese
dort bestätigt, wird die Kompetenz zumindest Am wahrscheinlichsten wird es jedoch sein,
längerfristig abgegeben, andernfalls fällt sie dass der Speicher 1 die Auskunft gibt, das
an den Psychologen zurück. Problem könne mit psychologischen Mitteln
geändert werden. In diesem Fall lassen sich
Für den Fall, dass die Speicher 1 und 2 aussa- wieder zwei Alternativen denken:
gen, nicht die Psychologie, sondern ein ande-
res Fach sei einschlägig, beschränkt sich die Erstens, der Speicher stellt Wissen darüber
praktisch-psychologische Tätigkeit zunächst zur Verfügung, wie ein problematisches Ver-
einmal auf eine organisatorische Beratung des halten isoliert geändert werden kann, d. h. oh-
Klienten bzw. seiner Angehörigen. Kompli- ne Bezug zu einem Bedingungshintergrund
zierter liegt der Fall, wenn Kompetenzen nur und evtl. weiteren daraus herrührenden Proble-
teilweise abgegeben werden. So mögen im men. Denkbar wäre dies etwa für die verhal-
vorliegenden Beispiel bei Bestätigung der Hy- tenstherapeutische Modifikation einer Phobie.
pothese „organischer Befund“ Ärzte zwar die Die diagnostische Tätigkeit bestünde in die-
Hauptkompetenz für eine durchzuführende sem Fall im Wesentlichen darin, zu prüfen, ob
Änderung haben, dennoch kann es notwen- alle für die Durchführung des Modifikations-
dig sein, diese medizinische Änderung durch programms notwendigen Umstände vorliegen
ein spezifisches psychologisches Programm bzw. ob und wie sie hergestellt werden können.
zu begleiten. Es müsste also beispielsweise erkundet wer-
den, wie die Phobie im Einzelnen beschaffen
Nehmen wir jetzt den Fall an, dass der Spei- ist, es müsste eine Hierarchie der Angstreize
cher 1 psychologisches Änderungswissen zu aufgestellt werden usw. (I Kap. 15). Danach
einem vorgetragenen Problem bereitstellt. Aus könnte die praktisch-psychologische Tätigkeit
diesem Wissen lassen sich grundsätzlich zwei beginnen, natürlich unter Einbeziehung der
Schlussfolgerungen hinsichtlich der Änderbar- notwendigen Prüfprozesse.
keit des anstehenden Problems ziehen: Ent-
weder das Problem kann mit psychologischen Zweitens, der Speicher 1 informiert darüber,
Mitteln gebessert werden oder nicht. dass ein vorliegendes Problem nicht isoliert
angegangen werden kann. In diesem Fall müs-
Wenn der Speicher 1 die Auskunft gibt, dass sen die Bedingungen des Problems, z. B. der
das Problem nicht gebessert werden kann (z. B. Schulunlust und des Leistungsabfalls, eruiert
bei einem Kind mit Down-Syndrom), dann hat und – soweit das möglich ist – geändert wer-
das natürlich unmittelbare Konsequenzen für den. Diese Speicherauskunft wird vermutlich
die Formulierung der Zielsetzung. Wenn et- bei einer Vielzahl von psychologischen Pro-
wa ein Kind mit Down-Syndrom vorgestellt blemen gegeben werden. Wahrscheinlicher ist
wird, so kann nicht länger dieses Kind das dabei sogar noch eine etwas kompliziertere
primäre Ziel einer Behandlung sein. (Obwohl Auskunft: Für ein gegebenes Problem, z. B.
auch hier bestimmte Ziele einer praktischen Schulunlust, gibt es verschiedene mögliche

199
7 Handlungstheoretische Modelle

Bedingungen. Je nachdem, welche Bedingung den Eltern, gegeben ist und, wenn ja, ihn und
im vorliegenden Fall zutrifft, muss das Mo- evtl. die Ursachen dafür zu ändern. Aus der
difikationsprogramm anders aussehen. In die- ursprünglichen Zielsetzung, Schulunlust zu
sem Fall lassen sich über die Bedingungen beseitigen, wäre dann eine neue Zielsetzung
von Z1 verschiedene Hypothesen formulieren. abgeleitet worden: Die negative Haltung des
Das bedeutet nun aber, dass noch nicht mit der Kindes gegenüber seinen Eltern beseitigen.
praktischen Tätigkeit begonnen werden kann.
Vielmehr müssen die einzelnen Hypothesen Mit dieser neuen Aufgabe ist eine etwas an-
zunächst geprüft werden. dere Art aktivierten Wissens verbunden. Ging
es bei den beiden ersten Aufgaben darum zu
Hierbei ist allerdings zu beachten, dass dia- wissen, wie und durch wen ein bestimmtes
gnostisch nur solche Hypothesen gegeneinan- problematisches Verhalten zum Verschwinden
der geprüft werden, die auf unterschiedliche gebracht werden kann, so fordert die neue Auf-
Änderungsprozesse bezogen sind. Diagnosti- gabe die Aktivierung von Wissen über mögli-
ziert wird also immer nur soviel (d. h. immer che Bedingungshintergründe problematischen
nur unter der Zielsetzung), dass sich eine Hy- Verhaltens und über mögliche Auswirkungen
pothese ergibt, mit der es möglich ist, in die dieser Hintergründe. Kaminski reserviert hier-
praktische Phase einzutreten. Von all den mög- für einen dritten Speicher, genannt „Bedin-
lichen Ursachen, die für ein Problem in Frage gungswissen“.
kommen, sind also nur diejenigen relevant, die
auf ein bestimmtes Vorgehen zur Änderung
Mit der Einführung des Begriffs „Speicher“
des Problems verweisen.
weist Kaminski (1970, S. 44) darauf hin, dass
In der Regel muss allerdings doch noch et- es sich hier um anschaulich-didaktische Kon-
was mehr über die Bedingungshintergründe struktionen handelt, die nichts über die tatsäch-
eines manifesten Problems in Erfahrung ge- liche Organisation des Wissens beim Psycho-
bracht werden. Der Grund hierfür ist, dass eine logen aussagen. Gemeint ist damit, dass die
der möglichen Bedingungen des Problems aus Bearbeitung von Daten durch den Psycholo-
Umständen bestehen kann, die weitere, zum gen stets die Aktivierung von Wissen voraus-
Teil vielleicht noch nicht einmal manifeste, setzt. Dabei wird in verschiedenen Phasen des
Probleme verursachen können. So ließe sich Arbeitsflusses der Rückgriff auf verschiede-
etwa für die Schulunlust und den Leistungsab- ne Wissensarten notwendig. Dies wird an den
fall die Hypothese bilden, dass eine der mögli- entsprechenden Stellen des Flussdiagramms
chen Ursachen hierfür eine negative Haltung durch Pfeile zu verschiedenen Speichern re-
des Sohnes gegenüber den Eltern ist (vielleicht präsentiert (I Abb. 7.2, S. 194).
als Konsequenz erlebter strenger und zurück-
weisender Erziehung). Diese Haltung könnte
sich später auch auf andere Menschen über-
tragen, die irgendeine Leistungsforderung an 7.2.5 Analyse spezifischer
ihn stellen, und langfristig äußerst nachteilige Aspekte des Modells
Konsequenzen für die Person haben.
Wenn der Psychologe derartiges Wissen über
mögliche Bedingungen für die Bearbeitung Das Änderungswissen. Bei der Analyse spe-
des Falls heranzieht, ergibt sich für ihn eine zifischer Aspekte des diagnostischen Arbeits-
neue Aufgabe: Festzustellen, ob dieser Sach- flusses beginnen wir mit dem Inhalt des Spei-
verhalt, z. B. eine negative Haltung gegenüber chers 1, dem Änderungswissen, weil dieses

200
7.2 Eine Handlungstheorie psychologischer Diagnostik

das Verbindungsstück zwischen dem grund- z. B. bestimmte Arten von Belohnungen, aus-
wissenschaftlichen und dem anwendungsbezo- sehen müssen, damit sie einen bestimmten
genen Bereich der Psychologie ist. Ausgangs- Effekt erzielen. Sie sagen zudem etwas dar-
punkt für die Analyse ist dabei die Frage, wel- über aus, bei Vorliegen welcher Bedingungen
che Anweisungen für das weitere Handeln des welche Effekte durch bestimmte Maßnahmen
Diagnostikers aus dem Wissen des Speichers 1 nicht erzielt werden. So ist es beispielswei-
folgen. Betrachten wir hierfür zunächst einmal se gesichert, dass Bestrafung allein, d. h. oh-
die Struktur des Änderungswissens. ne gleichzeitiges Informieren über alternative,
nicht zur Bestrafung führende Verhaltensmög-
Der Speicher 1 soll Wissen darüber enthalten, lichkeiten, kein Verhalten aufbaut (Krohne &
durch Einführung welcher Änderungsumstän- Hock, 1994; Walters & Grusec, 1977). Elabo-
de bestimmte Z1 in bestimmte Z2 überführt rierte grundwissenschaftliche Modelle infor-
werden können. Nehmen wir wieder das Bei- mieren immer auch über den Geltungsbereich
spiel der mit einem Leistungsabfall verbunde- ihrer Aussagen.
nen Schulunlust: Welche Umstände bringen
das kritische Verhalten (Z1) effektiv zum Ver- Kein noch so häufig angewendetes Modell ei-
schwinden (Z2)? – Dies könnte erstens Be- nes Praktikers kann dies leisten, da der Prakti-
strafung sein, wenn das Kind wieder einmal ker seine Annahmen nur unter sehr begrenzter
die Schulaufgaben nicht gemacht oder eine Bedingungsvariation (hat er es doch häufig mit
schlechte Klassenarbeit geschrieben hat. Es einander sehr ähnlichen Klienten und Proble-
könnte aber auch zweitens Belohnung sein, men zu tun) und bei nur schlechter Kontrolle
wenn das Kind schulische Interessen zeigt relevanter Einfluss- bzw. Störgrößen überprü-
oder in der Schule besser als früher benotet fen kann. Mit anderen Worten: Wegen der sehr
wurde. Drittens könnte sowohl Bestrafung als begrenzten Beobachtungsmöglichkeiten in der
auch Belohnung eingesetzt werden. Eventu- Praxis kann überhaupt nicht mit der nötigen
ell müssen aber auch, viertens, Änderungsum- Sicherheit gesagt werden, ob es tatsächlich
stände ganz anderer Art geschaffen werden, die vom Praktiker vermuteten Umstände sind,
etwa indem das Kind lernt, schlechte Leistung z. B. eine bestimmte Therapieform, die eine
nicht auf mangelnde Begabung, sondern auf Änderung von Z1 nach Z2 bewirken.
mangelnde Anstrengung zu beziehen.
Ein großer Teil des Wissens des Speichers 1 ist
Nach einer Betrachtung der Grundstruktur also grund- bzw. erfahrungswissenschaftlich
stellt sich als nächstes die Frage, wodurch fundiert. Als nächstes stellt sich nun die Frage,
das Wissen des Speichers 1 begründet ist. Wir wie der Praktiker verfahren sollte, wenn er für
gehen davon aus, dass es die Intention jedes einen bestimmten Fall in seinem Speicher kein
praktisch arbeitenden Psychologen ist, seine empirisch überprüftes Änderungswissen an-
Tätigkeit soweit wie möglich auf grundwissen- trifft. Ein Beispiel wäre etwa die Behandlung
schaftlichen Erkenntnissen aufzubauen. Wenn eines Kindes mit autistischen Störungen. Nach
der Psychologe also interveniert, dann wird er dem derzeitigen Stand der Forschung gibt es
versuchen, dies auf der Basis eines empirisch für diesen Problembereich nämlich weder wis-
überprüften Änderungsmodells zu tun. Warum senschaftlich begründetes Bedingungs- noch
ist das sinnvoll? Änderungswissen.1 Der Psychologe könnte
1 Es werden allerdings vereinzelte Erfolge medikamentö-
Änderungsmodelle sind, zumindest wenn sie
ser (Bristol et al., 1996) wie auch verhaltenstherapeu-
ausgearbeitet und vielfach überprüft wurden,
tischer (Lovaas, 1987) Behandlungen berichtet. Dabei
sehr differenziert und spezifisch. Sie beschrei- scheint die Generalisierbarkeit des Erfolgs verhaltens-
ben also genau, wie bestimmte Änderungen, therapeutischer Interventionen auf die natürliche Le-

201
7 Handlungstheoretische Modelle

hier natürlich skrupulös sein und das Weiter- aus denen dieses Wissen stammt, beteiligt war.
arbeiten an diesem Fall ablehnen. Das scheint Außerdem sollte dieses Wissen zumindest mit
aber wenig sinnvoll zu sein. Wenn ein Klient determiniert sein durch Änderungswissen mit
ein wirklich belastendes Problem hat, so wird höherer wissenschaftlicher Absicherung.
er immer versuchen, jemanden zu finden, der
Damit kommen wir zu einem weiteren Punkt
ihm hilft. Und dies wird, wenn der anspruchs-
bei der Analyse des Änderungswissens, näm-
volle Psychologe ihn ablehnt, vermutlich ein
lich einer Systematik erfahrungswissenschaft-
weniger anspruchsvoller Praktiker sein.
lich überprüfter psychologischer Änderungs-
Der praktisch arbeitende Psychologe wird al- modelle (Kaminski, 1970, S. 48ff). Wenn wir
so, statt auf empirisch begründetes Wissen uns erfahrungswissenschaftlich überprüften
zurückzugreifen, weniger gesichertes Ände- Änderungsmodellen zuwenden, so bedeutet
rungswissen heranziehen. Als Wissen dieser dies im Grunde, ein Buch über den derzeiti-
Kategorie stehen dem Psychologen in der Re- gen Stand des psychologischen Wissens zur
gel Erfahrungen aus seiner Berufsausbildung Verhaltensänderung zu schreiben. Noch bis in
und -praxis sowie Wissen aus alltäglichen Er- die 1970er Jahre wäre dies weitgehend eine
fahrungen zur Verfügung. Es ist offensichtlich, Bestandsaufnahme der behavioristischen Lern-
dass das alltägliche Wissen nochmals eine ge- forschung gewesen, d. h. empirisch überprüfte
ringere Sicherheit besitzt als das beruflich be- Änderungsmodelle wären im Wesentlichen der
gründete Wissen. reiz-reaktionstheoretischen Lernpsychologie
entnommen worden (Übersicht bei Perrez &
Das Heranziehen von Wissen mit geringerer Zbinden, 1996). In neuerer Zeit ist das Bild
wissenschaftlicher Absicherung bei der Bear- jedoch sehr viel komplizierter geworden, weil
beitung eines Falles bringt natürlich eine Rei- die verschiedensten Richtungen und theoreti-
he von Schwierigkeiten mit sich. Diese liegen schen Systeme der Psychologie Änderungs-
in erster Linie in der Subjektivität der Erfah- modelle vorgelegt haben.
rung, wobei in der Regel der Bereich der Gel-
tung einer auf praktischen Erfahrungen basie- Aus der Sozialpsychologie kommen z. B. ver-
renden Aussage weit überschätzt wird. Ferner schiedenartige Modelle zur Einstellungsände-
ist mit dem Wirksamwerden von Faktoren zu rung (Wood, 2000). – Die Motivationspsycho-
rechnen, die aus der Personbeurteilung im All- logie hat unter dem Begriff Attributionstheorie
tag bekannt sind, z. B. Tendenzen zur Ursa- Modelle zur Änderung leistungsthematischen
chenzuschreibung, Selektion, Akzentuierung, Verhaltens vorgelegt (Försterling, 1985). – An
Angleichung oder Wertung (vgl. u. a. Jones, der Schnittstelle von Emotions-, Motivations-
1990). Diese Schwierigkeiten sind beim auf und Persönlichkeitsforschung haben Theorien
Alltagserfahrungen basierenden Wissen natür- zum „Coping“ Vorstellungen zur Änderung
lich noch ausgeprägter als bei der Berufserfah- stressbezogener Wahrnehmungen, Einstellun-
rung. Immerhin könnte die Anwendung von gen und Verhaltensweisen entwickelt (Lazarus,
Änderungswissen, das auf Berufserfahrung ba- 1991). – In der kognitiven Lernpsychologie
siert, auch gewisse Vorteile bieten. Dieses Wis- schließlich, um nur einen weiteren der vielen
sen ist dem Psychologen in der Regel sehr kon- Ansätze zu nennen, haben etwa Forscher wie
kret präsent, da er selbst an den Ereignissen, Bandura (1986), Mischel (Mischel & Shoda,
1995), Rotter (Rotter, Chance & Phares, 1972)
benssituation aber offenbar sehr begrenzt zu sein. Wie oder Seligman (1975) Ansätze zur Verände-
Zwillingsstudien gezeigt haben, ist eine starke Beteili-
rung selbst- und ereignisbezogener Erwartun-
gung genetischer Faktoren an der Entstehung des Au-
tismus sehr wahrscheinlich (Bailey et al., 1995; Rem- gen und sich daran anschließender Verhaltens-
schmidt & Kamp-Becker, 2005). weisen und Merkmale vorgestellt.

202
7.2 Eine Handlungstheorie psychologischer Diagnostik

Im Folgenden soll nur auf einige wenige Kon- unserem Beispielfall (Schulunlust) wäre für
zepte eingegangen werden, die besondere Re- die Herstellung einer Äquivalenzbeziehung zu
levanz für die diagnostisch-modifikatorische entscheiden, welche Disposition, über die Än-
Praxis haben. Erfahrungswissenschaftlich derungswissen verfügbar ist, zur Schulunlust
überprüfte Änderungsmodelle des Speichers passt. Die Schulunlust könnte beispielsweise
1 werden von Kaminski nach zwei Aspekten als ein erlerntes Vermeidensverhalten klassi-
beschrieben: fiziert werden. Damit ist natürlich auch eine
bestimmte Konzeption hinsichtlich der Ent-
1. Benennungen für Dispositionen am Indivi-
stehung und möglichen Veränderung des Zu-
duum, die geändert werden sollen. Beispie-
stands 1 verbunden. – Eine völlig andere Sicht-
le hierfür sind Gewohnheiten, Erwartungen,
weise wäre etwa gegeben, wenn Schulunlust
Kompetenzen, Einstellungen, Werte oder
als Symptom für einen grundlegenden Kon-
Ziele.
flikt, etwa zwischen Vater und Sohn, kategori-
2. Benennungen für Typen von Änderungspro-
siert würde.
zessen, die sich an diesen Dispositionen
abspielen. Beispiele für derartige Prozesse Die diagnostisch relevanten Daten kategorisie-
sind Üben, Extinktion, Beobachtungslernen, ren sich also nicht von selbst, sondern es ist der
Rollenübernahme oder Differenzierung. Psychologe, der diese Kategorisierung voll-
Dispositionen beziehen sich auf die notwen- zieht. Wie läuft nun diese Äquivalenzfeststel-
digen Operationalisierungen von Z1 und Z2. lung im Einzelnen ab? Der Psychologe muss
Wenn man beispielsweise Schulunlust und die konkrete Wirklichkeit seines individuellen
Schulleistung im Rahmen eines kognitiven Falles vergleichen mit den Sachverhalten, auf
Lernmodells (etwa der Theorie Banduras; Ban- denen ein Änderungsmodell aufbaut. Was ist
dura, 1986) als ein System von Erwartungen damit gemeint?
(etwa geringe Selbstwirksamkeitserwartung) Angenommen, der Eingangszustand wird als
und Kompetenzen beschreibt, so verbindet erlerntes Vermeiden kategorisiert. Das ent-
man damit gewisse Möglichkeiten der Mes- sprechende Änderungsmodell impliziert damit
sung des Zustands 1 (hohe Schulunlust, gerin- Sachverhalte wie Stimuli, Responses, Rein-
ge Schulleistung) und des Zustands 2. forcement, Bedürfnisse u. Ä. Der Psycholo-
Änderungsprozesse beziehen sich auf den Weg ge wird dann im konkreten individuellen Fall
von Z1 zu Z2. Sie sind in je spezieller Weise prüfen, ob diese Merkmale im Verhalten des
auf Dispositionen bezogen, d. h. nicht jeder Kindes bzw. in den vorliegenden Umweltbe-
Änderungsprozess passt zu jeder Art von Dis- dingungen realisiert sind. Er wird also fragen,
position. So können beispielsweise bestimmte wann das Verhalten auftritt, was die Mutter in
Kompetenzen (etwa Fertigkeiten) geübt wer- diesem Fall tut, wie sich das Kind vorher und
den; nicht üben kann man aber etwa Einstel- nachher fühlt u. Ä. Er wird ferner prüfen, ob
lungen, Werte oder Ziele. Dagegen kann man die Bedingungen, die bei den empirisch unter-
sich eine Veränderung durch Differenzierung suchten Änderungen von Vermeidensverhalten
sowohl bei Fertigkeiten wie bei Einstellungen geherrscht haben, mit denen vergleichbar sind,
vorstellen. die im vorliegenden konkreten Fall gegeben
sind.
Die Anwendung von Wissen innerhalb der dia-
gnostischen Schleife bedeutet die Herstellung Nehmen wir an, der Psychologe habe das Mo-
einer Äquivalenzbeziehung zwischen einkom- dell des operanten Konditionierens als Ände-
menden Daten und Bestandteilen eines Ände- rungsmodell im Auge. Er wird dann also prü-
rungsmodells (Kaminski, 1970, S. 52ff). In fen, ob die Anordnungen wesentlicher Expe-

203
7 Handlungstheoretische Modelle

rimente, auf denen das entsprechende Wissen richtigen Prügelei. Kann der Psychologe diese
basiert, mit den Umständen vergleichbar sind, Zielsetzung übernehmen?
die er für die Ausbildung eines Zustands 1
und für die Änderung von Z1 zu Z2 anneh- Um diese Frage beantworten zu können,
men muss. Schließlich wird er prüfen, ob die braucht der Psychologe noch eine weitere Art
Zustände 2, auf die hin in empirischen Un- von Wissen. Wie jedes Wissen im diagnosti-
tersuchungen konditionierte Verhaltensweisen schen Prozess wird auch dieses Wissen von
geändert wurden, dem Z2 entsprechen, auf Kaminski in Form eines Speichers repräsen-
den hin er in seinem konkreten Fall einen Ein- tiert. Er nennt den Inhalt dieses vierten Spei-
gangszustand ändern will. Es könnte beispiels- chers „Gewissen“. Dieser Speicher informiert
weise sein, dass in empirischen Untersuchun- den Psychologen über Mindestanforderungen
gen durch operantes Konditionieren stets nur hinsichtlich der Zustände an Menschen, die un-
motorische Verhaltensketten verändert wur- bedingt verwirklicht werden müssen bzw. de-
den, während es im konkreten Fall aber um ren Fortbestehen nicht toleriert werden kann.
„kognitive“ Sachverhalte geht.
Nehmen wir einmal an, der Zustand 2 und der
Die Bestimmung des Zielzustands. Die Be-
Weg dorthin seien in Übereinstimmung mit
stimmung von Z2 ist vergleichsweise leicht,
dem Inhalt des „Gewissens“-Speichers eines
wenn sich alle Beteiligten über die grobe Rich-
Psychologen. Wie lässt sich nun der Zustand
tung, welche die Veränderung zu nehmen hat,
2 genauer bestimmen? Wir erinnern uns, dass
einig sind. Der Fall würde beispielsweise vor-
Z2 dem Zielzustand eines bestimmten Ände-
liegen, wenn ein Klient den Psychologen auf-
rungsmodells äquivalent sein soll. Zielzustän-
sucht und ihm berichtet, dass er bereits bei
de in grundwissenschaftlichen Änderungsmo-
dem bloßen Gedanken an irgendeine Art von
dellen werden in einer operationalen Sprache
Prüfung derart starke Angst empfindet, dass
beschrieben, z. B. wenn ein bestimmtes Lern-
es für ihn völlig ausgeschlossen ist, sich einer
kriterium Zielzustand ist. Entsprechend muss
solchen Situation zu stellen. Problematischer
auch der Praktiker anstreben, den Z2 operatio-
wird es jedoch bei kontroversen Meinungen,
nal, d. h. unter Angabe konkreter Messopera-
beispielsweise wenn die Eltern wollen, dass
tionen zu präzisieren. Wir haben es also hier
ihr Kind eingeschult wird, die Schulleitung es
mit einem Fall kriteriumsorientierter Messung
aber noch nicht für „schulreif“ hält; oder wenn
zu tun (I Kap. 12 und 16).
die Eltern klagen, dass ihr Kind im Gymna-
sium nicht mehr mitkommt. Im letzten Fall
Für das bislang schon häufiger erwähnte Bei-
ist es etwa keineswegs ausgemacht, dass der
spiel würde es also nicht genügen zu bestim-
allein denkbare Zielzustand darin besteht, das
men, dass das Kind sich in der Schule wieder
Kind so zu ändern, dass es im Gymnasium
wohlfühlen und mehr leisten soll. Vielmehr
wieder mitkommt. Eventuell könnte nämlich
müssten sowohl Wohlbefinden wie Leistung
der Preis, den das Kind hierfür zu zahlen hat,
operationalisiert werden, etwa durch Selbst-
zu hoch sein.
und Fremdeinschätzungen, Beobachtungen,
Wer bestimmt also die Zielsetzung? Machen Leistungsmessungen u. Ä., wobei jeweils an-
wir das Problem nochmals an einem akzentu- zugeben wäre, welche Ausprägung der Er-
ierten Beispiel deutlich. Ein Vater beklagt sich reichung des Zustands 2 entspricht. Dabei
beim Psychologen, dass sein Sohn zu schüch- ist zu beachten, dass diese Ausprägungen in
tern und weichlich sei. Er wolle, dass sein verschiedenen Erhebungsmodi (z. B. Selbstbe-
Sohn sich anderen Kindern gegenüber durch- richt oder Verhaltensbeobachtung) nicht zeit-
zusetzen lerne, notfalls auch einmal bei einer gleich auftreten müssen. Nur eine derartige

204
7.2 Eine Handlungstheorie psychologischer Diagnostik

operationale Definition gestattet eine objekti- Schließlich soll es dem Diagnostiker ja nicht
ve Entscheidung darüber, ob ein Ziel erreicht darum gehen, relativ abstrakte Urteile (etwa
wurde. Andernfalls kann es zu vielfältigen Ein- hinsichtlich Intelligenz oder emotionaler Sta-
flüssen auf die Beendigung der Modifikation bilität) über einen Klienten zu formulieren,
sowohl von Seiten des Psychologen wie des sondern gemäß festgelegter Aufträge tätig zu
Klienten kommen. werden. Hieraus ergeben sich die zwei Grund-
fragen des Untersuchers: Was will er aus dem
Bekannt geworden ist in diesem Zusammen-
Leben des Klienten in Erfahrung bringen? Wie
hang etwa der „Hello-good-bye“-Effekt (Hath-
kommt er am besten an diese Information?
away, 1948). Zu Beginn einer Therapie („hel-
lo“) sind sich Therapeut und Klient im All- Die Planung der Datenbeschaffung vollzieht
gemeinen darüber einig, dass es dem Klien- sich also unter zwei Grundaspekten, einem
ten schlecht geht und mithin eine Therapie strategischen („was?“) und einem taktischen
indiziert ist. Wenn nach einer Vielzahl (teu- („wie?“). Unter dem strategischen Aspekt be-
rer und oft mühsamer) therapeutischer Sitzun- stimmt der Untersucher, auf welche Merkmale
gen der Therapeut dann das Ende der Behand- aus dem Leben eines Klienten seine Datenbe-
lung ankündigt („good bye“), so dürften sich schaffung zielt. Unter taktischem Aspekt fragt
beide wiederum ziemlich einig sein, dass es er sich, wie er innerhalb der Untersuchungs-
dem Klienten jetzt besser geht. Diese Einig- situation an diese Information gelangen kann.
keit sagt aber natürlich noch nichts darüber Er muss dabei abschätzen, wie das Konzept
aus, ob (mittel- oder langfristig) tatsächlich ei- aussieht, das sich der Klient von der Untersu-
ne Besserung im Zustand des Klienten erreicht chungssituation macht. Der Psychologe wird
wurde. sich also fragen, wie der Klient die Untersu-
chungssituation kategorisieren müsste, damit
die aus seinem Leben benötigte Information
7.2.6 Strategische und taktische in ihr zum Vorschein kommt. So muss der Psy-
Planung chologe beispielsweise bei der Untersuchung
eines Kindes zu klären versuchen, ob dieses
Ein zentraler Aspekt der diagnostischen Tätig- die Teilnahme an der Untersuchung als frei-
keit besteht in der Planung der Datenbeschaf- willig kategorisiert, als Spiel- oder Leistungs-
fung. Diese Planung folgt auf die Formulie- situation, ferner als Situation, in der es eher
rung von Hypothesen und steuert die Reali- sozial erwünscht reagieren wird.
sierung konkreter diagnostischer Untersuchun- Strategische Planung. Die Zielsetzungen der
gen. Dabei gilt, dass das Handeln in der Unter- strategischen Planung entstehen im Zusam-
suchung durch die Planung vorentworfen wird. menhang mit der Herausbildung des Arbeits-
Die Planung der Untersuchung muss damit auftrags sowie der Bestimmung des Eingangs-
beginnen, dass der Psychologe sich explizit zustands und seiner Bedingungen. Greifen wir
über seine Intentionen bei der Datenbeschaf- zur Illustrierung dieses Sachverhalts wieder-
fung klar wird, d. h. er muss sich die Frage um das Beispiel der Mutter auf, die sich über
stellen: Warum will ich gerade diese Art von Schulunlust und einen Leistungsabfall ihres
Information über den Klienten? Dabei muss Sohnes beklagt.
auf das zentrale Problem der Datenbeschaf-
fung hingewiesen werden: Der Untersucher Der Untersucher kategorisiert dieses Verhalten
muss jeweils abschätzen, in welchem Verhält- des Kindes – hypothetisch – als erworbenes,
nis die psychologische Untersuchungssituati- schulbezogenes Vermeidensverhalten. Damit
on zum alltäglichen Leben des Klienten steht. hat er die Möglichkeit, es an ein bestimmtes

205
7 Handlungstheoretische Modelle

Änderungsmodell, nämlich an ein lerntheoreti- Untersucher ja gewisse (an einer Eichstich-


sches, anzuschließen. Aus dieser Kategorisie- probe gewonnenen) Normen zur Verfügung
rung heraus ergibt sich für die strategische Pla- stellen soll. Anhand dieser Normen kann der
nung die Zielsetzung, etwas über Sachverhalte Untersucher feststellen, wie sein Klient im Ver-
im Leben des Sohnes zu erfahren, von denen hältnis zur Eichstichprobe abschneidet. Dar-
eine, im weitesten Sinn, strafende Wirkung aufhin kann er über die Gründe dieses relati-
auf das Kind ausgehen könnte. Er wird also ven Abschneidens Hypothesen bilden. Weite-
eine Reihe spezieller Hypothesen formulieren res essenzielles Wissen liefern ihm natürlich
(z. B. das Kind wurde von den Eltern häufig die Reliabilitäts- und Validitätsangaben zu ei-
für schulische Misserfolge bestraft). Für je- nem Test.
de dieser Hypothesen, in denen jeweils das
Vorhandensein einer speziellen Art von Sach- Der wichtigste Schritt vor Anwendung eines
verhalten (z. B. elterliche Strafen, Hänseleien Tests ist die Beantwortung der Äquivalenzfra-
durch Mitschüler, Verlust einer nahen Bezugs- ge (Kaminski, 1970, S. 260): Entsprechen die
person) behauptet wird, plant er dann eine spe- Verhältnisse, die zur Gewinnung der im Ma-
zielle Datenerhebung, um damit deren Gültig- nual berichteten Informationen geführt haben,
keit zu überprüfen. denen, die in der Untersuchung des Klienten
vorliegen? So sind mit jedem ausgearbeite-
Taktische Planung. Die taktische Planung be- ten Test spezifische Informationen verbunden
kommt von der strategischen die Aufgabe ge- (Normen, Art der Eichstichprobe, Ergebnis-
stellt. Ein wesentlicher Leitgedanke für die se von Reliabilitäts- und Validitätsstudien an
konkrete Ausgestaltung der Untersuchungssi- speziellen Stichproben). Der Psychologe muss
tuation besteht in der Beantwortung der Frage, sich also fragen, ob sein Klient zu diesen Stich-
welches Konzept sich der Klient von der Unter- proben passt. Die primäre Grundlage für die
suchungssituation macht. Dieses Konzept ist Gewinnung derartiger Informationen ist die
natürlich eng auf das bezogen, was der Unter- Eichsituation. Bei der taktischen Planung einer
sucher als Situation realisiert. Es ist nun klar, Testdurchführung muss der Untersucher also
dass das, was der Untersucher als Untersu- darauf abzielen, in der Untersuchung Verhält-
chungssituation realisiert, stets nur innerhalb nisse zu realisieren, die denen der Eichsitua-
bestimmter Grenzen variieren kann. tion möglichst gut entsprechen. Auf folgende
Aspekte ist dabei vordringlich zu achten:
Eine erste Einschränkung der Variationsmög-
lichkeiten besteht darin, dass der Psycholo- • Instruktion,
ge die Untersuchung selbst durchführt. Damit
wird der Untersucher, so wie er mit dem Kli- • Testmaterial,
enten interagiert und von diesem entsprechend • Person des Testgebers in der Eichsituation,
erlebt wird, selbst Teil der Untersuchungssi-
tuation. Dies muss natürlich bei der taktischen • Eichpopulation.
Planung berücksichtigt werden.
Zum Testmaterial muss hier noch auf ein spe-
Am stärksten eingeschränkt ist der Spielraum zielles Problem hingewiesen werden: Insbe-
des Psychologen, wenn er mit Tests arbeitet. sondere Intelligenz- und Leistungstests (aber
In diesem Fall werden ihm von Seiten der nicht nur diese) bestehen häufig aus einer Rei-
Testkonstrukteure verbindliche Vorschriften he von Untertests (I Kap. 12). Dies verführt
für die taktische Planung gemacht. Der Grund hin und wieder dazu, aus Gründen der Zeiter-
für diese Vorschriften ist, dass jeder Test dem sparnis nur einzelne Untertests zu geben und

206
7.2 Eine Handlungstheorie psychologischer Diagnostik

aus deren Ergebnissen, quasi per Extrapolati- mer der Eichsituation – vermutlich – die Test-
on, auf den Gesamtwert des Klienten zu schlie- darbietung erlebt haben, und der entsprechen-
ßen. Hiervor muss gewarnt werden. Die bereit- den Kategorisierung durch seinen Klienten oft
gestellte Testinformation bezieht sich meistens nicht verhindern können. Er muss in diesem
auf den Gesamttest. Dies gilt besonders für Fall eine psychologische Beurteilung dieser
die Validitätsangaben. In Untertests geglieder- Diskrepanz versuchen und dann bestimmte
te Intelligenztests sind in der Regel nicht über Korrekturen vornehmen, um so das Verhal-
die Ergebnisse einzelner Untertests, sondern ten seines Klienten doch noch mit dem Ver-
nur über den Score des Gesamttests validiert. halten der Personen aus der Eichsituation ver-
Wenn der Untersucher schon Kurzformen her- gleichen zu können. Die Basis dafür liefern
anziehen will, so dürfen diese keineswegs von ihm empirisch begründete Kenntnisse darüber,
ihm ad hoc selbst erstellt werden. Vielmehr in welchem Sinne das in Tests vorkommen-
muss er in diesem Fall nach Kurzformen Aus- de Verhalten jeweils abhängt vom Erleben der
schau halten, die in gesonderten Untersuchun- Testsituation. So gibt es beispielsweise empi-
gen bereits validiert wurden. risch gut gesichertes Wissen darüber, in wel-
cher Weise ein erlebter Misserfolg in einer als
Nachdem der Psychologe also diese zentralen ich-involvierend kognizierten Situation das an-
Aspekte der Testeichung berücksichtigt hat, schließende Leistungsverhalten beeinträchtigt.
muss er sich als nächstes Gedanken darüber Hieraus könnte der Psychologe vielleicht Hy-
machen, wie die Mitglieder der Eichstichpro- pothesen über eine vergleichsweise schlechte
ben die Testsituation kategorisiert haben. Er Leistung seines Klienten in entsprechenden
muss ja anstreben, entsprechende Kategori- Tests ableiten.
sierungen in der Untersuchungssituation zu
realisieren. Bisher wurde die taktische Planung so ver-
standen, dass der Untersucher sich, unter Be-
Beispiel rücksichtigung der Situationskategorisierun-
Wenn wir es z. B. mit einem Intelligenz- gen des Klienten, einen Plan macht und diesen
test für Kinder zu tun haben, so können wir dann in die Tat umzusetzen versucht. Tatsäch-
fast sicher sein, dass die Testeichung nicht lich ist dies jedoch zu einfach gedacht. Der
im Einzelversuch beim Schulpsychologen, Klient bringt ja auch einen bestimmten Zu-
sondern im Verband der Schulklasse durch- stand in die Untersuchungssituation ein, der
geführt wurde. Für die Kinder stand fast erst noch, in bestimmten Grenzen, an die Ziel-
nichts auf dem Spiel, sie haben vielleicht setzungen der Untersuchung angepasst werden
nicht einmal ihren Namen nennen müssen. muss. Taktische Planung einer Untersuchung
Es lag also keine Belastungssituation, son- heißt also nicht nur die Herstellung bestimm-
dern eher ein Spiel vor. Vergleicht man dies ter geplanter Verhältnisse, sondern zugleich
mit der Situation beim Schulpsychologen, auch die Modifikation bereits bestehender Ver-
zu dem ein Schüler mit Leistungsproble- hältnisse in Richtung auf die angestrebten (Ka-
men vielleicht auf Anraten eines Lehrers minski, 1970, S. 269).
oder Drängen der Eltern kommt, so kann
man abschätzen, welche Diskrepanz hier Der Untersucher muss also auch die jeweils
zunächst besteht. in der Untersuchungssituation aktuell beste-
henden Verhältnisse diagnostizieren und die-
se Diagnosen in Beziehungen setzen zu den
Der Psychologe wird eine anfängliche Dis- Zielen der taktischen Planung. Im Sinne des
krepanz zwischen der Art, wie die Teilneh- formalen Schemas des Untersuchungsablaufs

207
7 Handlungstheoretische Modelle

bedeutet dies, dass es bereits innerhalb der dia- Als letztes muss noch berücksichtigt werden,
gnostischen Schleife aktuelle Zustände 1 und dass bei der taktischen Planung auch ethische
aktuell angestrebte Zustände 2 gibt. Das be- Gesichtspunkte ins Spiel kommen. (Wie er-
deutet zugleich, dass bestimmte Formen von wähnt, reserviert Kaminski hierfür den Spei-
Änderungen bereits Bestandteil der diagnosti- cher „Gewissen“.) Eine psychologische Un-
schen Phase sind. tersuchung stellt stets einen erheblichen Ein-
griff in das Leben eines anderen Menschen dar.
Dies gilt besonders, wenn dieser Mensch auf-
Beispiel grund bestimmter Fragen zu Stellungnahmen
So mag der Psychologe an der Mutter, die über sich und andere Menschen aufgefordert
sich bei ihm über die Schulunlust und den wird. Befragt man beispielsweise ein Kind mit-
Leistungsabfall ihres Sohnes beklagt, eine tels eines Erziehungsstilfragebogens nach der
gewisse Verschlossenheit ihm gegenüber erlebten Erziehung durch seine Eltern, so wird
bemerken. Dieser Z1 der Mutter verträgt es, vielleicht zum ersten Mal in seinem Leben,
sich nicht mit den Zielsetzungen seiner tak- über diese Erziehung nachdenken. Dies könnte
tischen Planung, nämlich bestimmte Ko- u. U. Störungen in den Beziehungen zwischen
gnitionen der Mutter, z. B. hinsichtlich des Eltern und Kind induzieren. Der Psychologe
Sohnes, des Vaters, ihrer selbst und der hat dies also bei der taktischen Planung mit zu
Schule, zu erheben. Er wird also zunächst berücksichtigen.
einmal einen bestimmten Z2 der Mutter de-
finieren (Abbau der Verschlossenheit) und
auf diesen hin eine Änderung planen. Da- 7.2.7 Einzelfallorientierte und
zu muss er natürlich wiederum Hypothe-
institutionelle Diagnostik
sen über den Bedingungshintergrund des
Z1 der Mutter aufstellen, etwa: die Mutter
kategorisiert die psychologische Praxis als Aus Modellen des Diagnostizierens sollen sich
eine Art Behörde, z. B. ein Schulamt, wo- unmittelbare Gesichtspunkte für die Planung
bei sie den Vertretern derartiger Institutio- und Organisation der Beschaffung diagnos-
nen gegenüber, z. B. Lehrern, Direktoren, tischer Daten ableiten lassen. Während das
Schulräten, stets „auf der Hut“ ist. im vorangegangenen Kapitel vorgestellte ent-
scheidungstheoretische Modell von Cronbach
und Gleser dabei in erster Linie für die Daten-
beschaffung im Rahmen institutioneller Ent-
Wichtig ist, dass der Psychologe es bei den zu scheidungen (Selektion und Klassifikation) re-
ändernden Sachverhalten nicht nur mit zeitlich levant ist, liefert das Kaminski-Modell in be-
länger erstreckten Dispositionen zu tun hat. sonderem Maße Richtlinien für die Planung
Ob die taktische Planung erfolgreich realisiert speziell am Einzelfall orientierter diagnosti-
wird, hängt wesentlich auch von der Berück- scher Interventionen. Der Ansatz von Kamin-
sichtigung momentaner ungünstiger Zustände ski erhebt jedoch den Anspruch, ein allgemei-
ab. Derartige Zustände, die der Zielsetzung nes, also nicht nur auf die – in erster Linie auf
entgegenstehen können, wären etwa eine mo- nachfolgende Modifikationen zielende – Ein-
mentane Verstimmung des Gesprächspartners, zelfalldiagnostik passendes Modell diagnosti-
Verständnisschwierigkeiten bei Fragen oder scher Tätigkeit zu liefern.
aufkommende Angst und Unsicherheit. (Für
eine genauere Beschreibung derartiger Einflüs- Dieser Anspruch ruft zunächst einmal Erstau-
se I Kap. 8.) nen hervor. Auf den ersten Blick scheinen

208
7.3 Bewertung des Modells

die Unterschiede zwischen der durch die For- und Gleser von zentraler Bedeutung im Hin-
mulierung expliziter Hypothesen gesteuerten blick auf die Bewertung einer diagnostisch be-
Datengewinnung nach den Vorstellungen Ka- gründeten Entscheidung (z. B. Akzeptieren vs.
minskis und der auf die Maximierung des Ent- Ablehnen) als „valide“ oder „falsch“. Einzel-
scheidungsnutzens zielenden Datenerhebung fallorientierte und institutionelle diagnostische
nach dem Ansatz von Cronbach und Gleser Tätigkeit stellen also nur Varianten dessel-
so groß zu sein, dass es schwerfällt, hier inte- ben diagnostischen Prozesses dar. Beratungen,
grierende Gesichtspunkte zu gewinnen, nach Empfehlungen und Gutachten (I Kap. 13),
denen beide (und noch weitere) Ansätze nur die zu Selektion oder ähnlichen Interventio-
als Varianten ein und desselben diagnostischen nen (Klassifikation, Platzierung) führen, sind
Prozesses aufgefasst werden können. also bloße Sonderformen des „Änderns“. Die
Grundstruktur des diagnostisch-praktischen
Im Zentrum des Kaminski-Modells steht der
Modells ist für verschiedene Interventionsfor-
Prozess des „Änderns“, also der diagnostisch
men mithin dieselbe.
vorbereitete und gesteuerte Weg von einem
Eingangszustand Z1 zu einem Zielzustand Z2.
Nach Kaminski (1970, S. 66ff) können auch
diagnostische Prozesse, die von Selektions-
oder Klassifikationsaufgaben ausgehen, unter 7.3 Bewertung des Modells
die allgemeinere Aufgabenstellung des Än-
derns subsumiert werden. Auch bei derartigen
Tätigkeiten wird ein Z2 definiert (bei institutio-
Auf der Basis handlungsorientierter Konzep-
nellen Selektionsaufgaben etwa die – operatio-
te hat Kaminski ein Modell des Diagnostizie-
nal bestimmte – Bewährung am Arbeitsplatz)
rens vorgelegt, in dem verschiedene Kompo-
und es werden „Änderungsumstände“ ins Au-
nenten psychologischen Intervenierens inte-
ge gefasst (die Arbeitsaufgabe, die allgemeine
griert und im Sinne eines sequenziellen Vor-
Situation am Arbeitsplatz, angebotene Trai-
gehens mit Rückkopplung prozesshaft organi-
ningsprogramme), denen eine Person auf dem
siert sind. Er hat damit nicht nur herkömmli-
Weg vom Eingangszustand (etwa während der
che Vorstellungen des Diagnostizierens als ei-
Bewerbung) zum Zustand 2 ausgesetzt sein
nes einmaligen „Erkenntnis“-Aktes überwun-
kann.
den, sondern zugleich den gesamten Arbeits-
Nach der Logik des Kaminski-Modells folgt fluss des psychologischen Intervenierens, in
aus dieser Überlegung, dass die Erstellung dem das Stellen der Diagnose ja nur einen
einer Diagnose und deren Kommunikation Teil ausmacht, nach dem Vorbild grundwissen-
an den Auftraggeber (also beispielsweise der schaftlicher Forschungsstrategien konzipiert
durch diagnostische Tätigkeit begründete Vor- (Hörmann, 1967). Jede Phase einer psycho-
schlag, einen Bewerber einzustellen) nicht den logischen Intervention wird hiernach durch
eigentlichen Abschluss der psychologischen präzise, operationalisierbare Hypothesen ge-
Arbeit, sondern nur eine Zwischentätigkeit bil- steuert, wobei das jeweilige Zwischenergebnis
det. Der wirkliche Abschluss liegt bei derarti- den weiteren Arbeitsablauf determiniert. In ei-
gen Aufgabenstellungen weiter in der Zukunft, ner Erweiterung seines Modells des praktisch-
etwa beim Vergleich der tatsächlichen Arbeits- psychologischen Arbeitsprozesses hat Kamin-
leistung des eingestellten Bewerbers mit den ski (1976) eine Reihe von Unterscheidungsdi-
Anforderungen, die in einem Zielkriterium for- mensionen entwickelt, deren Anwendung es
muliert sind (I Kap. 14). Ein derartiger Ver- erlaubt, unterschiedliche Varianten des Dia-
gleich ist ja auch im Modell von Cronbach gnostizierens taxonomisch zu klassifizieren.

209
7 Handlungstheoretische Modelle

Bei der Vorstellung seines Ansatzes hat Ka- sche Tätigkeit hier entsprechend grundwissen-
minski (1970, S. 18ff) eine Reihe von Defizi- schaftlich abzustützen.
ten beim praktisch arbeitenden Psychologen
beschrieben, zu deren Behebung das von ihm Die Darstellung dieser heuristisch-didakti-
konzipierte Modell einen Beitrag leisten kann. schen Zielsetzung macht deutlich, dass es sich
bei dem Ansatz von Kaminski nicht um eine
So weist er darauf hin, dass der Praktiker ers- Theorie im engeren Sinne dieses Begriffs han-
tens zwar sehr globale Arbeitseinheiten wie In- delt, sondern um eine rationale Rekonstruktion
terview, Test oder Gutachtenerstellung als von- des diagnostischen Prozesses. Im engeren Ver-
einander unterschieden und jeweils sehr kom- ständnis wird von einer Theorie eine deutlich
plex erlebt, aber kaum klarer durchschaut, was erklärende Ausrichtung erwartet und damit
sich innerhalb dieser Arbeitseinheiten abspielt auch die Möglichkeit, anhand von Ableitun-
und wie diese aufeinander bezogen sind. Ziel gen aus der Theorie Vorhersagen von Ereig-
des Kaminski-Modells wäre es also hier, das nissen zu treffen. Während diese Möglichkeit
Tätigkeitsfeld des Praktikers mit Hilfe grund- in dem zuvor dargestellten entscheidungstheo-
wissenschaftlicher psychologischer Denkwei- retischen Modell von Cronbach und Gleser
sen transparent zu machen. (I Kap. 6), etwa mit Hilfe der dargestellten
Nutzenfunktion, gegeben war, dominiert bei
Zweitens sprechen verschiedene Praktiker Kaminski eindeutig die beschreibende Orien-
(manchmal auch ein und derselbe Praktiker) tierung.
unterschiedliche quasi-wissenschaftliche Spra- Obwohl Kaminski bei seinem Ansatz selbst
chen (z. B. lerntheoretische, psychodynami- von einer Theorie spricht (und damit offen-
sche oder kognitionspsychologische), ohne bar das weitere Verständnis dieses Begriffs
sich darüber Gedanken zu machen, ob die zugrunde legt), ist er sich dieser Beschrän-
Theorien, denen diese Sprache entstammen, kung auf die deskriptive (teilweise auch prä-
überhaupt miteinander vereinbar sind. Ziel wä- skriptive) Ebene durchaus bewusst. Diese Be-
re es mithin hier, das erwähnte Durchschaubar- schränkung hat sich aber in dem vorgelegten
machen des Tätigkeitsfeldes im Rahmen einer Modell durchaus als Stärke erwiesen, wenn
einigermaßen konsistenten Theorie zu orga- man sich eine vom Autor formulierte zentra-
nisieren, etwa eines kognitiven, an Prozessen le Zielsetzung seines Vorhabens vor Augen
der Informationsverarbeitung und Problemlö- führt (Kaminski, 1970, S. 17): „Das Tätigkeits-
sung orientierten, Ansatzes. Ein Ansatz zu ei- feld klinisch-psychologischer Praxis soll mit
ner derartigen Integration wurde inzwischen Hilfe grundwissenschaftlich-psychologischer
von Grawe, Donati und Bernauer (1994) un- Denkweisen möglichst grundlegend und voll-
ter dem Begriff „Allgemeine Psychotherapie“ ständig durchschaubar werden. Es sollen von
vorgestellt. dieser Analyse alle Teilakte, die diese Art Tä-
tigkeit einschließt, in ihrer wechselseitigen Be-
Drittens weist Kaminski darauf hin, dass der ziehung erfasst werden, und es sollen dabei
Praktiker offenbar zu wenig darüber erfährt, auch alle Varianten, in denen sich diese Tätig-
was sich im grundwissenschaftlichen Funda- keit verwirklichen kann, ungezwungene Be-
ment der Diagnostik abspielt. Durch Einfüh- rücksichtigung finden können.“
rung des – in erster Linie als didaktische Hil-
fe gedachten – Konzepts des Speichers ver- Das Modell von Kaminski stellt somit in ers-
weist Kaminski an entsprechenden Stellen der ter Linie eine, nach unserer Einschätzung
Darstellung des praktisch-psychologischen Ar- sehr brauchbare, grundwissenschaftlich fun-
beitsflusses auf die Notwendigkeit, diagnosti- dierte Anleitung für den praktisch arbeitenden

210
7.3 Bewertung des Modells

Psychologen dar. Im Sinne des eingeführten 2. Welches sind die Phasen des Modells von
handlungstheoretischen Schemas (I Abb. 7.1, Kaminski?
S. 192) informiert diese Anleitung den Prak-3. Durch welche Faktoren wird die diagnosti-
tiker darüber, wie er die verschiedenen Ar- sche Datenbeschaffung gesteuert?
4. Durch welche kognitiven Mikrokomponen-
beitseinheiten einer Intervention, die ihm ja
im Prinzip alle bekannt sind, so zu organisie- ten wird der diagnostische Beurteilungs-
ren hat, dass ein zuvor operational definierterund Entscheidungsprozess gesteuert?
Zielzustand (also die intendierte Folge der ei-
5. Welche diagnostischen Tätigkeiten sind in
genen Tätigkeit) optimal erreicht und dabei der praktischen Phase des Modells von Ka-
gleichzeitig die Menge unintendierter Folgen minski gefordert?
möglichst gering gehalten wird. 6. Welche beiden Aspekte enthalten erfah-
rungswissenschaftlich überprüfte Ände-
rungsmodelle des Speichers 1?
Weiterführende Literatur 7. Was versteht man unter strategischer Pla-
nung?
8. Was bedeutet taktische Planung der Date-
Darstellungen zur Handlungstheorie finden nerhebung?
sich in Eckensberger und Reinshagen (1979) 9. Was ist bei der Bestimmung des Zielzu-
sowie Lenk (1981). Das Modell wird ausführ- stands zu beachten?
lich in Kaminski (1970) beschrieben, Ergän-
zungen hierzu in Kaminski (1976, 1981).

Fragen zur Wissenskontrolle

1. Welches sind die Grundbegriffe der Hand-


lungstheorie und wie sind diese aufeinander
bezogen?

211
IV Beschaffung und Integration
diagnostischer Daten
8 Das Interview

8.1 Begriffsbestimmung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215


8.2 Der Prozess der Befragung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
8.3 Strukturiertheitsgrad des Interviews . . . . . . . . . . . . . . . . . . . . . . 219
8.4 Gütekriterien des Interviews . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
8.5 Arten von Interviews . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
8.6 Bewertung der Datenerhebungsmethode Interview . . . . . . . . . . . . . . 223

Beim Interview handelt es sich um eine münd- bezieht sich Exploration auf den aktuellen Vor-
liche Befragung eines einzelnen Menschen gang der Befragung. Die Anamnese ist dage-
durch einen einzelnen Gesprächsführer mit gen eines der Hauptanwendungsfelder des In-
dem Ziel der Gewinnung diagnostisch relevan- terviews, insbesondere im klinischen Bereich.
ter Information. Die Zwecke der Durchfüh- Anamnese bedeutet die Erhebung der Vorge-
rung von Interviews sind vielfältig; es kann schichte eines Problems durch den Eigenbe-
sich etwa um eine Befragung im Rahmen der richt des Klienten bzw. den Bericht derjenigen
Personalauslese handeln oder um die Abklä- Personen (z. B. Eltern), die dessen Vorstellung
rung der Entwicklung eines psychischen Pro- beim Psychologen oder Arzt veranlasst haben.
blems. Neben der Gewinnung diagnostischer
Daten kann das Interview aber auch lediglich Beim Interview handelt es sich, jedenfalls
das Ziel verfolgen, ein vertrauensvolles Ver- nach dessen ursprünglicher Konzeption, um
hältnis zwischen Untersucher und Klient zu ein vergleichsweise unstrukturiertes Verfah-
schaffen, das sich dann günstig auf spätere (an- ren. Da aber gerade diese Unstrukturiertheit,
dersartige) Datenerhebungen auswirken kann. wie noch gezeigt werden wird, erhebliche me-
thodische Kritik auf sich gezogen hat, wer-
den in zunehmendem Maße strukturierte In-
terviews erarbeitet (Übersicht u. a. bei Keßler,
8.1 Begriffsbestimmung 1982; Westhoff & Strobel, 2011, 2013). Dabei
bilden die schriftlich durchgeführten Befra-
gungen den Übergang zu den in I Kap. 10
genauer dargestellten subjektiven Verfahren.
Weitere Begriffe, die in diesem Zusammen- Zur allgemeinen Analyse des diagnostischen
hang genannt werden, sind Exploration und Prozesses im Interview werden wir aber zu-
Anamnese. Während Interview eine Methode nächst das „klassische“, d. h. vergleichswei-
(bzw. eine Klasse von Verfahren) zur Gewin- se unstrukturiert und mündlich durchgeführte
nung diagnostischer Information bezeichnet, Vorgehen betrachten.

215
8 Das Interview

8.2 Der Prozess der Befragung von Kognitionen; in ihr verhalten sich Men-
schen auch, liefern also Verhaltensdaten. Un-
ter diesen nonverbalen Daten sind von beson-
derem Interesse die Körperhaltung, die Ges-
Verglichen mit einer Testsituation i. e. S. hat tik, Blickbewegungen sowie das Sprechver-
der Psychologe im Interview größere Freihei- halten (Pausen, Versprecher, Sprechgeschwin-
ten der taktischen Planung. Wir stellen uns digkeit u. Ä.). Diese Daten sind in zweifacher
also wieder die Frage, wie sich grundwissen- Hinsicht bedeutungsvoll: Sie liefern (hypothe-
schaftliche Kenntnisse auf Vorgänge im psy- tisch) Aufschluss über den evtl. problemati-
chologischen Gespräch anwenden lassen. We- schen Ausgangszustand Z1 einer Person; fer-
sentliches hierzu, das noch einmal ins Ge- ner informieren sie (wiederum hypothetisch)
dächtnis gerufen werden soll, hatten wir schon darüber, was am Verhalten des Gesprächspart-
in I Kap. 7 kennengelernt (vgl. auch Kamin- ners im Leben draußen bedeutsam für andere
ski, 1970). Menschen sein kann, also deren auf die ex-
plorierte Person bezogene Kognitionen und
Jede Art der Datenbeschaffung dient der Auf-
Verhaltensweisen beeinflussen könnte. So mag
stellung und Prüfung verschiedener Arten von
sich beispielsweise ein Kind im Gespräch als
Hypothesen. Eine wesentliche Hypothese, von
sehr leicht ablenkbar erweisen. Es ist etwa
der vieles in der Untersuchungssituation ab-
sprunghaft und kann nicht beim Thema blei-
hängt, ist die Z2-Hypothese, d. h. die Definiti-
ben. Dieses Verhalten sagt einiges über den
on des Zustands, auf den hin geändert wer-
Zustand 1 des Kindes aus. Zugleich kann man
den soll. Maßgebend hierfür sind natürlich
vermuten, dass dieses Verhalten auch auf an-
die Wünsche des Klienten bzw. anderer Be-
dere Personen wirkt, z. B. auf Eltern, Lehrer
teiligter (z. B. der Eltern), wie sie sich etwa
oder Freunde, und somit deren Kognitionen
im Gespräch artikulieren. Deshalb sollte die
und Verhalten dem Kind gegenüber zumindest
Datenbeschaffung im Allgemeinen mit einer
teilweise erklärt.
Exploration beginnen.
Wir wollen nun den Prozess der Interaktion
Wenn Menschen etwas über sich erzählen, von Klient und Befrager im Interview genauer
dann werden dabei Kognitionen verschiede- betrachten. Wir orientieren uns dabei an Über-
ner Art übermittelt, z. B. Mitteilungen, Beur- legungen, die Kaminski (1970, S. 271ff) im
teilungen, Bewertungen (I Abb. 8.1). Diese Rahmen seines handlungstheoretischen Mo-
Kognitionen beziehen sich jeweils auch auf dells angestellt hat, und beginnen mit dem Kli-
verschiedene Personen und unterschiedliche enten.
Arten von Daten, nämlich auf Kognitionen,
Verhalten und Umstände (Kaminski, 1970, S. Der Klient baut ein Konzept der Situation auf,
270). So mag ein Schüler etwa dem Psycho- das sein Verhalten in der Exploration steuert.
logen mitteilen, dass der Lehrer ihn wohl fürDieses Konzept basiert teilweise auf verhal-
faul hält (eine Kognition über eine Kogniti- tenssteuernden Systemen, die der Klient in
seinem täglichen Leben entwickelt hat. Der
on des Lehrers), dass ihn der Lehrer sehr sel-
ten „dran nimmt“ (eine Kognition über Lehrer-Befrager muss dabei herauszufinden suchen,
verhalten), und dass er täglich zwei Stunden ob diese Systeme im Sinne der Zielsetzung der
im Zug verbringen muss (eine Kognition über Untersuchung relevant sind. So mag der Klient
Umstände). etwa generell dazu tendieren, bei Gesprächen
mit ihm unbekannten Personen, denen er eine
Die (mündlich durchgeführte) Exploration be- gewisse Autorität zuschreibt, misstrauisch und
steht aber nicht nur aus der Übermittlung verschlossen zu sein. Es ist naheliegend, dass

216
8.2 Der Prozess der Befragung

Exploration

Kognitionen Verhaltensweisen

über Ko- über Ver- über Um- Information Information


gnitionen: halten: stände: über Z1: über Umstän-
„der Lehrer „der Lehrer „ich verbringe „das Kind ist de für andere:
hält mich nimmt mich täglich zwei motorisch „durch seine
für faul“ selten dran“ Stunden sehr unruhig“ motorische
im Zug“ Unruhe stört
das Kind den
Unterricht“

Abb. 8.1 Während eines Interviews übermittelte unterschiedliche Informationen.

er auch die Explorationssituation in diesem fest. Will er nicht inkonsistent und damit un-
Sinne kogniziert und sich in ihr „entsprechend“ glaubwürdig erscheinen, so muss er bemüht
verhält. sein, beispielsweise eine bestimmte Art des
Verschweigens und Verfälschens oder der non-
Auch das Verhalten des Klienten im Ge- verbalen Selbstdarstellung während des Ge-
spräch kann man im Sinne eines Arbeitsflus- sprächs durchzuhalten.
ses, analog dem besprochenen diagnostisch-
praktischen Arbeitsfluss im Handlungsmo- Als nächstes wollen wir uns anschauen, wel-
dell Kaminskis (I Abb. 7.2, S. 194), auffas- che Anforderungen der Untersucher simultan
sen. Der Klient bildet also ebenfalls eine Z2- oder kurz nacheinander in der Exploration zu
Hypothese darüber aus, was der Untersucher bewältigen hat.
wohl generell von ihm will und z. B. mit ei-
Er muss erstens die vom Gesprächspart-
ner bestimmten Frage bezweckt. Diese Frage
ner gelieferten Daten verschiedener Natur
selbst kann man als Auftrag ansehen, sich in
(I Abb. 8.1) verarbeiten im Hinblick auf sei-
bestimmter Weise zu verhalten. Bevor der Kli-
ne Hypothesen zu Z2, den Änderungsumstän-
ent dem Auftrag gemäß tätig wird, nämlich
den, zu Z1 und dessen Bedingungen sowie
antwortet, wird er bestimmte Speicher befra-
zum Situationskonzept beim Klienten. Dabei
gen, z. B. den Speicher „Gewissen“, in dem
muss er Wissen aus verschiedenen Speichern
seine Interessen gegenüber anderen, z. B. Psy-
(I Kap. 7) abrufen. Er muss ferner die Ergeb-
chologen, niedergelegt sind. Dieser Speicher
nisse dieser Verarbeitung speichern.
hat starken Einfluss auf das Situationskonzept
des Klienten. Zweitens muss er sich entsprechend der takti-
schen Planung des Gesprächs gegenüber dem
Die ersten verbalen und nonverbalen Reaktio- Klienten zweckmäßig verhalten.
nen, die der Klient unter dem Einfluss seines
Konzepts von der Befragungssituation mani- Aus der jeweiligen Datenanalyse muss er drit-
festiert, legen ihn im Hinblick auf sein wei- tens sofort Konsequenzen ziehen im Sinne der
teres Reagieren bis zu einem gewissen Maße strategischen Planung der Gesprächsführung,

217
8 Das Interview

d. h. er muss den Inhalt der nächsten Fragen Fragen halten. Auf Möglichkeiten und Pro-
festlegen. bleme einer derartigen Strukturierung eines
Interviews wird im folgenden Abschnitt näher
Neue Zielsetzungen, die aus dieser strategi- eingegangen.
schen Planung hervorgehen, müssen viertens
sofort in eine taktische Planung umgesetzt wer- Es fehlt dem Untersucher viertens an Mitteln
den. Es müssen sodann geeignete Fragefor- für die taktische Planung. So kann es ihm
mulierungen und offene Verhaltensweisen des etwa an Wissen (Änderungswissen aus Spei-
Untersuchers aus dieser Planung resultieren. cher 1 oder Bedingungswissen aus Speicher 3;
Das bedeutet, dass dasjenige Wissen, das bei I Kap. 7) darüber fehlen, durch welches Ver-
der taktischen Planung mitwirkte, stets präsent halten er im Klienten günstige bzw. ungünsti-
gehalten werden muss. ge Einstellungen induzieren kann. Er wird sich
vielleicht, ohne es zu wissen und zu wollen, zu
Der Untersucher muss schließlich sein offenes sehr als Autorität darstellen. Als Folge davon
Verhalten ständig kontrollieren, also mit der wird sich der Klient sehr einseitig verhalten,
taktischen Planung vergleichen. was wiederum den Untersucher zu falschen
Da hiermit natürlich sehr hohe Anforderungen Schlussfolgerungen verleitet. Der Untersucher
an den Untersucher gestellt werden, kann es zu kann die taktische Zielsetzung aber auch in sei-
verschiedenen Möglichkeiten des Versagens nem offenen Verhalten verfehlen, etwa weil er
kommen. bestimmte notwendige Verhaltensweisen (z. B.
zur Herstellung von Wärme und Vertrauen)
Der Befrager kommt erstens nicht mit bei der nicht in seinem Repertoire hat.
Datenverarbeitung, d. h. er kann das benötig-
te Wissen im Hinblick auf die Bildung von Weil der Untersucher sich fünftens auf die Aus-
Hypothesen nicht rasch und vollständig ge- wertung der vom Klienten produzierten Da-
nug abrufen. Dabei kann es auch passieren, ten konzentriert, mag er keine freie Kapazität
dass bereits Ausgewertetes zumindest zeitwei- mehr für die Kontrolle eigenen Verhaltens ha-
lig wieder verlorengeht. ben.

Der Untersucher verhält sich zweitens nicht Neben diesen spezifischen lassen sich noch
zweckmäßig. Er kann z. B. nach einer Frage einige allgemeinere Gesprächsfehler identifi-
nicht genügend abwarten, da er sich an den zieren, die sich jedoch durch ein Interviewer-
Zeitnormen orientiert, wie sie mit einer gewis- Training vermeiden lassen (Moscoso, 2000).1
sen Variationsbreite für alltägliche Unterhal- Dabei muss jedoch einschränkend darauf hin-
tungen gelten. Der Untersucher selbst hätte gewiesen werden, dass Fehler immer nur be-
hier also die Explorationssituation falsch ko- zogen auf die jeweilige taktische Planung be-
gniziert. gangen werden können.

Als Folge einer fehlenden strategischen Pla- Der Interviewer widmet den generellen Ein-
nung kommt es drittens zu einer mangelhaften stellungen und Erwartungen des Klienten im
taktischen Planung. Dem Untersucher fallen Hinblick auf Untersuchungssituationen zu we-
keine Fragen mehr ein oder er wiederholt sich, nig Aufmerksamkeit (etwa einem durchgängig
jedenfalls werden Pausen entstehen und die vorhandenen Misstrauen gegenüber allem, was
Exploration wird langsam in eine Unterhal- irgendwie nach „Amt“ aussieht). Damit kann
tung übergleiten, wobei der Befrager evtl. so- 1 Strobel und Westhoff (2009) haben in diesem Zusam-
gar die Führung verliert. Als Rettung mag er menhang ein Instrument zur Erfassung der Interviewer-
sich vielleicht an schematisch vorformulierte kompetenz entwickelt.

218
8.3 Strukturiertheitsgrad des Interviews

es am Anfang des Gesprächs zu einem ungüns- der taktischen Planung ist. Damit provoziert
tigen Situationskonzept beim Klienten kom- er ungünstige Kognizierungen durch den Kli-
men, das dann den gesamten weiteren Gang enten.
der Exploration negativ beeinflusst. Der Befra-
ger sollte darüber hinaus auch wissen, wie er
auf andere Menschen wirkt. 8.3 Strukturiertheitsgrad des
Der Untersucher schenkt der Wirkung sei- Interviews
nes Ausdrucksverhaltens zu wenig Beachtung.
Hierzu gehört auch die Kontrolle sog. para-
Als wesentlichen Unterschied zur Darbietung
verbaler (hörbare nonverbale Signale, z. B. ein
von etablierten Testverfahren und damit als
Räuspern) und nonverbaler Verhaltensaspekte
bedeutenden Vorzug des Interviews hatten wir
(Blickkontakt, Körperhaltung, Mimik, Gestik;
die größere Freiheit des Untersuchers bei der
vgl. auch Keßler, 1982).
taktischen Planung hervorgehoben. Der Unter-
Da das aktuelle Verhalten des Klienten stark sucher plant seine ersten Fragen in Überein-
durch die Fragen des Untersuchers gesteuert stimmung mit seinen Hypothesen, er wertet
wird, können hier allgemeinere Fehler auftre- die Antworten des Klienten im Hinblick auf
ten (I Kap. 10): diese Hypothesen aus und formuliert entspre-
chend die jeweils folgenden Fragen.
• Die Fragen enthalten unklare und mehrdeu-
tige Begriffe. Dies löst beim Klienten Ab- Durch diese Flexibilität steht das Interview al-
wehrprozesse aus („Angst vor Blamage“) so formal auf einer Ebene mit einer gesamten –
und führt zu nichtssagenden Antworten. hypothesengeleitet organisierten – Datenerhe-
• Fragen werden zu lang und zu kompliziert bung, wie wir sie in I Kap. 7 im Rahmen der
formuliert, der Klient kann sie also nicht sog. „diagnostischen Schleife“ kennengelernt
adäquat speichern. hatten. Die Idee der flexiblen, d. h. hypothesen-
• Es werden Suggestivfragen gestellt, durch geleiteten Befragung steht freilich im Konflikt
welche die Antworten des Klienten im We- mit dem Vorgehen nach einem vorstrukturier-
sentlichen schon festgelegt werden. ten Fragenschematismus. Im Sinne des darge-
stellten handlungstheoretischen Modells des
• Es werden „Warum“-Fragen gestellt, durch
Diagnostizierens wäre also die unstrukturier-
die beim Klienten meist nur oberflächliche
te Variante des Interviews das Verfahren der
Begründungen oder Rationalisierungen ab-
Wahl.
gerufen werden.
• Es werden Fragen formuliert, auf die man Diesem Vorzug steht nun allerdings, wie wir in
nur mit „ja“ oder „nein“ antworten kann. den folgenden Abschnitten noch genauer zei-
• Der Untersucher verzichtet darauf, nachzu- gen werden, als Mangel eine vergleichsweise
geringe psychometrische Qualität des unstruk-
prüfen, ob er eine Aussage des Befragten
turierten Vorgehens beim Interview gegenüber.
auch korrekt verstanden hat.
Diese Qualitätsmängel betreffen zunächst ein-
Ein allgemeiner Fehler in der Gesprächsfüh- mal die eingeschränkte Objektivität bei der
rung wäre es auch, wenn der Untersucher die Durchführung und Auswertung des Interviews.
Antworten des Klienten mit Kommentaren, Da jeder Untersucher an einen spezifischen
persönlichen Stellungnahmen und Wertungen „Fall“ natürlich mit etwas anderen Hypothesen
versieht, oder er gar Affekte kommuniziert. In herangeht, werden auch die Fragen und damit
jedem Fall verlässt der Untersucher damit die insgesamt die Durchführung der Exploration
Berufsrolle, die ja ein wesentlicher Bestandteil entsprechend variieren. Da ferner vermutlich

219
8 Das Interview

auch die Antworten des Klienten, je nach Hy- entfernt sich aber auch zugleich von der Vor-
pothesen, unterschiedlich ausgewertet werden, stellung einer hypothesengeleiteten Durchfüh-
wird dementsprechend auch die Auswertung rung.
des Interviews von Untersucher zu Untersu-
Den stärksten Grad der Strukturierung auf al-
cher variieren. Eine geringe Objektivität bei
len Ebenen hat die Befragung durch Einfüh-
der Durchführung und Auswertung einer Date-
rung des Computer-Interviews erfahren (sie-
nerhebung senkt aber wiederum die Werte für
he u. a. Farrell, 1993). Diese werden im kli-
die beiden anderen zentralen Testgütekriterien
nischen Bereich, insbesondere für psychia-
der Reliabilität und Validität (I Kap. 3).
trische Diagnosen (vgl. u. a. Erdman, Klein &
Greist, 1985), vorzugsweise aber zur Diagnos-
Zur Verbesserung der Qualität des Interviews
tik in Organisationen (u. a. Rosenfeld, Doherty,
wurden verschiedene Formen der Strukturie-
Vicino, Kantor & Greaves, 1989) eingesetzt.
rung entwickelt. Je nach Ebene unterscheidet
Keßler (1982) zwischen Strukturiertheit der Neben dieser Orientierung an mehr formalen
Befragung, des Antwortmodus und der Aus- Gesichtspunkten lässt sich aber auch eine ge-
wertung. wisse Strukturierung, die einer hypothesenge-
leiteten Befragung nicht unbedingt im Wege
Hinsichtlich der Befragung wird dabei zwi- steht, erreichen, wenn der Untersucher bei sei-
schen voll-, halb- und unstrukturiertem Vorge- nem Vorgehen bestimmte Interviewtechniken
hen differenziert. Ferner kann sich der Grad (vgl. z. B. Hersen & van Hasselt, 1998) reali-
der Strukturierung auf die Thematik oder auf siert. So wird der Befrager das Gespräch et-
die Abfolge der Fragen beziehen. Vollstruk- wa in bestimmte Phasen (Vorbereitung, Ein-
turierte Interviews sind hinsichtlich Wortlaut leitung, themenbezogene Fragen, Abschluss)
und Abfolge der Fragen genau festgelegt. Das gliedern. Er sollte dabei generell vom Allge-
halbstrukturierte Vorgehen folgt stichwortarti- meinen zum Speziellen und von eher neutralen
gen Vorgaben zu einzelnen Themen, während zu persönlicheren Inhalten übergehen. Ein Bei-
bei unstrukturierter Befragung höchstens ein- spiel für eine derartige Abfolge von teilweise
zelne Themen vorgegeben sind. standardisierten, teilweise frei geführten Ge-
sprächsteilen stellt das Multimodale Einstel-
Der Antwortmodus sollte eigentlich, der Idee lungsinterview von Schuler (1992) dar. Dane-
des Interviews folgend, „offen“, d. h. hinsicht- ben führt natürlich auch das Vermeiden der im
lich Art und Inhalt der Antwortformulierung vorigen Abschnitt beschriebenen allgemeine-
nicht beschränkt sein. Allerdings existieren ren Gesprächsfehler zu einer besseren Struk-
auch „geschlossene“ Formen, bei denen nur turierung der Befragung und erhöht damit die
kurze Bemerkungen möglich sind. Wahrscheinlichkeit, deren Validität zu erhö-
hen.
Eine Auswertung, die sich an zuvor formulier-
ten Hypothesen orientiert, wäre in dem Sinne
unstrukturiert, als die Gesichtspunkte, nach
8.4 Gütekriterien des Interviews
denen die Antworten im Hinblick auf weitere
diagnostische oder praktische Entscheidungen
bewertet werden, natürlich mit den jeweiligen Es ist offensichtlich, dass mit zunehmender
Hypothesen variieren. In dem Maße, wie zur Strukturierung des Interviews auch der Grad
Auswertung bestimmte Kategorien, Checklis- der Objektivität bei der Durchführung und
ten oder Ratingskalen (I Kap. 15) vorgege- Auswertung der Befragung steigt (Huffcutt &
ben werden, wird das Interview strukturierter, Culbertson, 2011). Damit erhöht sich natürlich

220
8.4 Gütekriterien des Interviews

auch die Reliabilität des Verfahrens. Dabei 1982). Eine interne Überprüfung befasst sich
stellt sich allerdings die Frage, wie denn über- mit der Konsistenz (d. h. Widerspruchsfrei-
haupt die Reliabilität des Messinstruments In- heit) der Aussagen innerhalb des Gesprächs
terview bestimmt werden soll. sowie mit deren Plausibilität. Bei der externen
Überprüfung werden weitere Daten zum ange-
Ein Vorschlag (z. B. Aiken, 1999) sieht vor, sprochenen Sachverhalt herangezogen. Hierzu
die Reliabilität dadurch zu bestimmen, dass können im Prinzip alle Vorgehensweisen ge-
die Auswertungen des Interviews (z. B. als Ra- wählt werden, die zur Validitätsbestimmung
tings) über mehrere Beurteiler miteinander ver- von Messinstrumenten zur Verfügung stehen
glichen werden. Die Übereinstimmung kann (I Kap. 3).
dabei Frage für Frage oder über das Gesamt-
gespräch bestimmt werden. Hier wird also Im Hinblick auf die prädiktive Validität des
Reliabilität als Auswertungsobjektivität (bzw. Interviews berichtet etwa Clum (1975a) über
Beurteilerübereinstimmung) bestimmt. Die re- Studien, bei denen im Interview erhobene Da-
gistrierten Werte hierzu sind allerdings nicht ten zu psychosozialen Merkmalen von Pati-
befriedigend. Selbst bei stark strukturierten In- enten (insbesondere der erlebten sozialen Un-
terviews, relativ spezifischen Fragen und gut terstützung) zur Vorhersage ihrer Anpassung
trainierten Beurteilern werden kaum Überein- nach einem Krankenhausaufenthalt herange-
stimmungen erzielt, die über .80 liegen (Aiken, zogen wurden. Gardner und Williams (1973)
1999). verglichen in einer ausgedehnten Längsschnitt-
Ferner wurde versucht, die Reliabilität als Sta- untersuchung die Bewährung von Marinean-
bilität zu bestimmen (Keßler, 1982). Hier ha- gehörigen mit Daten aus deren Einstellungs-
ben wir es allerdings mit mindestens zwei Pro- interviews. Die konkurrente Validität von In-
blemen zu tun. Zum einen muss gesichert wer- terviews lässt sich entsprechend durch die
den, dass es sich bei dem Inhalt, auf den die Korrelation der Interviewdaten mit aktuellen
Fragen zielen, um ein vergleichsweise stabiles Leistungsdaten oder den Scores aus relevan-
Merkmal handelt. Zum anderen dürfte es bei ten Testverfahren (z. B. Skalen des MMPI,
einer lebensecht durchgeführten Befragung – I Kap. 10) vergleichen (siehe u. a. Clum,
mehr noch als bei einem schriftlichen Test – 1975b).
ziemlich schwer sein, den Befragten dazu zu
motivieren, sich der gleichen – ja auch rechtBei unstrukturierten Interviews wird man hier
zeitaufwändigen – Exploration nochmals zu angesichts ihrer vergleichsweise niedrigen
unterziehen und sich dabei auch einigerma- Auswertungsobjektivität keine sonderlich gu-
ßen konsistent mit seinem Verhalten im ers- ten Validitätswerte erwarten dürfen (Reilly &
ten Interview zu zeigen (zumal ihm ja die ei-Chao, 1982; Schuler, 2002). So führten bei-
gentliche Zielsetzung der zweiten Befragung, spielsweise Hunter und Hunter (1984, vgl. Ta-
belle 8) eine Metaanalyse von 15 Studien zur
nämlich die Stabilitätsprüfung, nicht mitgeteilt
werden darf). Eine weitere Form der Reliabi- prädiktiven Validität von unstrukturierten Ein-
litätsprüfung, die Bestimmung der internen stellungsinterviews durch und fanden für das
Kriterium Vorgesetztenbeurteilung einen mitt-
Konsistenz, verbietet sich für das Interview an-
gesichts der notwendigen Heterogenität der leren Zusammenhang von .14. Für andere Kri-
Fragen und Interviewphasen. terien (z. B. Benotungen in Trainingskursen)
waren die Werte noch niedriger (für eine kriti-
Für die Bestimmung der Validität kann man sche Überprüfung dieser Analyse s. Huffcutt
zunächst zwischen explorationsinterner und und Arthur, 1994). Ähnlich unbedeutend ist
-externer Überprüfung unterscheiden (Keßler, die Validität von Interviews mit Studienbewer-

221
8 Das Interview

bern im Hinblick auf die spätere Studienleis- Interviews in Organisationen verfolgen die
tung (Trost, 1986). Ziele der Auswahl und Platzierung von Be-
werbern, der Beratung und Beurteilung von
Für strukturierte Einstellungsinterviews fan- Mitarbeitern, der Arbeitsanalyse, der Konflikt-
den sich dagegen höhere Validitätskoeffizien- lösung sowie der Organisationsentwicklung.
ten (zwischen .40 und .60; Huffcutt, Conway, Einstellungsinterviews dienen dabei nicht nur
Roth & Klehe, 2004; Latham & Sue-Chan, der Personalauslese, sondern wollen Bewerber
1999; Salgado & Moscoso, 2002; Wiesner & auch über das Unternehmen und die Arbeitstä-
Cronshaw, 1988; Übersichten u. a. bei Huff- tigkeit (einschließlich Regeln, Pflichten und
cutt & Culbertson, 2011; Westhoff & Strobel, Entlohnung) informieren sowie deren Erwar-
2011). Dabei hängt die Höhe der Validität al- tungen an den Arbeitsplatz eruieren. Daneben
lerdings von einer Reihe von Rahmenbedin- lässt sich das Interview auch in Form der Mit-
gungen ab, etwa der Art der Fragen (retrospek- arbeiterbefragung (Borg, 2000) zur strategi-
tive, biografiebezogene Fragen haben eine hö- schen und operativen Planung und Durchfüh-
here Validität als zukunftsorientierte Fragen, rung von Unternehmensprojekten einsetzen.
Huffcutt et al., 2004), der Komplexität des Kri- (Zu Interviews in Organisationen sowie zur
teriums (Schuler, 2002) oder der Qualität der organisationspsychologischen Diagnostik all-
zu besetzenden Stelle (Sarges, 2013a). gemein I Kap. 14.)
Inzwischen wurden für alle Bereiche, in de-
nen Befragungen überhaupt durchgeführt wer-
8.5 Arten von Interviews den können, mehr oder weniger strukturier-
te Interviews entwickelt. (Übersichten für die
Klinische Psychologie finden sich in Strauß
Grundsätzlich lassen sich zwei große Gruppen und Schumacher, 2005, für die Organisations-
von Interviews unterscheiden: das klinische psychologie in Eder und Ferris, 1989, Sarges,
Interview und das Interview im Rahmen orga- 2013b, Westhoff, 2013, Westhoff & Strobel,
nisationeller Aufgabenstellungen, wobei hier 2011, sowie Schuler, 2002.) Keßler (1982) un-
das Einstellungsinterview (Schuler, 2002) do- terscheidet dabei die folgenden Formen der
miniert. Strukturierung:
Eine zentrale Einsatzmöglichkeit des klini- Beim strukturierten Interview sind die Fragen
schen Interviews liegt in der Anamnese, al- vorformuliert, die Antworten des Klienten sind
so der Erhebung der Vorgeschichte eines Pro- meistens frei, gelegentlich ebenfalls struktu-
blems. Daneben können Befragungen als sog. riert. Die Auswertungen können, müssen aber
therapeutische Interviews aber auch prozess- nicht bestimmten Vorgaben folgen.
begleitend eingesetzt werden. Im Sinne des
in I Kap. 7 dargestellten diagnostischen Ar- Bei Interviewleitfäden mit präkodierten Items
beitsflusses haben wir es hier also mit der dia- stellt der Untersucher die Fragen nach stich-
gnostischen Prüfung des Ablaufs der prakti- wortartigen oder völlig strukturierten Vorga-
schen Phase zu tun (I Abb. 7.2, S. 194). Eine ben und der Klient antwortet entweder frei,
dritte Möglichkeit stellt schließlich das End- halbstrukturiert oder vollstrukturiert (z. B. mit
interview zum Abschluss einer Modifikation „Ja“ oder „Nein“). Diese Antworten werden
dar. Im Endinterview wird geprüft, ob das Ziel- nach vorgegebenen Ratingskalen oder Ant-
kriterium erreicht wurde. (Zu klinischen Inter- wortkategorien bewertet. Haupteinsatzgebiet
views sowie zur klinischen Diagnostik allge- dieser Befragungsform ist das klinische, ins-
mein I Kap. 15.) besondere psychiatrische Interview.

222
8.6 Bewertung der Datenerhebungsmethode Interview

Weniger strikten Vorgaben folgt das unstruk- bauen auf Kategorien der beiden großen in-
turierte Interview mit Ratings. Hier verläuft ternationalen Systeme zur Klassifikation psy-
die eigentliche Befragung unstrukturiert, die chischer Störungen auf, dem Diagnostic and
anschließende Auswertung der erhaltenen In- Statistical Manual of Mental Disorders (DSM;
formation erfolgt aber auf oft sehr detaillierten
APA, 2000) bzw. der International Statisti-
Ratingskalen. cal Classification of Diseases (ICD; WHO,
1993a). Einzelheiten zu DSM und ICD sowie
Frageschemata sind teilstrukturierte Formen den darauf aufbauenden Verfahren werden in
des Interviews. Leitfäden zu einzelnen Inhal- I Kap. 15 dargestellt.
ten oder auch nur Themenbereichen bilden
Gedächtnisstützen hinsichtlich der zu erfra-
genden Information. Dementsprechend ist die
Abfolge der zu besprechenden Themen meist
8.6 Bewertung der
auch freigestellt. Datenerhebungsmethode
Interview
Eines der ersten strukturierten, noch heute
verwendeten Verfahren im Bereich der klini-
Bei der Bewertung der Interviewmethode
schen (speziell psychiatrischen) Interviews ist
muss man zunächst einmal zwischen struktu-
das Present State Examination (PSE; Wing,
rierten und unstrukturierten Vorgehensweisen
Cooper & Sartorius, 1974; deutsche Bear-
unterscheiden. Unser kurzer Überblick hatte
beitung durch von Cranach, 1978). Die Fra-
deutlich gemacht, dass die unstrukturierte Be-
gen zielen u. a. auf die Bereiche körperliche
fragung, wenn man sie als eigenständige Da-
Gesundheit, Konzentration, depressive Ver-
tenerhebungsmethode betrachtet, auf die sich
stimmtheit, Wahnvorstellungen sowie Verhal-
praktisches Handeln (z. B. eine Einstellungs-
ten während der Befragung. Die erhaltenen
entscheidung) gründen soll, eine unzureichen-
Informationen werden nach sehr umfangrei-
de psychometrische Qualität aufweist.
chen vorgegebenen Symptom-Checklisten aus-
gewertet. Einen der wesentlichen Gründe hatten wir
schon im Zusammenhang mit der Beschrei-
Eher retrospektiv orientiert ist das Biographi- bung des Prozesses der Befragung kennenge-
cal Personality Interview (von Zerssen, Bar- lernt. Der Erfolg einer Exploration im Sinne
thelmes et al., 1998; von Zerssen, Possl et al., der Gewinnung von Daten, die für die weite-
1998), das prämorbide Persönlichkeitsmerk- re Bearbeitung des „Falles“ brauchbar sind,
male (z. B. den „melancholischen Typ“) erfas- hängt ganz wesentlich von der Formulierung
sen soll. Eine Besonderheit dieses Verfahrens expliziter Hypothesen ab, die den Ablauf der
stellt die Art der Durchführung dar: Von zwei Befragung steuern. Wenn man einmal unter-
voneinander unabhängigen Untersuchern, die stellt, dass viele Untersucher bei ihrer Befra-
beide keine Vorkenntnisse über weitere Daten gung nur von relativ vagen Hypothesen ausge-
und Diagnosen des Klienten besitzen, führt hen, dann wird man auch nur eine mangelhafte
einer das strukturierte Interview durch und taktische Planung des Gesprächs als Folge des
fertigt das Protokoll an, während der andere Fehlens einer strategischen Planung erwarten
die Auswertung nach deskriptiven Items vor- können. Mangelhafte Taktik führt aber zum
nimmt. Stellen vieler überflüssiger und u. U. auch zum
Vergessen wichtiger Fragen.
Auch zu speziellen klinischen Fragestellun-
gen wurden, halb- oder vollstrukturierte, In- In jedem Fall wird der Interviewer am Ende
terviews entwickelt. Viele dieser Interviews der Befragung vor der (kaum zu lösenden)

223
8 Das Interview

Aufgabe stehen, viele vergleichsweise theo- Verglichen mit unstrukturierten Befragungen


rielos gewonnene Informationseinheiten zu ei- haben stärker strukturiert durchgeführte In-
nem Gesamturteil zu integrieren. Es ist nahe- terviews schon eher den Charakter eigenstän-
liegend, dass er hierbei auf die in I Kap. 5 diger Datenerhebungen, die u. a. direkt zu
dargestellte „klinische“ Methode der Datenin- praktischen Entscheidungen führen können.
tegration mit ihrer weitgehend intuitiven Form Dementsprechend müssen sie sich auch an den
der Kombination und Gewichtung zurückgrei- Gütekriterien etablierter Testverfahren messen
fen wird. lassen. Hier weisen nun alle neueren kritischen
Übersichten eine generell zufriedenstellende
Hinzu kommt, dass bei Durchführung und psychometrische Qualität nach. Es stellt sich
Auswertung des Interviews auch mit dem (vali- jedoch die Frage, was eine hochstrukturier-
ditätsmindernden) Einfluss spezieller Faktoren te Befragung eigentlich noch zu tun hat mit
gerechnet werden muss. In erster Linie wäre der ursprünglichen Idee des Interviews als ei-
dabei mit den folgenden Einflussgrößen zu ner sehr flexiblen Form der Datenerhebung,
rechnen (vgl. auch Keßler, 1982): Vorinforma- bei der der Untersucher seine nächstfolgende
tionen des Befragers (z. B. zur Schichtzugehö- Frage direkt an der Auswertung der unmittel-
rigkeit oder zu klinischen Diagnosen), Kon- bar zuvor erhaltenen Information orientieren
trasteffekte (z. B. die Nachwirkung eines über- kann. Tatsächlich gleichen strukturierte Inter-
durchschnittlich kompetenten Bewerbers auf views eher normalen Testverfahren (insbeson-
die Beurteilung eines „durchschnittlichen“ Be- dere Fragebogen) zur Beschaffung von subjek-
werbers im direkt darauf folgenden Interview), tiven Daten (I Kap. 10) als „traditionellen“
Sequenzeffekte (d. h. die Wirkung des „ersten Interviews.
Eindrucks“ auf den weiteren Ablauf der Be-
fragung), Halo-Effekt, Sympathieeffekte (z. B. Eine gewisse Wiederannäherung der stärker
bedingt durch die wahrgenommene Attraktivi- strukturierten Verfahren an die Zielsetzungen
tät des Interviewten) sowie Interviewerverhal- der unstrukturierten Befragung könnte sich
ten und -stil (z. B. Variationen auf den Dimen- evtl. durch die vermehrte Verwendung compu-
sionen lenkend oder warm – kalt). tergestützter Explorationsverfahren ergeben.
Diese Verfahren folgen in der Regel dem
Das unstrukturiert durchgeführte Interview ist Grundgedanken des antwortabhängigen Tes-
also nur dann ein brauchbares Instrument der tens (I Kap. 6), d. h. sie realisieren Strategien
Datengewinnung, wenn es hypothesengeleitet des adaptiven und sequenziellen Testens, die
durchgeführt wird. Dabei wird es aber nicht flexibel am individuellen Fall orientiert sind
in erster Linie der Gewinnung von Daten die- (siehe z. B. Krieger, 1997).
nen können, aus denen sich dann bereits prak-
tische Entscheidungen im Sinne der „prakti-
schen Phase“ des in I Kap. 7 beschriebenen
Handlungsmodells herleiten lassen (etwa eine Weiterführende Literatur
Personalauslese oder die Planung einer Modi-
fikation). Vielmehr sollte die unstrukturierte
Exploration im Sinne dieses Handlungsmo- Eine Einführung in das Interview bietet Keßler
dells in erster Linie eingesetzt werden, um (1982). Für die organisationspsychologische
Hypothesen, die auf Grund der bislang vorlie- Diagnostik, speziell das Einstellungsinterview,
genden Daten formuliert wurden, zu prüfen geben Sarges (2013a), Schuler (2002) sowie
und sodann die weitere, dann weitgehend test- Westhoff und Strobel (2011) praktische Hin-
basierte Datenerhebung zu planen. weise, während das Handbuch von Eder und

224
8.6 Bewertung der Datenerhebungsmethode Interview

Ferris (1989) einen Überblick über theoreti- 2. Welche Aufgaben muss der Untersucher in
sche, forschungsbezogene und praktische Fra- einer Exploration bewältigen?
gestellungen liefert. Verschiedene Interviews 3. Welche allgemeinen Gesprächsfehler lassen
und Checklisten im Rahmen der klinischen sich identifizieren?
Diagnostik werden in Strauß und Schumacher 4. Welche Vor- und Nachteile bestehen bei ei-
(2005) vorgestellt. nem unstrukturierten Interview?
5. Welche verschiedenen Formen der Struktu-
rierung gibt es beim Interview?
Fragen zur Wissenskontrolle 6. Welches sind die Hauptanwendungsgebiete
des Interviews?

1. Welche Beziehungen bestehen zwischen


den Begriffen Interview, Exploration und
Anamnese?

225
9 Verfahren zur Beschaffung von L-Daten

9.1 Verhaltensbeobachtung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227


9.1.1 Einteilungsgesichtspunkte . . . . . . . . . . . . . . . . . . . . . . . . 228
9.1.2 Stichprobenplan und Beobachtungssystem . . . . . . . . . . . . . . . 230
9.1.3 Segmentierung des Verhaltensstroms . . . . . . . . . . . . . . . . . . 231
9.1.4 Klassifikation des Verhaltens . . . . . . . . . . . . . . . . . . . . . . . 233
9.1.5 Ratingverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
9.1.6 Sequenzielle Analysen . . . . . . . . . . . . . . . . . . . . . . . . . . 236
9.2 Verhaltensbeurteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
9.2.1 Beobachtung und Beurteilung . . . . . . . . . . . . . . . . . . . . . . 240
9.2.2 Formen systematischer Verhaltensbeurteilung . . . . . . . . . . . . . . 240
9.3 Gütekriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
9.3.1 Fehlerquellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
9.3.2 Objektivität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
9.3.3 Reliabilität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
9.3.4 Validität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
9.4 Beitrag zu praktisch-diagnostischen Fragen . . . . . . . . . . . . . . . . . . 250

Life record- oder kurz: L-Daten stammen im im Experiment) Beobachtung involviert. In


Wesentlichen aus zwei Quellen. Zum einen Test und Experiment sind jedoch die situativen
umfassen sie objektive Lebensdaten (etwa Ge- Bedingungen sowie die Reaktionsanforderun-
schwisterzahl, Beruf, Einkommen, Krankhei- gen und -möglichkeiten genau fixiert. Meist
ten während der letzten fünf Jahre), zum ande- werden hier nur sehr kleine Verhaltensaus-
ren resultieren sie aus Fremdbeobachtungen schnitte aufgezeichnet (z. B. Reaktionszeiten
bzw. Fremdbeurteilungen (z. B. durch Psycho- auf bestimmte Reizkonfigurationen).
logen, Lehrer, Vorgesetzte). In der Diagnostik
Bei der Verhaltensbeobachtung als eigen-
interessiert in besonderem Maße die zweite
ständigem Datenerhebungsverfahren besitzen
Datenquelle, auf die wir uns im vorliegenden
die Probanden dagegen einen ausgesprochen
Kapitel konzentrieren.
großen Gestaltungsspielraum, was dazu führt,
Wir befassen uns dabei mit der Beobachtung dass viele sehr verschiedenartige Verhaltens-
als eigenständiger Zugangsweise zum Verhal- weisen auftreten und registriert werden kön-
ten. Die Qualifikation „eigenständig“ soll her- nen. Entsprechend sind hier die Anforderun-
vorheben, dass jede Form psychologischer Da- gen an die Beobachter deutlich höher als beim
tenerhebung (etwa über Fragebogen, Test oder Testen oder Experimentieren.

226
9.1 Verhaltensbeobachtung

Beobachtungsverfahren besitzen in der psy- zugänglich. Dies drückt sich u. a. darin aus,
chologischen Diagnostik wesentliche Funktio- dass viele Menschen mehr oder weniger über-
nen. Zunächst versprechen Daten aus Beob- rascht sind, wenn sie mit einer längeren Vi-
achtungen einen direkteren Zugang zum Ver- deosequenz konfrontiert werden, die sie selbst
halten als Daten, die aus Befragungen (etwa „in Aktion“ zeigt. Die Diskrepanz zwischen
Interview oder Fragebogen) stammen. Wie im Selbst- und Fremdperspektive ist ein zentrales
vorhergehenden Kapitel betont wurde, basie- Thema der psychologischen Grundlagenfor-
ren Auskünfte der Probanden häufig auf Ko- schung (siehe z. B. Heckhausen, 1980).
gnitionen über Sachverhalte, die ihr Leben be-
Ein zweiter wichtiger Grund für den Einsatz
treffen. Diesen Sachverhalten gegenüber neh-
der Beobachtungsmethode liegt in der Mög-
men sie nicht die Rolle eines distanzierten Au-
lichkeit, über einen längeren Zeitraum hinweg
ßenstehenden ein. In ihren Wahrnehmungen
viele verschiedene Verhaltensweisen, die auch
und Aussagen spiegeln sich vielmehr die Per-
von verschiedenen Personen ausgehen können,
spektiven aktiv Beteiligter, die Information im
simultan zu erheben. Vor allem zur Analyse
Hinblick auf ihre Bedürfnisse und Ziele be-
von Interaktionen zwischen Personen stellen
werten, selektieren und integrieren.
Beobachtungsverfahren den Zugang der Wahl
Auch die Mitteilungen in der diagnostischen dar.
Untersuchungssituation werden von den Pro- Der Schwerpunkt dieses Kapitels wird auf
banden im Hinblick auf ihre jeweils aktuel- der systematischen Verhaltensbeobachtung als
len Anliegen und Ziele geplant und gesteuert diagnostischer Methode liegen, die im ersten
(I Kap. 7). Hierbei geht es insbesondere um Abschnitt genauer beschrieben wird. L-Daten
Strategien, die festlegen, was eine Person dem können auch durch Verhaltensbeurteilung ge-
Untersucher über evtl. sehr intime Verhaltens- wonnen werden, auf die wir im zweiten Ab-
bereiche anvertrauen will und was nicht. Es schnitt eingehen. Im dritten Abschnitt werden
ist daher nicht erstaunlich, dass verschiede- Spezifika bei der Bestimmung und Bewertung
ne Personen, die den gleichen Sachverhalt be- der Objektivität, Reliabilität und Validität von
schreiben sollen, häufig nicht sonderlich hoch Fremdbeobachtungen und -beurteilungen dis-
übereinstimmen. Derartige Diskrepanzen fin- kutiert. Zum Abschluss weisen wir auf den
det man etwa für Eigenschafts- und Verhaltens- Beitrag von Beobachtungsverfahren zur Be-
beschreibungen, die bei Partnern oder engen antwortung praktisch-diagnostischer Fragen
Bekannten erhoben werden, oder für die Beur- hin.
teilung des Erziehungsverhaltens durch Eltern
und Kinder (z. B. Helmke & Kischkel, 1980;
Schwarz, Barton-Henry & Pruzinsky, 1985).
9.1 Verhaltensbeobachtung
Durch Verhaltensbeobachtung sollen Daten
gewonnen werden, die von den spezifischen
Beobachten bedeutet, ausgewählte Ereignisse
Wahrnehmungs-, Urteils- und Darstellungsten-
für einen bestimmten Zeitraum gezielt wahr-
denzen der betroffenen Personen frei sind.
zunehmen und in ihrem Ablauf zu verfolgen.
Die angesprochenen Divergenzen zwischen In diesem weiten Sinn wird im Rahmen dia-
Selbst- und Fremdbeschreibung sind nur zu gnostischer Untersuchungen fast kontinuier-
einem Teil als Ausdruck strategischer Selbst- lich beobachtet. Viele Beobachtungen fallen
darstellung zu verstehen. Viele manifeste Ver- dabei gewissermaßen „von selbst“ an, z. B. bei
haltensweisen einer Person, die auf deren In- der Durchführung eines Intelligenztests. Ob-
teraktionspartner wirken, sind der Selbstbeob- wohl solche Beobachtungen diagnostisch auf-
achtung und -reflexion nicht oder nur indirekt schlussreich sein können, etwa im Hinblick

227
9 Verfahren zur Beschaffung von L-Daten

auf die Frage, wie eine Person mit einer selbst- die Objektivität der Daten gewährleisten sol-
wertrelevanten Situation umgeht, besitzen sie len. Die Güte der Datenerhebung wird kontrol-
doch einen eher informellen Charakter. Wir liert. Schließlich wird meist eine quantifizie-
konzentrieren uns in diesem Kapitel auf For- rende Verhaltensbeschreibung angestrebt.
men der Beobachtung, in denen Situationen
zu Beobachtungszwecken gezielt aufgesucht Ein zweiter wichtiger Einteilungsgesichts-
oder hergestellt werden. punkt besteht im Ausmaß der Kontrolle, Struk-
turierung oder Standardisierung der Beobach-
tungssituation. In einem Extremfall wird kei-
9.1.1 Einteilungsgesichtspunkte nerlei Kontrolle ausgeübt. Die Ereignisse wer-
den hier vollständig ihrem „natürlichen Lauf“
Beobachtungsverfahren lassen sich nach einer überlassen. Diese Form der Beobachtung heißt
Reihe von Kriterien einteilen. Wir beschrei- daher naturalistische Beobachtung. Sie wird
ben kurz vier fundamentale Klassifikationsge- typischerweise im normalen Umfeld der zu
sichtspunkte: beobachtenden Personen durchgeführt (sog.
Feldbeobachtung). Ihr Ziel ist es, ein mög-
1. freie vs. systematische Beobachtung,
lichst realistisches, ökologisch valides Bild
2. Ausmaß der Kontrolle und Strukturierung,
des Verhaltens und seines situativen Kontexts
3. Beobachtung in vivo vs. Beobachtung auf
zu gewinnen. Auch hierfür liefert die gera-
der Basis von Aufzeichnungen,
de angeführte Sozialpsychologin ein Beispiel.
4. Grad der Teilnahme des Beobachters am
Ein weiteres Beispiel wäre ein Erziehungsbe-
aufzuzeichnenden Geschehen.
rater, der einen unangekündigten abendlichen
Die freie oder unsystematische Beobachtung Hausbesuch bei einem seiner Klienten macht,
gleicht der Alltagsbeobachtung. Sie unter- um einen Eindruck von der familialen Interak-
scheidet sich von ihr primär im Ziel, das auf tion zu gewinnen.
wissenschaftlichen Erkenntnisgewinn gerich-
Bei der reinen Form der naturalistischen Beob-
tet ist. Freie Beobachtung wird häufig zur ers-
ten Erkundung noch unbekannter Handlungs- achtung werden weder die auftretenden Um-
felder eingesetzt. Eine Sozialpsychologin, dieweltereignisse noch die Verhaltensmöglichkei-
am Datingverhalten bayerischer Jugendlicher ten der zu beobachtenden Personen in irgendei-
interessiert ist, und für ihre Forschung z. B.ner Weise beeinflusst oder eingeschränkt. An-
Tanzkurse, Open-Air-Konzerte, Badestrände ders ist dies bei der kontrollierten Verhaltens-
und Biergärten aufsucht, würde zunächst ein- beobachtung, wie man sie in ihrer ausgepräg-
mal frei beobachten, um erste Hypothesen testen Form beim Experimentieren und Testen
für eine geeignete Strukturierung ihres Gegen-vorfindet. Kontrolle betrifft hier (a) die situati-
stands zu gewinnen. Freie Beobachtung wird ven Rahmenbedingungen, (b) die Art und Ab-
häufig zur Vorbereitung systematischerer For- folge der Ereignisse (Reize, Items), mit denen
men der Datenerhebung eingesetzt. die Personen konfrontiert werden, und (c) die
Verhaltens- oder Antwortoptionen, die ihnen
Die systematische Beobachtung entfernt sich jeweils offen stehen.
deutlich von der Beobachtung im Alltag. Auf-
zeichnung und Auswertung erfolgen hier nach Wird Verhaltensbeobachtung als eigenständi-
einem genau bestimmten Plan. Es wird dabei ge Methode eingesetzt, ist das Ausmaß rea-
vorab festgelegt, wo, wann, was beobachtet lisierter Kontrolle sehr viel geringer als in
bzw. registriert wird und wie die anfallenden Experiment oder Test. Häufig begnügt man
Daten anschließend auszuwerten sind. Dar- sich damit, einen situativen Rahmen herzu-
über hinaus werden Maßnahmen ergriffen, die stellen, dessen konkrete Ausgestaltung dann

228
9.1 Verhaltensbeobachtung

den zu beobachtenden Personen überlassen getrennten Durchläufen kodiert werden (siehe


bleibt. Derartige Beobachtungen werden übli- unten).
cherweise im Forschungslabor oder in der psy-
chologischen Praxis durchgeführt (Laborbeob- Ein vierter zentraler Gesichtspunkt ist die
achtung). Zur Erfassung manifester Angstre- Beteiligung der Beobachter am aufzuzeich-
aktionen in potenziell selbstwertbedrohlichen nenden Geschehen. Hier kann zwischen (a)
Situationen könnte man z. B. Personen vor aktiv-teilnehmender, (b) passiv-teilnehmender
laufender Kamera einen freien Vortrag über und (c) nichtteilnehmender Beobachtung un-
ein schwieriges Thema halten lassen. Der Vor- terschieden werden.
teil standardisierter Beobachtungssituationen Bei der aktiv-teilnehmenden Beobachtung mi-
gegenüber naturalistischen Feldbeobachtun- schen sich die Beobachter direkt in das Ge-
gen liegt darin, dass das Verhalten verschiede- schehen ein. Sie sind ein Teil des Geschehens,
ner Personen besser verglichen werden kann. interagieren also mit den zu beobachtenden
Für die Analyse interindividueller Differen- Personen. Teilnehmende Beobachtung ist cha-
zen ist Standardisierung zentral. Dafür müs- rakteristisch für das Interview; auch in sozial-
sen jedoch Einbußen an Realitätsnähe in Kauf psychologischen Experimenten wird sie gerne
genommen werden. eingesetzt. Im Rahmen systematischer Beob-
Beobachtung und Registrierung können in vi- achtung wird diese Form jedoch kaum verwen-
vo (also während sich die interessierenden det, da der Ablauf des Geschehens stark vom
Ereignisse aktuell abspielen) oder nachträg- Verhalten der jeweiligen Beobachter geprägt
lich auf der Basis von Audio- und Videoauf- wird. Darüber hinaus dürfte die aktive Beteili-
zeichnungen vorgenommen werden. In vivo- gung die Objektivität der Verhaltensaufzeich-
Beobachtung kann erhebliche Anforderungen nung beeinträchtigen, zumal die Registrierung
an die Beobachter stellen, da Beobachtung und zumeist retrospektiv („im Rückblick“, also in
Registrierung fast simultan erfolgen müssen. mehr oder weniger großer zeitlicher Distanz
Während des Registriervorgangs können evtl. zum Geschehen) vorgenommen werden muss.
interessierende Ereignisse unbemerkt bleiben. Als Vorteil aktiv-teilnehmender Beobachtung
Dieses Problem kann gemildert werden, wenn gilt die intime Sachkenntnis, die sich Beob-
mehrere Beobachter zur Verfügung stehen, achter über den interessierenden Verhaltensbe-
die sich jeweils auf unterschiedliche, eng um- reich verschaffen können.
grenzte Aspekte konzentrieren.
In einer zweiten Form, der passiv-teilnehmen-
Liegen Videoaufzeichnungen vor, lassen sich den Beobachtung, ist der Beobachter zwar an-
Beobachtung und Registrierung zeitlich sepa- wesend, greift aber nicht aktiv in das Gesche-
rieren. Die Aufnahme kann hier bei Auftreten hen ein. Für die Wirkung auf das Verhalten der
interessierender Ereignisse oder nach kurzen beobachteten Personen ist es dabei wichtig,
Intervallen angehalten werden, um den Beob- ob sie über die Beobachtung informiert sind
achtern eine Pause für die Registrierung des und ob die Aufzeichnung selbst für die Perso-
Verhaltens zu geben. Zudem können Sequen- nen wahrnehmbar ist. Im ersten Fall werden
zen bei Unklarheiten wiederholt abgespielt sie sich (besonders am Anfang der Beobach-
werden. Dies ist vor allem im Rahmen des Be- tungsperiode) stärker zu kontrollieren versu-
obachtertrainings vorteilhaft. Schließlich kön- chen, als wenn sie sich unbeobachtet fühlen.
nen Beobachtungssysteme bzw. Kodiersche- Im zweiten Fall werden sie evtl. kontinuier-
mata relativ einfach und handhabbar gehalten lich daran erinnert, dass sie beobachtet wer-
werden, indem komplexere Verhaltensweisen den, was von vielen Personen als irritierend
in einzelne Bestandteile zerlegt werden, die in empfunden wird.

229
9 Verfahren zur Beschaffung von L-Daten

Aus diagnostischer Sicht stellt eine dritte zeitlichen Intervalle (Pausen) zwischen zwei
Form, die nichtteilnehmende, verdeckte Be- Protokollterminen. Damit ist dann auch der ge-
obachtung, die vollkommen ohne Wissen der samte Beobachtungszeitraum festgelegt. Die
beobachteten Personen vorgenommen wird, Wahl dieser Größen muss jeweils an Art und
den Idealfall dar. Angesichts der zunehmen- Auftretenscharakteristik der interessierenden
den Miniaturisierung der Video- und Audio- Verhaltensweisen angepasst werden.
technik lässt sich diese Form auch im Rahmen
naturalistischer Beobachtung ohne Schwierig- In einem Zeitstichprobenplan wird vorab fest-
keiten realisieren. Verdeckte Beobachtung kol- gelegt, zu welchen Zeitpunkten Verhalten re-
lidiert jedoch mit rechtlichen und forschungs- gistriert wird. Bei einem Ereignisstichproben-
ethischen Normen, die eine informierte Einwil- plan sind diese Zeitpunkte dagegen variabel.
ligung der Probanden fordern. Im Rahmen von Hier wird erst protokolliert, wenn ein vorher
Laboruntersuchungen erscheint es vertretbar, definiertes kritisches Ereignis eintritt, z. B. ein
die Einwilligung nach der Aufzeichnung zu Streit in einer Kindergruppe. Dies setzt eine
erbitten, verbunden mit der Option, die regis- Dauerbeobachtung im Hinblick auf das Ein-
trierten Daten sofort zu löschen. Im Rahmen treten kritischer Ereignisse während des ge-
von Feldbeobachtungen wird das Einholen ei- samten Beobachtungszeitraums voraus. Die
ner nachträglichen Einwilligung nicht immer Beobachtungsperiode kann hier zeitlich oder
möglich sein. durch ein bestimmtes Ereignis (z. B. der Streit
löst sich auf) definiert sein.

Zeitstichprobenpläne eignen sich besonders,


9.1.2 Stichprobenplan und wenn Verhalten relativ umfassend und reprä-
Beobachtungssystem sentativ aufgezeichnet werden soll. Sie wer-
den vor allem für die Untersuchung grundwis-
Durch systematische Beobachtung, auf die wir senschaftlicher Forschungsfragen eingesetzt.
uns im Folgenden konzentrieren, kann Infor- Ereignisstichprobenpläne finden sich häufiger
mation über Art, Häufigkeit und zeitliche Er- bei angewandten Fragestellungen, z. B. in der
streckung des Verhaltens von Personen oder Klinischen Psychologie. Sie werden einge-
Gruppen gewonnen werden. Darüber hinaus setzt, wenn von vorneherein nur ausgewählte
können Muster von Verhaltensabfolgen und Verhaltensaspekte interessieren, die unter eng
situative Bedingungen des Verhaltens aufge- umgrenzten situativen Bedingungen auftreten.
deckt werden.
Neben den Rahmenbedingungen muss die Art
Für die Gewinnung solcher Informationen
der Beobachtungsdurchführung festgelegt wer-
müssen zunächst die äußeren Rahmenbedin-
den. Hierbei lassen sich zwei Vorgehenswei-
gungen der Beobachtung festgelegt werden.
sen unterscheiden (Mees, 1977). Bei der iso-
Hierfür wird ein Stichprobenplan aufgestellt.
morphen Beschreibung wird versucht, das zu
In ihm wird geregelt, wann Verhaltensstich-
beobachtende Verhalten möglichst vollständig
proben gezogen werden. Dabei kann zwischen
(isomorph, also um Sinne einer umkehrbar ein-
Zeit- und Ereignisstichproben differenziert
deutigen Abbildung) wiederzugeben. Ein Bei-
werden (Pawlik & Buse, 1996).
spiel ist das Verlaufsprotokoll („specimen re-
Ein Zeitstichprobenplan spezifiziert die Proto- cord“). Dabei soll der Beobachter alles, was er
kolltermine (zu welchen Zeitpunkten wird be- in einer bestimmten Periode an einer Person
obachtet bzw. registriert?), die jeweilige Beob- beobachtet, in der Alltagssprache beschreiben.
achtungsperiode (= Beobachtungsfenster; wie Diese Beobachtung ist so detailliert, dass bei-
lange wird pro Termin beobachtet?) sowie die spielsweise die Aufzeichnung eines einzigen

230
9.1 Verhaltensbeobachtung

Tagesablaufs bei einem Jungen ein Buch füllt Kode Definition


(Barker & Wright, 1951, „One boy’s day“). Da 0 Keiner blickt in die Richtung der
hier eine freie Beschreibung des Verhaltens Augen des anderen
stattfindet, haben wir es nicht mit einer sys- 1 A blickt B an, B aber nicht A
tematischen Verhaltensbeobachtung im oben
2 B blickt A an, A aber nicht B
definierten Sinne zu tun.
3 Blickkontakt, A und B blicken sich
Bei den Verfahren der reduktiven Beschrei- gegenseitig an
bung wird dagegen kein Versuch unternom-
men, das Geschehen umfassend und vollstän-
dig zu protokollieren. Stattdessen reduziert Bei komplexeren Systemen werden die Re-
man die Registrierung auf bestimmte interes- geln in einem Kodiermanual festgehalten. Das
sierende Aspekte oder fasst einzelne Verhal- Kodiermanual enthält explizite Definitionen
tensweisen in größeren Verhaltensklassen zu- der einzelnen Kodes sowie Beispiele und Ge-
sammen. Wir konzentrieren uns im Folgenden genbeispiele, die deren Anwendung erläu-
auf die zweite Form. tern. Darüber hinaus wird hier die technische
Durchführung der Beobachtung geregelt. Ge-
Die Durchführung der Beobachtung geschieht
nerell ergeben sich bei der Erstellung eines
hier mit Hilfe eines Beobachtungssystems bzw.
Beobachtungssystems zwei Aufgaben: die Seg-
Kodierschemas, das angibt, was genau regis-
mentierung des Verhaltensstroms und die Klas-
triert werden soll und in welcher Form dies zu
sifikation der hieraus resultierenden Einheiten
geschehen hat (Faßnacht, 1995).
(Bakeman & Gottman, 1986).

Definition: Beobachtungssystem

Unter einem Beobachtungssystem oder Ko-


9.1.3 Segmentierung des
dierschema versteht man eine Menge von
Regeln, die spezifizieren, welche Verhal- Verhaltensstroms
tensaspekte jeweils beachtet und registriert
werden müssen.
Die Segmentierung betrifft die Aufteilung der
Beobachtungsperiode in einzelne Beobach-
Beobachtungssysteme stellen also die Mess- tungseinheiten. Unter Beobachtungseinheiten
instrumente der Verhaltensbeobachtung dar. werden zeitlich oder inhaltlich definierte Ab-
Im Wesentlichen bestehen diese Instrumente schnitte des Verhaltensstroms verstanden, für
aus einer Liste von Kennzeichnungen (Kodes) die jeweils Kodierungen vorzunehmen sind.
möglichst explizit definierter Verhaltensklas-
sen. Die Aufgabe der Beobachtung besteht Im einfachsten Fall fungiert die gesamte Beob-
achtungsperiode als Einheit. Hier wird keine
in der Erstellung eines Protokolls des Verhal-
tensstroms, in dem unter Anwendung der Re- Segmentierung im eigentlichen Sinne vorge-
geln des Beobachtungssystems jedes Verhal- nommen. Die traditionelle Form der Protokol-
ten, das einem der vorher festgelegten Kodeslierung ist eine simple Strichliste, die mit den
entspricht, aufgezeichnet wird. Kodes oder kurzen Beschreibungen der auf-
zuzeichnenden Verhaltensklassen versehen ist.
Ein sehr einfaches Beobachtungssystem für Der Beobachter markiert jedes Auftreten einer
die Erfassung des Blickaustauschs in Dyaden interessierenden Verhaltensweise mit einem
könnte z. B. folgendermaßen aussehen: Strich neben dem entsprechenden Kode. Ein

231
9 Verfahren zur Beschaffung von L-Daten

Vorteil dieser früher sehr beliebten Vorgehens- lässt sich die Häufigkeit der betroffenen Ver-
weise besteht in der leichten Handhabung. Au- haltensweisen nicht mehr bestimmen. Auch
ßerdem kommt die Beobachtung ohne techni- der Zeitanteil, der auf einzelne Kodes entfällt,
sche Hilfsmittel aus. Nachteilig ist, dass Infor- kann bei einem groben Zeitraster nur unge-
mation über die zeitliche Erstreckung und die nau geschätzt werden. Für die Kodierung des
Abfolge von Verhaltensweisen verloren geht. Blickverhaltens würde man nach Möglichkeit
Es können lediglich die Häufigkeiten ausge- ein Zeitraster von einer Sekunde oder noch fei-
zählt werden, mit der die interessierenden Ver- ner verwenden. Bei einer in vivo-Kodierung
haltensklassen während des Beobachtungszeit- darf das Zeitraster allerdings nicht zu fein ge-
raums aufgetreten sind. Die Methode ist daher wählt werden, da hier die Gefahr besteht, die
nur zur Erfassung von Verhaltensweisen ge- Aufmerksamkeitskapazität der Beobachter zu
eignet, deren zeitliche Erstreckung kurz oder überfordern, was die Qualität der erhobenen
irrelevant ist. Für die Kodierung des Blickaus- Daten verringert. Liegen Videoaufzeichnun-
tauschs im Beispiel oben wäre sie ungeeignet, gen vor, lässt sich das Zeitraster prinzipiell bis
da die Blickdauer einen nicht zu vernachlässi- hinunter zur Auflösung einzelner Bilder (sog.
genden Bestandteil der „visuellen Interaktion“ frames, 24 bis 30 pro Sekunde) verfeinern.
ausmacht.
Bei der zweiten Vorgehensweise, der Ereignis-
Echte Segmentierungen sollen die Zeitinfor-
kodierung oder Ereignis-Teil-Methode, wird
mation bewahren. Sie können mit zwei Me-
das Auftreten vorher festgelegter Ereignisse re-
thoden vorgenommen werden. Bei der einen
gistriert. Bei den Ereignissen kann es sich um
Methode wird ein Zeitraster über den Verhal-
diskrete, momentane Verhaltensweisen (z. B.
tensstrom gelegt. Jedem der so entstandenen
hinweisende Gesten) oder das Einsetzen zeit-
gleich langen Intervalle wird der Kode zuge-
lich länger erstreckte Zustände (z. B. Kind
ordnet, der das in diesem Intervall auftreten-
weint) handeln. Welche Ereignisse dabei rele-
de Verhalten beschreibt. Im Prinzip sind auch
vant sind, wird im Beobachtungssystem festge-
mehrere Eintragungen pro Zeiteinheit möglich,
legt. Manchmal verwendet man dabei nicht die
sofern dies die Beobachter nicht überfordert.
inhaltlich interessierenden Verhaltensklassen
Diese Methode wird Intervallkodierung oder
zur Segmentierung, sondern leicht zu identifi-
Zeit-Teil-Methode genannt. So könnte man bei-
zierende Marken im Verhaltens- bzw. Interak-
spielsweise für jedes Fünf-Sekunden-Intervall
tionsstrom. Interessiert in erster Linie verbales
einer Mutter-Kind-Interaktion das Auftreten
Verhalten, könnte der Verhaltensstrom etwa
und den Inhalt der kindbezogenen Äußerun-
durch die Übernahme der Sprecher- bzw. Zu-
gen der Mutter (Loben, Tadeln, Antreiben,
hörerrolle der Interaktionspartner untergliedert
Trösten usw.) festhalten.
werden.
Wichtig bei der Zeit-Teil-Methode ist die an-
gemessene Wahl der Länge des Intervalls: Das Bei der Zeit-Teil-Methode wird der Beob-
Zeitraster sollte fein genug sein, um jede Ver- achter durch eine Zeitmarkierung zur Re-
haltensänderung einfangen zu können: Der Be- gistrierung veranlasst, bei der Ereignis-Teil-
ginn und das Ende eines „Verhaltenszustands“ Methode durch eine auftretende Verhaltensän-
dürfen durch eine zu grobe zeitliche Auflö- derung. Sofern bei Verwendung der Ereignis-
sung nicht maskiert werden. Ist das Zeitras- Teil-Methode Zeitpunkt bzw. Dauer der Ver-
ter zu grob, können mehrere zu kodierende haltensweisen miterfasst werden, liefert die-
Verhaltensweisen in einer Zeiteinheit auftre- se Strategie genauere Ergebnisse als die Zeit-
ten oder die gleiche Verhaltensweise kann sich Teil-Methode. Bei sehr feinem Raster sind die
wiederholen. Wird dies nicht gesondert notiert, Ergebnisse jedoch äquivalent.

232
9.1 Verhaltensbeobachtung

Die Entscheidung für die eine oder andere Me- Kategorien „macht Vorschlag“ oder „zeigt An-
thode hängt primär von praktischen Erwägun- tagonismus“ vor, so geht bei den entsprechen-
gen ab, wobei besonders die erhebungstechni- den Kodierungen im Gegensatz zum Verlaufs-
schen Möglichkeiten einer Untersuchung die protokoll verloren, worin der Vorschlag oder
zentrale Rolle spielen. Mit dem Einsatz der der Antagonismus bestanden haben. Derartige
computergestützten Videoanalyse wird auch Abstraktionen können insofern problematisch
die Verwendung der Ereignis-Teil-Methode sein, als z. B. ein Interaktionspartner auf ver-
zunehmen. Die Beobachter kodieren hier die schiedene Verhaltensweisen, die derselben Ka-
interessierenden Ereignisse durch Drücken de- tegorie zuzuordnen sind, sehr unterschiedlich
finierter Tasten oder Anklicken von Buttons, reagieren kann. So könnte z. B. eine Kategorie
woraufhin die entsprechenden Kodes zusam- „Mutter tadelt“ zur Beschreibung einer Mutter-
men mit der Zeitinformation automatisch auf- Kind-Interaktion sowohl Tadel, der eine Ab-
gezeichnet werden. wertung des Kindes beinhaltet („Du bringst
aber auch nichts zustande!“), umfassen, als
Als abgeleitete Maße lassen sich bei beiden auch Tadel, der eine Rückmeldung über einen
Methoden neben den Auftretenshäufigkeiten Fehler enthält („Diese Aufgabe hast du falsch
einzelner Verhaltensweisen auch deren Zeitan- gerechnet!“). Die psychologische Bedeutung
teile und mittlere zeitliche Erstreckung bestim- und die Wirkung dieser Tadelarten wird natür-
men. Darüber hinaus können Abfolgen zwi- lich variieren (vgl. Hock & Krohne, 1989).
schen Verhaltensweisen analysiert werden.
Die Definition der Kategorien muss daher je-
weils theoretischen Vorstellungen über die
Struktur des Untersuchungsbereichs folgen.
9.1.4 Klassifikation des
Dabei sollten wichtige konzeptuelle Differen-
Verhaltens zierungen nicht verwischt werden. Kategori-
ensysteme können deshalb meist nicht einfach
Die Klassifikation beinhaltet die Zuordnung mechanisch von einer Untersuchung auf die
von Kodes zu den Beobachtungseinheiten andere übertragen werden (außer, die theore-
nach den im Beobachtungssystem niederge- tische Basis ist die gleiche). Trotzdem hat es
legten Regeln. Je nach der Art dieser Regeln immer wieder Versuche gegeben, in bestimm-
lassen sich Kategoriensysteme und Zeichen- ten Situationen universell einsetzbare Katego-
systeme unterscheiden. riensysteme zu entwickeln.

Kategoriensysteme unterteilen den jeweils Das bekannteste Beispiel hierfür ist das Sys-
interessierenden Verhaltensbereich erschöp- tem von Bales (1951) zur Beschreibung der
fend („exhaustiv“) in einander ausschließende Interaktion in Gruppen. Das System sieht ins-
(nichtüberlappende, „disjunkte“) Klassen. Für gesamt zwölf Kategorien vor, für deren Ko-
jedes auftretende Verhalten ist ein Kode vor- dierung Bales (1951) eine elaborierte Handan-
gesehen; kein Verhalten kann simultan meh- weisung erstellt hat. Die Kurzbezeichnungen
reren Verhaltensklassen zugeordnet werden. der Kategorien in I Abb. 9.1 geben einen Ein-
Man erhält damit ein vollständiges Protokoll druck von der Struktur des Systems (vgl. Ba-
des Geschehens. les, 1951, S. 9).
Die oben angesprochene Reduktion besteht Wie ersichtlich, betreffen die Kategorien 1 bis
hier darin, dass dabei vom konkreten Inhalt 3 dabei positive sozial-emotionale Verhaltens-
abstrahiert wird. Sieht ein System zur Beob- weisen, die Kategorien 10 bis 12 dagegen ne-
achtung von Gruppendiskussionen z. B. die gative. Die dazwischen liegenden Kategorien

233
9 Verfahren zur Beschaffung von L-Daten

Sozial-emotional, positiv Aufgabenbezogen, Fragen

1. Zeigt Solidarität 7. Fragt nach Orientierung

2. Zeigt Spannungslösung 8. Fragt nach Meinung

3. Stimmt zu 9. Fragt nach Vorschlägen

Aufgabenbezogen, Antworten Sozial-emotional, negativ

Abb. 9.1 4. Macht Vorschlag 10. Lehnt ab


Kategoriensystem
zur Interaktions- 5. Äußert Meinung 11. Zeigt Spannung
analyse von Bales
6. Gibt Orientierung 12. Zeigt Antagonismus
(1951).

beziehen sich auf aufgabenbezogenes Verhal- Mit Zeichensystemen sollen zumeist sehr spe-
ten, wobei die Kategorien 7 bis 9 Fragen, die zifische Merkmale erfasst werden, z. B. non-
Kategorien 4 bis 6 dagegen (versuchte) Ant- verbale Verhaltensweisen, die als Erregungs-
worten beinhalten. Zu beachten ist der symme- symptome angesehen werden können. Ein sol-
trische Aufbau des Systems: Die Kategorien che Liste könnte z. B. „mimische Auffälligkei-
1 und 12, 2 und 11 usw. bezeichnen jeweils ten“, „Selbststimulationen“, „unruhige Sitz-
Komplemente bzw. Gegenpole. Deutlich ist haltung“ usw. sowie als offenen Kode „sonsti-
der Versuch, alle auftretenden Verhaltenswei- ge Erregungsanzeichen“ enthalten (Krohne &
sen positiv zu beschreiben. Es gibt also keine Hock, 1994).
„Restkategorien“ (z. B. „sonstiges Verhalten“,
„nicht kodierbar“). Im Allgemeinen ist es zweckmäßig, eine ka-
tegoriale Erfassung des Verhaltens anzustre-
Die mit Kategoriensystemen verbundenen An- ben, weil dies den Untersucher zu einer kla-
sprüche an Vollständigkeit und Geschlossen- ren Definition und Strukturierung des Beob-
heit werden bei Zeichensystemen nicht ge- achtungssystems zwingt. Zeichensysteme be-
macht. Bei Zeichensystemen handelt es sich sitzen allerdings praktische Vorteile, da sie
um einfache Listen von Kodes und zugehöri- einfacher zu erstellen, manchmal auch ein-
gen Definitionen, deren Beziehungen unterein- facher zu erlernen und zu handhaben sind.
ander mehr oder weniger unbestimmt bleiben. Einsatzmöglichkeiten von Zeichensystemen
Daher ist es hier erlaubt, einer Beobachtungs- ergeben sich besonders dort, wo ausgewähl-
einheit zugleich mehrere Kodes oder auch gar tes Verhalten einzelner Personen oder Grup-
keinen Kode zuzuordnen. Ebenso wird in Kauf pen interessiert. Dies ist häufig im Bereich
genommen, dass sich evtl. nicht alle Verhal- der Verhaltensmodifikation oder anderer In-
tensweisen, in denen sich die jeweils im Brenn- terventionen der Fall, wo veränderte Auftre-
punkt stehende Thematik manifestieren kann, tenshäufigkeiten spezifischer Verhaltenswei-
mittels des Beobachtungssystems greifen las- sen (z. B. bestimmter Angstsymptome) etwas
sen. Hierfür werden manchmal „offene“ Ko- über den Behandlungserfolg aussagen kön-
dierungen vorgesehen, mit denen das vorab nen. Demgegenüber sind Kategoriensysteme
festgelegte System nachträglich ergänzt wird. besonders zur Beschreibung von Verhaltens-

234
9.1 Verhaltensbeobachtung

abfolgen geeignet. Der Einsatz sequenzieller das oben kurz vorgestellte System von Ba-
Verfahren der Datenanalyse, die wir im An- les, 1951), erweist es sich in vielen Fällen
schluss besprechen werden, ist an eine katego- als notwendig, spezielle Systeme zu konstruie-
riale Gliederung des interessierenden Verhal- ren, die auf die eigenen Fragestellungen zu-
tensbereichs gebunden. Mit ihrer Hilfe lassen geschnitten sind. Dies gilt besonders dann,
sich z. B. funktionale Beziehungen zwischen wenn sich die interessierenden Verhaltenswei-
dem Verhalten einer Person und den vorausge- sen nicht auf der Basis klarer und unmissver-
henden und nachfolgenden Verhaltensweisen ständlicher physischer Kriterien voneinander
eines Interaktionspartners bestimmen. abgrenzen lassen (wie es etwa bei der Regis-
trierung von Blickbewegungen der Fall ist),
Bei der Entwicklung eines Beobachtungssys-
sondern ein gewisses Maß an Schlussfolge-
tems beginnt man meist mit einer vorläufi-
rungen und Interpretationsleistungen vom Be-
gen Liste relevanter Verhaltensweisen, die auf
obachter verlangen (etwa bei der Einordnung
der Basis von Literaturrecherchen, der Sich-
einer an das Kind gerichteten Äußerung einer
tung des vorhandenen Materials sowie eige-
Mutter als „Unterstützung“). Bakeman und
nen theoretischen Konzepten und Ideen er-
Gottman (1986) sprechen hier von „physically
stellt wird. Das resultierende Zeichensystem
versus socially based coding schemes“. Bei
wird dann nach und nach zu einem oder meh-
letzteren ist eine Neukonstruktion allein schon
reren Kategoriensystemen elaboriert. Besteht
deshalb angezeigt, weil die jeweiligen kon-
die Möglichkeit, das Material wiederholt zu
zeptuellen Unterscheidungen des verfolgten
kodieren, ist es zweckmäßig, die Liste in meh-
theoretischen Ansatzes in das Beobachtungs-
rere, für sich einfach strukturierte Kategori-
system eingetragen werden müssen.
ensysteme aufzuspalten, die separat – also in
mehreren Durchläufen – angewendet werden.
Man kodiert dann z. B. im ersten Durchlauf
das Blickverhalten, im zweiten das vokale 9.1.5 Ratingverfahren
Verhalten, im dritten das verbale Verhalten,
im vierten Handbewegungen usw. Dies redu- Neben der Bestimmung der Häufigkeit und
ziert die Belastung der Beobachter und führt Dauer von Verhaltensweisen über Zeichen-
so zu zuverlässigeren Daten. Durch Einlage- oder Kategoriensysteme kann für diagnosti-
rung eines Zeitkodes in das Videosignal oder sche Fragestellungen auch die Quantifizierung
der Intensität eines Merkmals wichtig sein,
bei Kodierung digitalisierten Materials ist eine
nachträgliche Synchronisierung der getrennt etwa bei affektiven Äußerungen. Für die Er-
kodierten Verhaltensaspekte problemlos mög- fassung von Intensitäten kann man auf Rating-
lich. skalen zurückgreifen, wie wir sie bereits in
I Kap. 3 kennen gelernt haben. Ähnlich wie
Die Entwicklung eines Beobachtungssystems,
bei Fragebogen wird die Intensität meist auf ei-
wie auch die vorgeschaltete Auswahl oder
ner vier- bis neunstufigen Skala eingeschätzt.
Herstellung geeigneter Beobachtungssituatio-
nen, wird wesentlich durch den theoretischen Im Rahmen der systematischen Verhaltensbe-
Hintergrund, die Fragestellungen und die Hy- obachtung werden Ratingverfahren eher selten
pothesen eines Untersuchungsprogramms be- eingesetzt, da diese Aufgabe relativ schwierig
stimmt. Obgleich eine Reihe gut ausgearbei- zu objektivieren ist. Neben der Entdeckung
teter Beobachtungssysteme mit einem rela- eines Ereignisses muss hier ja noch ein quan-
tiv breiten Anwendungsbereich existieren, die titatives Urteil über dessen Intensität gefällt
sich evtl. für die eigenen Untersuchungsziele werden. Entsprechend ist die Beobachterüber-
verwenden oder doch adaptieren lassen (z. B. einstimmung hier im Allgemeinen niedriger

235
9 Verfahren zur Beschaffung von L-Daten

als bei Zeichen- oder Kategoriensystemen. Zu- sind: Die Behinderung spielerischer und ex-
dem ist mit dem Einfluss einer Reihe von Be- ploratorischer Aktivitäten des Kindes, das Vor-
urteilungsfehlern zu rechnen, die wir noch schreiben des Ablaufs und der Gestaltung
kurz behandeln werden (I Kap. 9.3.1). Sehr von Problemlöseversuchen, die Abwertung
häufig werden Ratingverfahren dagegen im der Kompetenz des Kindes, das Eingreifen in
Rahmen der noch zu besprechenden Verhal- kindliche Lösungsbemühungen (vgl. Krohne
tensbeurteilungen eingesetzt. & Hock, 1994).

Da Einschränkung insbesondere während der


Vorbereitung und Bewältigung von Problemsi-
9.1.6 Sequenzielle Analysen tuationen durch das Kind relevant wird, wur-
de für die Erfassung dieses Erziehungsstils
eine Beobachtungssituation realisiert, in der
Die Möglichkeit, Verhaltenssequenzen aufzu- das Kind unter Mithilfe seiner Mutter ein Pro-
zeichnen und zu analysieren ist ein wesentli- blem bearbeitete. Innerhalb einer festgelegten
ches Charakteristikum von Beobachtungsver- Zeitspanne von maximal 20 Minuten sollte
fahren. Unter Sequenzen versteht man generell ein Würfel aus Holzteilen zusammengebaut
Abfolgen diskreter Ereignisse oder Zustände werden; dabei konnte ein fertiggestelltes Mus-
über die Zeit, wie sie mit Kategoriensystemen ter sowie ein Bauplan zu Rate gezogen wer-
erhoben werden können. (Bei quantitativen den. Bei Voruntersuchungen hatte sich gezeigt,
Variablen, spricht man dagegen von Zeitrei- dass diese Aufgabe einen hohen Aufforde-
hen. Eine Zeitreihe würde man beispielsweise rungscharakter hat und nicht unter einer halb-
erhalten, wenn man den Verlauf der Herzfre- en Stunde gelöst werden kann. Aufgrund der
quenz einer Person über einen gewissen Zeit- Tatsache , dass nur ein Bauobjekt vorhanden
raum aufzeichnet.) Sequenzielle Analysen er- ist, eignet sich diese Aufgabe gut zur Beobach-
möglichen es, das Verhalten einer Person oder tung des mütterlichen Interventionsverhaltens
eines Systems mehrerer interagierender Perso- während der Problemlösung.
nen auf früheres Verhalten oder relevante situa-
tive Bedingungen zu beziehen. Mit ihrer Hilfe Für die Beschreibung der Verhaltenssequenz
kann die Dynamik des Systems, also die Re- wurde das „Manipulationsverhalten“ von Mut-
gelmäßigkeiten seiner Veränderung über die ter und Kind kodiert. Manipulieren meint da-
Zeit, untersucht werden. bei Holzteile in die Hand nehmen und be-
trachten, wenden, zusammenpassen, in das
Zur Illustration sequenzieller Analysen be- entstehende Gerüst einfügen oder daraus ent-
trachten wir ein Beispiel aus dem Bereich fernen. Werden die jeweiligen individuellen
der Erziehungsstilforschung. In einer Unter- Zustände von Mutter und Kind (Manipulieren,
suchung von Hock und Krohne (1987) soll- Nicht-Manipulieren) kombiniert, so ergeben
ten Beobachtungsindikatoren mütterlicher Ein- sich vier Interaktionszustände (Longabaugh,
schränkung gewonnen werden. Unter „Ein- 1963), durch die das Verhalten der beiden Part-
schränkung“ werden Erziehungspraktiken sub- ner zu jedem Zeitpunkt beschrieben werden
sumiert, die eine Orientierung des Kindes an kann:
vorgegebenen Normen und Autoritätsmeinun-
gen, die Übernahme von Wissensinhalten und 1. Mutter und Kind manipulieren („Beide“)
fertigen Lösungen sowie die Aufrechterhal- 2. Kind manipuliert allein („Kind allein“)
tung der Abhängigkeit vom Erzieher begünsti- 3. Mutter manipuliert allein („Mutter allein“)
gen. Beispiele für einschränkende Erziehung 4. Keiner manipuliert („Keiner“)

236
9.1 Verhaltensbeobachtung

Für die Erstellung der Verhaltensprotokolle Zustand 2 („Kind allein“) und zweimal in Zu-
wurde die Zeit-Teil-Methode eingesetzt. Die stand 3 (Mutter allein) übergegangen ist. Die
Auflösung des Zeitrasters betrug dabei fünf Häufigkeiten in den Diagonalzellen reflektie-
Sekunden, was in der konkreten Untersuchung ren hier die mittlere zeitliche Erstreckung der
fein genug war, um alle Verhaltensänderungen Interaktionszustände: Länger erstreckte Zu-
einfangen zu können. stände gehen häufiger in sich selbst über als
kürzer erstreckte. Die Häufigkeiten außerhalb
Zur Beschreibung der Dynamik des Systems
der Diagonalzellen beziehen sich auf Verände-
werden Übergangswahrscheinlichkeiten be-
rungen des Systemzustands.
rechnet. Ausgangspunkt hierfür ist das Pro-
tokoll der Interaktionszustände. Ein solches
In einem zweiten Schritt werden Übergangs-
Protokoll könnte bei einer bestimmten Mutter-
wahrscheinlichkeiten berechnet, indem jedes
Kind-Dyade etwa so beginnen:
Element der Häufigkeitsmatrix durch seine
zugehörige Zeilensumme geteilt wird. Für
22211334444221331112224... den Übergang 1 → 3 ergibt sich z. B. 2/(3 +
1 + 2 + 0) ≈ 0.33. Übergangswahrscheinlich-
Aus dem Protokoll geht hervor, dass das Kind keiten geben also die relative Häufigkeit an,
zunächst ca. 15 Sekunden allein arbeitet (Zu- mit der ein gegebener antezedenter Zustand
stand 2). Danach greift die Mutter ein (Zustand in einen bestimmten nachfolgenden Zustand
1), woraufhin sich das Kind nach ungefähr übergegangen ist. Sie summieren sich zeilen-
zehn Sekunden von der aktiven Problembewäl- weise jeweils zu Eins auf und können da-
tigung zurückzieht (Zustand 3). Es folgt eine her einfacher interpretiert werden als die ab-
Phase von 20 Sekunden, während derer keiner soluten Übergangshäufigkeiten. Die entspre-
der beiden Interaktionspartner mit Würfeltei- chende tabellarische Darstellung (I Abb. 9.2,
len manipuliert (Zustand 4). Anschließend er- oben rechts) heißt Matrix der Übergangswahr-
greift das Kind wieder die Initiative (Zustand scheinlichkeiten.
2) usw.
Wenn es sich bei den erfassten Verhaltenswei-
Auf der Basis des Protokolls werden zunächst
sen nicht um momentane Ereignisse handelt,
die Übergangshäufigkeiten zwischen den Zu-
ist es ratsam, die Übergangswahrscheinlich-
ständen ausgezählt und in einer Tabelle, der
keiten in etwas anderer Weise zu berechnen.
sog. Übergangshäufigkeitsmatrix, zusammen-
Man sollte dann nämlich alle Übergänge ei-
gefasst. Die Matrix wird üblicherweise so or-
nes Zustands auf sich selbst bei der Berech-
ganisiert, dass sich ihre Zeilen auf die vor-
nung der Wahrscheinlichkeiten ausschließen,
hergehenden (antezedenten), ihre Spalten auf
indem man die Diagonalzellen der Übergangs-
die nachfolgenden (konsequenten) Verhaltens-
häufigkeitsmatrix streicht (van Hooff, 1982).
weisen beziehen. Die umgekehrte Organisa-
Der Grund hierfür liegt darin, dass bei län-
tion findet sich ebenfalls. Durch einen Pfeil
ger erstreckten Zuständen die Häufigkeiten in
in der oberen linken Spalte der Tabelle kann
den Diagonalzellen auch vom jeweils gewähl-
man kennzeichnen, wie die Matrix zu lesen
ten Zeitraster abhängen. So würde z. B. die
ist, d. h. was als Antezedenz und was als Kon-
Sequenz 222113 bei doppelt so hoher zeitli-
sequenz zu betrachten ist. Für unseren Proto-
cher Auflösung als 222222111133 protokol-
kollausschnitt erhalten wir die linke Tabelle in
liert werden. Höhere Auflösung bläht damit
I Abb. 9.2.
die Übergangswahrscheinlichkeiten eines Zu-
Aus ihr geht z. B. hervor, dass der Zustand stands auf sich selbst auf Kosten der anderen
1 („Beide“) dreimal in sich selbst, einmal in Übergangswahrscheinlichkeiten auf. Streicht

237
9 Verfahren zur Beschaffung von L-Daten

Beispielsequenz:
22211334444221331112224...

(a) Häufigkeiten (b) Wahrscheinlichkeiten, Zeitsegmentierung


→ 1 2 3 4 → 1 2 3 4
1 3 1 2 0 1 0.50 0.17 0.33 0.00
2 2 5 0 1 2 0.25 0.62 0.00 0.12
3 1 0 2 1 3 0.25 0.00 0.50 0.25
4 0 1 0 3 4 0.00 0.25 0.00 0.75

(c) Wahrscheinlichkeiten, Ereignissegmentierung


→ 1 2 3 4
1 – 0.33 0.67 0.00
2 0.67 – 0.00 0.33
3 0.50 0.00 – 0.50
4 0.00 1.00 0.00 –

Abb. 9.2 Übergangshäufigkeiten und -wahrscheinlichkeiten für die Beispielsequenz.

man die Diagonalzellen aus der Häufigkeits- Beim Lesen einer solchen Matrix geht man am
matrix, so wird die hieraus resultierende Will- besten von dem Zustand aus, der am häufigs-
kürlichkeit – das Zeitraster hätte ja auch an- ten vorkommt. Im vorliegenden Fall handelt
ders gewählt werden können – vermieden. Für es sich dabei um den Zustand „Kind allein“,
den Übergang 1 → 3 erhalten wir hier z. B. auf den 45 % des Beobachtungszeitraums ent-
2/(0 + 1 + 2 + 0) ≈ 0.67 (siehe I Abb. 9.2, fielen. Anschließend betrachtet man, von wel-
untere Tabelle). Die Übergangswahrschein- chem anderen nachfolgenden Zustand dieser
lichkeiten repräsentieren in dieser zweiten Va- Interaktionszustand am ehesten abgelöst wird,
riante das Muster der Zustandsveränderungen, indem man die Wahrscheinlichkeiten, die in
an dem man im Allgemeinen interessiert ist. der Zeile „Kind allein“ angegeben sind, ana-
Hiermit wird eine zeitliche Segmentierung im lysiert. Hier ergibt sich, dass „Kind allein“
Nachhinein in eine für die Analyse von Zu- mit etwa gleich hoher Wahrscheinlichkeit von
standsveränderungen besser geeignete Ereig- „Keiner“ (50 %) oder „Beide“ (43 %) abgelöst
nissegmentierung transformiert. wird.
Wenden wir uns nun einer realen Übergangs- Verfolgt man diese Zustände in analoger Weise
matrix zu. I Tab. 9.1 zeigt die über alle 65 weiter, so wird ersichtlich, dass beide Interakti-
untersuchten Mutter-Paare aggregierte Matrix. onszustände jeweils mit hoher Wahrscheinlich-
Die Übergänge eines Interaktionszustands auf keit (64 % bzw. 56 %) wieder in „Kind allein“
sich selbst wurden hier aus dem gerade ge- einmünden. Hieraus lässt sich schlussfolgern,
nannten Grund ausgeschlossen. In der letzten dass die Interaktion über weite Strecken durch
Zeile der Tabelle sind die relativen Häufigkei- die Abfolge „Kind allein“ → „Keiner“/„Beide“
ten angegeben, mit der die Zustände über den → „Kind allein“ gekennzeichnet ist. Eine Be-
gesamten Zeitraum beobachtet wurden. Sie trachtung dieser Matrix deutet also darauf hin,
entsprechen also ungefähr den Zeitanteilen, dass das Kind im Allgemeinen der aktivere
die auf jeden Zustand entfielen. Part ist. Die Steuerung und Kontrolle der Pro-

238
9.1 Verhaltensbeobachtung

Tab. 9.1 Übergangswahrscheinlichkeiten zwischen den Interaktionszuständen in der


Untersuchung von Hock und Krohne (1987)

→ (1) Beide (2) Kind allein (3) Mutter (4) Keiner


allein
(1) Beide – .56 .25 .19
(2) Kind allein .43 – .07 .50
(3) Mutter allein .54 .19 – .26
(4) Keiner .20 .64 .17 –
Relative Häufigkeit .23 .45 .12 .20

blembewältigung geht wesentlich vom Kind (z. B. Hock, 1992). Für sequenzielle Analy-
aus, während sich die Mutter eher zurückhält. sen existiert ein reiches Methodeninventar,
mit dem sich Abfolgen von Systemzuständen,
Das generell festgestellte Muster kann nun als
wechselseitige Abhängigkeiten im Verhalten
Folie verwendet werden, auf der sich interes-
von Interaktionspartnern und Effekte variieren-
sierende Unterschiede zwischen den Paaren
der situativer Bedingungen auf das Verhalten
eintragen lassen. Bei einschränkenden Müt-
untersuchen lassen (van Hooff, 1982). Dabei
tern wird z. B. ein stärkeres Eingreifen er-
können nicht nur unmittelbare, sondern auch
wartet, und zwar in der Weise, dass gleich-
zeitlich stärker verschobene Effekte geprüft
zeitig ein aktives Bemühen des Kindes um
werden (Sackett, 1978).
das Problem behindert wird. Diese Erwar-
tung lässt sich in Begriffen der betrachte- Sequenzielle Analysen besitzen eine Reihe
ten Übergangswahrscheinlichkeiten präzisie- diagnostisch vielversprechender Anwendun-
ren: Wenn das Kind allein arbeitet, sollte z. B. gen, insbesondere für die Untersuchung des In-
die Tendenz einschränkender Mütter, sich ver- teraktionsverhaltens von Paaren und Gruppen
stärkt in die Problembewältigung einzumi- (etwa Familien). Für klinische Fragestellungen
schen, darin sichtbar werden, dass die Über- lassen sich z. B. Netzwerke steuernder Stimuli
gangswahrscheinlichkeit auf „Beide“ erhöht, bestimmen, die Informationen über geeigne-
die auf „Keiner“ dagegen erniedrigt ist. Die Er- te Ansatzpunkte für Modifikationsprogramme
wartung, dass Eingriffe einschränkender Müt- bereitstellen können. Im Rahmen der Analyse
ter eher dazu geeignet sind, das Kind von aversiver Kommunikationen zwischen Eltern
der Problembewältigung abzukoppeln, müss- und Kindern können z. B. Verhaltensklassen
te sich darüber hinaus in einer Erhöhung ausgemacht werden, die die nachfolgende In-
der Wahrscheinlichkeit abrupter Wechsel zwi- teraktion in ungünstiger Weise beeinflussen,
schen „Kind allein“ und „Mutter allein“ ma- etwa aggressives Verhalten beim Partner aus-
nifestieren. In analoger Weise lassen sich für lösen (siehe z. B. Eller & Winkelmann, 1983;
die anderen drei antezedenten Zustände Hy- Lytton, 1979; Patterson, 1974).
pothesen formulieren (siehe Hock & Krohne,
Hier kann zwischen Ereignissen, die einer Ver-
1987).
haltensweise vorhergehen und deren Auftreten
Wie das Beispiel verdeutlicht, kann die Ana- fördern oder hemmen, und Ereignissen, die ei-
lyse von Übergangswahrscheinlichkeiten dia- ner Verhaltensweise folgen und deren weiteres
gnostisch relevante Information liefern, die Auftreten akzelerieren (verstärken) oder deze-
mit der Betrachtung einfacher Häufigkeiten lerieren (abbauen), unterschieden werden (Pat-
oder Zeitanteile nicht gewonnen werden kann terson, 1974). Der Vorteil von Beobachtungs-

239
9 Verfahren zur Beschaffung von L-Daten

verfahren liegt hier darin, dass sich Muster för- etwa ergeben: „Der Klient hat während des 20-
dernder, hindernder, akzelerierender und deze- minütigen Gesprächs den Therapeuten zwei-
lerierender Bedingungen auf der Ebene indivi- mal für jeweils eine halbe Sekunde ange-
dueller Systeme (Dyaden, Triaden usw.) in ob- blickt.“ Das Ergebnis einer Verhaltensbeur-
jektiver Weise identifizieren lassen (Westmey- teilung auf Grundlage der gleichen Datenbasis
er, Winkelmann & Hannemann, 1988). Auch könnte dagegen lauten: „Der Klient zeigt eine
die Wirkung von Interventionen lässt sich in extreme Blickaversion gegenüber dem Thera-
überzeugender Weise kontrollieren. Aufgrund peuten.“ Beim Beobachten wird also versucht,
des erheblichen technischen und analytischen Wahrnehmung und Inferenz so strikt wie mög-
Aufwands werden diese Möglichkeiten zur lich zu trennen; beim Beurteilen sind beide
Zeit allerdings noch nicht im eigentlich wün- integriert.
schenswerten Umfang genutzt.
Verhaltensbeurteilungen besitzen einen sehr
weiten Anwendungsbereich. Sie werden z. B.
beim Einstellungsinterview und Assessment
9.2 Verhaltensbeurteilung Center (I Kap. 14), beim klinischen Inter-
view (I Kap. 15) oder bei der Befragung
von Schülern nach ihrer Wahrnehmung des
Unterrichts oder des Schulklimas erhoben
9.2.1 Beobachtung und (I Kap. 16).
Beurteilung

Die oben kurz besprochenen Ratingverfahren


zur Registrierung beobachteter Intensitäten 9.2.2 Formen systematischer
markieren einen Übergang zwischen Verhal- Verhaltensbeurteilung
tensbeobachtung und -beurteilung. Generell
ist die Grenze zwischen Verhaltensbeobach-
tung und Verhaltensbeurteilung fließend. Zwei Für die systematische Verhaltensbeurteilung
Kriterien sind jedoch zur Differenzierung ge- werden meist Ratingskalen eingesetzt. Sie er-
eignet (Ellgring, 1996): möglichen die ökonomische Erfassung einer
Erstens richtet sich Beobachtung auf relativ Vielzahl von Verhaltensaspekten auf fast belie-
elementare und eng umgrenzte Sachverhalte, bigem Abstraktionsniveau (z. B. durchschnitt-
Beurteilung auf komplexere und abstraktere liche Lautstärke der Stimme, Variabilität der
Eigenschaften. Zweitens involviert Beobach- Mimik, spontane Aggressivität, Selbstsicher-
tung ein nur geringes Maß an Bewertung, Inter- heit, Extravertiertheit). Diesen Vorteilen steht
pretation und Inferenz; Beurteilung macht da- jedoch die geringere Objektivität der resultie-
gegen von der menschlichen Fähigkeit, (u. U. renden Daten gegenüber. Verhaltensbeurtei-
weitreichende) Schlussfolgerungen aus Wahr- lung wird deshalb häufig mit Vorbehalten be-
nehmungen zu ziehen, in starkem Maße Ge- trachtet (Faßnacht, 1995). Dennoch existieren
brauch. für viele Fragestellungen (noch) keine unter
praktischen Gesichtspunkten wirklich brauch-
Trotz der fließenden Grenze lassen sich leicht baren Alternativen (Ellgring, 1996).
eindeutige Beispiele finden. Als Ergebnis ei-
ner Beobachtung der Blickzuwendung eines Die Objektivität von Verhaltensbeurteilungen
Klienten zu seinem Therapeuten könnte sich kann erheblich gesteigert werden, wenn man

240
9.2 Verhaltensbeurteilung

eine interessierende Eigenschaft von vielen In- Q-Sort-Verfahren


formanten unabhängig voneinander einschät-
zen lässt und diese Einschätzungen anschlie-
Das Q-Sort-Verfahren stellt eine Weiterent-
ßend aggregiert. Durch Mittelung der Ein-
wicklung der Verhaltensbeurteilung mittels
schätzungen können individuelle Beurteiler-
Ratingskalen dar. Die Technik wurde erstmals
fehler zumindest teilweise unterdrückt werden
von dem Intelligenzforscher Burt beschrieben
(I Kap. 3).
und später von Stephenson (1953) ausgearbei-
tet. Neuere Versionen wurden besonders durch
Block (1978) angeregt.
Peer-Ratings
Beim Q-Sort-Verfahren besteht das Testmate-
rial aus ca. 50 bis 100 beschreibenden Feststel-
Von diesem Prinzip wird bei Peer-Ratings Ge- lungen oder Adjektiven, dem sog. „Q-Set“, die
brauch gemacht. Hier schätzen Bekannte (Kol- im Hinblick auf ihr jeweiliges Zutreffen auf
legen, Freunde, Mitglieder eines Kurses, einer eine Zielperson oder ein Zielobjekt zu sortie-
Schulklasse usw.) das Verhalten einer Person ren sind. Gewöhnlich werden die Feststellun-
auf vorgegebenen Kategorien oder Skalen ein, gen auf getrennte Karten geschrieben, so dass
z. B. „ist selbstsicher“, „redegewandt“, „leicht die Beurteiler sie leicht handhaben können.
erregbar“ usw. (Wiggins, 1973). Zielobjekt der Beurteilung kann der Beurteiler
selbst, eine andere Person oder auch ein Sach-
Eine Variante solcher Beurteilungen sind Peer- verhalt (z. B. „gute Lehre“, „Erfolg als Ver-
Nominations. Mit dieser Technik wird das Ver- kaufsleiter“) sein. Bei der Selbstbeurteilung
halten mehrerer Zielpersonen gleichzeitig be- haben wir es mit Q-Daten, ansonsten mit L-
urteilt. Jeder Beurteiler erhält einen Bogen wie Daten zu tun. Die Items müssen so formuliert
er in I Abb. 9.3 illustriert ist. Die Zeilen des sein, dass sie das Zielobjekt hinsichtlich des
Bogens enthalten eine Reihe beschreibender anvisierten Merkmalsbereichs gut charakteri-
Feststellungen (Items), seine Spalten die Na- sieren können. Für die Selbstbeschreibung von
men der zu beurteilenden Personen. Die Beur- Persönlichkeitsmerkmalen könnten z. B. Items
teiler markieren dann für jede Feststellung in formuliert werden wie „Ich fasse Entschlüs-
den Zellen des Bogens, auf welche Person(en) se, ohne lange zu überlegen“, „Ich neige dazu,
sie zutrifft. Die Anzahl der Nominierungen schnell zu kapitulieren“ oder „Ein Erfolg lässt
pro Feststellung liefert dann die Itemwerte. mich alle Misserfolge vergessen“ (Frohburg,
1970). Für die Fremdbeschreibung würde man
Peer-Ratings ermöglichen es, Einsicht in Ver- die entsprechenden Formulierungen in die drit-
haltensbereiche zu gewinnen, die der systema- te Person übertragen.
tischen Verhaltensbeobachtung entweder nur
mit sehr hohem Aufwand oder überhaupt nicht Der Beurteiler sortiert die Karten in eine fest-
zugänglich sind. Die Datenqualität hängt hier gelegte Anzahl von Kategorien, meist sieben
sehr stark von den herangezogenen Beurtei- bis neun. Der ersten Kategorie werden Feststel-
lern und deren Kenntnissen über die Zielper- lungen zugeordnet, die für das Beurteilungs-
sonen ab. Peer-Ratings lassen sich psychome- objekt sehr untypisch sind (überhaupt nicht
trisch nach den gleichen Gesichtspunkten wie zutreffen), der höchsten Kategorie dagegen
Fragebogen und Tests auswerten. Konkrete Feststellungen, die sehr typisch für das Objekt
Beispiele für Peer-Ratings und verwandte Ver- sind (also genau zutreffen). Die restlichen Ka-
fahren werden wir in Teil V noch darstellen tegorien sind für Zwischenstufen vorgesehen,
(I Kap. 14.4.3 und 16.4.3). die häufig auch verbal etikettiert sind.

241
9 Verfahren zur Beschaffung von L-Daten

Sie/er ... Anna Hans Heike Peter


√ √
... spielt gerne allein.

... hat schauspielerisches Talent.
√ √
... muss immer andere um sich herum haben.
√ √
... fängt schnell an zu weinen.

Abb. 9.3 Illustration einer Peer-Nomination.

Die Anzahl der Karten, mit der jede der Kate- dergrund stehen. Wir haben es hier daher mit
gorien belegt werden darf, ist meist vorgege- einem stärker individuumszentrierten Vorge-
ben. In der Regel soll die Zuordnung entweder hen zu tun. Allerdings werden für die Sor-
einer Normalverteilung oder einer Rechteck- tierung auch interindividuelle Vergleiche, die
verteilung folgen. Im ersten Fall müssen die ein Beurteiler implizit vornimmt, eine maßge-
meisten Karten in die mittleren Kategorien ein- bende Rolle spielen, so dass es sich hier eher
sortiert werden, für die extremen Kategorien um eine Mischform zwischen einer individu-
sind geringere Besetzungen vorgesehen (bei umszentrierten und einer normativ orientierten
neun Kategorien und 100 Karten sind die Be- Messung handelt (Asendorpf & Neyer, 2012).
setzungen z. B. 1, 4, 11, 21, 26, 21, 11, 4, 1).
Im zweiten Fall muss in jede Kategorie die Die Vorgabe einer fixierten Verteilung ist nicht
gleiche Zahl von Karten gelegt werden. Die ganz unumstritten, da einzelne Feststellun-
Festlegung einer spezifischen Verteilungsform gen evtl. anders sortiert werden müssen als
wird mit der besseren Vergleichbarkeit und dies dem Eindruck eines Beurteilers entspricht.
Trennschärfe der resultierenden Daten begrün- Darüber hinaus wird auf die entstehenden Ab-
det. Eine bei einem Beurteiler evtl. vorhandene hängigkeiten unter den Beurteilungen hinge-
Tendenz zu mittleren Urteilen kann hier z. B. wiesen, die für bestimmte statistische Analy-
nicht zum Tragen kommen. Darüber hinaus sen ungünstig sind (Frohburg, 1970; Göttert
soll hiermit eine stärker individuumszentrier- & Asendorpf, 1989). Derartige Abhängigkei-
te Vergleichsperspektive forciert werden. Sind ten dürften allerdings bei der üblichen (relativ
alle Items in der vorgeschriebenen Weise ein- großen) Itemzahl nicht allzu schwer ins Ge-
geordnet, ist die eigentliche Q-Sortierung ab- wicht fallen.
geschlossen. Aus den Zuordnungen erhält man
dann ein für das beurteilte Objekt spezifisches Das Q-Sort-Verfahren besitzt zahlreiche An-
Profil, an dem man typische und untypische wendungsmöglichkeiten. Eine Anwendung im
Verhaltensweisen bzw. Merkmale aus dem er- Bereich der Fremdbeurteilung hatten wir be-
fassten Bereich ablesen kann. reits im Rahmen der Diskusssion der klini-
schen Urteilsbildung in I Kap. 5.4 kennen-
Eine Besonderheit des Q-Sort-Verfahrens be- gelernt. Wie wir sahen, lassen sich Q-Sort-
steht darin, dass hier ipsative Vergleiche vorge- Verfahren zu Zwecken der Klassifikation von
nommen werden (I Kap. 3.6.3). Verglichen Persönlichkeitsprofilen einsetzen. Hat man
werden Feststellungen in Bezug auf ein Ob- viele Personen untersucht, lassen sich die indi-
jekt (eine Person), nicht dagegen Objekte (Per- viduellen Rangordnungen der Feststellungen
sonen) in Bezug auf eine Feststellung. Dies statistisch klassifizieren (durch Clusteranaly-
unterscheidet das Q-Sort-Verfahren vom übli- sen oder spezielle Verfahren der Faktorenana-
chen Vorgehen bei Fragebogen, in denen nor- lyse, sog. Q-Technik). Man erhält dann Per-
mative (interindividuelle) Vergleiche im Vor- sonengruppen, deren Mitglieder jeweils durch

242
9.2 Verhaltensbeurteilung

.36
Selbstbild Selbstbild

Abb. 9.4 –.23 .79


Korrelationen zwischen Selbst- und
Idealbild eines Klienten vor und nach einer Idealbild Idealbild
.70
therapeutischen Behandlung. (Nach
Frohburg, 1970, S. 126.) Vor Behandlung Nach Behandlung

ein ähnliches Persönlichkeitsprofil charakte- Diskrepanz zwischen Ideal- und Selbstbild ein
risiert sind. Die psychologischen Merkmale Indikator des Therapieerfolgs sein kann.
dieser Gruppen lassen sich einerseits durch
die inhaltliche Betrachtung der Feststellungen Technisch wird dabei so verfahren, dass zu
gewinnen, die auf sie zutreffen (typische Merk- verschiedenen Stadien der Intervention, im
male) oder nicht zutreffen (untypische Merk- einfachsten Fall zu Beginn und Ende, der
male); andererseits lassen sich diese Gruppen Klient mittels Q-Sortierung sein Selbst- und
im Hinblick auf testexterne Verhaltens- und sein Idealbild darstellt. Die vier resultierenden
Erlebensmuster untersuchen. Neu beurteilte Profile werden dann miteinander korreliert.
Personen werden derjenigen Gruppe zugeord- I Abb. 9.4 veranschaulicht ein Korrelations-
net, mit der ihr individuelles Profil die höchste muster, das einen positiven Therapieverlauf
Ähnlichkeit aufweist. bei einem Patienten mit sexuellen und sozia-
len Störungen indiziert (Frohburg, 1970). Wie
ersichtlich, gleichen sich Selbst- und Idealbild
Im Bereich der Selbstbeurteilung wird die
im Verlauf der Therapie deutlich an (r = −.23
Technik häufig zur Registrierung der Verän-
vs. .79). Während das Idealbild relativ kon-
derung des Selbstbildes eines Klienten im Ver-
stant bleibt (.70), hat sich das Selbstbild deut-
lauf einer psychotherapeutischen Behandlung
lich geändert (.36).
verwendet. Veränderungsprozesse im Verlauf
einer Behandlung werden dabei erfasst über Neben der besonders für modifikatorische In-
den Vergleich von Selbst- und Idealbild eines terventionen interessanten Interpretation von
Klienten. Ähnlichkeitswerten, die auf Daten einer Per-
son basieren, lässt sich die Q-Sortierung auch
Die Begriffe „Selbstbild“ und „Idealbild“ spie- zur Prädiktion bestimmter Kriterien, also z. B.
len eine zentrale Rolle in der auf Rogers für Selektionsfragen, heranziehen. So lässt
(1973) zurückgehenden klientenzentrierten sich ein Q-Set aus Items zusammenstellen,
Therapie. Hiernach hat jede Person ein all- die hoch positiv, niedrig sowie hoch negativ
gemeines Idealbild von sich selbst. Im Ideal- mit einem externen Kriterium korrelieren, z. B.
bild ist formuliert, wie die Person gern sein einem Indikator des Erfolgs als Leiter eines
möchte. Das aus den Erfahrungen der Person Entwicklungsteams. Sodann können Personen,
resultierende Selbstbild kennzeichnet sie dage- über die Informationen aus diversen Quellen
gen so, wie sie sich gegenwärtig erlebt. Starke vorliegen, z. B. biographische Daten, Selbst-
und dauerhafte Diskrepanzen zwischen beiden einschätzungen, Verhaltensbeobachtungen im
Bildern sollen charakteristisch für bestimmte Rahmen eines Assessment Center usw., mit-
psychische Störungen und Fehlanpassungen tels dieser Items in einem Q-Sort-Verfahren
sein. Diese sollen durch Psychotherapie redu- eingeschätzt werden. Personen, denen die posi-
ziert werden können, so dass die Abnahme der tiv korrelierenden Items in besonderem Maße

243
9 Verfahren zur Beschaffung von L-Daten

zu- und die negativ korrelierenden eher abge- oder Beurteilung anderer Merkmale aus). Der-
sprochen werden, müssten dann die Gruppe artige Fehler lassen sich durch direkte, zeit-
der „valide positiven“ (geeigneten) Bewerber gleiche (anstelle retrospektiver) Registrierung,
konstituieren (I Kap. 14). die Verwendung möglichst einfacher, klar de-
finierter und verhaltensnaher Kategorien so-
Das Q-Sort-Verfahren stellt ein interessantes, wie die Minimierung der für die Kodierung
wenn auch in der praktischen Realisierung erforderlichen Interpretationsleistungen in den
vergleichsweise aufwändiges Verfahren dar. Griff bekommen. Wie bereits erwähnt wurde,
Standardverfahren wurden u. a. von Butler und ist die Verhaltensbeurteilung von derartigen
Haigh (1954) zur Messung von Veränderungen Fehlern in stärkerem Maße betroffen als die
im Rahmen der klientenzentrierten Therapie Verhaltensbeobachtung. Für die systematische
vorgelegt. Das California Q-Sort-Deck (Block, Beobachtung auf der Basis „physisch“ defi-
1978) und das California Child Q-Sort (Block nierter Kategorien (z. B. Blickverhalten, Be-
& Block, 1980; deutsche Version von Göttert wegungen) spielen solche Fehler kaum eine
& Asendorpf, 1989) stellen Verfahren zur Er- Rolle.
fassung generellerer Persönlichkeitsmerkmale
dar. Eine spezifische Fehlerquelle ist der sog. Beob-
achterdrift. Hierunter werden Veränderungen
in der Beobachtungsgenauigkeit verstanden,
die auf ein Nachlassen an Sorgfalt oder Kon-
9.3 Gütekriterien zentration oder einen durch das Beobachten
selbst bedingten Wandel in der Bedeutung ein-
zelner Kategorien zurückgehen können. Das
Wie andere diagnostische Datenerhebungsme- Vorliegen eines solchen Drifts lässt sich durch
thoden müssen Verhaltensbeobachtungen und von Zeit zu Zeit eingestreute Kontrollen prü-
-beurteilungen psychometrischen Gütekriteri- fen. Gegebenenfalls wird dann ein Nachtrai-
en genügen. Einige Gesichtspunkte lassen sich ning der Beobachter erforderlich sein.
dabei aus den für Fragebogen und Tests gelten-
den Prinzipien übertragen, andere nicht. Bevor Ein weiteres spezielles Problem stellen Re-
wir auf Spezifika bei der Bestimmung von Ob- aktivitätseffekte dar (Mees, 1977; Pawlik &
jektivität, Reliabilität und Validität eingehen, Buse, 1996). Mit Reaktivität ist das Ausmaß
soll zunächst kurz auf Fehlerquellen, die für gemeint, mit dem sich das Verhalten der be-
Beobachtung und Beurteilung relevant sind, obachteten Personen unter dem Einfluss der
hingewiesen werden. Beobachtung verändert. Im Allgemeinen ist
zu erwarten, dass unter Beobachtung die Häu-
figkeit negativ bewerteter Verhaltensweisen
abnimmt und die Häufigkeit positiv bewerteter
9.3.1 Fehlerquellen Verhaltensweisen steigt. Solche Veränderun-
gen können sich einerseits am Wertesystem
Wissenschaftliche Beobachtung und Beurtei- der beobachteten Personen ausrichten, ande-
lung unterliegt prinzipiell den gleichen Feh- rerseits an den von der Person vermuteten nor-
lerquellen wie die vorwissenschaftliche Per- mativen Erwartungen der Untersucher an ihr
sonbeurteilung. Hierbei geht es z. B. um Verhalten. Meist wird das Verhalten mehr oder
Erwartungs-, Strenge- oder Milde-Effekte, das weniger stark „sozial erwünschte“ Züge anneh-
Vermeiden extremer Kategorien bzw. Skalen- men. So wird etwa ein Erzieher, der weiß, dass
werte oder den Halo-Effekt (hier strahlt ein seine Interaktion mit einem Kind aufgezeich-
sehr salientes Merkmal auf die Wahrnehmung net wird, diesem evtl. mehr Aufmerksamkeit

244
9.3 Gütekriterien

schenken, häufiger positive und seltener nega- ter desselben Verhaltensstroms müssen also
tive Rückmeldungen geben als ein Erzieher, zu Protokollen gelangen, die im Wesentlichen
der sich unbeobachtet glaubt. übereinstimmen. Die Entwicklung eines Be-
obachtungssystems mit genau spezifizierten
Reaktivitätseffekte lassen sich abschätzen, in-
Anwendungsregeln stellt eine Maßnahme dar,
dem man Verhalten unter informierten Bedin-
Replizierbarkeit zu gewährleisten. Eine zweite,
gungen (offene Beobachtung) mit Verhalten
ebenso wichtige Maßnahme besteht in einem
unter uninformierten Bedingungen (verdeck-
ausführlichen Beobachtertraining, in dem die
te Beobachtung) vergleicht. Für die Analyse
Beobachter mit der Anwendung des Systems
interindividueller Unterschiede entsteht hier
vertraut gemacht werden. Gleiches gilt auch
allerdings das Problem, dass sich Reaktivi-
für die Verhaltensbeurteilung.
tätseffekte von Person zu Person unterschei-
den können. So mögen z. B. manche Erzieher Die wichtigste Vorgehensweise zur Bestim-
unter Beobachtung zu einer ausgeprägten In- mung der Objektivität von Beobachtungen und
szenierung des eigenen Verhaltens tendieren, Beurteilungen besteht darin, den Verhaltens-
während andere ihr Verhalten kaum verändern. strom von zwei oder mehr unabhängig arbei-
Damit werden Vergleiche zwischen Personen tenden Personen kodieren zu lassen und deren
oder Gruppen mehr oder weniger verzerrt. In- Übereinstimmung zu prüfen. Alternativ kann
dividuelle Differenzen in Reaktivitätseffekten man die Übereinstimmung zwischen Beobach-
liefern ein starkes Argument für die verdeckte tern und einem Normprotokoll prüfen, dessen
Beobachtung. (hohe) Qualität bereits gesichert ist. Vergleiche
Reaktivitätseffekte bedrohen die Repräsenta- zwischen Beobachter- und Normprotokollen
tivität der erhobenen Verhaltensstichproben. werden häufig im Rahmen des Beobachtertrai-
Ihnen sollte man bei der Planung einer Beob- nings zur Kontrolle des Lernfortschritts vorge-
achtung und der Interpretation der anfallenden nommen. Die Übereinstimmungsprüfung kann
Daten daher besonderes Augenmerk schenken. in beiden Fällen entweder auf der Ebene ein-
Andererseits sollte deren Einfluss auch nicht zelner Beobachtungseinheiten oder auf höher
überschätzt werden. Besonders in Situationen, aggregiertem Niveau (Häufigkeit, Dauer) er-
in denen mehrere Personen interagieren, dürf- folgen.
te Reaktivität nach einer gewissen Eingewöh- Beim erstgenannten Vorgehen werden die
nungsphase keine allzu große Rolle spielen. Verhaltensprotokolle jeweils zweier Beobach-
Bakeman, Deckner und Quera (2004) weisen ter Einheit für Einheit kreuzklassifiziert. An-
darauf hin, dass Video-Equipment zunehmend schließend wird die Anzahl der übereinstim-
Bestandteil unserer Alltagserfahrung wird. So- mend kodierten Einheiten (Diagonalzellen der
fern die benutzte Technik unauffällig einge- entstehenden Matrix) durch die Gesamtzahl
setzt wird, gewöhnen sich Menschen, die in der Einheiten dividiert. Multipliziert man den
ihre eigenen Aktivitäten involviert sind, oft Wert mit 100, erhält man die prozentuale Beob-
sehr schnell an die Beobachtungssituation. achterübereinstimmung. Dieser Index ist sehr
anschaulich, weist jedoch eine entscheidende
Schwäche auf, die sich am einfachsten anhand
9.3.2 Objektivität eines konkreten Beispiels erkennen lässt.
Im Rahmen der systematischen Beobachtung Nehmen wir an, ein Beobachtungssystem um-
wird besonderes Gewicht auf die Replizierbar- fasse nur zwei Kategorien A und B, wobei
keit des Beobachtungsprotokolls gelegt. Ver- B eine reine „Restkategorie“ ist (A tritt nicht
schiedene voneinander unabhängige Beobach- auf). Ein akribischer Beobachter I habe ein

245
9 Verfahren zur Beschaffung von L-Daten

Protokoll erstellt, in dem A 15 Mal, B 85 Mal wir nun diese Werte in die Formel für κ ein,
kodiert sind. Einem unaufmerksamen Beob- erhalten wir einen Wert von 0. Generell wird
achter seien alle A-Ereignisse entgangen, sein der Koeffizient immer dann 0, wenn die beob-
Protokoll enthält also 100 B-Kodierungen. Die achtete Übereinstimmung gleich der bei Zufall
Kreuzklassifikation der Kodierungen ergibt zu erwartenden Übereinstimmung ist. Bei per-
dann eine Matrix, die in I Tab. 9.2 gezeigt fekter Übereinstimmung würde κ einen Wert
ist. In diesem Fall würde die Beobachterüber- von 1 annehmen.
einstimmung 85 % betragen, was dem Augen-
schein nach hoch ist, realiter aber, wie wir auf- Für den Koeffizienten existieren diverse
grund des Zustandekommens der Daten wis- Erweiterungen. So ist es z. B. für kom-
sen, völlige Divergenz bedeutet. Wünschens- plexere Kategoriensysteme möglich, Nicht-
wert wäre hier ein Index, der in diesem Fall Übereinstimmungen (je nach Schwere der Ver-
einen Wert von Null liefert. wechslung) verschieden zu gewichten (Cohen,
1968). Darüber hinaus besteht die Möglichkeit,
summarische Indices der Übereinstimmung
Tab. 9.2 Beobachterübereinstimmung
für mehr als zwei Beobachter zu berechnen
II (Conger, 1980).
A B
Die Prüfung der Beobachterübereinstimmung
A 0 15 15 kann auch an aggregierten Werten anset-
I B 0 85 85 zen, etwa an den für jede beobachtete
0 100 100 Person ausgezählten Auftretenshäufigkeiten
der Kategorien. In diesem Fall erhält man
quantitative Variablen, deren Zusammenhang
Ein solcher Index ist der von Cohen (1960) mit Korrelationstechniken geprüft werden
vorgeschlagene Koeffizient κ (griechischer kann. Meist werden dabei sog. Intraklassen-
Buchstabe kappa), der bei der Prüfung der Korrelationen berechnet, weil diese im Gegen-
Beobachterübereinstimmung häufig eingesetzt satz zur Produkt-Moment-Korrelation sensi-
wird. Er korrigiert die beobachtete Überein- tiv für Mittelwertsunterschiede zwischen Va-
stimmung (po , der Index steht für observed) riablen (hier also Beobachtern) sind. Wenn
für die bei Zufall zu erwartende Übereinstim- solche Mittelwertsunterschiede bestehen, fal-
mung (pc , c für chance). Cohens Kappa ist len Intraklassen-Korrelationen niedriger aus
definiert durch als die entsprechenden Produkt-Moment-
po − pc Korrelationen. Liegen keine Kategorien-, son-
κ= .
1 − pc dern Ratingsysteme vor, werden ebenfalls
Intraklassen-Korrelationen berechnet. Auch
Für die Bestimmung von po berechnet man die für Intraklassen-Korrelationen existieren mul-
relativen Häufigkeiten in den Diagonalzellen tivariate (mehr als zwei Beobachter berück-
der Matrix und summiert sie auf. In unserem sichtigende) Erweiterungen (siehe z. B. Mc-
Fall erhalten wir po = 0 + 0.85 = 0.85. Für Graw & Wong, 1996; Shrout & Fleiss, 1979).
die Berechnung der bei Zufall zu erwartenden
Übereinstimmung multipliziert man für jede Übereinstimmungskoeffizienten auf der Basis
der Diagonalzellen die entsprechenden relati- aggregierter Werte fallen im Allgemeinen hö-
ven Randhäufigkeiten (die Relativierung ge- her aus als Koeffizienten auf der Basis der ein-
schieht an der Gesamtzahl der Beobachtungs- zelnen Beobachtungseinheiten. Dies liegt dar-
einheiten, hier also 100). In unserem Fall er- an, dass durch die Aggregierung Details, in de-
halten wir pc = 0·0.15+0.85·1 = .85. Setzen nen sich zwei oder mehr Protokolle unterschei-

246
9.3 Gütekriterien

den können, verloren gehen. Generell emp- durch Zusammenfassung ähnlicher Kategori-
fiehlt es sich, beide Methoden zu verwenden en erreichen. Ist man lediglich an aggregierten
und deren Ergebnisse miteinander zu verglei- Werten interessiert, kann man eine Erhöhung
chen. Interessieren im Rahmen einer Unter- der Genauigkeit des Systems auch dadurch
suchung von vorneherein nur Aussagen über erreichen, dass man alle Segmente von mehre-
aggregierte Werte, kann die Prüfung auf der ren unabhängigen Beobachtern kodieren lässt
Ebene der einzelnen Beobachtungseinheiten und die so gewonnenen Variablen mittelt (ag-
evtl. entfallen. Nicht verzichtbar ist diese al- gregiert). Die Logik dieses Vorgehens hatten
lerdings für Analysen der Struktur von Verhal- wir bereits diskutiert: Sie entspricht der Erhö-
tensabfolgen (etwa sequenzielle Analysen). In hung des Messgenauigkeit eines Tests durch
diesem Fall können Kennwerte, die auf aggre- Hinzunahme weiterer Items, die das gleiche
gierten Daten beruhen, irreführend sein. Merkmal indizieren (I Kap. 3). An die Stelle
der Items treten hier die einzelnen Beobachter.
Die Höhe der zu erreichenden Beobachterüber-
einstimmung hängt von einer Reihe von Fak-
toren ab. Wichtig sind hier das Ausmaß und 9.3.3 Reliabilität
die Qualität des Beobachtertrainings, die Kom-
plexität des Beobachtungssystems, die Dau- Eine direkte Übertragung der Begriffe und
er der Beobachtung (auch trainierte Beobach- Methoden, die wir in den Kapiteln 3 und 4
ter unterliegen einem Vigilanzabfall) sowie für die Bewertung der Reliabilität psychologi-
die Verfügbarkeit technischer Mittel für die scher Testverfahren kennen gelernt haben, auf
Kodierung. Für ein relativ komplexes Beob- die Verhaltensbeobachtung ist nicht möglich.
achtungssystem, das in vivo angewendet wer- Hier sind einige Spezifika der Beobachtung als
den muss, wird man evtl. schon mit Beobach- Datenerhebungsmethode zu berücksichtigen.
terübereinstimmungen um .60 zufrieden sein.
Wie wir in I Kap. 3 sahen, bauen Methoden
Für ein relativ einfaches System, bei dessen
der Reliabilitätsschätzung in der einen oder
Anwendung professionelles Videoequipment
anderen Form auf dem Gedanken der Mess-
zur Verfügung steht, wird man dagegen Über-
wiederholung mit parallelen Tests oder Item-
einstimmungen von .90 oder höher erwarten.
mengen auf. Situationen, in denen Personen
Für Kappakoeffizienten, die auf der Ebene der
handeln, sind jedoch einmalig; sie wiederho-
einzelnen Beobachtungseinheiten berechnet
len sich nicht in der gleichen Art und Weise.
werden, hat Fleiss (1981) ungefähre Orientie-
Selbst wenn sich zwei Ereignisse oder Ereig-
rungsrichtlinien gegeben. Danach sind bei re-
nisabfolgen „physisch gesehen“ vollkommen
lativ komplexen Beobachtungssystemen Über-
gleichen, macht die Tatsache der Wiederho-
einstimmungen von .75 und höher als sehr gut,
lung das zweite Ereignis zu einem qualitativ
Übereinstimmungen zwischen .60 und .75 als
anderen, als es das erste war. Das Verhalten
gut und Übereinstimmungen zwischen .40 und
einer Person, die zum wiederholten Mal mit
.60 als ausreichend anzusehen.
einem bestimmten Ereignis konfrontiert ist,
wird auf die Wiederholung abgestimmt sein
Fällt die Übereinstimmung niedriger aus als er-
und entsprechend variieren. Nun ist ein Be-
wünscht oder für einen Untersuchungszweck
obachtungsprotokoll, das diese „Instabilität“
erforderlich und lässt intensiviertes Training
reflektiert, natürlich nicht ungenau.
keine Erhöhung erwarten, sollte man die Struk-
tur des Beobachtungssystems überdenken und Bislang ist es noch nicht gelungen, die für die
dieses ggf. vereinfachen. Eine solche Vereinfa- Klassische Testtheorie zentrale Idee paralle-
chung lässt sich manchmal auch nachträglich ler Tests, die den gleichen Personen vorgelegt

247
9 Verfahren zur Beschaffung von L-Daten

werden, auf Situationen zu übertragen. Es ist Regel als die Ausnahme. Schwache Assozia-
tatsächlich fraglich, ob der Begriff „parallele tionen zwischen Indikatoren aus verschiede-
Situation“ im Kontext von Verhaltensbeobach- nen methodischen Zugängen können jedoch
tung überhaupt in theoretisch oder methodolo- für das betrachtete Phänomen sehr aufschluss-
gisch befriedigender Weise zu explizieren ist reich sein. So können verschiedene Datenquel-
(Pawlik, 1976). Für eine direkte Übertragung len etwa unterschiedliche, für sich diagnos-
des testtheoretischen Konzepts wäre dies aber tisch bedeutsame Aspekte eines komplexen
erforderlich. Phänomens erst zugänglich machen.
Reliabilität im Sinne der Messpräzision In der Angst- und Bewältigungsforschung z. B.
schätzt man daher am besten durch die Be- sind Diskrepanzen zwischen den Angaben
obachterübereinstimmung oder durch Ver- einer Person über ihr eigenes Angsterleben
gleich eines Beobachtungsprotokolls mit ei- und objektiven Daten aus Beobachtungen oder
nem Normprotokoll. Zu beachten ist, dass da- physiologischen Messungen seit langem ein
mit die Differenzierung zwischen Objektivi- eigenständiges und intensiv erforschtes Thema
tät und Reliabilität für Beobachtungsverfah- (Schwerdtfeger & Kohlmann, 2004). Die Dis-
ren aufgegeben wird. Daher werden die Be- krepanzen zwischen verschiedenen Datenquel-
griffe im Zusammenhang mit Verhaltensbe- len lassen sich hier teilweise damit erklären,
obachtung auch meist als austauschbar be- dass es eine Gruppe von Personen gibt, die
handelt. Man spricht z. B. auch von inter- in bedrohlichen Situationen relativ deutliche
rater/observer reliability. behaviorale und physiologische (autonome)
Erregung manifestieren, die Wahrnehmung,
Verarbeitung und Verbalisierung von Angst
9.3.4 Validität aber zu unterdrücken versuchen (sog. Repres-
ser oder kognitive Vermeider; vgl. Krohne,
Daten aus Beobachtungen und Fremdbeurtei- 2010). Ein derartiges Muster der Angstreakti-
lungen korrelieren häufig nicht sehr hoch mit on – man spricht hier von verbal-behavioraler
Daten aus anderen Quellen, z. B. aus Selbst- bzw. verbal-autonomer Reaktionsdissoziation
berichten oder physiologischen Messungen, – kann nur durch die Konfrontation von Daten
auch wenn sich diese jeweils auf das glei- aus unterschiedlichen Quellen aufgedeckt und
che Konstrukt beziehen. So fanden z. B. Asen- diagnostisch nutzbar gemacht werden. Hier
dorpf, Banse und Mücke (2002) sowie Krohne von niedriger konvergenter Validität zu spre-
und Hock (1994) nur Korrelationen um .30 chen, wäre irreführend. Legitim wäre dies nur,
zwischen Beobachtungsindikatoren aktueller wenn sich die Erhebungsverfahren (Befragung,
Angst in leicht belastenden Situationen und Beobachtung, physiologische Messungen) –
Selbsteinschätzungen der betroffenen Perso- zumindest theoretisch – auf den gleichen Sach-
nen. Solche eher niedrigen Zusammenhänge verhalt beziehen ließen. Im Bereich der Angst
wurden manchmal zum Anlass genommen, der ist dies für Kognition, verbale Mitteilung, Ver-
Validität von Beobachtungsdaten skeptisch zu haltensmanifestation und autonome Reaktion
begegnen. offensichtlich nicht der Fall.
Tatsächlich liegt hier jedoch ein allgemeineres Neben der häufig festzustellenden Diskrepanz
Konvergenzproblem vor, das nicht allein Be- zwischen verschiedenen Datenquellen ist im
obachtungsdaten, sondern z. B. auch physio- Zusammenhang mit der Validität von Beobach-
logische Messungen betrifft (z. B. Fahrenberg, tungsdaten noch ein zweiter Sachverhalt von
1987). Divergenzen zwischen Variablen sind zentraler Bedeutung. Er betrifft die Konstrukt-
im Rahmen multivariater Erhebungen eher die validität von Beobachtungsvariablen, kommt

248
9.3 Gütekriterien

also ins Spiel, wenn von Beobachtungsindi- dass sich die Bedeutung einzelner Indikatoren
katoren auf die Ausprägung eines zugrunde von Person zu Person unterscheiden kann. So
liegenden latenten Zustands oder Merkmals kann sich z. B. angstbezogene Erregung bei ei-
geschlossen werden soll. Nehmen wir an, dass ner Person primär vokal (z. B. zitternde Stim-
mittels eines Beobachtungssystems zur Erfas- me), bei einer anderen primär mimisch, bei
sung angstbezogener Erregungs- und Aktivie- einer dritten dagegen primär grob-motorisch
rungsprozesse die Häufigkeit von Selbststimu- äußern. Man spricht hier von individualspezi-
lationen, mimische Auffälligkeiten, Perioden fischen Reaktionsmustern (Fahrenberg, 1986).
unruhiger oder starrer Körper- und Sitzhaltung Fortschritte in der Lösung dieser Probleme
sowie weitere Verhaltensklassen kodiert und lassen sich vor allem von einem tieferen Ver-
ausgezählt worden seien. Im Rahmen der Un- ständnis der am Zustandekommen individuel-
tersuchung sei man nun an einem globalen ler Differenzen in einem Verhaltensbereich be-
Maß interessiert, mit dem sich Erregungsunter- teiligten kognitiven und neurophysiologischen
schiede zwischen Personen in einfacher Weise Wirkmechanismen erhoffen.
abbilden und auf andere Variablen beziehen
Wie eingangs dieses Kapitels besprochen wur-
lassen. Es stellt sich dann die Frage, in welcher
de, sollen Beobachtungsverfahren einen di-
Weise die evtl. zahlreichen Verhaltensparame-
rekteren Weg zum Verhalten gewähren als
ter gewichtet und kombiniert werden sollten,
Befragungsinstrumente. Wie wir sahen, lie-
um ein optimales Maß der beobachteten Erre-
fern jedoch auch Beobachtungsdaten keinen
gung zu erhalten.
„unmittelbaren“ und „unverstellten“ Zugriff
Auf diese Frage gibt es zur Zeit noch keine auf die „Verhaltenswirklichkeit“. Verhaltens-
wirklich befriedigende Antwort. Meist muss beobachtung ist, wie jeder Abbildungs- und
man sich mit einer pragmatischen Lösung be- Messvorgang, grundsätzlich selektiv und ab-
helfen. Die Häufigkeiten relevant erscheinen- strahierend; dies gilt selbst für Versuche der
der Verhaltensklassen werden dabei zunächst isomorphen Deskription. Anders könnte sie
z-transformiert und damit auf der gleichen Ska- ihre Funktion als ein wissenschaftliches In-
la abgebildet. Anschließend werden die resul- strument auch gar nicht erfüllen. Bestimmte
tierenden Werte summiert oder gemittelt. Mit Ausschnitte des Verhaltens werden mit einer
dieser Maßnahme werden alle in die Indika- begrenzten Zahl von Begriffen (Kategorien,
torbildung eingehenden Kategorien gleich ge- Zeichen) festgehalten. Die Reichhaltigkeit und
wichtet, womit man implizit einem „Indiffe- Beziehungsvielfalt des konkreten Verhaltens
renzprinzip“ folgt. geht dabei weitgehend verloren. Gewonnen
wird hierfür die Möglichkeit der Systematisie-
Die Anwendung eines solchen Prinzips auf
rung und des Vergleichs.
Verhaltensdaten ist aus mindestens zwei Grün-
den problematisch. Erstens können verschie- Im Hinblick auf die Validität der Daten muss
dene Indikatoren oder Parameter (Häufigkeit, schließlich berücksichtigt werden, dass Beob-
Dauer, mittlere Dauer) für das jeweils in Re- achtungsdaten zunächst situationsspezifisches
de stehende Konstrukt unterschiedliche Be- Verhalten reflektieren, da sie zumeist auf ein-
deutung besitzen; evtl. sind es sogar ganz be- zelnen, relativ kurz erstreckten Beobachtungs-
stimmte Variablenmuster, die für das Kon- perioden beruhen. Inwieweit es möglich ist,
strukt besonders indikativ sind. Auf keine von solchen Daten – gewissermaßen horizon-
dieser beiden Möglichkeiten wird in der ge- tal – auf andere Situationen oder Zeitpunkte zu
nannten simplen Form der Variablenkombina- generalisieren oder – vertikal – auf psychologi-
tion Rücksicht genommen. Ein zweites, noch sche Konstrukte (z. B. Persönlichkeitsmerkma-
schwieriger zu lösendes Problem besteht darin, le) zu schließen, muss dabei im Einzelfall ge-

249
9 Verfahren zur Beschaffung von L-Daten

prüft werden. Für Fragen der Generalisierung Beobachtungen liefern häufig Kontextinforma-
über Situationen und Zeitpunkte sind Langzeit- tionen, die es erlauben, Daten aus anderen
beobachtungen ein überzeugender, wenn auch Erhebungsverfahren in angemessener Weise
sehr aufwändiger Weg. Fragen der Konstrukt- einzuordnen. Beobachtet ein Psychologe z. B.
validierung lassen sich, weniger aufwändig, starke Angstanzeichen bei einer Person wäh-
auch durch Konfrontation mit Daten aus ande- rend der Bearbeitung eines Fähigkeitstests,
ren Quellen beantworten (z. B. Testverfahren). wird er deren Leistung anders bewerten als
bei einer offensichtlich angstfreien Person.
Im Rahmen von Interventionen können Be-
obachtungsverfahren Information über Bedin-
9.4 Beitrag zu praktisch- gungskonstellationen liefern, an denen Modi-
diagnostischen Fragen fikationsprogramme ansetzen müssen. Auch
zur Erfassung von Interventionseffekten und
deren Verlauf sind Beobachtungsverfahren ge-
Die in diesem Kapitel dargestellten Verfah- eignet. Im Rahmen einer Therapie der Rede-
ren liefern wichtige Beiträge zu praktisch- ängstlichkeit liefern z. B. eigens hergestellte
diagnostischen Fragestellungen. Für Beobach- „Auftrittssituationen“, in denen der Klient et-
tungsverfahren ist dabei allerdings in Rech- wa vor laufender Kamera einen kurzen freien
nung zu stellen, dass in der diagnostischen Vortrag hält, diagnostisch überzeugendere Da-
Praxis systematische Formen der Verhaltens- ten als die Selbsteinschätzung des Klienten
beobachtung und -analyse – etwa in Form der in einem Fragebogen. Solche einfachen For-
Auswertung von Interaktionssequenzen – auf- men der Beobachtung lassen sich auch in der
grund des hohen technischen Aufwands häufig psychologischen Praxis ohne Schwierigkeiten
nicht realisierbar sind. Beobachtung wird hier umsetzen. Die resultierenden Videoaufzeich-
eher informell und als begleitendes Verfahren nungen können darüber hinaus auch als Instru-
verwendet. mente für Rückmeldungen an den Klienten
genutzt werden. Die Konfrontation mit dem
Auch in dieser Form kann sie jedoch wert-
eigenen Verhalten stellt z. B. im Rahmen der
volle Funktionen übernehmen. Im Rahmen
kognitiven Verhaltenstherapie eine wichtige
der Formulierung und Überprüfung diagnos-
Technik dar (I Kap. 15).
tischer Hypothesen (I Kap. 7) können z. B.
Konkordanzen zwischen verschiedenen Daten-
arten (etwa Tests und Beobachtungen) stärkere
Evidenz bereitstellen, als es nur eine Daten- Weiterführende Literatur
art (etwa zwei Tests) ermöglicht. So könnte
ein klinischer Psychologe z. B. versuchen, den Ausführliche Darstellungen der Verhaltensbe-
Bericht der Eltern über ein spezifisches Pro- obachtung geben die Bücher bzw. Herausge-
blemverhalten des Kindes oder dessen Auslö- berbände von Bakeman und Gottman (1986),
sebedingungen durch Verhaltensbeobachtung Faßnacht (1995), Grewe und Wentura (1997),
am Kind selbst zu stützen. Ebenso aufschluss- Mees und Selg (1977) sowie Sackett (1978).
reich können Divergenzen zwischen verschie- Eine einführende Übersicht sequenzieller Ver-
denen Datenquellen sein, im Rahmen einer fahren der Datenanalyse liefert van Hooff
Paartherapie etwa zwischen dem Selbstbericht (1982). Wertvolle Hinweise für die Erstellung
einer Person, dem Fremdbericht des Partners von Beobachtungssystemen, die computerge-
und dem vom „außenstehenden“ Psychologen stützte Kodierung und die Verrechnung von
beobachteten manifesten Verhalten. Beobachtungsdaten finden sich im Artikel von

250
9.4 Beitrag zu praktisch-diagnostischen Fragen

Bakeman et al. (2004). Krohne und Hock 2. Was versteht man unter systematischer Ver-
(1994) sowie Manns, Schultze, Herrmann und haltensbeobachtung?
Westmeyer (1987) beschreiben und diskutie- 3. Welche Möglichkeiten zur Segmentierung
ren konkrete Beobachtungssysteme zur Erfas- und Klassifikation des Verhaltensstroms las-
sung des Interaktionsverhaltens in diversen Be- sen sich differenzieren?
reichen. Weitere Information zur Verhaltens- 4. Was versteht man unter sequenziellen Ana-
beurteilung als differenzieller Methode liefert lysen? Welche Informationen können mit
Ellgring (1996). diesen Verfahren gewonnen werden?
5. Wie lassen sich Verhaltensbeobachtung und
Verhaltensbeurteilung voneinander abgren-
Fragen zur Wissenskontrolle zen?
6. Für welche diagnostischen Zwecke können
Q-Sortierungen verwendet werden?
1. Welche zentralen Ziele werden mit dem Ein- 7. Wie lässt sich die Objektivität von Verhal-
satz von Beobachtungsverfahren in der Dia- tensprotokollen sichern?
gnostik verfolgt?

251
10 Verfahren zur Beschaffung von subjektiven
(Q-) Daten

10.1 Formaler Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253


10.2 Persönlichkeitsinventare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
10.2.1 Intuitive Fragebogenkonstruktion . . . . . . . . . . . . . . . . . . . . 254
10.2.2 Internal-induktive Fragebogenkonstruktion . . . . . . . . . . . . . . . 254
10.2.3 Theoriegeleitet-deduktive Fragebogenkonstruktion . . . . . . . . . . . 260
10.2.4 External-kriteriumsbezogene Fragebogenkonstruktion . . . . . . . . . 263
10.2.5 Kombinierte Konstruktionsstrategien . . . . . . . . . . . . . . . . . . 268
10.3 Fragebogen zur Erfassung einzelner Persönlichkeitsmerkmale . . . . . . . . 270
10.3.1 Kontrollüberzeugung . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
10.3.2 Leistungsmotiviertheit . . . . . . . . . . . . . . . . . . . . . . . . . . 272
10.3.3 Ärger und Ärgerausdruck . . . . . . . . . . . . . . . . . . . . . . . . 273
10.3.4 Ängstlichkeit und Angstbewältigung . . . . . . . . . . . . . . . . . . . 275
10.4 Interessen und Einstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . 285
10.4.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
10.4.2 Die Diagnose von Interessen . . . . . . . . . . . . . . . . . . . . . . . 285
10.4.3 Einstellungsmessung . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
10.5 Die Erfassung von Zuständen . . . . . . . . . . . . . . . . . . . . . . . . . . 291
10.6 Einflüsse auf das Antwortverhalten bei Selbstberichten . . . . . . . . . . . . 294
10.7 Bewertung subjektiver Verfahren . . . . . . . . . . . . . . . . . . . . . . . . 304

Q-Daten (questionnaire data) werden aus Auch das in I Kap. 9 beschriebene Q-Sort-
Selbstbeurteilungen des Probanden gewonnen. Verfahren, wenn es mit dem Ziel der Selbstbe-
Diese Selbstbeurteilungen können in mehr urteilung eingesetzt wird, liefert Q-Daten in
oder weniger standardisierten Situationen er- einer relativ standardisierten Situation. Die in
hoben werden. Eine wenig standardisierte Si- Fragebogen erhobenen Daten können sich auf
tuation ist beispielsweise das bereits darge- verschiedene Aspekte des menschlichen Erle-
stellte Interview (I Kap. 8), wobei hier, wie bens und Verhaltens beziehen. Der Hauptein-
erwähnt, nicht nur Selbstauskünfte, sondern satzbereich ist die Erfassung relativ zeitsta-
auch Beobachtungsdaten registriert werden biler Persönlichkeitsmerkmale. Ein weiteres
können. Eine standardisierte Situation zur Ge- wichtiges Feld bilden die Interessen (z. B. Be-
winnung von Q-Daten ist der Fragebogen. rufsinteressen) und Einstellungen. Neben zeit-

252
10.1 Formaler Aufbau

stabilen Merkmalen („traits“) lassen sich über ein wenig, ziemlich, sehr“) oder der Zustim-
Selbstauskünfte auch Hinweise auf die mo- mung (z. B. „stimmt nicht, stimmt“) variieren.
mentane Befindlichkeit eines Menschen (Zu- Derartige Beantwortungsmodi werden Likert-
stände bzw. „states“) gewinnen. Unter ange- Skalen genannt. Eine weitere Variante verwen-
wandten (etwa klinischen) Fragestellungen det sog. Zwangswahlitems („forced-choice
werden über Fragebogen auch Merkmale er- items“), bei denen sich der Proband zwischen
hoben, die gewissermaßen im Übergangsbe- mehreren miteinander unvereinbaren Itemin-
reich von Traits und States stehen, z. B. psy- halten (z. B. Feststellungen) entscheiden muss
chosoziale Belastungen oder Alkoholproble- (I Kap. 3).
me (I Kap. 15).
Eine etwas andere Darbietungsform stellen
sog. Situations-Reaktions-Inventare dar. In ih-
10.1 Formaler Aufbau nen werden verschiedene Situationen vorge-
geben (z. B. „Wenn ich an die bevorstehende
Fragebogen bilden eine Gruppe von Tests, bei Prüfung denke . . . “), denen dann ein Reper-
denen interessierende Merkmale über Selbst- toire von Reaktionsmöglichkeiten zugeordnet
berichte des Probanden gemessen werden. Der wird. Der Proband muss dann zu jeder Re-
Proband soll in seiner Reaktion auf die verba- aktion angeben, ob diese in der vorgegebenen
len Elemente des Tests (Entscheidungsantwor- Situation bei ihm auftritt oder nicht. Die einzel-
ten, Zustimmung bzw. Ablehnung von Fest- nen Reaktionen können dabei verschiedenen
stellungen) Auskünfte über sein eigenes Ver- Dimensionen (z. B. Formen der Stressbewäl-
halten in der Vergangenheit, über Gefühle, Vor- tigung) zugeordnet und entsprechend separat
lieben, Abneigungen, Einstellungen u. Ä. ge- ausgewertet werden.
ben. Da hier persönliche Stellungnahmen erho-
ben werden, spricht man auch von subjektiven Im Folgenden befassen wir uns zunächst aus-
Tests. Im Sinne der formalen Gütekriterien führlich mit Persönlichkeitsfragebogen, den
von Tests (I Kap. 3) sind Fragebogen jedoch wichtigsten und bekanntesten Instrumenten
meist sehr objektiv. Wie wir anhand der Ent- zur Gewinnung von Q-Daten. Dabei behan-
wicklungsgeschichte der Persönlichkeitsmes- deln wir als erstes Instrumente, die eine mög-
sung bereits wissen, ähneln diese Instrumente lichst umfassende Beschreibung verschiede-
einem standardisierten Interview (I Kap. 8). ner Aspekte der Persönlichkeit anstreben. Da-
Es werden jeder Person dieselben Fragen in nach besprechen wir exemplarisch die Erfas-
derselben Reihenfolge gestellt, und zwar in sung von spezifischen Persönlichkeitsmerkma-
der Regel schriftlich. len (z. B. Art der Stressbewältigung), Interes-
sen und verschiedenen Zuständen. Instrumen-
Hinsichtlich des formalen Aufbaus existiert te mit einem spezielleren, etwa klinischen, An-
eine Anzahl von Varianten (I Kap. 3). Die wendungsbereich werden in den entsprechen-
gebräuchlichste Variante besteht aus der For- den Kapiteln des Teils V („Anwendungsfelder
mulierung einer Feststellung (etwa „Ich ha- der Diagnostik“) vorgestellt. Zum Abschluss
be Herzklopfen“) und der Vorgabe einer Rei- dieses Kapitels behandeln wir dann mögliche
he von Antwortalternativen (z. B. „fast nie, Einflüsse auf das Antwortverhalten, die vom
manchmal, oft, fast immer“), aus denen der Testautor nicht gewünscht sind.
Proband dann die zutreffende ankreuzen soll.
Im genannten Beispiel variierte bei der Ant-
wort die Häufigkeit. Daneben kann auch der
Grad der Intensität (z. B. „überhaupt nicht,

253
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

10.2 Persönlichkeitsinventare Wesentlich für diese Periode ist also, dass


die einzelnen zu messenden Persönlichkeits-
dimensionen intuitiv, d. h. weitgehend atheo-
Die größte Gruppe von Fragebogen bezieht
retisch, gewonnen und nicht aus einer Persön-
sich auf Persönlichkeitsdimensionen im en-
lichkeitstheorie abgeleitet wurden; ferner gilt,
geren Sinne, z. B. Ängstlichkeit oder Extra-
dass die einzelnen Skalen nicht empirisch auf
version. Nach der Anzahl der Merkmale,
ihre Unabhängigkeit voneinander geprüft, son-
die mit einem Verfahren erfasst werden sol-
dern die Items ebenfalls intuitiv zu Skalen zu-
len, unterscheidet man zwischen ein- und
sammengefasst wurden.
mehrdimensionalen Instrumenten. Eindimen-
sional sind alle jene Fragebogen, die, wie
ihr Name schon sagt, eine einzelne Dimen-
sion bzw. einen Teilbereich der Persönlich- 10.2.2 Internal-induktive
keit erfassen. Entsprechende Skalen gibt es Fragebogenkonstruktion
für unterschiedliche Aspekte der Persönlich-
keit, beispielsweise Ängstlichkeit, Feindselig- Eine zweite Periode ist dadurch gekennzeich-
keit, Typ-A-Verhaltensmuster, Leistungsmoti- net, dass die Gliederung von Fragebogen nicht
viertheit oder Kontrollüberzeugung. Bei den mehr über die Intuition des Konstrukteurs, son-
mehrdimensionalen Inventaren kann man ver- dern über die Ergebnisse empirischer Ana-
schiedene Typen unterscheiden, die teilweise lysen gesteuert wird. Methodische Grundla-
auch Abschnitte in der historischen Entwick- ge der Gliederung bilden hier in der Regel
lung der Fragebogenkonstruktion darstellen mathematische Verfahren wie z. B. die Fak-
(vgl. auch Burisch, 1984): intuitive, internal- torenanalyse. Auch dieser zweite Ansatz ist
induktive, theoriegeleitet-deduktive, external- durch eine weitgehend theoriefreie Orientie-
kriteriumsbezogene sowie kombinierte Kon- rung gekennzeichnet. Zwar bestehen bei der
struktionsstrategien. Auswahl der Items und der Formulierung
von Hypothesen über die zu erwartenden Di-
mensionen gewisse theoretische Vorannah-
10.2.1 Intuitive men, doch wird die Dimensionalität des In-
ventars letztlich durch das Ergebnis einer sta-
Fragebogenkonstruktion
tistischen Klassifikation bestimmt (I Kap. 4).
Man spricht deshalb hier von einem „interna-
In einer ersten Periode wurden Fragebogen
len“ und „induktiven“ Vorgehen, internal, weil
konstruiert durch Ausdifferenzierung vonein-
die Konstruktion der Einzelskalen ausschließ-
ander verschiedener, jedoch theoretisch wie
lich aufgrund von Item-Interkorrelationen er-
empirisch nur vage abgegrenzter Persönlich-
folgt, induktiv, weil die entsprechenden Kon-
keitsdimensionen. Häufig waren diese Di-
strukte, z. B. Cattells Persönlichkeitsfaktoren
mensionen nur vom Typ „angepasst vs. ab-
(I Übersicht 10.1, S. 256), erst auf der Basis
norm“, wie etwa bei der bereits dargestell-
dieser empirischen Klassifikationen, also ex
ten (I Kap. 2) Personal Data Sheet von
post facto, definiert werden.
Woodworth (1918). Ein früher Vertreter die-
ser Periode ist das Bernreuter Persönlichkeits- Das erste mit Hilfe faktorenanalytischer Tech-
Inventar (BPI; Bernreuter, 1931), in dem niken konstruierte mehrdimensionale Persön-
mit Hilfe von 125 Items Dimensionen wie lichkeitsinventar wurde von Guilford (1940)
„Neurotische Tendenz“, „Selbstständigkeit- mit dem Inventory of Factors STDCR vorge-
Abhängigkeit“, „Introversion-Extraversion“ legt. Die Buchstaben stehen dabei für die Fak-
oder „Selbstvertrauen“ separat erfasst werden. toren Soziale Introversion (S), Gedankliche

254
10.2 Persönlichkeitsinventare

Introversion (T), Depression (D), Emotionale bei auf jede Skala 9 bis 13 Items entfallen.
Instabilität (C), und Sorglosigkeit (R). Thur- Zusätzlich zu den Skalen der 16 Primärfak-
stone überprüfte diesen Fragebogen sowie wei- toren können Scores für fünf globale Skalen
tere von Guilford und seinem Arbeitskreis pu- (die Sekundärfaktoren entsprechen) sowie auf
blizierte Inventare und entwickelte daraufhin zwei weiteren Kontrollskalen Indices zur Ab-
sein eigenes Instrument, die Thurstone Tem- schätzung bestimmter Antworttendenzen er-
perament Schedule (Thurstone, 1949). Dieses hoben werden. Bei diesen Antworttendenzen
aus 140 Items bestehende Inventar sollte sie- handelt es sich um Akquieszenz (die Tendenz,
ben Persönlichkeitsmerkmale erfassen, z. B. Aussagen unabhängig von deren Inhalt zuzu-
aktiv, impulsiv, emotional stabil, konnte sich stimmen) sowie Seltenheit bzw. Infrequenz
aber wegen der geringen Reliabilität der ein- (gehäufte Bejahung von Alternativen bei be-
zelnen Subskalen nicht durchsetzen (Aiken, stimmten Items, die von der Normstichprobe
1999). nur sehr selten, in weniger als 5 % der Antwor-
ten, positiv beantwortet wurden). Allerdings
Sozusagen im Gegenzug reanalysierte Guil- werden die Werte auf den drei Kontrollskalen
ford seine früheren Skalen und legte sei- nicht zu einer eventuellen Korrektur der üb-
nerseits ein umfassendes Inventar vor, das rigen Skalenwerte herangezogen. In I Über-
Guilford-Zimmerman Temperament Survey sicht 10.1 sind die einzelnen Skalen zusam-
(GZTS; Guilford & Zimmerman, 1949). Das men mit den korrespondierenden Bezeichnun-
Instrument soll zehn Persönlichkeitsmerkmale gen der deutschen Adaptation dargestellt.
erfassen (u. a. allgemeine Aktivität, Zurück-
haltung, Überlegenheit, emotionale Stabilität, Die Antwortmöglichkeiten zu den Items sind
Nachdenklichkeit, Maskulinität). Außerdem inhaltlich unterschiedlich bestimmt. Bei den
liefert es drei Kontrollskalen zur Erfassung un- 13 Items der Skala Logisches Schlussfolgern
sorgfältigen oder verfälschenden Antwortens. wird eine Aufgabe mit drei Alternativen, von
Dieses Inventar wird auch heute noch, wenn denen nur eine richtig ist, dargeboten (Bei-
auch eher selten, eingesetzt. spiel: „Haus verhält sich zu Zimmer wie Baum
Der bekannteste Vertreter faktorenanalytisch zu a. Wald, b. Pflanze, c. Blatt.“). Dementspre-
begründeter Persönlichkeitsinventare ist si- chend werden die Antworten nach „richtig-
cherlich das von Cattell konstruierte 16 Perso- falsch“ ausgewertet. Bei den restlichen 15
nality Factor Questionnaire (kurz: 16-PF-Test; Primärfaktoren-Skalen und den 10 Items der
Cattell, Saunders & Stice, 1957). Die derzeit Kontrollskala Impression Management sind
aktuelle fünfte Auflage (Cattell, Cattell & Cat- die drei Antwortmöglichkeiten inhaltlich un-
tell, 1993) bildet die Grundlage des deutsch- terschiedlich bestimmt. Der mittleren Kate-
sprachigen 16-Persönlichkeits-Faktoren-Tests gorie ist immer ein Fragezeichen zugeordnet.
(Schneewind & Graf, 1998). Die beiden Randkategorien sind bei 100 der
diese Skalen definierenden Items durch die
Der 16-PF-Test ist eines der weltweit verbrei- Begriffe „stimmt“ und „stimmt nicht“ gekenn-
tetsten Verfahren zur Messung von Persönlich- zeichnet. Bei den übrigen 71 Items sind diese
keitseigenschaften. Die derzeit aktuelle deut- Antwortalternativen inhaltlich auf die jeweili-
sche Version (Schneewind & Graf, 1998) ent- ge Feststellung bezogen. (Beispiel: „Ich sehe
hält 184 Items mit jeweils drei Antwortmög- es lieber, wenn es bei jemandem zu Hause a.
lichkeiten. Diese Items verteilen sich auf 16 strenge Verhaltensregeln gibt, b. ?, c. nicht zu
Primärfaktorenskalen und eine Kontrollskala viele Vorschriften gibt.“). Den Antwortalter-
zur Erfassung der Tendenz zur sozialen Er- nativen sind, je nach Polung des Items, die
wünschtheit („Impression Management“), wo- Rohwerte 1 bis 3 zugeordnet.

255
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

Übersicht 10.1 Die Skalen des 16-PF-Tests.

Primärfaktoren-Skalen
A Wärme: reserviert – warmherzig M Abgehobenheit: praktisch – träumerisch
B Logisches Schlussfolgern: konkret – abstrakt N Privatheit: offen – verschlossen
C Emotionale Stabilität: labil – stabil O Besorgtheit: selbstsicher – besorgt
E Dominanz: nachgiebig – dominant Q1 Offenheit für Veränderung: traditionalistisch –
F Lebhaftigkeit: ernsthaft – lebhaft offen für Veränderung
G Regelbewusstsein: nonkonformistisch – regel- Q2 Selbstgenügsamkeit: sozial orientiert – selbst-
orientiert genügsam
H Soziale Kompetenz: schüchtern – kontaktstark Q3 Perfektionismus: unordnungstolerant – perfek-
I Empfindsamkeit: robust – empfindsam tionistisch
L Wachsamkeit: vertrauensvoll – misstrauisch Q4 Anspannung: entspannt – angespannt

Globalfaktoren-Skalen Antworttendenzen-Skalen
Extraversion: introvertiert – extravertiert Soziale Erwünschtheit
Ängstlichkeit: niedrige vs. hohe Ängstlichkeit Infrequenz/Seltenheit
Selbstkontrolle: unbeherrscht – kontrolliert Akquieszenz/Ja-Sage-Tendenz
Unabhängigkeit: angepasst – unabhängig
Unnachgiebigkeit: empfänglich – unnachgiebig

Für die Scores auf den beiden Kontrollska- tet. Die Werte bestimmter Primärfaktorskalen
len Akquieszenz und Infrequenz werden Ant- können auf diese Weise zu mehreren Global-
wortmuster auf spezifische Items aus dem faktorenskalen beitragen, beispielsweise Do-
Gesamtpool herangezogen. Die 100 Items minanz mit dem Gewicht 1 zur Extraversion
mit dem Antwortmodus „stimmt, ?, stimmt und dem Gewicht 5 zur Unabhängigkeit.
nicht“ bilden die Akquieszenz-Skala, wobei
sich der Score aus der Anzahl der angekreuz- Bei der Reliabilität der Primärfaktorenskalen
ten Stimmt-Antworten ergibt. Die Infrequenz- fallen die Werte für die interne Konsistenz mit
Skala wird aus 51 Items gebildet, bei denen Koeffizienten zwischen .64 und .89 (Mittel-
in der Normstichprobe eine der drei Antwort- wert .74) bestenfalls zufriedenstellend aus. Die
möglichkeiten in weniger als 5 % der Fälle Werte für die Stabilität liegen mit einem Mit-
angekreuzt wurde. (Es war dies stets die Alter- telwert von .83 deutlich höher. Bei den Glo-
native „?“.) Der Score ist hier die Anzahl der balfaktorenskalen sind die entsprechenden Ko-
Zustimmungen zu dieser Alternative. effizienten höher. Die internen Konsistenzen
variieren hier von .73 bis .87 (Mittelwert .81),
Aus den Scores von 14 Primärfaktorenskalen die Stabilitäten von .78 bis .90 (Mittelwert
können, basierend auf den Ergebnissen von .86). Hinsichtlich der konvergenten Validität
Faktorenanalysen, Werte auf den Skalen der des Inventars werden bislang im Wesentlichen
Globalfaktoren berechnet werden. (Die Skalen nur erwartungskonforme Beziehungen zu an-
Logisches Schlussfolgern und Wachsamkeit deren Selbstbeschreibungsinstrumenten, bei-
werden keinem Globalfaktor zugeordnet.) Da- spielsweise zum noch darzustellenden NEO-
bei werden die Rohwerte der Primärfaktoren Fünf-Faktoren-Inventar (Borkenau & Osten-
nach der Stärke ihrer Beziehung zu einzelnen dorf, 1993), berichtet. Überzeugende Angaben
Globalfaktoren mit Werten von 1 bis 7 gewich- zu konvergenten Beziehungen, die mit Daten

256
10.2 Persönlichkeitsinventare

aus der Ebene der L- und insbesondere der auffielen (siehe Eysenck, 1959). Deshalb wur-
T-Daten gewonnen wurden, stehen noch aus. den die Items des MPI nochmals überarbeitet
und zu einem neuen Inventar, dem Eysenck
Oft in einem Atemzug mit dem Ansatz Cat- Personality Inventory (EPI; Eysenck & Ey-
tells werden die von Eysenck konstruierten senck, 1968) zusammengestellt. Das EPI ent-
Persönlichkeitsinventare genannt. Dieses Zu- hält neben den beiden, aus jeweils 24 Items be-
sammenfassen ist insofern gerechtfertigt, als stehenden, Skalen zur Erfassung von Extraver-
auch die von Eysenck vorgelegten Fragebo- sion und Neurotizismus noch eine neun Items
gen letztlich das Ergebnis statistischer (fak- umfassende Kontrollskala zur Erfassung von
torenanalytischer) Klassifikationen darstellen, Verfälschungstendenzen, eine sog. „Lügenska-
die Zuordnung von Items zu Einzelskalen al- la“. Außerdem liegt das Inventar in zwei Paral-
so im Wesentlichen internalen Kriterien folgt. lelformen vor (deutsche Bearbeitung durch Eg-
Allerdings ist der Ansatz nicht ganz so theo- gert, 1983). Die Reliabilitäten der deutschen
riefrei wie der Cattells, da sich Eysenck von Version fallen mit Werten von .55 bis .75 für
Beginn seiner Arbeiten an die Messung zweier die Extraversion und .74 bis .78 für Neurotizis-
zentraler, von ihm über die Jahre dann auch mus allerdings mäßig aus. Die Kontrollskala
theoretisch zunehmend elaborierten, Persön- erscheint mit Koeffizienten zwischen .44 und
lichkeitskonstrukte zum Ziel gesetzt hatte. Es .55 sogar als unbrauchbar.
handelt sich bei diesen Merkmalen um den
Neurotizismus (mit dem sich Eysenck anfangs Als Konsequenz der zunehmenden Beach-
ausschließlich befasste) und die Extraversion tung, die Eysenck dem Psychotizismus als
(siehe auch Krohne & Tausch, 2014). drittem Konstrukt in seinem Persönlichkeits-
system widmete, wurde das EPI um eine
Eysenck interessierte sich zunächst für körper- entsprechende Skala ergänzt und zum Ey-
liche Beschwerden neurotischer Personen, ins- senck Personality Questionnaire (EPQ; Ey-
besondere Soldaten, und konstruierte zur Er- senck & Eysenck, 1975) erweitert (deutsche
fassung dieser Symptome das Maudsley Medi- Version EPQ-R von Ruch, 1999). Psychotizis-
cal Questionnaire (MMQ; Eysenck, 1947). Da mus wird dabei mit Eigenschaftspaaren wie
sich die Items der Neurotizismusskala dieses hartherzig-weich, impulsiv-impulskontrolliert,
Tests (neben dieser Skala enthielt der Fragebo- egozentrisch-sozial oder aggressiv-friedlich
gen noch eine Kontrollskala zur Erfassung von näher beschrieben und soll von der Dimensi-
Verfälschungstendenzen) für die Anwendung on Neurotizismus unabhängig sein (Eysenck,
auf eine Normalpopulation als wenig geeig- 1970). In der deutschen Version fallen die Re-
net erwiesen hat, erstellte Eysenck mit dem liabilitäten der vier Skalen mit Werten zwi-
Maudsley Personality Inventory (MPI) ein neu- schen .81 und .88 deutlich besser aus als beim
es Inventar (Eysenck, 1959). Vorbild für die MPI.
Fragebogenkonstruktion waren die bereits dar-
gestellten Analysen Guilfords (z. B. Guilford, Während Cattells 16-PF-Test vorzugsweise in
1940). der Einzelfalldiagnostik eingesetzt wird, be-
schränkt sich die Anwendung des EPQ und
Das MPI besteht aus einer Extraversions- und seiner Vorläufer im Wesentlichen auf den Ein-
einer Neurotizismusskala mit je 24 Items. Die satz in der Persönlichkeitsforschung. Aus den
beiden Skalen des MPI waren jedoch nicht, Scores auf den beschriebenen Dimensionen
wie theoretisch postuliert und durch die Item- sollen also nicht in erster Linie Einzeldiagno-
auswahl angestrebt, unkorreliert, wobei beson- sen gewonnen, sondern Vorhersagen über in-
ders die deutlich negativen Zusammenhänge dividuelle Differenzen des Verhaltens in expe-
bei Probanden mit neurotischen Symptomen rimentellen Situationen überprüft werden (vgl.

257
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

u. a. Eysenck & Eysenck, 1985). Allerdings meist eine Einschränkung ihrer Reliabilität
liegen zur deutschen Version geschlechts- und (I Kap. 3) aufweisen. Autoren, die eine hö-
altersspezifische Normen vor, die an über here Reliabilität ihrer faktoriell gewonnenen
2 500 Probanden gewonnen wurden, so dass ei- Subskalen anstreben, setzen deshalb von vorn-
nem Einsatz des EPQ in der Einzelfalldiagno- herein fest, dass eine Komponente nur dann
stik unter dem Aspekt der Normierung nichts inhaltlich interpretiert werden kann (und da-
im Wege steht. mit als Subskala geeignet ist), wenn auf ihr
eine bestimmte Mindestzahl von Ausgangs-
Wie bei der weitgehend theoriefreien Orientie- items (sog. „Markiervariablen“) substanziell
rung des internal-induktiven Ansatzes in der laden (wobei Doppelladungen in der Regel
Fragebogenkonstruktion nicht anders zu erwar- nicht zugelassen werden).
ten, lassen verschiedene vorgeschlagene Klas-
sifikationen kein konsistentes Bild einer Ge- Trotz dieser Inkonsistenzen hinsichtlich Inhalt
samtheit „grundlegender“ Persönlichkeitsdi- und Anzahl vorgeschlagener Komponenten
mensionen erkennen. Dementsprechend kann faktoriell konstruierter Persönlichkeitsinven-
auch keines der bislang vorgelegten Persön- tare zeigte sich aber doch, dass zumindest zwei
lichkeitsinventare den Anspruch erheben, in Dimensionen in nahezu allen Ansätzen von
verschiedenen Subskalen die Struktur der Per- zentraler Bedeutung sind. Diese von Wiggins
sönlichkeit umfassend abzubilden. (1968) „big two“ genannten Merkmale sind
Extraversion (versus Introversion) und Neuro-
Diese fehlende Konsistenz liegt zum einen na- tizismus (bzw. die emotionale Labilität versus
türlich an der Auswahl der Items (Variablen), Stabilität). Diese Übereinstimmung veranlass-
die einer statistischen Klassifikation wie z. B. te verschiedene Autoren, nach weiteren funda-
der Faktorenanalyse unterzogen werden sol- mentalen Faktoren im Bereich der Q-Daten zu
len. Bei Cattell resultieren diese Items vorgeb- suchen. So schlugen McCrae und Costa (1983)
lich aus einem „psycholexikalischen“ Ansatz, nach Analyse verschiedener Klassifikationsan-
d. h. der Durchsicht entsprechender Wörterbü- sätze einen dritten Faktor vor, den sie „open
cher nach Eigenschaftswörtern, mit denen man (versus closed) to experience“ nannten. Diese
Menschen beschreiben kann. Bei Eysenck da- Klassifikation führte zur Konstruktion des drei-
gegen dienten die Items ursprünglich der Be- faktoriellen NEO-Inventars, wobei NEO für
schreibung psychisch auffälliger Probanden, die Anfangsbuchstaben der drei Faktoren Neu-
und diese deutlich „psychiatrische“ Veranke- rotizismus, Extraversion und Openness (Of-
rung haben die Fragebogen Eysencks auch nie fenheit) steht.
ganz abgelegt.
Bereits vor McCrae und Costa hatten aller-
Eine zweite Ursache liegt in den von den je- dings Forscher wie Fiske (1949), Norman
weiligen Autoren herangezogenen Kriterien (1963) und Goldberg (1981), die insbeson-
für die Bestimmung einer Komponente als in- dere das von Cattell vorgelegte Datenmate-
terpretierbarer Faktor. So extrahiert Cattell aus rial reanalysiert hatten, fünf zentrale Dimen-
vergleichsweise wenigen Eigenschaftsitems ei- sionen zur Erfassung der Persönlichkeit über
ne Vielzahl von Faktoren, was bedeutet, dass Selbstberichte vorgeschlagen (Norman, 1963;
auf jedem Faktor nur wenige Items substan- für deutsche Bezeichnungen siehe Borkenau
ziell laden können (es sei denn, man nimmt & Ostendorf, 1989). Diese von Goldberg
viele Doppelladungen von Items in Kauf, was „big five“ genannten Faktoren waren Extraver-
aber im Allgemeinen unerwünscht ist). Dies sion, Freundlichkeit/Verträglichkeit (Agreea-
wiederum impliziert, dass einzelne Skalen aus bleness), Gewissenhaftigkeit (Conscientious-
nur sehr wenigen Items bestehen und somit ness), emotionale Stabilität/Neurotizismus so-

258
10.2 Persönlichkeitsinventare

Tab. 10.1 Die Dimensionen und Facetten des NEO-PI-R

Dimensionen Facetten
N Neurotizismus/Emotionale Stabilität Ängstlichkeit, Reizbarkeit, Depression, Soziale
Befangenheit, Impulsivität, Verletzlichkeit
E Extraversion Herzlichkeit, Geselligkeit, Durchsetzungsfähigkeit,
Aktivität, Erlebnishunger, Frohsinn
O Offenheit für neue Erfahrungen Offenheit für Phantasie, Ästhetik, Gefühle,
Handlungen, Ideen, Offenheit des Normen- und
Wertesystems
A Verträglichkeit/Freundlichkeit Vertrauen, Bescheidenheit, Entgegenkommen,
Altruismus, Freimütigkeit, Gutmütigkeit
C Gewissenhaftigkeit Kompetenz, Selbstdisziplin, Leistungsstreben,
Pflichtbewusstsein, Ordentlichkeit, Besonnenheit

wie Kultiviertheit/Offenheit für (neue) Erfah- kriminanter Beziehungen zu den Dimensionen


rungen (Culture). anderer Persönlichkeitsinventare. So konnten
etwa Borkenau und Ostendorf (1993) zeigen,
Auf der Grundlage dieser (und eigener) Ana-
dass die beiden NEO-Faktoren Neurotizismus
lysen erweiterten Costa und McCrae (1985)
und Extraversion eng mit den entsprechenden
das NEO-Inventar zum fünffaktoriellen NEO-
Faktoren aus dem EPI assoziiert sind, die Fak-
Personality Inventory (NEO-PI). Jede der fünf
toren Offenheit für Erfahrung, Verträglichkeit
Dimensionen ist dabei nochmals in sechs „Fa-
und Gewissenhaftigkeit dagegen eigenständi-
cetten“ unterteilt (I Tab. 10.1). In der revi-
ge Komponenten darstellen.
dierten Form (NEO-PI-R; Costa & McCrae,
1992) werden diese insgesamt 30 Persönlich-
Zumindest hinsichtlich der beiden zentralen
keitsmerkmale mit 243 Items erfasst (in der
Dimensionen Extraversion und Neurotizismus
deutschen Version 240; Ostendorf & Angleit-
scheint sich also eine gewisse Konvergenz ver-
ner, 2004), die auf einer fünfstufigen Skala
schiedener faktorenanalytischer Ansätze zu er-
beantwortet werden.
geben. Eysenck (1991) stellt nun die Frage,
Die Reliabilitäten der fünf Hauptskalen vari- wie weit auch die übrigen Faktoren des NEO
ieren zwischen .86 und .95, fallen aber für auf sein dreifaktorielles Modell bezogen wer-
die Facetten naturgemäß niedriger aus (zwi- den können. Er vertritt dabei die Auffassung,
schen .56 und.90). Die Stabilitäten (Zeitraum dass es sich bei Verträglichkeit und Gewis-
sechs Monate) sind mit Werten zwischen .86 senhaftigkeit um Komponenten seiner dritten
und .91 sehr hoch (Facetten: .66 bis .92). Ei- zentralen Dimension, des Psychotizismus, han-
ne Kurzform des NEO-PI-R, ohne Gliederung delt. Diese Überlegung ist nicht unplausibel,
in Facetten, ist das NEO Five-Factor Invento- denn tatsächlich wird Verträglichkeit über Be-
ry (NEO-FFI; Costa & McCrae, 1992; deut- schreibungen wie „selbstsüchtig“ oder „kalt“
sche Version: Borkenau & Ostendorf, 1993). (jeweils mit negativer Polung) und Gewis-
Hier werden die fünf Faktoren nur über insge- senhaftigkeit über Merkmale wie „ordentlich“
samt 60 Items erfasst. Die Reliabilitäten variie- und „diszipliniert“ erfasst, alles Eigenschaften,
ren von .74 bis .89. Angaben zur Validität der die auch zur Bestimmung des Psychotizismus
NEO-Versionen konzentrieren sich im Wesent- herangezogen werden. Für den Faktor Offen-
lichen auf die Analyse konvergenter und dis- heit für Erfahrung postuliert Eysenck, dass es

259
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

sich hier eher um ein Merkmal aus dem Intelli- Die bekanntesten an dieser Theorie orientier-
genzbereich als um eine Persönlichkeitsdimen- ten Persönlichkeitsinventare sind die Persona-
sion i. e. S. handelt. Diese Auffassung ist nun lity Research Form (PRF; Jackson, 1967) so-
allerdings weniger überzeugend, denn Offen- wie die Edwards Personality Preference Sche-
heit für neue Erfahrungen ist ein seit Jahrzehn- dule (EPPS; Edwards, 1959).
ten untersuchtes Persönlichkeitsmerkmal, für
das allerdings unterschiedliche Namen (z. B. Die PRF existiert in mehreren Varianten mit
„Dogmatismus“, „open versus closed mind“; unterschiedlich vielen Subskalen und Items.
Rokeach, 1960; oder „kognitive Komplexität“; Im Folgenden soll die deutsche Adaptati-
Krohne, 1977) verwendet werden. on (Stumpf, Angleitner, Wieck, Jackson &
Beloch-Till, 1985) dargestellt werden. Das In-
ventar besteht aus 14 Subskalen, die in zwei
Parallelformen mit 16 Items pro Skala vor-
10.2.3 Theoriegeleitet-deduktive liegen (I Übersicht 10.2). Eine zusätzliche
Fragebogenkonstruktion Subskala „Infrequenz“, in deren Items extrem
seltene Verhaltensweisen angesprochen wer-
den, dient der Kontrolle der Kooperationsbe-
Autoren, deren Tests diesem Ansatz zugerech- reitschaft des Probanden. Die Items werden
net werden, orientieren sich bei der Festlegung zweistufig („richtig, falsch“) beantwortet.
ihrer Dimensionen und der Formulierung ent-
sprechender Items an bestimmten Persönlich- Die Reliabilitäten der Skalen variieren von
keitstheorien. In der Regel sind diese Theorien .66 bis .85, die Stabilitäten (Zeitraum: 1 Jahr)
strukturell ausgelegt, d. h. sie machen Annah- von .67 bis .85. Hinsichtlich der Validität wer-
men über die grundlegende Struktur der Per- den zum einen die üblichen konvergenten Be-
sönlichkeit, entweder in Form kontinuierlich ziehungen zu Subskalen anderer Persönlich-
variierender Merkmale oder als Typen. Pro- keitsinventare (u. a. 16-PF-Test, EPI) berichtet.
blematisch hierbei ist, dass fast alle diesem Darüber hinaus liegen aber auch Korrelationen
Ansatz zuzuordnenden Testverfahren an Theo- der einzelnen Subskalen mit entsprechenden
rien orientiert sind, die empirisch schlecht be- Fremdeinschätzungen vor. Relativ eng sind die
gründet sind und deshalb in der heutigen Per- Beziehungen zwischen diesen beiden Daten-
sönlichkeitsforschung (wenn überhaupt) nur quellen für die Subskalen Dominanzstreben,
noch eine historische Rolle spielen. Ordnungsstreben und spielerische Grundhal-
tung, deutlich schwächer dagegen für Risiko-
In diesem Zusammenhang wichtig war die meidung, Impulsivität und Hilfsbereitschaft.
interaktionistische Persönlichkeitstheorie von
Murray (1938). In dieser Theorie wird auf der Eine nonverbale Variante der PRF ist das Non-
Personseite eine Reihe grundlegender Bedürf- verbal Personality Questionnaire (NPQ; Pau-
nisse angenommen (needs, z. B. need achieve- nonen, Jackson & Keinonen, 1990). Die Items
ment = Leistungsstreben), die den Charakter des NPQ bestehen aus Strichzeichnungen, in
relativ zeitstabiler Dispositionen (traits) ha- denen eine zentrale Figur ein eigenschaftsre-
ben sollen. Diese Bedürfnisstruktur bildete die levantes Verhalten in einer spezifischen Situa-
Grundlage für die Konstruktion einer Reihe tion ausführt. Für die Eigenschaft Aggressi-
von Testverfahren. Murray selbst hatte auf der on wird z. B. eine Figur gezeigt, die nach ei-
Basis seiner Theorie ein projektives Testver- nem verlorenen Ballwechsel im Tennis ihren
fahren, den Thematischen Apperzeptionstest Schläger zerbricht. Die Probanden sollen auf
(TAT; Murray, 1938; I Kap. 11), entwickelt. einer sieben- bzw. neunstufigen Likert-Skala

260
10.2 Persönlichkeitsinventare

Übersicht 10.2 Die Skalen der PRF.

Leistungsstreben Bedürfnis nach Beachtung Spielerische Grundhaltung


Geselligkeit Risikomeidung Soziales
Aggressivität Impulsivität Anerkennungsbedürfnis
Dominanzstreben Hilfsbereitschaft Anlehnungsbedürfnis
Ausdauer Ordnungsstreben Allgemeine Interessiertheit

mit den Endpunkten „extrem unwahrschein- oder Interessiertheit (I Übersicht 10.2) dürf-
lich“ bis „extrem wahrscheinlich“ angeben, te die bildliche Darstellung schwer fallen.
ob sie selbst das kritische Verhalten ausführen Damit eine Wahrscheinlichkeitsaussage des
würden. Der Test besteht aus 16 inhaltlichen Probanden aber überhaupt einem bestimmten
Skalen, die mit den Dimensionen der PRF kor- Trait zugeordnet werden kann, muss sicher-
respondieren (I Übersicht 10.2). Zusätzlich gestellt werden, dass der Proband die Situa-
enthält das NPQ eine Skala „Infrequenz“, in tion auch in dem Sinne kogniziert, wie sie
deren Zeichnungen sehr seltene Verhaltenswei- der Zeichner gemeint hat. So müsste etwa der
sen angesprochen werden. Jede Skala besteht Sprung einer Figur von einem Fels ins Wasser
aus acht Items. Die Reliabilitäten dieser Un- auch tatsächlich, wie von den Autoren inten-
tertests variieren zwischen .55 und .82, mit diert, vom Probanden als Zeichen von Leis-
einem Mittelwert bei .70, sind also teilweise tungsstreben aufgefasst werden, und nicht et-
unzureichend. wa als Abenteuerlust oder Spiel (ebenfalls Ska-
len im NPQ). Zur Interpretation der Situatio-
Hinsichtlich der Validität werden Korrelatio- nen durch die Probanden liegen jedoch keine
nen der NPQ-Skalen mit den korrespondieren- Informationen vor.
den Skalen der PRF für Stichproben aus un-
terschiedlichen Nationen berichtet (Paunonen, Kritisch ist zu PRF und NPQ die doch recht
Jackson, Trzebinski & Försterling, 1992). Die geringe Reliabilität einiger Subskalen anzu-
Koeffizienten liegen im Mittel bei .50, sind merken. Damit ist zumindest ein Teil der In-
also, berücksichtigt man die niedrigen Reliabi- ventare für die Einzeldiagnostik weniger ge-
litäten der NPQ-Skalen, recht ausgeprägt. Die eignet. Verwundern muss auch die über die
Korrelationen zwischen den NPQ-Skalen und einzelnen Testformen der PRF stark variieren-
entsprechenden Einschätzungen durch Peers de Zahl von Dimensionen (zwischen 14 und
sind deutlich niedriger und bleiben selbst bei 22). Auch wenn man zugesteht, dass es im
enger Bekanntschaft zwischen Proband und Modell Murrays, der selbst 35 basale Dimen-
Fremdbeurteiler unter .40 (Paunonen et al., sionen beschrieben hatte, für die Testkonstruk-
1990). tion unterschiedlich relevante Merkmale gibt,
so erhält die Umsetzung der Theorie in die Tes-
Das Hauptproblem des NPQ besteht darin, tebene durch diese Variation doch ein Element
dass sich nicht zu jedem Trait Bilder finden der Beliebigkeit, zumal auch nirgends theore-
lassen, die eindeutig eine traitspezifische Situa- tisch begründete Kriterien für die Auswahl der
tion repräsentieren. Dabei ist zu berücksichti- Testdimensionen geliefert werden.
gen, dass die Darstellung natürlich auch nicht
zu eindeutig sein darf, da das Item sonst Ant- Das Vorgehen bei der Testkonstruktion ist al-
worten im Sinne der sozialen Erwünschtheit so nicht wirklich deduktiv, bestenfalls haben
provozieren würde. Insbesondere bei Traits die Konstrukteure durch die Theorie eine ge-
wie Leistungsstreben, Anlehnungsbedürfnis wisse Anregung erfahren, ansonsten aber eher

261
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

eine kombinierte Strategie verfolgt; vgl. auch viduelle Bedürfnisprofil. Deshalb ist auch ei-
Aiken, 1999). Mehr als Anregungen können ne normorientierte Auswertung dieser Scores
derartige Ansätze allerdings auch kaum lie- weniger sinnvoll als eine ipsative, d. h. am
fern, da die jeweiligen Kategorisierungen nach individuellen Profil ausgerichtete Interpretati-
Bedürfnissen oder Temperamenten selbst theo- on. Dieser fehlende Normbezug hat dem Test
retisch nur schlecht begründet sind. Deshalb den Weg in die Praxis weitgehend versperrt
haben die besonders in der ersten Hälfte des (Watkins, Campbell, Nieberding & Hallmark,
20. Jahrhunderts beliebten Auflistungen der 1995), während er als Forschungsinstrument
verschiedenen Bedürfnisse, für die der Ansatz weiterhin häufig eingesetzt wird.
Murrays ein typisches Beispiel ist, auch kaum
Naturgemäß haben auch tiefenpsychologische
einen weitergehenden Einfluss auf die Theo-
Überlegungen bei der Konstruktion einer Rei-
riebildung in der modernen Persönlichkeits-
he von Testverfahren Pate gestanden. So ba-
oder Motivationspsychologie gehabt.
siert der Myers-Briggs Type Indicator (MBTI;
Die von Edwards (1959) konstruierte EPPS Myers & McCaulley, 1985; deutsche Version
besteht aus 225 Paaren von Aussagen, die sich von Bents & Blank, 1995) auf der Typologie
auf Vorlieben und Gefühle beziehen. Diese von C. G. Jung (1921). Ausgangspunkt sind
Paare sind Zwangswahlitems, d. h. die Proban- vier bipolare Skalen: Extraversion versus Intro-
den müssen angeben, welche der beiden Aus- version, Faktenorientierung (Sensing) versus
sagen für sie charakteristischer ist. Bei der Intuition, Denken versus Fühlen sowie plan-
Testkonstruktion wurde darauf geachtet, dass volles Handeln (Judging) versus Spontaneität
die soziale Erwünschtheit der beiden Feststel- (Perceiving). Die Kombination der Scores (nur
lungen in etwa gleich ist. Ein Beispiel für ein hoch versus niedrig) auf jeder dieser Skalen
derartiges Item ist resultiert in 16 „Typen“ (z. B. extravertiert, in-
tuitiv, gefühlsorientiert, spontan). Obwohl die
a. Ich mache am liebsten Dinge allein. theoretische Basis (z. B. die Bipolarität „Den-
ken versus Fühlen“) eher dubios ist, erfreut
b. Ich helfe gern anderen, Dinge zu sich dieses Verfahren insbesondere in der Per-
erledigen. sonalbeurteilung und -auslese offenbar einer
gewissen Beliebtheit (Aiken, 1999).
Die Items der EPPS verteilen sich auf 15 Di- Der Gießen-Test (Beckmann, Brähler & Rich-
mensionen, die sich mit denen der PRF al- ter, 1990) orientiert sich ebenfalls an tiefenpsy-
lerdings nur teilweise überlappen (I Über- chologischen Überlegungen und erfasst sechs
sicht 10.2). Die Reliabilitäten (Testhalbierung Dimensionen (u. a. soziale Resonanz, Domi-
und Retest) der einzelnen Scores variieren zwi- nanz und soziale Potenz). Über Scores auf die-
schen .60 und .88. Problematisch für die Aus- sen Skalen sollen das Selbst- und Idealbild des
wertung des EPPS ist, dass die Scores der 15 Probanden sowie das Fremdbild (die Sicht der
Dimensionen nicht unabhängig voneinander eigenen Person durch andere) erfasst werden.
sind, da bei den Zwangswahlitems ja mit der Der Test wird deshalb besonders in der Paar-
Präferenz für ein Bedürfnis ein anderes zu- diagnostik (I Kap. 15) verwendet (Brähler &
gleich zurückgewiesen wird. Die Scores für Brähler, 1993).
jede Dimension sagen also nichts über die ab-
solute Stärke eines Bedürfnisses aus (jemand
kann ja eine Präferenz angesichts zweier star-
ker oder zweier schwacher Bedürfnisse äu-
ßern), sondern charakterisieren nur das indi-

262
10.2 Persönlichkeitsinventare

10.2.4 External- Weiterentwicklungen auch für die Diagno-


kriteriumsbezogene se im Normalbereich herangezogen. Entspre-
Fragebogenkonstruktion chend der zur Zeit der Testkonstruktion vor-
herrschenden, auf Kraepelin (1909) zurück-
gehenden, Klassifikation psychischer Störun-
Eine Vorgehensweise, die von den bislang gen wurden als Kategorien die acht Syndrom-
dargestellten Ansätzen in der Fragebogenkon- gruppen Hypochondrie, Depression, Hysterie,
struktion unterschieden werden muss, ver- Psychopathie, Paranoia, Psychasthenie, Schi-
sucht, eine theoretische Orientierung mit einer zophrenie und Hypomanie herangezogen. Die
empirisch gesteuerten Itemauswahl zu verbin- Autoren sammelten nun von klinischen Fach-
den. Gemeint ist damit, dass die Gültigkeit leuten, aus Krankenberichten oder Lehrbü-
des einzelnen Items einer Testdimension an chern (aber auch aus bereits existierenden In-
äußeren Kriterien, die zumindest aus einer Vor- ventaren; z. B. Humm & Wadsworth, 1935;
theorie des interessierenden Merkmals abge- Woodworth, 1918) Aussagen, die typisch für
leitet wurden, überprüft wird. Im Gegensatz eine der sie interessierenden Störungen sein
zu den erwähnten, internal orientierten, fakto- sollten. Diese wurden sodann als Items um-
renanalytischen Ansätzen ist diese Vorgehens- formuliert, für Paranoia beispielsweise „viele
weise „external“. Items gewinnen ihre Bedeu- meiner Bekannten führen etwas gegen mich
tung hier nicht über die interne Teststruktur im Schilde“.
(also über die Item-Interkorrelationen), son- Anschließend wurden nach dem Urteil klini-
dern über ihre Assoziation mit einem exter- scher Fachleute bestimmte typische Vertreter
nen Kriterium, also über ihre Fähigkeit, eine jedes Syndroms ausgewählt und in ihrem Ant-
Gruppe von Probanden mit einem bestimm- wortverhalten auf diese Items mit diesbezüg-
ten Merkmal (z. B. „klinisch“ diagnostizierte lich unauffälligen Probanden sowie den Ver-
Depressive) von einer Gruppe diesbezüglich tretern anderer Syndrome verglichen. Für die
unauffälliger Probanden statistisch bedeutsam Aufnahme eines Items in eine der acht klini-
zu trennen. Dementsprechend wird dieser An- schen Skalen wurden die folgenden Kriterien
satz auch als „external-kriteriumsorientiert“ herangezogen. (1) Das Item musste bedeutsam
bezeichnet. zwischen einer klinischen Gruppe und einer
Normalstichprobe trennen. (2) Das Item muss-
Bekanntester, allerdings nicht ältester, Vertre- te ebenfalls zwischen einer klinischen Grup-
ter dieses Ansatzes ist das Minnesota Mul- pe und den kombinierten anderen klinischen
tiphasic Personality Inventory (MMPI) von Gruppen trennen. (3) Die Ergebnisse mussten
Hathaway und McKinley (1943). Vor der Ver- in einer Kreuzvalidierung mit neuen Stichpro-
öffentlichung des MMPI hatten bereits die ben Bestand haben. Auf diese Weise wurden
Brüder Allport mit der A-S Reaction Study in die erste Version des MMPI 504 Items auf-
(Allport & Allport, 1928) ein nach diesem genommen, die mit „richtig“, „falsch“ oder „?“
Ansatz konstruiertes Verfahren vorgelegt. Ein („weiß nicht“) zu beantworten waren.
dem MMPI sehr ähnliches jüngeres Verfahren,
das z. T. auch Items des MMPI verwendet, ist Später wurden dann weitere Skalen hinzu-
das California Psychological Inventory (CPI; gefügt, zunächst eine Skala Maskulinität-
Gough, 1957). Femininität, mit der eine homosexuelle Ori-
entierung identifiziert werden sollte (was nicht
Ziel der Konstrukteure des MMPI war ur- gelang), und eine Skala Soziale Introversion.
sprünglich die objektive Diagnose psychischer Hierdurch wurde die Anzahl der Items auf
Störungen. Später wurde der Test dann nach 566 erhöht. Zusätzlich enthält das MMPI vier

263
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

Kontroll- bzw. Validitätsskalen, mit denen be- Maskulinität-Femininität und Soziale Introver-
stimmte Aspekte des Antwortverhaltens des sion (diese insgesamt zehn Skalen werden im
Probanden erfasst werden können. Hierzu zäh- MMPI-2 als klinisch bezeichnet) sowie den
len die Anzahl der mit „weiß nicht“ beant- drei Kontroll- bzw. Validitätsskalen Lügenska-
worteten Items, eine sog. Lügenskala (L) zur la (L), Infrequenzskala (F) und Korrekturskala
Messung der Tendenz, sich übermäßig positiv, (K). Die meisten klinischen Skalen lassen sich
also in sozial erwünschter Weise darzustellen dabei nochmals in Unterskalen aufteilen. Die-
(wenn etwa Items vom Typ „ich werde manch- se 13 Basisskalen sind durch die ersten 370
mal wütend“ gehäuft abgelehnt werden), eine Items des MMPI-2 definiert. Die restlichen
Infrequenzskala (F), wie wir sie bereits aus 197 Items beziehen sich auf 15 neu konstruier-
dem 16-PF-Test kennen, sowie eine Korrek- te Inhaltsskalen, von denen zwölf Skalen wie-
turskala (K) zur Erfassung defensiver Problem- derum in (insgesamt 27) Inhaltskomponenten
verleugnung (z. B. Ablehnung eines Items wie unterteilt werden können. Für die Scores auf
„manchmal komme ich mir wirklich nutzlos den drei Kontrollskalen, zu denen als vierter
vor“). Score die Anzahl der unbeantworteten Items
(„?“) hinzukommt, werden Kriterien angege-
Etwa 40 Jahre nach seiner Konstruktion wurde ben, die dem Testanwender Hinweise darauf
das MMPI einer Revision unterzogen. Diese geben sollen, ob bzw. in welchem Ausmaß die
hatte das Ziel, Items mit nicht mehr zeitge- Werte auf den übrigen Skalen als gültig (im
mäßem Inhalt zu verändern oder zu eliminie- Sinne der Messintention) anzusehen sind.
ren, Items für neu ins Blickfeld getretene psy-
chische Problembereiche sowie für nichtklini- Bereits im ursprünglichen MMPI wurden aus
sche Persönlichkeitsmerkmale zu formulieren den Items des Inventars je nach Forschungs-
und neue Normen zu gewinnen. Im Folgenden oder klinischen Interessen kontinuierlich neue
soll die deutsche Adaptation (Engel, 2000) die- Zusatzskalen gebildet, psychometrisch über-
ses MMPI-2 (Hathaway & McKinley, 1989) prüft und validiert. Derartige Skalen, deren
dargestellt werden. Items somit also Bestandteil mehrerer anderer
Skalen sind, beziehen sich u. a. auf Merkma-
Die deutsche Adaptation beruht auf einer frü- le wie Ängstlichkeit, Verdrängung, Ichstärke,
heren Übersetzung des ursprünglichen MMPI Repression-Sensitization oder (erst im MMPI-
durch Spreen (1963). Aus dieser Form wurden 2 aufgeführt) Überkontrollierte Feindseligkeit
459 Items in das MMPI-2 übernommen (310 („Overcontrolled Hostility“).
unverändert, 149 umformuliert). Mit dem Ziel,
weitere klinisch bedeutsame Bereiche wie Me- Die Reliabilitäten der Basis- und Inhaltsska-
dikamentenmissbrauch, Suizidtendenzen, Typ- len variieren von .60 für die Lügenskala bis
A-Verhalten, familiäre Probleme, Essstörun- zu .99 für die Skala Schizophrenie. Die meis-
gen, Arbeitsstörungen oder Bereitschaft zur ten Werte liegen bei .75, verweisen also auf
psychotherapeutischen Behandlung zu erfas- eine (noch) zufriedenstellende Reliabilität der
sen, wurden 108 Items neu konstruiert. Das Skalen. Die Reliabilität der einzelnen Kompo-
Inventar besteht somit aus 567 Items. nenten der Inhaltsskalen ist deutlich niedriger,
lässt diese speziellen Skalen damit also als
Das MMPI-2 gliedert sich in drei Grup- eher unbrauchbar erscheinen. Das MMPI-2
pen von Skalen, die Basisskalen (bzw. Stan- ist an einer Stichprobe von 958 Personen nor-
dardskalen), die Inhaltsskalen sowie die Zu- miert.
satzskalen (I Übersicht 10.3). Die Basisska-
len bestehen aus den bereits beschriebenen Wie angesichts der großen Popularität des
acht „klassischen“ Skalen, den beiden Skalen MMPI bei Psychiatern und Klinischen Psycho-

264
10.2 Persönlichkeitsinventare

Übersicht 10.3 Die Basis- und Inhaltsskalen des MMPI-2.

Basisskalen Inhaltsskalen
Klinische Skalen ANX Angst
(1) Hd Hypochondrie FRS Phobien
(2) D Depression OBS Zwanghaftigkeit
(3) Hy Hysterie DEP Depression
(4) Pp Psychopathie HEA Körperbeschwerden
(5) Mf Maskulinität – Femininität BIZ Bizarre Angaben
(6) Pa Paranoia ANG Ärger
(7) Pt Psychasthenie CYN Zynismus
(8) Sc Schizophrenie ASP Antisoziales Verhalten
(9) Ma Hypomanie TPA Typ A
(0) Si Soziale Introversion LSE Negatives Selbstwertgefühl
Validitätsskalen SOD Soziales Unbehagen
L Lügenskala FAM Familiäre Probleme
F Infrequenzskala WRK Berufliche Probleme
K Korrekturskala (Defensivität) TRT Negative Behandlungsindikatoren
? „Weiß nicht“ (Unbeantwortet)

logen (insbesondere in den USA) nicht anders Deshalb trat beim MMPI im Laufe der Zeit
zu erwarten, geht die Anzahl der Studien zur auch immer mehr die Profilauswertung, d. h.
Überprüfung der praktischen Brauchbarkeit die Bestimmung und Interpretation des cha-
dieses Inventars inzwischen in die Tausende rakteristischen Musters einzelner Skalenwerte,
(Literaturhinweise u. a. in Butcher & Rouse, in den Vordergrund. Zur Erleichterung der In-
1996). Die Zusammenhänge der Basis- und terpretation derartiger Muster wurde ein sog.
der Inhaltsskalen mit Kriterien, die nicht über „Atlas“ (Hathaway & Meehl, 1951; siehe auch
Selbstberichte der Probanden erhoben wurden, Meehl & Dahlstrom, 1960) entwickelt, der spä-
fielen dabei wenig überzeugend aus. So stan- ter dann durch entsprechende Computerpro-
den einzelne Skalenwerte kaum in systemati- gramme ergänzt wurde (u. a. Finney, 1966).
scher Beziehung zu entsprechenden psychia-
Derartige Kategorisierungen sind allerdings
trischen Diagnosen.
mit einer Reihe von Problemen belastet. Un-
Die Testanwender interessierten sich deshalb verzichtbare Voraussetzung für eine zuverläs-
auch zunehmend weniger für die vielen be- sige und damit gültige Zuordnung von Proban-
richteten Einzelzusammenhänge zwischen be- den zu einem Profil, das für eine bestimmte
stimmten Skalen und Kriterien, als vielmehr Diagnose (z. B. rückfallgefährdeter Straftäter)
für die Möglichkeit, Probanden anhand ihres charakteristisch sein soll, ist eine hohe Relia-
Musters aus spezifischen MMPI-Scores ein- bilität der Einzelskalen. Diese ist nicht durch-
zelnen, für praktische Fragestellungen relevan- gängig gegeben, so dass sich auch bisher kein
ten, Gruppen zuordnen zu können. Beispiele konsistentes Bild der Validität einzelner Pro-
für derartige Kategorien wären Schizophrene, filzuordnungen gezeigt hat. Aber selbst wenn
Neurotiker, rückfallgefährdete Straftäter, post- eine Diagnose nach einem MMPI-Profil mit
traumatische Belastungsstörungen oder auch einer externen Diagnose (etwa nach einer psy-
die Wahrscheinlichkeit, von einer bestimmten chiatrischen Untersuchung) übereinstimmen
psychologischen Behandlung zu profitieren. sollte, so sagt das noch wenig über die Validi-

265
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

tät der MMPI-Diagnose aus. Wenn wir einmal zwischen den übrigen Skalen und bestimmter
den (allerdings gar nicht so unwahrscheinli- Kriterien moderieren, d. h. die Validität die-
chen) Fall ausschließen wollen, dass sich auch ser Skalen beeinflussen. Erst danach ließe sich
das externe Urteil zumindest teilweise auf Da- vernünftigerweise über die Festsetzung eines
ten aus Fragebogen stützt (was natürlich für kritischen Kontrollwertes, jenseits dessen in-
jeden Vergleich zuvor geprüft werden müsste), haltliche Werte nicht mehr interpretiert werden
so bleibt immer noch die Möglichkeit, dass sollten, diskutieren.
sich der externe Diagnostiker bei seinem Ur-
teil auf eine implizite Theorie über den betref- Derartige empirische Analysen haben, wie ein
fenden Sachverhalt (etwa Paranoia) stützt, von Blick in das Manual des MMPI zeigt (Engel,
der auch die Testautoren bei der Konstruktion 2000), bislang keinen Einfluss auf die diagnos-
ihres jeweiligen MMPI-Profils ausgegangen tische Verarbeitung der Scores auf Kontroll-
sind. Diese Möglichkeit ist durchaus nahelie- skalen gehabt. Stattdessen dominiert hier die
gend, wenn man bedenkt, dass Konstrukteure Intuition der Testkonstrukteure. Dies gilt noch
und Praktiker ja häufig von gleichen Konzep- mehr für die Alternative zur Eliminierung be-
tionen eines Sachverhalts ausgehen. stimmter Probanden aus dem weiteren Dia-
gnoseprozess, nämlich für die „Korrektur“ ein-
Eine weitere Schwierigkeit entsteht dadurch, zelner inhaltlicher Skalenwerte auf der Basis
dass auf dem Weg der Profilklassifikation ein „auffälliger“ Scores auf bestimmten Kontroll-
großer Teil der Probanden nicht (oder nur mit skalen. Hier wurden verschiedene Formeln
Einschränkungen) klassifizierbar ist. Das wäre vorgeschlagen, nach denen einzelne oder kom-
solange kein Problem, wie der Testanwender binierte Scores auf Kontrollskalen (in erster
nur entscheiden muss, ob ein Proband einem Linie Scores auf den Skalen K und L) heran-
spezifischen Profil (etwa dem Profil „Rückfall- gezogen werden, um Werte auf bestimmten
gefährdung“) zuzuordnen ist. Wenn die Rich- inhaltlichen Skalen zu verändern. Durch diese
tung der Diagnosestellung aber noch offen ist, „Korrektur“ soll die Validität der betreffenden
dann sind vorgegebene Profile in der Regel Skalen verbessert werden. Eine konsistente
weniger hilfreich. empirische Basis für diese speziellen Formeln
Die Diagnosestellung wird natürlich auch da- besteht allerdings nicht.
durch erschwert, dass die Werte der Proban- Neben Bedenken hinsichtlich der Auswertung
den auf den Kontrollskalen zu berücksichtigen und Interpretation der Antworten auf einzelne
sind. Streng genommen dürfte für Probanden, MMPI-Items wurden zahlreiche Kritikpunk-
die einen kritischen Wert auf diesen Skalen te bereits gegen die Konstruktion des Verfah-
überschritten haben, keine inhaltliche Diagno- rens vorgebracht (vgl. u. a. Helmes & Reddon,
se erstellt werden, da für diese Probanden die 1993). Eine erste Gruppe kritischer Einwände
inhaltlichen Skalen nicht valide sind. Dabei richtet sich dabei gegen das Prinzip der exter-
müsste natürlich auch die Frage gestellt wer- nalen Skalenkonstruktion.
den, ob denn die Kontrollskalen für diese Pro-
banden valide sind. Ein Proband, der zur Si- Nach dieser Strategie sollten Items ja dann
mulation neigt, wird vermutlich die Messinten- in eine bestimmte Skala (z. B. Schizophrenie)
tion von Kontrollitems, etwa „Lügen“-Items, aufgenommen werden, wenn sie von Perso-
ebenso leicht durchschauen wie die Intention nen mit einer spezifischen externen Diagno-
„inhaltlicher“ Items, etwa zur Psychopathie. se (z. B. schizophren) signifikant häufiger im
Außerdem müsste natürlich zunächst einmal Sinne des Merkmals beantwortet wurden als
empirisch geprüft werden, wie denn die Scores von einer Kontrollgruppe diesbezüglich unauf-
auf den Kontrollskalen die Zusammenhänge fälliger Personen. Wiggins (1973) zeigt nun

266
10.2 Persönlichkeitsinventare

am Beispiel einiger Items (z. B. „ich höre oft Diagnosen zugrunde liegt. Die Dimensionen
Stimmen, wenn ich allein bin“), dass ein si- des MMPI gehen von einer kontinuierlichen
gnifikanter Unterschied in der Beantwortungs- Ausprägung der mit ihnen jeweils erfassten
häufigkeit keineswegs bedeuten muss, dass Sachverhalte aus, stellen somit also metri-
ein bestimmtes Item von Angehörigen einer sche (quantitative) Skalen dar. Eine Diagno-
„klinischen“ Gruppe besonders häufig „posi- se wie etwa Schizophrenie würde in diesem
tiv“ beantwortet wurde. Der Unterschied zwi- Fall auf die Extremausprägung eines univer-
schen beiden Gruppen kommt nämlich in der sellen latenten Persönlichkeitsmerkmals ver-
Regel dadurch zustande, dass ein „kritisches“ weisen. Die psychiatrische Sichtweise, auf der
Item von der Kontrollgruppe fast nie in Rich- die Konstruktion des MMPI basiert, konzipiert
tung des Merkmals beantwortet wurde. Des- ein Syndrom wie Schizophrenie aber eher als
halb reicht meist eine Rate von 30 % positiver manifeste Krankheit, die bei einer Person ent-
Reaktionen in der klinischen Gruppe aus, um weder vorliegt oder nicht. Hier hätten wir es
einen signifikanten Unterschied zu bewirken also mit einer nichtmetrischen (nominalen)
und das Item in die betreffende Skala aufzu- Skala mit nur zwei Ausprägungen (krank vs.
nehmen. gesund) zu tun. Wenn aber kontinuierlich vari-
ierende Scores, die auf ein (latentes) Konstrukt
Dieser Sachverhalt wäre solange noch nicht
(z. B. Disposition zur Schizophrenie) verwei-
kritisch, wie dieselben Probanden, die ein be-
sen, in Indikatoren einer Klasse manifester
stimmtes Item positiv beantworten, tendenzi-
diskreter Merkmale (krank, gesund) konver-
ell, wenn auch in unterschiedlichem Ausmaß,
tiert werden, dann wird der wesentliche Unter-
auch auf die anderen Items der Skala entspre-
schied zwischen dimensionalen und kategoria-
chend reagieren. Wir hätten es im testtheore-
len Merkmals- und Messmodellen übersehen
tischen Sinn dann lediglich mit unterschied-
(I Kap. 15; Helmes & Reddon, 1993).
lich schwierigen Items zu tun. Das scheint
aber nicht der Fall zu sein. Vielmehr markie-
Eine dritte Kritik weist auf die hohe Anfällig-
ren offenbar vergleichsweise separate Unter-
keit vieler Items für die Tendenz zum Antwor-
gruppen innerhalb eines Syndroms (wie z. B.
ten im Sinne der sozialen Erwünschtheit hin.
Schizophrenie oder Psychopathie) jeweils an-
Dieser Umstand ist angesichts der psychopa-
dere Items als für sich zutreffend. Dieser Um-
thologischen Thematik dieser Items auch nicht
stand führt zu inhomogenen Skalen mit ent-
weiter verwunderlich. Derartige Inhalte dürf-
sprechend geringer Reliabilität. Grund hierfür
ten bei vielen Probanden spontan die Tendenz
ist die durch die Forschung inzwischen längst
auslösen, das Vorliegen einer entsprechenden
überholte Bestimmung einzelner Syndromka-
Symptomatik bei sich nicht zuzugeben.
tegorien. Neuere Theorien zur Psychopatho-
logie sind weit entwickelter als die Konzepte,
Dieses Problem wird natürlich auch nicht
die der Konstruktion des MMPI zugrunde la-
durch den Einsatz von Kontrollskalen wie et-
gen (Helmes & Reddon, 1993; I Kap. 15).
wa der Lügenskala entschärft, da mit diesen
Leider wurden diese theoretischen Entwick-
ja die interindividuell variierende Tendenz zur
lungen bei der Revision des Verfahrens nicht
sozialen Erwünschtheit erfasst wird, die Kri-
berücksichtigt. Das MMPI-2 zieht zur Diagno-
tik sich aber auf den Iteminhalt bezieht. In
se auf der Grundlage der Basisskalen immer
diesem Zusammenhang konnte Rogers (1971)
noch dieselben Kategorien heran wie seine Ur-
zeigen, dass sich viele Aspekte der faktoriel-
sprungsform.
len Struktur des MMPI auf die mit sozialer Er-
Eine zweite Kritik befasst sich mit dem un- wünschtheit verbundenen Iteminhalte zurück-
klaren Skalenniveau, das einzelnen MMPI- führen lassen.

267
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

Schließlich wären noch die heterogenen Er- tische Technik (durch die schon eine gewis-
gebnisse bei Versuchen der statistischen Klas- se Vorentscheidung über die Anzahl interpre-
sifikation der MMPI-Items zu erwähnen. Fak- tierbarer Dimensionen getroffen wird) sowie
torenanalytische Studien ergaben zwischen 6 die Art der Optimierung der letztlich resul-
und 21 Faktoren (Helmes & Reddon, 1993), tierenden Unterskalen folgten dabei sowohl
wobei diese Lösungen auch noch für Männer theoretischen (mindestens vortheoretischen),
und Frauen unterschiedlich ausfielen. statistisch-psychometrischen wie auch häu-
fig „pragmatischen“ Gesichtspunkten. Unter
Angesichts dieser Vielzahl von Problemen
„pragmatisch“ verstehen die betreffenden Test-
fällt die Bewertung des MMPI, zumindest bei
autoren einmal die Festlegung auf Dimensio-
psychometrisch orientierten Autoren, durch-
nen, die für sie von besonderem Interesse sind
weg negativ aus (Aiken, 1999; Helmes & Red-
(etwa „gesundheitliche Beschwerden“), zum
don, 1993). Der Test genügt nicht mehr heuti-
anderen aber auch die Tatsache, dass der Inhalt
gen psychometrischen Standards (I Kap. 3)
einzelner Skalen durch empirische Ergebnis-
und sollte deshalb in der Diagnostik nicht län-
se (meist zur Itemtrennschärfe) mit gesteuert
ger verwendet werden. Diesem Fazit steht na-
wird.
türlich die nach wie vor ungebrochene Popula-
rität des Verfahrens bei vielen klinisch orien-Als „kombiniert“ wird somit also ein An-
tierten Diagnostikern gegenüber. Daraus darf satz bezeichnet, in den etwa gleichgewich-
man nun aber nicht den Schluss ziehen, dass tig pragmatische, theoretische sowie internal-
zwar von einer Anwendung des MMPI im Be- induktive strategische Überlegungen Eingang
reich der „Normal“-Population abzuraten ist, gefunden haben. Ein typischer Vertreter die-
sein Einsatz bei bestimmten klinischen Frage- ses Ansatzes ist das im deutschen Sprach-
stellungen aber dennoch sinnvoll sein könnte. raum verbreitete Freiburger Persönlichkeits-
Gerade klinische Diagnosen führen ja häufig inventar (FPI; Fahrenberg & Selg, 1970; revi-
zu Entscheidungen, die für den betroffenen dierte Fassung: FPI-R; Fahrenberg, Hampel &
Probanden oft weitreichende Konsequenzen Selg, 2001). Bei der Festlegung der Subskalen
haben. Deshalb muss hier die wissenschaftli- des FPI und deren Items wirkten pragmatische
che Basis, auf der diese Entscheidungen beru- Gesichtspunkte hinsichtlich angenommener
hen, natürlich besonders solide sein. wichtiger Aspekte der Persönlichkeit (z. B. Le-
benszufriedenheit, soziale Orientierung, Ag-
gressivität), theoretische Überlegungen zu ge-
10.2.5 Kombinierte sicherten zentralen Dimensionen (Extraversi-
on und Emotionalität) und Rückmeldungen
Konstruktionsstrategien
aus statistisch-psychometrischen Analysen zu-
sammen. Im Folgenden wollen wir uns auf die
Bei der Beschreibung der Konstruktionsge-
Darstellung dieses Inventars als Beispiel für
schichte vieler Inventare war deutlich ge-
einen kombinierten Ansatz beschränken.
worden, dass bei kaum einem dieser Ver-
fahren wirklich nur eine Strategie, etwa die Die revidierte Form des Tests, das FPI-R, ent-
theoriegeleitet-deduktive, Pate gestanden hat- hält zehn Standard- und zwei Zusatz- bzw. Se-
te. Fast immer fanden verschiedene strategi- kundärskalen (I Übersicht 10.4). Die Stan-
sche Überlegungen, wenn auch in unterschied- dardskalen erfassen dabei Aspekte der Per-
lichem Ausmaß, Eingang in die Itemgewin- sönlichkeit, die für diagnostische Zwecke
nung und Skalenbestimmung. Die Aufnah- im Normalbereich (z. B. soziale Orientierung,
me von Items in den Ausgangspool, die Ent- Leistungsorientierung) wie auch bei psychi-
scheidung für eine bestimmte faktorenanaly- schen Problemen (z. B. Beanspruchung, Ge-

268
10.2 Persönlichkeitsinventare

Übersicht 10.4 Die Skalen des FPI-R.

Standardskalen Zusatzskalen
1 Lebenszufriedenheit 6 Aggressivität E Extraversion
2 Soziale Orientierung 7 Beanspruchung N Emotionalität
3 Leistungsorientierung 8 Körperliche Beschwerden
4 Gehemmtheit 9 Gesundheitssorgen
5 Erregbarkeit 10 Offenheit

sundheitssorgen, körperliche Beschwerden) zungen (Schmidt & König, 1986). Die bislang
besonders relevant sind. Eine Skala „Offen- berichteten Assoziationen mit experimentel-
heit“ (Beispiel: „Ich bin hin und wieder ein len Daten (T-Daten) liefern dagegen ein wenig
wenig schadenfroh“) kann daneben als Indi- konsistentes Bild.
kator der Tendenz zum Antworten im Sinne
der sozialen Erwünschtheit und somit als Kon- Was die interne Struktur der Standardskalen
trollskala angesehen werden. Die beiden Se- des FPI-R betrifft, so lassen sich hier allenfalls
kundärskalen Extraversion und Emotionalität fünf Komponenten unterscheiden. Lebenszu-
repräsentieren zwei zentrale Dimensionen der friedenheit, Erregbarkeit, Beanspruchung und
Persönlichkeit, wie sie insbesondere im Sys- Körperliche Beschwerden bilden eine Kom-
tem Eysencks (vgl. u. a. Eysenck & Eysenck, ponente, die empirisch stark mit dem NEO-
1985) theoretisch begründet und in vielen Fra- Faktor Neurotizismus assoziiert ist (Borkenau
gebogen (u. a. EPI, 16-PF-Test, NEO-PI-R) als & Ostendorf, 1993). Gehemmtheit korreliert
„big two“ (Wiggins, 1968) erfasst werden. Der signifikant mit dem NEO-Faktor Extraversion,
Test besteht aus 138 Items, die mit „stimmt – Soziale Orientierung sowie Aggressivität mit
stimmt nicht“ zu beantworten sind. Die zehn Verträglichkeit und Leistungsorientierung mit
Standardskalen umfassen jeweils zwölf, die Gewissenhaftigkeit. Lediglich die Skala Ge-
beiden Sekundärskalen je 14 Items. Das be- sundheitssorgen bildet innerhalb des FPI eine
deutet, dass zehn Items der Sekundärskalen vergleichsweise eigenständige Komponente.
auch Bestandteil einer Standardskala sind.
Als Fazit lässt sich festhalten, dass das FPI-
Die Reliabilitäten der Skalen variieren von .73 R zumindest für Forschungszwecke, also für
bis .83 für die interne Konsistenz und von .69 die Registrierung zentraler Tendenzen in Grup-
bis .85 für die Stabilität (Zeitraum vier Wo- pen von Probanden, recht geeignet ist, da es
chen). Diese Werte können als befriedigend auch Dimensionen enthält, die in dieser Form
bezeichnet werden. Zur Bestimmung der Vali- in anderen Inventaren nicht auftauchen. Aller-
dität wird zunächst einmal der übliche Weg der dings sind die meisten dieser Dimensionen
Korrelation mit anderen Selbstbeschreibungs- dann doch mit den fundamentalen Kompo-
instrumenten gewählt. Hier dürfen deutliche nenten anderer Inventare assoziiert. Was die
Zusammenhänge, beispielsweise zwischen der Einzelfalldiagnostik betrifft, so sollte für jede
Skala „Lebenszufriedenheit“ und der Zufrie- Skala geprüft werden, ob die berichteten Relia-
denheit mit der Familiensituation (Fahrenberg bilitäten und Validitäten einen entsprechenden
et al. 2001), natürlich nicht überraschen. Be- Einsatz als angezeigt erscheinen lassen.
deutsamer sind dagegen die registrierten si-
gnifikanten Beziehungen zwischen den FPI-
Skalen und entsprechenden Fremdeinschät-

269
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

10.3 Fragebogen zur Erfassung Bedeutung für das Konstrukt Kontrollüberzeu-


einzelner gung ist dabei der Begriff Erwartung.
Persönlichkeitsmerkmale Erwartungen hinsichtlich des Auftretens be-
stimmter Ereignisse können sowohl spezifisch
Anders als bei den im vorigen Abschnitt dar- als auch generell sein. Spezifische Erwartun-
gestellten Inventaren, in denen es um eine gen bilden sich durch die Registrierung be-
möglichst umfassende Diagnostik der Persön- stimmter Verhaltens-Verstärkerkontingenzen.
lichkeit ging, zielen die nun darzustellenden Erfahrungen, die in vielen Situationen gewon-
Fragebogen darauf ab, ein eingegrenztes Kon- nen wurden und auf die jeweils vorliegende
strukt (oder eine Gruppe eng aufeinander be- Situation übertragbar sind, bezeichnet Rotter
zogener Merkmale) zu operationalisieren. Ver- als generalisierte Erwartungen. Die aktuellen
fahren dieser Kategorie sind in der Regel in Erwartungen, die das konkrete Verhalten in
einer Theorie des interessierenden Sachver- einer Situation wesentlich mitsteuern, werden
haltes (z. B. der Angstbewältigung) begründet. sowohl von spezifischen als auch von gene-
Fragebogen zu spezifischen Konstrukten sind ralisierten habituellen Erwartungen determi-
nicht notwendigerweise eindimensional; ihre niert. Können für eine bestimmte Situation
Struktur wird in der Regel durch (empirisch bereits spezifische Erwartungen herangezogen
überprüfte) Annahmen zum jeweiligen Merk- werden, so haben diese einen großen Einfluss
mal vorgegeben. auf die aktuellen Erwartungen. Liegen in einer
Situation keine oder nur wenige spezifische
Die meisten der hier interessierenden Frage- Erfahrungen vor, so werden die aktuellen Er-
bogen haben einen deutlichen Anwendungs- wartungen und das Verhalten wesentlich durch
bezug, insbesondere für den Bereich der Kli- entsprechende generalisierte Erwartungen de-
nischen Psychologie (z. B. bei Skalen zur De- terminiert.
pression). Derartige Verfahren werden in ent-
sprechenden Kapiteln des Teils V vorgestellt. Rotter hat zwei sehr generelle Erwartungshal-
An dieser Stelle wollen wir uns mit diagnos- tungen genauer beschrieben. Diese Erwartun-
tischen Verfahren für solche Konstrukte be- gen, die das Verhalten in einer Vielzahl ins-
fassen, die eine bereichsübergreifende Bedeu- besondere neuer und mehrdeutiger Situatio-
tung haben. Dabei wollen wir uns exempla- nen mitbestimmen sollen, sind die „Kontroll-
risch auf die Merkmale Kontrollüberzeugung überzeugung“ (locus of control of reinforce-
(einschließlich des verwandten Konstrukts Op- ment) und das „Zwischenmenschliche Vertrau-
timismus), Leistungsmotiviertheit, Ärgeraus- en“ (interpersonal trust). Im Folgenden wollen
druck und -verarbeitung sowie Ängstlichkeit wir uns auf die wesentlich breitere und inten-
und Angstbewältigung konzentrieren (für eine siver erforschte Kontrollüberzeugung konzen-
Übersicht zu diesen Konstrukten siehe Krohne trieren.
& Tausch, 2014).
Kontrollüberzeugung bezieht sich auf die
generalisierte Erwartung einer Person, dass
10.3.1 Kontrollüberzeugung sie entweder auf die Folgen ihres Han-
delns selbst Einfluss nehmen kann, sich
Das Konstrukt der Kontrollüberzeugung wur- also selbst als Verursacher verhaltensabhän-
de von Rotter (1954, 1966) im Rahmen seiner giger Verstärker sieht, oder dass die Folgen
sozialen Lerntheorie entwickelt. Wesentlich ihres Verhaltens außerhalb ihrer Einfluss-
für diese Theorie sind die Begriffe „Erwar- möglichkeiten liegen, also die erfahrenen
tung“ und „Verstärkungswert“. Von zentraler Verstärkungen anderen Instanzen wie Zu-

270
10.3 Fragebogen zur Erfassung einzelner Persönlichkeitsmerkmale

fall, Glück, mächtigen Personen oder Or- mindest für die externale Kontrollüberzeugung
ganisationen zuzuschreiben sind (vgl. auch eine weitere Differenzierung vorzunehmen,
Schneewind, 1984). nämlich die nach „Kontrolle durch mächtige
andere Personen“ (powerful others) und „Kon-
Im ersten Fall spricht man von der Erwartung trolle durch Glück und Zufall“ (chance). Es
internaler Kontrolle der Verstärkung, im zwei- macht für das weitere Verhalten eines Men-
ten Fall von der Erwartung externaler Kontrol- schen nämlich durchaus einen Unterschied, ob
le der Verstärkung. Dabei muss betont werden, er die Kontrolle von für ihn wichtigen Ver-
dass es sich bei der internalen vs. externalen stärkern bei mächtigen anderen Personen oder
Kontrollüberzeugung, wie man auch verkürzt bei glücklichen (bzw. unglücklichen) Zufäl-
sagt, nicht um zwei distinkte Typen von Über- len sieht. Im ersten Fall wird er versuchen,
zeugungen bzw. Erwartungen handelt, sondern sich solchen mächtigen Personen anzuschlie-
um ein hinsichtlich der Ausprägung kontinu- ßen bzw. ihrem Rat oder Vorbild zu folgen
ierlich variierendes bipolares Persönlichkeits- (z. B. bei Ärzten), um bestimmte Verstärker
merkmal. (z. B. Gesundheit) zu erhalten. Im zweiten Fall
wird er eher eine resignative Haltung entwi-
Rotter (1966) hat zur Erfassung der Kontroll-
ckeln. Man spricht deshalb im ersten Fall auch
überzeugung einen Fragebogen entwickelt, der
von „sozialer“, im zweiten von „fatalistischer“
aus 23 Zwangswahlitems besteht. Mit die-
Externalität.
sen wie auch mit einigen neu entwickelten
Skalen wird die Kontrollüberzeugung sehr Levenson (1974) schlägt deshalb drei Dimen-
allgemein, also bereichsunspezifisch, erfasst. sionen zur Erfassung der Kontrollüberzeugung
Nun ist es aber durchaus denkbar, dass Perso- vor: Internale Kontrollüberzeugung (I), sozia-
nen je nach Bereich (z. B. Leistungsverhalten le Externalität (P für „powerful others“) sowie
oder Gesundheit) unterschiedliche Kontroll- fatalistische Externalität (C für „chance“). Er-
überzeugungen entwickelt haben. Derartige fasst werden diese drei Dimensionen mit dem
Erwartungen stehen hinsichtlich ihrer Breite IPC-Fragebogen (Levenson, 1974; siehe auch
zwischen der generalisierten allgemeinen Kon- Mielke, 1982), der auch in einer deutschen Ver-
trollüberzeugung und spezifischen Erwartun- sion von Krampen (1981) vorliegt. Der Test
gen. So gibt es inzwischen Skalen zur Erfas- umfasst dementsprechend drei Subskalen. Je-
sung der Kontrollüberzeugung im Bereich des de Skala besteht aus acht Items, die, anders als
Leistungsverhaltens, Sozialverhaltens, politi- in der ursprünglichen Version von Rotter, auf
schen Verhaltens oder Gesundheitsverhaltens einer sechsstufigen Likert-Skala beantwortet
(Übersicht bei Krampen, 2005). Einige Instru- werden („sehr falsch . . . sehr richtig“). Inzwi-
mente (z. B. für den Gesundheitsbereich) wer- schen liegt mit dem Fragebogen zu Kompetenz-
den wir im Zusammenhang mit anwendungs- und Kontrollüberzeugungen (FKK; Krampen,
bezogenen Testverfahren in Teil V kennenler- 1991) eine Erweiterung des IPC um eine vierte
nen. Skala Selbstkonzept eigener Fähigkeiten vor.
Weiterführende Forschungen befassten sich Ein weiteres erwartungsbezogenes Konstrukt
u. a. mit einer genaueren Differenzierung hin- ist der dispositionelle Optimismus (Scheier &
sichtlich der Ursachen, auf die Personen die Carver, 1985). Optimismus ist die interindivi-
Kontrolle von Verstärkern zurückführen (Le- duell variable Überzeugung, dass Umstände
venson, 1974). Im ursprünglichen Ansatz wur- bzw. Ereignisse, denen der Proband ausgesetzt
den nur zwei Verursacherquellen angenom- ist, generell einen positiven Ausgang nehmen.
men: internale und externale Quellen der Ver- Es handelt sich hier also um eine Situations-
stärkerkontrolle. Nun scheint es sinnvoll, zu- Ergebniserwartung. Gemessen wird diese Er-

271
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

wartung mit dem Life Orientation Test (LOT). das Bedürfnis, Erfolg haben zu wollen in der
In seiner Ursprungsform (Scheier & Carver, Auseinandersetzung mit einem Gütemaßstab
1985) besteht dieser Test aus zwölf Items, von (siehe auch McClelland, 1971). Im Deutschen
denen allerdings vier als „Füllitems“ nicht aus- werden hierfür die Begriffe Leistungsstreben
gewertet werden. (Eine deutsche Version wird bzw. Leistungsmotivation verwendet.
in Wieland-Eckelmann und Carver, 1990, be-
schrieben.) Derartige Füllitems (z. B. „It’s ea- Murray hatte, wie erwähnt, zur empiri-
sy for me to relax“) sollen bei Fragebogen ge- schen Erfassung der Konstrukte seiner Theo-
genüber den Probanden die Messintention ver- rie ein projektives Verfahren, den The-
schleiern. Von den acht kritischen Items spre- matischen Apperzeptionstest (TAT; Murray,
chen je vier einen positiven (z. B. „In uncertain1938), entwickelt. Speziell zur Messung des
times, I usually expect the best“) bzw. nega- Leistungsmotivs und seiner verschiedenen
tiven Ausgang („I hardly ever expect things Komponenten hat Heckhausen (1963) einen
to go my way“) an. Beantwortet werden die Leistungsmotivations-TAT vorgelegt. Auf den
Items auf einer fünfstufigen Skala (von „star- TAT insgesamt wie auch auf dieses speziel-
ke Ablehnung“ bis „starke Zustimmung“). Die le Verfahren wird im I Kap. 11 näher einge-
Werte für die negativen Items werden vor der gangen. Was die Ebene der Q-Daten betrifft,
Verrechnung umgepolt. so enthalten die Inventare PRF von Jackson
(1967) und EPPS von Edwards (1959) jeweils
Problematisch am LOT ist der Umstand, dass eine Unterskala zur Erfassung des Leistungs-
die positiv bzw. negativ formulierten Items strebens.
häufig auf separaten Faktoren laden (Scheier
& Carver, 1985). Dies scheint u. a. daran zu Allerdings haben die umfangreichen Forschun-
liegen, dass einige positiv formulierte Items gen zum Leistungsmotiv, wie sie insbesonde-
eher Bewältigungsstrategien als Optimismus re von McClelland (1971) und Heckhausen
ansprechen (z. B. beim Item „I always look on (1980) durchgeführt wurden, gezeigt, dass die-
the bride side of things“). Derartige Items wur- ses Konstrukt nicht auf eine einzige Dimen-
den bei einer Revision des Tests (Scheier, Car- sion reduziert werden kann. Vielmehr müs-
ver & Bridges, 1994) durch neue Items ersetzt. sen mindestens zwei (miteinander assoziier-
Seine Hauptanwendung findet der LOT bei te) Aspekte am Leistungsmotiv unterschie-
gesundheitlichen Fragestellungen, etwa bei den werden, die Hoffnung auf Erfolg und die
der Vorhersage des Genesungsprozesses nach Furcht vor Misserfolg. Diese beiden Merkma-
Operationen (Übersicht in Scheier & Carver, le und weitere Differenzierungen werden im
1992). Leistungsmotivationstest (LMT) von Hermans,
Petermann und Zielinski (1978) erfasst.
Der LMT besteht aus zwei Hauptdimensio-
10.3.2 Leistungsmotiviertheit nen, denen jeweils 28 Items zugeordnet sind:
Leistungsmotiv (L) und Misserfolgsfurcht (F).
Bei der Behandlung der theoriegeleitet- Jede Dimension ist nochmals in zwei Unter-
deduktiven Strategie der Fragebogenkonstruk- skalen gegliedert; für das Leistungsmotiv sind
tion hatten wir bereits auf die Rolle der in- dies das Leistungsstreben (L1 mit 15 Items)
teraktionistischen Persönlichkeitstheorie Mur- sowie Ausdauer und Fleiß (L2 mit 13 Items),
rays (1938) im Hinblick auf die Konzepti- für die Misserfolgsfurcht sind dies Negative
on verschiedener Testverfahren hingewiesen. Misserfolgsfurcht (F– mit 18 Items) und Posi-
Ein zentrales Persönlichkeitsmerkmal in die- tive Misserfolgsfurcht (F+ mit 10 Items). Leis-
ser Theorie ist der „need achievement“, d. h. tungsstreben thematisiert besonders die Aspek-

272
10.3 Fragebogen zur Erfassung einzelner Persönlichkeitsmerkmale

te Wettbewerb und Orientierung an einem ho- noch genauer kennenlernen werden. Dort
hen Gütemaßstab (Beispielitem: „Mehr zu leis- wird dann auch das L-M-Gitter behandelt.
ten als andere, finde ich wichtig“), während es Das Leistungsmotivationsinventar (LMI;
bei Ausdauer und Fleiß um die Persistenz des Schuler & Prochaska, 2001) unterscheidet 17
Leistungsverhaltens geht („Wenn ich mit einer Dimensionen (u. a. Beharrlichkeit, Lernbereit-
schwierigen Sache beschäftigt bin, bleibe ich schaft, Wettbewerbsorientierung) und dient
meistens dabei“). Die Differenzierung in nega- insbesondere der Berufseignungsdiagnostik
tive und positive Misserfolgsfurcht basiert auf und Personalentwicklung (I Kap. 14).
einer entsprechenden Konzeption, die aus dem
Achievement Anxiety Test (AAT) von Alpert
und Haber (1960) übernommen wurde. Hier- 10.3.3 Ärger und Ärgerausdruck
nach lässt sich eine leistungsfördernde Kom-
ponente der Furcht (F+; Beispielitem: „Wenn
Ärger, Feindseligkeit und Aggression sind drei
ich leicht erregt bin, kann ich besser lernen als
eng aufeinander bezogene Konzepte. Sie be-
sonst“) von leistungsmindernder Furcht (F–:
zeichnen emotionale (Ärger), kognitive (Feind-
„Wenn ich kurz vor einer Prüfung stehe, dann
seligkeit) und verhaltensmäßige (Aggression)
bin ich ziemlich nervös“) unterscheiden.
Aspekte eines komplexen Geflechts interperso-
Für die Items, die nach dem Rasch-Modell naler Beziehungen. Ärger ist eine emotionale
(I Kap. 4) analysiert wurden, stehen je nach Reaktion, die durch Frustration, d. h. das Er-
Unterskala zwei bis vier Antwortalternativen lebnis einer blockierten Zielerreichung bzw.
zur Verfügung. Die Reliabilitäten variieren Bedürfnisbefriedigung hervorgerufen werden
von .62 bis .84 für den Split-half- und von .74 kann (Izard, 1991). Feindseligkeit bezeichnet
bis .84 für den Retest-Koeffizienten (Intervall ein System von Einstellungen, das insgesamt
sechs Wochen). Die Korrelationen zwischen durch eine ausgeprägt negative Haltung zu
den Subskalen sind nur mäßig, am höchsten anderen Personen (teilweise auch Institutio-
fallen sie aus zwischen F+ und F– mit –.43. nen), insbesondere durch Zynismus, Herab-
Für die Validitätsabschätzung werden Korre- setzung anderer sowie Argwohn und Ärger
lationen mit anderen Maßen der Leistungsmo- ihnen gegenüber gekennzeichnet ist. Aggres-
tivation sowie mit Lern- und Leistungswerten sion umfasst alle Verhaltensweisen, die mit
berichtet (Petermann & Zielinski, 1979). Zu der Absicht, andere zu schädigen, ausgeführt
dem Verfahren existiert auch eine Variante für werden. Aggression kann zum einen ärgermo-
Jugendliche (LMT-J; Undeutsch & Hermans, tiviert sein, d. h. das Ziel verfolgen, eine frus-
1976), die neben den genannten Dimensionen trierende Situation zu beseitigen bzw. den Ver-
auch eine Unterskala zur Erfassung der Ten- ursacher der Frustration zu bestrafen. Sie kann
denz zur sozialen Erwünschtheit enthält. aber auch einen „instrumentellen“ Charakter
haben (Bandura, 1973), d. h. durch andere Mo-
Das Leistungsmotivgitter (L-M-Gitter)
tive als den Ärger (z. B. Gewinnstreben) aus-
von Schmalt (1976), formal ein Stimulus-
gelöst worden sein.
Response-Inventar, ist im strengen Sinne kein
Fragebogen, da in ihm keine Selbstauskünfte Ärger kann sich in physiologischen, kogniti-
erhoben werden. Die Antworten werden ven oder verhaltensmäßigen Reaktionen aus-
vielmehr nach einem Prinzip interpretiert – drücken (Schwenkmezger & Hodapp, 1993).
der Identifizierung des Probanden mit dem Dieser Ausdruck wird jedoch durch Strategien
Hauptakteur einer (meist bildlich dargebote- der Ärgerverarbeitung moderiert. Dabei wird
nen) Episode – das wir bei der Darstellung generell zwischen der Tendenz, den Ärger of-
sog. „projektiver“ Verfahren (I Kap. 11) fen (z. B. verbal oder im Ausdrucksverhalten)

273
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

zu äußern (Anger-out) und der Unterdrückung Das STAXI besteht aus fünf Skalen, die drei
des Ärgers (bzw. dessen Ausrichtung gegen Bereichen zugeordnet werden. Der erste Teil
die eigene Person, Anger-in) unterschieden enthält die aus zehn Items bestehende Ska-
(Funkenstein, King & Drolette, 1954). Spiel- la zur Erfassung des aktuellen Ärgerzustands.
berger et al. (1985) haben diese Klassifizie- Mit der Instruktion, sich so zu beschreiben,
rung um die Ärgerkontrolle (Anger Control), wie man sich im Moment fühlt, werden Items
d. h. die sozial angemessene Äußerung des Är- wie „Ich bin aufgebracht“ auf einer vierstu-
gers, erweitert. figen Intensitätsskala (von „überhaupt nicht“
bis „sehr“) beantwortet. Der zweite Bereich er-
Erste Fragebogen, deren Items meistens aus fasst mit zehn Items die dispositionelle Ärger-
dem MMPI stammen, haben diese Differen- neigung. Hier werden Items wie „Ich werde
zierungen oft nur unzureichend berücksich- schnell ärgerlich“ unter der Instruktion, sich so
tigt. Die bekanntesten dieser Verfahren sind zu beschreiben, wie man sich im Allgemeinen
die Cook and Medley Hostility Scale (HO fühlt, auf einer vierstufigen Häufigkeitsskala
Scale; Cook & Medley, 1954), das Hostili- (von „fast nie“ bis „fast immer“) beantwortet.
ty and Direction of Hostility Questionnaire Der dritte Teil enthält drei Skalen mit jeweils
(HDHQ; Foulds, Caine & Creasy, 1960) sowie acht Items zur Erfassung des dispositionellen
das Buss-Durkee Hostility Inventory (BDHI; Ärgerausdrucks. Diese Skalen beziehen sich
Buss & Durkee, 1957; deutsche Version: Kor- auf die Komponenten Anger-in, Anger-out und
nadt, 1982) mit separaten Komponenten für Anger Control. Ihre Items werden ebenfalls auf
die Bereiche Aggression (Gewaltanwendung, einer vierstufigen Häufigkeitsskala beantwor-
indirekte Aggression und Reizbarkeit) sowie tet.
Feindseligkeit (Ärger/Groll, Argwohn).
Eine Weiterentwicklung stellt der STAXI-2
Der Fragebogen zur Erfassung von Aggressi- dar (Spielberger, 2000; deutsche Version von
vitätsfaktoren (FAF; Hampel & Selg, 1975) Rohrmann et al., 2013). In ihr werden einzel-
basiert auf dem Inventar von Buss und Durkee. ne dieser Komponenten noch einmal getrennt
Es unterscheidet die fünf Bereiche Spontane erfasst. So wird beim Ärgerzustand nach dem
Aggressivität, Reaktive Aggressivität, Erreg- Ärgergefühl und dem verbalen sowie physi-
barkeit (Wut und Ärger), Selbstaggression und schen Ausdruck von Ärger und bei der Ärger-
Aggressionshemmung. Die Scores auf den ers- kontrolle zwischen nach innen und nach außen
ten drei Skalen können zu einem Gesamtwert gerichteter Kontrolle unterschieden.
der Aggressivität zusammengefasst werden,
der dem Aggressivitätswert aus dem FPI-R Die Reliabilitäten der Skalen variieren von
(I Übersicht 10.4, S. 269) entspricht. Außer- .71 (für dispositionellen Ärger) bis .95 (für
dem enthält der FAF wie das FPI-R eine Kon- die Zustandsskala). Die Stabilitäten (acht Wo-
trollskala zur Abschätzung der Bereitschaft chen) liegen zwischen .55 (für Anger Control)
zur offenen Beantwortung. und .75 (für dispositionellen Ärger). Hinsicht-
lich der internen Struktur des Inventars zeigen
Bei vielen dieser und ähnlicher Verfahren wird sich zwischen der Zustandsskala und den drei
nicht immer deutlich, ob sie eher dispositionel- Skalen des Ärgerausdrucks nur geringe Asso-
le oder aktuelle Merkmale erfassen. Dies gilt ziationen (Schwenkmezger & Hodapp, 1993).
insbesondere, wenn Komponenten wie Ärger Dagegen ist der dispositionelle Ärger hoch mit
oder Wut thematisiert werden. Dieses Defizit Anger-out (um .60) und mit Anger Control
versucht Spielberger (1988) mit dem State- (um –.40) korreliert. Zwischen Anger-out und
Trait Anger Expression Inventory (STAXI) zu Anger Control findet sich eine hohe negative
beheben. Beziehung (um –.55).

274
10.3 Fragebogen zur Erfassung einzelner Persönlichkeitsmerkmale

Zur Bestimmung der Validität wurden u. a. Be- Angstdiagnosen sowie angstabhängigen Ver-
ziehungen mit dem Freiburger Persönlichkeits- haltensindikatoren. Zusammenfassende Dar-
inventar (FPI), dem Streßverarbeitungsfrage- stellungen zur MAS finden sich bei Finney
bogen (SVF; Janke, Erdmann & Kallus, 2002) (1985) sowie Spence und Spence (1966).
sowie verschiedenen psychischen Störungen
Ein Defizit der MAS besteht in der fehlen-
wie Depression, Angstneurose, Migräne (Mül-
den Trennung verschiedener Komponenten der
ler, Bongard, Heiligtag & Hodapp, 2001) ana-
Angst. Gerade im Bereich selbstwertrelevan-
lysiert. Dispositioneller Ärger und Anger-out
ter Situationen (z. B. Prüfungen), in dem sich
zeigen dabei sehr hohe positive und Anger
besonders deutlich Unterschiede im Niveau
Control (etwas niedrigere) negative Korrela-
aktueller Angst als Funktion habitueller Ängst-
tionen mit den FPI-Skalen Erregbarkeit und
lichkeit beobachten lassen (Spielberger, 1966),
Aggressivität, während sich für Anger-in ein
hat sich als Minimaldifferenzierung die Tren-
deutlich anderes Zusammenhangsmuster, mit
nung in eine kognitive („Besorgnis“) und eine
einer positiven Beziehung zur Emotionalität,
emotionale Komponente („Emotionalität“) als
findet. Auch die SVF-Skala Aggression korre-
unverzichtbar erwiesen. Ein weiteres Problem
liert hoch positiv mit Anger-out und hoch ne-
der MAS (wie auch anderer Angsttests) stellt
gativ mit Anger Control. Ärgerkontrolle ist au-
die starke Assoziation mit Indikatoren der De-
ßerdem positiv mit den SVF-Skalen (I Über-
pression dar. Deshalb haben Watson und Clark
sicht 10.5, S. 281) Reaktionskontrollversuche
(1984) diese und weitere damit hoch korre-
und Herunterspielen durch Vergleich mit an-
lierende Tests als Indikatoren eines einzigen
deren assoziiert. Anger-in zeigt dagegen eine
stabilen Persönlichkeitsmerkmals angesehen,
positive Beziehung zur SVF-Skala Soziale Ab-
das sie „Negative Affektivität“ nennen. Da
kapselung. Wie Korrelationen mit der Tendenz
die MAS also nur ein recht undifferenziertes
zur sozialen Erwünschtheit (bzw. zur Offen-
Maß der Angst bereitstellt, dessen empirische
heit im Sinne des FPI) zeigen, sind bis auf
Beziehung zu anderen Merkmalen negativer
Anger-in offenbar alle dispositionellen Skalen
Befindlichkeit zudem noch unklar ist, wird
anfällig für diese Antworttendenz.
sie heute in der Forschung wie auch der dia-
gnostischen Praxis kaum noch verwendet. Sie
stellt allerdings ohne Zweifel einen wichtigen
10.3.4 Ängstlichkeit und
Schritt in der Entwicklung der Angstmessung
Angstbewältigung dar.
Das über lange Zeit am häufigsten eingesetz- An die Stelle der MAS ist, was die Popularität
te Instrument zur Messung der Ängstlichkeit und Verbreitung betrifft, Spielbergers State-
ist die Manifest Anxiety Scale (MAS; Taylor, Trait Anxiety Inventory getreten (STAI; Spiel-
1953). Die Skala wurde aus dem Itempool des berger, 1983; Spielberger, Gorsuch & Lushene,
MMPI entwickelt. Nach verschiedenen Ana- 1970; Übersicht bei Spielberger & Sydeman,
lysen wurden 50 Items ausgewählt, die nach 1994). Das STAI besteht aus zwei getrennten
Expertenbeurteilung ängstliche Personen von Skalen zu je 20 Items, von denen eine, analog
nichtängstlichen trennen sollten. In einer Viel- zum STAXI, über die Instruktion, den „augen-
zahl von Untersuchungen konnte die ausge- blicklichen Gefühlszustand“ zu beschreiben,
zeichnete Reliabilität (speziell die interne Kon- die aktuelle Angst bzw. Zustandsangst („A-
sistenz) der MAS bestätigt werden. Hinsicht- State“) und die andere über die Anweisung,
lich der Validität zeigten sich durchgängig anzugeben, wie man „sich im Allgemeinen
statistisch bedeutsame Zusammenhänge mit fühlt“, die Ängstlichkeit („A-Trait“) erfassen
anderen wichtigen Angsttests, mit klinischen soll. Die Items der A-State-Skala enthalten

275
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

Formulierungen wie „Ich bin aufgeregt, be- Allerdings hat sich in verschiedenen Untersu-
kümmert, besorgt, ruhig, gelöst oder nervös“ chungen gezeigt, dass sich die angstpositiven
und werden auf einer vierstufigen Intensitäts- und -negativen Items deutlich auf zwei Fak-
skala (von „überhaupt nicht“ bis „sehr“) be- toren aufteilen, deren Scores nicht sehr hoch
antwortet. Items wie „Ich bin gelöst“ zeigen, korreliert sind (u. a. Mook, van der Ploeg &
dass die Skala auch „angstnegative“ Aussa- Kleijn, 1992; Spielberger, Vagg, Barker, Don-
gen enthält (die bei Berechnung des Gesamt- ham & Westberry, 1980). Daneben waren die
scores natürlich umgepolt werden). Die A- Mittelwerte der negativen Items (nach Um-
Trait-Skala enthält sehr heterogen formulier- polung) statistisch signifikant höher als die
te Aussagen – von Items, die in dieser Form der angstpositiven Items, wobei dieser Unter-
auch in der A-State-Skala auftauchen („Ich schied für die State-Skala deutlicher ausfiel
bin zufrieden“), bis hin zu offensichtlich „dis- als für die Trait-Skala.
positionellen“ Beschreibungen (z. B. „Enttäu-
Ein weiteres Problem des STAI besteht darin,
schungen nehme ich so schwer, dass ich sie
dass sich mit Hilfe der A-Trait-Skala in ers-
nicht vergessen kann“). Die Skala wird auf
ter Linie Reaktionsunterschiede in selbstwert-
einer vierstufigen Häufigkeitsskala („fast nie“
bedrohlichen Situationen vorhersagen lassen
bis „fast immer“) beantwortet.
(Laux & Glanzmann, 1996; Schwenkmezger,
Eine wesentliche Voraussetzung für die Ver- 1985). Diese Skala ist also gar kein allgemei-
wendung der beiden STAI-Skalen als Indika- ner Ängstlichkeitstest, sondern ein, allerdings
toren des Angstzustands bzw. der Ängstlich- nicht zu diesem speziellen Zweck konstruier-
keit besteht darin, dass die Scores der A-Trait- tes, Instrument zur Erfassung von Bewertungs-
Skala bei Messungen in Situationen unter- ängstlichkeit. Schließlich misst das STAI, ähn-
schiedlich hoher Bedrohlichkeit stabil bleiben, lich wie die MAS, nicht nur Angst bzw. Ängst-
während das Niveau der Antworten auf der lichkeit, sondern ein Amalgam aus Angst, ne-
State-Skala mit dem situativen Bedrohungsge- gativer Affektivität und Depression (Laux &
halt variiert. Die Erfüllung dieser Bedingung Glanzmann, 1996). Dies ist allerdings, wie be-
konnte empirisch durchgängig gesichert wer- reits erwähnt, ein Problem der meisten Angst-
den (Schwenkmezger, 1985). fragebogen.
Ein Problem des STAI liegt darin, dass in Das State-Trait-Angst-Depressions-Inventar
beiden Skalen Aussagen, die Abwesenheit (STADI; Laux, Hock, Bergner-Köther, Hod-
von Angst ansprechen (z. B. „gelöst“), bei der app & Renner, 2013) versucht, die Vorteile des
Verrechnung einfach umgepolt werden und STAI (ein ökonomisch einsetzbares Verfahren
auf diese Weise zu einem einzigen Angst- zur Angstmessung) zu bewahren und gleich-
score beitragen. Für dieses Vorgehen werden zeitig dessen Schwächen (u. a. Konfundierung
generell zwei Gründe genannt (Spielberger, angstrelevanter und depressionsbezogener In-
1983): Zum einen soll dieses Testdesign das halte in den Items) zu vermeiden. Das Inventar
Instrument hinsichtlich der Messintention für besteht aus zwei Teilen zur separaten Erfas-
den Probanden weniger durchschaubar ma- sung von Angst und Depression. Jeder dieser
chen. Zum anderen sollen die angstpositiv bzw. Teile hat wiederum eine State- und eine Trait-
-negativ formulierten Items in verschiedenen version, wobei sich diese Versionen nicht nur
Bereichen der Stressbelastung (negative Items in der Instruktion („augenblicklich“ vs. „im
bei niedrigem und positive bei hohem Stress) Allgemeinen“), sondern auch in den Iteminhal-
sensitiv sein (sog. „itemspezifische Sensitivi- ten unterscheiden. In beiden Versionen werden
tät“), damit die Skala auch in Extrembereichen jeweils zwei Angst- und Depressionskompo-
der Belastung noch zwischen Personen trennt. nenten separat erfasst, so dass jeder Teil also

276
10.3 Fragebogen zur Erfassung einzelner Persönlichkeitsmerkmale

Tab. 10.2 Beispielitems zu den einzelnen Skalen des STADI

Skala Beispielitem
State-Aufgeregtheit „Mein Herz schlägt schnell“
State-Besorgnis „Ich grüble über meine Situation“
State-Euthymie „Ich bin ich bin gut drauf“
State-Dysthymie „Ich bin schlechter Stimmung“
Trait-Aufgeregtheit „Ich werde leicht nervös“
Trait-Besorgnis „Ich fürchte mich vor dem, was auf mich zukommt“
Trait-Euthymie „Ich genieße das Leben“
Trait-Dysthymie „Ich bin niedergeschlagen“

aus vier Subskalen besteht, denen jeweils fünf bei nachweisen, dass dieser Befund in erster
Items zugeordnet sind (I Tab. 10.2). Für die Linie durch die hohe Assoziation der Angst-
Angst sind das die bereits genannten Kompo- komponente Besorgnis mit der Depressions-
nenten Aufgeregtheit/Emotionalität und Be- komponente Dysthymie zustandekommt, was
sorgnis, für die Depression Dysthymie (die sich auch inhaltlich rechtfertigen lässt.
allgemeine negative Befindlichkeit) und Eu-
Ein mehrdimensionales Verfahren zur Angster-
thymie (das Vorhandensein positiver Affekte).
fassung ist der Interaktions-Angst-Fragebogen
Für die Erfassung der Depression werden die
(IAF) von Becker (1982). Der IAF setzt sich
Euthymiewerte invertiert, so dass Depression
aus verschiedenen faktorenanalytisch gewon-
durch die Anwesenheit negativer bei gleich-
nenen Subskalen zusammen, die sich auf un-
zeitiger Abwesenheit positiver Affekte (Anhe-
terschiedliche Situationsklassen beziehen. Die
donie) bestimmt wird. Die Antwortskala ist
Skalen 1 bis 6, die aus insgesamt 55 Items
dieselbe wie im STAI.
bestehen, repräsentieren die Primärfaktoren
Exploratorische und konfirmatorische Analy- „Angst vor physischer Verletzung“ (Skala 1),
sen konnten die Gültigkeit dieser angenomme- „... Auftritten“ (2), „... Normüberschreitung“
nen vierfaktoriellen Struktur (Aufgeregtheit, (3), „... Erkrankungen und ärztlichen Behand-
Besorgnis, Dysthymie und Euthymie) stützen. lungen“ (4), „... Selbstbehauptung“ (5) sowie
Mit Hilfe des Latent-State-Trait-Ansatzes wur- „... Abwertung und Unterlegenheit“ (6). Die
de geprüft, ob die Trait-Skalen stabile Persön- Items werden auf einer asymmetrischen sie-
lichkeitsmerkmale erfassen (hohe Konsistenz), benstufigen Skala beantwortet, mit den Stufen
also auf situative Veränderungen vergleichs- 1 und 2 für „ziemlich“ bzw. „ein wenig ange-
weise wenig ansprechen (geringe Spezifität), nehm“, der neutralen Stufe 3 („weder noch“)
und die State-Skalen umgekehrt situations- und dem „unangenehmen“ Bereich von 4 („ein
spezifische Reaktionen indizieren. Auch die- wenig“) bis 7 („äußerst“). Die Scores der Ska-
se Voraussetzungen waren beim STADI im len 1, 4 und 6 bzw. 2 und 5 lassen sich zu zwei
Wesentlichen gegeben. Die Reliabilitäten der weiteren, Sekundärfaktoren entsprechenden,
Einzelskalen fallen mit Werten von über .80 Skalen 7 („Angst vor physischen und psychi-
gut aus. Allerdings zeigte auch diese Neuent- schen Angriffen“) bzw. 8 („Angst vor Bewäh-
wicklung, dass zwischen Angst und Depres- rungssituationen“) zusammenfassen. Die Ska-
sion, wenn diese Merkmale subjektiv erfasst la 3 („Normüberschreitungen“) wird separat
werden, eine substantielle Korrelation besteht. ausgewertet und interpretiert. Für die insge-
Die konfirmatorischen Analysen konnten da- samt acht Skalen werden Reliabilitätskoeffi-

277
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

zienten (interne Konsistenz und Testwieder- zierung im Test Anxiety Inventory (TAI) von
holung mit Intervallen von fünf Tagen bis zu Spielberger (1980) .
einem Jahr) zwischen .64 und .91 berichtet.
Das TAI besteht aus 20 Items, die auf einer
In einer Neuauflage (Becker, 1997) werden
vierstufigen Häufigkeitsskala zu beantworten
diesen noch zwei weitere abgeleitete Skalen
sind. Eine Faktorenanalyse des TAI resultierte
hinzugefügt: (9) Angst vor Missbilligung und
in einer Emotionalitäts- und einer Besorgnis-
(10) globale Angstneigung.
komponente, wobei allerdings nur jeweils acht
Die Anzahl der Situationen oder Objekte, vor Items einer dieser beiden Subskalen zugeord-
denen sich einzelne Menschen fürchten (z. B. net werden konnten. Die restlichen vier Items
Prüfungen, Turnübungen, Operationen, Arzt-, werden nur bei Berechnung eines Gesamt-
speziell Zahnarztbesuche, Spinnen, Schlangen, scores der Prüfungsängstlichkeit berücksich-
Gewitter, Kernreaktoren), ist unüberschaubar tigt. Die psychometrische Qualität des Inven-
groß. Ein Blick in einschlägige Darstellungen tars ist sehr gut, die Reliabilitäten liegen für
klinisch auffälliger (d. h. behandlungsbedürfti- die beiden Subskalen durchweg über .85, für
ger) Angstneigungen (z. B. Strian, 1983) kon- die Gesamtskala sogar um .95. Für die Stabi-
frontiert den Leser mit einer Vielfalt mitunter lität fanden sich Werte zwischen .62 (sechs
sehr spezifischer Ängste. In diesem Abschnitt Monate) und .81 (ein Monat). Das TAI ist
sollen exemplarisch einige Verfahren zur Er- inzwischen ein recht populärer Test gewor-
fassung derartiger bereichsspezifischer Angst- den, der nicht nur in viele Sprachen übersetzt,
neigungen vorgestellt werden. Wir konzentrie- sondern auch in zahlreichen Validitätsstudi-
ren uns dabei auf die drei großen Bereiche en überprüft wurde (Dokumentationen u. a. in
der Bewertungsängstlichkeit, sozialen Ängst- Hagtvet, 1992). Dabei zeigten sich generell ne-
lichkeit und Angst vor physischer Verletzung gative Beziehungen zwischen den TAI-Skalen
(Krohne, 2010). und Prüfungsleistungen, die für die Besorg-
niskomponente etwas, aber in der Regel nicht
Verfahren zur Messung von Bewertungsängst-
substanziell, stärker ausfielen als für die Emo-
lichkeit treten unter verschiedenen Namen auf,
tionalitätsvariable.
unter denen Termini wie Leistungsangst, Prü-
fungsangst oder Testangst die häufigsten sind. Hodapp, Rohrmann und Ringeisen (2011) ha-
Es handelt sich hierbei um Angst vor Situa- ben mit dem Prüfungsangstfragebogen (PAF)
tionen, in denen es zu einer Bedrohung des inzwischen eine völlige Neukonstruktion des
Selbstwertgefühls kommen kann (Wine, 1982). TAI vorgelegt. Durch 80 gezielt ausgewähl-
Wesentlich für die derzeit in diesem Bereich te Items sollte zunächst der Bereich der Be-
eingesetzten Messinstrumente ist die von Lie- sorgniskognitionen differenzierter abgebildet
bert und Morris (1967) vorgenommene Ein- werden. Das wurde erreicht, indem Items aus
teilung der Prüfungsangst in eine Besorgnis- den Kategorien Besorgtheit über mangelnde
und eine Emotionalitätskomponente (worry Bewältigungsmöglichkeiten, Selbstzweifel so-
und emotionality). Bei der Besorgnis handelt wie Antizipation von negativen Handlungser-
es sich um kognitive Reaktionen, die gene- gebnissen und Ergebniskonsequenzen in den
rell Misserfolgserwartungen zum Inhalt haben Pool aufgenommen wurden. Darüber hinaus
(z. B. „Hinsichtlich meiner Prüfungsleistung wurden Items aus dem Feld der bisher in derar-
bin ich nicht sehr zuversichtlich“). Emotio- tigen Inventaren vernachlässigten Zuversichts-
nalität bezeichnet demgegenüber die (selbst- kognitionen (Selbstbewertung, Erwartung po-
berichtete) Aufgeregtheit („In Prüfungssitua- sitiver Handlungsergebnisse und Ergebniskon-
tionen gerate ich ins Schwitzen“). Ihren dia- sequenzen) formuliert. Ein dritter Bereich um-
gnostischen Niederschlag fand diese Differen- fasste die emotionalen Reaktionen (ergänzt um

278
10.3 Fragebogen zur Erfassung einzelner Persönlichkeitsmerkmale

Items, die Ruhe und Entspannung thematisie- („In einer großen Gruppe fühle ich mich un-
ren). Ein letzter Block bestand aus Kognitio- wohl“). Dabei fällt auf, dass sämtliche Items
nen, die mit aufgabenbezogenen Gedanken des zweiten Faktors in Richtung Entspannung
interferieren. und Wohlbefinden formuliert sind. Die Relia-
bilitäten der Skalen sind zufriedenstellend, ih-
Mit Hilfe von Faktoren- und Itemanalysen re Interkorrelationen mit Werten um .45 nur
konnten vier Subskalen mit hoher Reliabili- mittelhoch, was für eine gewisse Unabhängig-
tät (zwischen .84 und .90) gebildet werden: keit dieser Aspekte spricht. Allerdings sind die
Mangel an Zuversicht („Ich denke, dass ich Assoziationen mit dem STAI recht ausgeprägt
alles schaffen werde“), Aufgeregtheit („Ich zit- (um .55). Offenbar steht in allen Skalen das
tere vor Aufregung“), Besorgtheit („Ich mache Thema Selbstwertbedrohung im Vordergrund.
mir Sorgen, ob ich auch alles schaffe“) und
Eine wichtige Voraussetzung für die Auslö-
Interferenz („Mir schießen plötzlich Gedan-
sung von Angst in sozialen Situationen ist die
ken durch den Kopf, die mich blockieren“).
Aufmerksamkeit, die Personen auf die der All-
Über Rasch-Analysen (I Kap. 4) konnte da-
gemeinheit zugänglichen Aspekte des eigenen
bei die Eindimensionalität des Itempools für
Selbst richten. Bei diesem öffentliche Selbst-
drei Skalen gesichert werden. Lediglich für die
aufmerksamkeit genannten Phänomen beschäf-
Skala Besorgtheit musste die Eindimensiona-
tigt sich die Person mit Fragen wie „Was den-
lität nach dem Modell von Rasch in Frage ge-
ken andere von mir?“, „Wie wirke ich auf an-
stellt werden. Die Interkorrelationen der Sub-
dere?“ oder „Könnten andere etwas an mir aus-
skalen weisen mit Werten zwischen .34 und
setzen?“. Davon zu unterscheiden ist die priva-
.58 ein günstiges Muster auf. Sie sind hoch
te Selbstaufmerksamkeit, bei der sich die Per-
genug, um jede Skala als Test einer Ängstlich-
son auf eigene Stimmungen, Gefühle, Motive,
keitskomponente zu bezeichnen, aber nicht so
Gedanken, Einstellungen u. Ä. konzentriert.
hoch, dass nicht mehr von einer für jede Ska-
Diese beiden Variablen sind mit unterschiedli-
la spezifischen Varianzaufklärung gesprochen
chen Verhaltensaspekten verbunden. Personen,
werden kann.
die habituell zu vorzugsweise negativ akzentu-
ierter öffentlicher Selbstaufmerksamkeit ten-
Erste Fragebogen zur Erfassung der sozialen
dieren, reagieren in interpersonalen Situatio-
Ängstlichkeit gingen von einem einheitlichen
nen verstärkt mit Angst. Zur Erfassung dispo-
Merkmal aus (vgl. die Skala Soziale Angst
sitioneller öffentlicher und privater Selbstauf-
und Furcht vor Publikum von Lück, 1971).
merksamkeit haben Fenigstein, Scheier und
Eine Differenzierung vollzogen Vormbrock
Buss (1975) die Self-Consciousness Scale ent-
und Neuser (1983) mit ihren Skalen Angst
wickelt, von der auch eine deutsche Adaptati-
vor negativer Bewertung (SANB) und Vermei-
on, der Fragebogen zur Erfassung dispositio-
dung sozialer Situationen (SVSS). Während
neller Selbstaufmerksamkeit (SAM) von Fil-
sich in Faktorenanalysen die SANB (typisches
ipp und Freudenberg (1989), existiert.
Item: „Ich fürchte, Falsches zu tun oder zu
sagen“) als faktoriell homogen erwies, ließen Anders als bei der Bewertungsangst und der
sich an der SVSS drei Komponenten unter- mit ihr verwandten sozialen Angst wurden zur
scheiden: Vermeidung unbekannter Personen Erfassung der Angst vor physischer Verletzung
(„Ich fühle mich unwohl, wenn ich mit einer bislang nur wenige eigenständige Testverfah-
Gruppe von Leuten zusammen bin, die ich ren entwickelt. Diese beziehen sich zudem
nicht gut kenne“), Befindlichkeit in sozialen häufig noch auf einen sehr eng umgrenzten
Situationen („In einer Gruppe fühle ich mich Bereich physischer Ängste, z. B. die Angst
entspannt“) und Angst vor großen Gruppen vor zahnärztlichen Behandlungen. Mack und

279
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

Schröder (1977) konstruierten auf faktoren- Verfahren zur Erfassung dispositioneller For-
analytischer Grundlage, jeweils für Erwachse- men der Angst- (bzw. allgemeiner) Stressbe-
ne und Kinder getrennt, eine Angst-Symptom- wältigung lassen sich in drei Kategorien ein-
Liste (AL), deren Items sich insbesondere auf ordnen (Krohne, 2010). Bei mikroanalytischen
physische Gefährdungen beziehen. So erfas- Ansätzen wird eine größere Anzahl sehr spe-
sen spezifische Unterskalen die Ängste im me- zifischer Reaktionstendenzen erfasst. Makro-
dizinischen Bereich (Spritzen bekommen, be- analytisch orientierte Tests operieren demge-
vorstehende Operationen, Blutentnahme), bei genüber auf einem höheren Aggregationsni-
Verkehrsmitteln (Straße überqueren, Flugzeu- veau, betrachten also nur wenige, sehr breite
ge, im Fahrstuhl sein) sowie vor Tieren und und diesen Einzeltendenzen gewissermaßen
(Natur-) Gewalt (tote Tiere, Waffen, Blitz). übergeordnete Bewältigungsformen. Prozess-
Ein vierter Bereich bezieht sich auf soziale orientierte Ansätze versuchen, das komplexe
Ängste, bei Kindern kommen noch die Felder Zusammenwirken von Belastungssituationen,
Schule und Trennung/Unbekanntes hinzu. deren Bewertung durch die betroffene Person,
die Auslösung von Bewältigungsreaktionen
Zur Erfassung der Angst vor zahnmedizini- sowie die Registrierung von Bewältigungsef-
scher Behandlung wird häufig die Dental An- fekten diagnostisch abzubilden.
xiety Scale (DAS) von Corah, Gale und Illig
(1978) herangezogen, deren vier Items auf ei- Zu jeder Kategorie soll ein etabliertes Verfah-
ner fünfstufigen Skala zu beantworten sind. ren exemplarisch dargestellt werden. Für mi-
Ein weiteres Instrument ist das aus 20 Items kroanalytische Ansätze steht der Streßverar-
bestehende Dental Fear Survey (DFS) von beitungsfragebogen (SVF; Janke et al., 1985).
Kleinknecht, Klepac und Alexander (1973). Makroanalytisch orientiert ist dagegen das
Stouthard, Mellenbergh und Hoogstraten Angstbewältigungs-Inventar (ABI) von Kroh-
(1993) unterscheiden in ihrem Dental Anxiety ne und Egloff (1999). Beispiel eines pro-
Inventory (DAI) vier Zeitabschnitte (zu Hause, zessorientierten Verfahrens ist der Fragebo-
auf dem Weg zum Zahnarzt, im Wartezimmer, gen zum Umgang mit Belastungen im Verlauf
im Behandlungsstuhl), drei Situationen (ein- (UBV; Reicherts & Perrez, 1993).
leitende Aspekte, Zahnarzt-Patientinteraktion,
aktuelle Behandlung) und drei Reaktionsmodi Der SVF wurde weitgehend ohne Rückgriff
(subjektive Gefühle, körperliche und kogni- auf theoretische Vorannahmen erstellt. Auf
tive Reaktionen). Durch Kombination dieser die allgemeine Beschreibung einer Belas-
Aspekte formulierten sie 36 Items, die auf ei- tung („Wenn ich durch irgend etwas oder ir-
ner fünfstufigen Skala zu beantworten sind. gend jemanden beeinträchtigt, innerlich erregt
Die Reliabilitäten dieser Skala wie auch einer oder aus dem Gleichgewicht gebracht worden
aus neun Items bestehenden Kurzform sind bin...“) müssen 114 Items (z. B. „...erwarte
sehr hoch. ich Hilfe von anderen“) auf einer fünfstufi-
gen Skala (von „gar nicht“ bis „sehr wahr-
Die auf Operationen und invasive diagnosti- scheinlich“) beantwortet werden. Diese Items
sche Eingriffe allgemein bezogene dispositio- verteilen sich auf 19 Subtests, welche die in
nelle und aktuelle Angst kann mit dem In- I Übersicht 10.5 dargestellten Bewältigungs-
ventar State-Trait-Operations-Angst (STOA; strategien operationalisieren sollen. In der re-
Krohne & Schmukle, 2006) erfasst werden. vidierten Fassung (SVF 120) tritt noch der
Dieses Verfahren wird in dem Abschnitt über Subtest Entspannung mit 6 Items hinzu. Au-
die Erfassung von Zuständen ausführlicher ßerdem existiert eine Kurzform mit 13 Skalen
vorgestellt. (SVF 78) sowie eine Version für Kinder und

280
10.3 Fragebogen zur Erfassung einzelner Persönlichkeitsmerkmale

Übersicht 10.5 Bewältigungsstrategien des SVF (bzw. SVF 120).

1 Bagatellisierung2 11 Vermeidenstendenz
2 Herunterspielen durch Vergleich 12 Fluchttendenz
mit anderen 13 Soziale Abkapselung2
3 Schuldabwehr 14 Gedankliche Weiterbeschäftigung
4 Ablenkung von der Situation 15 Resignation
5 Ersatzbefriedigung 16 Selbstbemitleidung2
6 Suche nach Selbstbestätigung2 17 Selbstbeschuldigung
7 Situationskontrollversuche 18 Aggression2
8 Reaktionskontrollversuche 19 Pharmakaeinnahme
9 Positive Selbstinstruktion 20 Entspannung1, 2
1
10 Bedürfnis nach sozialer Unterstützung Nur SVF 120. 2 Nicht im SVF 78.

Jugendliche (SVF-KJ; Hampel, Petermann & in der Regel nicht aus, um die Funktionali-
Dickow, 2001). tät eines bestimmten Verhaltens beurteilen zu
können. Entsprechend werden seine Antwor-
Faktorenanalysen der SVF-Skalen an verschie- ten eher unverbindlich bleiben.
denen Stichproben ergaben drei gut definierte
Faktoren, während sich zwei bis drei weitere Das ABI ist nach dem Vorbild der in der Angst-
Komponenten auf weniger klar bestimmbare forschung seit langem eingeführten Situations-
Bereiche bezogen. Die drei Hauptfaktoren lie- Reaktions-Inventare konstruiert und dient der
ßen sich als „Emotionale Betroffenheit und separaten Erfassung der beiden zentralen
Aufgeben“, „Aktive Kontrollversuche“ und Angstbewältigungsdimensionen Vigilanz und
„Kognitive Bewältigung durch Bewertungsver- kognitive Vermeidung. Es hat seine theoreti-
änderung“ interpretieren. sche Grundlage im Modell der Bewältigungs-
modi (MBM; Krohne, 2010). Das MBM be-
Die Reliabilitäten der einzelnen Subskalen schreibt und erklärt individuelle Unterschie-
sind mit Werten von .67 (Pharmakaeinnahme) de bei der Verhaltens- und Emotionsregulati-
bis .92 (gedankliche Weiterbeschäftigung) für on in belastenden Situationen. Es postuliert,
die interne Konsistenz und .69 (Situationskon- dass Personen, die die in derartigen Situatio-
trollversuche) bis .86 (Pharmakaeinnahme) für nen ausgelöste emotionale Erregung beson-
die Testwiederholung (Intervall vier Wochen) ders schlecht ertragen können, vermehrt kogni-
zufriedenstellend. Was die Validität betrifft, so tiv vermeidende Bewältigungsstrategien ein-
finden sich erwartungsentsprechende konver- setzen. Dagegen sollen Personen, die durch
gente und diskriminante Beziehungen zu an- Unsicherheit besonders belastet sind, vermehrt
deren Persönlichkeitsskalen. Dagegen scheint zu vigilanter Bewältigung tendieren.
die Vorhersage aktuellen Bewältigungsverhal-
tens in realen und vorgestellten Stresssituatio- Bei den Dimensionen Vigilanz (VIG) und ko-
nen nicht überzeugend zu gelingen (vgl. u. a. gnitive Vermeidung (KOV) handelt es sich um
Kröner-Herwig & Weich, 1990). Der Grund separate Persönlichkeitsvariablen (also nicht
für diese relativ schwache Vorhersage aktu- um die Pole einer Dimension). Das spezifi-
ellen Bewältigungsverhaltens dürfte im man- sche Ausprägungsmuster einer Person auf bei-
gelnden Situationsbezug des SVF liegen. Die den Dimensionen wird Bewältigungsmodus
Beschreibung einer Situation als erregend oder genannt. Von besonderem diagnostischen In-
beeinträchtigend reicht für einen Probanden teresse sind dabei die Modi Repression (hohe

281
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

Tab. 10.3 Die Situation „Stadt“ aus dem ABI-P mit Reaktionsmöglichkeiten

Stellen Sie sich vor, Sie gehen spätabends allein durch die Stadt. Aus einer Seitengasse nähert
sich eine Gruppe von Leuten, die Ihnen irgendwie nicht ganz geheuer vorkommt.
In dieser Situation . . .
1. . . . bleibe ich ganz ruhig. KOV
2. . . . überlege ich, was sie vorhaben könnten. VIG
3. . . . überlege ich, wie ich bei Gefahr Hilfe herbeiholen könnte. VIG
4. . . . sage ich mir: „Die waren sicher vorher in der Kneipe und gehen jetzt KOV
nach Hause“.
5. . . . betrachte ich mir ein Schaufenster. KOV
6. . . . beobachte ich die Leute genau. VIG
7. . . . sage ich mir: „ Hier hätte ich auch wirklich nicht langgehen sollen.“ VIG
8. . . . tue ich so, als gingen mich die Leute nichts an. KOV
9. . . . fallen mir ähnliche Situationen ein. VIG
10. . . . sage ich mir, die Leute sind vermutlich ganz harmlos. KOV
Anmerkung. KOV = kognitiv vermeidende Strategie, VIG = vigilante Strategie.

kognitive Vermeidung und niedrige Vigilanz) vorgegebenen Situation generell nie bzw. sel-
und Sensitization (niedrige kognitive Vermei- ten („trifft nicht zu“) oder häufig („trifft zu“)
dung und hohe Vigilanz). einsetzt. Die Antworten auf die Vigilanz- und
Vermeidensitems werden innerhalb jedes Sub-
Im ABI werden acht fiktive Bedrohungssze- tests getrennt aufsummiert, so dass vier Scores
narien vorgegeben, in die sich der Proband dispositioneller Bewältigung berechnet wer-
hineinversetzen soll („Stellen Sie sich vor, den: Vigilanz bei Selbstwertbedrohung (VIG-
. . . “). Diese Szenarien teilen sich gleichmä- E) und physischer Bedrohung (VIG-P) sowie
ßig auf die beiden in der Literatur beschrie- kognitive Vermeidung in diesen beiden Berei-
benen großen Gruppen von Bedrohung (Ego- chen (KOV-E und KOV-P). Die Subtests kön-
bzw. Selbstwertbedrohung und physische Be- nen auch unabhängig voneinander dargeboten
drohung; Subtests E und P) auf (I Tab. 10.3). werden. Bei gemeinsamer Darbietung können
Sie weisen durchgängig eine erhöhte Bedroh- zusätzlich noch die Gesamtscores VIG-T und
lichkeit auf, variieren aber hinsichtlich der zen- KOV-T berechnet werden.
tralen bewältigungsrelevanten Merkmale Vor-
hersagbarkeit und Kontrollierbarkeit (Egloff VIG und KOV sind generell moderat ne-
& Krohne, 1998). Jedem Szenarium sind je gativ assoziiert (um –.25). Hauptkomponen-
fünf vigilante und kognitiv vermeidende Be- tenanalysen der über die acht Szenarien ge-
wältigungsstrategien zugeordnet, die in ihrer trennt aufsummierten Antworten auf VIG- und
konkreten Formulierung an die Situationsbe- KOV-Strategien ergaben eine Zweifaktorenlö-
schreibung angepasst sind. Beispiele vigilanter sung mit eindeutiger Trennung von VIG- und
Strategien sind Informationssuche oder Antizi- KOV-Items. Die Reliabilität liegt zwischen .71
pation negativer Ereignisse, Beispiele vermei- (KOV-P) und .86 (VIG-T), die Stabilität (In-
dender Strategien sind Ablenkung oder Beto- tervall 1 Woche) zwischen .88 und .92. Das
nung der positiven Aspekte. Der Proband gibt registrierte Netzwerk von Beziehungen zwi-
für jede Strategie an, ob er diese in der jeweils schen den ABI-Dimensionen und anderen In-

282
10.3 Fragebogen zur Erfassung einzelner Persönlichkeitsmerkmale

dikatoren von Angst, Emotionalität und Be- die objektive Wahrscheinlichkeit, mit der ein
wältigung bestätigt die konkurrente und diskri- Stressor innerhalb eines definierten Zeitrau-
minante Validität des ABI. Vigilanz hängt zu- mes zum Guten beeinflusst werden kann) so-
sammen mit Ängstlichkeit, Neurotizismus, ge- wie die Wandelbarkeit (die Wahrscheinlich-
danklicher Weiterbeschäftigung, vermehrtem keit, mit der sich eine Situation auch ohne
Symptomberichten sowie externaler Kontroll- Zutun der Person zum Guten verändert). Wei-
überzeugung. Kognitive Vermeidung ist dem- tere objektive Parameter sind die Valenz (bzw.
gegenüber positiv korreliert mit Extraversion, Ereignisintensität), die Häufigkeit sowie das
positiver Affektivität, Optimismus, Kompe- Merkmal Verlust vs. Bestrafung/Aversivität.
tenzerwartung sowie internaler Kontrollüber- (Im erstgenannten Fall entsteht die Belastung
zeugung. Weitere Belege für die Validität des durch Wegfall einer angenehmen Komponen-
ABI liefern Ergebnisse experimenteller Unter- te, im zweiten Fall durch Hinzufügen eines
suchungen, u. a. zur Emotionsregulation, Infor- unangenehmen Tatbestands.) Während die Va-
mationsverarbeitung oder perioperativer An- riable Verlust bzw. Bestrafung zur Klassifika-
passung (zusammenfassend in Krohne, 2003, tion verschiedener fiktiver Belastungssituatio-
2010; Krohne & Hock, 2011). nen herangezogen wird, dienen die Parameter
Valenz, Kontrollierbarkeit, Wandelbarkeit und
Die Autoren des UBV haben sich das Ziel ge-
Häufigkeit der Konstruktion von Skalen zur
setzt, anhand hypothetischer alltagsnaher Be-
Situationseinschätzung.
lastungssituationen die verschiedenen Kompo-
nenten im Umgang mit Stressoren im Verlauf
Die Autoren konstruierten auf diese Weise
zu erfassen. Sie betrachten dabei die Kompo-
18 Belastungsepisoden aus verschiedenen Le-
nenten Situationseinschätzungen, emotionale
bensbereichen, die sie in drei Phasen glieder-
Reaktionen, Bewältigungsintentionen, Bewäl-
ten: das Auftreten einer Belastung, ihr Fort-
tigungsverhalten sowie Bewertung der Ergeb-
bestehen und ihr vorläufiger positiver oder
nisse (speziell unter dem Aspekt der Ursachen-
negativer Ausgang. Zu jeder Phase erfolgt
zuschreibung). Da die hypothetischen Situatio-
eine ausführliche Beschreibung der Situati-
nen als repräsentative Beispiele für allgemei-
on (I Tab. 10.4). Nach jeder Phase werden
ne alltagsnahe Stressoren angesehen werden,
verschiedene Reaktionsvariablen erhoben. Zu-
können die jeweiligen Reaktionen über die Si-
nächst werden auf einer sechsstufigen Skala
tuationen aggregiert und somit als Indikatoren
mit Hilfe dreier Eigenschaftspaare die emotio-
habitueller Tendenzen des Umgangs mit Stres-
nalen Reaktionen Angst, Deprimiertheit und
soren interpretiert werden.
Aggressivität sowie (als zusammengefasster
Für die Komponente Situation weisen die Au- Wert) negative Emotionalität erfasst. Sodann
toren darauf hin, dass diese sowohl hinsicht- werden die Situationseinschätzungen hinsicht-
lich ihrer objektiven Charakteristika als auch lich Wandelbarkeit, Kontrollierbarkeit, nega-
nach der Art der subjektiven Einschätzung tive Valenz und Vertrautheit/Häufigkeit regis-
durch die betroffene Person beschrieben wer- triert, wobei die Valenz über alle drei, die üb-
den muss. So kann die Adaptivität eines Be- rigen Variablen nur für die ersten beiden Pha-
wältigungsverhaltens nicht in erster Linie über sen erhoben werden. Der dritte Variablenblock
den Rückgriff auf die Situationswahrnehmung operationalisiert Bewältigungsintentionen, die
der Person bestimmt werden, da diese ja selbst nur für die Phasen 1 und 2 erfasst werden. Für
bereits durch antizipierte Ergebnisse von Be- alle Situationen werden die Ziele Aufrechter-
wältigungsbemühungen mit determiniert sein halten des emotionalen Gleichgewichts und
kann. Als adaptationsrelevante Parameter be- Selbstwertschutz, für Verlustepisoden zusätz-
trachtet der UBV die Kontrollierbarkeit (d. h. lich Verlust abwenden sowie Verlust substitu-

283
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

Tab. 10.4 Eine Stressperiode aus dem UBV

Phase Situation
1. Eintreten Die vergangenen Tage und Wochen im Zusammenleben mit Ihrem
Partner waren nicht leicht. Es gab viele Unstimmigkeiten. Mehr-
mals haben Sie Vorwürfe gegen Ihren Partner gehegt, sie aber
nicht ausgesprochen. Nun macht Ihr Partner in einem Gespräch
Andeutungen, das er Sie zur Zeit „sehr schwierig“ findet.
2. Fortbestehen Etwas später wiederholt Ihr Partner seine unbestimmten Anschuldi-
gungen. Sie können nur ahnen, was hinter seinen Bemerkungen
steckt. Trotz seiner vorwurfsvollen Haltung bleibt Ihr Partner aus-
weichend.
3. Negativer Ausgang Es ist unklar, was Ihr Partner meint. Sie können nur ahnen, worum
es geht. Die gegenseitigen Vorwürfe stehen noch immer im Raum.

ieren und für Bestrafungs- bzw. aversive Epi- riable durch ein mehrstufig zu beantwortendes
soden Stressor beeinflussen sowie Konflikt mit Item repräsentiert, wobei der Gesamtscore aus
Stressor meiden gemessen. den Antworten zu den Situationen, zu denen
dieses Item gegeben wurde, gebildet wird.
Im Zentrum des Ansatzes steht die Erhebung
von Bewältigungshandlungen. Diese werden Die für die Reliabilität der einzelnen Varia-
unterschieden nach selbstbezogener (Informa- blen berichteten Werte von ca. .70 bis .90 sind
tionsunterdrückung, Selbstberuhigung, Infor- zufriedenstellend. Eine Faktorenanalyse legte
mationssuche, Umbewertung, Selbstbekräfti- eine Lösung mit drei Faktoren nahe. Der ers-
gung, Fremd- und Selbstbeschuldigung sowie te Faktor, auf dem die Variablen der emotio-
Suche nach sozialer Unterstützung) und umge- nalen Reaktionen, die negative Valenz sowie
bungsbezogener Bewältigung (für Verlustepi- Fremd- und Selbstbeschuldigung luden, kann
soden aktives Verhindern, Passivität und akti- als affektive Belastungsreaktionen und Beein-
ve Umorientierung und für aversive bzw. stra- trächtigungen interpretiert werden. Der zweite
fende Episoden Passivität, Meiden und aktive Faktor lässt sich als aktives (instrumentelles)
Stressorbeeinflussung). Problemlösen bezeichnen, während die dritte
Komponente Variablen der emotionszentrier-
Nicht alle der auf einer fünfstufigen Skala zu ten Bewältigung vereint.
beantwortenden Items werden dabei für alle
Phasen dargeboten. Zum Abschluss werden Der UBV ist ein sehr durchdachtes Verfahren
Kausalattributionen auf den Dimensionen in- zur systematischen Erfassung der verschiede-
tern (eigenes Verhalten), sozial extern (Verhal- nen Aspekte des Stress- und Bewältigungs-
ten anderer) bzw. fatalistisch extern (Umstän- geschehens. Auch wenn er nur mit fiktiven
de) erhoben. Unabhängig von den 18 Stress- Stressoren und Stressphasen operiert, kommt
episoden wird am Ende des Fragebogens ein er doch der Idee der Prozessmessung in der
sog. „Palliationsinventar“ dargeboten, in dem Bewältigungsforschung recht nahe. Dem rou-
mit neun fünfstufig zu beantwortenden Items tinemäßigen Einsatz in der Einzelfalldiagnos-
die Emotionsregulierung nach den Merkma- tik steht derzeit noch die nur vorläufige Nor-
len aktive Entspannung, Entlastung oder All- mierung und insbesondere die Länge der Test-
tagsdrogen gemessen wird. Mit Ausnahme der durchführung (etwa drei Stunden) entgegen.
Emotionsregulierung wird jede Reaktionsva- (Allerdings haben die Autoren auch eine Kurz-

284
10.4 Interessen und Einstellungen

form mit vier Episoden erstellt, deren Bearbei- Modell von Holland (1973), in dem sechs, ins-
tung etwa 40 Minuten dauert.) Problematisch besondere berufsbezogene, Interessen unter-
ist auch die Vielzahl von Variablen und damit schieden werden: Realistic (Landwirtschaft,
Einzelscores, die eine integrierende Diagnose Mechanik), Investigative (Physik, Chemie),
und damit ggf. die Einleitung gezielter Inter- Artistic (Musik, Literatur), Social (Erziehung,
ventionen schwierig gestalten dürften. Beratung), Enterprising (Geschäftsführung,
Verkauf) und Conventional (Wirtschaft, Bü-
ro). Nach den Anfangsbuchstaben dieser Kom-
ponenten wird die Systematik auch RIASEC-
10.4 Interessen und Modell genannt. Die Klassifikation des US
Einstellungen Employment Service (USES; Jones, 1980) er-
weitert dieses System auf zwölf Dimensio-
nen, u. a. Protective (Polizei, Wachtdienst),
10.4.1 Definition Leading-Influencing (Lehrer) oder Accomo-
dating (Dienstleistung). Im RIASEC-Modell
Interessen sind vergleichsweise konstante sind die Interessen in Form eines Sechsecks an-
Wünsche nach bestimmten Betätigungen, z. B. geordnet (I Abb. 10.1), wobei nebeneinander
nach beruflichen Tätigkeiten, nach Unterhal- liegende Ecken eine engere Beziehung dieser
tung oder künstlerischer Produktivität. Einstel- Interessen (z. B. Social und Enterprising) an-
lungen bezeichnen relativ konstante Haltungen zeigen als einander gegenüberstehende Ecken
und Meinungen, die sich auf soziale Sachver- (z. B. Artistic und Conventional). Diese und
halte beziehen, etwa auf andere Völker, be- ähnliche Klassifikationen bilden die Grund-
stimmte Berufsgruppen, Religionen oder Fra- lage der meisten berufsbezogenen Interessen-
gen der Geburtenkontrolle. Der Ausdruck „re- tests. Dabei sind hinsichtlich Konstruktion und
lativ konstant“ verweist darauf, dass wir es Auswertung der Items zwei Messkonzepte zu
hier mit habitualisierten Determinanten des unterscheiden, ein normatives und ein ipsati-
Verhaltens zu tun haben, also mit Persönlich- ves.
keitsmerkmalen, und zwar aus dem Bereich
der Motivation (Guilford, 1964). Tests zur Er- Das normative Prinzip hatten wir bereits im
fassung der individuellen Interessenstruktur Zusammenhang mit der Darstellung anderer
wurden insbesondere mit dem Ziel konstru- Fragebogenverfahren kennen gelernt. Ein Item
iert, Berufsberatungen diagnostisch abzustüt- (z. B. „Reparieren von Fahrrädern“) wird auf
zen. Demgegenüber ist die Messung von Ein- einer mehrstufigen Skala (etwa von 1 = „mag
stellungen eher bei sozialpsychologischen Fra- ich nicht“ bis 5 = „mag ich sehr“) beantwor-
gestellungen von Bedeutung. tet, die Punkte für die Items eines spezifischen
Subtests werden addiert und dieser Rohwert
dann in einen Standardwert (etwa einen Pro-
zentrang), der aus der Verteilung der Roh-
10.4.2 Die Diagnose von werte einer Referenzpopulation errechnet wur-
Interessen de, umgewandelt. Dieses Vorgehen ist jedoch
gerade bei Interessentests problematisch. So
Die Forschung zur Struktur der Interessen hat könnten Probanden bei Interessentests dazu
bislang nicht den gleichen Grad an Differen- tendieren, besonders viele Tätigkeiten als „be-
ziertheit erreicht, den wir im Bereich nicht- liebt“ anzukreuzen, so dass sich kein klares
motivationaler Persönlichkeitsmerkmale ken- Bild der Interessenstruktur ergibt. (Den Ein-
nen gelernt haben. Relativ einflussreich ist das fluss dieser Tendenz könnte man evtl. durch

285
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

Abb. 10.1
Graphische Darstellung
des RIASEC-Modells (nach
Holland, 1973).

Einführung einer sehr differenzierten Antwort- 1 Punkt zugeordnet werden. Auf diese Weise
skala etwas abschwächen. Die bei vielen Inter- ließe sich dann für jede Interessendimension
essentests angebotene dreistufige Skala – un- ein Summenwert ermitteln. Im Beispielitem
beliebt, neutral, beliebt – ist in jedem Fall zu sind die Interessen handwerklich (a), litera-
wenig differenziert.) risch (b) und künstlerisch (c) vertreten. In der
Regel werden in derartigen Tests alle Interes-
Darüber hinaus ist der Normbezug bei der
senskalen in den einzelnen Items systematisch
Interpretation individueller Rohwerte häufig
kombiniert. Durch den Wahlzwang kann sich
überflüssig. Wenn eine Person angibt, dass
hier die mögliche Tendenz eines Probanden,
sie eine bestimmte Tätigkeit gern ausführt, so
mehr oder weniger alle Tätigkeiten als beliebt
macht es für die anwendungsorientierte Bewer-
anzukreuzen, nicht manifestieren.
tung dieser Aussage keinen Unterschied, ob
50 % oder 75 % der Referenzpopulation diese Bei der Interpretation dieser Werte ist jedoch
Tätigkeit ebenfalls mögen. (Allerdings könnte Folgendes zu beachten: Da der Proband seine
das Ankreuzen einer allgemein sehr beliebten Vorlieben für die aus verschiedenen Dimen-
Tätigkeit als „unbeliebt“ in bestimmten Fällen sionen stammenden Tätigkeiten in eine Rang-
durchaus diagnostisch bedeutsam sein.) reihe bringen muss, kennzeichnen die Gesamt-
Bei ipsativer Messung muss der Proband seine werte auf den einzelnen Interessenskalen zu-
Vorlieben für Tätigkeiten, die verschiedenen nächst einmal nur deren relative Position in
Interessenkategorien angehören, innerhalb ei- Bezug auf die anderen Dimensionen. Mit die-
nes Zwangswahlitems in eine Rangordnung sem Wert wird jedoch nichts über die absolute
bringen. Ein typisches diesem Messprinzip Stärke eines Interesses ausgesagt. Bei einer ip-
entsprechendes Item könnte etwa lauten: sativen Messung streuen die einzelnen Scores
eines Probanden nur um dessen eigenen Mit-
telwert. Demgegenüber streuen bei normativer
Was mögen Sie am meisten und was am Messung die einzelnen Mittelwerte um den
wenigsten: Mittelwert der Population.
(a) Ein Vogelhaus bauen.
Ipsative Messungen lassen damit zunächst ein-
(b) Einen Artikel über Vögel schreiben.
mal nur intraindividuelle Vergleiche zu. Dies
(c) Vogelskizzen zeichnen.
geschieht in der Regel in der Aufstellung und
Interpretation eines Interessenprofils. Ein der-
Der beliebten Tätigkeit könnten etwa 2 Punk- artiges Profil ist an sich schon diagnostisch in-
te, der unbeliebten 0 Punkte und der neutralen teressant, da es zumindest etwas über die rela-

286
10.4 Interessen und Einstellungen

tiven Präferenzen einer Person aussagt. Noch Allgemeine Berufsinteressen, Basale Interes-
bedeutsamer für angewandte Fragestellungen sen, Berufsskalen sowie Spezielle Skalen. Un-
(z. B. bei der Berufsberatung) ist es, wenn ter die Administrativen Indices fallen Kon-
man dieses Profil in standardisierter Form ver- trollscores wie die Anzahl nicht beantwor-
gleicht mit den Profilen relevanter anderer teter Items oder der Prozentsatz von Like-,
Personen (z. B. Menschen, die in einem Be- Indifferent- oder Dislike-Antworten. Die All-
rufsfeld besonders zufrieden oder erfolgreich gemeinen Berufsinteressen entsprechen den
sind). Hiervon wird in verschiedenen etablier- sechs Themen des RIASEC-Modells von Hol-
ten Testverfahren Gebrauch gemacht, auf die land (1973). Jedem dieser Themen sind drei
nun näher eingegangen werden soll. bis fünf Basale Interessenskalen zugeordnet.
Bei den Berufsskalen interessiert die Ähnlich-
Interessentests wurden, wie erwähnt, beson- keit zwischen dem Antwortmuster eines Pro-
ders mit dem Ziel der Berufsberatung und banden und dem entsprechenden Muster der
Bewerberauswahl entwickelt. Ein Pionier auf Antworten von Personen, die in bestimmten
diesem Gebiet war Strong mit dem von ihm Berufen erfolgreich tätig sind. Die Speziellen
entwickelten Strong Vocational Interest Blank Skalen beziehen sich schließlich auf Merkma-
(Strong, 1938). Das Inventar besteht aus 400 le des Probanden wie Arbeitsstil, Lernsituati-
Items, die sich jedoch auf mehrere Teile mit on, Führungsstil oder Risikobereitschaft.
sehr unterschiedlicher Itemstruktur verteilen.
Während im Interesseninventar von Strong
Die ersten 280 Items bezeichnen Tätigkei-
eine Mischung aus ipsativer und normativer
ten und Gegenstände, die von Probanden je-
Messung realisiert wird, verfolgt die von Ku-
weils mit „like“, „indifferent“ oder „dislike“
der (1946) entwickelte Kuder Preference Re-
beantwortet werden müssen. Unter diese Ru-
cord ausschließlich eine ipsative Strategie.
brik fallen Berufsbezeichnungen, Schulfächer,
Wie in dem dargestellten Beispiel beschrie-
Sport- und Spielarten, soziale Tätigkeiten so-
ben, werden aus zehn Interessengebieten Fest-
wie verschiedene „Charakterbezeichnungen“
stellungen formuliert und jeweils als Dreier-
(z. B. der Tatkräftige, der Pessimist). Im nächs-
gruppe präsentiert, wobei alle Möglichkeiten
ten Teil müssen in vier verschiedenen Listen
der Paarung systematisch realisiert werden. In
jeweils zehn Begriffe in eine Rangreihe der
jeder Gruppe muss die am meisten bzw. am
Beliebtheit gebracht werden (z. B. zehn Tä-
wenigsten beliebte Tätigkeit markiert werden,
tigkeiten oder bekannte Persönlichkeiten aus
die unmarkierte Tätigkeit wird dann als indif-
verschiedenen Berufen). Im dritten Teil wer-
ferent gewertet. Die Interessengebiete entfal-
den 40 verschiedene Paare von Tätigkeiten
len dabei auf die Skalen Handwerk, Wirtschaft
dargeboten, von denen jeweils die bevorzug-
(Berechnen), Wissenschaft, verbales Überzeu-
te zu markieren ist. Schließlich folgen noch
gen, Kunst, Literatur, Musik, soziale Diens-
Fragebogenitems und Skalen zu Persönlich-
te, Büroarbeit sowie Arbeit im Freien. Das
keitsmerkmalen, auf denen sich der Proband
Inventar wurde inzwischen zu zwei altersspe-
selbst einschätzen soll. Diese Struktur ist, bei
zifischen Tests weiterentwickelt. Das Kuder
leicht veränderter Anzahl von Dimensionen
General Interest Survey (KGIS; Kuder, 1988)
und Items, bis zur neuesten Ausgabe, dem
kann bei Schülern der Klassenstufen 6 bis 12,
Strong Interest Inventory (SII; Harmon, Han-
das Kuder Occupational Interest Survey (KO-
sen, Borgen & Hammer, 1994), unverändert
IS; Kuder & Zytowski, 1991) bei Erwachsenen
geblieben.
eingesetzt werden (vgl. auch Zytowski, 1992).
Der SII wird nach fünf Gruppen von Indi- Ausgewertet werden diese Inventare durch Ver-
katoren ausgewertet: Administrative Indices, gleich der individuellen Antwortmuster mit

287
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

den Mustern von Hochschulabsolventen eines der internen Struktur bestätigte die weitgehen-
bestimmten Fachgebiets sowie von Personen, de Unabhängigkeit der Interessendimensionen.
die für ihren jeweiligen Beruf eine hohe Zufrie- Lediglich die Skalen TN und MA sowie PW
denheit angegeben haben. Der Testwert eines und VW (I Übersicht 10.6) scheinen stärker
Probanden auf jeder der zehn Interessenska- assoziiert zu sein. Hinsichtlich der konvergen-
len ergibt sich dann aus einer (modifizierten) ten Validität werden mittelhohe positive Zu-
biseriellen Korrelation der Probandenantwort sammenhänge mit den entsprechenden Skalen
auf jedes Item einer Skala (beliebt vs. unbe- anderer Interessentests berichtet. Angaben zur
liebt) mit der Prozentzahl der Personen in den prädiktiven Validität sind jedoch eher spärlich.
genannten Kriteriumsgruppen, die dieses Item
Der BIT II konzentriert sich auf Berufsinteres-
als beliebt beantwortet haben. Je positiver die-
sen. Der Test besteht aus zwei Parallelformen
ser Koeffizient ist, desto mehr ähnelt das Inter-
und erfasst neun verschiedene Berufsrichtun-
essenmuster des Probanden dem der Kriteri-
gen (I Übersicht 10.6). Zu jeder Richtung
umsgruppe, so dass bei der Interpretation des
wurden jeweils neun konkrete Tätigkeiten for-
Testergebnisses insbesondere diese höchsten
muliert (z. B. „Diätrezepte erproben“ für die
Koeffizienten beachtet werden.
Richtung Ernährungshandwerk). Diese insge-
Die Stabilität des Scores im KGIS und KO- samt 81 Items werden in zwei Teilen, einem
IS sind mit Werten von über .80 auch über ipsativ und einem normativ orientierten, bear-
ein Jahrzehnt noch sehr hoch. Hinsichtlich der beitet. Im ipsativen Teil sind jeweils vier, unter-
prädiktiven Validität zeigte sich für das KO- schiedlichen Berufsrichtungen entstammende,
IS, dass mehr als die Hälfte der Personen, die Tätigkeiten in Form eines Rechtecks angeord-
dieses Inventar beantwortet hatten, 12 bis 19 net. Der Proband soll hier die am stärksten
Jahre später einen Beruf ergriffen hatten, der (+) und am wenigsten (–) beliebte Tätigkeit
den höchsten Koeffizienten ihres Interessen- markieren und dann zur nächsten Vierergrup-
profils entsprach (Aiken, 1999). pe übergehen. Im normativen Teil sind diesel-
ben Tätigkeiten auf einer fünfstufigen Skala
Von den bekanntesten deutschsprachigen (von „sehr ungern“ bis „sehr gern“) zu beant-
Interessentests realisiert der Differenzielle worten. Die Paralleltest-Reliabilität variiert für
Interessen-Test (DIT; Todt, 1971) die normati- den ipsativen Teil zwischen .71 und .89, für
ve, der Berufs-Interessen-Test II (BIT II; Irle den normativen Teil zwischen .60 und .75. Die
& Allehoff, 1984) die ipsative Messstrategie. faktorielle Struktur lässt sich natürlich nur für
die normativ zu beantwortenden Items bestim-
Der DIT erfasst auf elf Skalen nicht nur
men, da bei ipsativer Messung einzelne Be-
Berufs-, sondern auch Freizeitinteressen wie
antwortungen voneinander abhängig sind. Da-
etwa Sport oder Literatur (I Übersicht 10.6).
bei zeigte sich eine zweifaktorielle Struktur,
Die insgesamt 390 Items werden auf ei-
wobei die Ladungsmuster allerdings für die
ner fünfstufigen Beliebtheitsskala beantwortet
Geschlechter unterschiedlich ausfielen. Über
(mit einer je nach Iteminhalt variierenden Be-
Untersuchungen zur Konstruktvalidität wird
zeichnung der Stufen). Die Reliabilitäten der
in Allehoff (1984) berichtet.
einzelnen Skalen sind mit Werten zwischen
.91 und .98 sehr hoch. Auch die Koeffizien-
ten für eine deutlich zeitökonomischere Kurz-
form liegen nur wenig niedriger (.82 bis .96). 10.4.3 Einstellungsmessung
Die längerfristige Stabilität ist dagegen mit
Werten unter .70 merklich geringer (vgl. u. a. Bei Einstellungen handelt es sich um Meinun-
Schmidt, 1984). Eine faktorielle Überprüfung gen und Haltungen zu sozialen Sachverhal-

288
10.4 Interessen und Einstellungen

Übersicht 10.6 Die Skalen des DIT und des BIT II.
DIT BIT II
1. Sozialpflege und Erziehung (SE) 1. Technisches Handwerk (TH)
2. Politik und Wirtschaft (PW) 2. Gestaltendes Handwerk (GH)
3. Verwaltung und Wirtschaft (VW) 3. Technische und naturwissenschaftliche
4. Unterhaltung (UN) Berufe (TN)
5. Technik und Naturwissenschaft (TN) 4. Ernährungshandwerk (EH)
6. Biologie (BI) 5. Land- und forstwirtschaftliche Berufe (LF)
7. Mathematik (MA) 6. Kaufmännische Berufe (KB)
8. Musik (MU) 7. Verwaltende Berufe (VB)
9. Kunst (KU) 8. Literarische und geisteswissenschaftliche
10. Literatur und Sprache (LS) Berufe (LG)
11. Sport (SR) 9. Sozialpflege und Erziehung (SE)

ten. An Einstellungen lassen sich drei Kom- schen Minorität durch Geschäftsleute und der
ponenten unterscheiden, eine kognitive, eine gleichzeitig korrekten geschäftlichen Behand-
affektive und eine verhaltensmäßige. Die ko- lung dieser Personen demonstrierte. Da Ein-
gnitive Komponente äußert sich in bestimmten stellungen überwiegend auf der Ebene der Q-
Meinungen und Überzeugungen hinsichtlich Daten gemessen werden, lassen sich an ihnen
eines sozialen Objekts (z. B. „Die Angehöri- also nur kognitive und affektive Aspekte erfas-
gen einer Volksgruppe X sind mehrheitlich sen.
kriminell“). Die affektive Komponente besteht
darin, dass die Konfrontation mit einem sozia- An diesen beiden Komponenten wird zunächst
len Objekt in der betreffenden Person einen einmal die Richtung unterschieden, d. h. je-
bestimmten Gefühlszustand hervorruft (im ge- mand kann gegenüber einem Objekt eine po-
nannten Beispiel etwa Feindseligkeit, wenn sitive oder negative Meinung bzw. ein posi-
die betreffende Volksgruppe erwähnt wird). tives oder negatives Gefühl haben. Für eine
Die Verhaltenskomponente bezieht sich auf differenzierte Einstellungsmessung ist diese
das gegenüber einem Objekt gezeigte offene Dichotomie jedoch nicht ausreichend. Deshalb
Verhalten (im Beispiel etwa Ablehnung, Dis- werden bei der Konstruktion entsprechender
kriminierung u. Ä.). Testverfahren meistens noch die Aspekte Aus-
prägung, Intensität und Salienz herangezogen.
In der Regel sind kognitive und affektive Kom- Mit Ausprägung ist die Extremität einer Über-
ponente eng miteinander assoziiert (wer zu ei- zeugung gemeint, während sich Intensität auf
nem sozialen Objekt eine negative Meinung die Stärke des mit einer Überzeugung asso-
hat, der empfindet ihm gegenüber meist auch ziierten Gefühls bezieht. Salienz schließlich
negative Affekte). Demgegenüber ist die Ver- bezeichnet den Stellenwert, den eine bestimm-
haltenskomponente häufig von Kognitionen te Einstellung im Leben einer Person hat.
und Affekten dissoziiert. Eine Person, die zu
einem sozialen Objekt negative Meinungen Bei der Konstruktion von Selbstberichtsinstru-
und Affekte äußert, muss dieses Objekt nicht menten zur Erfassung von Einstellungen wur-
notwendigerweise auch offen ablehnen, wie et- den verschiedene messtheoretische Prinzipien
was die klassische Studie von LaPière (1934) zugrunde gelegt. Die drei wichtigsten Ansätze
zur Diskrepanz zwischen der verbal geäußer- sind die Skalierungen nach Thurstone (1931)
ten Ablehnung von Angehörigen einer ethi- und Guttman (1944) sowie die Antwortska-

289
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

lierung nach Likert, die wir bereits in vielen Strafvollzug, zur Todesstrafe, Geburtenkon-
der bisher vorgestellten Fragebogen kennenge- trolle oder Zensur. Diese Skalen sollen da-
lernt haben. Von diesen Ansätzen soll hier nur bei Teilaspekte der als grundlegend angese-
der von Thurstone beschrieben werden. henen Einstellungsdimensionen Religiosität,
Humanität und Nationalismus sein. Die (meist
Bei der von Thurstone entwickelten „Methode über die Korrelation paralleler Versionen er-
der gleich erscheinenden Intervalle“ wird zu- mittelten) Reliabilitäten dieser Skalen streuen
nächst eine größere Menge von Aussagen, in sehr stark. Ferguson (1952) ermittelte einen
denen eine Einstellung zu einem bestimmten (durchaus zufriedenstellenden) Durchschnitts-
Objekt oder Sachverhalt (z. B. therapeutisches wert von .77. Allerdings ist dieser Wert wenig
Klonen) zum Ausdruck kommt, gesammelt. aussagekräftig; entscheidender ist es, die Ska-
Für jede einzelne Aussage wird sodann ermit- len mit den niedrigen Reliabilitäten genauer
telt, welchen Wert diese auf einer Skala ein- zu inspizieren, da hier offenbar die Skalenkon-
nimmt, die sich von sehr negativer bis sehr struktion defizient war. Die Validität wurde
positiver Einstellung zum Objekt erstreckt. So häufig überprüft, indem man die Mittelwerte
würde etwa eine Aussage wie „therapeutisches von Gruppen mit (vermeintlich) unterschiedli-
Klonen ist vollständig zu verbieten“ eine sehr chen Einstellungen zu einem bestimmten Ob-
negative, die Aussage „therapeutisches Klo- jekt miteinander verglich. Dabei zeigte es sich
nen muss finanziell gefördert werden“ eine etwa, dass sich regelmäßige Kirchgänger von
sehr positive Einstellung ausdrücken. Zur Er- Personen, die die Kirche nur gelegentlich oder
mittlung dieser Werte wird verschiedenen Be- nie besuchen, signifikant auf verschiedenen
urteilern eine Skala vorgelegt, die meist aus Einstellungsskalen unterschieden (Ferguson,
neun bis elf Stufen besteht. Auf der unters- 1952).
ten Stufe müssen die Beurteiler Aussagen ein-
ordnen, die eine sehr ungünstige Einstellung Obwohl auf diese Weise psychometrisch ela-
zum Objekt repräsentieren. Der mittleren Stu- borierte Einstellungsskalen konstruiert wer-
fe wären dann neutrale, der höchsten Stufe den können, dürfen doch zwei Probleme nicht
sehr positive Aussagen zuzuordnen. In die end-übersehen werden. Das erste betrifft die Fra-
gültige Einstellungsskala werden diejenigen ge, inwieweit bei der Skalenkonstruktion die
Aussagen aufgenommen, bei denen das arith- Einstellungen der Beurteiler deren Einordnun-
metische Mittel der Urteile möglichst nahe an gen von Aussagen auf der Positiv-Negativ-
einer der vorgegebenen (neun oder elf) Stufen Skala beeinflussen. So könnte der Fall eintre-
liegt und die Streuung möglichst gering (die ten, dass Beurteiler mit einer Extremeinstel-
Beurteilerübereinstimmung also hoch) ist. Der lung die mittleren (also eher neutralen) Stufen
Proband kreuzt dann auf dieser Skala diejeni- der Skala bei der Einordnung von Aussagen
ge Aussage an, die seiner eigenen Auffassung nur selten verwenden. Wenn beispielsweise
am nächsten kommt. Sein Score ist der durch- ein Beurteiler das therapeutische Klonen voll-
schnittliche Skalenwert dieser Aussage. Mit ständig ablehnt, so wird er nur Aussagen wie
einer Skala vom Thurstone-Typ wird also die „es ist vollständig zu verbieten“ dem Negativ-
Ausprägung der Einstellung einer Person (oder pol (Ablehnung) zuweisen. Aussagen, in de-
einer ganzen Gruppe) zu bestimmten Objekten nen auch nur eine leichte Einschränkung die-
oder Sachverhalten gemessen. ses Verbots zum Ausdruck kommt, wird er da-
gegen nicht den Kategorien „nicht so negativ“
Thurstone und Mitarbeiter haben nach diesem zuordnen, sondern eher den Kategorien, die
Ansatz eine Reihe von Einstellungsskalen ent- für ihn bereits eine deutlich positive Einstel-
wickelt, u. a. zum Krieg, zur Religion, zum lung (Akzeptierung) zum Beurteilungsobjekt

290
10.5 Die Erfassung von Zuständen

abbilden. Der Einfluss dieses Merkmals lässt Inventory (MSI; deutsche Version, Deegener,
sich dadurch etwas kontrollieren, dass man ent- 1996), bei der Messung der Einstellung zum
weder repräsentative oder Zufallsstichproben Alkoholkonsum im Rahmen des Münchner Al-
von Beurteilern rekrutiert und nur Aussagen koholismus-Tests (MALT; Feuerlein, Küfner,
mit geringer Streuung der Beurteilerantworten Ringer & Antons-Volmerg, 1999) oder der Ein-
in die Skala aufnimmt. Allerdings gibt es kein stellung zur Schule im Arbeitsverhaltensinven-
feststehendes Kriterium dafür, ab wann eine tar (AVI; Thiel, Keller & Binder, 1979).
Streuung als hinreichend gering anzusehen ist.
Das zweite Problem entsteht durch die Tatsa- Bei der Abgrenzung der Einstellungsmessung
che, dass für Skalen vom Thurstone-Typ nur von der Erhebung von Persönlichkeitsmerk-
schwer zu bestimmen ist, ob sie wirklich eindi- malen ist zu bedenken, dass man eigentlich
mensional sind, d. h. nur ein latentes Merkmal nur dann von einer, von Persönlichkeitstests
erfassen (I Kap. 4). unterschiedenen, Einstellungsskala sprechen
kann, wenn hier die Erhebung der Haltung
Skalenkonstruktionen nach dem Ansatz von zu einem konkreten und eingegrenzten Ein-
Thurstone sind relativ aufwändig. Deshalb stellungsobjekt (z. B. Ausländer, Schwanger-
wird auch bei der Einstellungsmessung, wie schaftsabbruch, therapeutisches Klonen) im
bei Fragebogen allgemein, die bereits darge- Zentrum steht. Je breiter und allgemeiner das
stellte Likert-Skala als Modus der Beantwor- Thema ist, auf dessen Erfassung ein Test zielt
tung von Aussagen bevorzugt. Bei der Erfas- (z. B. „direktive“ oder „autoritäre“ Einstellun-
sung von Einstellungen wird dabei häufig eine gen), desto mehr nähert sich das betreffende
mehrstufige Antwortskala verwendet, die sich Instrument einem Persönlichkeitstest an.
von „stimme deutlich zu“ bis „lehne deutlich
ab“ erstreckt. Voraussetzung für dieses Vorge-
hen ist es jedoch, dass die Aussagen hinsicht-
lich der in ihnen zum Ausdruck kommenden 10.5 Die Erfassung von
Einstellung zum Beurteilungsobjekt eindeu- Zuständen
tig (positiv oder negativ) sind. Mehrdeutige
oder neutrale Items sind bei Verwendung einer
Likert-Skala unbrauchbar. Ansonsten erfolgt Zur Messung von Zuständen auf subjektiver
die Auswertung derartiger Instrumente in der Ebene wurde in den letzten Jahrzehnten eine
Weise, wie wir sie für Fragebogen und Skalen Fülle von Verfahren entwickelt, so dass an
kennengelernt haben. dieser Stelle eine Konzentration auf wenige
Ansätze, die stellvertretend für viele andere
Einstellungen lassen sich entweder ausschließ- stehen, notwendig ist.
lich über ein- bzw. mehrdimensionale Frage-
bogen messen oder über Skalen, die Teil eines Mit Hilfe von Ein-Itemskalen wird versucht,
umfassenderen Inventars sind. Beispiele für den aktuellen emotionalen Zustand während
die erste Kategorie sind im deutschen Sprach- einer Intervention auf möglichst ökonomische
raum der Fragebogen zur direktiven Einstel- Weise abzuschätzen. So konstruierten Mow-
lung (FDE; Bastine, 1977) oder der Fragebo- rer, Light, Luria und Zeleny (1953) eine Skala,
gen zur Messung von Einstellungen gegenüber die den Erfolg einer Psychotherapie beim Ab-
Schwangerschaft, Sexualität und Geburt (S-S- bau von Angst registrieren sollte. Von Schach-
G; Lukesch & Lukesch, 1976). Eine in umfas- ter (1959) wurde ein sechsstufiges Item entwi-
sendere Tests eingebettete Messung liegt dage- ckelt, in dem Probanden ihre Angst in einer
gen vor bei der Erfassung der Einstellung zur Experimentalsituation angeben sollten („Wie
Psychotherapie innerhalb des Multiphasic Sex sehr beunruhigt Sie die Möglichkeit, in diesem

291
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

Experiment einen elektrischen Schlag zu er- dass die Messintention für den Probanden
halten?“). Ein entsprechendes Instrument stellt völlig offensichtlich ist, was u. U. zu Verfäl-
das Furchtthermometer von Walk (1956) dar, schungstendenzen beim Antworten, z. B. zu
bei dem der Proband seine Angst angesichts einem Herunterspielen der erlebten Erregung,
einer bestimmten Situation auf einer zehnstu- führen kann. Eigenschaftslisten versuchen da-
figen Skala einschätzen muss. gegen, die Befindlichkeit des Probanden durch
mehrere Items zu erfassen, die den Bedeu-
Während einer bestimmten Intervention, z. B.
tungshof eines subjektiven Zustands wie z. B.
eines Versuchsdurchgangs, ist es oft unzweck-
Angst oder Depression gewissermaßen einkrei-
mäßig, den Ablauf für die Beantwortung ei-
sen. Hinsichtlich der Erfüllung von Testgüte-
nes schriftlich vorgegebenen Items zu unter-
kriterien sind sie somit leichter überprüfbar
brechen. Andererseits kann bei einer im An-
und deshalb in der Regel auch elaborierter
schluss an eine bestimmte Behandlung (retro-
als Ein-Itemskalen. Häufig werden in derarti-
spektiv) durchgeführten subjektiven Messung
gen Listen verschiedene emotionale Zustände
nicht mit Sicherheit gesagt werden, auf genau
gleichzeitig erfasst, was u. U. die Messinten-
welche Phase der Intervention der Proband sei-
tion für den Probanden etwas weniger offen-
ne Selbsteinschätzung bezieht. Für viele Fra-
sichtlich macht.
gestellungen ist es aber unerlässlich, die exak-
te Kontingenz zwischen Ereignis und Reakti- Ein häufig eingesetztes Verfahren ist die Mul-
on zu kennen. Zur Lösung dieses Dilemmas tiple Affect Adjective Check List (MAACL)
wurden sog. ereignissimultane Methoden zur von Zuckerman und Lubin (1965). Der Test
Erfassung emotionaler Reaktionen vorgeschla- enthält Unterlisten zur Messung verschieden-
gen. Eine sehr einfache Methode stellt hierbei artiger affektiver Zustände, wobei die Items
die von Stevens und Stone (1959) verwendete der einzelnen Listen jeweils an Außenkriterien
Fingerspannenskalierung dar, die von Birbau- validiert wurden. Durch spezielle Instruktio-
mer, Tunner, Hölzl und Mittelstaedt (1973) nen kann entweder der aktuelle Zustand („Wie
zur kontinuierlichen Registrierung der Verän- fühlen Sie sich heute?“) oder die jeweilige
derung erlebter emotionaler Zustände weiter- Disposition („Wie fühlen Sie sich im Allge-
entwickelt wurde. Bei dieser subjektiven, aber meinen?“) erfasst werden. Die Reliabilitäten
nonverbalen Messung wird die Stärke eines der aktuellen und habituellen Maße sind mit
erlebten Zustands durch die Größe der Spanne Werten zwischen .72 und .85 zufriedenstellend.
zwischen Daumen und Zeigefinger angegeben. Ein entsprechendes deutsches Instrument ist
Die beiden Finger stecken in einer Art Schere, die Eigenschaftswörterliste (EWL) von Janke
wobei die jeweilige Öffnungsgröße der Sche- und Debus (1978). Die Liste besteht aus 123
re elektromechanisch derart konvertiert wird, Adjektiven, die sich auf 14 Skalen verteilen.
dass diese von einem Mehrkanalschreiber (Po-
Das Profile of Mood States (POMS; McNair,
lygraphen) aufgezeichnet werden kann. Urban
Lorr & Droppleman, 1971) besteht aus einer
und Kohlmann (1994) ersetzten diese Vorrich-
Reihe von Adjektiven oder kurzen Aussagen,
tung durch einen stufenlos verstellbaren Dreh-
mit denen verschiedene Gefühlszustände be-
knopf mit einer Skala von 0 bis 100. Weitere
schrieben werden. Der Proband gibt das Vorlie-
subjektive nonverbale Verfahren werden bei
gen eines Gefühls auf einer fünfstufigen Skala
Vehrs (1986) beschrieben.
an, wobei wie bei der MAACL die Instruktion
Wenn die momentane Befindlichkeit über ein „im Augenblick“ oder „im Allgemeinen“ vor-
einziges Item erfasst wird, dann ist eine Ab- gegeben werden kann. Mit dem POMS werden
schätzung des mit dieser Methode verbunde- acht faktorenanalytisch bestimmte Gefühlsdi-
nen Messfehlers nicht möglich. Hinzu kommt, mensionen unterschieden, u. a. Angst, Depres-

292
10.5 Die Erfassung von Zuständen

sion und Ärger. (Für die Analyse einer deut- in diesem Jahr?“ – „Wie fühlen Sie sich im
schen Version siehe Bullinger, Heinisch, Lud- Allgemeinen?“
wig & Geier, 1990.) Ähnliche Verfahren sind
die Mood Adjective Check List von Nowlis Eine genauere Betrachtung der PANAS macht
(1965) und die Differential Emotions Scale deutlich, dass die NA-Subskala eine größe-
(DES; Izard, 1991). re Zahl von Angst- oder Depressionsitems
enthält (z. B. erschrocken, nervös, durchein-
Das derzeit wohl populärste Instrument zur ander, ängstlich, bekümmert). So verwundert
Erfassung unterschiedlicher affektiver Zustän- es nicht, dass etwa Jolly, Dyck, Kramer und
de ist die Positive and Negative Affect Sche- Wherry (1994) Korrelationen der NA mit dem
dule (PANAS) von Watson, Clark und Telle- Beck Anxiety Inventory (BAI; Beck, Brown,
gen (1988; deutsche Adaptation von Krohne, Epstein & Steer, 1988) und dem Beck De-
Egloff, Kohlmann, & Tausch, 1996). Das Ver- pression Inventory (BDI; Beck & Steer, 1987)
fahren basiert auf einem Modell emotionaler von .79 bzw. .76 registrieren konnten. Nied-
Reaktionen, in dem die Vielfalt selbstberich- rige Werte in PA (also wenig aktiv, interes-
teter wie auch fremdbeobachteter Affekte auf siert, angeregt usw.) verweisen dagegen nicht
zwei unabhängig voneinander variierende Di- so sehr auf Angst als vielmehr auf Depres-
mensionen reduziert wird: positiver und nega- sion. Dementsprechend korreliert PA nur zu
tiver Affekt (Tellegen, 1985; Watson & Telle- −.38 mit dem BAI, aber zu −.61 mit dem
gen, 1985). Positiver Affekt (PA) beschreibt BDI. Generell fällt ferner auf, dass in der PA-
das Ausmaß, in dem eine Person enthusias- NAS Adjektive, die typische positive Gefühls-
tisch, aktiv und aufmerksam ist. Hoher PA ist zustände beschreiben (z. B. glücklich, zufrie-
mithin durch Energie, Konzentration und freu- den), überhaupt nicht vertreten sind. Stattdes-
diges Engagement gekennzeichnet, niedriger sen überwiegen in der PA-Subskala Items, die
PA durch Lethargie und Traurigkeit. Demge- sich auf Aktivität und Aufmerksamkeit bezie-
genüber reflektiert negativer Affekt (NA) das hen (vgl. auch Egloff, Schmukle, Burns, Kohl-
Ausmaß negativen Angespanntseins. Hoher mann & Hock, 2003; Egloff, Tausch, Kohl-
NA ist also ein Gefühlszustand, der sich durch mann & Krohne, 1995). Eine Übersicht der
Angst, Gereiztheit und Nervosität beschreiben Forschungen zur PANAS geben Krohne und
lässt, während niedriger NA Ruhe und Ausge- Tausch (2014).
glichenheit bedeutet (Watson et al., 1988). Um positive und negative affektive Zustände
in differenzierterer Weise zu erfassen, haben
Die PANAS besteht aus 20 Adjektiven, von de- die Autoren ihre Liste revidiert und eine er-
nen je zehn positive (z. B. aufmerksam, aktiv) weiterte Version (PANAS-X, Watson & Clark,
bzw. negative (bekümmert, ängstlich) Empfin- 1984) vorgelegt. In dieser Skala werden mit
dungen und Gefühle beschreiben. Die Proban- Hilfe von 60 Adjektiven Angst, Traurigkeit,
den schätzen die Intensität eines vorliegenden Schuldgefühle und Feindseligkeit als basale
Affekts auf einer fünfstufigen Skala (von „gar negative Emotionen, Heiterkeit, Selbstsicher-
nicht“ bis „äußerst“) ein. Je nach Zielsetzung heit und Aufmerksamkeit als basale positive
der Erhebung kann dieser Itemsatz mit bis zu Emotionen, sowie Schüchternheit, Müdigkeit,
sechs verschiedenen Instruktionen vorgelegt Gelassenheit und Überraschtheit als weitere
werden, die sich auf Angaben zu unterschied- affektive Zustände unterschieden.
lich erstreckten Zeitintervallen beziehen: „Wie
fühlen Sie sich im Moment?“ – „Wie haben Für den engeren Bereich der auf Bewertungs-
Sie sich heute gefühlt?“ – „... in den letzten situationen bezogenen Angst wurde von Mor-
Tagen ...“ – „... in den letzten Wochen ...“ – „... ris, Davis und Hutchings (1981) das Worry-

293
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

Emotionality Questionnaire (WEQ) zur Erfas- aus bestimmten Testmerkmalen Erwartungen


sung der Zustandsangstkomponenten Besorg- über die Zielsetzung einer Untersuchung ab,
nis und Emotionalität entwickelt. Die Reliabi- zieht aus dem Inhalt und der Form der Items
litäten erreichten mit Werten von .81 für die Rückschlüsse auf den Sinn bestimmter Fragen,
Besorgnis- und .86 für die Emotionalitätsskala prüft seine verschiedenen Antworten auf Kon-
eine zufriedenstellende Höhe. sistenz oder verfolgt generell eine bestimm-
te Strategie, sich im Test auf eine von ihm
Die Trennung von Besorgnis und Emotio-
gewünschte Weise darzustellen. Viele dieser
nalität ist natürlich keineswegs auf die in
Faktoren können die Validität des jeweiligen
selbstwertbedrohlichen Situationen ausgelös-
Instruments beeinträchtigen. Lange Zeit wur-
te Angst beschränkt. So erlaubt das Inventar
den diese Einflüsse in erster Linie unter dem
State-Trait-Operations-Angst (STOA; Kroh-
Aspekt des Operierens von Verfälschungsten-
ne & Schmukle, 2006) die Erfassung dieser
denzen betrachtet. Mit Cronbach (1990) wurde
Angstkomponenten im Kontext chirurgisch-
dabei zwischen absichtlicher („faking“) und
er oder invasiv-diagnostischer Eingriffe. Das
unabsichtlicher („response set“) Verfälschung
STOA misst auf separaten Skalen die Opera-
unterschieden.
tionsangst als vergleichsweise überdauerndes
Persönlichkeitsmerkmal (Trait, zehn Items) so-
Faking liegt vor, wenn Testergebnisse gezielt
wie, getrennt nach kognitiver und affektiver
in eine vom Probanden gewünschte Richtung
Komponente, die aktuelle Angst (State, je fünf
verändert werden. So wird etwa jemand, der
Items). Die Ergebnisse exploratorischer und
sich einer psychologischen Prüfung auf Kraft-
konfirmatorischer Faktorenanalysen belegten
fahrertauglichkeit unterziehen muss, kaum
die einfaktorielle Struktur der Trait-Angst so-
Items bejahen, von denen er annimmt, dass
wie die postulierte zweifaktorielle Struktur der
sie Aggression, Psychopathie oder Instabilität
State-Angst. Die Reliabilitäten aller Skalen
messen. Umgekehrt könnte ein Mensch, der
sind mit Werten um .90 sehr hoch. Externe
etwa aus dem Militärdienst entlassen werden
Beziehungen konnten zur Ängstlichkeit und
möchte, gerade solche Merkmale bei sich her-
Angstbewältigung sowie zur fremdbeobach-
ausstellen. Der bei der Erfassung des Therapie-
teten Angst und verschiedenen Indikatoren
erfolgs operierende „Hello-good-bye“-Effekt
der perioperativen Anpassung (Befindlichkeit,
(I Kap. 7) ist ein weiteres Beispiel für den
Schmerzen, Wundheilung) nachgewiesen wer-
Einfluss des Faking.
den. Verlaufsanalysen der beiden State-Skalen
zeigten zudem, dass diese sensitiv, aber un-
Weniger bewusst sind Response Sets wie et-
terschiedlich auf situative Veränderungen der
wa die Tendenzen zu Reaktionen im Sinne der
erlebten Bedrohung ansprechen.
sozialen Erwünschtheit oder zur Zustimmung
(Akquieszenz) bzw. Ablehnung. Unter sozia-
ler Erwünschtheit versteht man die Tendenz,
10.6 Einflüsse auf das sozial erwünschte Verhaltensweisen und Ein-
Antwortverhalten bei stellungen, z. B. Ehrlichkeit, Ordnung, Freund-
Selbstberichten lichkeit, als für sich gültig anzukreuzen und
ungünstige Merkmale, z. B. emotionale Insta-
Daten, die auf Selbstbeurteilungen beruhen, bilität, zurückzuweisen. Zustimmungstendenz
unterliegen vielfältigen Einflüssen. Diese ba- bezeichnet die Neigung von Personen, Fest-
sieren zum größten Teil auf kognitiven Pro- stellungen unabhängig von ihrem konkreten
zessen, die bei der Testbearbeitung im Pro- Inhalt eher zu bejahen (bzw. als für sich zutref-
banden ablaufen. So leitet der Proband etwa fend zu beurteilen), Ablehnungstendenz die

294
10.6 Einflüsse auf das Antwortverhalten bei Selbstberichten

entgegengesetzte Neigung, Feststellungen all- dürfte etwa die habituelle Tendenz zur Selbst-
gemein eher zu verneinen. Weitere Response darstellung durch verschiedene Kontextbedin-
Sets, die sich besonders auf die Art der Aus- gungen in unterschiedlichem Maße angeregt
nutzung mehrstufiger Antwortskalen beziehen, werden. Wir wollen uns als erstes mit dem Ein-
sind die Tendenzen zur Mitte bzw. zu Extrem- fluss der Materialien auf das Antwortverhalten
werten. Schließlich zählt auch ein unsystema- befassen.
tisches oder unsinniges Antwortverhalten zu
den Response Sets.
Quellen der Einflüsse auf das Antwort-
Von Cronbach wurde der Ursprung dieser Ein- verhalten bei Selbstberichten
flüsse primär auf der Personseite gesehen; • Testmaterialien
bei den Tendenzen zur sozialen Erwünscht-
– Formulierung der Aussage
heit oder zur Akquieszenz soll es sich also
insbesondere um interindividuell variierende * Eindeutigkeit
Merkmale handeln. Dementsprechend enthal- * Affektgeladenheit
ten, wie wir gesehen haben, viele Fragebogen * Satzstruktur
sog. Kontrollskalen zur Messung dieser Ten- – Antwortformat
denzen. Bei Personen mit in dieser Hinsicht
* Frequenz der Antwortalternativen
besonders ausgeprägten Neigungen werden
die Daten aus dem betreffenden Instrument * Polung der Antwortskala
dann entweder für die Diagnose nicht herange- – Reihenfolge der Items
zogen oder die Testwerte werden „korrigiert“. * Aktualisierungseffekte
Allerdings sind viele dieser Kontrollskalen in * Konsistenzeffekte
ihrer Messintention leicht durchschaubar. Au- * Positionseffekte
ßerdem gibt es keine verbindlichen Regeln, • Spezielle Kontexteffekte
wie denn die Testwerte eines Probanden kor-
– Vermutete Ziele der Untersuchung
rigiert werden müssen. Die Einführung von
Kontrollskalen bei der Erhebung von Selbst- – Testposition in der Testbatterie
berichten hat sich deshalb, insgesamt gesehen, • Personfaktoren
als wenig fruchtbar erwiesen. – Bedürfnis nach Anerkennung
– Tendenz zur Selbstdarstellung
Die vorzugsweise Verankerung dieser Ein- – Selbstaufmerksamkeit
flüsse auf der Personseite greift jedoch zu
– Selbsteinsicht
kurz. Tatsächlich lassen sich validitätsmin-
dernde Einflüsse auf das Antwortverhalten
sehr verschiedenen Quellen zuordnen (sie-
he auch Schwarz, 1999): den Testmaterialien Drei Merkmale des Testmaterials haben einen
(z. B. der Formulierung der Frage oder der Art besonderen Einfluss auf das Antwortverhal-
der Antwortskala), speziellen Kontextbedin- ten: die Formulierung der Aussage, das Ant-
gungen (etwa den von Probanden wahrgenom- wortformat sowie die Reihenfolge der Items.
menen oder vermuteten Zielen der diagnos- An dieser Stelle soll dabei nur auf Aspekte
tischen Untersuchung) sowie Personfaktoren eingegangen werden, die typisch sind für die
(z. B. Tendenzen zur Selbstdarstellung oder Beschaffung subjektiver Daten. Allgemeinere
Bedürfnis nach Anerkennung). Dabei ist zu formale Aspekte, die bei der Konstruktion von
beachten, dass diese einzelnen Faktoren häu- Items zu berücksichtigen sind, wurden bereits
fig nicht unabhängig voneinander wirken. So in I Kap. 3 behandelt.

295
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

Bei der Formulierung der Aussage spielen die „. . . körperliche Beschwerden“ auf ein (inter-
Aspekte Eindeutigkeit, Affektgeladenheit so- essierendes) Merkmal wie Hypochondrie ver-
wie Satzstruktur eine wesentliche Rolle. weisen. Tatsächlich wird man aber meistens
davon ausgehen müssen, dass der Testautor an
Die (oft in Frageform) getroffene Aussage der erfragten Tatsache, also etwa der Länge
stellt für den Probanden einen Stimulus dar, der Hausaufgabenbearbeitung, interessiert ist.
der sich auf einen bestimmten Sachverhalt Außerdem darf man wohl unterstellen, dass
(z. B. die Häufigkeit von Kopfschmerzen oder auch die (meisten) Probanden die Mehrdeutig-
das Anfertigen von Hausaufgaben) bezieht. keit bestimmter Begriffe erkennen, sich also
Der Proband muss also als erstes den Sinn vor einer Beantwortung die Frage stellen, was
dieser Aussage erfassen. Bezieht sich diese denn wohl der Testautor unter „lang“, „leicht“
Aussage (wie meistens) auf Ereignisse im Le- oder „körperliche Beschwerden“ versteht. Sol-
ben des Probanden, so muss er sodann in sei- len etwa ein morgendliches Husten oder ein ge-
nem autobiographischen Gedächtnis bestimm- legentliches Ziehen im Rücken bereits als Be-
te Informationen suchen und abrufen. Dieser schwerden berichtet werden? Oder ist der Fra-
Prozess kann durch mangelnde Eindeutigkeit gesteller nur an massiveren Beschwerden inter-
der Aussage beeinträchtigt werden. essiert? Mehrdeutige Formulierungen können
Ein häufiger Fehler innerhalb dieser Kategorie beim Probanden die Furcht auslösen, beim Be-
besteht darin, dass sich eine Aussage gleichzei- antworten einen Fehler zu machen, etwa eine
tig auf mehrere Sachverhalte bezieht, zu denen Beschwerde zu verschweigen oder ein nicht
man jedoch in unterschiedlicher Weise Stel- interessierendes Merkmal zu berichten. Um
lung nehmen kann. So wird beispielsweise die sich keine Blöße zu geben, wird er deshalb,
Aussage „Ich lehne bestimmte Spiele ab, weil wo das Antwortformat dies zulässt, unverbind-
ich sie nicht gut kann“ bei vielen Probanden liche Reaktionen abgeben, etwa die Kategorie
einen Konflikt auslösen. Man lehnt bestimmte „manchmal“ ankreuzen.
Spiele ab, aber nicht, weil man sie nicht gut
kann, sondern etwa aus ethischen Gründen. Eine Aussage wie „die Verhaltensweise X soll-
Streng genommen, müsste man also in diesem te verboten werden“ ist deutlich affektgelade-
Fall mit „stimmt nicht“ antworten. Das wür- ner als die sinngemäß gleiche Aussage „sollte
de aber für diese Probanden implizieren, dass nicht erlaubt sein“. Wie empirische Untersu-
sie überhaupt keine Spiele ablehnen, was ja chungen nachgewiesen haben (Rugg, 1941),
wiederum nicht der Fall ist. findet die affektgeladene Alternative meist ei-
ne geringere Zustimmung als die eher neutrale
Eine weitere Fehlerquelle stellen mehrdeutige Formulierung.
Aussagen dar. Bei Aussagen wie „Ich brauche
lange für meine Hausaufgaben“, „Ich schließe Die Satzstruktur kann einen Einfluss auf das
leicht Freundschaft“ oder „Ich habe körperli- Verständnis der Aussage haben. Bei sprachlich
che Beschwerden“ sind die Begriffe „lang“, weniger differenzierten Probanden erschweren
„leicht“ und „körperliche Beschwerden“ mehr- lange und komplizierte Sätze (z. B. Schach-
deutig, d. h. das Antwortverhalten hängt in telsätze), passivische Konstruktionen und ins-
starkem Maße von der Interpretation dieser besondere doppelte Verneinungen ein korrek-
Begriffe durch den Probanden ab. Dieser Um- tes Verständnis (Tränkle, 1983). Dieses Pro-
stand wäre evtl. unproblematisch, wenn es blem beeinflusst u. a. die Erfassung der Zu-
dem Testautor gerade um die Erfassung dieser stimmungstendenz. Um diese Tendenz zu kon-
Interpretation ginge. So könnte etwa die ge- trollieren, werden in einigen Fragebogen die-
häufte und spontane Zustimmung zu dem Item selben Sachverhalte einmal positiv und einmal

296
10.6 Einflüsse auf das Antwortverhalten bei Selbstberichten

negativ formuliert. Eine Person mit starker Zu- Intensitäten werden häufig auf Antwortska-
stimmungstendenz sollte dann in beiden Fäl- len erfragt, deren niedrigster Wert entweder
len mit „ja“ antworten. Hier kann jedoch bei ein Nullpunkt ist, oder bei denen um einen
der negativen Formulierung das Problem ei- Nullpunkt herum Plus- und Minuswerte auf-
ner doppelten Verneinung auftreten. So könnte treten. Der erstgenannte Typ signalisiert dem
etwa die Frage „Sind Sie dagegen, dass das Probanden, dass dem Testgeber ein unipolares
Gesetz X abgeschafft wird?“ bei einigen (evtl. Merkmal vorschwebt, das sich von „nicht oder
unaufmerksamen) Lesern Unklarheiten dahin- kaum vorhanden“ bis „sehr ausgeprägt“ er-
gehend aufkommen lassen, was denn jetzt die streckt. Sollte auf dieser Skala etwa ein Merk-
Antwort „nein“ bedeutet: dass das Gesetz nicht mal wie Dominanz beurteilt werden, so würde
abgeschafft werden soll oder dass man für die die Vergabe des niedrigsten Wertes bedeuten,
Abschaffung ist? dass dieses Merkmal sehr wenig ausgeprägt
ist. Der zweite Typ von Antwortskala verweist
Neben der Formulierung der Aussage hat auch
dagegen auf ein zugrunde liegendes bipolares
das Antwortformat eines Items, d. h. die Defi-
Konzept mit konträren Merkmalen. Hier wür-
nition der vorgegebenen Antwortalternativen,
de die Vergabe des niedrigsten Wertes (z. B.
einen wesentlichen Einfluss auf die Reaktio-
−3) bei Dominanz nicht die weitgehende Ab-
nen der Probanden (Schwarz, 1999). Diese
wesenheit dieses Merkmals bedeuten, sondern
Einflüsse werden besonders bei der Erhebung
die starke Ausprägung des Gegensatzes von
von Einstellungen und Verhaltensgewohnhei-
Dominanz, also Unterwürfigkeit. (Weitere Bei-
ten (z. B. bei Umfragen) deutlich, gelten aber
spiele und empirische Untersuchungen zum
auch für Persönlichkeitsfragebogen. Entschei-
Einfluss des Antwortformats auf die Reaktio-
dend ist dabei, welche Zahlenwerte, die für
nen des Probanden finden sich bei Schwarz,
Häufigkeiten oder Intensitäten stehen kön-
1999.)
nen, den einzelnen Antwortalternativen bzw.
-stufen zugeordnet werden. Neben der Gestaltung der einzelnen Items
kann auch deren Reihenfolge einen Einfluss
Antwortskalen lassen sich danach unterschei-
auf das Antwortverhalten haben (Tränkle,
den, ob ihre einzelnen Stufen eher eine ho-
1983). Die Zusammenstellung der für einen
he oder geringe Häufigkeit des interessieren-
Fragebogen ausgewählten Items basiert dar-
den Merkmals nahelegen. Wenn z. B. nach der
auf, dass die Antworten zu den Einzelitems lo-
Häufigkeit des Auftretens von körperlichen
kal stochastisch voneinander unabhängig sind
Beschwerden gefragt wird, so wird eine Skala,
(I Kap. 4). Diese Voraussetzung kann durch
deren Stufen sich von „weniger als einmal im
Aktualisierungs- und Konsistenzeffekte ver-
Jahr“ bis „mehr als einmal im Monat“ erstre-
letzt werden, da sich der Proband bemühen
cken, beim Probanden die Erwartung auslösen,
wird, Zusammenhänge zwischen den Inhalten
dass der Testgeber nur an wirklich schweren
einzelner Items und seinen Antworten darauf
Beschwerden (z. B. „hohes Fieber“) interes-
herzustellen.
siert ist. Dementsprechend wird er auch nur
derartige Ereignisse aus dem autobiographi- Aktualisierungseffekte (Tränkle, 1983) liegen
schen Gedächtnis abrufen und zur Grundla- vor, wenn ein Iteminhalt bestimmte Inhalte
ge seiner Antwort machen. Würde die Skala nachfolgender Items stärker hervorhebt. So
dagegen zwischen den Stufen „zweimal im mag etwa ein Item, in dem nach körperlichen
Monat oder weniger“ und „mehrmals am Tag“ Beschwerden im letzten Jahr gefragt wird, die
variieren, so wird der Proband seine Aufmerk- Aufmerksamkeit des Probanden verstärkt auf
samkeit verstärkt auf alltägliche Beschwerden dessen körperlichen Zustand lenken. Wird an-
(z. B. „außer Atem geraten“) lenken. schließend nach „allgemeiner Lebenszufrie-

297
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

denheit“ gefragt, so könnte die Antwort hier- auch sinnvoll sein, Probanden das Erhebungs-
auf stärker am berichteten körperlichen Zu- ziel offen mitzuteilen. Dies kann beispielswei-
stand orientiert sein, als dies ohne das voran- se dann gegeben sein, wenn der an einem Mo-
gegangene Item der Fall gewesen wäre. difikationsprogramm teilnehmende Klient in
regelmäßigen Abständen Angaben zum Auf-
Konsistenzeffekte liegen vor, wenn der Pro- treten von Verhaltensweisen machen soll, die
band versucht, auf Items, in denen aus seiner Ziele dieser Modifikation sind. In diesem Fall
Sicht nach ähnlichen Sachverhalten gefragt würde sich die offene Kommunikation und
wird, „stimmige“ Antworten zu geben. Wer die kompakte Darbietung der entsprechenden
sich bei einem bestimmten Item etwa darauf Items vermutlich günstig auf die Kooperation
festgelegt hat, verträglich und unaggressiv zu des Klienten auswirken.
sein, der wird dann auch in entsprechender
Weise auf alle Items reagieren, bei denen er Aus der Art, wie ein Erhebungsinstrument äu-
vermutet, dass nach diesem Merkmal gefragt ßerlich gestaltet und in welchen weiteren Kon-
wird. text es eingebettet ist, leitet der Proband na-
türlich Rückschlüsse über die vermeintliche
Daneben kann die Position eines Items Ein- Zielsetzung einer Untersuchung ab. Derarti-
fluss auf das Antwortverhalten haben. Insbe- ge Rückschlüsse können das Antwortverhal-
sondere bei längeren Verfahren wie etwa dem ten beeinflussen und damit das Erreichen des
MMPI dürfte gegen Ende des Fragebogens die Untersuchungszieles evtl. behindern. Deshalb
Motivation des Probanden zum sorgfältigen enthält das Testformular meist wenig bedeu-
Mitarbeiten deutlich abnehmen. Damit sollten tungshaltige Testnamen. Aber auch weitere
die Antworten auf Items, die im Fragebogen Aspekte der Testgestaltung, die wir generell
an einer späteren Position stehen, diagnostisch als Kontexteffekte bezeichnen, können das Ant-
weniger brauchbar sein. wortverhalten beeinflussen.
So legten Norenzayan und Schwarz (1999)
Bei mehrdimensionalen Inventaren stellt sich Probanden einen Fragebogen mit der Beschrei-
die Frage, ob die Items nach der jeweils in- bung eines Verbrechens vor und erfragten so-
teressierenden Dimension gruppiert oder in dann die Meinung über mögliche Ursachen
Zufallsfolge dargeboten werden sollen. Die dieser Tat. Ein Fragebogen enthielt dabei den
Antwort hierauf hängt u. a. davon ab, ob man Verfasserhinweise „Institute for Personality
die Ziele der Erhebung verschleiern oder of- Research“, der andere „Institute for Social Re-
fen angeben will. Bei Fragebogen, die Per- search“. Es zeigte sich, dass Probanden, die
sönlichkeitsmerkmale wie etwa Feindseligkeit, annahmen, einen von Persönlichkeitsforschern
Gewissenhaftigkeit oder Dominanz messen entworfenen Fragebogen zu bearbeiten, mehr
sollen, wird man im Allgemeinen versuchen, auf Persönlichkeitsvariablen als Ursachen des
die spezielle Zielsetzung der Erhebung zu ver- Verbrechens zurückgriffen, während Teilneh-
schleiern. Dies geschieht nicht nur durch un- mer der sozialwissenschaftlichen Bedingung
verfängliche oder nichtssagende Namen, die eher soziale Umstände als Bedingungen an-
dem Instrument gegeben werden (häufig Ab- nahmen.
kürzungen wie MMPI oder STAI), sondern
auch dadurch, dass die zu den einzelnen Merk- Bei der dargestellten Untersuchung handel-
malen gehörenden Items gut durchmischt wer- te es sich nicht um eine Erhebung von Per-
den. Auf diese Weise wird es den Probanden sönlichkeitsmerkmalen, sondern eher um eine
erschwert, eine Hypothese über die Messinten- Meinungsumfrage. Das Ergebnis lässt sich al-
tion zu entwickeln. Manchmal kann es aber lerdings auf verschiedene Untersuchungsziele

298
10.6 Einflüsse auf das Antwortverhalten bei Selbstberichten

verallgemeinern. Probanden bilden offensicht- eher anforderungsfreien Verfahren (etwa einer


lich Hypothesen über den Arbeitsbereich ei- Spielsituation) am Beginn der Untersuchung
nes Untersuchers. Dementsprechend geben sie der Fall gewesen wäre. Wenn bei einer Unter-
dann im Fragebogen diejenigen Informatio- suchung sowohl stabile Eigenschaften als auch
nen weiter, von denen sie annehmen, dass sie momentane Zustände erhoben werden sollen,
für den Untersucher von besonderem Interesse so macht es insbesondere für die Erhebung
sind. des Zustands einen Unterschied, ob dieser vor
oder nach der Messung einer mit diesem Zu-
Den einflussreichsten Kontextfaktor stellen na-
stand korrespondierenden Eigenschaft regis-
türlich die von Probanden unterstellten gene-
triert wird. Steht am Anfang die Eigenschaft
rellen Ziele einer Untersuchung dar. Wie be-
(z. B. Ängstlichkeit), bei der der Proband ja
reits eingangs dieses Abschnitts erwähnt, dürf-
meist aufgefordert wird, anzugeben, wie er
te das Verhalten des Probanden stark durch
sich „generell“ fühlt oder verhält, so hat die In-
die Frage beeinflusst werden, ob für ihn in ei-
struktion „generell“ auch einen deutlichen Ein-
ner Untersuchung etwas auf dem Spiel steht
fluss auf den nachfolgenden Bericht des Zu-
oder nicht. Wer etwa seinen Führerschein zu-
stands, etwa der Zustandsangst. Der Proband
rückerhalten oder aus dem Militärdienst ent-
zieht in diesem Fall eine andere Ereignisstich-
lassen werden möchte, der wird sich bei sei-
probe zur Bestimmung seines Zustands heran,
nen Antworten anders verhalten als derjeni-
als wenn er seinen Zustand ohne dieses voran-
ge, der einen Fragebogen anonym, „nur zu
gehende Ereignis angeben sollte. Eigenschafts-
Forschungszwecken“, ausfüllt. Die generel-
und Zustandsmessung werden einander also
len Ziele einer psychologischen Untersuchung
ähnlicher. Der Zusammenhang ist dagegen we-
können (und dürfen) dem Probanden in der
niger ausgeprägt, wenn die Messung des Zu-
Regel nicht verheimlicht werden. Der Testge-
stands vor der der Eigenschaft erfolgt, weshalb
ber muss deshalb bei der Interpretation der
generell diese Sequenz realisiert werden soll-
erhaltenen Werte, die ja meist anhand der für
te.
diesen Test vorliegenden Normen geschieht,
sozusagen „Korrekturen“ einplanen (Kamin- Der mögliche Einfluss von Personfaktoren auf
ski, 1970). Diese Interpretationen müssen da- das Antwortverhalten wurde eingangs dieses
bei insbesondere berücksichtigen, dass Test- Abschnitts bereits kurz im Zusammenhang
normen ja im Allgemeinen in anonymen und mit den von Cronbach (1990) beschriebenen
für die Teilnehmer risikolosen Situationen er- Response Sets angesprochen. Vier Faktoren
hoben wurden. Bei der Korrektur muss der haben sich dabei als besonders einflussreich
Untersucher also den Abstand zwischen der erwiesen: Bedürfnis nach Anerkennung, Ten-
risikolosen Eichsituation und dem jeweiligen denz zur Selbstdarstellung, Selbstaufmerksam-
Risiko für seinen konkreten Probanden einbe- keit und Selbsteinsicht.
ziehen.
Bedürfnis nach Anerkennung („need for appro-
Fragebogen werden häufig nicht allein, son- val“; Crowne & Marlowe, 1964) wird meist
dern im Rahmen einer ganzen Batterie dar- mit der bereits beschriebenen Tendenz zum
geboten. Hier ist mit ähnlichen Einflüssen zu Antworten im Sinne der sozialen Erwünscht-
rechnen, wie wir sie als Reihenfolgeeffekte bei heit (SE-Tendenz) gleichgesetzt. Dies ist aber
den Einzelitems kennen gelernt haben. Wenn nicht ganz korrekt, da sich SE nicht nur auf
beispielsweise am Anfang dieser Batterie ein interindividuelle Unterschiede, sondern auch
anspruchsvoller Leistungstest steht, so wer- auf die Eigenschaft von Fragebogenitems be-
den für den Probanden in der weiteren Erhe- ziehen kann, generell, also bei den meisten
bung andere Aspekte aktualisiert, als dies bei Menschen, eine sozial erwünschte Reaktion

299
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

auszulösen (vgl. hierzu Edwards, 1970). So se Komponente könnte man Defensivität oder
wird etwa ein Item wie „Ich bestrafe Leute, „Verleugnung“ nennen), und die Tendenz, sich
die ich nicht mag“ wohl von nur sehr wenigen sozial erwünschte Merkmale zuzuschreiben
Menschen zustimmend beantwortet werden. („Attribution“; vgl. auch Krohne, 2010). Tat-
sächlich erfasst die M-C-SD-Skala auch ge-
Das Ausmaß, in dem Items generell sozial er-
nau diese beiden Aspekte (Ramanaiah, Schill
wünschte Reaktionen auslösen, kann man kon-
& Leung, 1977). In dieser Konzeption sind
trollieren, indem man diese Tendenz für jedes
allerdings die beiden angenommenen SE-
Item durch Beurteiler einschätzen lässt (vgl.
Komponenten in jeweils entgegengesetzter
auch Edwards, 1970). Erhalten Items bei die-
Weise mit der Zustimmungs- bzw. Ableh-
ser Beurteilung sehr hohe Werte, so sind sie
nungstendenz konfundiert, da „Verleugnung“
für allgemeinere Fragebogen eher ungeeignet.
nur über Ablehnung, „Attribution“ dagegen
Ein Teil dieser Items könnte aber evtl. dazu
nur über Zustimmung zu Feststellungen er-
dienen, die SE-Tendenz als Persönlichkeits-
fasst wird (Paulhus, 2002).
merkmal zu erfassen. Derartige Items müssten
dabei drei Voraussetzungen erfüllen: einen ge- Eine andere Differenzierung innerhalb der SE-
wissen, aber nicht zu hohen, Grad sozialer Er- Tendenz wurde von Paulhus (1984) mit den
wünschtheit ansprechen, Merkmale oder Ver- Komponenten „self-deceptive enhancement“
haltensweisen thematisieren, die in der Bevöl- (SDE) und „impression management“ (IM)
kerung (bei negativen Sachverhalten) einen ho- vorgeschlagen. Die erste Komponente bezeich-
hen bzw. (bei positiven Sachverhalten) einen net ein Antwortverhalten, das dem Schutz des
geringen Verbreitungsgrad haben, und schließ- Selbstbildes und des Selbstwertgefühls dient.
lich in ihrer Messintention nicht durchschau- Dieses wenig bewusst kontrollierte Verhalten
bar sein. Personen, die die Mehrzahl derartiger soll primär Selbsttäuschung reflektieren, wo-
Aussagen (bei unerwünschten Inhalten) als für bei eine leichte Tendenz zur Selbsttäuschung
sich unzutreffend bzw. (bei erwünschten Merk- für gut angepasste und psychisch gesunde Per-
malen) als zutreffend bezeichnen, sollten dann sonen kennzeichnend sein soll. Dagegen meint
eine verstärkte SE-Tendenz aufweisen. Nach IM die bewusste Verfälschung der Antworten
diesem Prinzip ist das bekannteste Instrument mit dem Ziel, gegenüber einem Publikum ein
zur Erfassung der SE-Tendenz als Persönlich- möglichst günstiges Bild seiner selbst abzuge-
keitsmerkmal, die Marlowe-Crowne Social ben.
Desirability Scale (M-C-SD; Crowne & Mar-
Beide Tendenzen werden mit dem Balanced
lowe, 1960) konstruiert. Allerdings sind viele
Inventory of Desirable Responding (BIDR;
ihrer Items, und dies gilt auch für andere SE-
Paulhus, 1991, 1998; Paulhus & Reid, 1991;
Skalen, in ihrer Messintention leicht durch-
deutsche Version: Musch, Brockhaus & Brö-
schaubar. (Für eine deutschsprachige Skala
der, 2002) erfasst. Das Attribut „balanciert“
zur Erfassung der SE-Tendenz siehe Stöber,
verdankt sich der Tatsache, dass in beiden
1999.)
Skalen SE-positive (Zustimmung indiziert SE)
Das Bedürfnis nach Anerkennung wie auch und SE-negative (Ablehnung indiziert SE)
die SE-Tendenz werden oft mit dem Merk- Items eingesetzt werden, so dass das gerade
mal Defensivität gleichgesetzt. Auch dies ist angesprochene Problem der Konfundierung
nicht ganz richtig. Das Bedürfnis nach Aner- mit Zustimmungs- bzw. Ablehnungstendenzen
kennung und die SE-Tendenz als Persönlich- nicht entsteht. Für SDE bzw. Selbsttäuschung
keitsdisposition enthalten nämlich zwei Kom- sind hier Items vorgesehen, die eine (übertrie-
ponenten: die Tendenz, sozial unerwünsch- bene) Wahrnehmung von Kontrolle, (überhöh-
te Eigenschaften bei sich abzuleugnen (die- te) Zuversicht oder fehlende Einsicht in eigene

300
10.6 Einflüsse auf das Antwortverhalten bei Selbstberichten

Unzulänglichkeiten thematisieren (z. B.. „Der als ohne Kontrolle. Die Validität der „kor-
erste Eindruck, den ich von anderen Menschen rigierten“ Werte ist in diesen Fällen nied-
gewinne, bewahrheitet sich meistens“). Für riger als die der Ausgangswerte. Die em-
IM bzw. Fremdtäuschung sind Items enthal- pirische Befundlage hierzu ist allerdings
ten, die erwünschte, aber wenig verbreitete, keineswegs eindeutig (siehe z. B. Holden
oder unerwünschte, aber weit verbreitete Ver- & Passey, 2010; Konstabel, Aavi & Al-
haltensweisen ansprechen (z. B. „Ich fluche lik, 2006; zur Entwicklung des Konstrukts
niemals.“) und weitere Differenzierungen vgl. Paul-
hus, 2002).
Kontrolle für soziale Erwünschtheit?

Inwieweit man eine oder beide Tendenzen Das Bedürfnis nach Anerkennung bzw. die
bei der Interpretation der Scores aus ande- Tendenz, sozial erwünschte Antworten zu ge-
ren Skalen, die hoch mit diesen Tendenzen ben – besonders im Sinne von IM –, kann man
korrelieren (z.B. Gewissenhaftigkeit), be- als Teilbereich der generellen Selbstdarstel-
rücksichtigen (und dann entsprechend auch lung bezeichnen. Allerdings lässt sich Selbst-
statistische Korrekturen vornehmen) sollte, darstellung nicht auf das Bedürfnis nach Aner-
ist zur Zeit unklar. Eine „vorsichtige“ In- kennung oder SE bzw. IM reduzieren. Selbst-
terpretation der Scores von Personen mit darstellung bezeichnet vielmehr die Tendenz,
hohen SE-Werten auf anderen Skalen, die den Eindruck, den man auf andere macht, in
deutlich wertbehaftete Merkmale reflektie- bestimmter Weise zu lenken. Diese Tendenz
ren, wird häufig empfohlen und ist entspre- kann sich erstrecken vom Wunsch, „wahre“
chend gängige Praxis. Was allerdings die Eigenschaften oder Zustände auszudrücken,
Qualifikation „vorsichtig“ hier genau be- bis hin zur Täuschung und Verstellung (Laux,
deuten soll, wird kaum expliziert. Das zen- 2008; Mummendey, 1995; Schlenker & Wein-
trale Problem solcher Korrekturen – sei- gold, 1992).
en sie nun informell-interpretativ oder sta- Das Verhalten in einer Fragebogenuntersu-
tistisch – besteht darin, dass SE nicht nur chung wird, wie jedes Testverhalten, bis zu
„stilistische“ Varianz im Antwortverhalten, einem gewissen Grad durch die Tendenz zur
sondern offenbar teilweise auch „wahre“ Selbstdarstellung beeinflusst. Schließlich bil-
Personvarianz widerspiegelt: Manche Per- det eine derartige Untersuchung nur eine Vari-
sonen antworten also nicht nur sozial er- ante des Interviews, also einer sozialen Interak-
wünscht, sondern verhalten sich auch tat- tionssituation, in der Strategien der Selbstdar-
sächlich so. Bei solchen Personen würde stellung natürlich in besonderem Maße zum
eine „Korrektur“ zu Fehlern führen. Musch Tragen kommen. Verschiedene Autoren haben
et al. (2002) schlagen auf der Basis expe- deshalb die Annahme formuliert, dass indivi-
rimenteller und korrelativer Befunde vor, duelle Eigenschaften, wie sie mit Hilfe von
nur für IM (Fremdtäuschung), nicht aber Fragebogen diagnostiziert werden, das Ergeb-
für SDE (Selbsttäuschung) zu kontrollie- nis der Anwendung bestimmter Selbstdarstel-
ren. Uziel (2010) dagegen hält auch eine lungsstrategien durch den Probanden sind. So
Kontrolle von IM für problematisch; er ver- versucht etwa Laux (2008), die fünf basalen
weist etwa darauf, dass Korrelationen zwi- Persönlichkeitsdimensionen des NEO-FFI als
schen Selbst- und Fremdbericht auf gän- Selbstdarstellungsstile zu interpretieren. Mum-
gigen Persönlichkeitsskalen nach statisti- mendey (1995) konnte in diesem Zusammen-
scher Kontrolle von IM nicht konsistent hö- hang nachweisen, dass die Art der Selbstdar-
her, sondern teilweise niedriger ausfallen stellung durch den situativen Kontext deutlich

301
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

beeinflusst wird („situative Identität“). Je nach Im Ansatz von Wicklund ist Selbstaufmerk-
situativem Kontext werden unterschiedliche samkeit ein Zustand, der auch experimentell
Selbstbilder aus der Gesamtheit der Selbst- induziert werden kann. Dies geschieht in der
bilder aktualisiert bzw. einzelne Selbstbilder Bedingung „hohe Selbstaufmerksamkeit“ bei-
mehr oder weniger stark zum Ausdruck ge- spielsweise dadurch, dass Probanden vor einen
bracht (Laux, 2008; für weitere Arbeiten zur Spiegel gesetzt werden, während sie einen Fra-
Selbstdarstellung, speziell auch im Rahmen gebogen bearbeiten. Es wird dabei unterstellt,
sozialer Belastungssituationen, Renner, Laux, dass der Blick in den Spiegel gewissermaßen
Schütz und Tedeschi, 2004.) zu einem vermehrten Nachdenken über sich
selbst führt. Tatsächlich zeigte sich, dass in
Problematisch dürften allerdings Probanden
dieser Bedingung die Werte in einem Fragebo-
sein, die bei ihrer Selbstdarstellung sozusa-
gen (u. a. „Soziabilität“) stärker mit dem ent-
gen „gemischte“ Strategien einsetzen, also bei
sprechenden, mehrere Tage später registrier-
gewissen Merkmalen (z. B. „Gewissenhaftig-
ten, Verhalten korrelierten als in der Bedin-
keit“) um eine authentische Darstellung be-
gung geringer Selbstaufmerksamkeit (Wick-
müht sind, bei anderen Merkmalen (z. B. „Ver-
lund, 1979).
träglichkeit“) aber zu einer Verfälschung im
Sinne der sozialen Erwünschtheit tendieren. Für diagnostische Zwecke interessanter ist die
Um dieses Muster identifizieren zu können, Identifizierung der bereits im Abschnitt über
müsste man in Vortests merkmalsspezifische die Ängstlichkeitsmessung beschriebenen Per-
Kontrollinstrumente einsetzen. Aus deren Er- sönlichkeitsdisposition Selbstaufmerksamkeit.
gebnissen ließe sich dann erkennen, bei wel- Fenigstein et al. (1975) versuchten, Selbstauf-
chem Merkmal der Proband zu der einen bzw. merksamkeit (von ihnen „self-consciousness“,
anderen Form der Selbstdarstellung tendiert. also Selbstbewusstsein, genannt) mit Hilfe ei-
Ein derartiger Ansatz, in dem gewissermaßen nes Fragebogens zu erfassen und fanden dabei
eine Kontrolldimension den Zusammenhang drei Faktoren: private Selbstaufmerksamkeit,
zwischen Situationseinschätzung durch den öffentliche Selbstaufmerksamkeit und soziale
Probanden und der Art seiner Selbstdarstel- Ängstlichkeit. An dieser Stelle interessieren
lung moderiert, existiert allerdings, da auch nur die beiden Komponenten der Selbstauf-
nur schwer praktisch umsetzbar, bislang nicht. merksamkeit. Wie erwähnt, beschreibt priva-
te Selbstaufmerksamkeit dabei die Tendenz,
Die bisher dargestellten Überlegungen gehen
auf eigene Gefühle, Eigenschaften und Ab-
grundsätzlich davon aus, dass Personen, wenn
sichten zu achten und darüber nachzudenken.
sie über sich Auskunft geben, im Prinzip Be-
Öffentliche Selbstaufmerksamkeit bezeichnet
scheid wissen, wie es um sie im Hinblick auf
demgegenüber die Sensitivität für die eigene
die vorgelegte Frage (z. B. „Ich versuche, mei-
Wirkung auf andere sowie für den Ausdruck
ne Gefühle für mich zu behalten“) bestellt
und die Selbstdarstellung anderer in sozialen
ist. Das muss aber keineswegs der Fall sein.
Situationen. Verbunden mit dieser Sensitivität
Tatsächlich setzt eine authentische Selbstdar-
ist die Tendenz, anhand dieser Hinweise die
stellung voraus, dass Personen sich verstärkt
eigene Darstellung zu gestalten.
selbst beobachten, d. h. bestimmte vergangene
Situationen mit Gedanken, gezeigtem Verhal- Die Dimension öffentliche Selbstaufmerksam-
ten und erlebten Gefühlen in Verbindung brin- keit hat natürlich besondere Relevanz für
gen und auf dieser Basis dann auch künftiges die Forschung zur Selbstdarstellung (Laux,
Verhalten ausführen. Dieses verstärkte Befas- 2008). Das Konzept wurde deshalb von Sny-
sen mit sich selbst wird Selbstaufmerksamkeit der (1987) zu einer Theorie der Selbstüberwa-
(„self-awareness“) genannt (Wicklund, 1979). chung („self-monitoring“) ausgearbeitet. Star-

302
10.6 Einflüsse auf das Antwortverhalten bei Selbstberichten

ke Selbstüberwacher besitzen danach die Fä- Fragebogen stellen explizite Messinstrumente


higkeit, die Befindlichkeiten anderer Perso- dar. Mit ihnen werden Merkmale erfasst, die
nen wahrzunehmen und ihr eigenes Verhalten der Introspektion zugänglich sind und damit
entsprechend kontrolliert darauf abzustellen. evtl. auch bestimmten Antworttendenzen wie
Selbstüberwachung stellt somit eine gesteiger- der SE-Tendenz unterliegen. Implizite Instru-
te Form der Selbstaufmerksamkeit dar. Erfasst mente erfassen dagegen Prozesse und Merk-
wird diese Tendenz mit einer von Snyder ent- male, die außerhalb des Bewusstseins liegen
wickelten eindimensionalen Skala (revidierte und deshalb für die Introspektion unzugäng-
Form bei Gangestad & Snyder, 2000; deutsche lich sind. Ein neueres, viel beachtetes, Verfah-
Version: Nowack & Kammer, 1987; vgl. auch ren zur impliziten Messung von Persönlich-
Laux, 2008). keitsmerkmalen und (insbesondere) Einstel-
lungen ist der Implizite Assoziationstest (IAT;
Für die Frage, wieweit eigene Gefühle, Merk-
Greenwald et al., 1998). Da es sich hier um
male, Einstellungen oder Absichten dem Pro-
einen objektiven Messansatz handelt, wird die-
banden, der einen entsprechenden Fragebo-
ser Ansatz in I Kap. 11 genauer dargestellt.
gen beantworten soll, überhaupt zugänglich
sind, dürfte jedoch die Komponente private Es hat also den Anschein, als würden Faktoren
Selbstaufmerksamkeit bedeutsamer sein. Die- wie insbesondere die Tendenz zur sozialen Er-
ser Ansatz fand deshalb seinen Niederschlag wünschtheit das Antworten im Fragebogen so
im umfassenderen Konzept der Selbsteinsicht stark beeinflussen, dass das Ziel einer validen
(„self-insight“; Robins & John, 1997). Erfassung von Persönlichkeitsmerkmalen über
Selbstberichte im Grunde verfehlt wird. Wie
Die Forschung zur Selbsteinsicht hat dabei
wir bereits gesehen hatten (S. 301), wäre eine
deutlich gemacht, dass die Genauigkeit, mit
solche Schlussfolgerung jedoch übertrieben.
der Personen eigene Merkmale beschreiben,
sowohl von Persönlichkeitsdispositionen als Ein vielversprechender Ansatz, der Frage nach
auch von situativen Bedingungen – und der verzerrenden Einflüssen auf das Antwortver-
Wechselwirkung zwischen beiden – abhängt halten in Fragebogen näher zu kommen, be-
(Robins & John, 1997). Zu den situativen steht in der Kontrastierung expliziter und im-
Bedingungen gehört beispielsweise auch die pliziter (oder anderer objektiver) Maße. Da-
– häufig Zeitdruck erzeugende – Instruktion. bei kann dann nach Moderatoreffekten von
(Die Items sollen möglichst „zügig“ bearbei- SE oder anderen Tendenzen gefahndet wer-
tet werden.) Dieser Zeitdruck steht evtl. ei- den, die den Zusammenhang zwischen bei-
ner gründlicheren Beschäftigung mit eigenen den Maßen potenziell beeinflussen. Für die
Merkmalen entgegen. Aber selbst bei hoher SE-Tendenz z. B. wäre eine solche moderie-
individueller Selbsteinsicht dürfte immer noch rende Rolle zu erwarten, d. h. bei Probanden
ein erheblicher Bereich an Einstellungen, Ge- mit schwacher SE-Tendenz müsste der Zusam-
fühlen oder Persönlichkeitsmerkmalen blei- menhang enger sein als bei Personen mit star-
ben, die der Introspektion nicht (oder nur sehr ker SE-Tendenz. Für das Merkmal Ängstlich-
schwer) zugänglich und damit über Selbstbe- keit konnten Egloff und Schmukle (2003) je-
richte auch nicht erfassbar sind. Diese Über- doch in zwei Studien nachweisen, dass die SE-
legung hat Greenwald und Mitarbeiter (u. a. Tendenz diese moderierende Funktion nicht
Greenwald et al., 2002; Greenwald, McGhee besitzt. Die Assoziationen zwischen expliziten
& Schwartz, 1998) veranlasst, generell zwi- und impliziten Maßen fielen durchweg sehr
schen einer expliziten und einer impliziten niedrig aus und wurden durch unterschiedli-
Messung derartiger Merkmale zu unterschei- che Ausprägungen der SE-Tendenz nicht be-
den. deutsam beeinflusst (vgl. auch Holden & Pas-

303
10 Verfahren zur Beschaffung von subjektiven (Q-) Daten

sey, 2010). Natürlich ist es denkbar, dass an- Eine höhere Validität wird im Allgemeinen er-
dere Faktoren als die soziale Erwünschtheit, reicht, wenn bereichsspezifische Fragebogen
etwa Strategien der Selbstdarstellung oder die das Verhalten in entsprechenden Situationen
Selbstaufmerksamkeit, die Enge des Zusam- vorhersagen sollen (wenn also etwa ein Test
menhangs zwischen expliziten und impliziten der Leistungsängstlichkeit zur Prädiktion des
Testverfahren moderieren. Dies müsste in wei- Prüfungserfolgs herangezogen wird; Krohne,
teren Forschungen geklärt werden. Dabei wä- 2010). Dementsprechend finden sich im Be-
re auch den angesprochenen Differenzierun- reich der klinischen Diagnostik (I Kap. 15)
gen im Bereich der SE genauer nachzugehen. auch eher befriedigende Validitäten für sub-
Generell bleibt die Forschung zu nichtinten- jektive Verfahren. Hier werden interessierende
dierten Einflüssen auf das Antwortverhalten in Merkmale wie Befindlichkeitsstörungen oder
Fragebogen ein wichtiges und gerade in letz- Erfolg nach einer Behandlung im Allgemeinen
ter Zeit auch aktiv betriebenes Forschungsfeld nicht durch breit angelegte Inventare, sondern
der Diagnostik (Ziegler, MacCann & Roberts, durch sehr bereichsspezifische klinische Ska-
2012). len vorhergesagt.

Dass die Validitätswerte für Selbstbeschrei-


10.7 Bewertung subjektiver bungsinstrumente oft niedrig ausfallen, kann
nur denjenigen erstaunen, der sich den Vor-
Verfahren
gang einer psychologischen Diagnose in Ana-
logie zur Erhebung medizinischer Daten, et-
Fragebogen haben gegenüber anderen Verfah- wa zur Körpertemperatur oder zum Blutdruck,
ren den großen Vorteil, dass sie sehr leicht vorstellt. Tatsächlich sind die Unterschiede
durchgeführt und ökonomisch ausgewertet zwischen beiden Messprozeduren jedoch er-
werden können. Damit kommt ihnen eine be- heblich. Während sich medizinische Messun-
sondere Bedeutung für die psychologische Pra- gen auf real existierende biologische Vorgän-
xis zu. Diesem großen Vorzug steht die eher ge beziehen, haben psychologische Merkmale
unbefriedigende Validität der meisten subjekti- (z. B. Ängstlichkeit) nicht im gleichen Sinne
ven Verfahren entgegen. Diese Validität ist im- eine „reale Existenz“. Vielmehr handelt es sich
mer dann besonders niedrig, wenn mittels ver- hier um gedankliche (theoretische) Konstruk-
gleichsweise „allgemeiner“ Persönlichkeits- tionen, die nur im Rahmen einer bestimmten
skalen (z. B. zur Ängstlichkeit) das Verhalten Theorie als Ängstlichkeit, Extraversion usw.
in einem sehr spezifischen Bereich (etwa bei bezeichnet werden. Psychologische Merkmale
einer Prüfung) vorhergesagt werden soll. Des- sind also Theorieteile, aus denen jeweils abge-
halb haben sich allgemeine Persönlichkeits- leitet werden muss, in welcher Weise bestimm-
inventare, wenn sie allein eingesetzt werden, te konkrete Verhaltensweisen in definierten
auch als wenig geeignet erwiesen, etwa akade- Situationen auftreten werden. Nur bei genau-
mische oder berufliche Leistungen zu prädizie- er theoretischer Analyse sind also valide Ver-
ren (Cronbach, 1990). Als relativ kostengüns- haltensvorhersagen möglich. Diese Analysen
tiges Verfahren auf einer frühen Stufe einer müssen die komplexen sozialen Interaktions-
sequenziellen Strategie (I Kap. 6) oder inner- prozesse während einer psychologischen Un-
halb einer Testbatterie zur Erhöhung der Vor- tersuchung, insbesondere auch die Steuerungs-
hersagevalidität dieser Batterie (inkrementelle versuche des Probanden mit berücksichtigen.
Validität) eingesetzt, hat das Persönlichkeits- Dies gilt im Prinzip für jede diagnostische Er-
inventar jedoch in der praktischen Diagnostik hebung, ganz besonders aber für die Anwen-
durchaus seinen Wert. dung von Selbstbeschreibungsinstrumenten.

304
10.7 Bewertung subjektiver Verfahren

Weiterführende Literatur 4.Welchen drei Kategorien lassen sich Ver-


fahren zur Messung von Stressbewältigung
zuordnen? Geben Sie ein Beispiel für jede
Eine grundlegende Übersicht über Persönlich- Strategie.
keitsmessung mit Hilfe von Selbstberichten 5. Welche Messkonzepte werden bei der Kon-
liefert Aiken (1999). Weitere wichtige Infor- struktion und Auswertung von Items zur
mationen zur Fragebogenkonstruktion finden Messung von Interessen verwendet? Be-
sich in Cronbach (1990). schreiben Sie Logik sowie Vor- und Nach-
teile der Konzepte.
6. Beschreiben Sie Thurstones Methode zur
Fragen zur Wissenskontrolle Messung von Einstellungen.
7. Welche Einflüsse gehen vom Testmateri-
al auf das Antwortverhalten in Fragebogen
1. Wie sind Q-Daten definiert?
aus?
2. Beschreiben Sie die verschiedenen Strate-
8. Welche Personmerkmale beeinflussen das
gien der Konstruktion mehrdimensionaler
Antwortverhalten in Selbstberichten?
Inventare. Geben Sie ein Beispiel für jede
Strategie.
3. Welcher Strategie lässt sich das Freiburger
Persönlichkeitsinventar (FPI-R) zuordnen?
Begründen Sie die Zuordnung.

305
11 Verfahren zur Beschaffung von objektiven
(T-) Daten

11.1 Definition von T-Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307


11.2 Grundlagen objektiver Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
11.3 In Gesamtsystemen der Persönlichkeit fundierte objektive Tests . . . . . . . 308
11.3.1 Cattell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
11.3.2 Eysenck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
11.4 Objektive Tests zu einzelnen Konstrukten . . . . . . . . . . . . . . . . . . . 314
11.4.1 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314
11.4.2 Kognitive Stile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
11.5 Projektive Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325
11.5.1 Definition und Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . 325
11.5.2 Einteilungsgesichtspunkte . . . . . . . . . . . . . . . . . . . . . . . . 326
11.5.3 Der Rorschach-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
11.5.4 Der Thematische Apperzeptionstest . . . . . . . . . . . . . . . . . . . 329
11.5.5 Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
11.6 Kognitiv-experimentelle (implizite) Verfahren . . . . . . . . . . . . . . . . . 334
11.6.1 Verfahren zur Messung spezifischer Prozessmerkmale . . . . . . . . . 335
11.6.2 Impliziter Assoziationstest . . . . . . . . . . . . . . . . . . . . . . . . 338
11.7 Bewertung objektiver Testverfahren . . . . . . . . . . . . . . . . . . . . . . 342

Im vorangegangenen Kapitel wurden Proble- Verfahren zur Erhebung subjektiver Daten ex-
me vorgestellt, die mit der Verwendung von plizite Messinstrumente darstellen. Damit ist
Selbstauskünften für diagnostische Zwecke gemeint, dass mit ihnen im Wesentlichen nur
verbunden sind. Das zentrale Problem derar- solche Sachverhalte erfasst werden können,
tiger Daten besteht darin, dass die Messinten- die introspektiv zugänglich sind, also bewusst
tion für den Probanden relativ leicht durch- verarbeitet und gespeichert werden. Ein wei-
schaubar ist. Der Proband kann also die von teres Problem resultiert aus dem Umstand,
ihm erschlossene Zielsetzung der Erhebung dass die Diagnose bei subjektiven Verfahren
mit seinen eigenen Interessen in der diagnosti- fast ausschließlich über die Analyse verba-
schen Situation abgleichen (Kaminski, 1970) len Materials erfolgt. Damit kommt semanti-
und so sein Antwortverhalten entsprechend schen Beziehungen zwischen den Sachverhal-
steuern. Ein zweites Problem liegt darin, dass ten, die in den Items angesprochen werden,

306
11.1 Definition von T-Daten

beim Antwortverhalten eine große Bedeutung Geschieht dies im Rahmen standardisierter


zu, obwohl diese semantischen Beziehungen Testsituationen, so spricht man von „objek-
keineswegs mit den diagnostisch interessieren- tiven“ Tests. Unter objektiven Persönlichkeits-
den Zusammenhängen korrespondieren müs- tests werden dabei solche Verfahren zusam-
sen (D’Andrade, 1965; Shweder, 1982). So mengefasst, die das Kriterium der Intranspa-
registrierten etwa Watson und Clark (1984) renz des Messprinzips für den Probanden er-
für Fragebogen, in denen „negative“ Aspek- füllen.
te des Erlebens und Verhaltens angesprochen
Da das Kriterium der Intransparenz des Mess-
werden (z. B. Angst, Vigilanz, Ärger, Depres-
prinzips konstitutiv für diese Testgruppe ist,
sion), hohe Korrelationen, die sie auf das Ope-
rieren einer übergeordneten Persönlichkeits- spricht Anastasi (1982) hier auch von „indi-
disposition, der Bereitschaft, negative Affekte rekten Tests“. Dies ist eine etwas glücklichere
zu erleben, zurückführten. Tatsächlich lassen Wortwahl, da der Begriff „objektiv“ leicht zu
sich die angesprochenen Aspekte jedoch so- Verwechslungen mit dem Testgütekriterium
der Objektivität (I Kap. 3) führen kann. Da
wohl theoretisch als auch empirisch relativ gut
sich der Begriff aber nicht durchgesetzt hat,
separieren. Die registrierten hohen Zusammen-
hänge sind vermutlich in erster Linie Resultat sprechen wir weiterhin von objektiven Tests.
semantischer Ähnlichkeiten im verwendeten Ob im Sinne der Testgüte objektive Tests ob-
verbalen Material. jektiv sind, muss natürlich in jedem Einzelfall
gesondert nachgewiesen werden.
Mit dem Einsatz sog. „objektiver“ Verfahren
zur Erfassung von Persönlichkeitsmerkmalen In einigen Darstellungen objektiver Testver-
wird in der Diagnostik versucht, diese Pro- fahren werden Verfahren, die psychophysio-
bleme zu vermeiden. Objektive Verfahren er- logische Prozesse erfassen, noch einmal von
heben den Anspruch, in ihrem Messprinzip objektiven Tests i. e. S. unterschieden. Im Sin-
intransparent zu sein. Die Verschleierung des ne der Annahme einer weitgehenden Unbeein-
Messprinzips stellt die zentrale determinieren- flussbarkeit des Zustandekommens der Test-
de Eigenschaft objektiver Tests dar. Hiermit reaktion durch den Probanden lassen sich die
soll vermieden werden, dass der Proband sein beiden Gruppen jedoch zusammenfassen.
Antwortverhalten auf der Grundlage eigener Das Kriterium der Intransparenz des Mess-
Interessen steuern kann. Darüber hinaus sol- prinzips erfüllen formal sehr unterschiedliche
len objektive Tests Merkmale erschließen, die Testdesigns, die damit grundsätzlich als objek-
nicht oder nur partiell bewusst repräsentiert tive bzw. indirekte Tests angesprochen werden
sind. Hierbei spricht man von „impliziten“ können, z. B.
Merkmalen. Tests, die solche Merkmale fokus-
sieren, werden auch kurz als „implizite Ver- 1. Leistungstests, soweit sie Persönlichkeits-
fahren“ bezeichnet. Entsprechend kommt den merkmale i. e. S. erfassen,
Selbstauskünften der Probanden in objektiven 2. Fragebogenverfahren,
Tests kein oder allenfalls geringes Gewicht zu. 3. experimentelle Anordnungen,
4. apparative Verfahren,
5. psychophysiologische Messstrategien,
11.1 Definition von T-Daten 6. projektive Verfahren.
Bei Leistungstests steht hier bei der Auswer-
T-Daten sind Resultate von Messungen des tung nicht die Fähigkeitskomponente im Vor-
Verhaltens, von Leistungen und von psycho- dergrund, sondern die i. e. S. persönlichkeits-
physiologischen Reaktionen des Probanden. spezifischen, d. h. stilistischen Besonderhei-

307
11 Verfahren zur Beschaffung von objektiven (T-) Daten

ten des Individuums. Da hier am Testverhal- die dann zur Entwicklung eines entsprechen-
ten nicht die Fähigkeits-, sondern die Stilkom- den Tests zur Erfassung „kognitiver Stile“
ponente interessiert, unterscheidet Cronbach durch Witkin (1950) führte, sowie der Farb-
(1990) zwischen „Performance Tests of Abili- Wort-Interferenzversuch von Stroop (1935).
ty“, das sind Fähigkeitstests, und „Performan-
Bei den objektiven Tests kann man, je nach ih-
ce Tests of Personality“, das sind objektive
rem Bezug zu grundlegenden Persönlichkeits-
Persönlichkeitstests.
modellen, zwei Gruppen unterscheiden: Tests,
Was die Fragebogenverfahren betrifft, so ent- die in ein Gesamtsystem der Persönlichkeit
spricht ihr Einsatz dann dem eines objekti- eingeordnet sind, sowie Tests, die ein einzel-
ven Tests, wenn nicht die Selbsteinschätzung nes Konstrukt, z. B. einen kognitiven Stil, ope-
den Testscore konstituiert, wie z. B. beim Sum- rationalisieren.
menscore hinsichtlich Ängstlichkeit in der A-
Trait-Skala des STAI (I Kap. 10), sondern
stattdessen ein anderes Testverhalten erfasst 11.3 In Gesamtsystemen der
werden soll, z. B. die durchschnittliche Reak-
Persönlichkeit fundierte
tionszeit pro Item oder die Präferenz für extre-
me Antworten. objektive Tests

In einem Gesamtsystem der Persönlichkeit


fundierte objektive Tests wurden im Wesent-
11.2 Grundlagen objektiver Tests lichen in den Arbeitsgruppen von Cattell und
Eysenck entwickelt. Zwischen beiden Richtun-
gen bestehen deutliche Unterschiede: Cattell
Versuche zur objektiven Persönlichkeitsmes- (z. B. Cattell & Warburton, 1967) versuchte,
sung (im Sinne der gegebenen Definition) ge- standardisierte Testdesigns zu entwickeln. Ey-
hen historisch weit zurück (Übersicht bei Hä- senck (Übersicht in Eysenck, 1976) wollte in-
cker, 1982) und sind überall dort zu sehen, wo terindividuelle Unterschiede dagegen primär
Information über interindividuelle Differenzen in experimentellen Designs und hier beson-
nicht über Selbsteinschätzung oder Fremdbe- ders mit Hilfe apparativer Techniken erfassen.
urteilung, sondern über Verhaltensindikator- Es soll zunächst der Ansatz von Cattell näher
en gewonnen wurde. Systematisch ausgebaut betrachtet werden.
wurde die objektive Persönlichkeitsmessung
Ende des 19. Jahrhunderts durch Kraepelin
(1896). Ziel Kraepelins war es dabei, Klassi-
fikationen von sog. „Geistesstörungen“ durch 11.3.1 Cattell
Registrierung von Arbeitsvorgängen (Zeitmes-
sung, Wahlreaktionen, Lernen) zu erreichen. Cattell hat versucht, ein System der Grund-
Hierzu gehörte beispielsweise auch ein, später eigenschaften der Persönlichkeit aufzustellen,
als Pauli-Test (Pauli & Arnold, 1951) bekannt indem er zunächst über verschiedene Reduk-
gewordener, Rechentest (I Kap. 12). tionsschritte einen Pool von Eigenschaftsva-
riablen gewann, die überwiegend in Form
Weitere Stadien der Entwicklung objektiver von Gegensatzpaaren (z. B. „aufmerksam-
Tests sind die Formdeuteversuche von Ror- geistesabwesend“) angeordnet waren. Sein
schach (1921; I Kap. 2), die Konstruktion Ziel war es, hieraus faktoriell bestimmte Di-
von Wahrnehmungsaufgaben vom Typ „ver- mensionen der Persönlichkeit zu ermitteln, die
borgene Figuren“ durch Gottschaldt (1926), über verschiedene Erhebungsmodi invariant

308
11.3 In Gesamtsystemen der Persönlichkeit fundierte objektive Tests

ausfallen und somit den Charakter von Grund- gefragt werden, ob man lieber mit einem Be-
eigenschaften („source traits“) der Persönlich- kannten einen Wettlauf machen oder allein
keit aufweisen sollen (Cattell, 1946, 1965). laufen möchte (wobei nach der Anzahl aufge-
suchter Wettbewerbssituationen ausgewertet
Seine erste Analyse bezog sich auf L-Daten; wird). Psychophysiologische Parameter lassen
die erwähnten Eigenschaftspaare wurden al- sich insbesondere in Belastungssituationen er-
so im Sinne der Fremdbeurteilung von Per- heben, etwa dem (im nächsten Abschnitt ge-
sonen eingesetzt. Aus dieser Analyse re- nauer beschriebenen) Cold-pressor test („Eis-
sultierten zwölf Faktoren, z. B. Dominanz- wassertest“). Zu den meisten Tests gibt es meh-
Unterordnung. In einem nächsten Schritt for- rere Auswertungsvariablen, die aber in der Re-
mulierte er den Pool der Eigenschaftsvariablen gel miteinander assoziiert sind. So werden et-
in Fragebogenitems (Q-Daten) um und ermit- wa im psychomotorischen Labyrinthtest die
telte anschließend wiederum über Faktoren- Geschwindigkeit und Genauigkeit gemessen,
analyse die Struktur der Selbstbeschreibung mit der ein Proband ein vorgezeichnetes Laby-
der Persönlichkeit. Die resultierenden 16 Fak- rinth mit einem Stift durchfährt (zur Beschrei-
toren, die konstitutiv für die Konstruktion des bung weiterer Testverfahren siehe u. a. Pawlik,
in I Kap. 10 beschriebenen 16 PF-Tests wur- 1968). Auffällig an diesen Testbatterien ist die
den, beinhalten die Mehrzahl der zwölf Fak- Dominanz von Fragebogen (etwa zwei Drittel
toren aus der L-Daten-Ebene. Die faktoren- aller Tests). Dadurch wird eine der Forderun-
analytische Auswertung von objektiven Tests gen an objektive Testverfahren, nämlich den
sollte die Systematik der L- und Q-Daten auf Anteil verbalen Materials möglichst gering zu
T-Daten-Ebene bestätigen. Dabei zog Cattell halten, nicht erfüllt.
folgende Gruppen objektiver Tests heran:
Cattell ermittelte aus diesem Variablensatz
1. Fähigkeitstests, 21 Dimensionen der Persönlichkeit auf T-
2. allgemeine Leistungstests, Daten-Niveau (I Tab. 11.1). Diese T-Daten-
3. Wahrnehmungstests, Faktoren 1. Ordnung erhielten von ihm die
4. Gedächtnisproben, Buchstabenkombination U.I. (Universal In-
5. psychomotorische Tests, dex) und eine Zahl von 16 bis 36 (die Zah-
6. sensumotorische Koordinationsaufgaben, len 1 bis 15 stehen für Fähigkeitsfaktoren).
7. Fragebogen, Anders als von Cattell angestrebt, finden sich
8. Tests zu Einstellungen und Haltungen, allerdings nur vereinzelt Beziehungen dieser
9. Aussagen über ästhetische Vorlieben, 21 Faktoren zu den Dimensionen des 16-PF-
10. projektive Tests, Tests, und diese Übereinstimmungen bestehen
11. Reaktionen in Miniatursituationen, auch nur mit dessen Globalfaktoren (Fakto-
12. Spieltests, ren 2. Ordnung). So lässt sich etwa U.I.-32
13. psychophysiologische Parameter. dem Globalfaktor Extraversion, U.I.-24 dem
Globalfaktor Ängstlichkeit, U.I.-22 der Selbst-
Ein Beispiel für einen Wahrnehmungstest ist
kontrolle und U.I.-19 der Unabhängigkeit zu-
die Beurteilung der Länge von Linien. Hierbei
ordnen (Pawlik, 1968).
wird dem Probanden in verschiedenen Auf-
gaben jeweils ein Linienpaar dargeboten. Er Durch Verwendung faktorenanalytischer Tech-
muss dabei angeben, ob beide Linien gleich niken (I Kap. 4) gewann Cattell aus objekti-
lang sind bzw. welche von beiden länger ist. ven Testdaten zwölf Zustandsfaktoren, denen
Score ist die Anzahl der in der vorgegebenen er die Abkürzung P.U.I. gab (u. a. Wachheit,
Zeit bearbeiteten Paare. In Tests zu Einstel- Anstrengung bei Stress, Angst, vorsichtige vs.
lungen und Haltungen würde beispielsweise sorglose Stimmung). Anschließend versuchte

309
11 Verfahren zur Beschaffung von objektiven (T-) Daten

Tab. 11.1 Die 21 U.I.-Faktoren der Persönlichkeit (nach Schmidt, 1975)

U.I.-Faktor Benennung
16 Starke Selbstbehauptung vs. Schwache Selbstbehauptung
17 Inhibition vs. Vertrauensseligkeit
18 Lebhaftigkeit vs. Passivität
19 Unabhängigkeit vs. Unterwürfigkeit
20 Konformität vs. Objektivität
21 Überschwenglichkeit vs. Zurückhaltung
22 Kortikale Wachheit vs. Gefühlsbetontheit
23 Energiemobilisierung vs. Regression
24 Angst vs. Anpassung
25 Realismus vs. Angespannte Starrheit
26 Selbstverwirklichung vs. Hausbackenheit
27 Skeptische Zurückhaltung vs. Engagiertheit
28 Asthenie vs. Selbstsicherheit
29 Verständnis vs. Willensschwäche
30 Gleichmut vs. Dissoziierte Frustration
31 Behutsamkeit vs. Impulsive Veränderlichkeit
32 Extraversion vs. Introversion
33 Bestürztheit vs. Zuversichtliches Gleichgewicht
34 Ungeschicktheit vs. Geschicktheit
35 Schläfrigkeit vs. Angeregtheit
36 Starkes Selbstwertgefühl vs. Schwaches Selbstwertgefühl

er, zwischen den Temperaments- (Persönlich- um voneinander abgrenzbare Energiequellen


keits-) und den Zustandsdimensionen jeweils und Ausdrucksformen jedes einzelnen Motivs.
im Sinne der Trait-State-Unterscheidung eine Zur Erfassung dieser Komponenten schufen
Korrespondenz herzustellen. Dies ist auch teil-Cattell und Mitarbeiter (siehe Cattell & Child,
weise gelungen. So korrespondiert beispiels- 1975) eine Vielzahl von Testanordnungen, bei-
weise der State-Faktor P.U.I.-9 „Angst“ mit spielsweise zur Registrierung von Variationen
dem Trait-Faktor U.I.-24 „Angst“. bei Wahrnehmungs-, Denk-, Erinnerungs- und
Lernprozessen, von physischer und psychi-
Neben der Erfassung von Persönlichkeitsmerk- scher Aktivierung sowie Wissen und Können.
malen und Zustandsdimensionen mit Hilfe ob-
jektiver Testverfahren hat sich Cattell (1957)
auch um eine objektive Motivmessung bemüht. Eine Faktorenanalyse dieser Variablen resul-
Er nahm dabei zwei unabhängige Aspekte des tierte in sieben Faktoren 1. Ordnung, von de-
Motivgeschehens an, die Motivstärke und die nen allerdings nur die ersten fünf einigerma-
grundlegenden Dimensionen der Motivinhalte. ßen ausgeprägte Ladungen aufwiesen. Die in-
haltliche Interpretation dieser Komponenten,
Bei den Komponenten der Motivstärke handelt denen die griechischen Buchstaben Alpha bis
es sich nicht um verschiedene Motive, sondern Epsilon zugeordnet wurden, orientierte sich

310
11.3 In Gesamtsystemen der Persönlichkeit fundierte objektive Tests

stark an der psychoanalytischen Terminologie. sondern sind Zusammenstellungen von Tests,


Die wichtigsten Komponenten sind: die entweder für besonders gut replizierte Fak-
toren stehen oder thematisch zusammengehö-
• Alpha (Bewusstes Es): Schnelles Entschei- ren.
den, Dinge sagen oder tun, ohne auf Kosten
zu achten, wenig rationale Kontrolle (Im- Für die erstgenannte Bemühung steht der OA-
pulsivität). Test von Cattell und Schuerger (1978), mit
• Beta (Ich): Fähigkeit zur Realisierung von dem die zehn stabilsten U.I.-Faktoren (u. a.
Motiven (planvolles Handeln). Unabhängigkeit, Angst, Extraversion und Be-
stürztheit; I Tab. 11.1) erfasst werden sollen.
• Gamma (Über-Ich): Orientierung am Ideal-
Für Kinder und Jugendliche zwischen 12 und
bild (Moralismus).
17 Jahren liegt die High School Objective-
Zur Aufschlüsselung der Struktur der Motiv- Analytic Personality Battery (Schuerger & Cat-
inhalte faktorisierte Cattell eine Vielzahl von tell, 1976) für zwölf U.I.-Dimensionen vor. Im
Einstellungen. Er gelangte dabei zu zwei ver- deutschsprachigen Raum wurde mit der OA-
schiedenen Klassen von Motivdimensionen, Testbatterie 75 (Häcker, Schmidt, Schwenkme-
die er als Triebe und Motivziele bezeichne- zger & Utz, 1975) eine Adaptation dieser Tests
te. In den Trieben sah Cattell eine Art biolo- veröffentlicht. Die OA-Testbatterie 75 besteht
gisch verankerter Antriebe, während er unter aus 50 Einzeltests, aus denen 102 Variablen
Motivzielen sozial und kulturell vermittelte abgeleitet werden können. (Für eine revidier-
Werthaltungen verstand. Beispiele für Triebe te und gekürzte Fassung – OA-TB – siehe
sind Sicherheitssuche, Sexualität, Geselligkeit Schmidt, Häcker, Schwenkmezger & Cattell,
oder Fürsorge. Dimensionen der Motivziele 1987.)
sind u. a. Selbstkontrolle, Religion, Beruf oder Thematischen und damit spezifischen Erhe-
Partnerschaft. bungszwecken dient u. a. die OA Anxiety Bat-
Triebe, Motivziele, Einstellungen und Verhal- tery (Cattell & Scheier, 1960; deutsche Be-
ten lassen sich als vier Ebenen des Motivge- arbeitung Beyme & Fahrenberg, 1968). Zur
schehens darstellen. Triebe determinieren Mo- Erfassung der im Motivationsbereich identifi-
tivziele, diese wiederum die Einstellungen und zierten Triebe und Triebziele wurde der Moti-
diese schließlich das Verhalten. Dabei sollen vation Analysis Test (MAT; Cattell, Horn, Swe-
die Einheiten auf diesen vier Stufen vielfältig ney & Radcliffe, 1964) entwickelt, von dem
verknüpft sein. Ein Trieb kann mit mehr als ei- auch eine Version für Schulkinder (Sweney,
nem Motivziel, und dieses wiederum mit mehr Cattell & Krug, 1970) existiert. Eine deutsche
als einer verhaltensdeterminierenden Einstel- Adaptation des MAT für Erwachsene wurde
lung verbunden sein. Umgekehrt kann ein Mo- von Häcker, Schmidt und Cattell (1977) pu-
tivziel durch eine Reihe von Trieben gespeist bliziert. Analog zu dem im vorangegangenen
werden. Kapitel beschriebenen Format vieler Interes-
sentests (I Kap. 10.4) besteht der MAT aus
Zur Messung der verschiedenen Persönlich- Zwangswahlitems, zu denen die Antworten ip-
keitsdimensionen auf T-Daten-Ebene haben sativ ausgewertet werden, so dass jeweils nur
Cattell und Mitarbeiter die wichtigsten ih- die relative Stärke der einzelnen Motivations-
rer objektiven Tests in Form sog. Objektiv- komponenten bestimmt werden kann. Zwei
Analytischer Testbatterien (OA-Tests) zusam- typische Items könnten etwa lauten:
mengestellt und für den praktischen Gebrauch
publiziert. Derartige Batterien umfassen in der 1. Wieviel Prozent der Bevölkerung meinen,
Regel nicht Indikatoren aller U.I.-Faktoren, dass die Stellung eines Menschen sich in

311
11 Verfahren zur Beschaffung von objektiven (T-) Daten

seinem Auftreten widerspiegelt und Kleider die übrigen objektiven Tests sind die Retest-
Leute „machen“? Reliabilitäten noch nicht befriedigend (Häcker
80 % — 50 % — 20 % — 0 % et al., 1975; Schmidt, 1975). In der objektiven
2. Das Weihnachtsgeld könnte man am besten Angstbatterie scheinen sie jedoch zufrieden-
verwenden um: stellend auszufallen (Beyme & Fahrenberg,
( ) Schutzvorkehrungen für den Fall 1968; Cattell & Scheier, 1960).
eines Krieges zu treffen.
( ) Bedürftige zu unterstützen. Entsprechend ihrer Fundierung in einer fakto-
renanalytischen Persönlichkeitstheorie richte-
Beim ersten Item würde eine Person, die sehr ten sich erste Bemühungen der Validitätsprü-
auf ihr Äußeres bedacht ist, einen hohen Pro- fung auf den Nachweis der Stabilität der gefun-
zentsatz ankreuzen. Beim zweiten Item sollte denen Faktorenstrukturen. Dieser Nachweis
eine am Idealbild orientierte Person die unten- kann bestenfalls als partiell geglückt betrach-
stehende Alternative wählen. tet werden (Howarth, 1972; Schmidt, 1975).
Befunde zu den Gütekriterien der von Cat- Tatsächlich scheint ein Großteil der Faktoren-
tell und Mitarbeitern konstruierten objektiven struktur, anders als bei Q-Daten, recht insta-
Tests bieten ein sehr uneinheitliches Bild. Ob- bil zu sein. Das bedeutet, dass offensichtlich
jektive Tests werden im Allgemeinen nach die Höhe der Interkorrelationen der einzelnen
Standardinstruktionen durchgeführt und aus- Tests sehr stark schwankt.
gewertet, so dass sie das Kriterium der Objekti-
vität wohl durchweg erfüllen dürften. Kritisch Anstelle einer faktoriellen (also internen) Va-
anzumerken ist, dass sie häufig recht unöko- lidierung treten deshalb zunehmend Versuche
nomisch in ihrer Durchführung sind, so dass der externen Validierung. Insbesondere für den
von hier evtl. ein negativer Einfluss auf ihre klinischen Bereich zur Unterstützung von Dif-
Durchführungsobjektivität ausgehen könnte. ferenzialdiagnosen wurden dabei einige Stu-
Leider fehlen für viele Tests noch Normen, so dien vorgelegt. So gelang es Schmidt, Hä-
dass mit Rohwerten gearbeitet werden muss. cker und Schwenkmezger (1985) mit Hilfe ei-
Dies erschwert den Einsatz objektiver Tests ner Auswahl von 48 objektiven Testvariablen,
für die Einzelfalldiagnose natürlich erheblich. die diagnostizierten Gruppen der Neurotiker,
Alkoholiker und Schizophrenen untereinan-
Psychophysiologische Daten weisen eine sehr der und von einer „normalen“ Kontrollgrup-
geringe Stabilität auf. Damit erscheinen sie, pe über eine Diskriminanzanalyse zu trennen.
zumindest im Rahmen der traditionellen ei- (Richtige Klassifikation 83 %, Kreuzklassifika-
genschaftszentrierten Diagnostik, als wenig tion 59 %; weitere Untersuchungen in Schmidt
brauchbare Indikatoren von Persönlichkeits- & Schwenkmezger, 1994; Schwenkmezger,
dispositionen. Allerdings sollte hier auch nicht Schmidt & Stephan-Hembach, 1994.) Aller-
so sehr der einzelne Messwert für diagnosti- dings wird keine theoretische Begründung ge-
sche Zwecke herangezogen, sondern das Mus- liefert, warum bestimmte Variablen zwischen
ter der Veränderungen mehrerer psychophy- den Gruppen trennen.
siologischer Parameter über unterschiedliche
Situationen (z. B. in Ruhe und Anspannung) Häcker, Schwenkmezger und Utz (1979) führ-
betrachtet werden. Hierbei muss allerdings ten Untersuchungen zu der Frage durch, ob
das Phänomen der Reaktionsspezifität (Fah- das Kriterium der Intransparenz des Mess-
renberg, 1986) beachtet werden, d. h. die selek- prinzips wirklich in objektiven Tests erfüllt
tive Aktivierung einzelner Komponenten des wird. Hierdurch sollten ja Fehlerquellen aus
Musters in verschiedenen Personen. Auch für Q-Daten wie Verfälschungs-, Erwünschtheits-

312
11.3 In Gesamtsystemen der Persönlichkeit fundierte objektive Tests

oder Zustimmungstendenz ausgeschaltet wer- sondern um eine empirische Überprüfung zen-


den. Die Autoren variierten dabei die Instruk- traler theoretischer Annahmen zu den drei ge-
tionen wie auch den situativen Kontext, etwa nannten Konstrukten. Es handelt sich also hier
indem sie einen Test einmal als Forschungsin- im Sinne der zuvor gegebenen Definition nicht
strument, ein anderes Mal als Auslesesituation um Tests i. e. S. (so ist z. B. nichts über die Re-
darstellten. Sie fanden, dass die meisten ob- liabilität dieser Verfahren bekannt). Deshalb
jektiven Tests nicht so resistent gegenüber der- sollen an dieser Stelle nur exemplarisch die
artigen situativen Bedingungen sind, wie ur- wichtigsten Verfahren in ihrer Korrespondenz
sprünglich angestrebt. Dies gilt insbesondere mit den drei Persönlichkeitsdimensionen ge-
bei Verfahren, die formal wie Fragebogen auf- nannt werden. (Umfassendere Darstellungen
gebaut sind, z. B. bei dem bereits erwähnten finden sich u. a. in Eysenck, 1976.)
Item „Was würden Sie lieber machen? – Mit
Bekannten einen Wettlauf machen – Alleine Unterschiede auf der Dimension Extraversi-
laufen.“ Auch bestimmte objektive Scores aus on wurden im Wesentlichen erfasst über Lern-
Fragebogen, z. B. die Tendenz zu Extremwer- kurven, Verläufe des Leistungsabfalls, Figur-
ten, scheinen für derartige Variationen anfällig nachwirkungen, die Bestimmung sensorischer
zu sein. Schwellen und der Schmerzschwelle sowie
über Aufmerksamkeits- und Ermüdungspro-
Als Fazit bleibt festzuhalten, dass einzelne zesse.
objektive Tests in der Tradition Cattells im Eine bekannte Aufgabe zur Analyse des Leis-
Prinzip brauchbare Instrumente der Persön- tungsabfallverlaufs ist die Pursuit-rotor task.
lichkeitsdiagnostik darstellen. Die Konstruk- Die Anordnung besteht aus einer Metallschei-
tion faktoriell valider Testbatterien ist bislang
be, die sich auf einem Plattenteller schnell
nicht gelungen. Der Einsatz objektiver Testbat-dreht. Aufgabe des Probanden ist es, über
terien, zusammen mit Tests aus anderen Daten- einen Metallgriffel möglichst ständig Kontakt
ebenen, für die Differenzialdiagnose im klini- mit der Scheibe zu halten. Scores sind die An-
schen Bereich ist ein gangbarer, wenn auch zahl und die Länge der Kontaktunterbrechun-
sehr aufwändiger und damit kostspieliger Weg. gen. Wie zu erwarten, steigen diese Scores
Es stellt sich damit die Frage, ob es nicht nütz-
während des (meist fünfminütigen) Durch-
lichere Alternativen zu diesen Testbatterien gangs deutlich an. Gibt man nun den Proban-
gibt. den eine (etwa zehnminütige) Ruhepause und
setzt die Aufgabe anschließend fort, so findet
sich generell eine deutlich bessere Leistung als
am Ende des ersten Durchgangs. Diese ruhebe-
11.3.2 Eysenck dingte Leistungssteigerung wird Reminiszenz
genannt. Es konnte nun in vielen Untersuchun-
gen nachgewiesen wurden, dass der Reminis-
Im Gegensatz zu Cattell, in dessen objekti- zenz-Score, die Differenz von Leistung nach
ven Tests in starkem Maße verbales Materi- und vor der Pause, bei Extravertierten höher
al dargeboten wird, versuchte Eysenck, sei- ist als bei Introvertierten.
ne grundlegenden Dimensionen der Persön-
lichkeit, Extraversion, Neurotizismus und Psy- Eysenck hatte diese Unterschiede zunächst
chotizismus, auf der T-Daten-Ebene über ex- über die Annahme erklärt, dass Extravertier-
perimentelle Anordnungen zu operationalisie- te, verglichen mit Introvertierten, in derartigen
ren. Allerdings ging es Eysenck dabei weni- kontinuierlichen Leistungssituationen schnel-
ger um die Konstruktion von Testverfahren, ler und stärker eine kortikale Hemmung auf-

313
11 Verfahren zur Beschaffung von objektiven (T-) Daten

bauen, also leichter ermüden. Wenn das so Personen) hin. In anderen Anordnungen zeig-
wäre, dann müssten Extravertierte vor der Pau- te sich, dass hoher Neurotizismus zusammen-
se einen stärkeren Leistungsabfall zeigen. Tat- hängt mit geringerer Flexibilität im Denken
sächlich scheinen die Unterschiede im Diffe- und Wahrnehmen, mangelhafter Konzentrati-
renzscore aber hauptsächlich auf bessere Leis- on, erhöhter Suggestibilität sowie einem gerin-
tungen Extravertierter nach der Pause zurück- gen Anspruchsniveau (Eysenck, 1976).
zugehen. Belastend für die Hypothese der kor-
Unterschiede auf der Dimension Psychotizis-
tikalen Hemmung ist auch der Befund, dass
mus wurden erfasst über Phantasietests, das
sich die Beziehung nach einer längeren (mehr-
Durchhaltevermögen bei verschiedenen Auf-
tägigen) Pause umzukehren scheint, d. h. dass
gaben sowie die Genauigkeit und Schnel-
nun Introvertierte von der Pause offenbar stär-
ligkeit bei der Aufgabenbearbeitung. Perso-
ker profitieren. Im Gegensatz zur Lage bei
nen mit hohen Werten auf dieser Dimension
kurzen Ruhepausen sind hier die Befunde al-
schneiden dabei besonders gut ab in Aufga-
lerdings inkonsistent (siehe u. a. Eysenck &
ben, in denen Phantasie gefordert ist. Schlech-
Eysenck, 1985).
te Leistungen zeigen sie dagegen dann, wenn
Durchhaltevermögen, Schnelligkeit und Ge-
Auch bei weiteren Untersuchungsanordnun-
nauigkeit bei der Aufgabenbearbeitung ent-
gen sollen signifikante Unterschiede zwischen
scheidend sind.
Extravertierten und Introvertierten bestehen
(vgl. u. a. Eysenck, 1975). So zeigen Extraver-
tierte bei einfachen Lernaufgaben schlechtere
Leistungen, sie weisen ein geringeres Ausmaß 11.4 Objektive Tests zu einzelnen
an Figurnachwirkungen auf und können stär- Konstrukten
kere Schmerzen besser ertragen.

Unterschiede auf der Dimension Neurotizis- 11.4.1 Übersicht


mus wurden erfasst über die Registrierung der
Anfälligkeit gegenüber körperlichem oder psy- Bereits Cattell hatte objektive Tests zur Er-
chischem Stress, über Konzentrations- und fassung von Einzelkonstrukten veröffentlicht,
Suggestibilitätstest, die Erfassung des An- indem er aus seinen umfangreichen Batteri-
spruchsniveaus sowie über die Registrierung en Gruppen spezieller Verfahren herauslöste.
der Flexibilität (vs. Perseveration) im Denken Als Beispiel hierfür war im vorangegangenen
und Wahrnehmen. Abschnitt die OA Anxiety Battery (Cattell &
Scheier, 1960) genannt worden. Im Gegen-
Eine bekannte Anordnung zur Registrierung satz zur Vielfalt bei der Erfassung von Per-
der Stressanfälligkeit ist der bereits erwähn- sönlichkeitsmerkmalen mit Hilfe von Fragebo-
te Cold-pressor test („Eiswassertest“). Hier- gen (I Kap. 10) waren allerdings Versuche,
bei soll der Proband seinen Unterarm für eine die sich auf die Messung einzelner Persön-
gewisse Zeitdauer (ca. 1 Minute) in Eiswas- lichkeitsmerkmale mit Hilfe objektiver Tests
ser (maximal 4º C) eintauchen. Dabei lassen richteten, zu der Zeit, als Cattell seine Tests
sich von der Ankündigung bis zur Durchfüh- vorlegte, eher selten. Eine Ausnahme hiervon
rung dieser Prozedur verschiedene physiolo- sind die im nächsten Abschnitt darzustellen-
gische Parameter erheben. Die registrierten den projektiven Verfahren. Die Erfassung von
Werte weisen auf eine höhere Anfälligkeit für Einzelmerkmalen mit Hilfe objektiver Tests
Stressoren bei Probanden mit hoher Neuro- konzentriert sich stattdessen zunächst auf den
tizismustendenz (also bei emotional labilen Bereich der kognitiven Stile, d. h. auf eine

314
11.4 Objektive Tests zu einzelnen Konstrukten

Gruppe von Konstrukten, die im Übergangs- (es werden im Wesentlichen die klassischen
bereich von Fähigkeits- zu Persönlichkeits- Leistungsscores Genauigkeit, Fehler und Zeit
merkmalen i. e. S. angesiedelt ist. Erst mit der herangezogen, I Kap. 12) eindeutig als Fähig-
Entwicklung sog. „impliziter“ Verfahren, über keitsvariablen identifizieren. Zu ihnen gehö-
die in diesem Kapitel noch genauer berich- ren Feldabhängigkeit, Interferenzneigung und
tet wird, wandte sich das Interesse dann wie- Reflexivität-Impulsivität. Eine zweite Grup-
der zentralen Persönlichkeitsdimensionen wie pe, zu der etwa der analytisch vs. relational-
etwa Ängstlichkeit zu. Im Folgenden sollen funktionale Stil zählt, unterscheidet sich von
zunächst einige etablierte Testverfahren zur der ersten im Wesentlichen nur dadurch, dass
Erfassung kognitiver Stile vorgestellt werden. hier individuelle Unterschiede auf anderen als
den üblichen Fähigkeitsscores erfasst werden.
Nur die Stile einer dritten Gruppe, zu denen
11.4.2 Kognitive Stile etwa kategoriale Weite, Leveling-Sharpening
oder Scanning gehören, sollen frei von deut-
lichen Beziehungen zu Fähigkeitsdimensio-
Kognitive Stile bezeichnen theoretische Kon-
nen sein. Im Folgenden sollen diagnostische
strukte, mit denen interindividuelle Unter-
Verfahren, die zu den genannten Stilen aus
schiede bei verschiedenen Aspekten der Infor-
den drei Gruppen entwickelt wurden, kurz be-
mationsverarbeitung (Aufmerksamkeitsrich-
schrieben werden.
tung, Wahrnehmung, Bildung und Prüfung
von Hypothesen, Kategorisierung und Spei-
cherung von Information) beschrieben wer-
den (Krohne, 1985b; Sternberg & Grigorenko, Feldabhängigkeit
1997). Im Gegensatz zu Parametern kognitiver
Fähigkeiten, die sich auf interindividuelle Un-
Ausgangspunkt der Entwicklung des Kon-
terschiede im Niveau bestimmter Leistungen
strukts der Feldabhängigkeit waren Arbeiten,
beziehen, sollen Maße kognitiver Stile Unter-
in denen das Zusammenwirken visueller mit
schiede in der Art und Weise der Verarbeitung
vestibulärer und kinästhetischer Information
von Information erfassen. Cronbach (1990)
bei der Raumorientierung untersucht wurde.
spricht hier, wie erwähnt, von „Performance
Die Orientierung über die Lage unseres Kör-
Tests of Personality“.
pers im Raum, etwa eine aufrechte Position,
In I Tab. 11.2 sind wesentliche kognitive Sti- wird von externen Hinweisen (z. B. auf senk-
le aufgeführt. Schon ein kurzer Blick macht rechte Wände, einen waagerechten Boden)
deutlich, dass sich einige Stile offenbar doch sowie internen Reizen (Information aus dem
deutlich auf Fähigkeitsunterschiede beziehen. Gleichgewichtssinn) gesteuert. Jede Informati-
Sie werden deshalb der ursprünglichen In- onsquelle allein reicht normalerweise für eine
tention dieses Ansatzes, durch Analyse von korrekte Orientierung im Raum aus. In der Re-
Leistungsvariablen Informationen über Per- gel sind beide Quellen verfügbar und liefern
sönlichkeitsmerkmale außerhalb des Fähig- kongruente Information. Gelegentlich können
keitsbereichs zu erhalten, nur bedingt gerecht. sich jedoch äußere und innere Hinweisreize
Dieser Überlegung folgend hat Kogan (1973) widersprechen, etwa bei einem Piloten, der oh-
eine Klassifikation von Stilen nach dem be- ne Instrumentenhilfe oberhalb einer nicht waa-
grifflichen und operationalen Abstand zum gerechten Wolkendecke fliegt. In diesem Fall
Fähigkeitskonzept vorgeschlagen. Stile einer liefern das visuelle Feld hinsichtlich der objek-
ersten Gruppe lassen sich dabei sowohl von tiven Horizontale u. U. falsche und das interne
der Definition wie den Messoperationen her Empfinden richtige Informationen. Nicht alle

315
11 Verfahren zur Beschaffung von objektiven (T-) Daten

Tab. 11.2 Ausgewählte kognitive Stile und ihre Messung

Stil Definition Test


Feldabhängigkeit Globales vs. analytisches EFT, RFT
Herangehen an dargebotene
Information
Interferenzneigung Beeinflussbarkeit durch CWT
dominierende, aber irrelevante
Stimuli bei der
Informationsverarbeitung
Reflexivität-Impulsivität Geschwindigkeit, mit der bei MFFT
Problemen mit hoher
Antwortunsicherheit
Lösungshypothesen in
Entscheidungen umgesetzt
werden
Analytischer vs. Objekte nach Oberbegriffen CST
relational-funktionaler Stil oder nach funktionalen
Beziehungen gruppieren
Kategoriale Weite Bevorzugung enger CWS
(ausschließender) vs. weiter
(einschließender) Grenzen
Leveling-Sharpening Angleichung neuer Reize an Schematisierungstest
bestehende Eindrücke vs.
Betonung der Neuheit
Scanning Breite Größenschätzaufgabe
Aufmerksamkeitsstreuung vs.
Fokussierung der
Aufmerksamkeit
Anmerkung. EFT = Embedded Figures Test; RFT = Rod-and-Frame Test; CWT = Color-Word
Test; MFFT = Matching Familiar Figures Test; CST = Concept Sorting Task; CWS = Category-
Width Scale.

Personen sind jedoch bei derart widersprüch- Aufgabe besteht darin, den Stuhl in eine senk-
licher Information in der Lage, den Konflikt rechte Position zu bringen. Je stärker sich der
korrekt zu lösen und entsprechend fehlerfrei Proband dabei auf das visuelle Feld, also die
zu handeln. Hinweisreize aus dem Raum, verlässt, desto
weniger wird ihm diese Aufgabe gelingen.
Erste Daten zu individuellen Unterschieden
bei der Verarbeitung derart widersprüchli- Eine Vereinfachung dieser Anordnung stellt
cher Information wurden mit Hilfe des Tilted- der Rod-and-Frame Test (RFT; Witkin et al.,
Room-Tilted-Chair Tests erhoben (Witkin, 1954) dar. Bei diesem Test wird dem Proban-
1949). In diesem Test sitzt der Proband auf ei- den in einem abgedunkelten Raum ein gekipp-
nem gekippten Stuhl in einem ebenfalls, aber ter quadratischer Leuchtrahmen dargeboten, in
unabhängig vom Stuhl, gekippten Raum. Die dessen Mitte ein ebenfalls, unabhängig von der

316
11.4 Objektive Tests zu einzelnen Konstrukten

Neigung des Rahmens, gekippter Stab mon- Figuren von Gottschaldt (1926) zurückgehen-
tiert ist. Der Stab muss durch Fernbedienung de, Test besteht aus Tafeln mit komplexen
so justiert werden, dass er dem Probanden als Mustern, aus denen jeweils eine separat vor-
senkrecht stehend erscheint. Score ist die Ab- gegebene einfache Figur herauszufinden ist
weichung der Stabeinstellung von der Senk- (I Abb. 11.1). Score ist die Zeit bis zur Lö-
rechten. Eine vereinfachte transportable Ver- sung aller Aufgaben. Der EFT erreicht ähn-
sion des RFT wurde von Oltman (1979) ent- liche Stabilitätswerte wie der RFT (Witkin,
wickelt. Da die äußeren Hinweisreize hinsicht- Oltman, Raskin & Karp, 1971).
lich der Senkrechten fehlleitende Informati-
on liefern, ist der Proband bei seinem Urteil
vollständig auf interne Reize angewiesen. Per-
sonen mit großen Abweichungsscores gelingt
Abb. 11.1
die Nutzung dieser internen Information offen-
Beispielaufgabe
bar nur schlecht. Bei ihnen soll das visuelle
zum Embedded
Feld (der gekippte Rahmen) über die Informa-
Figures Test.
tion aus dem Gleichgewichtssinn dominieren.
Deshalb bezeichnen Witkin et al. (1954) diese
Personen als „feldabhängig“, während Perso- Die Korrelation zwischen EFT und RFT fällt
nen mit geringeren Abweichungswerten „fel- nur für Männer zufriedenstellend aus (r =
dunabhängig“ sein sollen. Der mit dem RFT .64, n = 46), während sie für Frauen (r =
erhobene Score ist zeitlich sehr stabil (Retest- .21, n = 45) unbedeutend ist (Witkin et al.,
Reliabilität für ein Intervall von einem Jahr 1954). Eine Faktorenanalyse von Maßen der
um rtt = .80; Witkin et al., 1954). Intelligenz und der Feldabhängigkeit (Goo-
denough & Karp, 1961) erbrachte drei in-
Untersuchungen zur Konsistenz der Feldab- terpretierbare Faktoren, von denen der dritte
hängigkeit über unterschiedliche Wahrneh- durch den EFT, den RFT sowie die Untertests
mungssituationen machten deutlich, dass die Bilderergänzen, Mosaiktest, Figurenlegen so-
registrierten Unterschiede im Abweichungs- wie Allgemeines Verständnis des Wechsler-
wert nicht in erster Linie auf eine unterschied- Intelligenztests (I Kap. 12) bestimmt ist.
liche Sensitivität für vestibuläre Reize zurück-
zuführen ist. Vielmehr fanden sich entspre- Die registrierten Zusammenhänge von EFT
chende Unterschiede auch in andersartigen und RFT mit Tests spezifischer kognitiver Fä-
Wahrnehmungsaufgaben. Deshalb nahm Wit- higkeiten führten zu einer Erweiterung der zur
kin (1950) an, dass Feldabhängige generell Erklärung beobachteter Verhaltensunterschie-
größere Schwierigkeiten als Feldunabhängige de formulierten Annahmen. Nach Witkin, Dyk,
haben, ein Wahrnehmungsfeld entsprechend Faterson, Goodenough und Karp (1962) liegt
der jeweiligen Aufgabenstellung zu restruk- den Leistungen in allen diesen Tests die Fähig-
turieren. Sie nehmen das Wahrnehmungsfeld keit zugrunde, beim Lösen komplexer Proble-
so hin, wie es ist, und sind nur schwer in der me den Kontext, der die relevanten Informa-
Lage, fehlleitende Informationen aus diesem tionen einbettet, zurückzudrängen. Da es sich
Feld zurückzudrängen. hierbei jedoch nicht nur um Wahrnehmungs-,
sondern allgemeiner um kognitive Aktivitä-
Zur Überprüfung dieser Hypothese entwickel- ten handelt, redefinierten Witkin et al. (1962)
te Witkin (1950) mit dem Embedded Figures dieses Konstrukt als „analytisches (artikulier-
Test (EFT) ein Testverfahren, das sich vom tes) vs. globales Funktionieren“. Feldabhän-
RFT deutlich unterscheidet. Dieser, auf die gigkeit stellt nunmehr nur noch den Wahr-

317
11 Verfahren zur Beschaffung von objektiven (T-) Daten

nehmungsaspekt des grundlegenderen analy- weist darauf hin, dass es sich beim analyti-
tisch-globalen Stils dar. schen vs. globalen Funktionieren nicht um
ein einheitliches Merkmal handelt. Dement-
Aus der Fülle des, meist mit dem EFT, erho- sprechend muss auch die postulierte Genera-
benen Befundmaterials zu diesem Stil sollen lität des Merkmals über verschiedene Berei-
hier nur einige zentrale Zusammenhänge er- che kognitiver Aktivitäten mit Zurückhaltung
wähnt werden (ausführlichere Übersicht u. a. betrachtet werden. Ferner legen die relativ en-
in Goodenough, 1978): gen Zusammenhänge insbesondere des EFT
mit bestimmten Untertests der Intelligenz den
Globales Funktionieren bedeutet, das Wahr-
Schluss nahe, dass hier nicht in erster Linie ein
nehmungsfeld so hinzunehmen, wie es sich
Stilmerkmal erfasst wird, sondern eine Grup-
darbietet. Damit ist die Tendenz verbunden,
pe perzeptiv-kognitiver Fähigkeiten (Brody,
nur die jeweils hervorstechenden Hinweisreize
1972), die Bestandteile der „fluiden“ Intelli-
zu beachten. Demgegenüber beinhaltet eine
genz (Cattell, 1963; I Kap. 12) sind.
stärker analytische Orientierung auch die Nut-
zung subtilerer Reize, etwa beim Konzeptler-
nen. Analytisch orientierte (feldunabhängige)
Personen zeigen beim Prüfen von Hypothesen Interferenzneigung
ein aktiveres Vorgehen, wobei sie auch diffe-
renziertere Strategien einsetzen (sie nehmen
eine „Teilnehmerrolle“ ein). Globale (feldab- Standardsituation zur Erfassung der Interfe-
hängige) Individuen verhalten sich hier passi- renzneigung ist das unter dem Namen Color-
ver (d. h. sie nehmen eher eine „Zuschauerrol- Word Test (CWT) von Stroop (1935) entwickel-
le“ ein). te Verfahren (meist nach seinem Autor einfach
Stroop-Test genannt). In der Anordnung sind
Personen am analytischen Pol des Kontinu- auf einer Tafel eine Anzahl von Farbadjekti-
ums setzen, wenn sie Ängste und Konflikte be- ven (blau, rot, grün, gelb) in einer von ihrer
wältigen, vorzugsweise Strategien der Isolie- Bedeutung abweichenden Farbe gedruckt (das
rung und Intellektualisierung ein, trennen also Wort „rot“ z. B. in blau). Aufgabe ist die mög-
stärker zwischen Kognitionen und Affekten. lichst schnelle Benennung der Druckfarbe. In-
Global orientierte Personen neigen dagegen terferenzscore ist die auf die Leistung in einer
vermehrt zu den vergleichsweise einfachen Kontrolltafel (in neueren Designs meist die Le-
Mechanismen der Verdrängung und Verleug- sezeit bei farbigen Punkten; MacLeod, 1991)
nung. Global orientierte Personen zeigen er- relativierte Zeit für die Benennung der Farben.
höhte Aufmerksamkeit gegenüber sozialen Sti-
muli (Gesichter, sozialer Rückmeldung). Ent- Die Lesezeiten für die kritische Tafel sind
sprechend lernen und erinnern sie derartige dabei generell deutlich länger als die Zeiten
Reize, verglichen mit analytischen Personen, für das Vorlesen von Kontrolltafeln. Diese Er-
auch besonders gut. Soziale Reize fungieren scheinung, die schon vor der Arbeit Stroops
bei globalen Personen auch als effektivere Ver- bekannt war, wird auch Stroop-Effekt genannt.
stärker, was sich u. a. in leichterer sozialer Be- (Zur Vorgeschichte dieses Effekts siehe u. a.
einflussbarkeit manifestiert. MacLeod, 1991; Stroop, 1935). Die Diffe-
renz zwischen den Lesezeiten für kritische und
Kritisch ist zum Konstrukt zunächst einmal Kontrolltafeln, die Interferenzneigung, weist
zu bemerken, dass die Korrelationen zwi- große interindividuelle Unterschiede auf, die
schen den einzelnen Testverfahren nicht sehr aber zeitlich stabil sind (Dyer, 1973; Jensen &
ausgeprägt sind. Diese fehlende Konvergenz Rohwer, 1966).

318
11.4 Objektive Tests zu einzelnen Konstrukten

Zur Erklärung dieses Effekts wurden vor al- Interferenzgeneigte beiläufige (inzidentelle)
lem zwei Alternativen betrachtet, die beide Reize heran und konzentrieren sich stattdessen
auf Überlegungen zurückgehen, die McKeen auf das unmittelbar mit der Aufgabe zusam-
Cattell (1886) bereits Ende des 19. Jahrhun- menhängende Material (Amster, 1965). Eine
derts angestellt hatte. Die erste bezieht sich auf derartige Fokussierung findet sich selbst im
Unterschiede in der Geschwindigkeit, mit der Bereich der Einstellungen und Überzeugun-
Wörter gelesen und Farben benannt werden gen, etwa wenn es darum geht, einen zentralen
können. Beide Prozesse, Wort lesen und Farbe Sachverhalt, z. B. das Rauchen, mit einer Rei-
benennen, werden im Stroop-Test gleichzeitig he von Gesundheitsfolgen in Verbindung zu
angestoßen. Der Prozess „Wort lesen“ wird bringen (Wolitzky, 1967). Wenn Individuen
jedoch gewissermaßen schneller abgewickelt mit geringer Interferenzneigung Information,
als der Prozess „Farbe benennen“ und bahnt die im Augenblick eher peripher ist, leichter
damit zunächst die falsche Reaktionstendenz. ausblenden können, dann müssten sie auch
Diese falsche Reaktionstendenz muss unter- weniger feldabhängig sein – eine Hypothese,
drückt werden, was sich in Verzögerungen nie- die u. a. von Gardner, Holzman, Klein, Linton
derschlägt. und Spence (1959) bestätigt werden konnte.
Hörmann (1960) nennt deshalb, Broadbent
Andere Erklärungsvorschläge betonen demge- (1958) folgend, niedrig Interferenzgeneigte
genüber die unterschiedliche Automatisierung „short samplers“. Damit ist gemeint, dass der-
beider Prozesse (MacLeod, 1991). Diesen Vor- artige Personen in einer Problemsituation ge-
schlägen zufolge geht der Effekt primär darauf nerell nur wenig Information berücksichtigen,
zurück, dass Lesen ein hochgradig automati- bevor sie sich entscheiden und handeln. Perso-
sierter Prozess ist, der keine oder nur minima- nen mit hoher Interferenzneigung wären dem-
le Aufmerksamkeitsressourcen beansprucht. gegenüber „long samplers“.
Demgegenüber ist das Farbenbenennen ein
kontrollierter Prozess, der Aufmerksamkeit Der Stroop-Effekt ist nach wie vor ein stark
benötigt. Prozesse, die Aufmerksamkeit be- untersuchtes Phänomen der Kognitiven Psy-
nötigen, sind anfällig für Störungen durch au- chologie. Neuere Ansätze konzentrieren sich
tomatisierte Prozesse (aber nicht umgekehrt), dabei besonders auf die Entwicklung von Mo-
so dass beim Farbenbenennen Verzögerungen dellen, mit denen die Verarbeitung von Infor-
resultieren (nicht jedoch beim Wortlesen). mation aus den zwei Dimensionen (beim CWT
Farbe und Wort) erklärt werden kann. Dabei
Die Interferenzneigung ist unabhängig von geht es u. a. um die Frage, ob es sich bei dieser
Intelligenzfaktoren aus dem Wahrnehmungs- Informationsverarbeitung um sequenziell oder
bereich (Hörmann, 1960), etwa vom Faktor parallel organisierte Prozesse handelt. Bei se-
Wahrnehmungsgeschwindigkeit aus dem quenzieller Verarbeitung muss die Informati-
Intelligenzmodell von Thurstone (1938; on aus jeder Dimension zunächst enkodiert,
I Kap. 12). Dagegen ist dieser Stil nicht auf analysiert und beantwortet werden, bevor zur
visuelle Darbietungen beschränkt, sondern nächsten Phase übergegangen werden kann.
manifestiert sich auch bei akustischen Bei paralleler Verarbeitung vollzieht sich diese
Aufgaben. So ließ Hörmann (1960) mit lauter Sequenz für beide Dimensionen gleichzeitig
Stimme das Wort „leise“ sprechen und den (MacLeod, 1991).
Probanden anschließend die Sprachintensität
(„laut“) benennen.

Personen mit niedriger Interferenzneigung zie-


hen beim Lernen in geringerem Maße als hoch

319
11 Verfahren zur Beschaffung von objektiven (T-) Daten

Reflexivität-Impulsivität

Das Konstrukt Reflexivität-Impulsivität the-


matisiert einen zentralen Aspekt des Entschei-
dungsverhaltens bei komplexen Problemlöse-
aufgaben. Es bezieht sich auf die Geschwin-
digkeit und Richtigkeit, mit der Personen an-
gesichts von Problemen mit hoher Antwortun-
sicherheit Lösungshypothesen in Entscheidun-
gen umsetzen. Reflexive Personen denken vor
einer Entscheidung vermehrt über verschie-
dene Lösungswege nach und weisen entspre-
chend lange Lösungszeiten und wenige Fehler
auf. Umgekehrt folgen Impulsive meist der
ersten Lösungshypothese und geben dabei ge-
häuft – bei kurzen Reaktionszeiten – falsche
Antworten (Kagan, 1965).
Messinstrument für diesen besonders bei Kin- Abb. 11.2 Ein Beispielitem aus dem MFFT
dern untersuchten Stil ist der Matching Fa- (Quelle: Wagner, 1973, S. 290).
miliar Figures Test (MFFT; Kagan, Rosman,
Day, Albert & Phillips, 1964; deutsche Ver-
sion bei Wagner, 1973). Der MFFT besteht Antwortunsicherheit relativ konsistent auszu-
aus bildlichen Vorlagen, auf denen jeweils ei- fallen (Kagan et al., 1964). Reflexive Personen
ne Musterfigur (z. B. ein Baum) und eine An- arbeiten bei derartigen Aufgaben konzentrier-
zahl einander sehr ähnlicher Varianten dieser ter, sind aufmerksamer, testen das Reizfeld,
Figur dargeboten werden ( Abb. 11.2). Der wie Arbeiten zur Blickbewegung zeigten (Dra-
Proband soll unter diesen diejenige herausfin- ke, 1970; Wagner & Cimiotti, 1975), syste-
den, die mit der Musterfigur identisch ist. Ge- matischer und länger ab und stellen effizien-
messen werden die Anzahl der Fehler und die tere Fragen, was auf eine elaboriertere Hypo-
Lösungszeit. Impulsive Personen werden da- thesenbildung schließen lässt. Beim Vorlesen
bei bestimmt durch überdurchschnittlich viele machen sie weniger Fehler, in (insbesondere
Fehler und unterdurchschnittliche Lösungszei- nonverbalen) Intelligenzaufgaben schneiden
ten, reflexive durch die entgegengesetzte Kon- sie besser ab als impulsive Personen (Hall &
figuration. Da Fehler und Zeit negativ korre- Russell, 1974).
liert sind, lassen sich auf diese Weise ca. zwei
Noch stärker als bei den bislang besproche-
Drittel der Probanden klassifizieren. Von den
nen Stilen scheint Reflexivität-Impulsivität auf
beiden zur Gruppenbildung herangezogenen
grundlegenden Fähigkeitsunterschieden zu ba-
Scores erreicht allerdings nur die Lösungszeit
sieren. Impulsive Personen schneiden in fast
mit einer Reliabilität um .80 eine zufriedenstel-
allen intellektuellen und schulischen Aufga-
lende psychometrische Qualität. Die Koeffizi-
ben schlechter ab als reflexive (vgl. u. a. Bran-
enten für die Fehlerzahl sind dagegen deutlich
nigan, Ash & Margolis, 1980; Genser, Häfele
niedriger (um .55; Block, Block & Harrington,
& Häfele, 1978; Tiedemann, 1983). Lediglich
1974; Egeland & Weinberg, 1976).
Messer (1976) fand in einer Übersichtsarbeit
Reflexives bzw. impulsives Verhalten scheint keine bedeutsamen Beziehungen zwischen die-
über verschiedene Aufgabentypen mit hoher sem kognitiven Stil und Intelligenzvariablen.

320
11.4 Objektive Tests zu einzelnen Konstrukten

Analytischer versus Entwicklungsniveaus nahezu ausschließlich


relational-funktionaler Stil funktionale und oberhalb dieses Niveaus im
Wesentlichen analytische Zuordnungen vor-
Der von Kagan, Moss und Sigel (1963) nehmen. Lediglich bei Kindern im Übergangs-
beschriebene analytische vs. relational- bereich sowie bei Vorlagen, die den Kindern
funktionale Stil bezieht sich auf individuelle wenig vertraut sind und deshalb zum Raten
Unterschiede, die bei der Begriffsbildung verleiten, sollte sich eine größere Variabilität
von Kindern, insbesondere Vor- und Grund- der Zuordnungen zeigen. Tatsächlich schei-
schulkindern, beobachtet werden können. nen aber, zumindest bei Kindern im Alter von
Im Wesentlichen wird bei diesem Merkmal fünf bis neun Jahren, analytische und funktio-
danach unterschieden, ob Kinder ihnen nale Lösungen auf allen Altersstufen gehäuft
dargebotene Objekte eher nach abstrakten aufzutreten (Nickel, 1984). Im Prinzip stehen
Attributen (Oberbegriffen, Gemeinsamkeiten) also beide Zuordnungsmodalitäten den Kin-
oder nach funktionalen Beziehungen zwischen dern dieser Altersstufen zur Verfügung. Das
ihnen (gemeinsames Auftreten an einem Ort, jeweilige Zuordnungsverhalten richtet sich da-
Einwirkung eines Objekts auf das andere) als bei vermutlich eher nach einer Analyse der
zusammengehörig kategorisieren. Die abstrak- einzelnen konkreten Bildvorlage als nach all-
te (analytische) Kategorisierung soll dabei gemeinen Gruppierungsprinzipien.
gegenüber der funktionalen einen höheren
Grad kognitiver Entwicklung reflektieren. In diesem Zusammenhang kommt auch der
Eine analytische Kategorisierung würde Instruktion Bedeutung zu. Hinweise wie „ähn-
beispielsweise vorliegen, wenn das Kind lich“ (engl. „similar“) legen eine Kategorisie-
aus den drei bildhaft vorgelegten Objekten rung nach einem analytischen Prinzip nahe.
„rauchender Schornstein“, „Streichhölzer“ Unterschiede im Lösungsverhalten könnten
und „rauchende Pfeife“ den Schornstein und somit auch auf ein unterschiedliches Instruk-
die Pfeife als zusammengehörig auffasst, da tionsverständnis zurückgehen. Damit wäre ei-
„beide rauchen“ (Gemeinsamkeit). Funktio- ne Beziehung des in der CWT berechneten
nal wäre demgegenüber die gemeinsame Scores zur Intelligenz hergestellt. Intelligente-
Gruppierung von Streichhölzern und Pfeife, re Kinder sollten die Instruktion als Forderung
weil „man mit einem Streichholz die Pfeife auffassen, nach Ähnlichkeiten zwischen den
anzünden kann“. Objekten zu suchen, also ein analytisches Ur-
teil abzugeben. Tatsächlich fanden sich deut-
Die zur Erfassung dieses Stils entwickelte lich positive Beziehungen zwischen analyti-
Concept Sorting Task (CWT; Kagan et al., scher Orientierung und Maßen der kognitiven
1964) bietet dem Probanden in den einzelnen Kompetenz (Nickel, 1984).
Items eine bildliche Vorlage aus jeweils drei
Objekten mit der Instruktion dar, zwei Ob-
jekte auszuwählen, „die in irgendeiner Weise Kategoriale Weite
ähnlich sind“ (I Abb. 11.3). Auswerten kann
man den Test dann nach der Anzahl analy-
Im Gegensatz zu den meisten der bisher be-
tischer Lösungen. Diese soll mit dem Alter
sprochenen Stilvariablen handelt es sich bei
ansteigen (Kagan et al., 1963).
der kategorialen Weite tatsächlich um ein bi-
Entsprechend der Konzeption dieses Merk- polares Merkmal. Personen sollen sich beim
mals als eines zentralen Indikators kogniti- Einordnen verschiedener Objekte danach un-
ver Entwicklung wäre eigentlich zu erwarten, terscheiden lassen, ob sie eher „enge“ Katego-
dass Kinder unterhalb eines entsprechenden rien verwenden, also viele Objekte als nicht

321
11 Verfahren zur Beschaffung von objektiven (T-) Daten

Abb. 11.3 Beispielitems aus der Concept Sorting Task (Quelle: Kagan et al., 1964, S. 2).

zur Kategorie gehörig ausschließen, oder „wei- te. Entsprechend werden für die Alternativen,
te“ Kategorien bilden, also viele Objekte als die am nächsten am Mittelwert liegen, 0 Punk-
zur Kategorie gehörig einordnen (Pettigrew, te vergeben. Für jedes Item werden sodann die
1958). Werte für die höchste und die niedrigste Aus-
prägung addiert. Ein hoher Score entspricht
Standardverfahren zur Messung dieser Stildi-
also einer weiten Kategorisierung. Die Reliabi-
mension ist die Category-Width Scale (CWS;
litäten der CWS sind zufriedenstellend. Sie lie-
Pettigrew, 1958). In den Items wird für
gen für die Testwiederholung (Intervall sechs
eine bestimmte Klasse von Sachverhalten
Wochen) bei .72 und für die interne Konsistenz
(z. B. die Fluggeschwindigkeit von Vögeln;
bei .90.
I Abb. 11.4) ein Durchschnittswert vorgege-
ben. Anhand von jeweils vier Alternativen Das Merkmal der kategorialen Weite scheint
muss der Proband dann angeben, welches sei- bestimmte Aspekte des Risikoverhaltens an-
ner Einschätzung nach die höchste und die zusprechen. Weite Kategorisierer haben eine
niedrigste Ausprägung ist, die Elemente die- höhere Toleranz für „Typ-I“-Fehler, d. h. sie
ser Klasse (z. B. die Fluggeschwindigkeiten riskieren die Aufnahme unpassender Elemente
einzelner Vogelarten) annehmen können. Mar- in eine Kategorie, um ein Maximum an positi-
kierungen der Alternativen, die am weitesten ven Fällen aufzunehmen. Enge Kategorisierer
vom Mittelwert entfernt sind, erhalten 3 Punk- nehmen dagegen eher „Typ-II“-Fehler in Kauf.

322
11.4 Objektive Tests zu einzelnen Konstrukten

Forschungen haben ergeben, dass die durchschnittliche Fluggeschwindigkeit der Vögel etwa
28 km/h beträgt.
Wie groß meinen Sie ist die
a. Höchstgeschwindigkeit des schnellsten Vogels?
1. 40 km/h (0) 3. 115 km/h (2)
2. 170 km/h (3) 4. 60 km/h (1)
b. Höchstgeschwindigkeit des langsamsten Vogels?
1. 16 km/h (1) 3. 22 km/h (0)
2. 4 km/h (3) 4. 8 km/h (2)

Abb. 11.4 Ein Item aus der Category-Width Scale. 0 bis 3 = Gewichte der Alternativen.

Um auf keinen Fall ein unpassendes Element Wesentliches Messverfahren ist der Schema-
zu akzeptieren, riskieren sie den Ausschluss tisierungstest (Gardner et al., 1959). Der Pro-
vieler passender Elemente. Diese Hypothese band soll Schätzungen der Seitenlänge von
konnte empirisch bestätigt werden (Bruner & Quadraten abgeben, die sequenziell mit leicht
Tajfel, 1961; Tajfel, Everstine & Richardson, zunehmender Größe dargeboten werden. Der
1964). Auf der Linie dieser Befunde liegt auch Größenzuwachs ist dabei unsystematisch, d. h.
die Beobachtung, dass weite Kategorisierer Er- in einer Sequenz werden immer wieder auch
wartungen, die sie in einer bestimmten Aufga- Quadrate präsentiert, die leicht kleiner sind als
bensituation aufgebaut haben, eher auf andere das gerade zuvor dargebotene. Als Score fun-
Aufgaben übertragen als enge Kategorisierer gieren einmal die Anzahl korrekt benannter
(Phares & Davis, 1966). Rangplätze in einer Sequenz von fünf Qua-
draten, zum anderen das Ausmaß, in dem die
Größenschätzung des Probanden mit dem tat-
Leveling-Sharpening sächlichen Größenanstieg der Quadrate schritt-
hält. Beide Scores sind leicht, aber signifikant
Das Merkmal Leveling-Sharpening bezieht korreliert. Die Scores weisen eine hohe Relia-
sich auf individuelle Unterschiede in der Ten- bilität auf (um .90; Gardner et al., 1959).
denz, bei sequenziell dargebotenen Reizen die
jeweils neuen Reize hinsichtlich wesentlicher In Übereinstimmung mit der Annahme einer
Merkmale wie Größe oder Gewicht an die Ge- geringeren Artikulation der Erinnerung bei
dächtnisspuren der bereits verarbeiteten Reize Levelern fand sich, dass diese Personen Ge-
zu assimilieren. Leveler gliedern neue Reize schichten, die ihnen erzählt worden waren,
an die Spuren verarbeiteter Reize an, Shar- vereinfachter und ungenauer wiedergaben als
pener halten demgegenüber Gedächtnisspu- Sharpener (Gardner et al., 1959). Gardner et al.
ren früherer Reize und aktuelle Informatio- (1959) vermuten, dass die geringe Artikulation
nen maximal getrennt. Graduelle Veränderun- des Gedächtnisses mit der vorzugsweisen Ver-
gen im Reizfeld werden von Levelern weniger wendung des Abwehrmechanismus der Ver-
deutlich wahrgenommen als von Sharpenern. drängung bei Levelern verbunden ist. Die von
Dementsprechend soll bei Levelern das Reiz- ihnen zur Stützung der Hypothese vorgelegten
feld auch weniger differenziert gegliedert sein. empirischen Daten sind allerdings nicht über-
Holzman und Gardner (1959) sprechen bei zeugend. Leveling-Sharpening scheint nicht
ihnen von einer geringeren Artikulation der mit Maßen kognitiver Fähigkeiten assoziiert
Erinnerung. zu sein (Gardner, Jackson & Messick, 1960).

323
11 Verfahren zur Beschaffung von objektiven (T-) Daten

Scanning Im Allgemeinen verschwinden theoretische


Ansätze aus der wissenschaftlichen Diskus-
Mit der Variable Scanning werden individu- sion, wenn sich ihre empirische Basis, ein-
elle Unterschiede in der Extensität und Inten- schließlich der Operationalisierung zentraler
sität der Aufmerksamkeitszuwendung zu den Konstrukte, als unzulänglich erweist. Bei den
verschiedenen Merkmalen einer Aufgabe be- kognitiven Stilen scheint es nun genau um-
schrieben (Holzman, 1966). Scanner richten gekehrt zu sein. Hier zeigen viele der kon-
ihre Aufmerksamkeit auf viele Bereiche eines struierten Testverfahren eine durchaus zufrie-
Wahrnehmungsfeldes, während Nichtscanner denstellende psychometrische Qualität, allein
eine enge Aufmerksamkeitsausrichtung haben, die theoretische Fundierung ist häufig brüchig.
also nur wenige, besonders hervorstechende, Dies wird besonders deutlich am Beispiel der
Aspekte beachten. Feldabhängigkeit, genauer des Stils analyti-
sches vs. globales Funktionieren. Das zu die-
Gemessen wird dieser Stil u. a. durch eine
sem Stil entwickelte diagnostische Verfahren,
Größenschätzaufgabe (Gardner et al., 1959;
der Embedded Figures Test, ist zwar von der
Schlesinger, 1954). Der Proband soll die Grö-
Reliabilität hier durchaus akzeptabel, zeigt
ße unterschiedlich großer und schwerer Schei-
aber nur ein geringes Ausmaß konstruktspezi-
ben, die ihm in die linke Hand gelegt werden,
fischer Zusammenhänge. Kritiker haben des-
auf einem beleuchteten Bildschirm einstellen.
halb hier von einem „Test auf der Suche nach
Wichtigster Score ist der über eine Reihe von
einer Theorie“ (Zigler, 1963) gesprochen.
Urteilen gemittelte Fehler.
Personen mit einem geringen Fehler (Scanner) Das zentrale Problem der Forschung zu den
sollen besonders aufmerksam für inzidentel- kognitiven Stilen liegt also offenbar weniger
le Reize in einem Aufmerksamkeitsfeld sein in der Testentwicklung als in der Elaborati-
(Holzman & Klein, 1956). Sie erinnern derar- on einer tragfähigen theoretischen Basis. Die
tige Reize auch besser als Nichtscanner (Holz- theoretischen Konzepte, die zur Erklärung der
man, 1966). Paranoide Schizophrene zeigen in Begriffen variabler Stilmerkmale beschrie-
hohe Scanningwerte, während nichtparanoide benen Unterschiede zwischen Personen ent-
Schizophrene eher Nichtscanner sind (Silver- wickelt wurden, basieren auf Ansätzen, die in
man, 1964). der heutigen Kognitionsforschung kaum noch
eine Rolle spielen (jedenfalls nicht in ihrer ur-
sprünglichen Konzeption). Die Arbeiten aus
Bewertung der Theoriebildung und den Kreisen um Witkin und Kagan (Feldabhän-
Testentwicklung gigkeit, Reflexivität-Impulsivität, analytischer
vs. relational-funktionaler Stil) sind dabei dem
Ein Überblick über die Veröffentlichungen von Werner (1948) vorgelegten Konzept der
zu kognitiven Stilen macht deutlich, dass die „Differenzierung“ verpflichtet. Die Stile kate-
Hochzeit empirischer Arbeiten, einschließ- goriale Weite, Leveling-Sharpening und Scan-
lich der Entwicklung diagnostischer Verfah- ning leiten sich dagegen aus Annahmen zur
ren, zwischen 1955 und 1975 liegt. Danach Funktion sog. „kognitiver Kontrollen“ her, die
lässt sich ein Abklingen von Veröffentlichun- wiederum auf psychodynamischen Überlegun-
gen in diesem Bereich registrieren. Eine Aus- gen basieren (Gardner et al., 1959). Das Kon-
nahme bildet das Konstrukt der Interferenz- zept der kognitiven Kontrolle bezeichnet ei-
neigung. Hier ist der Anschluss an die neue- ne funktionale Interpretation kognitiver Stile.
re Forschung zur Informationsverarbeitung Kontrollen werden als Persönlichkeitsmerk-
(MacLeod, 1991) gelungen. male aufgefasst, die die Triebmanifestation im

324
11.5 Projektive Verfahren

Hinblick auf bestimmte Forderungen aus der „projektives Verfahren“ definiert Tests nach
Umwelt steuern (Gardner et al., 1960). der Art der Beziehung zwischen Testmerk-
mal (dem Index) und daraus zu erschließen-
Einige kognitive Stile und ihre Messverfah-
dem Persönlichkeitsmerkmal (dem Indizier-
ren, und dies gilt besonders für die auf dem
ten). Das ist eine ungewöhnliche Bereichsbil-
Konzept der Differenzierung basierenden Kon-
dung innerhalb der Psychologischen Diagnos-
strukte, sind inzwischen in Ansätzen zur Mes-
tik, denn in der Regel werden Tests nach dem
sung kognitiver Fähigkeiten (I Kap. 12) auf-
gruppiert, was sie messen sollen (z. B. Intel-
gegangen und spielen somit keine eigenstän-
ligenztests, Interessentests) oder nach äußer-
dige Rolle mehr. Für andere Stile, insbesonde-
lichen formalen Kriterien (z. B. Fragebogen,
re für die Interferenzneigung, aber evtl. auch
Ratingskalen). Der Begriff „projektiv“ impli-
für Leveling-Sharpening und Scanning, könn-
ziert jedoch, dass das Testverhalten auf eine
te sich eine Rekonzeptualisierung in Begriffen
ganz bestimmte Art, nämlich durch Projektion,
neuer Ansätze zur Informationsverarbeitung
zustande gekommen ist und dementsprechend
(speziell Aufmerksamkeitsorientierung, Enko-
auch diagnostisch interpretiert werden kann.
dierung und Elaboration) aber durchaus loh-
Im Zentrum projektiver Verfahren steht dem-
nen. (Für einen derartigen Neuansatz siehe
nach die Projektionshypothese (Frank, 1948;
etwa Sternberg und Grigorenko, 1997.)
vgl. auch Hörmann, 1982):

11.5 Projektive Verfahren Projektive Verfahren sind „Methoden, wel-


che die Persönlichkeit dadurch untersuchen,
11.5.1 Definition und Grundlagen dass sie den Probanden mit einer Situation
konfrontieren, auf welche er entsprechend
Neben den Fragebogen gelten, insbesondere der Bedeutung reagiert, die diese Situation
bei klinisch orientierten Psychologen, die pro- für ihn besitzt. . . . Das Wesen eines pro-
jektiven Verfahren als die „klassischen“ In- jektiven Verfahrens liegt darin, dass es et-
strumente der Persönlichkeitsdiagnostik. Die was hervorruft, was auf verschiedene Art
meisten projektiven Verfahren konfrontieren Ausdruck der Eigenwelt, des Persönlich-
den Probanden mit einer mehrdeutigen Vor- keitsprozesses des Probanden ist.“ (Frank,
lage und der Aufforderung, diese zu disam- 1948, S. 42, 46).
biguieren, also mit einer „Deutung“ zu ver-
sehen. Dies kann, wie beim Rorschach-Test
(I Kap. 2), dadurch geschehen, dass der Pro-
Ausgangspunkt für die Formulierung dieser
band angibt, was das mehrdeutige Gebilde
Hypothese ist der Projektionsbegriff Freuds
„sein könnte“, oder, wie beim Thematischen
(1911/1973). Projektion ist hiernach ein Ab-
Apperzeptionstest (TAT), dass eine kleine
wehrmechanismus, durch den Eigenschaften
Geschichte zur Reizvorlage generiert wird.
oder Impulse, die das Ich bedrohen, in der
Dementsprechend ist das Antwortformat meist
eigenen Person nicht wahrgenommen, dafür
„offen“ (I Kap. 3), d. h. der Proband unter-
aber einer Person oder einem Objekt der Au-
liegt in seinen Reaktionen nur vergleichswei-
ßenwelt zugeschrieben werden. Allerdings hat
se geringen Einschränkungen. Im Rorschach-
Freud neben dieser engen Formulierung (der
Test ist z. B. nicht einmal die Zahl der Deutun-
sog. „klassischen“ Projektion) auch eine wei-
gen pro Vorlage vorgeschrieben.
ter gefasste (und damit weniger präzise) De-
Bei dieser Kategorienbildung für Tests fällt finition vorgelegt (Freud, 1913/1974), die der
Folgendes auf (Hörmann, 1982): Der Begriff Projektionshypothese Franks näher steht. Der

325
11 Verfahren zur Beschaffung von objektiven (T-) Daten

in dieser erweiterten Konzeption angesproche- Tab. 11.3 Untergruppen projektiver Tests


ne Mechanismus wird auch „assimilative“ Pro-
Gruppe Beispiel
jektion (Lilienfeld, Wood & Garb, 2000) ge-
nannt. Gemeint ist damit die (relativ unstrit- Assoziation Rorschach-Test
tige) Tatsache, dass die Erfahrungen, Erwar- Konstruktion Thematischer
tungen und Bedürfnisse einer Person deren Apperzeptionstest
Interpretation mehrdeutiger Reize wesentlich Vervollständigung Satzergänzungstests
mitbestimmen. Auswahl Farbwahltests
(Farben müssen
Wenn der klassische Projektionsbegriff das
hinsichtlich ihrer
Prinzip wäre, nach dem projektive Verfahren
Beliebtheit in eine
funktionieren, dann wäre die Entstehung des
Rangreihe gebracht
Testverhaltens deutlich und dadurch auch die
werden)
diagnostische Interpretation nachvollziehbar.
Wenn beispielsweise ein Proband in einem pro- Ausdruck Puppenspiel
jektiven Test, z. B. im TAT, der Hauptfigur sei-
ner Geschichte Aggressivität zuschreibt, so Vervollständigungs-, Auswahl- und Aus-
entspräche das eigener verdrängter Aggressi- drucksverfahren (I Tab. 11.3). Innerhalb die-
vität (Hörmann, 1982). ser Kategorien sind der Rorschach-Test (ein
Assoziationsverfahren) und der Thematische
Leider ist dieser präzisere Projektionsbegriff
Apperzeptionstest (ein Konstruktionsverfah-
jedoch nicht Grundlage für das Funktionieren
ren) die bei weitem bekanntesten und am häu-
aller projektiven Verfahren, ja nicht einmal
figsten eingesetzten Tests. Auf sie soll sich
der meisten. Vielmehr wird, wie wir in der
deshalb auch die nachfolgende Behandlung
Definition Franks gesehen haben, das Verhal-
projektiver Verfahren konzentrieren.
ten in projektiven Verfahren eher nach dem
Mechanismus der „assimilativen“ Projektion
erklärt. In dieser weiter gefassten Projektions-
hypothese, erkennbar in dem Satzteil „auf ver- 11.5.3 Der Rorschach-Test
schiedene Art“, wird jedoch die Beziehung
zwischen dem, was im Test als Merkmal er- Das von Hermann Rorschach (1921) entwi-
scheint, und dem, was sich in diesem Merkmal ckelte Verfahren besteht aus zehn tintenklecks-
ausdrücken soll, nicht näher bestimmt. Offen- ähnlichen Vorlagen (fünf schwarzen und fünf
bar existiert kein Projektionsprinzip, welches farbigen), die auf separaten Karten eine nach
das Zustandekommen des Verhaltens in auch der anderen dargeboten werden (I Abb. 11.5).
nur der Mehrzahl der projektiven Verfahren er- Der Proband soll jeweils angeben, was die Vor-
klären könnte. Es ist deshalb notwendig, sich lage darstellen könnte. Die Testdarbietung dau-
die verschiedenen Untergruppen dieser Ver- ert ungefähr 45 Minuten, die anschließende
fahren genauer anzuschauen. Auswertung und Interpretation bis zu 2 Stun-
den.
Die Antworten des Probanden können nach
11.5.2 Einteilungsgesichtspunkte mehr als 100 Aspekten ausgewertet werden.
Für diese Auswertung (in der Rorschach-
Terminologie „Signierung“) hat Rorschach
Eine verbreitete Einteilung (Lindzey, 1959) drei Hauptkategorien entwickelt, denen zahl-
ist die in Assoziations-, Konstruktions-, reiche Unterkategorien zugeordnet sind: (1)

326
11.5 Projektive Verfahren

dardanforderungen an diagnostische Instru-


mente nicht erfüllte. Es existierten weder ei-
ne Standardisierung der Testdarbietung noch
Normen; Auswertungs- und Interpretationsob-
jektivität waren gering und dementsprechend
die Reliabilität und Validität unzureichend
(Dawes, 1994).
Dieses negative Bild änderte sich (scheinbar),
als Exner (1974) sein „Comprehensive Sys-
tem“ (CS) für die Rorschach-Auswertung vor-
legte (Revisionen u. a. in Exner, 1993). Dieses
primär für klinische Diagnosen aufgestellte
System geht von den herkömmlichen Katego-
rien aus, fasst diese aber zu spezifischen Clus-
Abb. 11.5 Eine Vorlage aus dem tern zusammen, die jeweils Index für ein kli-
Rorschach-Test (Quelle: nisch relevantes Problem sein sollen. Wichti-
Rorschach, 1992). ge Indices sind etwa Egozentrismus, D-Index,
Depression, Schizophrenie oder Suizid. Ein
Index wird gebildet, indem Antworten in je-
Lokation: Bezieht sich die Antwort auf das Ge- weils ausgewählten Kategorien nach einem
bilde als Ganzes oder nur auf einzelne Teile? spezifischen Algorithmus zu einem Wert kom-
(2) Determinanten: Kommt die Antwort eher biniert werden (Bewegungs-, Farb-, Schatten-
durch die Form des Gebildes, durch die Far- und Farbantworten auf Schwarzweiß-Tafeln et-
be, durch Schatten oder gesehene Bewegung wa zum D-Index, der Hinweise auf die Art der
zustande? Unterschieden wird dabei noch ein- Stressbewältigung liefern soll). Ausgewählt
mal, ob eine Form in der Antwort gut getroffen werden die in einen Index eingehenden Ein-
ist oder die Vorlage nur schlecht wiedergege- zelvariablen danach, ob sie zwischen einer
ben wird. (3) Inhalt: Was wird gesehen, Perso- kritischen Probandengruppe, z. B. Personen,
nen, Teile von Personen, sexuelle Inhalte oder die einen Suizid versucht haben, und Kontroll-
Sachen? gruppen bedeutsam trennen. Allerdings wer-
Im Laufe der Jahre wurden viele Hypothesen den auch Einzelvariablen zur Diagnose her-
über das Zustandekommen bestimmter Ant- angezogen (gehäufte „Nahrungs“-Antworten
wortkategorien formuliert. So soll z. B. gehäuf- etwa als Hinweis auf eine Abhängigkeitspro-
tes Sehen von Bewegung ein Anzeichen hö- blematik).
herer Intelligenz, theoretischer Orientierung Exners CS-Indices wurden hinsichtlich ihrer
und stärkerer Introvertiertheit sein. Hinsicht- psychometrischen Qualität mehreren Überprü-
lich der Validierung dieser Hypothesen sind fungen unterzogen. Analysiert wurden Aus-
die Befunde uneinheitlich; insgesamt ist der wertungsobjektivität, Reliabilität und Validität,
Bestätigungsgrad gering. Das darf auch nicht darüber hinaus der Einfluss der Antworthäu-
verwundern, wenn man bedenkt, dass diese figkeit auf die CS-Scores sowie die faktorielle
und ähnliche Hypothesen meist ohne Rekurs Struktur dieser Scores (Übersicht hierzu in Li-
auf eine auch nur einigermaßen abgesicherte lienfeld et al., 2000).
Theorie, etwa der Introversion-Extraversion,
formuliert wurden. Hinzu kommt, dass der Acklin, McDowell, Verschell und Chan (2000)
Rorschach-Test über viele Jahrzehnte Stan- ermittelten für 95 CS-Scores die Auswertungs-

327
11 Verfahren zur Beschaffung von objektiven (T-) Daten

objektivität. Die Koeffizienten variierten zwi- Beziehungen zu entsprechenden Kriteriums-


schen .20 und 1.00, mit einem Median knapp variablen aufzuweisen: Thought Disorder In-
über .80. Da für die Zwecke der Individual- dex (TDI; ein Indikator für Denkstörungen
diagnostik, wie sie ja im klinischen Bereich bei Schizophrenen und Borderline-Patienten),
die Regel ist, Variablen mit Werten von un- Prognostic Rating Scale (PRS; ein Indikator
ter .80 als problematisch gelten (Lilienfeld für einen erfolgreichen Behandlungsverlauf),
et al., 2000), muss mithin ein Großteil der Oral Dependency (OD; als Indikator von De-
von Exner vorgeschlagenen Indices mit Vor- pendenzproblemen) und der bereits genannte
behalt betrachtet werden. So scheinen etwa Schizophrenie-Index, der bedeutsam zwischen
zwei zentrale Indices des Exnerschen Systems, psychotischen und nichtpsychotischen Patien-
der Schizophrenie-Index und der D-Index, mit ten diskriminiert. Allerdings ist nur der letzt-
Werten zwischen .45 und .56 bzw. .53 und .68 genannte Index Bestandteil des Systems von
für die Einzelfalldiagnostik nicht geeignet zu Exner.
sein.
Hinsichtlich möglicher konvergenter Bezie-
hungen zu anderen Testvariablen wurden ins-
Die Bestimmung der Reliabilität ist bei ei-
besondere die Korrelationen mit verschiede-
nem Verfahren wie dem Rorschach-Test (und
nen MMPI-Skalen analysiert. Dabei fanden
dies gilt auch für die meisten anderen projekti-
sich generell nur minimale Zusammenhänge
ven Verfahren) naturgemäß problematisch. Sie
zwischen den Scores beider Tests (Übersicht
lässt sich weder über die interne Konsistenz
u. a. in Archer & Krishnamurthy, 1993). Die-
noch über die Testwiederholung befriedigend
ser Befund darf jedoch nicht ohne Weiteres
bestimmen. Die interne Konsistenz kann nicht
als Hinweise auf eine mangelnde Validität der
ermittelt werden, weil die einzelnen Vorlagen
Rorschach-Indices aufgefasst werden. Beim
(Tafeln) inhaltlich und formal heterogen sind.
MMPI handelt es sich, wie in I Kap. 10 dar-
Testwiederholung ist ebenfalls keine sinnvolle
gestellt, um ein explizites Verfahren zur Er-
Strategie, da sich die Probanden wohl meist an
fassung von Persönlichkeitsmerkmalen. Der
die zuvor gegebene Antwort erinnern. Dement-
Rorschach-Test repräsentiert demgegenüber
sprechend existieren bislang auch nur spärli-
einen impliziten Ansatz (siehe hierzu den fol-
che Angaben zur Reliabilität, und diese kon-
genden Abschnitt dieses Kapitels). Beide In-
zentrieren sich auch nur auf einen kleinen Be-
strumente messen offenbar unterschiedliche
reich von Indices. Dabei berichten Proponen-
Aspekte der Persönlichkeit, selbst wenn diese
ten des Rorschach-Tests (z. B. Meyer, 1997)
denselben Namen tragen (vgl. z. B. Egloff &
zufriedenstellende (um rtt =.80), unabhängige
Schmukle, 2002).
Forscher jedoch eher niedrige Werte (Lilien-
feld et al., 2000). Wenn zwei Verfahren sich auf denselben Merk-
malsbereich beziehen, ohne substanziell zu
Analysen zur psychometrischen Qualität kon- korrelieren, so ist diese Konstellation beson-
zentrieren sich in der Regel auf die Validität ders geeignet, die inkrementelle Validität eines
eines Verfahrens. Die Ergebnisse der kaum Verfahrens zu bestimmen. Für den Rorschach-
überschaubaren Fülle entsprechender Studien Test liefern entsprechende Studien eine ge-
zum Rorschach-Test können an dieser Stel- mischte Befundlage (Übersicht in Lilienfeld et
le nicht wiedergegeben werden. Stattdessen al., 2000). Eine Reihe von Studien zeigte kei-
soll nur auf die Befunde einiger Metaanaly- nen nennenswerten Zuwachs an Varianzaufklä-
sen eingegangen werden (Übersicht in Lili- rung im Kriterium, wenn Rorschach-Variablen
enfeld et al., 2000). Nach diesen Analysen zu den Prädiktoren hinzugefügt wurden. Im-
scheinen zumindest vier Indices substanzielle merhin scheinen aber einige Rorschach-Scores

328
11.5 Projektive Verfahren

einen bedeutsamen Beitrag zur Vorhersage Eine zusammenfassende Bewertung der bis-
des Kriteriums zu leisten. So verbesserte sich lang zu den CS-Indices und verwandten Indi-
die Vorhersage künftiger psychotischer Symp- ces vorgelegten Befunde vermittelt ein zwie-
tome bei Patienten, wenn den Daten aus ei- spältiges Bild. Angesichts der niederschmet-
nem klinischen Interview der Thought Dis- ternden Ergebnisse zur psychometrischen Qua-
order Index hinzugefügt wurde. Die Progno- lität der „klassischen“ Rorschach-Variablen
se des Behandlungserfolgs ließ sich präzisie- schien der von Exner entwickelte Ansatz ei-
ren, wenn zum IQ und der MMPI-Skala Ich- ne Verbesserung und damit Neubelebung der
Stärke die Prognostic Rating Scale hinzukam. Rorschach-Diagnostik zu versprechen. Die-
Schließlich ließ sich die Diagnose Schizophre- se Erwartungen konnten bisher nicht erfüllt
nie signifikant verbessern, wenn verschiedene werden (Wood, Lilienfeld, Garb & Nezworski,
MMPI-Scores um den Schizophrenie-Index 2000; Wood, Nezworski, Lilienfeld & Garb,
ergänzt wurden. 2003). Zwar scheinen einige Indices durch-
aus Perspektiven für die Identifizierung und
Die Anzahl der Antworten auf die Rorschach-
Prognose psychopathologischer Störungen zu
Tafeln hat einen bedeutsamen Einfluss auf
besitzen, doch steht einer breiten Anwendung
verschiedene Indices. So fand Meyer (1993),
in der Einzelfalldiagnostik derzeit noch die oft
dass mehrere Indices signifikant mit der Ant-
mangelhafte psychometrische Qualität dieser
worthäufigkeit (R) korrelieren. Der stärkste
Scores entgegen. Dieses Defizit resultiert zum
Zusammenhang (r = .60) fand sich für den
einen aus einer zu geringen Auswertungsob-
Hypervigilanz-Index, einem Indikator paranoi-
jektivität und Reliabilität vieler Einzelvaria-
der Störungen. Da R jedoch zugleich mit einer
blen, zum anderen aus dem unkontrollierten
Anzahl nichtpathologischer Variablen korre-
Einfluss der Antworthäufigkeit auf die Scores.
liert (u. a. Intelligenz, Bildungsniveau, kultu-
relles Umfeld), kann es leicht zu Fehlklassifi-
kationen kommen. Einen Ausweg bietet hier
die Beschränkung auf eine Antwort pro Tafel
11.5.4 Der Thematische
(bei gleichzeitiger Erhöhung der Anzahl der
Tafeln), wie es etwa in einer psychometrisch Apperzeptionstest
elaborierten Variante des Rorschach-Tests, der
Holtzman Inkblot Technique (HIT; Holtzman,
Thorpe, Schwartz & Herron, 1961) realisiert Bei dem auf die interaktionistische Persönlich-
wird. keitstheorie Murrays (1938) zurückgehenden
Thematischen Apperzeptionstest (TAT; Mur-
Faktorenanalysen der Einzelvariablen des ray, 1943, 1991) soll der Proband zu einer
Rorschach-Tests erbrachten zwei bemerkens- Bildvorlage, auf der eine nicht ganz eindeutige
werte Befunde (vgl. u. a. Meyer, 1992). Zum soziale Situation dargestellt ist, eine Geschich-
einen ließ sich ein erster Faktor sichern, der te erzählen und dabei besonders auf folgende
substanziell durch die Variable R definiert Aspekte achten: (a) Was ist passiert? (b) Wie
war. Damit wurde die Beobachtung bestätigt, ist es dazu gekommen? (c) Wie geht es weiter?
dass viele Rorschach-Scores bedeutsam mit (d) Was denken und fühlen die Figuren in der
der Antworthäufigkeit korrelieren. Zum ande- Darstellung?
ren fanden sich für Variablen, für die theo-
retisch ein Zusammenhang zu erwarten war Der TAT besteht insgesamt aus 31 Tafeln
(z. B. Scores, die für negative Affektivität ste- (I Abb. 11.6), von denen eine (Nr. 16) – so-
hen), keine Ladungen auf einem gemeinsamen zusagen als Extremform der Mehrdeutigkeit
Faktor. – völlig leer ist. Murray empfiehlt, dass je

329
11 Verfahren zur Beschaffung von objektiven (T-) Daten

nach Zielsetzung einer Untersuchung aus die- Quantifizierung des Testverhaltens, z. B. hin-
sem Satz etwa 20 Tafeln ausgewählt wer- sichtlich der Dimensionen Aggressivität, Neu-
den. Tatsächlich werden aber meist nur zwi- rotizismus oder Leistungsmotiviertheit. Viele
schen fünf und zwölf Tafeln herangezogen dieser Systeme wurden jedoch nur ad hoc ent-
(Vane, 1981). Obwohl sich für den Inhalt worfen und nur unzureichend auf ihre psycho-
der TAT-Geschichten keine bedeutsamen Ge- metrische Qualität hin überprüft (Übersicht
schlechtsunterschiede sichern ließen (Katz, u. a. in Vane, 1981).
Russ & Overholser, 1993), wurde empfohlen,
einige Tafeln geschlechtsspezifisch zu verwen- Die Befundlage zur psychometrischen Quali-
den. Es existieren Versionen für unterschiedli- tät verschiedener TAT-Variablen ist noch ne-
che Altersgruppen, von denen die von Bellak gativer als die zum Rorschach-Test. Generell
und Bellak (1949) entwickelte Kinderform, finden sich nur vereinzelt bedeutsame Zusam-
der Children’s Apperception Test (CAT; deut- menhänge mit Kriteriumsvariablen, und selbst
sche Version: Bellak, Bellak & Moog, 1995), diese Ergebnisse konnten meist nicht repli-
die bekannteste ist. ziert werden. Auch Hinweise auf eine inkre-
mentelle Validität einzelner TAT-Scores sind
eher spärlich (Übersicht u. a. in Lilienfeld et
al., 2000). Für diese unbefriedigende Situation
scheinen insbesondere drei Umstände verant-
wortlich zu sein:

1. Das Fehlen eines umfassenden, verbindli-


chen Auswertungssystems, wie es für den
Rorschach-Test von Exner (1974) entwi-
ckelt wurde.
2. Die sowohl nach Anzahl wie Inhalt von Un-
tersuchung zu Untersuchung variierenden
Vorlagen.
3. Das Fehlen klarer, theoretisch begründe-
ter und empirisch überprüfter Vorstellungen
Abb. 11.6 Eine Bildvorlage aus dem TAT über das Zustandekommen und damit die
(Quelle: Murray, 1943). Interpretation der Reaktionen im TAT (vgl.
u. a. Hörmann, 1982; Vane, 1981).
Im TAT tritt ein Testverhalten auf, dessen Besonders die im letzten Punkt angesprochene
Zustandekommen scheinbar leicht über den Unschärfe des Projektionsbegriffs hat sich bis-
klassischen Projektionsbegriff erklärt werden lang als Hindernis bei der Etablierung des TAT
kann. Die abgefasste Geschichte müsste z. B. als eines seriösen Instruments wissenschaftli-
nach Themen wie etwa „Aggression“ durchge- cher Diagnostik erwiesen.
sehen werden. Deren Zustandekommen könn-
te dann auf eine verdeckte Aggression des Da, wie erwähnt, der klassische Projektions-
Probanden hinweisen. Dieser Art der theoreti- begriff Freuds nicht ausreicht, um das Zustan-
schen Fundierung entsprechend geschieht die dekommen aller interessierenden Verhaltens-
Auswertung thematischer Verfahren weitge- weisen in sämtlichen projektiven Verfahren zu
hend impressionistisch, d. h. die Geschichten erklären, wurden neben diesem Projektions-
werden auf interessierende Themen hin durch- begriff weitere Konzepte von Projektion vor-
gesehen. Allerdings gibt es auch Versuche der geschlagen, insbesondere die attributive, die

330
11.5 Projektive Verfahren

autistische und die rationalisierende Projekti- die besagt, wann, unter welchen Umständen
on (Murstein & Pryer, 1959). und bei wem welche dieser Ebenen ins Spiel
kommt (Murstein & Pryer, 1959). Aus einer
Das Konzept attributiv entspricht im Wesent- solchen Theorie müssten dann Erhebungsver-
lichen der bereits beschriebenen assimilati- fahren entwickelt werden, die im Sinne von
ven Projektion. Diese liegt dann vor, wenn Vortests für einen Probanden bestimmen, auf
jemand seine Motive, Einstellungen, Gefühle welcher Ebene dieser in einer spezifischen Si-
oder typischen Verhaltensweisen, die durch- tuation funktioniert, bzw. ob er beispielsweise
aus nicht verdrängt sein müssen, anderen zu- überhaupt zu einer Projektion neigt. Erst da-
schreibt. Wer beispielsweise bestimmte Ver- nach könnten projektive Tests wie der TAT
haltensweisen vorzugsweise aus Gewinnstre- eingesetzt und interpretiert werden (Hörmann,
ben begeht, mag auch bei anderen dieses als 1982). Voraussetzung hierfür wäre allerdings,
primäres Motiv ihres Handelns annehmen. Au- dass der Proband die Ebenen im Testverlauf
tistische Projektion liegt vor, wenn die Wahr- nicht wechselt. Eine derartige Theorie existiert
nehmung bestimmter Personen, Situationen derzeit nicht. Dies ist auch nicht weiter ver-
oder Objekte von den eigenen Bedürfnissen wunderlich, stellt doch bereits der Nachweis
stark beeinflusst wird. Wer etwa starke Angst der klassischen Projektion im Sinne Freuds so
vor Überfällen hat, mag bei einem Gang durch große Probleme, dass bislang ein methodisch
bestimmte Stadtviertel in jeder zufällig herum- akzeptabler Beweis für deren Existenz nicht
stehenden Person den typischen Straßenräuber geliefert werden konnte (Holmes, 1968, 1978).
sehen. Bei der rationalisierenden Projektion Eine Weiterentwicklung des Ansatzes könnte
versucht das Individuum, eigene Verhaltens- sich jedoch aus einer Reformulierung des Kon-
weisen (z. B. eine aggressive Handlung) durch zepts der Abwehrmechanismen auf der Basis
Rationalisierung (etwa Unterstellung aggressi- von Forschungen zur sozialen Kognition erge-
ver Absichten oder Handlungen bei anderen) ben (Newman, Duff & Baumeister, 1997; vgl.
zu rechtfertigen. auch Baumeister, Dale & Sommer, 1998; New-
Wenn man angesichts dieser unterschiedlichen man, Caldwell, Chamberlin & Griffin, 2005).
Projektionskonzepte die Frage stellt, welche Immerhin existieren auch Auswertungssyste-
Beziehung denn eigentlich zwischen dem im me, die weitgehend auf einen dieser Projek-
TAT erhobenen Merkmal und der erschlosse- tionsbegriffe verzichten und sich stattdessen
nen Eigenschaft existiert, so zeigt sich, dass auf kognitionspsychologische Annahmen zur
das Testverhalten auf unterschiedlichen Ebe- Informationsverarbeitung stützen. Die bekann-
nen stehen kann. (1) Es kann verdrängten Ei- testen unter diesen Ansätzen, die eine gewisse
genschaften, Motiven oder Impulsen im Sinne Perspektive für eine diagnostisch sinnvolle An-
Freuds entsprechen. (2) Es verweist auf ge- wendung des TAT erkennen lassen, sind die
nerelle Motive, Einstellungen, oder typische Messung des Leistungsmotivs sowie die Erhe-
Verhaltensweisen, also bewusst erlebte Sach- bung von Objektbeziehungen.
verhalte. (3) Es verweist auf aktuelle Zustände,
z. B. Angst. (4) Es dient der rationalisierenden Ausgehend von dem von McClelland, Atkin-
Erklärung eigener Verhaltensumstände. son, Clark und Lowell (1953) entwickelten
Auswertungssystem zur Erfassung des Leis-
Leider kann man es jedoch dem Testverhalten tungsmotivs (need achievement) in der Persön-
selbst nicht ansehen, wie es zustandegekom- lichkeitstheorie Murrays (1938), legten Mc-
men und auf welcher Ebene es demzufolge zu Clelland, Koestner und Weinberger (1989) ei-
interpretieren ist (Hörmann, 1982). Deshalb ne Reinterpretation des Zustandekommens ent-
wäre die Ausarbeitung einer Theorie gefordert, sprechender Reaktionen im TAT vor. Die Auto-

331
11 Verfahren zur Beschaffung von objektiven (T-) Daten

ren postulieren, dass der TAT implizite Motive Leistungsmotivs als auch mit Kriteriumsvaria-
erfasst (d. h. Motive, die im Erleben der Per- blen wie Berufserfolg (Lilienfeld et al., 2000).
son nicht repräsentiert sind), während Frage-
Ein dem TAT ähnliches Verfahren zur Mes-
bogen (I Kap. 10) selbstzugeschriebene Mo-
sung des Leistungsmotivs ist das Leistungsmo-
tive messen (also Motive, die der Introspek-
tivgitter (L-M-Gitter; Schmalt, 1976). In ihm
tion zugänglich sind). Implizite Motive, wie
werden in sechs leistungsthematischen Be-
sie sich in TAT-Maßen niederschlagen sollen,
reichen (manuelle, musikalische, schulische,
liefern eher eine generelle Orientierung auf
selbstbehauptende, Hilfe gewährende, sportli-
bestimmte Typen von Zielen, etwa Dinge be-
che Tätigkeiten) je drei TAT-ähnliche Bilder
sonders gut zu machen. Selbstzugeschriebene
dargeboten. Anders als beim TAT ist das Ant-
Motive reflektieren dagegen soziale Normen,
wortformat zu diesen Vorlagen jedoch nicht of-
die den Bereich genauer abstecken, z. B. eine
fen, sondern gebunden (I Kap. 3). Zu jedem
konkrete Prüfungssituation, in dem diese Zie-
Bild werden die immer gleichen 18 Aussa-
le umgesetzt werden. Dementsprechend neh-
gen dargeboten. Der Proband soll angeben, ob
men die Autoren an, dass beide Instrumente
diese Aussagen zu dem jeweiligen Bildinhalt
mit unterschiedlichen Kriterien assoziiert sind,
passen.
miteinander aber nur gering korrelieren. TAT-
basierte Indices sollen am besten Verhaltens- Die einzelnen Aussagen repräsentieren, neben
indikatoren vorhersagen, die in nur geringem einigen Füllitems, die zentralen Konstrukte
Maße durch aktuellen Druck aus der Umwelt der Leistungsmotivationsforschung (Heckhau-
bestimmt werden. Solche Indikatoren finden sen, 1963; I Kap. 10): Furcht vor Misserfolg
sich bei längerfristigen Leistungsmaßen, etwa und Hoffnung auf Erfolg, zu denen dann noch
dem beruflichen Erfolg. Demgegenüber sol- einmal Unterkategorien bestehen (z. B. Miss-
len Selbstberichtsinstrumente am besten ein erfolgsmeidung als Unterkategorie der Furcht
Verhalten vorhersagen, das unter der Kontrol- vor Misserfolg). Eine auf Furcht vor Misser-
le strukturierter aktueller Stimuli steht, etwa folg bezogene Aussage wäre etwa Er denkt:
den Erfolg beim Lösen von Aufgaben im La- „Ob auch nichts falsch ist?“, während eine
borexperiment, z. B. Anagrammaufgaben. Die Aussage wie Er denkt: „Ich will das einmal
Autoren unterscheiden ferner zwischen Aufga- können“ Hoffnung auf Erfolg repräsentiert.
benanreizen (die einer Leistungssituation inhä-
Die jeweils 18 Bilder und Aussagen lassen
rent sein sollen) und sozialen Anreizen (die ei-
sich in einer Matrix anordnen (deshalb „Git-
ner derartigen Situation von Dritten, z. B. dem
ter“), wobei jede Zelle mit einer positiven Ein-
Versuchsleiter, hinzugefügt werden). Indikato-
tragung eine Bejahung dieser Aussage für die-
ren impliziter Motive sollen dabei besonders
ses Bild bedeutet. Die Anzahl verschiedenar-
auf Aufgabenanreize, Indikatoren selbstzuge-
tiger bejahter Aussagen pro Bild soll dabei
schriebener Motive auf soziale Anreize anspre-
den Intensitätsaspekt der Leistungsmotivation
chen.
repräsentieren, während die Anzahl gleicher
Aussagen, die zu verschiedenartigen Bildern
Eine Metaanalyse von 105 Studien, die sich
bejaht werden, für den Extensitätsaspekt steht.
speziell mit der Überprüfung dieser Hypothe-
sen befassten (Spangler, 1992), fand schwache Die Koeffizienten für die Reliabilität dieser
Hinweise auf eine Gültigkeit der Annahmen Verfahren liegen deutlich über den für den
von McClelland et al. (1989). Problematisch TAT berichteten Werten. So konnte Schmalt
an vielen Studien war, dass der Einfluss der In- (1976) für Intervalle von zwei bis acht Wo-
telligenz unkontrolliert blieb. Der IQ korreliert chen Stabilitäten zwischen .67 und .85 ermit-
jedoch positiv sowohl mit den TAT-Maßen des teln. Eine Überprüfung der faktoriellen Struk-

332
11.5 Projektive Verfahren

tur des L-M-Gitters erbrachte drei Faktoren: nicht befriedigend (Übersicht in Lilienfeld et
Misserfolgsmeidung, Hoffnung auf Erfolg und al., 2000). Die Durchführungsobjektivität lei-
Furcht vor Misserfolg (Schmalt, 1976). det darunter, dass nicht verbindlich festgelegt
ist, welche TAT-Tafeln dargeboten werden sol-
Validitätsuntersuchungen wurden in Situatio-
len. Die Auswertungsobjektivität ist dagegen
nen durchgeführt, die thematisch sein sollen
mit Werten um .90 gut. Die Reliabilität wurde
für eine Manifestation des Erfolgs- bzw. Miss-
bislang nur über die interne Konsistenz be-
erfolgsmotivs: Anspruchsniveausetzung, Auf-
stimmt und fällt mit Werten von .59 bis .77 für
gabenwahl und Ausdauer. So fand Schmalt
die einzelnen Dimensionen eher schwach aus.
(1976), wie nach theoretischen Überlegungen
zur Leistungsmotivation (Heckhausen, 1963) Zur Überprüfung der Validität wurde die
zu erwarten, dass Personen mit hoher Hoff- SCORS bislang vor allem eingesetzt, um
nung auf Erfolg Aufgaben mit mittlerem, Per- verschiedene Patientengruppen voneinander
sonen mit Furcht vor Misserfolg dagegen Auf- und von Kontrollgruppen zu trennen. Dabei
gaben mit extremem (hohem oder niedrigem) zeigte sich mehrfach, dass Patienten mit der
Schwierigkeitsgrad bevorzugen. Diagnose „Borderline-Persönlichkeitsstörung“
auf den vier ursprünglichen Dimensionen der
Hinsichtlich des Reizmaterials, das eine Ant-
SCORS besonders niedrige Werte erreichten,
wort auslösen soll, gleicht das L-M-Gitter
also wenig komplexe und affektiv negativ ge-
dem TAT. Der Antwortmodus ähnelt dagegen
tönte Objektbeziehungen aufwiesen (Westen,
dem einiger subjektiver Verfahren, beispiels-
1991b). Allerdings fielen mehrere Beziehun-
weise dem des in I Kap. 10 beschriebenen
gen über verschiedene Studien inkonsistent
Angstbewältigungs-Inventars (ABI; Krohne &
aus. Hinzu kommt, dass einzelne Scores mit
Egloff, 1999). Wie dieses repräsentiert es den
dem IQ und der Anzahl der in den Antworten
Typ der Situations-Reaktions-Inventare, nur
verwendeten Wörter positiv korreliert (Lilien-
dass beim L-M-Gitter die Situationen bildliche
feld et al., 2000). Der Einfluss dieser Variablen
Darstellungen, beim ABI verbal beschriebene
auf den Zusammenhang der SCORS-Werte
Szenarien sind.
mit Kriteriumsvariablen wurde aber bislang
Westen (1991a) hat mit der Social Cognition kaum kontrolliert.
and Object Relations Scale (SCORS) ein TAT-
basiertes Auswertungssystem zur Erfassung
von Objektbeziehungen (der mentalen Reprä- 11.5.5 Bewertung
sentation anderer Personen; Westen, 1991b)
entwickelt. Die SCORS erfasst Objektbezie-
Trotz einiger Bemühungen, besonders defizi-
hungen auf vier Dimensionen: (a) Komplexi-
ente Aspekte projektiver Verfahren (beispiels-
tät der Repräsentation, (b) Affektgeladenheit
weise die häufig impressionistische Auswer-
der Beziehung, (c) Emotionales Engagement
tung der Antworten) zu verbessern, muss die
bei Beziehungen und moralische Standards
psychometrische Qualität zumindest der bei-
sowie (d) Verstehen sozialer Verursachungen.
den in der Praxis mit Abstand am häufigsten
In einer Revision wurde die dritte Dimension
eingesetzten Verfahren, des Rorschach-Tests
in Emotionales Engagement und Moralische
und des TAT, immer noch als so mangelhaft
Standards aufgespalten und die Dimensionen
bezeichnet werden, dass sich ein Einsatz in
Aggression, Selbstwertgefühl und Selbstkohä-
der Individualdiagnostik, auf deren Grundlage
renz hinzugefügt (Conklin & Westen, 2001).
ja häufig weitreichende Entscheidungen über
Die psychometrische Qualität der mit diesem die Betroffenen gefällt werden, verbietet. Da-
System gewonnenen Variablen ist derzeit noch mit ein im Test gezeigtes Verhalten überhaupt

333
11 Verfahren zur Beschaffung von objektiven (T-) Daten

als „auffällig“ und damit evtl. behandlungs- Enge des Zusammenhangs zwischen Testvaria-
bedürftig bezeichnet werden kann, müssten blen und interessierenden Kriterien (meist aus
die projektiven Verfahren zumindest die Mini- dem Bereich der Psychopathologie). Auf eine
malstandards erfüllen, wie sie heutzutage an theoretische Abstützung dieser Analysen wird
die Güte von Tests gelegt werden (Hörmann, dabei weitgehend verzichtet. Dieses Vorgehen
1982; Lilienfeld et al., 2000). Hierzu gehören birgt natürlich Probleme für eine Replikation
an einer repräsentativen Stichprobe gewonne- und Generalisierung der beobachteten Zusam-
ne Normen und die Standardisierung der Test- menhänge.
darbietung und -auswertung (I Kap. 3).
Immerhin existieren eine Reihe von Ansätzen,
Tatsächlich existieren bis heute weder zu den in denen versucht wird, das Geschehen in der
verschiedenen Signierungen und Indices des Testsituation mit Konzepten neuerer kogniti-
Rorschach-Tests noch zu den TAT-Variablen onspsychologischer Modelle zu erklären (vgl.
befriedigende Normdaten. Wo solche Daten u. a. McClelland et al., 1989; Newman et al.,
mitgeteilt werden, beruhen sie in der Regel 1997; Westen, 1991b). Im Verlauf der Aus-
nicht auf repräsentativen Stichproben. Unbe- arbeitung derartige Ansätze müsste dann ins-
rücksichtigt bleibt auch, dass sich bestimmte besondere auch versucht werden, die immer
Minoritäten (für die aber vergleichsweise häu- noch ungeklärte Rolle zu analysieren, die zum
fig psychologischer Beratungs- und Behand- einen die – meist mehrdeutigen – Teststimu-
lungsbedarf besteht) in ihrem Antwortverhal- li, zum anderen die soziale Interaktion in der
ten deutlich von der Bevölkerungsmehrheit Testsituation (die sich ja anhand der Darbie-
unterscheiden (Lilienfeld et al., 2000). Die tung dieser mehrdeutigen Vorlagen entfaltet)
Standardisierung der Testdurchführung ist zu- spielen. (Zum Einfluss des Teststimulus und
mindest beim TAT immer noch unzureichend. der sozialen Interaktion auf das Antwortver-
Die Auswertungsobjektivität scheint für einige halten siehe Hörmann, 1982.)
Scores und Indices akzeptabel zu sein, bleibt
aber für die Mehrzahl der Testvariablen un-
befriedigend. Die Bestimmung der Reliabili- 11.6 Kognitiv-experimentelle
tät stellt angesichts der Heterogenität der Vor- (implizite) Verfahren
lagen und der Schwierigkeit, Testwiederho-
lungen durchzuführen, nach wie vor ein Pro-
In den letzten Jahren wurde eine Reihe ex-
blem dar. Zu einigen Variablen werden im-
perimenteller Verfahren, die zunächst zur Be-
merhin vielversprechende Validitätswerte be-
antwortung allgemeinpsychologischer Fragen
richtet, die aber nur selten repliziert werden
konzipiert worden waren, für persönlichkeits-
konnten.
diagnostische Zwecke adaptiert und weiterent-
Die Bestimmung der Validität leidet natür- wickelt. Die Verfahren, die auf Paradigmen
lich darunter, dass das Projektionskonzept zur (experimentellen Versuchsanordnungen) der
Erklärung des Zustandekommens der einzel- Kognitionsforschung basieren, teilen die ein-
nen Indices nichts beiträgt. Es existieren aber gangs dieses Kapitels beschriebenen generel-
auch keine andersartigen, empirisch gesicher- len Merkmale und Zielsetzungen objektiver
ten, theoretischen Vorstellungen, die die Bezie- Tests. Deutlich betont wird dabei die Intenti-
hung zwischen Index und Indizierten erklären on, verhaltenssteuernde Prozesse und Struk-
könnten. Derzeit erfolgt die Bestimmung der turen offen zu legen, die unserer bewussten
Validität projektiver Verfahren in der Regel Kognition nicht oder nur partiell zugänglich
als Kriteriumsvalidität (I Kap. 3), d. h. über sind. Die Verfahren werden deshalb, im An-
die rein empirisch gesteuerte Berechnung der schluss an die dargestellten TAT-Analysen von

334
11.6 Kognitiv-experimentelle (implizite) Verfahren

McClelland et al. (1989), als implizite Tests Erfassung von Einstellungen gegenüber Aus-
bezeichnet. ländern würde seiner Intention nach auf au-
tomatische, spontane Bewertungen oder Ver-
Aus Sicht der Probanden besitzen die meisten haltenstendenzen abheben, die nicht notwendi-
impliziten Tests einen klaren leistungsthemati- gerweise identisch mit den bewusst repräsen-
schen Charakter. Von wenigen Ausnahmen ab- tierten Einstellungskomponenten sein müssen,
gesehen, handelt es sich um computergesteu- sondern ihnen im Einzelfall sogar entgegen-
erte Verfahren, in denen die Probanden ähn- laufen können.
lich wie bei Konzentrationstests (I Kap. 12)
Beide Gruppen beinhalten eine Vielzahl un-
möglichst schnell und genau auf bestimmte
terschiedlicher Verfahren und Varianten (für
Reizkonstellationen antworten müssen. Durch
Übersichten siehe z. B. Bar-Haim, Lamy, Lee,
spezifische experimentelle Arrangements kön-
Bakermans-Kranenburg & van Ijzendoorn,
nen die anfallenden Leistungsdaten, im Allge-
2007; Becker & Rinck, 2000; Fazio & Olson,
meinen Reaktionszeiten, manchmal auch Feh-
2003; Hangarter, Schmitt & Ebert, 2001; Wil-
ler oder kombinierte Maße, so verwertet wer-
liams, Watts, MacLeod & Mathews, 1997).
den, dass sie Aufschluss über dispositionelle
Wir beschreiben im Folgenden exemplarisch
(in erster Linie emotionale und motivationale)
zwei Verfahren zur Erfassung spezifischer
Merkmale liefern.
Merkmale der Reizverarbeitung, die „emotio-
nale“ Variante des Stroop-Tests (vgl. Williams,
Hinsichtlich des diagnostischen Anspruchs las-
Mathews & MacLeod, 1996) und das Visual
sen sich zwei Arten kognitiv-experimenteller
Dot-Probe-Paradigma (MacLeod, Mathews &
Verfahren unterscheiden. Einige Verfahren zie-
Tata, 1986). Als Beispiel für ein Verfahren, das
len auf sehr spezifische Verarbeitungsmerkma-
sich auf globalere Merkmale richtet, stellen
le. Bestimmt werden soll z. B. das Ausmaß,
wir den Impliziten Assoziationstest vor (Green-
in dem affektive Stimuli Aufmerksamkeit auf
wald et al., 1998).
sich ziehen, kognitive Ressourcen binden oder
mentale Prozesse in eine bestimmte Richtung
lenken. Die erhobenen Variablen sind Indika-
toren sehr elementarer Vorgänge und damit 11.6.1 Verfahren zur Messung
enger umgrenzt als Eigenschaften, die übli- spezifischer
cherweise mit Persönlichkeitstests erfasst wer- Prozessmerkmale
den. Sie lassen sich jedoch als Modellbaustei-
ne verstehen, mit deren Hilfe sich die person- Emotionaler Stroop-Test
spezifische Art der Verarbeitung bestimmter
Reizklassen charakterisieren lässt. Die emotionale Variante des Stroop-Tests ent-
stammt der klinischen Forschung (Gotlib &
Eine zweite Verfahrensgruppe richtet sich auf McCann, 1984; Williams & Nulty, 1986). Mit
globalere Eigenschaften, etwa Einstellungen ihr soll das Ausmaß bestimmt werden, in
oder Aspekte des Selbstkonzepts einer Per- dem die Präsenz aufgabenirrelevanter affek-
son (Greenwald, McGhee & Schwartz, 1998; tiver Reizmerkmale gerade ablaufende Verar-
Greenwald & Nosek, 2001). Hinsichtlich der beitungsprozesse beeinträchtigt. Wie in der
Weite des jeweils zu erfassenden Merkmals ist bereits dargestellten Originalversion des Tests
diese Gruppe mit gängigen Persönlichkeitsin- sind in der Variante die Farben, in der Wör-
ventaren vergleichbar. Allerdings fokussieren ter gedruckt sind, möglichst schnell zu benen-
sie andere Merkmale als die entsprechenden nen (oder, bei Computerdarbietung, per Tas-
expliziten Verfahren. Ein impliziter Tests zur tendruck zu identifizieren). Im Unterschied

335
11 Verfahren zur Beschaffung von objektiven (T-) Daten

zum Original handelt es sich bei den Wör- tem beliebteste Verfahren dar. Diese Vortei-
tern jedoch nicht um Farbnamen, sondern viel- le werden jedoch auch mit einem Nachteil
mehr um affektiv konnotierte oder neutrale erkauft. Die emotionale Variante des Stroop-
Wörter (z. B. „Verlust“, „bedroht“; „Termin“, Tests ist sensitiv für eine Reihe unterschiedli-
„gefärbt“). Anstelle von Wörtern werden hier cher Einflüsse. Dies betrifft u. a. Expositions-
auch farbige (bzw. farbig hinterlegte) Zeich- und Übungseffekte sowie kompensatorische
nungen verwendet (die Zeichnungen stellen Wirkungen verstärkter Anstrengung. Das Ver-
z. B. Gesichter mit unterschiedlichem Emo- fahren ist also recht unspezifisch, da individu-
tionsausdruck dar; Eschenbeck, Kohlmann, elle Unterschiede in Reaktionsverzögerungen
Heim-Dreger, Koller & Leser, 2004). Für die auf verschiedene Quellen zurückgehen können
Berechnung der interessierenden Interferenz- (Williams et al., 1996; vgl. auch Bar-Haim et
effekte werden die Benennungszeiten für neu- al., 2007).
trale Reize von den Benennungszeiten für af-
fektive Reize subtrahiert; eine deutliche Ver-
langsamung bei affektiven Reizen manifestiert Visual Dot-Probe-Paradigma
sich entsprechend in hohen Werten des Inter-
ferenzindex. Das Visual Dot-Probe-Paradigma (VDP) wur-
Williams et al. (1996) konnten in ihrer Über- de von MacLeod et al. (1986) zur Erfassung
sichtsarbeit zum emotionalen Stroop-Test auf der Aufmerksamkeitsausrichtung auf bedro-
die Ergebnisse von mehr als 50 Studien zu- hungsassoziierte Reize entwickelt. Mit dem
rückgreifen, in denen u. a. Zusammenhänge Verfahren sollten Hypothesen der klinischen
mit klinischer Angst, Ängstlichkeit, posttrau- Angst- und Depressionsforschung (Williams
matischen Stressstörungen, Panik, Zwangsneu- et al. 1997) getestet werden, wonach ängst-
rosen, Phobien und Depression analysiert wur- liche, nicht aber depressive Personen durch
den. Dabei zeigte sich, dass diese Störungen schnell einsetzende, automatisch wirksame vi-
im Allgemeinen (wenn auch nicht ausnahms- gilante Verhaltenstendenzen gegenüber Bedro-
los) mit verstärkten Interferenzeffekten aversi- hungen gekennzeichnet sind. Ängstliche Per-
ver Reize verbunden sind. sonen orientieren ihre Aufmerksamkeit dieser
Hypothese zufolge verstärkt auf Bedrohungs-
Hinsichtlich des Wirkmechanismus ist die gän- signale.
gigste Annahme, dass Interferenzeffeke das
Ausmaß reflektieren, in dem affektive Reize Im VDP werden vertikal angeordnete Wort-
Verarbeitungskapazität binden. Affektive Rei- paare in rascher Abfolge (500 ms pro
ze verbrauchen viel Ressourcen, weil sie Wis- Wort) auf einem Computermonitor dargebo-
sensstrukturen, die persönlich relevante Infor- ten (I Abb. 11.7). Die Probanden müssen das
mation repräsentieren, vergleichsweise stark obere Wort jeweils laut lesen, was einen kon-
ansprechen. Zu Verzögerungen in der Farb- sistenten Aufmerksamkeitsfokus am Beginn
benennung kommt es dann bei Personen, die jedes Durchgangs sichern soll. Gelegentlich er-
nicht in der Lage sind, die ablenkenden Ef- scheint entweder an der Stelle des oberen oder
fekte aufdringlicher Reizaspekte effizient zu unteren Worts ein kleiner Punkt. Die Haupt-
hemmen. aufgabe ist es, eine Taste zu drücken, sobald
der Punkt erscheint. In Messdurchgängen wird
Unter den Ansätzen zur Erfassung affekti- jeweils ein bedrohungsassoziiertes (z. B. „Ver-
ver Einflüsse auf die Informationsverarbeitung sagen“, „kritisiert“, „Krankheit“) und ein af-
stellt der emotionale Stroop-Test aufgrund sei- fektiv neutrales Wort gezeigt, von denen ei-
ner Einfachheit und Ökonomie das bei wei- nes durch den Punkt ersetzt wird. Bedrohungs-

336
11.6 Kognitiv-experimentelle (implizite) Verfahren

Abb. 11.7
Das Visual
Dot-Probe-Paradigma
(MacLeod et al., 1986).

und Punktposition werden dabei systematisch schlägt sich in einem Indexwert nahe Null nie-
variiert, so dass sich vier Versuchsbedingun- der.
gen ergeben. Die Reaktionszeiten in den Mess-
durchgängen liefern die interessierenden Da- Eine bemerkenswerte Eigenschaft des Para-
ten. digmas besteht darin, dass sich eine verstärkte
Aufmerksamkeitsausrichtung auf Bedrohun-
Die Aufmerksamkeitsverteilung auf die bei- gen sowohl in Reaktionsverlangsamungen als
den Reizklassen wird durch einen Vergleich auch in Reaktionsbeschleunigungen bemerk-
der Reaktionszeiten zwischen den vier durch bar macht, je nachdem, ob Punkt- und Bedro-
Punkt- und Bedrohungsposition definierten hungsposition identisch sind oder nicht. Die-
Versuchsbedingungen bestimmt: Vigilanz, al- ses symmetrische Arrangement gewährleistet
so eine verstärkte Aufmerksamkeitsorientie- die Gewinnung vergleichsweise reiner Indi-
rung auf bedrohliche Reize, manifestiert sich katoren der Aufmerksamkeitsausrichtung, da
in schnellen Reaktionen, wenn Bedrohungs- generelle beeinträchtigende (störende) oder
und Punktposition identisch sind (der Punkt fördernde (aktivierende) Effekte emotionaler
also an der Stelle eines bedrohlichen Worts Reize über die vier Versuchsbedingungen aus-
auftaucht), und entsprechend in langsamen Re- geglichen werden. Hierin besteht ein wesent-
aktionen, wenn Punkt- und Bedrohungsposi- licher Unterschied zum emotionalen Stroop-
tion divergieren (der Punkt also an der Stelle Test, in dem sich die interessierenden Wirkun-
eines neutralen Worts auftaucht). In diesen Fäl- gen bedrohungsbezogener Reize allein in Re-
len wird die Aufmerksamkeit durch einen be- aktionsverlangsamungen niederschlagen (für
drohlichen Reiz entweder gebunden oder auf eine Diskussion methodischer Gesichtspunkte
ihn gelenkt. Eine kognitiv vermeidende Auf- bei der Messung von Aufmerksamkeitsprozes-
merksamkeitsorientierung (Abwendung von sen siehe Clarke, Macleod & Guastella, 2013).
bedrohlichen Reizen) zeigt sich entsprechend
im umgekehrten Reaktionszeitmuster. MacLeod et al. (1986) konnten mit dem
VDP deutliche Unterschiede zwischen kli-
Die Differenz der Reaktionszeiten unter bei- nisch ängstlichen Personen und einer nicht-
den Bedingungen („Punkt ersetzt neutrales klinischen Kontrollgruppe finden. Während
Wort“ minus „Punkt ersetzt bedrohliches ängstliche Personen erwartungsgemäß vigilant
Wort“) liefert deshalb einen Index für unmit- reagierten, manifestierte die Kontrollgruppe
telbare Aufmerksamkeitsreaktionen auf bedro- eine Tendenz zur Vermeidung der bedrohungs-
hungsbezogene Reize: Positive Werte des Vigi- assoziierten Reize. Bei depressiven Personen
lanzindex ergeben sich bei verstärkter Zuwen- zeigten sich keine Hinweise auf Vigilanz (für
dung, negative Werte bei verstärkter Abwen- eine ausführliche Diskussion siehe Williams
dung von bedrohlichen Wörtern. Indifferenz et al. 1997).

337
11 Verfahren zur Beschaffung von objektiven (T-) Daten

Auch für Fragestellungen außerhalb der kli- des Stroop-Tests) unterschiedlich ausfallen
nischen Forschung ist das Verfahren von In- können. Bislang vorliegende Untersuchungen,
teresse (z. B. Mogg & Bradley, 1998, 1999). die sich auf nichtklinische Stichproben (Stu-
Hier ist natürlich zunächst an die persönlich- dierende) stützten, verweisen allerdings durch-
keitspsychologische Forschung zur Angst und weg auf enttäuschend geringe Reliabilitäten,
Angstbewältigung zu denken (vgl. Krohne & die sich teilweise im Bereich von Null bewe-
Hock, 2008, 2011). Automatisch wirksame gen (Stroop-Test: Eide, Kemp, Silberstein, Na-
vigilante Verhaltenstendenzen könnten ein we- than & Stough, 2002; Kindt, Bierman, Bros-
sentliches Merkmal ängstlicher Personen sein, schot, 1996; Siegrist, 1997; VDP: Schmukle,
das als Vulnerabilitätsfaktor eventuell auch zur 2005). Möglicherweise sind die gemessenen
Ausbildung klinisch relevanter Störungen bei- Aufmerksamkeitsaspekte bei Personen ohne
trägt (Bar-Haim et al., 2007). Darüber hinaus massives Angst- oder Depressionsproblem zu
ist das Verfahren natürlich nicht unbedingt an unsystematisch, um zu befriedigenden Relia-
die Verwendung bedrohlicher oder aversiver bilitäten der Indexwerte zu führen. Ob sich
Reize gebunden. Es kann vielmehr immer ein- die Verfahren so modifizieren lassen, dass evtl.
gesetzt werden, wenn Hypothesen über Ver- auch im nichtklinischen Bereich existierende
änderungen des Aufmerksamkeitsfokus ange- Unterschiede erfasst werden können, ist offen.
sichts bestimmter Reizklassen vorliegen bzw. Generell ist die Frage, inwieweit die Verfah-
geprüft werden sollen. Derartige Hypothesen ren eher Einflüsse aktueller Emotionen oder
lassen sich auch für andere Persönlichkeits- Einflüsse längerfristig stabiler Persönlichkeits-
merkmale, etwa längerfristige Interessen oder merkmale widerspiegeln, noch nicht beantwor-
Motive, formulieren. tet.
Angesichts dieser Fragen, die andere Adapta-
tionen kognitiv-experimenteller Paradigmen
Bewertung in ähnlicher Weise betreffen, sind die Verfah-
ren für praktische diagnostische Anwendun-
Validitätsbelege für den emotionalen Stroop- gen derzeit noch nicht zu empfehlen. Viel-
Test und das VDP stützen sich in erster Li- mehr sind sie als weiterzuentwickelnde For-
nie auf die Tatsache, dass die Verfahren zwi- schungsinstrumente speziell für die klinisch-
schen klinischen Gruppen und nichtklinischen psychologische und die persönlichkeitspsy-
Kontrollgruppen diskriminieren. Hier sind die chologische Grundlagenforschung interessant
Ergebnisse recht einheitlich (Mogg & Brad- (Egloff & Hock, 2001, 2003).
ley, 1998; Williams et al., 1996, 1997). An-
wendungen der Verfahren im „Normalbereich“
erbrachten jedoch inkonsistente Befunde, de-
11.6.2 Impliziter Assoziationstest
ren Grundlage zur Zeit noch unklar ist (siehe
z. B. Mogg, Bradley, de Bono & Painter, 1997;
Mogg et al., 2000). Der von Greenwald et al. (1998) vorgestellte
Implizite Assoziationstest (IAT) richtet sich
Auch die Messpräzision der Verfahren kann im Unterschied zu den beiden gerade darge-
noch nicht genau beurteilt werden. Die weni- stellten Verfahren auf relativ weite Merkmale.
gen veröffentlichten Studien zur Konsistenz Der IAT knüpft dabei an die Idee sog. Priming-
und Stabilität der Tests bieten hierfür noch kei- Aufgaben an. Hierbei handelt es sich um eine
ne hinreichende Datengrundlage, zumal die variantenreiche Klasse experimenteller Para-
Zuverlässigkeit für die diversen Varianten der digmen, die Aufschluss über die Stärke asso-
Aufgaben (z. B. Computer- vs. Tafelversion ziativer Verknüpfungen zwischen kognitiven

338
11.6 Kognitiv-experimentelle (implizite) Verfahren

ALT JUNG ALT JUNG

Abb. 11.8
Beispiele für Stimuli im
Alters-IAT.

Repräsentationen ermöglichen sollen (Neely, schnell die linke Taste drücken, wenn das Fo-
1991; Wentura, 1997). Der Begriff Priming to eine ältere Person darstellt, und die rechte
lässt sich mit „Bahnung“ oder „Voraktivie- Taste, wenn es sich um eine jüngere Person
rung“ übersetzen. Primingeffekte liegen vor, handelt. Die Aufgabe ist sehr einfach, da die
wenn die Konfrontation mit einem Reiz A die Bilder so ausgewählt sind, dass sie eindeutig
Verarbeitung eines gleichzeitig oder nachfol- einer der beiden Kategorien zugeordnet wer-
gend dargebotenen Reizes B beeinflusst. den können. Der Sinn dieser Teilaufgabe ist
es, eine Reiz-Reaktions-Assoziation zu eta-
Ziel des von Greenwald et al. konstruierten blieren, nämlich „alt“ mit „links“ und „jung“
IAT ist es, individuelle Unterschiede automati- mit „rechts“ zu verknüpfen. In die eigentliche
scher Bewertungen bestimmter Konzepte oder Messung geht diese Teilaufgabe nicht ein.
Kategorien zu messen, die auf der Grundlage
Das gleiche gilt für den zweiten Versuchsab-
ihrer Assoziation mit bestimmten Attributen,
schnitt. Hier werden die Bewertungsattribute
die den Konzepten zu- oder abgesprochen wer-
eingeführt, deren Assoziation mit den Ziel-
den können, zustandekommen. Aufgedeckt
konzepten gemessen werden soll. In diesem
werden sollen z. B. wertbehaftete Einstellun-
Abschnitt werden eine Reihe deutlich positiv
gen gegenüber Frauen und Männern, farbi-
oder negativ konnotierter Begriffe gezeigt, die
gen und weißen Menschen oder Inländern und
als „gut“ oder „schlecht“ klassifiziert werden
Ausländern. Wir illustrieren das Verfahren an
sollen, z. B. „Vergnügen“, „Freude“, „schreck-
einem Beispiel, das automatische Bewertun-
lich“, „Friede“, „Qual“ usw. Auch hier geht
gen für die Zielkonzepte „jung“ und „alt“ mes-
es nur darum, eine Verknüpfung zwischen At-
sen soll. Es geht hier um positive oder negative
tribut und Reaktion aufzubauen. Im Beispiel
Einstellungen gegenüber älteren und jüngeren
wird „schlecht“ mit „links“ und „gut“ mit
Personen. Die Aufgabe heißt „Alters-IAT“ und
„rechts“ verknüpft.
gliedert sich wie die meisten anderen Mitglie-
der der IAT-Familie in fünf Abschnitte. (Diese Die Abschnitte 1 und 2 sind also Lernphasen.
und weitere Aufgaben finden sich im Internet Die eigentliche Messung beginnt im dritten
unter https://implicit.harvard.edu/implicit/.) Abschnitt des Experiments, der ersten Mess-
phase. Hier werden beide Klassifikationen
Im ersten Abschnitt werden die interessieren- übereinandergelegt – was die eigentliche Poin-
den Zielkonzepte eingeführt. Hierfür klassi- te des Paradigmas ausmacht. Gezeigt werden
fizieren die Probanden per Tastendruck eine abwechselnd Gesichter und affektiv konno-
Reihe von Fotos älterer und jüngerer Men- tierte Begriffe, wobei die Probanden die linke
schen als alt oder jung (I Abb. 11.8). Die Taste drücken sollen, wenn das Gesicht „alt“
Fotos erscheinen einzeln auf einem Computer- oder der Begriff „schlecht“ ist, die rechte Taste,
bildschirm. Die Probanden sollen möglichst wenn das Gesicht „jung“ oder der Begriff „gut“

339
11 Verfahren zur Beschaffung von objektiven (T-) Daten

Schnelle Reaktion bei


schlecht alt
„jung oder gut“ und
Abb. 11.9 „alt oder schlecht“
Verknüpfung zwischen
Konzepten bei einer Person Langsame Reaktion bei
„jung oder schlecht“ und
mit starken impliziten gut jung
„alt oder gut“
Präferenzen für „jung“.

ist. Die Reiz-Reaktions-Zuordnungen entspre- Fall sind die im ersten Messabschnitt vorzu-
chen also dem, was die Probanden in den vor- nehmenden Klassifikationen gewissermaßen
hergehenden Abschnitten gelernt haben. Die evaluativ kompatibel: individuell leicht verein-
Reaktionszeiten in diesen Durchgängen liefern bare Konzepte und Attribute sind der gleichen
einen Teil der zur Messung benötigten Daten. Reaktion zugeordnet, was die Aufgabe für den
Probanden relativ einfach macht. In der zwei-
Der vierte Abschnitt ist wiederum eine reine ten Messphase werden jedoch für diese Person
Lernphase, die zur Vorbereitung der anschlie- inkompatible Kombinationen der gleichen Re-
ßenden zweiten Messphase dient. Hier werden aktion zugeordnet. Daher entstehen hier Irrita-
die Reaktionszuordnungen für die Zielkonzep- tionsmomente, die sich in Reaktionsverzöge-
te umgestellt, so dass jetzt „jung“ mit „links“ rungen niederschlagen. Allgemein formuliert,
und „alt“ mit „rechts“ verknüpft wird. liefert der Kontrast der Reaktionszeiten unter
beiden Bedingungen ein Maß für die Stärke
Im fünften Abschnitt, der zweiten Messphase, der Assoziation zwischen den verwendeten
werden die Zielkonzepte und Attribute wieder- Zielkonzepten und Attributen, in der Interpre-
um kombiniert. Das Vorgehen ist also analog tation der Autoren einen Index für die Stär-
zum dritten Abschnitt, nur dass hier für die ke automatischer Präferenzen für „alt“ bzw.
Zielkonzepte die umgekehrte Reaktionszuord- „jung“. Verfahrensbedingt sind hier allerdings
nung benutzt wird (die im vorangehenden Ab- nur relative, keine absoluten Aussagen mög-
schnitt aufgebaut wurde): Die Person drückt lich: In unserem Fall reflektiert der Index das
die linke Taste, wenn Gesicht bzw. Begriff „Bewertungsgefälle“ zwischen alt und jung,
„jung“ oder „schlecht“ ist, andernfalls, bei „alt“nicht das absolute Ausmaß der zugrunde lie-
oder „gut“, die rechte Taste. Die Attributzuord- genden impliziten Einstellungen.
nung bleibt hier die gleiche und muss daher
nicht neu aufgebaut oder verstärkt werden. In ihrer Untersuchung konnten Greenwald et
al. (1998) nachweisen, dass das Verfahren
Der Grundgedanke des Verfahrens ist der Fol- nicht nur universelle Bewertungstendenzen,
gende: Wenn die Zielkonzepte, im Beispiel sondern auch bestimmte Gruppen- und indivi-
„alt“ bzw. „jung“, in unterschiedlicher Weise duelle Unterschiede sensitiv abbildet. Mittels
mit den Attributen „gut“ bzw. „schlecht“ asso- des IAT ließen sich z. B. ethnische Einstellun-
ziiert sind, muss eine der beiden kombinierten gen von Koreanern und Japanern zur jeweils
Aufgaben deutlich schwieriger zu bewältigen anderen Gruppe teilweise besser voneinander
sein als die andere. Nehmen wir als Extremfall diskriminieren als mit expliziten Maßen (also
an, bei einer Person bestünden starke implizite Fragebogen). Der IAT hat trotz seiner noch
Assoziationen zwischen „jung“ und „gut“ ei- kurzen Geschichte eine außergewöhnliche Re-
nerseits, „alt“ und „schlecht“ andererseits, wie sonanz gefunden und wird zur Zeit von vielen
dies in I Abb. 11.9 angedeutet ist. In diesem Forschungsgruppen erprobt (siehe z. B. Bos-

340
11.6 Kognitiv-experimentelle (implizite) Verfahren

son, Swann & Pennebaker, 2000; Fazio & Ol- wachung unterliegen, erschließt vielverspre-
son, 2003). Die Attraktivität des Verfahrens chende diagnostische Möglichkeiten. Auch
hat vor allem drei Gründe: für Effekte von Selbstdarstellungsstrategien
(I Kap. 10) oder willentlicher Verfälschung
Erstens ist es – trotz seiner diversen Lern-
scheinen implizite Tests weniger anfällig zu
und Messphasen – ausgesprochen ökonomisch.
sein als explizite Verfahren.
Die vorgestellte Version des Alters-IAT z. B.
nimmt nur etwa fünf Minuten in Anspruch. Bemerkenswert ist, dass die Zusammenhänge
Zweitens gibt es Hinweise darauf, dass der zwischen expliziten und impliziten Verfahren
IAT hinsichtlich seiner Diskriminationsstärke des gleichen Merkmalsbereichs häufig gering
anderen kognitiv-experimentellen Verfahren ausfallen (im Mittel um r = .20; Hofmann, Ga-
deutlich überlegen ist. Drittens soll das Ver- wronski, Gschwendner, Le & Schmitt, 2005).
fahren nach dem Anspruch der Autoren auto- Dies entspricht den bereits diskutierten (nur
matisierte Bewertungen und Präferenzen auf- schwachen) Beziehungen, die zwischen pro-
decken können, die von der betroffenen Per- jektiven Tests und Fragebogen festgestellt wur-
son selbst eventuell gar nicht wahrgenommen den (McClelland et al., 1989). Solche Disso-
oder sogar bestritten werden, aber trotzdem ihr ziationen entsprechen theoretischen Modellen,
Verhalten determinieren. Für die Anziehungs- in denen (mindestens) zwei „Ebenen“ oder
kraft des Verfahrens dürfte der dritte Punkt der „Prozesstypen“ der Informationsverarbeitung
wichtigste sein. postuliert werden, die, was ihre Verhaltensef-
Der Anwendungsbereich des IAT wurde sehr fekte betrifft, nicht oder allenfalls lose mitein-
bald über das Feld impliziter Einstellungen ander verknüpft sind. (Für Beispiele solcher
hinaus erweitert. Persönlichkeitsdiagnostisch Modelle siehe z. B. Epstein, 1994; Greenwald
relevante Adaptationen liegen etwa für die et al., 2002; Hofmann, Friese, Müller & Strack,
Messung des Selbstwertgefühls (Greenwald 2011; Wilson, Lindsley & Schooler, 2000.)
& Farnham, 2000), der Schüchternheit (Asen- IAT-Verfahren erreichen im Allgemeinen Re-
dorpf, Banse & Mücke, 2002) und der Angst liabilitäten um .80 oder sogar höher, schneiden
(Egloff & Schmukle, 2002) vor. Eine Metho- für experimentelle Verfahren also ausgespro-
de, das Verfahren für die Messung „selbstbe- chen gut ab. Die Stabilitäten liegen mit ca. .60
zogener“ Merkmale anzupassen, besteht darin, niedriger (Übersicht bei Egloff, Schwerdtfe-
als Zielkonzepte Wörter zu verwenden, die ger & Schmukle, 2005). Interessanterweise
entweder auf die eigene Person (z. B. „ich“, scheint das Zeitintervall für die Höhe der Ko-
„mein“) oder auf andere Personen (z. B. „sie“, effizienten keine allzu große Rolle zu spielen.
„ihre“) Bezug nehmen. Als Attribute fungie- Egloff et al. (2005) z. B. fanden für den Angst-
ren persönlichkeitsbeschreibende Adjektive, IAT Stabilitätskoeffizienten von .58 (Intervall:
die das zu messende Konzept oder dessen Ge- eine Woche), .62 (ein Monat) und .47 (ein
genpol repräsentieren (für Angst z. B. „furcht- Jahr).
sam“, „nervös“ vs. „ruhig“, „gelassen“). Asen-
dorpf et al. sowie Egloff und Schmukle fanden, Vor der praktischen Anwendung des IAT für
dass implizite Maße der Schüchternheit bzw. individualdiagnostische Zwecke sind wie bei
Angst spontane expressive Verhaltensweisen den anderen besprochenen experimentellen
in dispositionsanregenden Belastungssituatio- Verfahren noch eine Reihe offener Punkte zu
nen besser vorhersagten als die korrespondie- klären. Dies betrifft u. a. die Abhängigkeit der
renden expliziten Maße. Die sich hier andeu- Testwerte von Situations- und Kontextmerk-
tende Validität für Verhaltensbereiche, die re- malen (z. B. De Houwer, 2001) sowie die hier-
lativ geringer bewusster Steuerung und Über- mit verknüpfte Frage, inwieweit die Werte sta-

341
11 Verfahren zur Beschaffung von objektiven (T-) Daten

bile Merkmale oder aktuelle Zustände reflek- Linie dem zweiten Ziel. Es ist offensicht-
tieren (Schmukle & Egloff, 2004). Auch die lich, dass beide Zielsetzungen für praktisch-
Grundlage der gemessenen Assoziationsstär- diagnostische Fragen eine außerordentlich ho-
ken wird noch diskutiert. Die Sachverhalte et- he Bedeutung besitzen. Darüber hinaus wur-
wa, dass viele farbige Menschen eine implizite de das Programm von der Hoffnung getragen,
Präferenz für Weiß (Nosek, Banaji & Green- Merkmalsbereiche zugänglich zu machen, die
wald, 2002), und viele Raucher eine implizite anderen diagnostischen Methoden (z. B. Befra-
Aversion gegen das Rauchen aufweisen (Swan- gung oder Verhaltensbeobachtung) verschlos-
son, Rudman & Greenwald, 2001), deutet auf sen bleiben. Besonders die im Rahmen der
eine gewisse Sensitivität des Verfahrens für Forschung zu kognitiven Stilen besprochenen
pure Expositionseffekte hin (etwa durch Me- Konstrukte liefern hierfür Beispiele.
dien oder soziale Kontakte). Die gemessenen
Assoziationsstärken entsprechen dann nicht Angesichts dieser Tatsachen mag es erstaunen,
unbedingt den (impliziten) individuellen Ein- dass objektive Tests – mit Ausnahme der pro-
stellungen (für kritische Untersuchungen zur jektiven Verfahren – kaum Eingang in die dia-
Validität des IAT siehe Mierke & Klauer, 2003; gnostische Praxis gefunden haben. Die Grün-
Rothermund & Wentura, 2004). Trotz dieser de hierfür liegen teilweise in den besproche-
Punkte stellen der IAT und seine Verwandten nen Mängeln vieler Tests. Hierher gehören die
wertvolle Bereicherungen der Diagnostik dar, manchmal nur geringe Ökonomie, das Fehlen
die unter den vorgestellten experimentellen von Normen sowie unzureichende Reliabilität
Verfahren das höchste Potenzial besitzen, ex- und Stabilität. Auch überzeugende Belege für
plizite Tests in sinnvoller Weise zu ergänzen. die konvergente und diskriminante Validität
werden häufig vermisst. Bei einigen ursprüng-
lich als kognitive Stile konzipierten Variablen
wurde insbesondere die teilweise recht deut-
11.7 Bewertung objektiver liche Überlappung mit Fähigkeitsmerkmalen
moniert. Auch die Frage, inwieweit die Verfah-
Testverfahren
ren aktuelle Zustände oder längerfristig stabile
Persönlichkeitsmerkmale reflektieren, ist, wie
wir sahen, bei manchen Tests offen.
Das Programm der objektiven Persönlichkeits-
diagnostik ist von zwei zentralen Zielen ge- Projektive Verfahren schneiden psychome-
prägt. Erstens sollen Verfahren entwickelt trisch betrachtet keineswegs besser ab. Neben
werden, die frei von kontaminierenden Ein- Reliabilität und Validität sind hier zusätzlich
flüssen im Sinne von Antwortstilen, Selbst- noch die Standardisierung sowie die Objektivi-
darstellungstendenzen oder bewussten Täu- tät der Auswertung und Interpretation kritisch.
schungsmanövern sind. Zweitens soll Infor- Die relative Beliebtheit projektiver Tests ver-
mation über latente Prozesse und Mechanis- dankt sich primär deren Anbindung an psycho-
men gewonnen werden, die individuellen Ver- dynamische Vorstellungen der traditionellen
haltensunterschieden zugrunde liegen. Die für klinischen Diagnostik. Immerhin existieren ei-
objektive Tests charakteristische Verschleie- nige Versuche, die Durchführung, Auswertung
rung des Messprinzips dient primär dem ers- und Interpretation der Tests zu vereinheitli-
ten, die Konfrontation mit mehrdeutigen Rei- chen. Der starke Einfluss der sozialen Interak-
zen (bei projektiven Verfahren) oder die Rea- tion zwischen Untersucher und Untersuchtem
lisierung spezifischer experimenteller Arran- auf die Antworten dürfte jedoch eine erhebli-
gements (bei impliziten Verfahren) in erster ches Manko dieser Verfahren bleiben.

342
11.7 Bewertung objektiver Testverfahren

Der im Rahmen der strukturanalytischen Per- Erfassung spezifischer Merkmale der Reizver-
sönlichkeitsforschung – und hier besonders arbeitung, insbesondere deren Reliabilität, den
von Cattell (1965) und seinen Nachfolgern – Einfluss zeitlich variabler und stabiler Merk-
unternommene Versuch, eine überschaubare male auf die Messwerte sowie die Validität
Kartographie objektiv gemessener Persönlich- der Verfahren für die anvisierten impliziten Ei-
keitsdimensionen zu erstellen – analog etwa genschaften. Generell wäre eine Anwendung
zu Faktorenmodellen auf subjektiver Ebene der Tests für praktisch folgenreiche Entschei-
(I Kap. 10) – ist bislang nicht gelungen. Mit- dungen zur Zeit verfrüht. Sie sind vielmehr
verantwortlich hierfür dürfte sein, dass die Ver- als Forschungsinstrumente zu verstehen, deren
fahren ohne klare theoretische Vorstellungen Anspruch, latente Strukturen und Prozesse auf-
über das Was und Wie der Messung konzipiert zudecken, erst noch belegt werden muss. Auch
wurden. Man hat vielmehr versucht, alles zu die Grundlage der häufig festgestellten Diskre-
sammeln, was sich relativ ökonomisch (mit panzen zwischen objektiven (impliziten) und
Papier und Bleistift) „objektiv“ erfassen lässt, subjektiven (expliziten) Maßen sowie deren
und darauf gehofft, dass statistische Klassifi- diagnostische Bedeutung bedarf weiterer For-
kationstechniken den Gegenstandsbereich im schung (Greenwald, Poehlman, Uhlmann &
Nachhinein gewissermaßen von selbst ordnen Banaji, 2009; Hofmann et al., 2005).
und gliedern. Was objektive Tests anbelangt,
ist dieses rein induktiv-klassifikatorische Vor-
gehen gescheitert. Es bleibt abzuwarten, ob Weiterführende Literatur
der künftigen Forschung, etwa auf der Basis
experimenteller Verfahren, in diesem wichti-
Allgemeine Übersichten zu objektiven Tests
gen Punkt mehr Erfolg beschieden sein wird.
finden sich in Häcker (1982) und Pawlik
Durch die Adaptation von Paradigmen aus (1968), zu Cattell bzw. Eysenck in Cattell
der allgemeinpsychologischen Kognitionsfor- (1965) und Eysenck und Eysenck (1985). Ei-
schung erleben objektive Verfahren in neue- ne Übersicht über kognitive Stile und deren
rer Zeit eine Renaissance. Dieser Trend wird Messung bietet Krohne (1985b). Die projek-
sich aufgrund der zunehmenden „Computeri- tiven Verfahren und deren Probleme werden
sierung“ der Diagnostik vermutlich weiter fort- in Hörmann (1982), Lilienfeld et al. (2000),
setzen. Im Unterschied zu vielen älteren (ins- Murstein und Pryer (1959) sowie Wood et al.
besondere projektiven) Verfahren bestehen für (2000) dargestellt. Beschreibungen und Dis-
diese Tests vergleichsweise genaue Vorstellun- kussionen kognitiv-experimenteller Verfahren
gen über das Funktionieren der Messung und finden sich in Bar-Haim et al. (2007), Cisler
die jeweils abgebildeten Prozesse, deren Vali- und Koster (2010), Clarke et al. (2013), Wil-
dierung allerdings noch geleistet werden muss. liams et al. (1997) sowie Yiend (2010), zum
Die Verankerung in der Kognitionspsycholo- IAT in Greenwald et al. (1998, 2002, 2009).
gie lässt hoffen, dass sich solche Modelle der
Testaufgaben, die für einige Verfahren in An-
sätzen vorliegen (siehe z. B. Krohne & Hock, Fragen zur Wissenskontrolle
2011; Williams et al., 1996), in Zukunft wei-
ter präzisieren und empirisch absichern lassen.
1. Welches ist das zentrale gemeinsame Krite-
Für die Begründung der Persönlichkeitsdia-
rium objektiver Tests?
gnostik wäre dies ein wesentlicher Fortschritt.
2. Unter welchem Namen hat Cattell seine
Offene Fragen betreffen hier die psychome- wichtigsten objektiven Tests zusammenge-
trischen Eigenschaften von Paradigmen zur fasst?

343
11 Verfahren zur Beschaffung von objektiven (T-) Daten

3. Welche Tests wurden zur Erfassung des 7. Welches ist die Logik des Visual Dot-Probe-
kognitiven Stils Feldabhängig entwickelt? Paradigmas?
Was ist das zentrale Problem dieser Tests? 8. Wie ist der Implizite Assoziationstest auf-
4. Wie ist der Stroop-Test aufgebaut und wel- gebaut und wie lassen sich mit dieser An-
ches Merkmal erfasst er? ordnung beispielsweise Einstellungen erfas-
5. Welches sind die zentralen Defizite projek- sen?
tiver Verfahren?
6. Welches ist der Unterschied zwischen im-
pliziten und selbstzugeschriebenen Motiven
und mit welchem Verfahren lassen sich die
jeweiligen Motive messen?

344
12 Fähigkeits- und Leistungstests

12.1 Leistungsmaßstäbe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346


12.2 Einteilung von Fähigkeits- und Leistungstests . . . . . . . . . . . . . . . . . 347
12.3 Grundlagen der Intelligenzdiagnostik . . . . . . . . . . . . . . . . . . . . . 349
12.3.1 Klassifikation von Fähigkeitsunterschieden . . . . . . . . . . . . . . . 349
12.3.2 Faktoren intellektueller Leistungen . . . . . . . . . . . . . . . . . . . 352
12.4 Intelligenztests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
12.4.1 Wechsler-Intelligenztests . . . . . . . . . . . . . . . . . . . . . . . . . 358
12.4.2 Adaptives Intelligenz Diagnostikum . . . . . . . . . . . . . . . . . . . 362
12.4.3 Berliner Intelligenzstruktur-Test . . . . . . . . . . . . . . . . . . . . . 365
12.4.4 Intelligenz-Struktur-Test . . . . . . . . . . . . . . . . . . . . . . . . . 368
12.4.5 Nonverbale Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
12.4.6 Interpretation von Intelligenztestwerten . . . . . . . . . . . . . . . . . 373
12.4.7 Probleme und Perspektiven . . . . . . . . . . . . . . . . . . . . . . . . 375
12.5 Konzentration und Vigilanz . . . . . . . . . . . . . . . . . . . . . . . . . . . 377
12.5.1 Konzentrationstests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
12.5.2 Vigilanztests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
12.5.3 Interpretation von Aufmerksamkeitsleistungen . . . . . . . . . . . . . 381

Persönlichkeitsmerkmale können zwei großen bach (1990) geprägten Unterscheidung zwi-


Domänen zugeordnet werden, nämlich einer schen Tests des typischen und Tests des ma-
Persönlichkeitsdomäne im engeren Sinn und ximalen Verhaltens (im Englischen tests of
einer Fähigkeits- und Leistungsdomäne. Per- typical response und tests of maximum per-
sönlichkeitsdiagnostik im engeren Sinn be- formance). Im ersten Bereich sind wir an der
schäftigt sich mit emotionalen und motivatio- typischen, normalen Ausprägung bestimmter
nalen Merkmalen, also z. B. Temperaments- Erlebens- und Verhaltensmuster interessiert,
eigenschaften, Motiven, Interessen, zentralen im zweiten an der maximal möglichen Aus-
Einstellungen oder Werten. Im Leistungsbe- prägung von Leistungen. In diesem Kapitel
reich geht es dagegen um Merkmale wie Intel- beschäftigen wir uns mit dem zweiten Bereich,
ligenz, Kreativität oder Konzentrationsvermö- also mit Fähigkeits- und Leistungstests.
gen.
Fähigkeiten sind Persönlichkeitsmerkmale,
Wie wir bereits in I Kap. 3 bemerkt hatten, die Leistungen zugrunde liegen. Sie verhal-
entspricht diese Differenzierung der von Cron- ten sich zu Leistungen also wie Konstrukte

345
12 Fähigkeits- und Leistungstests

zu deren Indikatoren. Für konkrete Leistungen aktuelle Leistung (Performanz) ist allein dann
sind neben Fähigkeiten natürlich auch noch an- ein guter Indikator der zugrunde liegenden Fä-
dere, z. B. motivationale Faktoren ausschlag- higkeit (Kompetenz), wenn die Probanden die
gebend. Fähigkeiten bestimmen das maximale Maßstäbe, anhand derer die Leistung bewertet
Leistungsniveau, das eine Person in einem be- wird, übernehmen und bereit sind, „ihr Bestes
stimmten Bereich erzielen kann. Dies muss zu geben“. Da die Sicherung beider Bedingun-
nicht unbedingt dem Niveau entsprechen, das gen nicht immer einfach ist, spricht man hier
sie typischerweise erreicht. vom Kompetenz-Performanz-Problem.
Leistungen werden an bestimmten Gütemaß- Bei der Durchführung von Leistungstests
stäben gemessen. Hierauf gehen wir im ersten kommt es deshalb darauf an, das jeweilige
Abschnitt dieses Kapitels ein. Im zweiten Ab- Gewicht, das unterschiedlichen Gütemaßstä-
schnitt stellen wir gebräuchliche Einteilungenben beizumessen ist, genau zu vermitteln. Bei
von Fähigkeits- und Leistungstests dar. Die einer Reihe von Tests steht dabei die Richtig-
nachfolgenden Abschnitte beschäftigen sich keit oder Qualität der Lösung im Vordergrund.
mit zwei zentralen Bereichen der Fähigkeits- Dies ist bei sog. Niveautests (engl. power tests)
und Leistungsdiagnostik, nämlich mit der Mes- der Fall. Niveautests sind dadurch definiert,
sung der Intelligenz sowie der Messung von dass die Probanden auch ohne Zeitbegrenzung
Konzentration und Vigilanz. nicht alle Aufgaben lösen können. Manche In-
telligenztests sind reine Niveautests, die ohne
Zeitbegrenzung bearbeitet werden. Üblicher-
12.1 Leistungsmaßstäbe weise werden hier die Aufgaben nach Schwie-
rigkeit gestaffelt. Von Interesse ist, wieviele
bzw. welche Aufgaben die Probanden lösen
Ein genuines Merkmal von Leistungstests be- können.
steht darin, dass das Verhalten der Probanden
an Gütemaßstäben der Richtigkeit, Qualität Anders ist dies bei Schnelligkeitstests (engl.
oder Schnelligkeit gemessen wird. Der Rich- speed tests). Hier interessiert primär die Ge-
tigkeitsmaßstab kennt nur zwei Werte: Die schwindigkeit, mit der die Probanden die
Lösung einer Aufgabe ist korrekt oder inkor- Items bearbeiten. Die Items selbst sind meist
rekt. Bei einem Qualitätsmaßstab liegen mehr so einfach, dass bei genügend Zeit (fast) alle
als zwei Stufen vor: Eine Lösung oder ein Probanden alle Aufgaben lösen könnten. Eine
Lösungsvorschlag kann mehr oder weniger Differenzierung zwischen Personen wird hier
gut oder angemessen sein. Beim Schnellig- häufig über eine Begrenzung der Bearbeitungs-
keitsmaßstab zählt das Tempo, mit dem ei- zeit erreicht; in anderen Varianten von Schnel-
ne Lösung generiert wird. Für die Bewertung ligkeitstests wird die Zeit gemessen, die für
einer Leistung lassen sich Richtigkeits- bzw. die Bearbeitung der Items benötigt wird. Bei-
Qualitäts- und Schnelligkeitsmaßstäbe auch spiele für Schnelligkeitstests sind Verfahren
kombinieren. zur Messung des Konzentrationsvermögens.
Solche Maßstäbe sind den Probanden natür- Viele Fähigkeitstests stellen Mischformen dar,
lich aus dem Alltagsleben vertraut. Dies impli- in denen es auf Richtigkeit und Geschwindig-
ziert jedoch nicht unbedingt, dass sich alle Pro- keit ankommt. Dabei überwiegt allerdings je-
banden den Maßstab, auf den es bei einem Ver- weils die eine oder die andere Komponente.
fahren ankommt, in der Testsituation auch zu
eigen machen. Für die Interpretierbarkeit der Für die Interpretierbarkeit der Testergebnisse
Testresultate ist dies jedoch unabdingbar: Die ist es wesentlich, dass der Maßstab, anhand

346
12.2 Einteilung von Fähigkeits- und Leistungstests

dessen die Leistung bewertet wird, den Pro- dung zu hohe Normwerte, da sich die Personen
banden klar ist. Es muss also erläutert werden, mehr anstrengen, wenn die Resultate persönli-
welche Art von Reaktion als „positiv“ gewer- che Konsequenzen besitzen.
tet wird. Darüber hinaus ist es häufig sinnvoll,
auch auf mögliche Fehler hinzuweisen (Fay
& Stumpf, 1995). Ansonsten orientieren sich
12.2 Einteilung von Fähigkeits-
Probanden eventuell am „falschen“ Maßstab.
Ein Proband, der z. B. in einem Schnelligkeits- und Leistungstests
test zu viel Zeit in die Fehlerkontrolle inves-
tiert, wird eventuell viel weniger Aufgaben Fähigkeits- und Leistungstests können nach
bearbeiten als er es bei einem weniger strik- unterschiedlichen Gesichtspunkten geordnet
ten Richtigkeitskriterium könnte; folglich wer- werden (Fay & Stumpf, 1995). Naheliegen-
den ihm niedrigere Leistungswerte attestiert, de Aspekte, die häufig auch in der Benen-
als es seinem Fähigkeitsniveau eigentlich ent- nung von Testverfahren zum Ausdruck kom-
spricht. Die Übermittlung der relevanten Maß- men, sind das mit dem Test zu erfassende
stäbe sollte durch die Instruktion und durch Merkmal (Intelligenz, sensorische Leistungen,
geeignete Übungsaufgaben gesichert werden. praktisch-technisches Verständnis usw.), sein
Dies ist nicht immer leicht, da Teile des Lö- diagnostischer Zweck (Berufseignung, Studie-
sungswegs hierbei natürlich nicht mitgeteilt neignung) oder der anvisierte Personenkreis
werden dürfen. (z. B. Vorschulkinder, Schulkinder, Erwach-
sene, Hochbegabte usw.). Eine im deutschen
Auch die Gewährleistung maximaler Anstren- Sprachraum gebräuchliche Einteilung wurde
gungsbereitschaft ist manchmal schwer zu er- von Brickenkamp (1975; vgl. auch Brähler,
reichen, insbesondere wenn vom Testausgang Holling, Leutner & Petermann, 2002) vorge-
für die Probanden nicht viel abhängt. Proble- legt. In seinem Handbuch psychologischer und
matisch ist dies besonders im Rahmen der Nor- pädagogischer Tests unterscheidet er
mierung von Tests. Im Allgemeinen bearbei-
ten die Personen der Eichstichprobe den Test 1. Intelligenztests,
aus Gefälligkeit oder gegen Bezahlung. Die 2. Entwicklungstests,
Testung erfolgt häufig anonym und die Test- 3. allgemeine Leistungstests,
ergebnisse selbst besitzen für die Personen kei- 4. Schultests,
ne weiteren Konsequenzen. Diese Situation ist 5. spezielle Funktionsprüfungs- und Eignungs-
hinsichtlich des situativen Drucks in Richtung tests.
maximaler Anstrengung nicht mit einer „Ernst-
Eine etwas andere Einteilung, die häufig ver-
fallsituation“ vergleichbar, in der beispielswei-
wendet wird, geht auf Cronbach (1990) zurück,
se eine neue Arbeitsstelle oder das berufliche
der zwischen Tests zur Erfassung allgemeiner
Fortkommen vom Testresultat abhängen. Man
und spezifischer Fähigkeiten differenziert, von
kann im Rahmen der Normierung nur versu-
denen er nochmals Eignungstests und zwei
chen, Bedingungen herzustellen, die geeignet
Arten von Leistungstests, nämlich proficiency
sind, zu maximaler Anstrengung zu motivie-
tests und achievement tests, abhebt.
ren. Dies kann zum Beispiel durch ansprechen-
de Testgestaltung, abwechslungsreiches Arran- Intelligenztests sind oft als allgemeine Fähig-
gement der Untertests, Vermeiden von Über- keitstests angelegt. Allgemeine Fähigkeitstests
oder Unterforderung oder In-Aussicht-Stellen sollen Leistungsvoraussetzungen erfassen, die
von Gratifikationen geschehen. Gelingt dies bei vielen Aufgaben- und Problemtypen zum
nicht, liefert der Tests in der späteren Anwen- Tragen kommen. Entsprechend wird hier eine

347
12 Fähigkeits- und Leistungstests

größere Zahl inhaltlich heterogener Aufgaben Schultests umfassen eine recht heterogene
gestellt. Gruppe von Verfahren, deren gemeinsames
Merkmal in ihrem Einsatzfeld liegt. Hier geht
Auch bei Entwicklungstests ist dies häufig der es etwa um Fragen der Schulfähigkeit oder um
Fall. Sie lassen sich primär durch ihre Zielset- die Diagnose des Wissensstands in bestimm-
zung – die Erfassung des Entwicklungsstands ten Schulfächern (I Kap. 16).
eines Kindes in bestimmten Verhaltensberei-
chen – von anderen Leistungstests abgrenzen. Auch Tests zur Erfassung spezieller Funk-
Daher werden Intelligenz- und Leistungstests, tionen und Eignungen sind sehr vielfältig.
die für Kinder konzipiert sind, manchmal auch Sie beziehen sich auf Fähigkeiten, die je-
in diese Kategorie eingeordnet. weils nur in bestimmten Bereichen oder an-
gesichts bestimmter Anforderungen relevant
Andere Intelligenz- bzw. Entwicklungstests sind (I Kap. 14). Erfasst werden beispielswei-
sind Tests spezifischer Fähigkeiten. Im Un- se das mechanische Verständnis, musikalische
terschied zu allgemeinen Fähigkeitstests wird Fähigkeiten, absolutes Gehör oder Fingerge-
hier nur ein limitierter Verhaltensbereich dia- schicklichkeit. Auch eine große Palette von
gnostiziert, z. B. Gedächtnis, sprachliche Fä- Tests zur Bestimmung eng umgrenzter senso-
higkeiten oder räumliches Vorstellungsvermö- rischer oder motorischer (visueller, auditiver,
gen. kinästhetischer, taktiler usw.) Leistungen, die
mit psychophysikalischen Methoden gemes-
Eine allgemein akzeptierte Definition der In- sen werden, gehört in diese Gruppe.
telligenz existiert zur Zeit nicht. Weitgehen-
de Einigkeit besteht jedoch darüber, dass die Eignungstests (engl. aptitude tests) dienen der
Fähigkeit, Probleme aufzudecken und zu lö- Vorhersage des Erfolgs bei einer bestimmten
sen, zum Kernbereich der Intelligenz gehört. Tätigkeit (z. B. Studienerfolg in Ingenieurwis-
Intelligenz involviert schnelles und korrektes senschaften, Eignung zum Kraftfahrer). Sie
Erkennen von Zusammenhängen, schlussfol- werden je nach dem zu prädizierenden Kri-
gerndes Denken sowie den effizienten Erwerb terium aus allgemeinen Fähigkeitstests, Tests
und die adäquate Nutzung von Wissen. Ihre spezifischer Fähigkeiten und weiteren Tests
wesentliche Funktion besteht in der Anpas- zusammengesetzt. Dabei werden häufig auch
sung an situative Bedingungen sowie in der Persönlichkeits-, Motivations- und Interessen-
aktiven Gestaltung der Umwelt im Hinblick tests herangezogen. Die Art der Zusammenset-
auf persönlich hoch bewertete Ziele (siehe z. B. zung einer speziellen Eignungstestbatterie aus
Neisser et al., 1996; Sternberg, 1985). diversen Untertests und die Art der Kombina-
tion der einzelnen Testscores hängt vom An-
Unter allgemeinen Leistungstests werden forderungsprofil einer Tätigkeit ab und muss
Tests zur Erfassung von Aufmerksamkeit, empirisch validiert werden (I Kap. 14).
Konzentration, Aktiviertheit oder Vigilanz ver-
standen. Die Qualifikation „allgemein“ soll Wie angedeutet, werden im englischen Sprach-
dabei wiederum hervorheben, dass es hier um raum zwei spezifische Arten von Leistungs-
Merkmale geht, die für ein sehr weites Anfor- test voneinander abgehoben: Proficiency- und
derungsspektrum wichtig sind (Bartenwerfer, Achievement-Tests. Beide messen das aktu-
1964). Von Intelligenztests heben sich allge- elle Leistungsniveau einer Person bei einer
meine Leistungstests dadurch ab, dass sehr bestimmten Aufgabe oder Tätigkeit, z. B. Au-
einfache Aufgaben gegeben werden, bei denen tofahren, Klavierspielen, englische Literatur
nicht die Lösung, sondern die Bearbeitungsge- lesen, Texte verarbeiten, Differentialgleichun-
schwindigkeit interessiert. gen lösen oder einen Streit zwischen Kindern

348
12.3 Grundlagen der Intelligenzdiagnostik

schlichten. Die Zielsetzung von Achievement- ren, die im Kontext arbeits- und organisati-
Tests besteht dabei darin, den Erfolg nach einer onspsychologischer, klinischer oder pädagogi-
Intervention (z. B. einer Unterrichtseinheit) zu scher Aufgaben interessieren, werden in den
messen. Beispiele hierfür wären Klassenar- Kapiteln 16 bis 18 behandelt.
beiten, Fahrprüfungen usw. Solche Leistungs-
tests sind also lehrzielorientierte Tests. Sie
sollen Fortschritte in Lernprozessen abbilden
(I Kap. 16). 12.3 Grundlagen der
Proficiency-Tests dienen dagegen primär der Intelligenzdiagnostik
Vorhersage künftiger Leistungen bei bestimm-
ten beruflichen Tätigkeiten. Ihr Charakteristi-
kum besteht darin, dass die Testsituation der 12.3.1 Klassifikation von
Struktur der realen Anforderung nachgebildet Fähigkeitsunterschieden
wird. Mit dem Test werden Probeleistungen
erhoben. So muss beispielsweise eine Dolmet-
Wie wir in I Kap. 2 besprochen hatten, waren
scherin einen Vortrag simultan übersetzen. Die
es bis um die Wende zum 20. Jahrhundert vor
Zielsetzung von Proficiency-Tests entspricht
allem Galton und Binet, die einen nachhalti-
also der Zielsetzung von Eignungstests. Der
gen Einfluss auf die Entwicklung der Intelli-
Unterschied besteht darin, dass in Eignungs-
genzforschung und -diagnostik ausübten. Gal-
tests Aufgaben verwendet werden, die nicht
ton und seine Nachfolger, die die sog. „briti-
mit den künftigen Aufgaben identisch sind:
sche Schule“ der Intelligenzforschung begrün-
die Eignung zum Piloten wird z. B. nicht da-
deten, gingen von einem einheitlichen und wei-
durch geprüft, dass man einen Bewerber ein
ten Intelligenzbegriff aus. Intellektuelle Leis-
Flugzeug über den Atlantik steuern lässt. Die
tungsunterschiede reflektieren danach im We-
Aufgaben des Tests werden vielmehr aufgrund
sentlichen ein Merkmal, das zudem weitge-
theoretischer Überlegungen und empirischer
hend genetisch determiniert sein soll. Intel-
Befunde hinsichtlich der für eine bestimm-
ligenz ist diesem Verständnis zufolge in der
te Tätigkeit notwendigen Merkmale ausge-
Geschwindigkeit und Effizienz der neurona-
wählt und validiert. Für Eignungstests ist da-
len Reizverarbeitung fundiert (Eysenck, 1980).
bei die Kriteriumsvalidität ausschlaggebend.
Wichtig für die Entwicklung der Intelligenzfor-
In Proficiency-Tests wird die Eignung über Ar-
schung waren Galtons Anstöße zur Entwick-
beitsproben geprüft. Hier erfolgt die Auswahl
lung statistischer Techniken für die Untersu-
der Aufgaben nach inhaltlichen und prakti-
chung interindividueller Differenzen, die von
schen Überlegungen. Die Aufgaben werden
seinen Schülern aufgegriffen und elaboriert
so gestaltet, dass sie die Anforderungen des
wurden. Zu nennen sind hier insbesondere
künftigen Tätigkeitsfelds so gut wie möglich
Pearson, der die Produkt-Momentkorrelation
abbilden. Hier ist also die Frage nach der In-
entwickelte, sowie Spearman, der die Grundla-
haltsvalidität zentral.
gen der Faktorenanalyse schuf. Wegweisende
Wir konzentrieren uns im Folgenden auf allge- Verdienste Binets, der im Unterschied zu Gal-
meine Fähigkeits- und Leistungstests, da diese ton die Bedeutung von Umwelteinflüssen auf
für die Mehrzahl diagnostischer Fragen am die intellektuelle Entwicklung betonte, betra-
wichtigsten sind. Dabei stellen wir die Grund- fen die Konstruktion von Aufgaben, die zur
lagen der Verfahren, zentrale Begriffe und eini- Erfassung von Intelligenz geeignet waren so-
ge illustrative Testbeispiele vor. Anwendungs- wie die Idee, Testleistungen relativ zu einer
bezogene Interpretationen und weitere Verfah- definierten Bezugsgruppe zu lokalisieren.

349
12 Fähigkeits- und Leistungstests

Binets Vorgehensweise bei der Messung der Stern einen IQ von 150 erreichen, das zwölf-
Intelligenz, die auf die Bestimmung des Intelli- jährige Kind mit einem Intelligenzalter von 14
genzalters (IA) hinausläuft, hatten wir bereits dagegen „nur“ einen IQ von 117.
in I Kap. 2 beschrieben. Wir hatten auch ge-
Da die kognitive Leistungsfähigkeit (soweit
sehen, dass der in der Nachfolge Binets vorge-
sie mit gängigen Intelligenztest erfasst wird)
schlagene Vergleich zwischen Intelligenzalter
ab etwa 16 bis 20 Jahren ein Plateau erreicht
(IA) und Lebensalter (LA) nur eine ungefäh-
(also nicht weiter steigt), ist eine Anwendung
re Klassifikation intellektueller Leistungen als
des Vorschlags von Sterns für die Intelligenz-
durchschnittlich, über- oder unterdurchschnitt-
bestimmung bei Erwachsenen allerdings nicht
lich erlaubt. Weitergehende Aussagen, insbe-
möglich: Während das Intelligenzalter gewis-
sondere auch Vergleiche der IA − LA Diffe-
sermaßen stehen bleibt, steigt das Lebensalter
renzen bei Kindern verschiedenen Lebensal-
weiter linear an, was zu sinnlosen IQ-Werten
ters, sind mit dieser simplen Größe nicht mög-
führt. Der IQ im Sinne der Definition Sterns
lich. Der Grund hierfür liegt darin, dass die
wird deshalb heute nicht mehr eingesetzt.
Bedeutung einer gegebenen Differenz (sagen
wir: zwei Jahre) mit zunehmenden Alter des Durchgesetzt hat sich der Vorschlag Wechslers
Kindes geringer zu veranschlagen ist. So ist (1939), die Intelligenz über die Abweichung
z. B. die Wahrscheinlichkeit, dass ein vierjäh- der Leistung einer Person vom Mittelwert ih-
riges Kind ein Intelligenzalter von sechs er- rer Bezugsgruppe zu bestimmen. Die Bezugs-
reicht, ziemlich niedrig, nämlich sehr viel klei- gruppe ist dabei die Gruppe gleichaltriger Per-
ner als 1 %. Die Wahrscheinlichkeit, dass ein sonen. Wie wir in I Kap. 3 bereits dargestellt
zwölfjähriges Kind ein Intelligenzalter von 14 hatten, werden hierfür zunächst standardisier-
aufweist, ist demgegenüber sehr viel höher te Werte (z-Werte) berechnet, die anschließend
und fast noch im Normalbereich anzusiedeln nach
(etwa 15 % der Zwölfjährigen erreichen oder
übersteigen diesen Wert). IQ = 100 + 15 · z

Um dieses Defizit zu beseitigen, hatte Stern in IQ-Werte umgerechnet werden. Diese Um-
(1912) vorgeschlagen, anstelle der Differenz rechnung, die im Prinzip nicht nötig wäre, soll
IA − LA, den Quotienten IA / LA zur Cha- etwas handlichere Werte liefern, die (für Kin-
rakterisierung der Intelligenz von Kindern zu der) mit Sterns IQ vergleichbar bleiben. Ge-
verwenden. Um nicht mit Dezimalstellen ar- währleistet wird diese Vergleichbarkeit durch
beiten zu müssen, wurde dieser Quotient noch die Multiplikation der z-Werte mit 15, was un-
mit 100 multipliziert, was zur klassischen De- gefähr der empirisch festgestellten Streuung
finition des Intelligenzquotienten IQ führt: der IQ-Werte nach Stern entspricht. Zu beach-
ten ist, dass die Bezeichnung IQ (also Quo-
IQ = 100 · IA / LA. tient) für Wechslers Bestimmungsvorschlag
zwar etwas irreführend, im Sinne historischer
Kontinuität jedoch verständlich ist. Wechslers
Tatsächlich macht der IQ die Werte von Kin-
IQ hat per Definition in jeder Bezugsgruppe
dern verschiedener Altersstufen besser ver-
einen Mittelwert von 100 und eine Standard-
gleichbar, zumindest innerhalb des Altersbe-
abweichung von 15.
reichs von etwa vier bis zwölf Jahren, in dem
eine näherungsweise lineare Zunahme des Üblicherweise werden Werte zwischen 85 und
durchschnittlichen kognitiven Entwicklungs- 115 (also Mittelwert plus/minus eine Standard-
stands zu registrieren ist. Das vierjährige Kind abweichung) als „durchschnittlich“ bezeich-
mit einem Intelligenzalter von 6 würde nach net. In diesem Bereich liegen etwa zwei Drittel

350
12.3 Grundlagen der Intelligenzdiagnostik

aller Personen. Andere Einteilungsvorschläge petenzen. Die kognitiven Fähigkeiten werden


fassen den Durchschnittsbereich mit 90 bis anhand der Ergebnisse von Intelligenztests be-
110 IQ-Punkten etwas enger; ab 110 wird hier urteilt. Wie ersichtlich, wird ab IQ-Werten
von „leicht überdurchschnittlicher“, ab 120 kleiner als 70 von einer „Intelligenzminde-
Punkten von „überdurchschnittlicher“ und ab rung“ gesprochen, die dann nach verschiede-
130 Punkten von „weit überdurchschnittlicher“ nen Schweregraden weiter differenziert wird.
Intelligenz gesprochen. Ganz entsprechend Ebenfalls angegeben wird das Intelligenzalter,
wird im unterdurchschnittlichen Bereich diffe- das den jeweiligen IQ-Bereichen entspricht.
renziert. Derartige Angaben intendieren, Laien ein Ge-
fühl für die Bedeutung der jeweiligen IQ-
Zu berücksichtigen ist, dass derartige Aus- Werte zu vermitteln, werden also gewisser-
zeichnungen im Grunde arbiträr sind. Man maßen „in guter Absicht“ gemacht. Wie wir
könnte die Grenzen für den „Normalbereich“ bereits besprochen hatten (I Kap. 3), stehen
durchaus weiter oder auch enger setzen. Die jedoch viele Diagnostiker solchen Angaben
Präferenz für den genannten Bereich ver- mit Reserviertheit gegenüber (z. B. Cronbach,
dankt sich allein einer gewissen Fixierung auf 1990). Die Angabe eines Intelligenzalters, sa-
die Glockenkurve als Verteilungsmodell für gen wir 9 Jahre für eine Person mit einem IQ-
Intelligenztestwerte und einer Präferenz für Testwert von 50, könnte für Laien nahelegen,
durch 5 oder 10 teilbare Zahlen. Im Sinne dass sich die Person in allen oder doch in we-
einer Vereinheitlichung diagnostischer Urtei- sentlichen Aspekten ihres „geistigen Lebens“
le wäre es naheliegend, den Durchschnittsbe- auf dem Entwicklungsstand eines neunjähri-
reich auf ±1 SD fixieren, was sich in neue- gen Kindes befindet, was jedoch völlig falsch
rer Zeit immer mehr durchzusetzen scheint wäre. Die Ergebnisse von Intelligenztests be-
(I Kap. 3.6.1, S. 78). schreiben Leistungen von Personen bei der
In manchen älteren Testmanualen werden Bearbeitung bestimmter kognitiver Aufgaben,
recht plakative Etiketten für die verbale Klas- nicht mehr.
sifikation von Intelligenzleistungen angeboten. Bei der Bewertung von Testresultaten ist
So hatte Terman (1916) z. B. vorgeschlagen, immer der Messfehler des Verfahrens bzw.
IQ-Werte kleiner als 70 als „ausgesprochen der Skala zu berücksichtigen. Es ist üblich,
schwachsinnig“, IQ-Werte größer als 140 als hier ein 95 %- oder 90 %-Konfidenzintervall
„genial“ zu beschreiben. Solche und andere mit anzugeben (I Kap. 3.4.2). Bei größe-
Kategorisierungsvorschläge, die sich teilwei- ren Intelligenztestbatterien beträgt ein 95 %-
se obsoleter psychiatrischer Termini bedienen Konfidenzintervall etwa ± 7 IQ-Punkte.
und einen deutlich wertenden Charakter auf-
weisen, besitzen kein solides wissenschaftli- Eine Mitteilung globaler IQ-Werte, Prozent-
ches Fundament. Tatsächlich sind sie irrefüh- ränge oder entsprechender Intelligenzklassi-
rend und sollten in jedem Fall vermieden wer- fikationen an betroffene Laien wird von vie-
den. len Autoren als problematisch angesehen, weil
die Bedeutung solcher Werte leicht fehleinge-
I Tab. 12.1 zeigt die Klassifikation von In- schätzt werden kann. Wurde zur Intelligenzdia-
telligenzminderungen, wie sie von der Welt- gnose eine Testbatterie oder ein mehrdimen-
gesundheitsorganisation vorgenommen wird sionales Verfahren gegeben, so bietet es sich
(ICD-10; Dilling, Mombour & Schmidt, 2013). stattdessen an, ein ipsativiertes Profil rückzu-
Kernkriterien für die Diagnose „Intelligenz- melden, das über Stärken und Schwächen in
minderung“ sind (a) die kognitiven Fähigkei- unterschiedlichen Fähigkeitsbereichen infor-
ten einer Person und (b) deren soziale Kom- miert (Jäger, Süß & Beauducel, 1997). Hier-

351
12 Fähigkeits- und Leistungstests

Tab. 12.1 Klassifikation von Intelligenzminderungen nach ICD-10

Minderung IQ Intelligenzalter Hinweise


leicht 50–69 9 bis unter 12 Lernschwierigkeiten in der Schule; viele
Erwachsene können arbeiten, gute soziale
Beziehungen unterhalten und ihren Beitrag zur
Gesellschaft leisten
mittelgradig 35–49 6 bis unter 9 Deutliche Entwicklungsverzögerung in der
Kindheit; die meisten können aber ein
gewisses Maß an Unabhängigkeit erreichen
und eine ausreichende
Kommunikationsfähigkeit und Ausbildung
erwerben; Erwachsene brauchen in
unterschiedlichem Ausmaß Unterstützung im
täglichen Leben und bei der Arbeit
schwer 20–34 3 bis unter 6 andauernde Unterstützung ist notwendig
schwerst unter 20 unter 3 die eigene Versorgung, Kontinenz,
Kommunikation und Beweglichkeit sind
hochgradig beeinträchtigt
Anmerkung. Neben einer Beurteilung der kognitiven Fähigkeiten (über Intelligenztests) ist für die
Diagnose „Intelligenzminderung“ auch eine Beurteilung der sozialen Kompetenzen der Person
ausschlaggebend.

von dürften die betroffenen Personen mehr Lerneinflüsse verantwortlich sind. Als Pädago-
profitieren als von einer globalen Klassifikati- ge war er darüber hinaus stark daran interes-
on ihrer intellektuellen Fähigkeiten. siert, wie sich diese Fähigkeiten durch psy-
chologische Intervention erhöhen lassen. Eine
konsequente Weiterentwicklung der Position,
die Binet selbst nicht mehr vornahm, bestünde
12.3.2 Faktoren intellektueller also darin, die einzelnen Fähigkeiten zu klassi-
Leistungen fizieren und durch die Entwicklung separater
Tests messbar zu machen.

Spearman Wieviele und welche Einzelfähigkeiten müs-


sen unterschieden werden? Oder ist es sinn-
voll, von einem generellen Merkmal auszuge-
Der Test von Binet und Simon (1905) lieferte hen, das sich in allen oder doch den meisten
einen Wert, was es nahelegt, dass die Auto- intellektuellen Anforderungen manifestiert?
ren Intelligenz als ein einheitliches Merkmal Um diese Fragen zu beantworten, ist es aus
konzipierten. Tatsächlich ist dies nicht zutref- heutiger Sicht natürlich sehr naheliegend, die
fend (I Kap. 2). Binet war der Überzeugung, Kovariationen von Leistungen bei unterschied-
dass in intellektuellen Leistungen mehrere, lichen Aufgaben zu betrachten und mit Fak-
verschiedenartige Fähigkeiten zum Ausdruck torenanalysen oder verwandten statistischen
kommen, für deren Ausprägung bei einer Per- Techniken zu untersuchen. Im Rahmen solcher
son zu einem substanziellen Teil Umwelt- bzw. Modelle können die Fragen präzisiert werden:

352
12.3 Grundlagen der Intelligenzdiagnostik

(a) Wie viele Faktoren müssen zur Erklärung Koppelung ist allerdings nicht unbedingt zwin-
interindividueller Differenzen in intellektuel- gend. Neben beiden Extrempositionen wurde
len Leistungen angenommen werden? (b) Wie noch ein drittes Modell vertreten, das oligar-
sind die Faktoren inhaltlich zu charakterisie- chische Modell. Wie im anarchistischen Mo-
ren? dell wird hier angenommen, dass intelligente
Leistungen unterschiedliche Teilfähigkeiten
Wesentliche Beiträge zur Beantwortung dieser
reflektieren. Diese Teilfähigkeiten sind jedoch
Fragen lieferten Spearmans (z. B. 1927) Ar-
weiter (es gibt also weniger) und hängen über-
beiten. Sie stellten auch das Fundament für
dies korrelativ zusammen. Das oligarchische
die Entwicklung faktorenanalytischer Techni-
Modell stellt also gewissermaßen eine Kom-
ken bereit, so wie wir sie heute kennen. Die
promissposition dar.
damals vertretenen Positionen zur Frage nach
der Zahl unterscheidbarer Einzelfähigkeiten Bereits Anfang des 20. Jahrhunderts zeichnete
bzw. Faktoren hat Spearman sehr anschaulich sich ab, dass verschiedene Tests, die unter-
zusammengefasst. Zur kurzen Kennzeichnung schiedliche Aspekte intelligenten Verhaltens
der Positionen benutzte er metaphorisch ver- messen, weder sehr hoch korreliert, noch ganz
schiedene Regierungsformen. unabhängig sind. Die Ergebnisse widerspre-
chen damit sowohl der monarchistischen Kon-
Zwei Extrempositionen beschrieb er als „mon-
zeption, der zufolge hohe Korrelationen zu
archistisches“ und „anarchistisches“ Modell.
erwarten wären, als auch der anarchistischen
Dem monarchistischen Modell zufolge können
Konzeption, bei deren Gültigkeit Korrelatio-
alle kognitiven Leistungen, die der Intelligenz
nen nahe Null resultieren müssten. Das Kor-
zugerechnet werden, durch einen Faktor er-
relationsmuster scheint besser mit der oligar-
klärt werden. Es gibt hier nur ein dominieren-
chischen Kompromisskonzeption vereinbar zu
des Merkmal, von dem alle interindividuellen
sein.
Leistungsunterschiede im Intelligenzbereich
abhängen. Dieser allgemeine Faktor wird häu- Spearman zog diese Schlussfolgerung jedoch
fig kurz g-Faktor oder einfach g (für general nicht; er nahm vielmehr eine eklektische Posi-
factor) genannt. Im anarchistischen Modell tion ein, welche die beiden Extrempositionen
wird die Existenz eines g-Faktors bestritten. der Monarchisten und Anarchisten miteinan-
Vielmehr wird angenommen, dass Leistungs- der verband. Seiner Theorie zufolge lässt sich
unterschiede durch mehrere, enger umgrenz- das Korrelationsmuster am einfachsten so er-
te und voneinander unabhängige Faktoren zu- klären, dass kognitive Leistungen in einem
stande kommen. Kandidaten für solche Fak- konkreten Test durch jeweils zwei Faktoren
toren wären etwa bestimmte sprachliche oder determiniert werden: Der erste Faktor ist die
numerische Fähigkeiten. Das monarchistische allgemeine Intelligenz (g). Die allgemeine In-
Modell – Intelligenz ist ein einheitliches und telligenz macht sich in allen Tests bemerkbar,
allgemeines Merkmal – geht meist mit einer die kognitive Leistungen messen. Sie (und sie
„nativistischen“ Position Hand in Hand, der zu- allein) stiftet die Korrelationen zwischen den
folge Intelligenzunterschiede primär genetisch entsprechenden Leistungen. Dies ist das mon-
determiniert sind. Das anarchistische Modell – archistische Moment des Modells. Der zweite
Intelligenz ist lediglich ein Sammelbegriff für Faktor ist für den vorliegenden und gleichar-
viele voneinander unabhängige spezifische Fä- tige Tests spezifisch. Er reflektiert eine enger
higkeiten – wird dagegen meist von „Lerntheo- umgrenzte Fähigkeit, die nur bei dem jeweils
retikern“ favorisiert, weil sich durch interindi- in Rede stehenden Aufgabentyp zum Tragen
viduell variierende Lernprozesse verschiede- kommt (z. B. Rechenaufgaben). Die spezifi-
ne Spezialisierungen ausbilden sollten. Diese schen Faktoren sollen untereinander wie auch

353
12 Fähigkeits- und Leistungstests

von g unabhängig sein. Dies ist das anarchis- von Routineaufgaben oder reine Reprodukti-
tische Moment der Theorie. Da jeweils zwei onsleistungen sagen deshalb nichts über die
Faktoren das Abschneiden bei einem Aufga- Ausprägung der allgemeinen Intelligenz aus.
bentyp determinieren, wird das Modell auch Die Kernpunkte der Intelligenz sah Spearman
als Zwei-Faktoren-Modell bezeichnet (obwohl in dem, was er „eduction of relations“ und
sehr viel mehr als zwei Intelligenzfaktoren „eduction of correlates“ nannte, zu Deutsch
postuliert werden). also etwa „Herleiten von Beziehungen“ und
„Herleiten von Korrelaten“:
Aus welchem Grund verwarf Spearman die
oligarchische Konzeption zugunsten seines ek-
... when a person has in mind two or more
lektischen Modells? Sein entscheidendes Ar-
ideas, he has more or less power to bring to
gument war der Nachweis, dass die Höhe der
mind any relations that essentially hold bet-
Korrelation zweier Tests durch deren Reliabili-
ween them [eduction of relations] ... when a
täten begrenzt wird. Die Korrelation zwischen
person has in mind any idea together with a
zwei (latenten) Merkmalen ist höher als die
relation, he has more or less power to bring
Korrelation ihrer mit Messfehlern behafteten
up to mind the correlative idea [eduction of
(manifesten) Indikatoren. Da nun Tests nicht
correlates] ... (Spearman, 1927, S. 165f.)
perfekt reliabel sind, wird der Zusammenhang
zwischen den zugrunde liegenden Merkma-
len durch die Korrelation der entsprechenden Wesentlich für die allgemeine Intelligenz ist
Testleistungen unterschätzt. Spearman ist es also das Erkennen von Beziehungen zwischen
gelungen, eine exakte Formel abzuleiten, mit „Ideen“ (Gedanken, Begriffen, Kognitionen,
der sich der Zusammenhang zwischen zwei deren Gegenständen) und die Generierung neu-
Merkmalen aus der Korrelation fehlerbehaf- er Gedanken oder Begriffe, die bestimmten
teter Messwerte bestimmen lässt. Diese For- vorgegebenen Relationen entsprechen. Aufga-
mel, die Spearman-Brown-Formel zur Min- ben vom Typ der Analogieprobleme entspre-
derungskorrektur, hatten wir in I Kap. 3 be- chen dieser Explikation der allgemeinen Intel-
reits kennengelernt. Spearman zufolge zeigt ligenz sehr gut. Derartige Aufgaben sind nach
die Anwendung dieser Minderungskorrektur dem Schema „A verhält sich zu B wie C zu
auf die Korrelationen von Testleistungen, dass ...?“ aufgebaut, z. B.
der wirkliche Zusammenhang zwischen Leis-
tungen bei unterschiedlichen Aufgaben zwar
immer noch nicht perfekt wird, was gegen die Hund zu Rudel wie Baum zu ?
monarchistische Doktrin spricht, andererseits
(a) Fichte (b) Förster (c) Wald (d)
aber nicht so niedrig ist, dass das Konzept
Menge (e) Pflanze.
einer allgemeinen Intelligenz aufgegeben wer-
den müsste, wie es die anarchistische und die
oligarchische Doktrin fordern. Hier muss die Beziehung zwischen zwei Ele-
menten erkannt (Hund und Rudel) und auf
Spearman (1927) versuchte auch, inhaltlich ein drittes Element (Baum) übertragen werden.
zu spezifizieren, was die allgemeine Intelli- Aufgaben dieser Art finden sich in praktisch al-
genz ausmacht, die intellektuellen Leistungen len größeren Intelligenztests. In einigen Intelli-
zugrunde liegen soll. Spearman zufolge ma- genztests, die wir unten noch kurz besprechen,
nifestiert sich die allgemeine Intelligenz in wurde versucht, Aufgaben zu konstruieren, die
Problemen, deren Lösung durch die Person das Erkennen und Übertragen von Relationen
neu generiert werden muss. Die Bewältigung besonders gut messen (I Kap. 12.4.5).

354
12.3 Grundlagen der Intelligenzdiagnostik

Thurstone war für die Konstrukteure von Intelligenztests,


wie wir später noch sehen werden, außeror-
Das g-Faktormodell ist nicht unwidersprochen dentlich anregend.
geblieben. Ein alternativer, für die Intelligenz-
Der Widerspruch zwischen Thurstones Ergeb-
diagnostik wichtiger Ansatz wurde von dem
nissen, die der anarchistischen Doktrin ent-
Amerikaner Thurstone 1938 formuliert. Thur-
sprechen, und Spearmans Modell hatte einen
stones ursprüngliches Modell beruht auf der
recht einfachen Grund: Thurstone erhob die
Analyse der Leistungen von Studierenden bei
Daten, auf denen seine ursprüngliche Annah-
einer Vielzahl kognitiver Aufgaben, die er fak-
me unabhängiger Faktoren fußte, an einer
torenanalytisch klassifizierte. Thurstone selbst
hoch selektierten Gruppe, nämlich Studieren-
hat viel zur Entwicklung dieser Technik bei-
den einer amerikanischen Elite-Universität
tragen. Er erweiterte Spearmans Ein-Faktoren-
mit überdurchschnittlichen intellektuellen Fä-
Modell zur multiplen (mehr als nur eine Kom-
higkeiten. Diese Personen unterschieden sich
ponente umfassenden) Faktorenanalyse. Auf
primär hinsichtlich spezifischer Fähigkeiten,
ihn geht auch das Konzept der Einfachstruktur
dagegen nicht sehr stark hinsichtlich ihrer
zurück, das die Interpretierbarkeit von Fakto-
allgemeinen Intelligenz. Die Auswahl einer
ren erleichtern soll. Eine Einfachstruktur liegt
merkmalshomogenen Gruppe bewirkt gene-
vor, wenn die Variablen, die einer Faktorenana-
rell, dass die Korrelationen zwischen Tests
lyse unterzogen werden, relativ „reine“ Ladun-
wesentlich geringer ausfallen als bei einer un-
gen aufweisen, also nur auf einem Faktor hoch
ausgelesenen und hinsichtlich der Intelligenz
und auf allen anderen niedrig laden. Thursto-
repräsentativen Stichprobe. Die Zusammen-
ne formulierte mathematische Kriterien, die
hänge zwischen Leistungen lassen sich also
es ermöglichen, Faktoren so zu bilden (zu „ro-
bei Studierenden oder anderen Gruppen mit re-
tieren“), dass sie der Forderung nach Einfach-
lativ homogener allgemeiner Intelligenz recht
struktur möglichst nahe kommen (I Kap. 4).
gut durch unabhängige Primärfaktoren aufklä-
Thurstones erste Ergebnisse standen in schar- ren, nicht aber generell. Werden unselektierte
fem Kontrast zu Spearmans Modell: Seine Stichproben verwendet, fallen die Korrelatio-
Analysen lieferten nicht einen, sondern viel- nen höher aus und man findet entsprechend
mehr mehrere voneinander relativ unabhängi- Hinweise auf einen g-Faktor (Vernon, 1965).
ge Faktoren. Er verwarf entsprechend die Vor-
Thurstone stellte dies später selbst fest, als
stellung einer allgemeinen Intelligenz und pos-
er seinen Primary Mental Abilities-Test bei
tulierte die Existenz einer Reihe unabhängiger
Schulkindern durchführte (Thurstone & Thur-
Fähigkeitsmerkmale, die er primary mental
stone, 1941) . Hier fand er, dass unabhängige
abilities nannte. Damit schuf er die Grundla-
Faktoren den Daten nicht gerecht wurden. Für
ge der „amerikanischen Tradition“ der Intelli-
die angemessene mathematische Darstellung
genzforschung.
der Testergebnisse mussten korrelierte Fakto-
I Tab. 12.2 zeigt die Primärfähigkeiten oder ren zugelassen werden. Wenn die Primärfak-
Primärfaktoren, die Thurstone und Kollegen in toren aber korreliert sind, ist es ist möglich,
der ersten und nachfolgenden Untersuchungen einen oder mehrere übergeordnete Faktoren zu
relativ übereinstimmend sichern konnten. Die- bilden, die deren Zusammenhänge reflektieren.
se Faktoren sollen in jeweils unterschiedlicher Man erhält dann Faktoren höherer Ordnung.
Gewichtung bei der Lösung kognitiver Aufga- Thurstone stellte bei seinen Daten fest, dass
ben beteiligt sein. Thurstones Liste der Primär- ein Faktor zweiter Ordnung hierfür hinreichte.
faktoren, die er selbst vorsichtig als „crudest Es ist klar, dass ein solcher Faktor Spearmans
first map“ des Intelligenzbereichs bezeichnete, g recht gut entspricht.

355
12 Fähigkeits- und Leistungstests

Tab. 12.2 Primärfaktoren nach Thurstone

Fähigkeit Inhaltliche Bestimmung Tests


Wortverständnis Die Bedeutung von Wörtern Wortschatztest
und deren Beziehung
untereinander kennen; Wörter
angemessen verwenden
Wortflüssigkeit Schnelles Produzieren von Anagramme; Produzieren von
Wörtern nach bestimmten Wörtern mit den gleichen
Vorgaben Anfangsbuchstaben
Numerische Fähigkeit Schnelligkeit und Rechenaufgaben (Addition,
Fehlerlosigkeit bei einfachen Subtraktion, Multiplikation,
Rechenaufgaben Division)
Räumliche Fähigkeit Lösen von Aufgaben, die Vergleich von Würfeln aus
räumliches Vorstellen und verschiedenen Blickwinkeln;
Orientieren erfordern sowie das Verfolgen mechanischer
Erkennen von Objekten unter Abläufe (z. B. ineinander
veränderten räumlichen greifender Zahnräder)
Beziehungen
Gedächtnis Behalten gelernter Behalten von Paaren aus
Assoziationen Wörtern, Symbolen, Zahlen
u. ä.
Wahrnehmungs- Visuelle Details (Ähnlichkeiten Anstreichen von Symbolen;
geschwindigkeit und Unterschiede) schnell und Erkennen von Ähnlichkeiten
richtig erkennen und Unterschieden
Schlussfolgerndes Denken Fähigkeit, eine Regel oder ein Reihen fortsetzen;
Prinzip zu erkennen und korrekt Analogietests
auf die Lösung eines Problems
anzuwenden

Moderne Faktorenmodelle dieser Restkorrelationen nichts beitragen, da


sie jeweils nur eine Aufgabe beeinflussen. Die-
Moderne Faktorenmodelle der Intelligenz ver- se enger umgrenzten Faktoren, die zur Aufklä-
knüpfen die Ideen von Spearman und Thur- rung der Korrelationen benötigt werden, die g
stone. Aus Spearmans Modell wird dabei die „übrig lässt“, repräsentieren das Thurstonesche
Vorstellung des g-Faktors übernommen. Dies Moment moderner Faktorenmodelle.
ist darin begründet, dass intellektuelle Leis-
tungen positiv korreliert sind. Wie sich jedoch Es gibt unterschiedliche Möglichkeiten, sol-
zeigte, ist ein g-Faktor allein unzureichend che Modelle mathematisch zu formulieren und
zur Aufklärung der Zusammenhänge unter ko- darzustellen (Gignac, 2008). Eine Möglich-
gnitiven Aufgaben (Carroll, 1993). Wird eine keit besteht in einen hierarchischen (Bifaktor-)
hinreichend vielfältige Aufgabenmenge gege- Modell, wie wir es in I Kap. 4 (S. 106) ken-
ben, bleiben nach Bildung (Extraktion) des nengelernt haben. Ein weitere besteht in einer
ersten Faktors Restkorrelationen übrig, für de- Anordnung mit mehreren Ebenen, bei der Fak-
ren Aufklärung weitere, allerdings enger defi- toren der höheren Ebene Faktoren auf darun-
nierte Faktoren eingeführt werden. Spearmans terliegenden Ebenen beeinflussen und damit
spezifische Faktoren können ja zur Aufklärung Kovariationen zwischen den untergeordneten

356
12.3 Grundlagen der Intelligenzdiagnostik

g
Stratum III Allgemeine
Intelligenz
Fluide Reaktions-/
Intelligenz Entscheidungs-
zeit

Verarbeitungs-
Kristallisierte geschwindig-
Intelligenz keit

Stratum II Quantitatives Auditive


Denken Verarbeitung

Lesen Visuelle
und Verarbeitung
Schreiben Langfristiges
Kurzzeit-
Speichern
gedächtnis
und Abrufen

Stratum I Vielzahl spezifischer Fähigkeiten

Abb. 12.1 Cattell-Horn-Carroll-Modell der Intelligenz (McGrew, 1997).

Faktoren stiften. Solche Modelle mit Fakto- weiter auf einer vierten, usw., bis wir schließ-
ren höherer und niedrigerer Ordnung werden lich bei spezifischen Faktoren angelangt sind,
manchmal ebenfalls als hierarchisch bezeich- die nur einen ganz bestimmten Aufgabentyp
net. betreffen. Generell werden in solchen Model-
len also zwischen die Ebene von Spearmans g
An der Spitze der Hierarchie steht hier der (die abstrakteste Ebene) und die seiner spezifi-
g-Faktor, der das weiteste und abstrakteste In- schen Faktoren (die konkreteste Ebene) weite-
telligenzmerkmal repräsentiert. Auf der zwei- re Ebenen eingeschoben.
ten Ebene finden sich enger umgrenzte Fak-
toren, die bestimmte Gruppen von Fähigkei- I Abb. 12.1 zeigt ein vielbeachtetes Beispiel
ten umfassen und daher (wie beim Bifaktor- für ein solches Modell. Es handelt sich um das
Modell) „Gruppenfaktoren“ genannt werden. Cattell-Horn-Carroll oder kurz CHC-Modell
Die Gruppenfaktoren sind (im Unterschied (McGrew, 1997) und stellt eine Fusion der
zum Bifaktor-Modell) korreliert, da sie von Intelligenztheorie von Cattell und Horn (Cat-
g abhängen. Andererseits sind sie insofern ei- tell, 1987; Horn & Cattell, 1966; Horn, 1994)
genständig, als zwischen Aufgaben, die einen mit der Theorie von Carroll (1993) dar. Wie
Gruppenfaktor betreffen, engere Zusammen- ersichtlich ist, werden hier drei Ebenen ange-
hänge bestehen als zwischen Aufgaben, die nommen, die nach Carroll als „Strata“ bezeich-
unterschiedlichen Gruppenfaktoren zuzuord- net werden. Die Strata werden von unten nach
nen sind. Die Gruppenfaktoren lassen sich auf oben nummeriert, so dass die allgemeine Intel-
einer dritten Ebene weiter differenzieren, diese ligenz auf dem dritten Stratum liegt. Auf der

357
12 Fähigkeits- und Leistungstests

zweiten Ebene werden zehn sehr weite Fakto- einer Person bietet. Die Verwendung von Wis-
ren postuliert. Eine detaillierte Beschreibung sensfragen in Intelligenztests ist daher strittig.
des CHC-Modells und Vorschläge zu seiner
Weiterentwicklung finden sich bei Schneider
und McGrew (2012). 12.4 Intelligenztests
Den beiden ersten Faktoren, der fluiden und
kristallisierten Intelligenz, kommt dabei eine In den folgenden Abschnitten besprechen wir
besonders große Bedeutung zu. Die Differen- zunächst eine Reihe konkreter Verfahren zur
zierung zwischen fluider und kristallisierter Messung der Intelligenz und einzelner Intel-
Intelligenz stammt aus der Theorie von Cat- ligenzfaktoren. Die hier getroffene Auswahl
tell und Horn (Cattell, 1987; Horn & Cattell, kann angesichts der Vielzahl und Heterogeni-
1966; Horn, 1994) und wird von vielen Intelli- tät vorliegender Tests nicht repräsentativ sein.
genzforschern als theoretisch und diagnostisch Intendiert ist also kein Überblick etablierter
wichtige Unterscheidung akzeptiert. Verfahren. Vielmehr soll der Aufbau von Intel-
ligenztests anhand einiger häufig verwendeter
Fluide Intelligenz meint die Fähigkeit, neu- Verfahren illustriert werden. Wir konzentrie-
artige Probleme zu lösen, die keine oder nur ren uns auf einige Klassiker, wie die Wechsler-
minimale Anforderungen an spezifisches Wis- und die Raven-Tests sowie einige vielverspre-
sen stellen. In Tests oder Skalen zur Messung chende neuere Entwicklungen, wie das Adapti-
der fluiden Intelligenz wird nur das Grund- ve Intelligenz Diagnostikum und den Berliner
wissen vorausgesetzt, über das jede Person Intelligenzstruktur-Test. Im Anschluss an die
verfügt. Bestimmt wird die fluide Intelligenz Vorstellung der Tests gehen wir nochmals auf
durch Aufgaben, in denen logisch-deduktives Gesichtspunkte zur Interpretation von Intelli-
oder induktives Denken gefragt ist, was z. B. genztestwerten ein. Im letzten Unterabschnitt
bei Analogieproblemen der Fall ist. werden Probleme und Perspektiven der Intelli-
genzdiagnostik behandelt.
Kristallisierte Intelligenz bezieht sich dagegen
auf die Fähigkeit, erworbenes Wissen für Pro-
blemlösungen zu nutzen. Sie manifestiert sich 12.4.1 Wechsler-Intelligenztests
bei der Bearbeitung von Problemen, für deren
Lösung Erfahrung benötigt wird, z. B. Trans- Eines der ältesten und international am häu-
ferleistungen. Praktisch erfasst wird die kris- figsten eingesetzten Verfahren zur Messung
tallisierte Intelligenz jedoch meist über reine der allgemeinen Intelligenz in der „Nach-
Wissensfragen, z. B. „Wer schrieb den Faust?“ Binet-Ära“ ist der Wechsler-Intelligenztest. In
Begründet wird dies damit, dass Menschen mit Deutschland wurde dieses Verfahren lange
hoher Intelligenz im Lauf ihres Lebens mehr Zeit unter dem Namen Hamburg-Wechsler-
Wissen erwerben, da sie leichter lernen und Intelligenztest (HAWI) veröffentlicht. Er ba-
Information in effektiverer Weise organisieren siert auf Skalen, die David Wechsler Ende der
und speichern als weniger intelligente Perso- dreißiger Jahre des letzten Jahrhunderts in den
nen. Deshalb seien auch reine Wissensfragen USA konzipiert hatte und die anschließend
relativ gute Intelligenzindikatoren (Eysenck, in vielen Ländern adaptiert wurden. Die ers-
1980). Offenbar hängen solche Leistungen je- te veröffentlichte Version des Tests war die
doch auch von nichtintellektuellen Faktoren Wechsler-Bellevue-Intelligence-Scale (Wechs-
und Bedingungen ab, etwa den Lernmöglich- ler, 1939). Der zunächst für Erwachsene kon-
keiten und -angeboten, welche die Umwelt zipierte Test wurde in den vierziger Jahren um

358
12.4 Intelligenztests

eine Version für Kinder ergänzt, die Wechsler deren Konzepten zur praktischen Intelligenz
Intelligence Scale for Children (WISC; Wechs- (I Kap. 12.4.7) zu tun hatten, sondern eher
ler, 1949). In den fünfziger Jahren folgte ei- Spearmans g-Konzeption entsprachen.
ne revidierte Erwachsenenversion, die Wechs-
Wechsler selbst gab an, sich an Spearmans Mo-
ler Adult Intelligence Scale (WAIS; Wechsler,
dell orientiert zu haben, was jedoch aus dem
1955). Beide Verfahren sind bis heute in aktua-
Aufbau des Tests, der Score-Bildung und der
lisierten Varianten im Einsatz.
Auswahl der einzelnen Aufgabentypen nicht
Der in den dreißiger Jahren in den USA popu- ersichtlich war. Tatsächlich wurde der Test
lärste Intelligenztest war die von Terman revi- weitgehend ohne Fundierung in einem Intel-
dierte Form des Binet-Tests, der sog. Stanford- ligenzmodell auf der Grundlage von Plausi-
Binet (SB; Terman, 1916; Terman & Merrill, bilitätserwägungen und praktischem Auspro-
1937). Wechsler, der als klinischer Psycholo- bieren von Aufgabentypen konstruiert. Bemer-
ge am Bellevue Hospital in New York tätig kenswert ist, dass Wechsler nicht unbedingt
und hier vor allem mit der Persönlichkeits- eine Zwei-Faktoren-Struktur der mit dem Test
diagnostik Erwachsener betraut war, wollte gemessenen Fähigkeiten im Auge hatte, wie es
ein Instrument konstruieren, das sich für diese die Einteilung der Aufgaben ja eigentlich nahe-
Altersgruppe besser eignete als der SB. Dar- legte. Er notierte, dass die Untertests verschie-
über hinaus strebte er an, die im SB vorherr- dene Maße der Intelligenz, nicht Maße ver-
schenden verbalen Items um Aufgaben zu er- schiedener Intelligenzarten lieferten; zudem
gänzen, die weitere Fähigkeitsmerkmale zu stelle die Unterscheidung zwischen einem ver-
erschließen versprachen, insbesondere solche, balen und einem Handlungsbereich nur eine
die eine Differenzialdiagnose verschiedener von mehreren Möglichkeiten dar, die Unter-
klinischer Störungen und Hirntraumata erlau- tests zu gruppieren (Wechsler, 1958, S. 64).
ben. Dies schlug sich in einer Testgliederung
Die Möglichkeit alternativer Gruppierungen
nieder, die neben einem „Verbalteil“ mit vor-
wurde bereitwillig aufgegriffen und erprobt
nehmlich sprachlichen Aufgaben auch einen
(siehe z. B. Coalson & Weiss, 2002; Kaufman,
„Handlungsteil“ mit nonverbalen, praktischen
2000). Die Forschung hierzu beeinflusste auch
Aufgaben umfasste. Diese zweiteilige Konzep-
die Konstruktion neuer Aufgabentypen, die
tion war lange Zeit das „Markenzeichen“ des
in spätere Versionen des Tests aufgenommen
Verfahrens und wurde erst in neuerer Zeit re-
wurden.
vidiert.
In den aktuellen Versionen des Verfahrens
Die Interpretation der beiden Teile, für die se-
wird die Gliederung in zwei Bereiche aufge-
parate Scores, nämlich ein „Verbal-IQ“ und
geben, stattdessen werden neben dem Gesamt-
ein „Handlungs-IQ“ angeboten wurden, war
IQ vier weitere, faktorenanalytisch begründete,
allerdings alles andere als klar. Die manchmal
Indexwerte gebildet, die als
vorgeschlagene Interpretation des Verbal-IQ
als „sprachliche“ Intelligenz war wenig über- • Sprachverständnis (SV),
zeugend, da zum Verbalteil auch Aufgaben • wahrnehmungsgebundenes logisches Den-
zum kurzfristigen Reproduzieren vorgespro- ken (WLD),
chener Zahlen sowie Rechenaufgaben gehör- • Arbeitsgedächtnis (AGD) und
ten, die üblicherweise nicht den sprachlichen
• Verarbeitungsgeschwindigkeit (VG)
Fähigkeiten i. e. S. zugeordnet werden. Auch
die Interpretation der Leistung im Handlungs- bezeichnet werden (I Tab. 12.3). In der Revi-
teil als „praktische“ Intelligenz war wenig er- sion des Verfahrens ist das Bemühen erkenn-
hellend, zumal die Aufgaben nichts mit an- bar, an in der Intelligenzforschung etablierte

359
12 Fähigkeits- und Leistungstests

Konstrukte, z. B. Arbeitsgedächtnis, und an Petermann, 2011) und einer Form für Erwach-
neuere Intelligenzmodelle anzuschließen, z. B. sene (HAWIE-R; Tewes, 1991; WAIS-IV: Pe-
das CHC-Modell. termann, 2012). Die beiden jeweils als Ein-
zeltests konzipierten Formen sind sich sehr
Arbeitsgedächtnis ähnlich, Inhalte und Schwierigkeiten der Auf-
gaben sind aber an das Fähigkeitsniveau von
Unter dem Arbeitsgedächtnis wird ein ko- Kindern bzw. Erwachsenen angepasst.
gnitives System verstanden, das für die Ver-
arbeitung und kurzfristige Speicherung auf- I Tab. 12.3 illustriert den Aufbau anhand der
gabenrelevanter Information zuständig ist Kinderversion (HAWIK-IV bzw. WISC-IV;
(Baddeley, 1990, 2000). Im Unterschied zur beide Versionen besitzen den gleichen Auf-
älteren Konzeption des Kurzzeitgedächtnis- bau), die im Alterbereich von 6 bis 16 Jah-
ses stellt das Arbeitsgedächtnis keinen pas- ren eingesetzt wird. Das Verfahren besteht
siven Informationsspeicher dar, vielmehr aus zehn Subtests, die standardmäßig gegeben
handelt es sich um einen „aktiven Informati- werden, den sog. Kerntests, und fünf optio-
onsverarbeiter“. Zudem wird angenommen, nalen Subtests für spezifische Einsatzzwecke.
dass das Arbeitsgedächtnis aus mehreren Die Scores auf den vier genannten Skalen (SV,
Subsystemen besteht, nämlich einer über- WLD, AGD, VG), die als Indexwerte bezeich-
geordneten Kontrolleinheit (zentrale Exe- net werden, basieren allein auf den Kerntests.
kutive) und drei Subsystemen für die Ver- Wie zu erwarten, sind die Indexwerte deutlich
arbeitung visuell-räumlicher, sprachlich- korreliert (überwiegend zwischen .4 und .7),
symbolischer und episodischer Information. so dass auch die Bildung eines Gesamt-IQ als
Die Kapazität des Arbeitsgedächtnisses ist Indikator für die Ausprägung des g-Faktors
begrenzt, so dass es einen Abgleich zwi- vorgesehen wird. Das Verfahren wird im Ein-
schen Verarbeitungs- und Speicherungsan- zelversuch durchgeführt, der etwa 60 bis 90
forderungen gibt (Baddeley & Hitch, 1974). Minuten in Anspruch nimmt.
Je komplexer die Verarbeitungsanforderun-
gen sind, desto weniger Raum steht für die Die Aufgaben innerhalb der Subtests sind wie
Speicherung von Informationseinheiten zur üblich nach ihrer Schwierigkeit gestaffelt. Für
Verfügung. Als ein guter Indikator der Ar- die meisten Untertests sind altersspezifische
beitsgedächtniskapazität gilt Zahlennach- Startpunkte vorgesehen, ältere Kinder begin-
sprechen rückwärts (vorgesprochene Zif- nen also mit schwierigeren Aufgaben als jün-
fern sind hier in der umgekehrten Reihen- gere. Löst ein Kind die zuerst vorgelegten Auf-
folge unmittelbar zu reproduzieren). Per- gaben nicht, greifen „Umkehrregeln“, es wird
sonen erreichen beim Zahlennachsprechen dann zeitweilig auf leichtere Aufgaben zurück-
rückwärts ein bis zwei Ziffern weniger als gegriffen. Um die Probanden nach Misserfol-
beim Zahlennachsprechen vorwärts, da hier gen nicht allzu sehr zu entmutigen, wird ein
neben der Speicherung auch kognitive Ope- Subtest abgebrochen, wenn mehrere aufeinan-
rationen zum Umsortieren der Ziffern erfor- derfolgende Aufgaben inkorrekt beantwortet
derlich sind. wurden und eine erfolgreiche Bearbeitung der
nachfolgenden schwierigeren Aufgaben sehr
Der Wechsler-Test existiert in einer Form für unwahrscheinlich ist.
Kinder und Jugendliche (neuere deutsche Ver-
sionen sind: HAWIK-III; Tewes, Rossmann Für jede gelöste Aufgabe wird ein Punkt ver-
& Schallberger, 1999; HAWIK-IV: Petermann geben, wobei in manchen Untertests für be-
& Petermann, 2007; WISC-IV: Petermann & sonders treffende Antworten oder besonders

360
12.4 Intelligenztests

Tab. 12.3 Skalen und Subtests des Wechsler-Tests (HAWIK/WISC-IV)

Skala, Subtest Beschreibung, Beispiel


Sprachverständnis (SV)
Gemeinsamkeiten finden Was haben Käse und Sahne gemeinsam?
Wortschatz-Test Abgebildete Gegenstände benennen oder Wörter erklären
(Was versteht man unter einem Ritual?)
Allgemeines Verständnis Weshalb soll man an einer roten Ampel stehen bleiben?
Allgemeines Wissen* Was ist die Hauptstadt von Schweden?
Begriffe erkennen* Begriffe auf der Basis vorgelesener Hinweise herausfinden
Wahrnehmungsgebundenes logisches Denken (WLD)
Mosaik-Test Vorgegebene mosaikartige Muster mit farbig bedruckten
Würfeln nachlegen
Bildkonzepte Aus mehreren vorgelegten Bilderreihen eine Gruppe von
Bildern mit einem gemeinsamen Merkmal zusammenstellen
Matrizen-Test Fehlende Teile in einem unvollständigen Muster aus
mehreren vorgegebenen Möglichkeiten auswählen
Bilder ergänzen* Details identifizieren oder benennen, die auf vorgelegten
Bildern fehlen
Arbeitsgedächtnis (AGD)
Zahlennachsprechen Vorgelesene Zahlenreihen vorwärts und rückwärts
nachsprechen
Buchstaben-Zahlen-Folgen Vorgelesene Zahlenreihen in aufsteigender oder
Buchstabenfolgen in alphabetischer Reihenfolge
wiederholen
Rechnerisches Denken* Wieviele Minuten braucht ein Fahrradfahrer für 6 km, wenn
er 18 km in der Stunde fährt?
Verarbeitungsgeschwindigkeit (VG)
Zahlen-Symbol-Test Symbole nachzeichnen, die Ziffern oder geometrischen
Figuren zugeordnet sind
Symbolsuche Identifizieren eines Zielsymbols in einer Gruppe von
Symbolen
Durchstreich-Test* Bestimmte Zielbilder in zufällig oder strukturiert
präsentierten Bildervorlagen durchstreichen

*Optionaler Subtest

schnell gelöste Aufgaben Bonuspunkte zu er- punkte) aller Kerntests eingehen. Die Reliabili-
halten sind. Die resultierenden Rohpunktwerte täten der Indexwerte streuen zwischen .87 und
pro Untertest werden dann zunächst in alter- .94, fallen also sehr hoch aus. Gleiches gilt
sspezifisch standardisierte Werte umgerechnet für den Gesamt-IQ, der eine Reliabilität von
(sog. „Wertpunkte“, M = 10, SD = 3). Die .97 erreicht (Petermann & Petermann, 2011).
standardisierten Werte werden anschließend Die Reliabilitäten der Erwachsenenversion be-
über die Subtests einer Skala addiert und in wegen sich im gleichen Bereich (Petermann,
IQ-Werte transformiert. Schließlich wird ein 2012).
Gesamt-IQ gebildet, in den die Scores (Wert-

361
12 Fähigkeits- und Leistungstests

Die Anzahl der Untersuchungen zu den Korre- (Auch dies ist übrigens ein Manko, das der
laten des Wechsler-Tests ist aufgrund der Po- Wechsler-Test mit den meisten anderen mehr-
pularität des Verfahrens kaum überschaubar. dimensionalen Intelligenztests teilt.)
Die Manuale der neueren Versionen beschrän-
ken sich allerdings auf recht elementare Vali- Trotz einer Reihe teilweise im Alter der Test-
ditätsbelege, z. B. deutliche Zusammenhänge konzeption begründeter Schwächen stellt der
mit der schulischen Bildung, Leistungsminde- Wechsler-Test ein Instrument dar, das sich für
rungen in hohem Alter sowie einige weitere die Intelligenzdiagnostik in pädagogischen,
Gruppenunterschiede. Für die Kinderversion klinisch- und medizinisch-psychologischen
werden darüber hinaus Korrelationen um .45 Kontexten praktisch sehr bewährt hat. Die im-
mit Schulnoten und um .60 mit Lehrerbeurtei- mer noch aktive Weiterentwicklung des Ver-
lungen der Intelligenz berichtet (Tewes et al., fahrens lässt erwarten, dass er auch in Zukunft
1999). eines der am häufigsten eingesetzten Intelli-
genzdiagnostika bleiben wird.
Das Hauptproblem des Wechsler-Tests ist das
Fehlen einer theoretischen Fundierung in ei-
nem explizit formulierten Intelligenzkonzept, 12.4.2 Adaptives Intelligenz
aus dem sich die Gliederung des Verfahrens Diagnostikum
und die Auswahl der Aufgabentypen ableiten
oder doch begründen ließen. (Dieses Problem Der Wechsler-Test war kritischer Ausgangs-
teilt der Test allerdings mit vielen anderen punkt einer Reihe jüngerer Verfahren, die im
Intelligenztests.) Die Auswahl der Untertests Hinblick auf Testgliederung, erfasste Fähig-
und damit auch die Gewichtung einzelner Auf- keitsmerkmale oder Messkonzept neue Wege
gabentypen in ihrem Beitrag zum Testwert einschlugen. Eines dieser Verfahren ist das
bleiben damit recht willkürlich. Der Verzicht Adaptive Intelligenz Diagnostikum (AID bzw.
auf die alte Gliederung in einen Verbal- und AID 2: Kubinger & Wurst, 1998, 2000; die
einen Handlungsteil sowie die Orientierung aktuelle Version ist der AID 3: Kubinger &
an den Ergebnissen von Faktorenanalysen zur Holocher-Ertl, 2014). Das AID ist ein Einzel-
Bildung der Skalen ist in dieser Hinsicht al- test, der für den Einsatz bei Kindern und Ju-
lerdings als deutlicher Fortschritt zu werten. gendlichen im Alter von 6 bis 15 Jahren konzi-
Auch dem an den älteren Versionen häufig piert wurde. Die einzelnen Aufgabentypen und
monierten starken Einfluss bildungsabhängi- deren Gliederung lehnen sich an den Wechsler-
ger Inhalte auf den Gesamt-IQ wird mit der Test an, wurden aber um mehrere Untertests,
Neugliederung des Verfahrens effektiv begeg- insbesondere um Skalen zur Erfassung des
net. Die Interpretation von Profilen der vier Einprägens und Erinnerns von Information,
Indexwerte bzw. von Diskrepanzen zwischen erweitert. Für die Durchführung des AID exis-
den einzelnen Werten bleibt wegen des Feh- tieren verschiedene Varianten, u. a. auch eine
lens klarer theoretischer Konzepte und darauf Version für türkischstämmige Kinder. Je nach
aufbauender empirischer Befunde allerdings interessierenden Kennwerten müssen hierfür
weitgehend impressionistisch. Zur psychologi- 30 bis 85 (im Mittel ca. 75) Minuten veran-
schen Bedeutung von Profilen bzw. Diskrepan- schlagt werden.
zen zwischen Indexwerten werden in den der-
zeit aktuellen Manualen weder Hinweise noch Die Grobgliederung des AID orientiert sich
empirische Evidenz präsentiert. Inwieweit der an der traditionellen Einteilung der Skalen des
Test über die Messung der allgemeinen Intelli- Wechsler-Tests in einen verbalen und einen
genz hinaus brauchbar ist, bleibt damit unklar. Handlungsteil. Die erste Aufgabengruppe, im

362
12.4 Intelligenztests

AID mit „Verbal-akustische Fähigkeiten“ be- gen, leichteren oder schwierigeren Aufgaben-
titelt, enthält die sechs Subtests „Alltagswis- block verzweigt. Für eine genaue Schätzung
sen“ (hier sind Wissensfragen zu beantwor- des Fähigkeitsniveaus kann anschließend zu
ten), „Angewandtes Rechnen“ (Textaufgaben einem weiteren Aufgabenblock verzweigt wer-
lösen), „Unmittelbares Reproduzieren – nu- den. Die Verzweigungen erfolgen dabei so,
merisch“ (Zahlennachsprechen), „Synonyme dass die Aufgabenblöcke maximal informa-
Finden“, „Funktionen Abstrahieren“ (Benen- tiv über die Fähigkeitsausprägung sind. Schät-
nen der wesentlichen gemeinsamen Funktion zungen dieser Ausprägungen werden aus dem
zweier vorgegebener Objekte) sowie „Sozia- Lösungsmuster nach ein oder zwei Verzwei-
les Erfassen und sachliches Reflektieren“ (ge- gungen gewonnen. Diese Schätzungen lassen
prüft wird, inwieweit dem Kind gesellschaft- sich in skalenspezifische T-Werte transformie-
liche Zusammenhänge und sozial angepasste ren, die mehrheitlich sehr gute Reliabilitäten
Verhaltensweisen geläufig sind). Die zweite (größer als .90) erreichen.
Aufgabengruppe, „Manuell-visuelle Fähigkei-
Für die Charakterisierung intellektueller Leis-
ten“, besteht aus den sechs Untertests „Reali-
tungen favorisieren die Autoren eine Betrach-
tätssicherheit“ (fehlende Details in Bildern er-
tung des Leistungsprofils in allen Untertests,
kennen), „Soziale und sachliche Folgerichtig-
die über spezifische Stärken und Schwächen
keit“ (Bilder ordnen), „Kodieren und Assoziie-
eines Kindes in verschiedenen Fähigkeitsbe-
ren“ (Zuordnen von Objekten, z. B. Stuhl, Re-
reichen Auskunft geben soll. Dies entspricht
genschirm zu Symbolen), „Antizipieren und
der „pragmatischen“ Konzeption des Tests als
Kombinieren – figural“ (Bildteile zusammen-
„Hilfe für das Kind“ (vgl. Holocher-Ertl & Ku-
setzen), „Analysieren und Synthetisieren – ab-
binger, 2009). Gegen die Berechnung eines
strakt“ (mit Hilfe farbiger Würfel sollen vorge-
Gesamt-IQ bringen sie Vorbehalte ein. Ihre
gebene geometrische Muster nachgelegt wer-
Ablehnung eines über alle Tests gemittelten In-
den) und „Formale Folgerichtigkeit“ (eine Rei-
telligenzwerts begründen die Autoren mit dem
he geometrischer Figuren ist zu ergänzen).
Hinweis, dass Kompensationsmöglichkeiten
Hinzu treten fünf Zusatztests, von denen drei
zwischen verschiedenen intellektuellen Fähig-
auf das Einprägen und Erinnern von Materi-
keiten, z. B. verbalen und numerischen, im All-
al fokussieren (Unmittelbares Reproduzieren
gemeinen nicht gegeben seien, eine sinnvolle
– figural/abstrakt, Einprägen durch Wiederho-
Mittelung solche Kompensationsmöglichkei-
lung – lexikalisch, Lernen und langfristiges
ten aber voraussetze.
Merken – figural/räumlich, Antonyme Finden,
Strukturieren – visumotorisch). Dennoch werden auch im AID globale Kenn-
werte angeboten, wobei wiederum neue Wege
Zwei zentrale Innovationen betreffen die Ska- beschritten werden. Für die globale Beschrei-
lenkonstruktion und die Itemvorgabe. Die bung der Intelligenz wird nicht, wie in anderen
meisten Untertests des AID sind nach Prinzipi- Tests, über die Subskalen aggregiert, vielmehr
en des Rasch-Modells konstruiert worden, be- wird das Leistungsminimum und -maximum,
sitzen also eine messtechnisch sehr hohe Qua- das ein Kind in den Untertests erreicht, her-
lität. Die Itemvorgabe ist adaptiv (I Kap. 6.7). angezogen. Das Leistungsminimum – Intel-
Realisiert wurde dabei das sog. branched tes- ligenzquantität genannt – wird als kognitive
ting (verzweigte Testen). Die Aufgaben der Mindestfähigkeit interpretiert, die Differenz
Untertests sind in Blöcken zu jeweils fünf zwischen Maximum und Minimum – also die
Aufgaben eingeteilt. Je nachdem, wie viele Spannweite der Subtestwerte – als Grad der
Aufgaben des Einstiegsblocks ein Kind löst, Differenziertheit des erfassten Fähigkeitsspek-
wird anschließend zu einem ähnlich schwieri- trums.

363
12 Fähigkeits- und Leistungstests

Uns erscheint diese Art einer globalen Kenn- Die Autoren scheinen nicht zu sehen, dass
zeichnung jedoch mehr Probleme aufzuwer- durch die übliche Art der Aggregierung dia-
fen als sie löst. Zunächst kann man in vielen gnostisch aufschlussreiche Konstruktindikato-
Alltagssituationen, die intelligentes Handeln ren gebildet werden können, die auf einem hö-
erfordern, ja durchaus Schwächen in einem heren Abstraktions- bzw. Generalitätsniveau
Bereich durch Stärken in einem anderen Be- angesiedelt sind (I Kap. 3 und folgender Ab-
reich ausgleichen. Derartige Kompensations- schnitt). Dies ist erstaunlich, da die Autoren
möglichkeiten sind bereits bei relativ einfach selbst Faktorenanalysen ihrer Skalen durch-
strukturierten kognitiven Aufgaben nachge- führen, die resultierenden Ergebnisse jedoch
wiesen worden, die sich mit unterschiedlichen nicht systematisch weiter verwenden. Immer-
Strategien angehen und lösen lassen. hin werden, gewissermaßen als Konzession
an die gängige Praxis, seit dem AID 2 auch
Zum Beispiel lassen sich kognitive Elemen-
Berechnungsmöglichkeiten für einen traditio-
taraufgaben, in denen möglichst schnell ent-
nellen globalen IQ-Score offeriert.
schieden werden soll, ob ein visuelles Muster
wie +∗ der Aussage „Kreuz über Stern“ ent- Die Validierung des AID umfasst Gruppenver-
spricht, sowohl visuell-anschaulich (hier wird gleiche, die Prüfung konvergenter und diskri-
die Aussage zunächst visuell kodiert und an- minanter Beziehungen der einzelnen Skalen
schließend mit dem Bild verglichen) als auch zu anderen Fähigkeits- und Leistungstests so-
verbal-logisch lösen (hier wird das Bild in ei- wie die Analyse von Zusammenhängen mit
ne verbale Repräsentation überführt und an- Persönlichkeitsinventaren (u. a. aus den Berei-
schließend mit der Aussage verglichen; siehe chen Angst und Attribution) und dem Erzie-
MacLeod, Hunt & Mathews, 1978). Dies gilt hungsverhalten. Darüber hinaus werden Kor-
umso mehr für komplexe und vielschichtige relationen mit Schulnoten berichtet. Auf eine
Alltagsprobleme, die häufig mit ganz unter- empirische Validierung der beiden vorgeschla-
schiedlichen Strategien bewältigt werden kön- genen globalen Kennwerte (Intelligenzquanti-
nen. tät und -spannweite) verzichten die Autoren.
Problematischer erscheinen jedoch drei weite- Insgesamt stellt der AID eine messtechnisch
re Sachverhalte: Erstens wird mit den Kenn- interessante Weiterentwicklung des Wechsler-
werten ein Kind, das viele überdurchschnittli- Tests dar. Mitimportiert wurde dabei allerdings
che Leistungen (etwa T = 60) und einen einzel- die im Wesentlichen atheoretische Konzeption
nen „Einbruch“ (T = 40) aufweist, in gleicher des Vorbilds. Der Anspruch des Tests, spezifi-
Weise behandelt wie ein Kind, das viele un- sche diagnostische Aussagen auf der Basis des
terdurchschnittliche Leistungen (T = 40) und Leistungsprofils einer Person zu ermöglichen,
nur eine Spitze (T = 60) manifestiert. Zwei- bedarf noch erheblicher Forschungsbemühun-
tens bedeuten die Kennwerte bei Kindern mit gen (vgl. Renner, Baur & Lischke, 2003). Hier-
verschiedenen Schwächen und Stärken Unter- für müssten besonders die Möglichkeiten von
schiedliches: Die Intelligenzquantität z. B. re- Faktorenanalysen (oder mehrdimensionalen
flektiert bei einem Kind die Leistung im ange- Item-Response-Modellen) stärker genutzt wer-
wandten Rechnen, beim anderen die Leistung den. Bevor die vorgeschlagen Kennwerte der
beim Einprägen von Information. Drittens lie- Intelligenzquantität und -spannweite überzeu-
gen die Reliabilitäten der globalen Werte in gen können, müssen empirische Belege für de-
einem Bereich, der konventionellerweise als ren Aussagekraft – insbesondere auch hinsicht-
inakzeptabel bezeichnet wird (für die Quanti- lich der inkrementellen Validität gegenüber
tät z. B. beträgt die Reliabilität .63; Kubinger konventionellen Aggregatwerten – erbracht
& Wurst, 1998). werden.

364
12.4 Intelligenztests

12.4.3 Berliner operativen und inhaltlichen Merkmalen (vgl.


Intelligenzstruktur-Test Guilford & Hoepfner, 1971).

Die operative Modalität beinhaltet vier Fähig-


Im Unterschied zum Wechsler-Test und keitskonstrukte: Verarbeitungskapazität (Be-
zum AID handelt es sich beim Berliner ziehungen stiften, logisches Denken, sachge-
Intelligenzstruktur-Test (BIS-Test; Jäger et al., rechtes Beurteilen von Information bei kom-
1997) um einen Gruppentest, der zur Intelli- plexen Aufgaben), Einfallsreichtum (flexible
genzdiagnostik bei Jugendlichen und Erwach- Ideenproduktion, Vorstellungsreichtum, Se-
senen eingesetzt werden kann. Der BIS-Test, hen verschiedener Seiten von Sachverhalten),
von dem auch eine Version für hochbegabte Merkfähigkeit (Einprägen, kurzfristiges Wie-
Kinder und Jungendliche vorliegt (BIS-HB; Jä- dererkennen oder Reproduzieren von Informa-
ger et al., 2006), erlaubt mit seinen insgesamt tion) und Bearbeitungsgeschwindigkeit (Tem-
45 unterschiedlichen Aufgabentypen eine sehr po und Konzentriertheit beim Lösen einfa-
umfassende und differenzierte Bestimmung cher Aufgaben). Auf der Seite der inhaltli-
intellektueller Fähigkeiten. Bei der Auswahl chen Modalität werden verbale (sprachliche),
und Zusammenstellung der Aufgaben versuch- numerische (zahlengebundene) und figural-
ten die Autoren, ein möglichst repräsentati- bildhafte (anschauungsgebundene, räumlich-
ves Spektrum an Anforderungen abzudecken. visuelle) Fähigkeiten differenziert. Die rauten-
Hierfür wurden mehr als 2000 Aufgabenty- förmige Anordnung in I Abb. 12.2 deutet an,
pen, die in der Forschung zur Intelligenz bis- dass es sich hier jeweils um korrelierte Kom-
lang verwendet wurden, gesichtet. Die Erfas- ponenten der Intelligenz handeln soll.
sung einer großen Bandbreite intellektueller
Leistungen bedingt eine relative lange Bear- Dem Modell zufolge unterscheiden sich die
beitungszeit: Für die Durchführung des BIS- beiden Ebenen lediglich im Grad der Diffe-
Test werden insgesamt 150 Minuten benötigt; renzierung, mit der der jeweils gleiche Gegen-
in dieser Zeit sind zwei zehnminütige Pausen standsbereich betrachtet wird. Die allgemei-
enthalten. ne Intelligenz nimmt man gewissermaßen bei
Betrachtung aus großer Distanz (mit geringer
Der BIS-Test wurde auf der Basis des Berli- Auflösung) wahr, die spezifischeren Fähigkei-
ner Intelligenzstrukturmodells (Jäger, 1984) ten bei Betrachtung aus geringerer Distanz
entwickelt. Die Kernannahmen des Modells (mit höherer Auflösung). Das Modell ist expli-
besagen, (a) dass an Intelligenzleistungen al- zit offen für die Einführung weiterer Ebenen
le intellektuellen Fähigkeiten beteiligt sind, und weiterer Fähigkeitsmerkmale innerhalb
allerdings je nach Aufgabe mit unterschiedli- der Ebenen.
chem Gewicht. Diese Fähigkeiten lassen sich
(b) auf diversen Generalitäts- bzw. Abstrakti- Kreuzklassifiziert man die beiden Modalitä-
onsebenen betrachten und (c) nach verschiede- ten, wie dies in I Abb. 12.2 angedeutet ist,
nen Aspekten ordnen. erhält man zwölf Zellen, die spezifische Kom-
binationen operativer und inhaltlicher Merk-
Im BIS-Test werden dabei zwei Ebenen fokus- male repräsentieren. Im BIS-Test wird jede
siert, die in I Abb. 12.2 illustriert sind. Die der zwölf Zellen mit drei bis fünf Aufgabenty-
erste Ebene entspricht der allgemeinen Intel- pen besetzt. Entsprechend werden die sieben
ligenz (g). Die zweite Ebene umfasst sieben Fähigkeiten der zweiten Ebene mit neun bis
relativ weite Fähigkeiten, die nach zwei Ord- 15 Aufgabenarten erfasst. Für jede operative
nungsgesichtspunkten, im Modell Modalitäten Fähigkeit wird dabei über verbale, numerische
genannt, klassifiziert werden, nämlich nach und figural-bildhafte Aufgaben aggregiert, für

365
12 Fähigkeits- und Leistungstests

Allgemeine Intelligenz

Operationen

Bearbeitungs-
Inhalte
geschwindigkeit
Figural- Merkfähigkeit
bildhaft
Abb. 12.2 Einfallsreichtum
Berliner Verbal
Intelligenzstrukturmodell
Numerisch
(nach Jäger et. al., 1997, Verarbeitungs-
S. 5) kapazität

jede inhaltsgebundene Fähigkeit über Aufga- Betrachten wir zur Veranschaulichung die Be-
ben zur Erfassung der Verarbeitungskapazi- stimmung der Operationskomponente „Ver-
tät, des Einfallsreichtums, der Merkfähigkeit arbeitungskapazität“. Für deren Bestimmung
und der Bearbeitungsgeschwindigkeit. Die Be- werden im BIS-Test insgesamt 15 Untertest-
stimmung der allgemeinen Intelligenz erfolgt werte herangezogen. Hierbei handelt es sich
durch Aggregierung der Leistungen in allen um jeweils fünf Subtests mit
45 Aufgabentypen.
• figuralen (z. B. figurale Analogien),
Die zugrunde liegende Idee ist dabei, dass je- • verbalen (z. B. Wortanalogien) und
der Aufgabentyp drei Merkmale indiziert: ne- • numerischen (z. B. Zahlenreihen)
ben der allgemeinen Intelligenz nämlich je-
weils eine operative Fähigkeit und eine inhalt- Aufgaben. Durch Aggregation über diese drei
liche Fähigkeit. So äußert sich z. B. in der Lö- inhaltlich variierenden, aber operativ homoge-
sung von Zahlenreihenaufgaben die allgemei- nen Aufgabenklassen wird die inhaltsgebunde-
ne Intelligenz, die Verarbeitungskapazität und ne Varianz ausbalanciert, so dass ein inhaltsun-
die numerische Fähigkeit. Durch Aggregation abhängiges Maß der allen Aufgaben gemeinsa-
werden nun jeweils nichtintendierte Varian- men operativen Komponente gewonnen wird.
zanteile unterdrückt bzw. ausbalanciert und
intendierte Varianzanteile fokussiert bzw. her- In ganz analoger Weise wird bei der Be-
vorgehoben. Bei der Bestimmung der operati- stimmung der inhaltlichen Fähigkeitsaspekte
ven Fähigkeiten werden die inhaltlichen Vari- verfahren. Für die Bestimmung figuraler Fä-
anzanteile ausbalanciert, bei der Bestimmung higkeiten etwa wird über figurale Aufgaben
der inhaltsgebundenen Fähigkeiten die opera- zur Bearbeitungsgeschwindigkeit (z. B. mög-
tiven Varianzanteile. lichst rasch einen bestimmten Buchstaben in

366
12.4 Intelligenztests

einer Buchstabenfolge durchstreichen), Ge- mathematischer Operationen ein bestimm-


dächtnis (z. B. einen in einem Stadtplanaus- tes Resultat erbringen).
schnitt eingezeichneten Weg einprägen und
Mit der im BIS-Test realisierten Form der
danach reproduzieren), Einfallsreichtum (z. B.
möglichst viele graphische Embleme für ei- Aggregierung wird absichtlich eine gewis-
ne Anzeige eines kleinen Ladens entwerfen) se (allerdings begrenzte) Heterogenität der
und Verarbeitungskapazität (figurale Analogi- Operations- und Inhaltsskalen in Kauf genom-
en) aggregiert. men, die jedoch deren Validität steigern soll.
Dieses Verfahren dürfte nicht nur in der Fä-
Ein besonderes Merkmal des BIS-Tests liegt higkeitsdomäne, sondern auch in anderen dia-
in dem Versuch, bestimmte Aspekte der Krea- gnostischen Bereichen vielversprechend sein,
tivität mitzuerfassen. Tatsächlich beinhalten obwohl dessen testtheoretische Grundlage bis-
die meisten gängigen Intelligenztests allein lang noch nicht befriedigend ausgearbeitet ist.
oder vorwiegend Aufgaben zum konvergenten Trotz des Konstruktionsprinzips erreichen die
Denken. Konvergentes („auf einen Punkt zu- sieben Skalen mit Werten um .80 zufrieden-
laufendes“) Denken manifestiert sich in Auf- stellende interne Konsistenzen; die Konsistenz
gaben, die nur eine korrekte oder bestmögliche der Gesamtskala beträgt .89.
Lösung und im Allgemeinen nur einen optima- Die umfangreichen Analysen zur Binnenstruk-
len Lösungsweg aufweisen. Kreative Leistun- tur des Verfahrens belegen die Übereinstim-
gen erfordern dagegen divergentes („in unter- mung der Teststruktur mit den zugrunde lie-
schiedliche Richtungen verlaufendes“) Den- genden Modellannahmen. Im Manual werden
ken. Geeignete Aufgaben besitzen daher meh- darüber hinaus eine Reihe von Untersuchun-
rere, eventuell ganz unterschiedliche, gleich gen über Zusammenhänge mit grundwissen-
gute Lösungen, die auf unterschiedlichen We- schaftlich interessierenden Konstrukten, etwa
gen erreichbar sind. zum Arbeitsgedächtnis oder komplexen Pro-
Im BIS-Test wird versucht, einen Aspekt krea- blemlösen referiert. Zur Abschätzung der Kri-
tiver Leistungen, nämlich den Einfallsreich- teriumsvalidität wurden u. a. Zusammenhän-
tum (Flüssigkeit), anhand verbaler, figuraler ge mit Schulnoten geprüft. Für naturwissen-
und numerischer Aufgaben zu erfassen. Bei- schaftliche Fächer erwiesen sich dabei Verar-
spieltests hierfür sind beitungskapazität und numerische Fähigkei-
ten als beste Prädiktoren (r zwischen .40 und
• „Anwendungsmöglichkeiten“ (ein verbaler .60), für sprachliche Fächer verbale Fähigkei-
Test: innerhalb einer begrenzten Zeitspanne ten. Die Korrelationen mit Einfallsreichtum
sollen möglichst viele Verwendungsmög- fielen gering aus.
lichkeiten für ein gegebenes Objekt genannt Insgesamt stellt der BIS, was seine theoreti-
werden), sche Fundierung, Konstruktion und Gliede-
• „Objekt-Gestaltung“ (ein figuraler Test: vor- rung betrifft, ein international einzigartiges
gegebene geometrische Figuren sind zeich- und für die weitere Forschung wegweisendes
nerisch so zu kombinieren, dass möglichst Verfahren dar. Defizite bestehen noch hinsicht-
viele verschiedene reale Objekte entstehen) lich der Validierung im Hinblick auf externe
und Kriterien. Auch die Normierung an einer re-
• „Divergentes Rechnen“ (ein numerischer präsentativen Stichprobe steht noch aus.
Test: es sollten möglichst viele verschiedene
Kombinationen von Zahlen gefunden wer-
den, die nach einer vorgegebenen Abfolge

367
12 Fähigkeits- und Leistungstests

Schlussfolgerndes
Denken

Verbal Numerisch Figural

Wissen

Merk-
fähigkeit

Verbal Numerisch Figural

Verbal Figural

Abb. 12.3 Testkonzeption des I-S-T 2000 R.

12.4.4 Intelligenz-Struktur-Test übernehmen die Autoren ein zentrales Bestim-


mungsstück der Theorie von Horn und Cattell
Der Intelligenz-Struktur-Test (I-S-T bzw. I-S- (1966).
T 70; Amthauer, 1955, 1973) gehört zu den
im deutschen Sprachraum am häufigsten ein- Der Test enthält insgesamt 14 Aufgabengrup-
gesetzten Intelligenztests. Wie beim BIS-Test pen, die der Erfassung der Intelligenz auf zwei
handelt es sich um ein Gruppenverfahren, das Generalitäts- bzw. Hierarchie-Ebenen dienen
zur Intelligenzdiagnostik bei Jugendlichen und (siehe I Abb. 12.3). Auf der unteren Ebene
Erwachsenen verwendet werden kann. Bei der werden Fähigkeitsaspekte nach Inhaltsberei-
Konzeption des Tests orientierte sich Amthau- chen gegliedert. Wie beim BIS-Test wird hier
er an Thurstones Primärfaktoren-Modell. In zwischen verbalen, numerischen und figuralen
der derzeit aktuellen Version des Verfahrens Fähigkeiten differenziert. Auf der übergeord-
(I-S-T 2000 R; Liepmann, Beauducel, Bro- neten zweiten Ebene wird zwischen schlussfol-
cke & Amthauer, 2007), die wir im Folgenden gerndem Denken und Wissen unterschieden.
darstellen, wurde der Versuch unternommen, Eine dritte Aufgabengruppe dient der Mes-
Anschluss an neuere Intelligenzmodelle zu ge- sung der Merkfähigkeit. Hierfür sind ledig-
winnen. Insbesondere soll das Verfahren nun lich verbale und figurale Aufgaben vorgesehen.
separate Indikatoren für fluide und kristallisier- Die einzelnen Subtests sind in I Tab. 12.4
te Intelligenz liefern. Mit diesen Konzepten beschrieben. Das Verfahren kann in verschie-

368
12.4 Intelligenztests

Tab. 12.4 Aufgabengruppen des I-S-T 2000 R

Skala Beschreibung, Beispiel


Schlussfolgerndes Denken
Verbal
Satzergänzungen Sätze um ein fehlendes Wort ergänzen
Das Gegenteil von Hoffnung ist ...?
Analogien eine Relation zwischen zwei Begriffen erkennen und auf einen
dritten Begriff übertragen
dunkel : hell = nass : ?
Gemeinsamkeiten aus einer Reihe von Wörtern die beiden herausfinden, die einen
gemeinsamen Oberbegriff besitzen
Messer Butter Zeitung Brot Zigarre Armband
Numerisch
Rechenaufgaben Grundrechenarten, Gleichungen, Wurzel ziehen usw.
60 − 10 = A, A=?
Zahlenreihen Regelmäßigkeiten in Zahlenfolgen erkennen
2 4 6 8 10 12 14 ?
Rechenzeichen fehlende Rechenzeichen in Gleichungen einsetzen
6?2?3=5
Figural
Figurenauswahl in mehrere Stücke zerschnittene Figuren den entsprechenden
ganzen Figuren zuordnen
Würfelaufgaben Würfel, auf deren Flächen verschiedene Muster abgebildet sind,
identischen Würfeln in veränderter Lage zuordnen
Matrizen Figuren werden in einer matrixförmigen Anordnung gezeigt, die
nach einer bestimmten Regel aufgebaut ist; ein fehlendes Element
der Matrix soll herausgefunden werden
Merkfähigkeit
Verbal Wörter und deren Zuordnung zu Oberbegriffen einprägen
Figural Figurenpaare einprägen
Wissen Fragen zu diversen Wissensgebieten beantworten; verbal: z. B.
Autor eines Buches nennen; numerisch: Jahreszahl eines
historischen Ereignisses angeben; figural: Bedeutung eines
Symbols angeben

denen Varianten durchgeführt werden, die werden. Das vollständige Grundmodul bein-
unterschiedlich zeitaufwändig sind. Die sog. haltet zusätzlich die Merkaufgaben, für die
Grundmodul-Kurzform umfasst lediglich die weitere 20 Minuten zu veranschlagen sind. Bei
Aufgaben zum schlussfolgernden Denken, für Einbeziehung der Wissenstests, die das Erwei-
deren Durchführung etwa 90 Minuten benötigt terungsmodul ausmachen, steigt die Zeit für

369
12 Fähigkeits- und Leistungstests

die Durchführung des gesamten Verfahrens zelskalen zum schlussfolgernden Denken und
auf 2 Stunden und 30 Minuten. Wissen in jeweils spezifischer Gewichtung ein.
Die Autoren favorisieren eine Heranziehung
Anhand der Grundmodul-Kurzform lassen
dieser Faktorwerte für die Intelligenzdiagno-
sich die Ausprägungen der verbalen, nume-
stik. Sie argumentieren, dass Aufgaben zum
rischen und figuralen Intelligenz im Rahmen
schlussfolgernden Denken, mit denen die flui-
des schlussfolgernden Denkens erfassen. Auf
de Intelligenz erfasst werden soll, meist auch
der Grundlage dieser Werte kann zusätzlich
Wissensanforderungen enthalten und daher
ein Gesamtwert für schlussfolgerndes Denken
teilweise von der kristallisierten Intelligenz ab-
gebildet werden, der von den inhaltsspezifi-
hängen (Amthauer et al., 2001, S. 64). Umge-
schen Aspekten der Subskalen frei ist. Die-
kehrt erfordern Wissensaufgaben immer auch
ser Gesamtwert soll primär die Fähigkeit zum
ein gewisses Minimum an schlussfolgerndem
formal-logischen induktiven und deduktiven
Denken, also fluide Intelligenz. Mit der statis-
Denken reflektieren. Die Skala Merkfähigkeit
tischen Kontrolle von Wissensanteilen beim
des vollständigen Grundmoduls liefert Infor-
Lösen von Aufgaben zum schlussfolgernden
mation über die Fähigkeit zum aktiven Ein-
Denken und Anteilen schlussfolgernden Den-
prägen und kurzfristigen Wiedererkennen von
kens beim Lösen von Wissensaufgaben ver-
Sachverhalten. Mit Hilfe des Erweiterungs-
binden die Autoren die Hoffnung, reinere Indi-
moduls lassen sich Werte für verbales, nume-
katoren der fluiden und kristallisierten Intelli-
risches und figurales Wissen gewinnen. Wie
genz zu gewinnen als mit den Ausgangsskalen.
beim Grundmodul können die Ergebnisse zu
Insbesondere soll der Schätzwert für fluide In-
einem Gesamtwert „Wissen“ integriert wer-
telligenz Fähigkeitskomponenten erfassen, die
den. Damit liefert der vollständige Test neun
in geringerem Maße von Sozialisationseinflüs-
Kennwerte zur Beschreibung der Intelligenz.
sen abhängig sind als die Werte für schlussfol-
Auf die Berechnung eines g-Werts wird hier
gerndes Denken. Dieser Kennwert wird daher
verzichtet.
besonders für die Diagnose des Entwicklungs-
potenzials einer Person empfohlen.
Darüber hinaus ist es möglich, Schätzwerte
für die Ausprägung der fluiden und kristalli- Die Reliabilitäten der Skalen erreichen Werte
sierten Intelligenz zu berechnen. Die Indika- zwischen .87 und .96, fallen also sehr hoch aus.
toren basieren auf den Aufgaben zum schluss- Mit Hilfe von Faktorenanalysen und anderen
folgernden Denken und Wissen, erfordern al- dimensionsanalytischen Verfahren konnte die
so die Bearbeitung des Grund- und des Er- angenommene Teststruktur untermauert wer-
weiterungsmoduls. Fluide Intelligenz wird be- den. Weitere Validitätshinweise betreffen u. a.
stimmt, indem aus den Werten zum schlussfol- niedrige Korrelationen des schlussfolgernden
gernden Denken Varianzanteile, die auf Wis- Denkens mit Konzentrationsleistungen (um
sensunterschiede zurückgehen, statistisch her- .20), was die Autoren als Hinweis auf diskri-
ausgenommen (auspartialisiert) werden. Ganz minante Validität werten. Korrelationen zwi-
analog wird die kristallisierte Intelligenz be- schen schlussfolgerndem Denken und anderen
stimmt, indem aus den Wissenswerten Varian- Intelligenztests, die das gleiche Konstrukt er-
zanteile, die auf schlussfolgerndes Denken zu- fassen sollen, betragen ca. .65. Schlussfolgern-
rückgehen, auspartialisiert werden. Technisch des Denken korreliert im mittleren Bereich
geschieht dies durch Schätzung von Faktor- mit Schulnoten in Mathematik und naturwis-
werten, die im Manual als „schlussfolgerndes senschaftlichen Fächern (um −.40), dagegen
Denken/gf“ bzw. „Wissen/gc“ angesprochen relativ niedrig mit den Noten in Deutsch und
werden. In diese Faktorwerte gehen die Ein- Englisch (um −.12). Für verbale Fähigkeiten

370
12.4 Intelligenztests

sind die Zusammenhänge etwas enger, wenn die fluide Intelligenzkomponente besser abbil-
auch geringer als zu erwarten (um −.22). Die den sollen.
Kennwerte für fluide Intelligenz weisen ein
ähnliches Korrelationsmuster auf wie die zum Ein Klassiker in diesem Bereich sind die von
schlussfolgernden Denken. Kristallisierte In- Raven (1938) konstruierten Matrizenaufga-
telligenz dagegen korreliert primär mit ande- ben (vgl. Raven, Raven & Court, 2000). Wie
ren Wissenstests (um .60) und Noten in Schul- in I Abb. 12.4 gezeigt, werden in dem Test
fächern wie Geschichte oder Erdkunde (um visuelle Elemente in einer Matrixanordnung
−.35). dargeboten, wobei ein Feld freigelassen wird.
Die Probanden müssen das Konstruktionsprin-
Insgesamt handelt es sich um eine vielver- zip der Matrix erkennen und dasjenige Ele-
sprechende Weiterentwicklung eines im deut- ment, das nach logischen Gesichtspunkten in
schen Sprachraum gut etablierten Gruppenver- das freie Feld gehört, aus einer von mehreren
fahrens zur Intelligenzbestimmung. Dennoch vorgegebenen Möglichkeiten auswählen. Die
haben Rezensenten auf eine Reihe kritischer Raven-Tests, die nach ihrem Konstruktions-
Punkte aufmerksam gemacht. Kersting (2000) prinzip „Progressive Matrizen“ genannt wer-
und Schmidt-Atzert (2002) weisen auf die teil- den, wurden mit der Zielsetzung konzipiert,
weise nicht ganz überzeugende theoretische eine relative reine Erfassung von Spearmans g-
Begründung des zugrunde gelegten Modells Faktor zu ermöglichen. Im Unterschied zu den
hin. So bleibt etwa unklar, warum fluide und oben behandelten Verfahren liefern sie daher
kristallisierte Intelligenz allein über Aufgaben nur einen Kennwert.
zum schlussfolgernden Denken und zum Wis-
sen operationalisiert werden. Generell weisen Die Raven-Tests liegen in unterschiedlichen
Validitätsbelege für das Verfahren noch eini- Schwierigkeitsvarianten vor. Neben der Stan-
ge Lücken auf, was in erster Linie die dis- dardform (Standard Progressive Matrices,
kriminante Validität und hier besonders die SPM; Heller, Kratzmeier & Lengfelder, 1998a;
Bereiche Wissen und Merkfähigkeit betrifft Horn, 2009) wurde eine Form für jüngere Kin-
(Schmidt-Atzert & Rauch, 2008). Auch em- der und Personen mit unterdurchschnittlichen
pirische Belege für den diagnostischen Nut- Fähigkeiten (Coloured Progressive Matrices,
zen der Faktorwerte zur Bestimmung der flui- CPM; Bulheller & Häcker, 2002; die Elemente
den und kristallisierten Intelligenz stehen noch sind hier farbig gestaltet) sowie eine Form für
aus. Personen mit überdurchschnittlichen Fähigkei-
ten (Advanced Progressive Matrices, APM;
Bulheller & Häcker, 1998; Heller, Kratzmeier
& Lengfelder, 1998b) konstruiert.
12.4.5 Nonverbale Tests
Die Standardform besteht aus fünf Aufga-
bensets zu je zwölf Aufgaben. Die Komplexi-
In vielen Intelligenztests werden Aufgaben tät der Anforderungen nimmt dabei über die
verwendet, in denen sprachliche und bildungs- Sets zu. Für die Lösung der Aufgaben des
abhängige Inhalte im Vordergrund stehen. Sol- ersten Sets genügen z. B. visuelle Vergleiche,
che Aufgaben erfassen primär die kristallisier- da die Vorlage hier aus einem durchgehenden
te Intelligenz. Es wurde argumentiert, dass Per- Muster besteht. Für die Lösung der anderen
sonen, deren Umwelt nur geringe Lern- und Aufgabengruppen sind zunehmend komple-
Bildungsmöglichkeiten bietet, in derartigen xere induktive Strategien erforderlich. Auch
Tests benachteiligt werden. Aus diesem Grund innerhalb der einzelnen Sets sind die Aufga-
wurden nonverbale Tests konstruiert, welche ben (zumindest ungefähr) nach Schwierigkeit

371
12 Fähigkeits- und Leistungstests

Abb. 12.4
Beispiel für eine Matrizenaufgabe. (Nach
Lohman, 2000, S. 286, Abbildung 14.1.)

geordnet. Die SPM wurden ursprünglich als auch visuell-anschauliche Fähigkeiten reflek-
reine Powertests durchgeführt, also ohne Zeit- tieren, was die Art der verwendeten Aufgaben
begrenzung vorgegeben. Heute legt man im bereits nahelegt. Carpenter et al. (1990) leg-
Allgemeinen eine Obergrenze von 45 Minuten ten eine umfassende empirische Analyse der
fest, was es den meisten Personen erlaubt, den Aufgabenanforderungen vor. Sie kommen zu
Test ohne Zeitdruck abzuschließen (Heller et der Schlussfolgerung, dass die Raven-Tests
al., 1998a). zwei Dimensionen erfassen: (a) die Fähigkeit,
Regeln auf der Basis von Ähnlichkeiten und
Reliabilitätskennwerte, die im Rahmen der Unterschieden zwischen Elementen zu abstra-
deutschen Normierung für Schüler und Stu- hieren; (b) die Fähigkeit, eine Aufgabe in Teil-
dierende durch Heller et al. (1998a) bestimmt probleme zu zerlegen, die sukzessive abgear-
wurden, fallen überwiegend gut aus (um .85, beitet werden können. Die Formulierung und
in einigen Stichproben sogar deutlich höher). das Abarbeiten von Teilproblemen stellt An-
Auch die Stabilität (Zeitabstand 3 Monate) ist forderungen an das Arbeitsgedächtnis, da eine
mit Werten um .90 hoch. Angaben zur Vali- Hierarchie aus Zielen und Unterzielen gebil-
dität betreffen konvergente Beziehungen zu det und präsent gehalten werden muss. Über-
anderen Fähigkeitstests und Zusammenhänge dies müssen die Resultate von Teilschritten
mit schulischen Leistungen. Für letztere wer- gespeichert und aufeinander sowie auf die Zie-
den die höchsten Korrelationen mit der Mathe- le bezogen werden.
matiknote berichtet (.40). Die Korrelationen
mit sprachlichen Fächern fallen erwartungsge- Diagnostisch wichtige Anwendungsmöglich-
mäß niedriger aus. keiten bieten Taxonomien der Aufgabenanfor-
derungen (Hornke & Habon, 1984; Hornke,
Matrizenaufgaben gelten als gutes Maß für g Küppers & Etzel, 2000; vgl. auch Carpenter,
und die fluide Intelligenz (Carroll, 1993). Die Just & Shell, 1990). In derartigen Taxonomien
Beiträge untergeordneter Faktoren sind dage- wird angegeben, welche kognitiven Operatio-
gen noch nicht ganz klar. Neben induktivem nen zur Lösung einer Aufgabe erforderlich
Denken dürften die Testwerte zu einem Teil sind. Sie erlauben es, Aufgaben mit a priori

372
12.4 Intelligenztests

spezifizierten Anforderungsmerkmalen zu ge- z. B. Neisser et al. 1996). Tatsächlich finden


nerieren. Die Perspektive der Forschung zu sich auch hier erhebliche Unterschiede in den
Aufgabentaxonomien ist es, Tests mit vorab durchschnittlichen Leistungen kulturell, eth-
festgelegter Schwierigkeit und Zuverlässigkeit nisch oder sozial definierter Gruppen, deren
automatisch erstellen zu können (Hornke et Grundlagen noch nicht aufgeklärt sind.
al., 2000). Derartige Überlegungen liegen z. B.
Bei der Anwendung des Tests ist dies beson-
dem von Formann, Waldherr und Piswanger
ders bei der Bewertung der Leistung erst kurz
(2011) vorgelegten Wiener Matrizen-Test-2 zu-
in Deutschland lebender ausländischer Kinder
grunde, einer auf der Basis des Rasch-Modells
zu beachten. Der Abstand zu muttersprach-
konstruierten Weiterentwicklung des Raven-
lich deutschen sowie ausländischen Kindern,
Tests.
die länger als zwei Jahre in Deutschland le-
Neben den Raven-Tests finden die von Cat- ben, beträgt mehr als eineinhalb Standard-
tell und Kollegen konzipierten „Culture fair“- abweichungen, ist also massiv (Heller et al.,
Intelligenztests breite Anwendung, die spezi- 1998a). Die Testergebnisse hängen deutlich
ell die Erfassung der fluiden Intelligenz inten- mit den Deutschkenntnissen der Kinder zu-
dieren, z. B. die Grundintelligenztest Skala 1 – sammen. Mit zunehmender Aufenthaltsdauer
Revision (CFT 1-R; Weiß & Osterland, 2012) verringern sich die Unterschiede zwischen den
für Kinder zwischen fünf und elf Jahren oder Gruppen jedoch.
die Grundintelligenztest Skala 2 – Revision
(CFT 20-R; Weiß, 2008) für Kinder und Ju-
gendliche zwischen acht und 19 Jahren. Diese 12.4.6 Interpretation von
Tests enthalten neben Matrizenaufgaben wei- Intelligenztestwerten
tere figurale Aufgaben zum schlussfolgernden
Denken, z. B. Reihen fortsetzen und Klassifi- Intelligenztests wurden zunächst für die Vor-
kationen. hersage des Erfolgs von Bildungsmaßnahmen
Die Raven-Tests und andere nonverbale Intelli- konstruiert. Dieses Kriterium sagen sie auch
genztests werden in der diagnostischen Praxis recht gut vorher (Jäger, 1986). Die Korrelatio-
häufig dann eingesetzt, wenn es um die Ab- nen mit den Noten in den Hauptfächern der
sicherung eines unterdurchschnittlichen Intel- Grundschule betragen etwa 0.50. Mit der Abi-
ligenzbefunds geht und der Verdacht besteht, turnote sind die gefundenen Zusammenhänge
dass hierfür mangelnde Lern- und Bildungs- etwas geringer (ca. 0.30), was dadurch erklärt
möglichkeiten mitverantwortlich sind. In die- werden kann, dass es sich hier um eine stärker
sem Fall wären deutliche Diskrepanzen zwi- selektierte Gruppe von Personen handelt. Für
schen einem verbalen Test (niedrige Werte) das im Erwachsenenalter erreichte höchste Bil-
und einem nonverbalen Test (höhere Werte) dungsniveau fallen die Zusammenhänge mit
zu erwarten (I Kap. 16). ca. 0.70 höher aus, da das Bildungsniveau eine
recht hoch aggregierte Variable darstellt (Asen-
Mit dem Einsatz nonverbaler Verfahren wurde dorpf & Neyer, 2012). Korrelationen ähnlicher
ursprünglich die Hoffnung verbunden, Schätz- Höhe (0.50 bis 0.70) finden sich für den be-
werte intellektueller Fähigkeiten zu erhalten, ruflichen Status, bestimmt über das mit einer
die unabhängig von Sprache, Kultur, Ethnie, Stellung verknüpfte soziale Prestige. Die Zu-
Nationalität oder sozialem Status sind. Man sammenhänge mit Erfolgsindikatoren inner-
hat solche Verfahren wie etwa beim CFT daher halb einer Berufssparte sind jedoch relativ ge-
auch mit dem Etikett „kultur-fair“ versehen. ring (zwischen 0.10 und 0.30). Berücksichtigt
Dieser Anspruch ist jedoch überzogen (siehe man die Reliabilitäts- und Validitätsdefizite

373
12 Fähigkeits- und Leistungstests

der Erfolgsindikatoren, lässt sich insgesamt sind allerdings meist sehr hoch miteinander
feststellen, dass sich substanzielle Korrelatio- korreliert. Dennoch können sich im Einzelfall
nen zeigen, solange unausgelesene Gruppen durchaus Diskrepanzen ergeben, die auf die
untersucht werden (siehe z. B. Ree, Earles & jeweils spezifische Auswahl und Zusammen-
Teachout, 1994; Schmidt & Hunter, 1998). Die stellung von Aufgaben zurückzuführen sind.
Höhe der Kovariation bietet jedoch einen wei-
Der „IQ“ ist, wie wir sahen, kein testunabhän-
ten Spielraum für andere Einflussgrößen. Das
giges Merkmal einer Person, sondern vielmehr
ist nicht erstaunlich, da Schul-, Studien- und
eine testabhängige Skala, auf der intellektuel-
Berufserfolg von zahlreichen nichtintellektu-
le Leistungen lokalisiert werden können. Die
ellen Faktoren abhängen.
für Laien vielleicht naheliegende gegenteili-
Die genannten Zusammenhänge können für ge Vermutung – der IQ ist ein testunabhängi-
globale Intelligenzwerte erwartet werden, die ges Merkmal wie Gewicht oder Körpergröße
auf umfangreicheren Testbatterien basieren. – hat zu dem Vorschlag geführt, auf den Be-
Hinsichtlich der Validität einzelner Skalen be- griff IQ ganz zu verzichten (z. B. Cronbach,
stehen bei vielen Verfahren Defizite. Dies be- 1990). Entsprechend werden in manchen neu-
trifft besonders deren diskriminante Validität en Intelligenztests andere Standardskalen ver-
im Hinblick auf spezifische Fähigkeitsberei- wendet. In jedem Fall ist die Abhängigkeit der
che, zu denen häufig keine aussagekräftigen Testresultate vom jeweils eingesetzten Verfah-
Untersuchungen vorliegen. Vor der Interpre- ren zu bedenken. Besonders wenn sprachliche
tation eines Intelligenzprofils muss im Ein- und bildungsabhängige Inhalte in einem Test
zelfall anhand der Angaben der Autoren im sehr deutlich vertreten sind, kann es sinnvoll
Manual oder weiterer einschlägiger Literatur sein, zur Prüfung unterdurchschnittlicher Er-
geprüft werden, inwieweit die Werte spezi- gebnisse ein weiteres, nonverbales Verfahren
fischer Skalen oder Diskrepanzen zwischen zu verwenden.
Werten verschiedener Skalen empirisch gesi-
Die von Fähigkeitstests zur Verfügung gestell-
cherte Aussagen zulassen. Keinesfalls sollte
ten Normen besitzen ein gewisses Verfallsda-
man sich hier allein auf die Benennungen der
tum. Wenn die Normwerte für eine diagnos-
Skalen stützen. Dies gilt umso mehr, als die
tische Entscheidung wichtig sind, ist es des-
Auswahl und Zusammenstellung der Aufga-
halb essenziell, auf die Verfügbarkeit mög-
ben oft primär historisch-praktisch oder prag-
lichst aktueller und repräsentativ gewonnener
matisch motiviert, aber nicht in einer Theorie
Normen zu achten. Die DIN 33430 zur Eig-
intellektueller Leistungen fundiert ist. Eine ge-
nungsdiagnostik (Kersting, 2008) verlangt ei-
naue inhaltliche Definition und Begründung
ne Prüfung der Normierung (und der anderen
der mit den Untertests abgedeckten Messberei-
essenziellen Gütekriterien) spätestens alle acht
che fehlt häufig. Was den letzten Punkt betrifft,
Jahre.1 Auch die exakte Einhaltung der in der
stellt der Berliner Intelligenz-Struktur-Test ei-
Eichstichprobe gegebenen Durchführungsbe-
ne der wenigen Ausnahmen dar.
dingungen ist in diesem Fall natürlich sehr
Was ist bei der Interpretation von Intelligenz- wichtig.
testergebnissen noch zu berücksichtigen? Zu-
nächst muss man sich vor Augen halten, dass Wie wir sahen, werden einige Tests (z. B.
verschiedene Intelligenztests Unterschiedli- der Wechsler-Test) im Einzelversuch durch-
ches messen, auch wenn sie mit gleichem oder geführt, während mit anderen Tests (z. B. IST
doch ähnlichem Geltungsanspruch auftreten. 2000 R) Gruppenuntersuchungen realisierbar
Die allgemeinen Intelligenzwerte, die man mit 1 Ein Überblick zu dieser Norm findet sich unter
umfangreicheren Testbatterien gewinnen kann, http://www.psychologie.de/ueber/gremien/din-33430/.

374
12.4 Intelligenztests

sind. Gruppenverfahren sind natürlich ökono- schwieriges Unterfangen (Weisberg, 1989).


mischer, evtl. auch objektiver als Einzeltests, Tatsächlich sind wesentliche Merkmale der
bei denen stets auch die Interaktion mit dem Kreativität – das Aufdecken von Problemen,
Testleiter eine gewisse Rolle für die Ergeb- das Finden überraschender Einsichten sowie
nisse spielen dürfte. Dafür bieten Einzeltests die Generierung origineller, aber brauchba-
größere Variationsmöglichkeiten hinsichtlich rer Lösungen – mit dem herkömmlichen Test-
des eingesetzten Materials. Darüber hinaus und Aufgabenformat wahrscheinlich nicht in
kann die Beobachtung des Probanden beim zufriedenstellender Weise messbar. Daher be-
Umgang mit einer herausfordernden Situa- schränken sich gängige Tests im Allgemeinen
tion diagnostisch wertvolle Information lie- auf den Ausschnitt divergenten Denkens, der
fern, die zur angemessenen Interpretation der noch am ehesten erfassbar ist, nämlich den der
Testresultate beiträgt. Besonders bei Tests mit Flüssigkeit, wie wir bei der Darstellung des
Kindern und Jugendlichen, von denen weit- BIS gesehen hatten. Wichtigere Aspekte wie
reichende Entscheidungen abhängen, ist eine Sensitivität für Probleme und offene Fragen,
Einzeltestung zu empfehlen oder sogar gebo- Originalität oder Flexibilität, werden nicht be-
ten, um mögliche ungünstige motivationale rücksichtigt. Dies ist insofern als Manko zu
und emotionale Einflüsse auf das Testergebnis bewerten, als Problemlösungen im Alltag zu-
angemessen beurteilen zu können (Woolfolk, meist konvergentes und divergentes Denken
2008). erfordern.
Gleiches gilt für praktische Fähigkeiten, die
sich in der Bewältigung von Alltagsproblemen
12.4.7 Probleme und manifestieren, die intelligentes Handeln erfor-
Perspektiven dern. Praktische Intelligenz involviert die ziel-
gerichtete Anpassung, Formung und Selektion
Intelligenztests fokussieren analytische Fähig- von Umwelten, die für das Leben einer Person
keiten (Neisser et al., 1996): Die zu bearbeiten- bedeutsam sind (Sternberg, 1986). Sternberg
den Probleme sind vorgegeben, klar definiert vermutet, dass praktische Fähigkeiten zu ei-
und besitzen genau eine korrekte Lösung. Vie- nem großen Teil auf implizitem, prozedura-
le Probleme, mit denen wir im Alltag konfron- lem Wissen („tacit knowledge“) basieren und
tiert werden, sind dagegen schlecht definiert, inzidentell (beiläufig, ohne Instruktion oder
erfordern aktive Informationssuche und besit- Lernabsicht) im Umgang mit bestimmten Auf-
zen eine Vielzahl akzeptabler Lösungen. Die gabenfeldern, die persönliche Relevanz besit-
hierbei relevanten kreativen und praktischen zen, aufgebaut werden (I Kap. 14).
Fähigkeiten werden in Intelligenztests nicht
Welche Einzelfähigkeiten der Intelligenz zuge-
oder allenfalls in kleinen Ausschnitten erfasst.
rechnet werden sollen, ist immer noch kontro-
Angeregt durch die Pionierarbeiten des Intel- vers. Besonders Gardner (1983, 1999) hat in
ligenzforschers Guilford (1950, 1967), gab neuerer Zeit sehr nachhaltig für eine Erwei-
es eine Reihe von Versuchen, auch kreati- terung des traditionellen Intelligenzbegriffs
ve Leistungen, die divergentes Denken er- plädiert. Gardner spricht von multiplen Intel-
fordern, über Testverfahren zu bestimmen. ligenzen, nicht von der Intelligenz. Er argu-
I Tab. 12.5 listet einige der von Guilford be- mentiert, dass die bisherige Forschung, die
schriebenen Facetten des divergenten Denkens vor allem um logisch-mathematisches Denken,
zusammen mit zugehörigen Operationalisie- räumliches Vorstellungsvermögen und sprach-
rungsvorschlägen auf. Die Konstruktion geeig- liche Fähigkeiten kreist, eine Reihe eben-
neter Testverfahren erwies sich als ein sehr so wichtiger Intelligenzmerkmale fast voll-

375
12 Fähigkeits- und Leistungstests

Tab. 12.5 Facetten des divergenten Denkens (der Kreativität) nach Guilford

Aspekte Faktoren Tests


Flüssigkeit Figurale Flüssigkeit Aus einer einfachen, mehrmals
wiederholten Figur (z. B. Kreis)
verschiedene Gebilde herstellen.
Wortflüssigkeit Aus Vier-Wort-Kombinationen, bei
denen für jedes Wort nur der
Anfangsbuchstabe gegeben ist,
verschiedene Sätze bilden.
Gedankenflüssigkeit Verschiedene
Anwendungsmöglichkeiten eines
Alltagsgegenstands aufzählen.
Assoziationsflüssigkeit Für vorgegebene Wörter Synonyme
finden.
Ausdrucksflüssigkeit Mehrere Sätze schreiben, von denen
jeder vier bestimmte Wörter enthalten
muss.

Flexibilität Spontane Flexibilität Unübliche Verwendungsmöglichkeiten


von Alltagsgegenständen finden.
Adaptive Flexibilität Aus Streichhölzern wird eine Anzahl
(Originalität) aneinander grenzender Quadrate oder
Dreiecke gelegt. Nun soll eine
bestimmte Zahl von Streichhölzern
fortgenommen werden, damit eine
definierte Anzahl von Dreiecken oder
Quadraten übrig bleibt. Kein Streichholz
darf einzeln liegen bleiben.

Elaboration Figurale Elaboration Gegeben sind Möbel in Umrissskizzen.


Dekorative Linien und Markierungen
sind hinzuzufügen.
Semantische Elaboration Gegeben ist eine Arbeitsskizze. Sie ist
mit Einzelheiten so zu vervollständigen,
dass danach gearbeitet werden kann.
Symbolische Elaboration Gegeben sind zwei Wörter. Aus allen in
ihnen vorkommenden Buchstaben
sollen neue Wortpaare gebildet werden.

ständig vernachlässigt hat. Es handelt sich wie die intra- und interpersonale Intelligenz.
hierbei um die musikalische Intelligenz, die Bei den beiden personalen Intelligenzen geht
körperlich-kinästhetische Intelligenz (sie ma- es um die Fähigkeit, Gefühle bei sich (intra-
nifestiert sich in der Kontrolle von Bewegun- personal) und bei anderen (interpersonal) zu
gen, etwa beim Tanzen oder beim Sport) so- erkennen bzw. zu unterscheiden und zum Ver-

376
12.5 Konzentration und Vigilanz

ständnis und zur Planung des eigenen Verhal- trolle und Ausführung von Körperbewegun-
tens zu nutzen. In neueren Arbeiten postuliert gen oder Geschick und Einfühlungsvermögen
Gardner (1999) zusätzlich eine naturalistische beim Umgang mit Tieren zur Intelligenz rech-
Intelligenz, die im Umgang mit Lebewesen nen, machen wir den Begriff so vage, dass er
zum Ausdruck kommen soll. als wissenschaftliches Instrument untauglich
wird (Rost, 2008; Weber & Westmeyer, 2001).
Gardner liefert mit seiner Theorie der multi-
plen Intelligenzen eine sehr umfassende Zu- Gardners personale Intelligenzen haben sich
sammenstellung relevanten Materials aus dis- inzwischen in der Forschung zur emotiona-
paraten Quellen. Ihm kommt außerdem das len Intelligenz verselbstständigt (Mayer & Sa-
Verdienst zu, in detaillierter Weise Vorschläge lovey, 1997; Salovey & Mayer, 1990). Im Kern
für Kriterien entwickelt zu haben, die es gestat- dieses Konstrukts stehen vier Fähigkeitsberei-
ten, unterschiedliche Dimensionen intelligen- che, die jeweils Teilprozesse unterschiedlicher
ten Verhaltens zu identifizieren. Neben den in Komplexität umfassen. Die Fähigkeitsberei-
der psychometrischen Intelligenzforschung na- che sind (a) genaue Wahrnehmung und Be-
turgemäß sehr stark fokussierten Befunden aus wertung sowie angemessener Ausdruck von
statistischen Klassifikationsverfahren nennt er Emotionen, (b) Nutzung von Emotionen zur
als Kennzeichen für eine eigenständige Intelli- Unterstützung von Denkvorgängen, (c) Verste-
genz: (a) selektive Beeinträchtigung oder Ver- hen und Analysieren von Emotionen und (d)
lust einer Fertigkeit nach Hirntraumata bei In- reflexive Emotionsregulation (z. B. die Fähig-
taktheit anderer intellektueller Fähigkeiten; (b) keit, für Gefühle offen zu bleiben oder Gefühle
die Existenz von Personen mit einer hervorste- bei sich oder anderen beeinflussen zu können).
chenden Spezialbegabung; (c) das Vorliegen
Für die Bestimmung praktischer und emotio-
einer universellen und distinkten ontogeneti-
naler Fähigkeiten werden zur Zeit Messmög-
schen Entwicklungssequenz; (d) eine eigene
lichkeiten diskutiert und erprobt (für einen
Evolutionsgeschichte; (e) identifizierbare ko-
Überblick siehe Neubauer & Freudentha-
gnitive Kernoperationen (hierzu würden auch
ler, 2001). So wurde z. B. der sehr bekann-
faktorenanalytische Befunde zählen); (f) mini-
te Mayer-Salovey-Caruso Emotional Intelli-
male Interferenz zwischen Aufgaben, für de-
gence Test von Steinmayr, Schütz, Hertel
ren Bearbeitung unterschiedliche Fähigkeiten
und Schröder-Abé (2011) für den deutschen
erforderlich sind; (g) Enkodierung in einem
Sprachraum adaptiert. Mit der Konstruktion
spezifischen System von Symbolen (z. B. Spra-
solcher Verfahren wird die Hoffnung verbun-
che, mathematische Symbolik, musikalische
den, die Prädiktion psychologisch relevanter
Notation). Diese Kriterien dienen als Raster
Kriterien (z. B. Berufserfolg) weiter verbes-
zur Identifizierung differenzierbarer Fähigkei-
sern zu können. Inwieweit die Verfahren in-
ten, wobei allerdings nicht alle Kriterien für
krementell valide sind, also Kriterienvariation
jede Intelligenz gegeben sein müssen.
aufklären, die nicht bereits mit traditionellen
Strittig an Gardners Konzeption ist vor allem Verfahren gebunden wird, ist noch eine offene
die Einordnung körperlich-kinästhetischer, na- Frage.
turalistischer und personaler Fähigkeiten un-
ter den Intelligenzbegriff. Sicherlich sollten
diese Bereiche in einer umfassenden Fähig-
12.5 Konzentration und Vigilanz
keitstheorie berücksichtigt werden. Bezwei-
felt wird jedoch, ob es wirklich sinnvoll ist,
solche Fähigkeiten als „Intelligenzen“ zu klas- Neben Verfahren zur Messung von Intelligenz
sifizieren: Wenn wir etwa Talent in der Kon- und Kreativität gehören Tests zur Bestimmung

377
12 Fähigkeits- und Leistungstests

von Aufmerksamkeitsleistungen seit langem über die Fähigkeit erfasst, geringfügige Verän-
zum Standardrepertoire der psychologischen derungen im Wahrnehmungsfeld, die in unre-
Diagnostik. Auch mit diesen Tests sollen all- gelmäßigen Abständen auftreten, zu identifi-
gemeine, d. h. bei vielen Aufgaben wichtige, zieren und auf diese Veränderungen schnell zu
Leistungsvoraussetzungen geprüft werden. Sie reagieren. Die relativ seltenen Veränderungen
werden deshalb auch als allgemeine Leistungs- treten vor einem „monotonen Hintergrund“
tests bezeichnet und von speziellen Leistungs- auf und sind zeitlich nicht vorhersagbar. Im
tests, z. B. Tests zur Prüfung bestimmter senso- Unterschied zu Konzentrationstests sind die
rischer Fähigkeiten, abgegrenzt (Bartenwerfer, Probanden bei solchen Überwachungsaufga-
1983; I Kap. 14). ben lange Zeit passiv. Darüber hinaus wird
der „Arbeitstakt“ allein durch die Reizgege-
Während Aufgaben in Intelligenztests über-
benheiten determiniert (Brickenkamp & Karl,
wiegend „intellektuell herausfordernde“ Pro-
1986; Bartenwerfer, 1983). Wir betrachten
bleme darstellen, zu deren Lösung man mehr
im Folgenden einige illustrative Beispiele für
oder weniger angestrengt nachdenken muss,
Konzentrations- und Vigilanztests.
sind Aufgaben, die in Aufmerksamkeitstests
verwendet werden, extrem einfach. In einem
seit langen etablierten Verfahren, dem Pauli-
Test, müssen z. B. einstellige Zahlen addiert 12.5.1 Konzentrationstests
werden (Arnold, 1975; Christiansen, 1983).
Tatsächlich interessiert beim Pauli-Test nicht Wie gerade erwähnt, wird die Konzentrations-
die Lösung der Rechenaufgaben – es wird vor- fähigkeit über die Bearbeitung einer Reihe
ausgesetzt, dass alle Probanden alle Aufgaben sehr einfacher Aufgaben erfasst. Einfach be-
lösen können –, sondern die Geschwindigkeit, deutet hier, dass eine Einzelaufgabe aus dieser
mit der die Aufgaben bearbeitet werden kön- Reihe ohne Schwierigkeiten von (fast) jedem
nen. Probanden gelöst werden kann. Leistungsre-
levante Unterschiede lassen sich dadurch re-
Der Begriff „Aufmerksamkeit“ ist weit und
gistrieren, dass eine Vielzahl derartiger Auf-
wird in der Literatur in unterschiedlicher Wei-
gaben unter erschwerten Bedingungen (in der
se gebraucht. Wir verwenden ihn hier schlicht
Regel Zeitdruck) bearbeitet werden muss. Die
als Oberbegriff für Leistungen, in denen die
Anzahl der während eines Zeitabschnitts be-
gezielte Zuwendung zu definierten Reizen
arbeiteten Aufgaben bzw. der hierbei auftre-
oder das Überwachen von Ereignissen im
tenden Fehler gilt als Maß der Konzentrations-
Vordergrund stehen. Bei der Diagnostik von
fähigkeit. In Tests der Konzentrationsfähig-
Aufmerksamkeitsleistungen wird zwischen
keit werden verschiedene Aufgabentypen rea-
Konzentrations- und Vigilanztests differen-
lisiert. Die geläufigsten sind Durchstreichen
ziert (Fay & Stumpf, 1995). Konzentrations-
bzw. Markieren, Rechnen und Sortieren.
tests sollen die Fähigkeit messen, sich aufga-
benrelevanten Reizen selektiv und über einen Ein weit verbreitetes Durchstreichverfah-
längeren Zeitraum ununterbrochen zuzuwen- ren zur Messung der Konzentration ist der
den und diese Reize schnell und korrekt zu Aufmerksamkeits- und Konzentrationstest d2-
analysieren. Verlangt wird dabei die Abschir- R (Brickenkamp, Schmidt-Atzert & Liepmann,
mung gegenüber gleichzeitig vorhandenen ir- 2010; früher veröffentlicht unter den Namen
relevanten Reizen (Distraktoren). In entspre- Aufmerksamkeits-Belastungs-Test d2; Bricken-
chenden Tests steht man unter Zeitdruck, kann kamp, 2002), der sowohl bei Kindern (ab 9
aber das Arbeitstempo prinzipiell selbst be- Jahren) als auch bei Erwachsenen einsetzbar
stimmen. Mit Vigilanztests wird demgegen- ist.

378
12.5 Konzentration und Vigilanz

Abb. 12.5
‚ „ ‚ ‚ ‚ ‚ „ „
d p p d d p d p d p d d
Beispiel für einen Zeilenanfang im „ ‚ „ ‚ „ ‚ ‚ ‚ „
Test d2.

Der Test besteht aus vierzehn Zeilen mit je Probanden begünstigt werden, die aus Unkon-
57 Zeichen. Bei den Zeichen handelt es sich zentriertheit oder absichtlich instruktionswid-
um die Buchstaben d oder p, die jeweils mit rigem Verhalten Zeichen überspringen. Sol-
einem bis vier Strichen versehen sind, wie in chen Probanden werden die übersprungenen
I Abb. 12.5 dargestellt. Aufgabe der Proban- Distraktoren als bearbeitete Zeichen gutge-
den ist es, alle ds, die mit zwei Strichen verse- schrieben. In ihrem eigenen Verfahren, dem
hen sind (die Zielreize), zu identifizieren und Frankfurter Aufmerksamkeitsinventar (FAIR;
durchzustreichen; alle anderen Zeichen, die als Moosbrugger & Oehlschlägel, 1996) realisier-
Distraktoren fungieren, sollen ignoriert wer- ten die Autoren daher im Unterschied zum d2
den. Die Probanden werden instruiert, mög- das „vollständige Markierungsprinzip“. Hier
lichst schnell zu arbeiten, Fehler jedoch zu sind alle Items zu markieren, was ein Über-
vermeiden. Für die Bearbeitung jeder Zeile ha- springen von Zeichengruppen verhindert oder
ben die Probanden 20 Sekunden Zeit. Nach doch erkennbar macht.
Ablauf dieser Zeit gibt der Versuchsleiter ein
Als Reize werden hier Kreise und Quadrate
Signal, woraufhin die Probanden zur nächsten
verwendet, die zwei oder drei Punkte enthal-
Zeile übergehen.
ten. In einer Variante des Tests werden Krei-
se mit zwei Punkten und Quadrate mit drei
Als basale Leistungsindikatoren werden im d2-
Punkten als Zielreize definiert, die beiden an-
R die Anzahl der bearbeiteten Zielreize (BZO
deren Itemarten dienen als Distraktoren. In
= bearbeitete Zielobjekte) sowie der Anteil
einer zweiten Variante des Tests ist dies um-
an Auslassungs- und Verwechslungsfehlern
gekehrt. Aufgabe der Probanden ist es, einen
an den bearbeiteten Zielreizen (F%) bestimmt.
durchgehenden Strich unter alle Items einer
Auslassungsfehler liegen vor, wenn ein Ziel-
Zeile zu ziehen und bei den Zielreizen einen
reiz übersehen wurde, Verwechslungsfehler
Zacken in die Items hineinzuzeichnen. Der
liegen vor, wenn ein Distraktor markiert wur-
Test, der für Personen ab 14 Jahren normiert
de. BZO ist ein Maß des Arbeitstempos, F%
ist, enthält insgesamt 32 Zeilen mit je 20 Zei-
ein Maß für die Sorgfalt, mit der eine Person
chen, die auf zwei Seiten verteilt sind. Für die
vorgegangen ist. Als Gesamtmaß der Konzen-
Bearbeitung einer Seite stehen jeweils drei Mi-
tration wird der sog. Konzentrationsleistungs-
nuten zur Verfügung. Wie beim d2 wird hier
wert (KL) bestimmt, der sich aus der Differenz
ein fehlerbereinigter Leistungswert berechnet,
der Zahl bearbeiteter Zielreize (BZO) und der
der über die Menge der konzentriert bearbei-
Zahl der Fehler (Verwechslungs- und Auslas-
teten Items Auskunft gibt. Weitere Kennwerte
sungfehler) ergibt.
erfassen das angemessene Befolgen der In-
struktion, die Sorgfalt beim Arbeiten und die
In älteren Versionen des d2 wurden für die
kontinuierlich aufrechterhaltene Konzentrati-
Bestimmung der bearbeiteten Zeichen nicht
on.
die markierten Zielreize ausgezählt, vielmehr
wurde einfach das letzte in einer Zeile ange- Der d2 und der FAIR sind Beispiele für Kon-
kreuzte Zeichen betrachtet. Oehlschlägel und zentrationstests, die als Durchstreich- oder
Moosbrugger (1991) wiesen darauf hin, dass Markierverfahren bezeichnet werden. Dane-
dieses Vorgehen problematisch ist, weil damit ben werden, wie erwähnt, in Konzentrations-

379
12 Fähigkeits- und Leistungstests

tests zwei weitere Anforderungstypen reali- Konzentrationsleistungs-Test (FAKT: Moos-


siert: einfache Rechenaufgaben bearbeiten und brugger & Heyden, 1997; überarbeitete Ver-
Objekte nach vorgegebenen Kriterien sortie- sion FAKT II: Moosbrugger & Goldhammer,
ren. 2007), der bei Kindern ab zehn Jahren sowie
bei Erwachsenen eingesetzt werden kann und
Ein Beispiel für ein Rechenverfahren ist die Ar- ca. zehn Minuten in Anspruch nimmt. Die
beitskurve, auch Pauli-Test genannt (Arnold, Itemvorgabe erfolgt hier auf einem Computer-
1975; Christiansen, 1983). Hier müssen die monitor, die Antworten werden durch Drücken
Probanden eine Stunde lang einstellige Zahlen einer von zwei Reaktionstasten gegeben. In
addieren. Bei einem weiteren Rechenverfah- der Voreinstellung des Programms werden die
ren, dem Konzentrations-Leistungs-Test (KLT- Items des FAIR als Zielreize und Distraktoren
R; Düker & Lienert, 2001), werden etwas hö- benutzt.
here Anforderungen gestellt, da auch das Ar-
beitsgedächtnis belastet wird. Hier erhält die Die computergesteuerte Darbietung ermög-
Person pro Item zwei Rechenaufgaben, etwa licht ein adaptives Vorgehen. Die Itemdarbie-
9 − 4 + 3 und 8 + 1 − 3, deren Ergebnisse sie tung passt sich dem vom Probanden erreichba-
sich merken muss. Ist das erste Ergebnis grö- ren Bearbeitungstempo an. Das im Testverlauf
ßer als das zweite müssen die Resultate sub- kontinuierlich errechnete und aktualisierte „li-
trahiert werden, ist das zweite Ergebnis größer minale“ Tempo entspricht der Darbietungsge-
als das erste, müssen die Resultate addiert wer- schwindigkeit, bei der ein Proband 50 % der
den. Als Problem dieses Aufgabentyps wird Items korrekt bearbeiten kann. Mit der Anpas-
häufig darauf hingewiesen, dass auch die in- sung der Darbietungsgeschwindigkeit – und
dividuelle Rechenfähigkeit einen Einfluss auf damit der Schwierigkeit der Items – an die
die Testleistung haben könnte. Tatsächlich kor- individuelle Konzentrationsleistung wird eine
reliert der KLT-Score mit der Schulnote in Ma- ungefähr gleiche Beanspruchung von Perso-
thematik. Angesichts der Einfachheit der KLT- nen mit unterschiedlichem Konzentrationsver-
Aufgaben stellt sich allerdings umgekehrt die mögen erreicht. Das liminale Testtempo dient
Frage, ob die Schulnote nicht auch durch die gleichzeitig als Schätzer der Konzentrations-
Konzentrationsfähigkeit beeinflusst wird. leistung.
Ein Beispiel für ein Sortierverfahren liefert
Der FAKT kann in drei verschiedenen Vorga-
der Konzentrations-Verlauf-Test (KVT; Abels,bemodalitäten durchgeführt werden. In einer
1974). Die Probanden müssen hier 60 Karten Form werden die Items jeweils einzeln auf
durchgehen, die mit jeweils 36 zweistelligendem Bildschirm präsentiert. In dieser Modali-
Zahlen bedruckt sind. Die Karten sind jeweils
tät besteht für den Probanden eine relativ hohe
in eines von vier Feldern einzusortieren. Für
situative Belastung. In einer zweiten Modalität
die Sortierung sind dabei die Zahlen 43 und mit mittlerer Belastung werden simultan zehn
63 relevant. Sortiert wird danach, ob die Karte
Items dargeboten. In einer dritten Form mit
keine, nur eine der Zahlen oder beide vorgege-
niedriger situativer Belastung wird auf die Ad-
bene Zahlen enthält. Bestimmt wird hier die aptivität des Testtempos verzichtet. Als Test-
Zeit, die für die Sortierung benötigt wird sowie
werte werden hier die Reaktionszeiten für die
die dabei begangenen Fehler. Itembearbeitung ermittelt. Der FAKT reprä-
sentiert insgesamt den „state of the art“ der
Für die Messung von Konzentrationsleistun- Konzentrationsleistungsmessung.
gen bieten sich natürlich computerbasierte
Verfahren an. Ein sehr elaboriertes Verfah- Die beschriebenen Konzentrationstests weisen
ren dieser Art ist der Frankfurter Adaptive durchweg hohe Reliabilitäten auf (im Allge-

380
12.5 Konzentration und Vigilanz

meinen .90 und höher). Auch die Stabilität Signale (eventuell in unterschiedlichen Mo-
der zentralen Kennwerte ist meist zufrieden- dalitäten), sind von Rauschen bzw. unkriti-
stellend. Die Korrelationen des d2 und des schen Ereignissen abzuheben. Auf das Auf-
FAIR mit Maßen der Intelligenz sind durch- treten der Signale ist möglichst rasch zu rea-
weg niedrig. Für den d2 liegen sehr umfangrei- gieren. Falsche Alarme, also „Signalreaktio-
che Validitätsuntersuchungen vor. In verschie- nen“ auf unkritische Ereignisse sind zu ver-
denen anwendungsbezogenen Fragestellungen meiden. Diagnostisch verwertet werden die
hat sich der Test als guter Leistungsprädiktor Zahl der Treffer (korrekt identifizierte Signa-
erwiesen, etwa im Hinblick auf das Führen le), die Zahl der falschen Alarme, die Reak-
von Kraftfahrzeugen oder die Kontrolle bei tionszeiten auf die Signale, manchmal auch
der Herstellung technischer Geräte. Was ihre deren Streuungen über die Bearbeitungszeit.
Validitätsbelege angeht, hinken neuere Verfah- Darüber hinaus interessieren auch Verlaufs-
ren wie FAIR und FAKT dem d2 noch deutlich merkmale des Überwachungsverhaltens, ins-
hinterher (siehe hierzu die Rezensionen von besondere das Phänomen des Vigilanzabfalls.
Petermann, 2011, sowie Weis & Nuerk, 2010). Hierunter versteht man ein temporäres Absin-
ken der Entdeckungsleistung, das nach etwa
15 bis 30 Minuten eintritt (Warm, Parasura-
12.5.2 Vigilanztests man & Matthews, 2008). Während die Re-
liabilitäten (Konsistenzen) der verwendeten
Im Unterschied zu Konzentrationsleistungen, Indexwerte meist recht hoch sind (größer als
wie wir sie bislang besprochen hatten, lässt .80), mangelt es in der Regel an Validierungs-
sich Vigilanz nur mit apparativen Anordnun- studien für konkrete Verfahren sowie repräsen-
gen bestimmen. Die Testbearbeitung nimmt tativen Normen, weshalb die Verfahren eher
hier mehr Zeit in Anspruch, da für die Be- für Forschungszwecke als für die praktische
stimmung von Vigilanz Reaktionen auf rela- Einzelfalldiagnostik in Frage kommen. Eini-
tiv selten auftretende kritische Signale erfasst ge Verfahren werden auf Basis des Hogrefe
werden müssen. Testsystems2 sowie des Wiener Testssystems3
angeboten. Freie Implementierungen finden
Ein klassisches Beispiel für einen Vigilanz-
sich als Module der Psychology Experiment
test ist der Uhrtest (Mackworth, 1957). Die
Building Language4 (Mueller & Piper, 2014).
Probanden beobachten hier zwei Stunden lang
einen Uhrzeiger, der in der Regel jede Sekunde
12 Winkelminuten weiterspringt. Das zu be-
antwortende Signal besteht in gelegentlichen 12.5.3 Interpretation von Aufmerk-
Doppelsprüngen des Zeigers (24 Winkelminu- samkeitsleistungen
ten), die während der Sitzung insgesamt 48
Mal (also im Durchschnitt alle zweieinhalb Wegen des manchmal recht monotonen Cha-
Minuten) auftreten. In neueren Computerver- rakters der Aufgaben ist es bei Konzentrations-
sionen des Uhrtests wird die Bearbeitungszeit und Vigilanztests essenziell, günstige moti-
im Allgemeinen geringer angesetzt (auf 30 bis vationale Bedingungen zur Sicherung einer
90 Minuten), Doppelsprünge treten häufiger kontinuierlichen Anstrengungsbereitschaft zu
auf. schaffen. Dies dürfte insbesondere bei län-
Vigilanztests existieren in vielen Variationen, geren Verfahren wie dem Pauli-Test nicht
die jedoch nach den gleichen Grundprinzipi- 2 http://www.testzentrale.de/hogrefe-testsystem
en funktionieren (Brickenkamp & Karl, 1986). 3 http://www.schuhfried.at/wiener-testsystem-wts
Ein Signal, manchmal auch mehrere kritische 4 http://pebl.sourceforge.net

381
12 Fähigkeits- und Leistungstests

immer im eigentlich wünschbaren Ausmaß 20 Sekunden in die nächste Zeile springen sol-
zu bewerkstelligen sein. Allgemein erlauben len.)
Aufmerksamkeitstests lediglich Rückschlüs-
se über die minimal mögliche Leistung; ihre Die Einbeziehung und diagnostische Verwer-
Resultate reflektieren vielleicht eher die „typi-
tung solcher Größen ist im Bereich der Auf-
sche“ als die „maximale“ Leistung. Wie Bar- merksamkeitsmessung natürlich sehr nahelie-
tenwerfer (1983) bemerkt, sollte die Tatsache, gend. Die Reliabilität dieser Kennwerte ist je-
dass nur eine Mindestschätzung vorliegt, zu doch meist niedrig. Zudem existieren so gut
Zurückhaltung bei der Interpretation niedriger wie keine empirischen Belege für die Brauch-
Leistungswerte Anlass geben. Neben tatsäch- barkeit der Variablen. So lange dies so bleibt,
lich geringer Konzentrationsfähigkeit können ist eine generelle Nutzung von Streuungs-
niedrige Werte auch auf situative, motivationa- oder Verlaufskennwerten nicht empfehlens-
le oder emotionale Faktoren (inklusive eines wert. Dies gilt in ganz besonderem Maße für
Widerstands gegen den Test) zurückzuführen den etwa im Pauli-Test (Christiansen, 1983)
sein. gemachten Versuch, verschiedene Verlaufs-
muster „charakterologisch“ zu interpretieren
Die Interpretation von Testwerten als Indika-
(vgl. hierzu die Kritik von Kubinger, 1984).
toren von Konzentrationsleistungen setzt vor-
aus, dass alle Probanden in den verwendeten
Konzentrationstests sollen allgemeine Leis-
Aufgabentypen ein gleich hohes (maximales)
tungsvoraussetzungen prüfen, die sich in ei-
Übungsniveau aufweisen. Besonders für Re-
ner Vielzahl von Tätigkeiten bemerkbar ma-
chenverfahren, für die sich allgemein positive
chen, u. a. auch bei intellektuell anspruchsvol-
Korrelationen mit Skalen zur Erfassung der
len Aufgaben, wie sie in Intelligenztests ver-
numerischen Intelligenz finden, wird dies be-
wendet werden. Die Lösung der meisten Intel-
zweifelt. Auch andere Testarten dürften nicht
ligenzaufgaben erfordert konzentriertes Arbei-
ganz unabhängig von entsprechenden inhalts-
ten. Mit hoher Konzentration alleine sind Intel-
gebundenen Fähigkeiten sein, etwa der visu-
ligenzaufgaben jedoch im Allgemeinen nicht
ellen Diskrimination, die u. a. vom täglichen
zu lösen. Ein Mindestmaß an Konzentration ist
Umgang einer Person mit bestimmten Aufga-
also eine notwendige, aber keine hinreichende
benarten abhängen. Für eine Reihe von Kon-
Bedingung für ein gutes Abschneiden in einem
zentrationstests werden substanzielle Übungs-
Intelligenztest. Daher sind von vorneherein
gewinne berichtet (Fay & Stumpf, 1995), die
moderat positive Korrelationen zwischen den
sich vermutlich auch bei weiteren Tests auf-
Ergebnissen von Konzentrations- und Intelli-
weisen ließen. Durch Training eines Aufgaben-
genztests zu erwarten, die sich auch empirisch
typs kann die Leistung also massiv gesteigert
zeigen (z. B. Bäumler & Weiss, 1966; West-
werden.
hoff & Kluck, 1983; Wiese & Kroj, 1972).
Neben den besprochenen Leistungs- und Ge-
nauigkeitswerten bieten viele Aufmerksam- Konzeptuell wird der Zusammenhang zwi-
keitstests die Berechnung weiterer Kenngrö- schen Konzentration und Intelligenz unter-
ßen an. Dies betrifft z. B. Maße der intraindi- schiedlich bewertet. Autoren von Konzentra-
viduellen Variation als Indikator für Schwan- tionstests sehen es in der Regel positiv, wenn
kungen der Aufmerksamkeit während der Test- ihr Verfahren keine allzu hohen Zusammen-
durchführung. Manchmal wird auch eine In- hänge mit Intelligenzskalen aufweist und in-
spektion des zeitlichen Verlaufs der Konzen- terpretieren dies als Hinweis auf die diskri-
trationsleistung angeregt. (Dies ist der Grund, minante Validität ihres Tests. Auf der ande-
warum die Probanden im d2-Test nach jeweils ren Seite nehmen z. B. Jäger et al. (1997) die

382
12.5 Konzentration und Vigilanz

Bearbeitungsgeschwindigkeit explizit als Ope- Besprechungen einer Vielzahl einschlägiger


rationsmerkmal in ihr Intelligenzmodell auf deutschsprachiger Tests finden sich Brähler,
und messen sie mit Aufgaben, die auch in rei- Holling, Leutner und Petermann (2002). Für
nen Konzentrationstests vorkommen könnten. eine Übersicht verfügbarer veröffentlichter
Im Rahmen von Intelligenzkonzeptionen, die Verfahren ist der Katalog der Testzentrale Göt-
Geschwindigkeit und Effizienz der Reizver- tingen sehr nützlich (http://www.testzentrale.
arbeitung betonen oder als zentrale Facette de). Unter dieser Internetadresse ist auch eine
der Intelligenz ansehen, ist dies natürlich nur Liste veröffentlichter Testrezensionen durch
konsequent. Problematisch für Aufmerksam- unabhängige Gutachter zu finden.
keitstests sind tatsächlich weniger Zusammen-
hänge mit der allgemeinen Intelligenz als viel-
mehr hohe Korrelationen mit spezifischeren Fragen zur Wissenskontrolle
Faktoren, die neben der Konzentrationsleis-
tung in die Messwerte eingehen, etwa nume-
rische Fähigkeiten bei Rechenverfahren. Ein 1. Worin besteht das sog. Kompetenz-
Versuch, solche und andere ungewollte Varia- Performanz-Problem?
tionsquellen wie beim BIS auszubalancieren, 2. Was versteht man unter Niveau- und Schnel-
wurde unseres Wissens noch nicht unternom- ligkeitstests (power, speed)? Geben Sie ty-
men. pische Beispiele.
3. Wie lassen sich Fähigkeits- und Leistungs-
Wie wir bereits für Intelligenztests festgestellt tests einteilen?
hatten, sind auch die Ergebnisse verschiedener 4. Warum ist es problematisch, den IQ verbal
Konzentrationsverfahren nicht als austausch- zu klassifizieren?
bar zu behandeln. Die empirisch ermittelten 5. Nennen Sie die Kernannahmen der „briti-
Zusammenhänge fallen für reliable Tests je- schen“ und „amerikanischen“ Tradition in
doch substanziell aus, insbesondere wenn das der Intelligenzforschung.
gleiche Testprinzip (z. B. Rechen- oder Mar- 6. Was beinhaltet die Unterscheidung zwi-
kierverfahren) verwendet wird (Westhoff & schen fluider und kristallisierter Intelligenz?
Kluck, 1984). 7. Nennen Sie repräsentative Aufgabenarten,
mit denen in gängigen Verfahren intellektu-
elle Leistungsunterschiede gemessen wer-
Weiterführende Literatur den.
8. Mit welchen Arten von Tests können Kon-
zentrationsleistungen erfasst werden?
Zur Vertiefung der Themen dieses Kapitels
eignen sich die Bücher von Holling, Preckel
und Vock (2004) zur Intelligenzdiagnostik so-
wie Heubrock und Petermann (2001) sowie
Westhoff und Hagemeister (2005) zur Dia-
gnostik von Aufmerksamkeit und Konzentrati-
on.

383
13 Integration diagnostischer Befunde und
Gutachtenerstellung

13.1 Definition der diagnostischen Begutachtung . . . . . . . . . . . . . . . . . . 384


13.2 Allgemeine Merkmale der Begutachtung . . . . . . . . . . . . . . . . . . . . 385
13.3 Arten diagnostischer Gutachten . . . . . . . . . . . . . . . . . . . . . . . . . 387
13.4 Aufbau eines psychologischen Gutachtens . . . . . . . . . . . . . . . . . . . 387
13.4.1 Vorüberlegungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387
13.4.2 Die Abschnitte eines Gutachtens . . . . . . . . . . . . . . . . . . . . . 388

Im handlungstheoretischen Modell des Dia- oder Klassifikationsentscheidungen oder die


gnostizierens (Kaminski, 1970; I Kap. 7) war Durchführung einer Modifikation) führen kön-
deutlich geworden, dass nach Abschluss der nen, praktische Arbeit darstellen.
Erhebung diagnostischer Daten zwei weitere
Aufgaben zu erledigen sind: die Bewertung
der diagnostischen Daten und die Planung und 13.1 Definition der
Durchführung der praktischen Phase. Die Auf- diagnostischen
gabe des Bewertens besteht darin, festzustel-
Begutachtung
len, ob die Daten die formulierten Hypothesen
(zum Eingangszustand und seinen Bedingun-
Auskünfte des Psychologen an zuständige
gen sowie zum Zielzustand und des Weges
Dritte über eine oder mehrere Personen oder
dorthin) soweit stützen, dass eine tragfähige
(im weitesten Sinne) Situationen auf der Basis
Grundlage für die praktische Arbeit besteht.
diagnostischer Daten werden als diagnostische
Wenn dies der Fall ist, dann wird die „dia-
Begutachtung bezeichnet. Ein Gutachten ist ei-
gnostische Schleife“ verlassen und die Arbeit
ne
in der „praktischen Schleife“ beginnt (siehe
I Abb. 7.2, S. 194).
. . . für einen Gutachtenempfänger (Auftra-
„Praktisch“ bedeutet jedoch nicht, dass diese geber) erarbeitete zusammenfassende Dar-
Arbeit ausschließlich (oder auch nur überwie- stellung der psychodiagnostischen Vorge-
gend) in einer modifikatorischen Intervention hensweise, der Befunde und Schlussfolge-
(etwa einer Familientherapie) besteht. Kamin- rungen im Bezug auf eine hinsichtlich ei-
ski (1970, S. 66ff) weist vielmehr darauf hin, ner konkreten Fragestellung zu begutach-
dass auch alle Auskünfte des Psychologen, die tende Person, Institution oder Situation, ba-
dann zu irgendeiner Form von Intervention sierend auf einem der Fragestellung ge-
durch zuständige Dritte (also etwa Selektions- mäßen, angemessen komplexen diagnosti-

384
13.2 Allgemeine Merkmale der Begutachtung

schen Prozess. Mit Hilfe des Gutachtens Gutachtenerstellung erfolgen müsste, in den
soll sein Empfänger Entscheidungen in sei- meisten Fällen unterbleiben dürfte).
nem System (seinem diagnostischen Pro-
zess) fundierter treffen können (Schmidt,
1995, S. 468).
13.2 Allgemeine Merkmale der
Begutachtung
Wenn also eine Begutachtung durchzuführen
ist, so ist auch diese Tätigkeit ein Teil der prak-
tischen Phase (I Kap. 7). Sie wird deshalb, Beim Gutachten handelt es sich um eine zu-
ebenso wie etwa eine Verhaltensmodifikati- sammenfassende schriftliche Darstellung einer
on, anhand theoretischer Überlegungen und Fragestellung, einzelner Befunde und der dia-
einer darauf basierenden Erhebung diagnosti- gnostischen Methoden, die zu deren Erhebung
scher Daten geplant und durchgeführt. Nach geführt haben, sowie um – wissenschaftlich
Kaminski (1970, S. 66) stellt die Begutach- begründete – Schlussfolgerungen im Hinblick
tung (z. B. hinsichtlich der Eignung für eine auf die konkrete Fragestellung. Da das Gutach-
bestimmte berufliche Tätigkeit) lediglich ei- ten in der Regel an Nichtpsychologen übermit-
ne Sonderform des „Änderns“ dar. Jede dia- telt wird, müssen diese Aussagen in einer für
gnostische Tätigkeit orientiert sich an einem Nichtfachleute verständlichen Form aufberei-
Zielzustand (Z2, z. B. Beseitigung der Ler- tet werden, wobei sichergestellt werden muss,
nunlust eines Schülers und damit Verbesse- dass der Empfänger die Aussage in genau der
rung seiner schulischen Leistung, Bestehen Weise versteht, wie sie vom Verfasser gemeint
des Abiturs nach einer Empfehlung zum Be- ist. Dies stellt für die schriftliche Form, in
such des Gymnasiums oder erfolgreiche be- der ja im Allgemeinen keine Möglichkeit zur
rufliche Tätigkeit nach einer entsprechenden Rückmeldung oder Rückfrage besteht, ein Pro-
Einstellungsempfehlung). Dieser Zielzustand blem dar.
ist jedoch nicht bereits dann erreicht und damit Nicht als Gutachten bezeichnet werden Ant-
die Tätigkeit des Psychologen abgeschlossen, worten zu Detailfragen (z. B. zur Integration
wenn das Gutachten dem Auftraggeber (z. B. eines Schülers in die Klassengemeinschaft)
den Eltern eines Schülers oder dem Personal- sowie Stellungnahmen (z. B. zu anderen Gut-
leiter eines Betriebes) abgeliefert worden ist. achten), die nicht auf Befunden beruhen, die
Im Sinne der „praktischen Schleife“ im hand- der Psychologe selbst erhoben hat. Vom Gut-
lungstheoretischen Modell des Diagnostizie- achten zu unterscheiden ist auch der Befund.
rens stellt die Abfassung eines Gutachtens nur Bei ihm handelt es sich um einen Abschnitt
eine Zwischentätigkeit dar. In ihr gibt der Gut- innerhalb der Gutachtenerstellung, in dem die
achter Empfehlungen an den Auftraggeber ab, zu einer bestimmten Fragestellung (z. B. ob
welche praktischen Maßnahmen (Durchfüh- die schlechte Schulleistung eines Kindes auf
rung einer bestimmten Therapie, Besuch des eine zu geringe Intelligenz zurückzuführen ist)
Gymnasiums, Beschäftigung einer Person auf erhobenen Information zu einer Aussage inte-
einer bestimmten Position) ergriffen werden griert wird (z. B. alle Daten aus den entspre-
müssen, um einen angestrebten Zielzustand zu chenden Test indizieren eine durchschnittliche
erreichen. Streng genommen endet die Tätig- Intelligenz). Der Befund selbst enthält noch
keit des Gutachters also erst mit der Prüfung keine Empfehlungen.
der Frage, ob der Zielzustand erreicht wurde
(wenn diese Prüfung auch auf Grund der Tat- Aus diesen allgemeinen Bestimmungen lei-
sache, dass sie häufig deutlich später als die tet sich eine Reihe allgemeiner Merkmale des

385
13 Integration diagnostischer Befunde und Gutachtenerstellung

Gutachtens ab. Hierzu gehören Sorgfalt, Trans- allgemeinverbindliche ethische Regeln für die
parenz, das Einhalten ethischer Standards und Begutachtung aufstellen. Kaminski (1970) re-
rechtlicher Normen, die Klärung der Frage, präsentiert in seinem handlungstheoretischen
wer in das Gutachten Einsicht nehmen darf, Modell das Wissen des einzelnen Psycholo-
sowie die formale Gestaltung des Gutachtens. gen hinsichtlich der zu berücksichtigenden In-
teressen der an der Begutachtung beteiligten
Zur Sorgfalt gehört, dass der Psychologe bei Personen und der unbedingt einzuhaltenden
einer an ihn herangetragenen Fragestellung ethischen Standards durch einen speziellen
zunächst klärt, ob er über das für die Bearbei- Speicher „Gewissen“ (I Abb. 7.2, S. 194).
tung dieser Frage notwendige Expertenwissen In jedem Fall muss das allgemeine Persön-
verfügt. Ferner sollte er nur auf wissenschaft- lichkeitsrecht aller direkt oder indirekt Betei-
lich fundierte diagnostische Erhebungsverfah- ligten gewahrt werden. Verletzungen dieses
ren zurückgreifen und bei der Formulierung Rechts können zu einem Schadenersatz- oder
seiner Hypothesen (und der darauf aufbauen- Schmerzensgeldanspruch führen. So dürfen
den Darstellung seiner Schlussfolgerungen) etwa keine sog. „persönlichen Geheimnisse“
nach Möglichkeit nur empirisch begründetes (etwa Informationen zu bestimmten finanziel-
Wissen (Bedingungs- und Änderungswissen; len Verhältnissen) weitergegeben werden. Fer-
I Kap. 7, insbesondere I Abb. 7.2, S. 194) ner ist bei der Abfassung des Gutachtens dar-
heranziehen. Die Äußerung der privaten Mei- auf zu achten, dass nur wertneutrale Formu-
nung des Psychologen gehört nicht in das Gut- lierungen verwendet werden. (Begriffe wie et-
achten. wa „Lügner“ verbieten sich damit von selbst.)
Transparenz bedeutet, dass der Adressat über Darüber hinaus sind die jeweils gültigen ge-
die Verfahren, die zur Gewinnung bestimm- setzlichen Bestimmungen (vgl. u. a. Kühne,
ter Befunde geführt haben, angemessen infor- 1987; Zier, 2002) sowie die Grundsätze und
miert wird. Ferner müssen alle Teilschritte im Standards der zuständigen Berufsverbände zu
diagnostischen Prozess, von der Formulierung beachten (Föderation Deutscher Psychologen-
der Fragestellung bis zur Entscheidung, für vereinigungen, 1988; Westhoff et al., 2010).
ihn nachvollziehbar sein. Hierzu gehört auch,
dass die Grundlagen einzelner Schlussfolge- Empfänger und damit Einsichtsberechtigter
rungen, soweit sie sich dem Adressaten nicht des Gutachtens ist zunächst einmal nur der
ohne Weiteres erschließen, deutlich gemacht Auftraggeber. Mit ihm muss vorab geklärt wer-
werden. den, ob und in welcher Form auch andere
Personen (z. B. der Klient) über Inhalte des
Zu den ethischen und rechtlichen Standards Gutachtens informiert werden. Dabei kann es
gehört, dass der Psychologe stets die Inter- durchaus zu unterschiedlichen Auffassungen
essen der zu untersuchenden Person und des zwischen Gutachter und Auftraggeber kom-
Auftraggebers gegeneinander abwägt. Dabei men, etwa wenn der Psychologe es für richtig
muss er als erstes feststellen, ob der Klient die hält, dass die untersuchte Person in bestimm-
Untersuchung freiwillig anstrebt (in diesem tem Umfang über die Ergebnisse der Untersu-
Fall sind Auftraggeber und Klient meist ein chung informiert werden sollte, der Auftrag-
und dieselbe Person) oder ob diesem die Situa- geber dies aber ablehnt. Falls hier keine Ei-
tion mehr oder weniger aufgezwungen wurde nigung zu erzielen ist, müsste der Psycholo-
(etwa bei Sorgerechtsfällen oder forensischen ge die Bearbeitung des Auftrages ablehnen.
Begutachtungen). Angesichts der Unterschied- Falls sich Gutachter und Auftraggeber darüber
lichkeit der Auftraggeber, Fragestellungen und verständigt haben, dass keine Einsichtnahme
Interessenlagen der Klienten lassen sich kaum möglich ist, dann muss die zu begutachtende

386
13.4 Aufbau eines psychologischen Gutachtens

Person darüber zuvor informiert werden. Ge- Missbrauch). Auch Fragen der Schuldfähig-
nerell sollte jedoch die begutachtete Person keit sowie der Anwendung des Jugend- oder
über die Ergebnisse der diagnostischen Erhe- Erwachsenenstrafrechts bei Heranwachsenden
bungen informiert werden. Zur eigenen Absi- gehören in diese Kategorie. Wie schon die-
cherung sollte der Diagnostiker beim Klienten se Beispiele zeigen, ist ein Großteil dieser
stets das schriftliche Einverständnis einholen, Gutachten in der Forensischen Psychologie
dass die erhobenen Daten an den Auftraggeber verankert, wobei der Psychologe in der Re-
weitergegeben werden. gel (nach einem formellen Gerichtsbeschluss)
als Sachverständiger fungiert. In diesem Feld
Da das Gutachten der Kommunikation zwi-
gibt es starke Überschneidungen der psycholo-
schen einem Experten und einem nicht fach-
gischen Begutachtung mit z. B. der Tätigkeit
lich ausgebildeten Auftraggeber dient, muss
psychiatrischer Sachverständiger, so dass hier
seine Gestaltung auch bestimmte formale Stan-
eine enge Kooperation zwischen diesen bei-
dards erfüllen. Formale Informationen, die
den Disziplinen geboten ist. (Zur psychologi-
auch bereits auf dem Deckblatt des Gutachtens
schen und psychiatrischen Begutachtung im
aufgelistet werden, beziehen sich auf den Un-
Rahmen forensischer Fragestellungen vgl. u. a.
tersucher, die Fragestellung, den Adressaten,
Greuel et al., 1998; Steller & Volbert, 1997;
die untersuchte Person sowie das Datum der
Tondorf, 2005; für forensische Begutachtung
Untersuchung und der Gutachtenerstellung. In-
bei Kindern und Jugendlichen siehe Klüber,
haltlich gliedert sich das Gutachten in die fol-
Terlinden-Arzt & Westhoff, 2010; Terlinden-
genden Abschnitte (Westhoff & Kluck, 2008),
Arzt, Klüber & Westhoff, 2004; Warnke, Trott
auf die weiter unten noch genauer eingegan-
& Remschmidt, 1997).
gen wird:
Weitere Gutachten werden mit der Zielsetzung
1. Untersuchungsanlass
erstellt, Empfehlungen für die Durchführung
2. Fragestellung
künftiger Maßnahmen auszusprechen. Diese
3. Vorgeschichte
Maßnahmen müssen sich dabei nicht nur auf
4. Psychologische Fragen
Einzelpersonen beziehen (z. B. als Empfeh-
5. Untersuchungsmethode
lung zur Durchführung einer bestimmten The-
6. Befund
rapie), sondern können auch Familien (Salzge-
7. Stellungnahme (Schlussfolgerungen)
ber, 2001) oder Situationen i. w. S. ansprechen,
8. Maßnahmenvorschläge
etwa bei Fragen der Städte- oder Verkehrspla-
9. Anhang mit Literatur u. Ä.
nung. I Tab. 13.1 gibt eine Übersicht über
mögliche Adressaten von Gutachten (vgl. auch
Schmidt, 1995).
13.3 Arten diagnostischer
Gutachten
13.4 Aufbau eines
Gutachten können sich entweder auf vergan- psychologischen
gene Prozesse beziehen oder in Vorschlägen Gutachtens
münden, aus denen sich praktische Folgerun-
gen für künftig durchzuführende Maßnahmen
ableiten lassen. Vergangenheitsbezogen sind 13.4.1 Vorüberlegungen
beispielsweise Gutachten, die die Glaubhaf-
tigkeit eines Zeugen beurteilen (z. B. eines Im Sinne einer handlungstheoretischen Kon-
Kindes in einem Strafverfahren zum sexuellen zeption des Diagnostizierens ist die Erstellung

387
13 Integration diagnostischer Befunde und Gutachtenerstellung

Tab. 13.1 Adressaten und Fragestellungen von Gutachten

Adressat Fragestellungen
Schule Schulfähigkeit, Schullaufbahnberatung, Leistungsstörungen,
Verhaltensauffälligkeiten.
Gerichte Vormundschafts-, Familien-, Jugend-, Arbeits-, Sozial-,
Verwaltungs- oder Strafgericht sowie Strafvollzug.
Versicherungsträger Fragen der Berentung, Berufsunfähigkeit, Therapie oder
Rehabilitation.
Wirtschaft Personalentscheidungen, betriebliche Organisation oder
Arbeitsplatzgestaltung.
Öffentliche Verwaltung und Städteplanung, Verkehrsfragen, Stellungnahmen zu Medien.
Verkehr
Gesundheitswesen Fragen aus Psychiatrie und Neurologie,
Geschlechtsumwandlung, Sterilisation.

eines Gutachtens Teil der praktischen Pha- für das Abfassen eines Gutachtens. Besten-
se, genauer: das Gutachten ist Teil der tak- falls kann ein allgemeiner Rahmen vorgege-
tischen Planung hinsichtlich der Gestaltung ben werden, innerhalb dessen dann jeweils die
einer Änderungssituation (Kaminski, 1970). hypothesengeleitete individuelle Gestaltung
In I Kap. 7 wurde die taktische Planung als des Gutachtens erfolgt. Ein derartiger Rahmen
Teil der diagnostischen Phase beschrieben. In könnte etwa die in I Tab. 13.2 beschriebene
ihr geht es um die Beantwortung der Frage, Form haben (Fisseni, 1982; Westhoff & Kluck,
durch welche Maßnahmen der Psychologe am 2008).
besten an die auf Grund der formulierten Hy-
pothesen als notwendig erachtete Information Die Fragestellung für eine psychologische Be-
gelangt. Entsprechend geht es im Gutachten al- gutachtung ist nicht identisch mit der Gesamt-
so um die Beantwortung der Frage, wie dieses heit der psychologischen Fragen bzw. Hypo-
beschaffen sein muss, damit die vom Psycho- thesen, die den Prozess der Erhebung diagnos-
logen intendierten Änderungsprozesse (etwa tischer Daten steuern. Die Fragestellung wird
die Aufnahme einer bestimmten Therapie, die vielmehr von außen (vom Auftraggeber) an
Einstellung eines geeigneten Bewerbers oder den Psychologen herangetragen. Eine derarti-
die Beurteilung eines Zeugen als glaubhaftig) ge Fragestellung könnte beispielsweise lauten:
realisiert werden.
„Durch welche erzieherischen und thera-
peutischen Maßnahmen können bei dem
13.4.2 Die Abschnitte eines Jugendlichen A (16 Jahre), der neu in das
Heim aufgenommen wurde, Tendenzen zu
Gutachtens
aggressivem und delinquentem Verhalten
abgebaut werden?“
Angesichts der Notwendigkeit, die diagnosti-
sche und die praktische Phase einer Interven-
tion jeweils anhand der formulierten Hypo- Bevor der Psychologe mit der Bearbeitung des
thesen zu planen und zu gestalten, verbietet Falles beginnen kann, muss er eine Reihe von
sich das Aufstellen eines generellen Schemas Prüfprozessen durchführen (Kaminski, 1970;

388
13.4 Aufbau eines psychologischen Gutachtens

Tab. 13.2 Rahmen für die Gestaltung eines Gutachtens

Abschnitte Inhalte
1. Fragestellung und formale Fragestellung, Auftraggeber, Klient, Untersucher,
Merkmale Untersuchungstermine, Untersuchungsverfahren.
2. Vorgeschichte Informationen, die der Gutachter zu Beginn der
Untersuchung vorgefunden hat (mit Quellenangabe).
3. Hypothesen Planung des diagnostischen Vorgehens im Sinne der
Beantwortung der Fragestellung.
4. Untersuchungsplan Beschreibung und Begründung der in der
Untersuchung herangezogenen Informationsquellen im
Sinne der Prüfung der Hypothesen.
5. Ergebnisdarstellung Nach festgelegten Regeln werden für jede
Informationsquelle alle Informationen, die der
Beantwortung der Fragestellung dienen, dargestellt.
6. Befund Beantwortung der Fragestellung und der daraus
abgeleiteten Hypothesen durch Zusammenstellen aller
Informationen zu jeder Hypothese und deren
Kombination zu einer Antwort.
7. Stellungnahme Ausarbeitung von Vorschlägen hinsichtlich der sich –
im Sinne der Fragestellung – anbietenden
Möglichkeiten, der Bedingungen für deren
Verwirklichung, der damit zu erreichenden Ziele und
eventuellen Folgen jeder Möglichkeit.

Westhoff & Kluck, 2008). Er muss zunächst tung zuständige Experte ist. Schließlich müs-
einmal prüfen, ob er die Fragestellung korrekt sen die bereits angesprochenen (I Kap. 13.2)
verstanden hat. Dies betrifft häufig auch den ethischen und rechtlichen Fragen geklärt wer-
Umfang der zu bearbeitenden Thematik. In den. Diese Fragestellung (mit eventuellen Zu-
vielen Fällen stellt sich diese dem Psycholo- satzvereinbarungen) ist der erste Gliederungs-
gen schon auf den ersten Blick differenzier- punkt eines Gutachtens. Sie wird vollständig
ter dar als dem Auftraggeber. Dies wäre et- und wörtlich so wiedergegeben, wie sie mit
wa der Fall, wenn, wie in I Kap. 7 angespro- dem Auftraggeber vereinbart wurde.
chen, eine Mutter Auskunft darüber erbittet,
durch welche Maßnahmen das in letzter Zeit Bei der weiteren Formulierung des Gutach-
deutlich abgesunkene Leistungsniveau ihres tens ist die Person des Auftraggebers (und da-
Sohnes wieder angehoben werden kann, der mit Lesers) des Gutachtens im Auge zu be-
Psychologie aber vermutet, dass hier zunächst halten. Dabei ist nicht nur das naheliegende
andere problematische Bedingungen verändert Problem zu berücksichtigen, dass eine Rei-
werden müssen, bevor man sich mit dem schu- he von Begriffen, die aus der Wissenschaft
lischen Leistungsverhalten befassen kann. stammen (z. B. Intelligenz, Hysterie oder Neu-
rotizismus), auch in der Umgangssprache ver-
Als nächstes stellt sich dann die Frage, ob zur wendet werden, allerdings häufig mit veränder-
Bearbeitung des Falls psychologisches Wissen ter (meist vager) Bedeutung. Damit der Emp-
vorhanden ist und wer der für diese Bearbei- fänger das im Gutachten übermittelte Wissen

389
13 Integration diagnostischer Befunde und Gutachtenerstellung

auch adäquat aufnehmen, d. h. in die konkrete Im handlungstheoretischen Modell des Dia-


Wirklichkeit seiner Arbeit mit der begutachte- gnostizierens war als erstes die Phase der „Ein-
ten Person (z. B. dem aggressiven und delin- gangsdaten“ beschrieben worden. Diese Da-
quenten Jugendlichen) integrieren kann, muss ten, die als Vorgeschichte zusammengefasst
dieses Wissen in operationalisierter Form, al- werden, können aus sehr unterschiedlichen
so in einem Bezugssystem verankert, über- Quellen stammen, etwa aus Fragestellungen
mittelt werden. Eine derartige Verankerung von außen (z. B. Klagen oder Wünschen), Be-
wird durch eine – noch genauer darzustellende richten, Zeugnissen, Protokollen u. Ä. Sie bil-
– präzise Beschreibung der Erhebungsinstru- den die Grundlage für das Tätigwerden des
mente und der Datenauswertung erreicht. Psychologen, sind aber noch nicht der Auftrag
selbst.
Generell muss sich der Psychologe bei der
Formulierung des Gutachtens von der Frage Diese Vorinformationen werden vom Psycho-
leiten lassen, wie der Empfänger (z. B. ein logen nach mindestens zwei aufeinander bezo-
Heimerzieher) sein Verhalten gegenüber dem genen Gesichtspunkten bewertet. Zum einen
Klienten (etwa einem jugendlichen Heimbe- müssen sie hinsichtlich ihrer Quellen gewich-
wohner) ausrichten muss, damit bei diesem tet werden; zum anderen dienen sie der For-
eine gewünschte Änderung (etwa Abbau von mulierung erster Hypothesen und damit der
Aggressionen und delinquentem Verhalten) er- Planung des weiteren diagnostischen und prak-
folgen kann (Kaminski, 1970; S. 589ff). Geän- tischen Tuns. Aufeinander bezogen sind diese
dert werden beim Empfänger durch das Gut- beiden Gesichtspunkte insofern, als die Güte
achten ja zunächst einmal (wenn überhaupt) einer Informationsquelle natürlich die Hypo-
nur Kognitionen (also etwa die Art und Weise, thesenbildung mitbestimmt. Deshalb ist bei
wie der Erzieher das problematische Verhal- der Prüfung der Qualität dieser Quellen beson-
ten, dessen Funktion und Bedingungen sieht). dere Sorgfalt geboten. Diese ist auch deshalb
Angestrebt sind aber beim Empfänger und der angezeigt, weil bestimmte Vorinformationen
Umgebung insgesamt bestimmte Veränderun- im Gutachten ja auch, neben den vom Psy-
gen, die dann zu zielbezogenen Modifikatio- chologen eigenständig und hypothesengeleitet
nen bei der betroffenen Person (z. B. dem er- erhobenen Daten, aufgeführt werden. Dement-
wähnten Jugendlichen) führen sollen. sprechend ist im Gutachten auch eine Do-
kumentation der Vorinformationen und ihrer
Bei der Erstellung des Gutachtens ist auch im Quellen notwendig.
Auge zu behalten, dass der Psychologe meist Der nächste im Gutachten darzustellende
kein (oder nur recht vages) Feedback vom Schritt besteht in der Bildung und Beurteilung
Empfänger erhält. Läge dieses Feedback vor, von Hypothesen (bzw. „psychologischen Fra-
dann entspräche die Tätigkeit des Psychologen gen“,Westhoff & Kluck, 2008). Diese steuern
der in I Kap. 7 beschriebenen praktischen nicht nur das weitere diagnostische und prak-
Phase mit ihren Prüfprozessen und eventuellen tische Vorgehen, sondern machen den gesam-
feedbackgesteuerten Modifikationen des prak- ten Prozess der Begutachtung auch zugleich
tischen Vorgehens (siehe I Abb. 7.2, S. 194). für den Empfänger transparent und nachprüf-
Gutachten sind aber in der Regel einmalige bar. Art und Inhalt dieser Hypothesen sowie
Akte. Das bedeutet, dass die vom Psychologen der Prozess ihrer Generierung und Beurteilung
ermittelten Tatbestände im Gutachten derart waren in I Kap. 7 besprochen worden.
in Worte gefasst werden, dass der Empfänger
darauf hin sein Verhalten so steuern kann, wie Der Untersuchungsplan dient der Überprü-
es im Gutachten vorgesehen ist. fung der auf der Grundlage der bisher vorlie-

390
13.4 Aufbau eines psychologischen Gutachtens

genden Daten formulierten Hypothesen. Wie Übersichtlichkeit zweckmäßigerweise geglie-


in I Kap. 7 dargestellt, muss es sich bei der dert nach den einzelnen Quellen (Tests, Inter-
Erstellung eines derartigen Planes keineswegs views, Verhaltensbeobachtungen, Akten u. Ä.;
um einen einmaligen Akt handeln. Vielmehr für eine Beispieldarstellung vgl. Westhoff &
ist diese Planung feedbackgesteuert. Die „dia- Kluck, 2008).
gnostische Schleife“ wird so lange durchlau-
fen (d. h. der Untersuchungsplan entsprechend Da die einzelnen Verfahren mit den speziellen
modifiziert), bis sich eine Aussage formulieren Fragen, zu deren Beantwortung sie eingesetzt
lässt, die eine Entscheidung (etwa eine Selek- wurden, bereits im Untersuchungsplan darge-
tionsempfehlung oder die Durchführung einer stellt wurden, genügt an dieser Stelle eine Nen-
bestimmten Modifikation) begründen kann. nung der Datenquelle. Die Ergebnisse normier-
ter Tests werden in der Regel als Standardwer-
Der in der anschließenden Untersuchung zu te angegeben (IQ, T-Wert, Prozentrang usw.;
realisierende Plan besteht aus zwei Teilen, I Kap. 3), wobei im Manual zu diesen Tests
der Grob- und der Feinplanung (Westhoff & häufig mehrere derartige Werte aufgeführt wer-
Kluck, 2008). Die Grobplanung enthält die auf den (etwa T-Werte und Prozentränge). Wo im-
die Hypothesen bezogenen und durch diese be- mer dies möglich ist, sollten die Ergebnisse im
gründeten Erhebungsverfahren. Diese können Gutachten auch als Prozentränge ausgedrückt
aus psychologischen Tests, Interviews, Verhal- werden, da diese dem psychologischen Lai-
tensbeobachtungen oder von Dritten eingehol- en leichter zu veranschaulichen sind als etwa
ten Informationen (Ergebnisse ärztlicher Un- T-Werte. In vielen Untersuchungen stammen
tersuchungen, Zeugnisse u. Ä.) bestehen. Im wesentliche Informationen aus dem psycho-
Gutachten wird jede dieser Informationsquel- logischen Gespräch. Diese werden zweckmä-
len in einer für den Empfänger verständlichen ßigerweise nach Themen getrennt dargestellt,
Form beschrieben und ihr Bezug zu den Hy- z. B. Interessen, Wünsche, Ziele; Lernen und
pothesen dargestellt. Die nur für den internen Arbeitsstil; emotionale Befindlichkeit; soziale
Untersuchungsablauf relevante, und damit im Beziehungen; Gesundheit (vgl. auch Westhoff
Gutachten nicht darzustellende, Feinplanung & Kluck, 2008). In der Ergebnisdarstellung
regelt den Ablauf des Geschehens. (Bei wem, wird auch das Verhalten der Klienten während
wann und auf welche Weise Daten bzw. Infor- der Untersuchung beschrieben (Erscheinungs-
mationen erhoben werden.) bild, sprachlicher Ausdruck, allgemeines Ver-
Schließlich gehört zu jedem Plan noch eine halten u. Ä.).
Kosten-Nutzen-Analyse. Diese wird für jede
Informationsquelle sowie für den Klienten, Von der reinen Ergebnisdarstellung zu trennen
den Auftraggeber, den Gutachter und sonstige ist die Interpretation bzw. Bewertung dieser
Betroffene erstellt. Im Sinne der beschriebe- Ergebnisse. Dabei muss einerseits die Messge-
nen sequenziellen Strategien (I Kap. 6) ist nauigkeit der einzelnen Verfahren berücksich-
dabei ggf. insbesondere auch zu prüfen, wie, tigt, andererseits auf die Rahmenbedingungen,
unter Berücksichtigung der Testgüte, das Ver- unter denen die jeweiligen Daten erhoben wur-
hältnis von Kosten und Nutzen optimiert wer- den, eingegangen werden. So kann beispiels-
den kann. weise ein Wert in einem Leistungstest Unter-
schiedliches bedeuten, je nachdem, ob er an
In der Ergebnisdarstellung werden alle Infor- zentraler Stelle innerhalb einer Eignungsun-
mationen, die der Beantwortung der zuvor tersuchung erhoben wurde oder im Rahmen
formulierten psychologischen Fragen dienen, einer umfassenderen, nicht speziell eignungs-
aufgeführt. Dies geschieht aus Gründen der diagnostisch orientierten Untersuchung.

391
13 Integration diagnostischer Befunde und Gutachtenerstellung

Im Befund werden die zu jeder psychologi- Klienten in einer vom Psychologen intendier-
schen Frage erhobenen Informationen zusam- ten Weise ausrichtet. (Für weitere Formulie-
mengestellt und zu einer Aussage integriert. rungen, die zu vermeiden bzw. anzustreben
Dabei ist es wichtig, auch auf eventuelle Wi- sind, Schmidt, 1995.)
dersprüche zwischen einzelnen Daten einzu-
gehen. So könnte ein Schüler etwa vergleichs- Die einzelnen Befunde werden im Gutachten
weise schlecht im Handlungsteil eines Intelli- Schritt für Schritt so dargestellt, dass sich aus
genztests abschneiden und zugleich eine gu- ihnen die Stellungnahme (Entscheidung, Emp-
te Leistung bei der Lösung eines praktischen fehlung u. Ä.) für den Auftraggeber logisch
Problems in einer Beobachtungssituation zei- nachvollziehen lässt. In diesem abschließen-
gen. Der Untersucher müsste diese Diskrepanz den Teil des Gutachtens werden die Einzel-
nicht nur registrieren, sondern auch Hypothe- befunde also so integriert, dass die Beantwor-
sen zu ihrem Auftreten aufstellen und diagnos- tung der Ausgangsfrage auf den Hintergrund
tisch prüfen. der erhobenen Daten und damit die Erarbei-
tung entsprechender Vorschläge für eine In-
Bei der Formulierung des Befundes sind die tervention möglich werden. Derartige Inter-
Interessen aller Beteiligten angemessen zu be- ventionen müssen sich dabei nicht nur, wie
rücksichtigen. Dass sich Aussagen verbieten, erwähnt, auf Einzelpersonen beziehen, son-
die eine starke Abwertung des Klienten bein- dern können auch Umweltvariablen (z. B. Ar-
halten, versteht sich von selbst. Wo auf De- beitsplätze) zum Ziel haben.
fizite eingegangen werden muss, sollte nach
Möglichkeit auch immer das evtl. vorhande- Empfehlungen müssen immer von dem Po-
ne Potenzial, das durch gezielte Intervention tenzial ausgehen, das Personen bzw. Situatio-
entwickelt werden könnte, beschrieben wer- nen im Hinblick auf eine Veränderung bieten
den. Dies gilt nicht nur für den Leistungsbe- (bzw., umgekehrt, die Stabilität einzelner Ein-
reich, sondern beispielsweise auch für Kompe- flussfaktoren berücksichtigen). Wo jedoch auf
tenzen zur Bewältigung von Belastungs- oder Grund theoretisch fundierten Änderungswis-
Konfliktsituationen. Globale, verabsolutieren- sens (I Kap. 7) Eingriffsmöglichkeiten gese-
de Aussagen (z. B. „ der Klient kann sich nicht hen werden, beschreibt die Stellungnahme die-
konzentrieren“), die nicht auf spezifische Be- se Möglichkeiten, die Bedingungen, die für
dingungen eingehen, sind zu vermeiden. Dies deren Realisierung hergestellt werden müssen,
gilt auch für Darstellungen, die den Vorstellun- die Ziele, die mit dieser Intervention im Sin-
gen einer spezifischen psychologischen „Schu- ne des Auftrags erreicht werden sollen, sowie
le“ entspringen, etwa zu bestimmten „Entwick- eventuelle (unintendierte) Folgen der Interven-
lungsstufen“ bei Kindern. tion.

Die Verwendung von Fachtermini lässt sich Damit sich die wichtigsten Informationen aus
oft nicht vermeiden. Um die Verständlichkeit dem Gutachten dem Empfänger einprägen,
der Aussage für den Empfänger zu gewährleis- empfiehlt sich eine abschließende Zusammen-
ten, genügt es allerdings nicht, diese Begrif- fassung der Fragestellung, der zentralen Be-
fe nur einfach zu übersetzen. Vielmehr muss funde sowie der Vorschläge für eine Interven-
hierbei, wie erwähnt, das kognitive System tion.
des Empfängers (Auftraggebers) berücksich-
tigt werden. In dieses sollten die Aussagen des
Gutachters ja derart integriert werden, dass der
Auftraggeber sein Verhalten gegenüber dem

392
13.4 Aufbau eines psychologischen Gutachtens

Weiterführende Literatur

Hinweise, Übersichten und Beispiele zur Ab-


fassung von Gutachten finden sich in Fisseni
(1982) sowie Westhoff und Kluck (2008).

Fragen zur Wissenskontrolle

1. Was versteht man unter einer psychologi-


schen Begutachtung?
2. Welche allgemeinen Voraussetzungen sind
bei der Abfassung eines Gutachtens zu be-
rücksichtigen?
3. Welche Arten diagnostischer Gutachten las-
sen sich unterscheiden?
4. An welche Adressaten kann sich ein Gut-
achten richten?
5. Wie unterscheidet sich die Fragestellung in
einem Gutachten von den „psychologischen
Fragen“?
6. Welcher Unterschied besteht zwischen den
diagnostischen Ergebnissen und dem Be-
fund?
7. Welche Funktion hat die Stellungnahme in-
nerhalb des psychologischen Gutachtens?

393
V Anwendungsfelder der
Diagnostik
14 Arbeits- und organisationspsychologische
Diagnostik

14.1 Diagnostische Tätigkeiten in Organisationen . . . . . . . . . . . . . . . . . . 398


14.2 Arbeits- und Anforderungsanalyse . . . . . . . . . . . . . . . . . . . . . . . 398
14.3 Diagnostik bei der Person . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404
14.3.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404
14.3.2 Eigenschaftsorientierte Verfahren . . . . . . . . . . . . . . . . . . . . 406
14.3.3 Simulationsorientierte Verfahren . . . . . . . . . . . . . . . . . . . . . 419
14.3.4 Das Assessment Center . . . . . . . . . . . . . . . . . . . . . . . . . . 424
14.3.5 Biographieorientierte Verfahren . . . . . . . . . . . . . . . . . . . . . 431
14.4 Leistungsbeurteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436
14.4.1 Funktionen der Leistungsbeurteilung . . . . . . . . . . . . . . . . . . 436
14.4.2 Kriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436
14.4.3 Dimensionen beruflicher Leistung . . . . . . . . . . . . . . . . . . . . 438
14.4.4 Quellen und Verfahren der Leistungsbeurteilung . . . . . . . . . . . . 438
14.4.5 Beurteilungsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 440
14.4.6 Ausblick: Formale Systeme der Leistungsbeurteilung . . . . . . . . . . 441
14.5 Diagnostik bei der Situation . . . . . . . . . . . . . . . . . . . . . . . . . . . 441
14.5.1 Diagnostik bei der Arbeitsgruppe . . . . . . . . . . . . . . . . . . . . 441
14.5.2 Führungsdiagnostik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
14.5.3 Diagnostik bei der Organisation . . . . . . . . . . . . . . . . . . . . . 454
14.6 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455

Gegenstand der arbeits- und organisationspsy- gen . . . , insbesondere in dessen Funktion als
chologischen Diagnostik ist die Messung des Mitarbeiter . . . einer Organisation“ (Schuler,
Verhaltens und Erlebens von Menschen in Ar- 2014b, S. 14).
beit, Beruf und Organisationen. Sie gehört da-
Da diese Zusammenhänge sowohl aus der Per-
mit zur Methodik der Personalpsychologie, ei-
spektive des Individuums als auch aus der der
nes Teilgebiets der Arbeits- und Organisati-
Organisation betrachtet werden, muss entspre-
onspsychologie.
chend die Messung bei der Person um eine
Die Personalpsychologie betrachtet dabei das Diagnose bei der Situation bzw. den Bedin-
„Individuum in seinen Verhaltens-, Befindens-, gungen (Arbeitsplatz, Arbeitsgruppe, Organi-
Leistungs- und Entwicklungszusammenhän- sation) ergänzt werden.

397
14 Arbeits- und organisationspsychologische Diagnostik

Tab. 14.1 Diagnostische Tätigkeiten in Organisationen

Intervention
Implementierung Selektion/Platzierung Modifikation
Situation Arbeits- und Arbeitsgestaltung (Indikation
Anforderungsanalyse und Evaluation)
Person Eignungsdiagnostik Trainingsmaßnahmen
(Indikation und Evaluation)

14.1 Diagnostische Tätigkeiten in einzelnen Arbeitsaufgabe oder dem Arbeits-


Organisationen platz) durchgeführt werden.
Die Verschränkung von diagnoserelevanten
Merkmalen der Situation und korrespondie-
Wenn wir bei der psychologischen Arbeit in renden Eigenschaften der Person sind in
Organisationen die beiden zentralen Interven- I Tab. 14.2 dargestellt. Das Kapitel beginnt
tionsstrategien der Selektion bzw. Platzierung mit der Analyse der Anforderungen, die durch
und der Modifikation unterscheiden und bei Arbeitsaufgabe und Arbeitsplatz an den Täti-
der Richtung der Implementierung dieser Stra- gen gestellt werden. Daran schließt sich die
tegien nach Situationen bzw. Bedingungen Darstellung der Aufgaben und Methoden für
und Personen differenzieren (I Kap. 1), dann die Diagnostik bei der Person an. Im Sinne
kommen wir zu den in I Tab. 14.1 aufgeliste- der in I Tab. 14.2 genannten Elemente geht
ten vier verschiedenen Tätigkeitsfeldern in Or- es hier zunächst um eine Erhebung generel-
ganisationen. In allen diesen Feldern ist auch ler erfolgsrelevanter Eigenschaften einer Per-
Diagnostizieren gefordert, sei es mit der Ziel- son, um deren tätigkeitsspezifische Fertigkei-
setzung der Feststellung individueller Eignung ten, Fähigkeiten und Kenntnisse sowie um ei-
oder – bei modifikatorischen Interventionen ne Diagnose ihrer Interessen, Bedürfnisse und
(z. B. einem Verhaltenstraining) – der Indikati- Werthaltungen, wie sie durch eine Tätigkeit
on und Evaluation. am Arbeitsplatz nach Möglichkeit befriedigt
werden sollen. Die Diagnostik bei der Person
Allerdings stellen die in I Tab. 14.1 benann- schließt mit der Beurteilung der Leistungen,
ten Anwendungsperspektiven keine vollstän- die Mitarbeiter in der Organisation erbracht
dig voneinander getrennten Einheiten dar. Die haben. Nach der Einzelperson werden größere
Schnittstelle zwischen Situation bzw. Bedin- Einheiten betrachtet, d. h. es werden diagnosti-
gung und Person ist die Arbeitsaufgabe. So sche Erhebungsmöglichkeiten im Rahmen der
ist die der Selektion und Platzierung dienende Arbeitsgruppe, bei der Führung und – als um-
Eignungsdiagnostik natürlich primär person- fassendste Einheit – der Organisation selbst
zentriert. Da es allerdings hier darum geht, beschrieben.
für eine spezifische Bedingung (z. B. einen
Arbeitsplatz mit seinen Aufgaben) aus einer
Reihe von Bewerbern den bestgeeigneten aus-
14.2 Arbeits- und
zusuchen (Selektion) bzw. für eine bestimm-
te Person aus einer Reihe von Bedingungen Anforderungsanalyse
die passende zu finden (Platzierung; vgl. auch
Pawlik, 1976), muss zuvor eine Diagnostik bei Im Zentrum der arbeits- und organisationspsy-
der Situation bzw. den Bedingungen (z. B. der chologischen Diagnostik steht zweifellos die

398
14.2 Arbeits- und Anforderungsanalyse

Tab. 14.2 Situationsmerkmale, Eigenschaften der Person und Kriterien der Passung von
Situation und Person (nach Schuler, 2014a, S. 64)

Situation Person Kriterium


Tätigkeitsspezifische Fähigkeiten Arbeitsleistung
Anforderungen Fertigkeiten
Kenntnisse
Tätigkeitsübergreifende Generelle erfolgsrelevante Berufserfolg
Anforderungen Eigenschaften (z. B.
Allgemeine Intelligenz,
Gewissenhaftigkeit)
Befriedigungspotenzial Interessen Arbeits- und
Bedürfnisse Leistungszufriedenheit
Werthaltungen Beruflicher Einsatz

Feststellung der Eignung potenzieller bzw. ak- sungen oder Vorschriften. Schließlich ist die
tueller Mitarbeiter. Diese Diagnostik dient der Aufgabe natürlich auch noch durch das vorlie-
Selektion bzw. der Platzierung (I Tab. 14.1). gende Material, d. h. Werkzeuge, technische
Selektion und Platzierung sind natürlich nur Einrichtungen u. Ä. bestimmt.
dort sinnvoll, wo man annehmen muss, dass
die Anforderungen des Arbeitsplatzes nicht I Abb. 14.1 zeigt ein von Hackman (1970,
von jedem Beliebigen zufriedenstellend erfüllt S. 213) vorgeschlagenes Schema zur psycho-
werden können, bzw. wo man davon ausgeht, logischen Analyse der Arbeitstätigkeit. Aus-
dass die Verfahren, auf die sich Entscheidun- gangspunkt sind die objektiven Merkmale ei-
gen zur Auswahl von Personen stützen, nicht ner Arbeitsaufgabe, also die Materialien, die
mehr Kosten verursachen, als die Arbeit die- Ziele und die aufgabenbezogenen Informatio-
ser Personen später für die Organisation an nen. Diese Merkmale erfahren zunächst durch
Gewinn einbringt (für eine Berechnung des den Tätigen eine kognitive Verarbeitung im
Nutzens diagnostischer Strategien I Kap. 6). Sinne einer Redefinition. Das subjektive Ver-
ständnis der Aufgabe löst sodann die Hypo-
Erwartet man jedoch, dass die Einstellung ei- thesenbildung und damit den eigentlichen Ar-
nes geeigneten Bewerbers (bzw. die korrekte beitsprozess aus.
Platzierung eines Mitarbeiters) einen deutli-
chen Gewinn für die Organisation erbringt, Für diesen Prozess sind Sollwerte vorgegeben,
so ist vor der eigentlichen eignungsdiagnosti- ferner erfolgt eine Bewertung der Aufgaben-
schen Tätigkeit zunächst eine Arbeits- und An- bearbeitung und ihrer Ergebnisse von außen
forderungsanalyse zu leisten. Auf diese Weise wie auch durch die Person selbst. Der Pro-
soll bestimmt werden, für welche Tätigkeit ei- zess läuft auf dem Hintergrund spezifischer
ne Person besonders geeignet ist. personaler Bedingungen beim Arbeitstätigen
ab, welche die Redefinition (etwas das Verste-
Arbeitstätigkeit wird durch Ziele bestimmt, hen und Akzeptieren eines Auftrags) sowie
die sich aus den Oberzielen der Organisation die Aufgabenbearbeitung und deren Bewer-
ableiten. Diese Ziele verleihen der Tätigkeit tung determinieren. Die Bedingungen besitzen
Aufgabencharakter. Neben den Zielen werden auch Einfluss darauf, ob die mit der Tätigkeit
die Arbeitsaufgaben auch durch bestimmte In- verbundenen Belastungen die Person überfor-
formationen determiniert, etwa durch Anwei- dern oder nicht.

399
14 Arbeits- und organisationspsychologische Diagnostik

Objektive Aufgabe
Materialien
Ziele
Informationen

Subjektive Redefi-
nition der Aufgabe

Persönlichkeits-
merkmale
Kompetenzen Hypothesenbildung
Motivation
Aktuelle Zustände

Arbeitsprozess Sollwerte

Teilergebnisse
Bewertung
Bewertung von außen
durch Person
Endergebnis

Abb. 14.1 Schema zur psychologischen Analyse der Arbeitstätigkeit (nach Hackman, 1970).

Die drei genannten Aspekte der Arbeitstätig- mit auf die Beschreibung der Arbeitssituation,
keit – Materialien, Ziele, Informationen – las- und zwar entweder auf die objektive Aufgabe
sen sich als Arbeitsmerkmale und Anforde- im Sinne Hackmans oder auf den Arbeitsplatz,
rungen zusammenfassen. Entsprechend dient also auf die systematische Zusammenfassung
die Arbeits- und Anforderungsanalyse dazu, einer Anzahl von Aufgaben. So bestimmen
diejenigen Merkmale von Arbeitsvollzügen etwa Aufgaben wie Informieren, Textverarbei-
festzustellen, die an den Mitarbeiter einer Or- tung, Planung und Terminüberwachung den
ganisation als erfolgreich zu bewältigende An- Arbeitsplatz der Sekretärin.
forderungen gestellt werden.
Demgegenüber spiegelt sich in der eher per-
Obwohl in der englischsprachigen Literatur sonorientierten Anforderungsanalyse die Ver-
wie auch in einigen deutschen Texten (z. B. zahnung von Situation und Person wider. In
Weinert, 1987) meist nur ein Begriff („job ihr geht es um eine möglichst detaillierte Be-
analysis“, Arbeitsanalyse) verwendet wird, schreibung des an einem Arbeitsplatz durchzu-
scheint es doch sinnvoll, zwischen Arbeitsana- führenden Verhaltens, die Registrierung seiner
lyse und Anforderungsanalyse zu unterschei- Ausführungsbedingungen sowie die Bestim-
den (vgl. auch Schuler, 2014a). Arbeitsanalyse mung der zur Verhaltensausführung notwen-
ist bedingungsorientiert und bezieht sich da- digen Qualifikationen. Dabei muss allerdings

400
14.2 Arbeits- und Anforderungsanalyse

betont werden, dass bestimmte Verfahren, z. B. nach Merkmalen wie Häufigkeit, Schwierig-
die bekannte Methode der kritischen Ereig- keit, Ausführungsbedingungen u. Ä. beurteilt
nisse (Flanagan, 1954), sowohl bedingungs- werden. Bei der Erstellung derartiger Inven-
als auch personorientierte Elemente enthalten. tare besteht ein Konflikt zwischen den For-
Deshalb schlägt Schuler (2014a) eine differen- derungen nach möglichst hoher Detailliertheit
ziertere Analyse nach den drei Ebenen Aufga- der Beschreibung einerseits und möglichst uni-
be, Verhalten und Eigenschaften vor. Während verseller Einsetzbarkeit der Verfahren ande-
die erste Ebene eindeutig situationsorientiert rerseits. Je detaillierter eine Tätigkeitsanalyse
und die dritte Ebene personorientiert ist, mar- ausfällt, desto stärker ist ihr Einsatz auf spezi-
kiert die Verhaltensebene die enge Verzahnung elle Branchen oder Tätigkeitsklassen begrenzt.
von Situation und Person in der Anforderungs-
Vergleichsweise universell einsetzbar ist das
analyse.
Arbeitswissenschaftliche Erhebungsverfahren
Mit der Durchführung von Arbeits- und Anfor- zur Tätigkeitsanalyse (AET) von Rohmert und
derungsanalysen werden in Organisationen die Landau (1979). Es bewertet Arbeitstätigkeit
folgenden Ziele verfolgt (Ash, 1988; Schuler, nach den Bereichen Arbeitsformen (z. B. In-
2014a; Weinert, 1987): formieren), Arbeitsobjekten und -mitteln, Um-
gebungseinflüssen wie z. B. Lärm oder Ar-
• Gewinnen von Information über
beitssicherheit sowie organisatorischen und
Materialien und Arbeitsabläufe;
wirtschaftlichen Aspekten der Tätigkeit. Mög-
• Analyse von Arbeitsprozessen und lichst detaillierte (und damit auch nur begrenzt
Unfallursachen; einsetzbare) Beschreibungen sind dort gefor-
• Koordination der Verantwortlichkeiten in dert, wo die Ziele Personalplanung und Trai-
Arbeitsgruppen und der Organisation; ning im Vordergrund stehen. Ein allgemeines,
• Bestimmung der Anforderungen zwischen für verschiedene Tätigkeitsklassen konkreti-
Organisationsteilen und -ebenen; sierbares, Analyseschema stellt die Hierarchi-
• Kriterien zur Selektion und Platzierung sche Aufgabenanalyse von Annett und Dun-
(einschließlich Beförderung) von can (1967) dar. Ein Beispiel für eine hierauf
Mitarbeitern; basierende Analyse einer konkreten Tätigkeit
• Kriterien zur Einstufung der (Diagnose einer elektrischen Störung an einer
Arbeitsleistung, der Be- und Entlohnung; Maschine) wird in Schuler (2014a) gegeben.
• Personalplanung; Bei der Analyse auf Verhaltensebene lassen
• Erstellung von Trainingsprogrammen zur sich verschiedene Ansätze unterscheiden. Den
Personalentwicklung. unmittelbarsten Zugang liefert die direkte Be-
obachtung des Tätigen bei der Arbeit mit dem
In unserer Darstellung folgen wir der Eintei-
Ziel der Identifizierung der anfallenden Ar-
lung von Schuler und beginnen mit der Ana-
beitselemente und Anforderungen. Im Prin-
lyse auf Aufgabenebene. Sodann folgen die
zip können derartige Beschreibungen auch
Verhaltens- und die Eigenschaftsebene. Nicht
vom ausführenden Mitarbeiter geliefert wer-
dargestellt werden Ansätze zur Analyse umfas-
den. Ferner kann der Analytiker die Tätigkeit
sender Arbeitssysteme, da hier der Bereich der
eigenständig – sozusagen im Selbstversuch –
psychologischen Diagnostik verlassen wird.
durchführen und anschließend detailliert be-
Bei der Analyse auf Aufgabenebene werden schreiben. Weitere Erhebungsmöglichkeiten
die objektiven Tätigkeiten und deren Ele- sind – am Mitarbeiter durchzuführende – Inter-
mente beschrieben. Dies geschieht mit Hilfe views und Fragebogen. Eine Kombination von
sog. Aufgabeninventare, in denen Aufgaben Beobachtung und Interview bzw. Fragebogen

401
14 Arbeits- und organisationspsychologische Diagnostik

stellen die standardisierten Beobachtungsin- 1. Dimensionen der Stelle (z. B. Variation, Au-
terviews dar. Hierbei handelt es sich um Fra- tonomie, Aufgabensignifikanz, Identifizier-
gebogen, deren einzelne Items im Anschluss barkeit der Aufgabe);
an Beobachtungen von Experten beantwortet 2. psychische Auswirkung der Stelle auf den
werden. Inhaber (z. B. Sinngehalt, Verantwortung
für Ergebnisse, Kenntnis der Ergebnisse);
Das klassische, auch heute noch weit verbrei- 3. affektive Reaktionen auf die Stelle (z. B. Ar-
tete, Verfahren zur direkten Beobachtung der beitszufriedenheit, Arbeitsmotivation);
Arbeitstätigkeit ist die bereits erwähnte Me- 4. Entwicklungsbedürfnis (Bedürfnis, eine in-
thode der kritischen Ereignisse („critical in- trinsisch motivierende Arbeit zu tun);
cident technique“, CIT) von Flanagan (1954). 5. Motivationspotenzial (Anreizwert) der Stel-
Hierbei geht es um die direkte Erfassung und le.
Beschreibung von Schlüsselelementen bzw.
Das bekannteste Beispiel für ein standardi-
-ereignissen für effiziente oder ineffiziente Ar-
siertes Beobachtungsinterview ist das Positi-
beitsweisen (z. B. Verwenden von Ressourcen,
on Analysis Questionnaire (PAQ; McCormick
Fällen von Entscheidungen, Lösen von Pro-
& Jeanneret, 1988). Im PAQ werden mit 194
blemen) durch qualifizierte Beobachter. Die
auf Arbeitselemente bezogenen Items sechs
Prozedur ist halbstandardisiert und daher an
Hauptsektionen des Arbeitsverhaltens erfasst.
verschiedene Arbeitsplätze adaptierbar. In der
Diese Sektionen sind für eine große Anzahl
Regel wird sie zur Analyse von Arbeitspro-
von Berufen und Positionen relevant:
zessen in Führungspositionen verwendet. Sie
besteht aus den folgenden Schritten (Schuler, 1. Informationsaufnahme (Quellen der Infor-
2014a): mation);
2. Informationsverarbeitung und -abruf (Quel-
1. Bestimmung der Ziele der Tätigkeit; len von Urteilen und Entscheidungen);
2. Training von Beobachtern, die das Arbeits- 3. Arbeitsmittel;
verhalten in Bezug auf die Zielerreichung 4. Interpersonelle Aktivitäten (persönliche
beurteilen sollen; Kontakte, Beaufsichtigung, Anleitung, Ko-
3. Erhebung von „critical incidents“, die zu ordination);
einer guten bzw. schlechten Arbeitsausfüh- 5. Arbeitssituation (physiologische, psycholo-
rung beitragen; gische und soziale Aspekte);
4. Auswertung und Interpretation; 6. diverse Aspekte (Arbeitszeit, Be- und Ent-
5. ggf. modifikatorische Interventionen (Per- lohnung, Anforderungen, Verantwortung).
sonalentwicklung, Training, Situationsmo-
Eine deutsche Bearbeitung einer Vorform
difikation).
des PAQ (McCormick, Jeanneret & Mecham,
1972) ist der Fragebogen zur Arbeitsanalyse
Ein vom Stelleninhaber zu beantwortender (FAA; Frieling & Hoyos, 1978). Im Gegen-
Fragebogen ist das Job Diagnostic Survey satz zum PAQ erfasst der FAA nur vier in-
(JDS; Hackman & Oldham, 1975). Da es hier haltliche Bereiche: Informationsaufnahme und
um subjektive Reaktionen geht, wird dieses -verarbeitung, Arbeitsausführung, arbeitsrele-
Verfahren besonders dazu verwendet, Arbeits- vante Beziehungen, Umgebungseinflüsse und
bedingungen zu identifizieren, die ein hohes besondere Bedingungen. In 221 Items wird
bzw. niedriges Motivationspotenzial besitzen. die Bedeutung einzelner Arbeitselemente im
Die Reaktionen des Mitarbeiters lassen sich Arbeitsprozess erhoben, z. B. die Nutzung ge-
dabei den folgenden Dimensionen zuordnen: druckten Materials als Element des Bereichs

402
14.2 Arbeits- und Anforderungsanalyse

Informationsaufnahme und -verarbeitung. Da- Das Vorgehen bei der synthetischen Validie-
bei werden auf mehrstufigen Skalen an den rung vollzieht sich in mehreren Schritten. In
einzelnen Elementen verschiedene Aspekte Schritt 1 wird eine bestimmte Arbeitstätigkeit
beurteilt, z. B. Häufigkeit, Wichtigkeit oder in Cluster homogener Arbeitselemente zerlegt.
Zeitdauer des einzelnen Elements. So wird Bei diesem Vorgehen empfiehlt sich eine mitt-
etwa die Häufigkeit der Verwendung gedruck- lere Ebene der Detailliertheit. Bei einer zu gro-
ten Materials zur Arbeitsinformation auf einer ben Kategorisierung dürfte es schwer fallen,
fünfstufigen Skala eingeschätzt. Testverfahren zu finden, die möglichst genau
die zur Ausführung dieser Arbeitselemente
Bei der Anforderungsanalyse auf Eigen- notwendigen personalen Voraussetzungen (Fä-
schaftsebene geht es um die Frage, welche higkeiten, Kenntnisse, Interessen u. Ä.) erfas-
Merkmalsausprägungen (im Bereich der in sen. Bei einer zu feinen Kategorisierung wird
I Tab. 14.2 aufgelisteten Personmerkmale) dagegen eine Generalisierung der bestimmten
ein Stelleninhaber aufweisen muss, um den Elemente auf andere Tätigkeiten schwierig.
Anforderungen eines Arbeitsplatzes gerecht Als geeignetes Instrument zur Analyse von Ar-
zu werden. Bei dem Versuch, aus der Analyse beitstätigkeiten auf mittlerer Detailebene ha-
der an einem Arbeitsplatz durchzuführenden ben sich das PAQ bzw. seine deutsche Version,
Tätigkeiten zur Bestimmung von Eignungsan- der FAA, erwiesen.
forderungen zu kommen, wurden verschiede-
ne Wege beschritten. In Schritt 2 werden, etwa mit Hilfe des PAQ
(FAA), die Wichtigkeit einzelner Arbeitsele-
Wenig brauchbar ist dabei ein Vorgehen, bei mente und der diesen zugeordneten personalen
dem Personen, die irgendwie (z. B. als Vorge- Voraussetzungen für diese Arbeitstätigkeiten
setzte) mit der Besetzung einer Stelle befasst bestimmt. Diese Festlegung geschieht über die
sind, intuitiv ein Anforderungsprofil für diese Berechnung von drei Matrizen (I Abb. 14.2;
Stelle zusammenstellen. Kaum erfolgverspre- vgl. Schuler, 2014a). In Matrix I wird für m
chender ist eine quasi-empirische Methode, Arbeitstätigkeiten die Wichtigkeit von n Ar-
bei der (relativ global) Merkmalsausprägun- beitselementen bestimmt. In Matrix II wird für
gen typischer oder erfolgreicher Stelleninha- jedes dieser n Elemente die Wichtigkeit von p
ber als Anforderungsprofil festgelegt werden. Persönlichkeitsmerkmalen im Hinblick auf ei-
Brauchbarer ist dagegen ein rationaler Ansatz, ne erfolgreiche Arbeitsausführung angegeben.
die sog. „synthetische Validierung“ (siehe u. a. Wenn man diesen Merkmalen jeweils spezifi-
McCormick, DeNisi & Shaw, 1979). sche Testverfahren zuordnet, so stellen diese
Werte im Prinzip Validitätsangaben dar. Ma-
Bei der synthetischen Validierung geht es dar- trix III ist das Produkt aus I und II. Ihre Werte
um, auf möglichst ökonomische Weise Test- geben also an, wie wichtig bestimmte Persön-
batterien zusammenzustellen, aus denen sich lichkeitsmerkmale (und damit Testverfahren)
die Eignung von Personen für verschiedene zur Prognose des Erfolgs bei bestimmten Ar-
Arbeitstätigkeiten (z. B. als Verkäufer, Sachbe- beitstätigkeiten sind.
arbeiter, Bankangestellter) vorhersagen lässt.
Ökonomie wird dabei dadurch erreicht, dass Durch Inspektion der Matrix I lassen sich nun
eine bestimmte Testbatterie nur für eine derar- Arbeitstätigkeiten finden, die einander hin-
tige Tätigkeit validiert werden muss und die sichtlich ihrer Arbeitselemente sehr ähnlich
ermittelten Validitätswerte dann auf weitere sind (sog. „job families“; Colbert & Taylor,
– ähnlich strukturierte – Tätigkeiten generali- 1978). Wenn man davon ausgeht, dass die er-
siert werden können. folgreiche Ausführung eines Arbeitselements

403
14 Arbeits- und organisationspsychologische Diagnostik

PM
AE 1 2 PM
1 2 3 4 1 5 3 1 2
1 4 2 1 5 2 1 2 1 45 27
AT 2 3 5 2 1 AE 3 3 1 AT 2 30 23
3 1 0 5 4 4 4 2 3 36 16
Matrix I Matrix II Matrix III
In Matrix I ist für drei Arbeitstätigkeiten (AT) die Wichtigkeit von vier Arbeitselementen (AE) angegeben.
In Matrix II ist für jedes der vier AE die Wichtigkeit von zwei Persönlichkeitsmerkmalen (PM) bestimmt.
Die Elemente der Matrix III sind das Produkt aus den entsprechenden Elementen der Matrizen I und II
und geben an, wie wichtig ein bestimmtes PM (bzw. der zugeordnete Test) zur Prognose des Erfolgs bei
einer bestimmten AT ist. Beispiel: PM1 hat bei der Prognose des Erfolgs bei AT1 den Wert 45. Dieser wird
gebildet aus (4 x 5) + (2 x 1) + (1 x 3) + (5 x 4) = 45.

Abb. 14.2 Bestimmung der Wichtigkeit einzelner Arbeitselemente und der diesen
zugeordneten personalen Voraussetzungen für einzelne Arbeitstätigkeiten im
Rahmen der synthetischen Validierung (nach Schuler, 2014a, S. 81).

stets von denselben personalen Voraussetzun- Kontext, in dem sie sich vollziehen, stärker
gen bestimmt wird, unabhängig davon, in wel- wechselt (wie dies etwa in den serviceorientier-
cher konkreten Arbeitstätigkeit dieses Element ten Berufen der Fall ist), dürfte dieser Ansatz
auftaucht, so bedeutet dies, dass ein diagnos- zur Anforderungsanalyse auf Eigenschaftsebe-
tisches Verfahren, das einem bestimmten Ele- ne nur noch begrenzt brauchbar sein.
ment zugeordnet ist, im Prinzip nur einmal va-
lidiert werden muss. Danach kann es dann zur
Prognose des Erfolgs bei allen Tätigkeiten ver-
wendet werden, bei denen dieses Element ei- 14.3 Diagnostik bei der Person
ne ähnlich hohe Wichtigkeit hat. Testbatterien
müssen also nicht für jeden Tätigkeitsbereich
neu validiert werden, sondern ihre Validität 14.3.1 Überblick
kann aus den bereits bekannten Validitäten der
auf Einzelelemente bezogenen Testverfahren
synthetisiert werden. Die im vorangegangenen Abschnitt behan-
delten Ansätze zur Anforderungsanalyse auf
Problematisch an der synthetischen Validie- Eigenschaftsebene bilden den Übergang zur
rung ist, dass die Generalisierung der Validität nun darzustellenden Diagnostik bei der Per-
eines Eignungstests eigentlich nur dort mög- son. Im organisationspsychologischen Kon-
lich ist, wo einfache und standardisierte An- text handelt es sich hierbei um Berufseig-
forderungen gestellt werden. Häufig spielen nungsdiagnostik. Diese Eignungsdiagnostik
hier motorische oder andere physische Eig- ist allerdings keineswegs auf die Erhebung
nungsmerkmale eine zentrale Rolle, wie auch von Fähigkeiten, Fertigkeiten oder Kennt-
die meisten Untersuchungen zeigen, in denen nissen beschränkt. Neben diesen kognitiven
die Brauchbarkeit dieses Ansatzes überprüft und motorisch-physischen Merkmalen haben
wurde (Übersicht in Dunnette, 1976). Sobald sich auch motivationale Charakteristika wie
Tätigkeiten komplexer werden, d. h. auch der Motive, Interessen oder Einstellungen sowie

404
14.3 Diagnostik bei der Person

Persönlichkeitseigenschaften i. e. S., z. B. Ex- Leistung bezeichnet das – meist nach einer be-
traversion, Gewissenhaftigkeit oder affekti- stimmten Einarbeitungszeit oder einem Trai-
ven Dispositionen, als Prädiktoren beruflicher ning erreichte – momentane Niveau der Ar-
Leistung erwiesen. beitsausführung.

In der Alltagssprache besitzen die Begrif- Dementsprechend ist ein wesentliches Kenn-
fe Eignung, Fähigkeit, Fertigkeit, Kenntnis- zeichen der Berufseignungsdiagnostik ihr mul-
se und Leistung Bedeutungshöfe, die einan- timethodisches Vorgehen. Eignungsdiagnosen
der zum Teil überlappen. An dieser Stelle beruhen so gut wie nie auf einem einzi-
bestimmen wir Fähigkeit (ability) im Sinne gen Testverfahren (etwa einem Intelligenztest)
des in I Kap. 12 dargestellten Intelligenzkon- oder auch nur auf einer einzigen Klasse dia-
zepts, wobei wir zwischen allgemeiner Intel- gnostischer Verfahren (etwa verschiedenen Fä-
ligenz (dem Intelligenzfaktor g) und spezifi- higkeitstests). Stattdessen werden zur Progno-
schen Fähigkeiten (von denen viele, aber nicht se in der Regel mehrere, oft sehr unterschied-
alle Komponenten der allgemeinen Intelligenz liche diagnostische Ansätze realisiert (etwa
sind) unterscheiden. Fähigkeitstest, Persönlichkeitsfragebogen, si-
mulationsorientierte Verfahren). Hierbei stellt
Der Begriff Fertigkeit (skill) wird meist ver- sich natürlich zum einen die Frage nach dem
wendet, um spezielle Aspekte der motorischen Verhältnis von Aufwand und Ertrag und zum
oder physischen Leistungsfähigkeit einer Per- anderen das Problem der optimalen Kombina-
son zu beschreiben. Derartige Fertigkeiten tion der Testdaten zur Gewinnung eines aussa-
können sehr eng angelegt sein (z. B. Finger- gekräftigen Scores zur Vorhersage beruflichen
geschicklichkeit) oder einen weiteren Bereich Erfolgs (I Kap. 5 und 6; für eine Übersicht zu
von Merkmalen umfassen (wie sie z. B. für die eignungsdiagnostischen Verfahren siehe auch
Bedienung und Überwachung einer Maschi- Sarges & Wottawa, 2004).
ne gefordert werden). Im letztgenannten Fall
können dann auch kognitive Fähigkeiten (z. B. In Deutschland werden jährlich etwa 30 bis
Konzentrationsfähigkeit oder Wahrnehmungs- 50 Millionen Personalentscheidungen gefällt.
geschwindigkeit) zu Fertigkeiten beitragen. Um die wissenschaftliche Qualität der Eig-
nungsbeurteilungen, auf denen diese Entschei-
Kenntnis (knowledge) bezieht sich auf den je- dungen beruhen, zu gewährleisten, wurden die
weiligen arbeitsbezogenen Wissensstand (z. B. Anforderungen, denen Verfahren und deren
hinsichtlich der Regeln für Rechtschreibung, Einsatz bei Eignungsbeurteilungen genügen
Zeichensetzung und Formatierung von Schrift- müssen, in der DIN 33430 festgelegt (West-
stücken bei der Arbeit einer Sekretärin). hoff et al., 2010). Diese Norm dient als Leitfa-
den für die Planung und Durchführung derarti-
Eignung (aptitude) meint immer „Eignung wo- ger Beurteilungen, liefert den Maßstab für die
für?“. Damit wird also die Struktur personaler Bewertung berufsbezogener Eignungsfeststel-
Merkmale beschrieben, die Voraussetzung für lungen, trägt bei zur Qualitätssicherung und
die erfolgreiche Ausführung einer bestimmten -optimierung von Personalentscheidungen und
Arbeitstätigkeit ist. Eignung bezieht sich dabei schützt schließlich auch den Kandidaten vor
fast nie auf nur ein spezifisches Personmerk- der unsachgemäßen Anwendung von Verfah-
mal (etwa Verbalfähigkeit), sondern meist auf ren zur Eignungsdiagnostik.
die Kombination oft sehr unterschiedlicher
Merkmale (z. B. spezifische Fähigkeiten, Fer- Eignungsdiagnostische Ansätze lassen sich
tigkeiten, Kenntnisse und Persönlichkeitsei- nach verschiedenen Gesichtspunkten klas-
genschaften). sifizieren. So unterscheiden etwa Schuler

405
14 Arbeits- und organisationspsychologische Diagnostik

und Höft (2007) zwischen eigenschafts-, in die jüngste Zeit hinein wurde dabei der Ana-
simulations- und biographieorientierten Ver- lyse der Beziehung zwischen kognitiven Merk-
fahren. Diese Einteilung orientiert sich an den malen (speziell Fähigkeiten) und Leistung das
im vorangegangenen Abschnitt beschriebenen größte Gewicht eingeräumt, während andere
Ebenen der Anforderungsanalyse und den da- Persönlichkeitsvariablen bzw. Kriterien rela-
mit verbundenen unterschiedlichen Zugängen tiv wenig Aufmerksamkeit erfuhren (Murphy,
zur Bestimmung der Validität der jeweiligen 1996a)
Verfahren. So werden eigenschaftsorientier-
te Verfahren primär nach den Maßstäben der Kognitive Merkmale. Verfahren, mit denen
Kriteriums- bzw. Konstruktvalidität geprüft, kognitive Merkmale erhoben werden sollen,
simulationsorientierte Verfahren (z. B. Arbeits-werden nach Tests der allgemeinen kogniti-
proben) dagegen nach denen der Inhaltsva- ven Fähigkeit und Tests spezifischer Fähig-
lidität (I Kap. 3). In biographieorientierten keitsaspekte unterschieden. Der Begriff der
Ansätzen werden meist Vorgehensweisen aus allgemeinen kognitiven Fähigkeit entspricht
unterschiedlichen Kategorien realisiert. Wir dabei dem der allgemeinen Intelligenz („g“;
übernehmen die Einteilung von Schuler und I Kap. 12). Obwohl sich von den verschiede-
Höft und differenzieren darüber hinaus noch nen Modellen der Intelligenz, die im Laufe der
einmal (insbesondere bei den eigenschaftsori- Jahre entwickelt wurden, bislang keines durch-
entierten Verfahren) nach Verfahren zur Erhe- setzen konnte, besteht innerhalb der entspre-
bung von kognitiven Fähigkeiten, Kenntnissen chenden Testverfahren doch insofern Überein-
sowie motorisch-physischen, motivationalen stimmung, als praktisch alle Tests (unabhän-
und persönlichkeitsspezifischen Merkmalen. gig von ihrer theoretischen Fundierung) die
Messung einer allgemeinen Intelligenz (aus-
gedrückt im Intelligenzquotienten, IQ) gestat-
14.3.2 Eigenschaftsorientierte ten. Darüber hinaus erlauben die meisten Ver-
Verfahren fahren die getrennte Bestimmung spezifischer
Unterklassen der allgemeinen Intelligenz wie
Mit eigenschaftsorientierten Verfahren werden etwa Verbalfähigkeit oder räumliches Vorstel-
sehr unterschiedliche Merkmale erfasst, u. a. lungsvermögen.
Personmerkmale (wie z. B. allgemeine Intelli-
genz, Konzentrationsfähigkeit, Gewissenhaf- Tests der allgemeinen Intelligenz gehören (ne-
tigkeit oder Leistungsmotiviertheit), die nicht ben Arbeitsproben) zu den besten Prädiktoren
speziell für die Vorhersage des Erfolgs bei ei- beruflichen Erfolgs (vgl. u. a. Ree, Earles &
ner bestimmten beruflichen Tätigkeit konzi- Teachout, 1994; Schmidt & Hunter, 1998). Die
piert wurden. Dementsprechend wurden die allgemeine Fähigkeit beeinflusst dabei direkt
meisten dieser Verfahren auf der Basis der Geschwindigkeit und Ausmaß des Erwerbs
Klassischen Testtheorie (I Kap. 3) konstru- von Arbeitswissen, das wiederum die Güte der
iert, wobei transsituative und transtemporale späteren (technischen) Leistung determiniert
Stabilität von Personmerkmalen vorausgesetzt (Hunter, 1983). Wenn man beim Arbeitswis-
wurde. Ihre Bedeutung im Kontext arbeits- sen noch einmal nach deklarativem Wissen
und organisationspsychologischer Diagnostik (Fakten, Regeln, Prinzipien und Vorgehens-
erhielten diese Verfahren durch eine Fülle em- weisen) und prozeduralem Wissen (Wissen,
pirischer Forschungen, in denen ihre Qualität was jeweils zu tun ist) differenziert (Kanfer &
zur Prognose beruflichen Erfolgs nachgewie- Ackerman, 1989), so scheinen Fähigkeitstests
sen wurde (für eine Übersicht und Metaanaly- besonders das deklarative Wissen vorherzusa-
se siehe u. a. Schmidt und Hunter, 1998). Bis gen (McCloy, Campbell & Cudeck, 1994).

406
14.3 Diagnostik bei der Person

Ansätze zur Erfassung der allgemeinen Intelli- Einen wesentlichen Anstoß zur inhaltlichen
genz und ihrer zentralen Komponenten werden Bestimmung spezifischer Fähigkeiten liefer-
in I Kap. 12 ausführlich behandelt. An dieser ten Modelle, die eine multifaktorielle Struktur
Stelle können wir uns deshalb auf die Messung der Intelligenz unterstellten. So entwickelte
spezifischer Fähigkeiten, wie sie besonders für Guilford (1967) ein komplexes Modell, das be-
die Prognose des beruflichen Erfolgs relevant sondere Bedeutung für die Erfassung kreativen
sind, konzentrieren. bzw. divergenten Denkens und die Entwick-
lung einer Reihe entsprechender Testverfahren
Diagnostische Verfahren zur Erhebung von
erlangt hat (I Kap. 12).
Fähigkeiten werden mit Cronbach (1990) als
Tests der Maximalleistung klassifiziert und da- Die auf der Grundlage multifaktorieller In-
mit Tests des typischen Verhaltens, mit denen telligenzmodelle (z. B. Thurstone, 1938) be-
Persönlichkeitsmerkmale i. e. S. erfasst wer- schriebenen spezifischen Fähigkeiten sind
den sollen, gegenübergestellt (I Kap. 3). Die- ein Beispiel für kognitive Merkmale in der
se Beschreibung mag für die eigentlichen Test- Eignungsdiagnostik, die direkt anhand her-
verfahren gelten, sie gilt aber nicht notwendi- kömmlicher mehrdimensionaler Intelligenz-
gerweise für die Kriterien (z. B. die Leistung tests (I Kap. 12) gemessen werden können.
am Arbeitsplatz), die diese Tests vorhersagen Die verschiedenen Aspekte der Kreativität wie
sollen und an denen sie letztlich validiert wer- auch der komplexen Informationsverarbeitung
den. So scheint etwa gerade für vergleichswei- repräsentieren dagegen einen Bereich kogni-
se einfache Leistungsmerkmale (z. B. Arbeits- tiver Fähigkeiten, der durch die meisten In-
geschwindigkeit und -genauigkeit) eine Dis- telligenzmodelle und -tests nicht abgedeckt
krepanz zu bestehen zwischen der Leistung, wird. (Eine Ausnahme bildet hier der Berliner
die ein Tätiger maximal erbringen kann, und Intelligenzstruktur-Test, BIS, von Jäger, Süß
der Leistung, die er typischerweise am Arbeits- und Beauducel, 1997.) Dabei fällt auf, dass die
platz zeigt. Dementsprechend sind Indikato- verschiedenen Testaufgaben, die zur Erfassung
ren beider Aspekte meist nur niedrig korreliert dieser Fähigkeiten entworfen wurden, zwar
(Sackett, Zedeck & Fogli, 1988). Dieser Sach- in einschlägigen Darstellungen (u. a. Guilford,
verhalt muss natürlich bei der Validierung von 1967) ausführlich beschrieben werden, über
Fähigkeitstests berücksichtigt werden. ihre psychometrische Qualität aber meist we-
nig Information geliefert wird. Dies ist wohl
Neben dem Umstand, dass bei Leistungskri-
einer der Gründe dafür, dass dieser Bereich
terien jeweils geprüft werden muss, ob diese
kognitiver Fähigkeiten, obwohl zweifellos für
eher maximale oder eher typische Leistung er-
eine Reihe organisationspsychologischer Fra-
fassen, muss auch festgelegt werden, was als
gestellungen relevant, in der Eignungsdiagno-
Leistungskriterium herangezogen bzw. in wel-
stik bislang unterrepräsentiert ist.
cher Situation es erfasst werden soll. So schei-
nen Kombinationen von Tests spezifischer Fä- Dieses Bild ist anders bei einer Reihe kogni-
higkeiten die Leistung am Arbeitsplatz etwas tiver Fähigkeiten, die zwar ebenfalls in her-
besser vorherzusagen als den Erfolg nach ei- kömmlichen Intelligenzmodellen nicht (oder
nem Training (Ree et al., 1994). Eine diffe- kaum) berücksichtigt werden, aber trotzdem
renzierte Analyse der Beziehungen zwischen durch elaborierte Einzeltests erfasst werden
einzelnen Fähigkeitstests und Indikatoren der können. Es handelt sich hier um Fähigkeiten,
Leistung am Arbeitsplatz könnte auch – über die unter dem Oberbegriff Aufmerksamkeit
die reine Erfolgsprognose hinaus – etwas zum zusammengefasst werden (I Kap. 12). In die-
Verständnis der Struktur der Arbeitsleistung ser Kategorie werden zwei Gruppen von Ver-
beitragen. fahren unterschieden: Bei Konzentrationstests

407
14 Arbeits- und organisationspsychologische Diagnostik

muss der Proband ständig aktiv sein, da er ein Satz von Handlungsmöglichkeiten zuge-
kontinuierlich entscheiden muss, ob ein Ziel- ordnet ist (Übersicht in Hossiep & Schulte,
reiz vorliegt oder nicht. Demgegenüber wird 2013). Der Proband muss nun zu jeder Mög-
in Vigilanztests die Fähigkeit geprüft, minima- lichkeit auf einer mehrstufigen Skala angeben,
le Veränderungen in der Umwelt, die selten wie wichtig er diese für die Lösung des Pro-
und eher zufällig auftreten, korrekt zu identifi-blems hält. Auf diese Weise soll er seine Prio-
zieren. ritäten bei der Problembearbeitung auflisten
(für Details siehe Williams & Sternberg, 1995).
Kenntnisse. Arbeitsbezogene Kenntnisse (job Derartige Tests nähern sich stark den Arbeits-
knowledge) vermitteln die Beziehung zwi- proben an, auf die bei den simulationsorientier-
schen spezifischen Fähigkeiten und der Ar- ten Verfahren noch näher eingegangen wird.
beitsleistung. Dies gilt besonders dann, wenn
es sich um Einzelfähigkeiten mit einem hohen Bei Tests zur Erfassung beruflicher Eignung
Wissensanteil handelt (Olea & Ree, 1994). Im ist es nicht unüblich, Elemente zur Erfassung
Sinne des Modells der Primärfähigkeiten von kognitiver Fähigkeiten (z. B. Verbalfähigkeit)
Thurstone (I Kap. 12) wäre dies etwa beim mit solchen zur Erhebung des Wissenstands
Wortverständnis, der Wortflüssigkeit und der (z. B. Rechtschreibkenntnisse) zu kombinie-
numerischen Fähigkeit der Fall. Im Modell ren. Ein Beispiel hierfür ist der Allgemeine
der fluiden und kristallisierten allgemeinen In- Büroarbeitstest (ABAT) von Lienert (1967; re-
telligenz von Cattell (Horn & Cattell, 1966; vidierte Fassung ABAT-R von Lienert & Schu-
I Kap. 12) sind diese Einzelfähigkeiten Teil ler, 1994). Im Folgenden soll dieser Test etwas
der kristallisierten Intelligenz. ausführlicher dargestellt werden.
Hinsichtlich einer Strukturierung von Kennt- Der ABAT-R besteht aus zwei Parallelformen
nissen war bereits auf die Unterscheidung von mit jeweils sechs Untertests: Kundenbriefe
deklarativem und prozeduralem Wissen hinge- sortieren (KS), Adressen prüfen (AP), Sum-
wiesen worden. Sternberg, Wagner, Williams men prüfen (SP), Rechtschreibung korrigieren
und Horvath (1995) fügen diesem Bereich (RK), Textaufgaben lösen (TL) sowie Zeichen
mit ihrem Konzept des stillen Wissens („tacit setzen (ZS). Für jeden Untertest ist eine Zeit-
knowledge“) einen weiteren wichtigen Aspekt begrenzung gegeben. Der ABAT-R kann bei
hinzu. Stilles Wissen bezeichnet handlungsbe- Jugendlichen ab 14 Jahren eingesetzt werden.
zogene Kenntnisse (also prozedurales Wissen), Er dient damit sowohl der Berufsberatung als
die ohne formales Training, längere Arbeitser- auch der Personalauslese (evtl. auch der Indi-
fahrungen oder die gezielte Hilfe durch ande- kation und Evaluation von Trainingsmaßnah-
re Personen erworben wurden. Stilles Wissen men).
dient darüber hinaus dem Erreichen von Zie-
Die Interkorrelationen zwischen den einzelnen
len, die für die betreffende Person sehr wichtig
Subtests sind teilweise recht hoch. So korre-
sind, ist also praktisch sehr brauchbar und des-
halb von hohem Interesse für den Einzelnen. liert etwa der Untertest KS mit den übrigen
Für Sternberg et al. macht dieses stille Wis- Untertests zwischen .45 und .59. (Teilweise
sen die „praktische Intelligenz“ aus, die durchnoch höhere Werte werden von Schmidt, 1993,
herkömmliche Intelligenztests kaum erfasst berichtet.) Dementsprechend resultierten aus
werden soll. Faktorenanalysen zwei Komponenten: ein Ver-
balfaktor mit ca. 40 % Varianzaufklärung und
In Verfahren zur Erfassung des stillen Wissens ein numerischer Faktor mit ca. 18 % aufge-
werden dem Probanden verschiedene arbeits- klärter Gesamtvarianz. Deshalb wird vorge-
bezogene Szenarien geschildert, denen jeweils schlagen, statt die Untertests einzeln auszu-

408
14.3 Diagnostik bei der Person

werten, jeweils Summenscores für die Tests doch von ihnen unterscheidbar, sind physische
verbaler und numerischer Fähigkeiten zu be- Merkmale. Hier handelt es sich um eine Grup-
rechnen (Lienert & Schuler, 1994). Schmidt pe von Fertigkeiten, die generell die körperli-
(1993) kommt auf Grund einer eigenen Unter- che Leistungsfähigkeit (physical fitness) bei
suchung über den Zusammenhang der Scores einer Reihe von Anforderungen (Kraft, Schnel-
im ABAT mit den Ergebnissen verschiedener ligkeit, Ausdauer u. Ä.) beschreiben. Fleish-
Intelligenz- und Leistungstests allerdings zu man (1972) hat mit Verfahren zur Erfassung
dem Schluss, dass sich in den Untertests eher motorischer und physischer Fertigkeiten um-
die Komponenten Bearbeitungsgeschwindig- fangreiche Analysen durchgeführt und dabei
keit und Schulkenntnisse trennen lassen. für den motorischen Bereich elf und für physi-
sche Merkmale neun Gruppen unterschieden.
Eine deutlich stärkere Orientierung an unter- Von diesen sollen im Folgenden die wichtigs-
schiedlichen Wissensfeldern (z. B. Kunst, Ge- ten kurz genannt werden.
schichte, Wirtschaft, Technik) zeigt der Bochu-
mer Wissenstest (BOWIT; Hossiep & Schul- Bei den motorischen Fertigkeiten zeigt sich
te, 2007). Seine insgesamt elf Facetten las- Kontrollgenauigkeit bei solchen Aufgaben, die
sen sich faktoriell zwei Komponenten zuord- fein abstimmte Muskelbewegungen erfordern,
nen, naturwissenschaftlich-technisches sowie z. B. einen Stab in eine bestimmte Position
gesellschafts- und geisteswissenschaftliches manövrieren. Koordination mehrerer Glied-
Wissen. maßen bezieht sich auf die aufeinander ab-
gestimmte Bewegung mehrere Gliedmaßen,
Motorisch-physische Merkmale. Man könn- z. B. beider Hände beim Einpacken. Handge-
te meinen, dass die Leistungsfähigkeit im Be- schick beinhaltet geschickte Bewegungen von
reich der Motorik und weiterer physischer Arm und Hand beim Umgang mit größeren
Merkmale (z. B. körperlicher Kraft) im moder- Objekten unter Zeitdruck, z. B. Gegenstände
nen Arbeitsleben nicht mehr die Rolle spielt, schnell in vorgegebene Behälter füllen. Arm-
die ihr bis vor wenigen Jahrzehnten noch zu- Hand-Stetigkeit bezieht sich auf die Fähigkeit,
kam (vgl. etwa die Übersichten bei Dunnette, sehr präzise Arm-Hand-Bewegungen, die we-
1976; Fleishman & Reilly, 1992). Das ist je- der Kraft noch Schnelligkeit erfordern, aus-
doch keineswegs der Fall. Sie bildet auch heu- zuführen, z. B. einen Faden in ein Nadelöhr
te noch für viele Tätigkeiten (z. B. bei Sekre- einfädeln.
tärinnen, Feinmechanikern, Automechanikern
oder Polizisten) einen wichtigen Aspekt be- Unter den physischen Fertigkeiten beschreibt
ruflicher Eignung (Borman, Hanson & Hedge, die statische Stärke die maximale Kraft, die
1997). Der Grund hierfür liegt in der immer gegen externe Objekte ausgeübt und mit dem
fortgeschritteneren Ausrüstung der Betriebe. Dynamometer-Test erfasst werden kann. Dem-
Damit wird auch die Investitionssumme pro gegenüber ist dynamische Stärke die Kraft, die
Arbeitnehmer höher, was höhere Kosten bei von Muskeln ausgeht, um den Körper zu bewe-
Unterbrechungen im Arbeitsprozess nach sich gen oder zu halten, wie z. B. bei Liegestützen.
zieht. Dies wiederum bedeutet, dass die Fä- Explosive Stärke beinhaltet schließlich die effi-
higkeit, derartige Ausrüstungen effizient zu ziente Mobilisierung kurzfristiger muskulärer
bedienen, zu warten und zu reparieren, zuneh- Anstrengung, z. B. bei Sprints oder Sprüngen.
mend kritisch wird (Cascio, 1995). Dynamische Flexibilität bezeichnet die Fähig-
keit, wiederholte und schnelle Beugungen des
Bei motorischen Fertigkeiten geht es um die Rumpfes durchzuführen. Weitere Fähigkeiten
Leistungsfähigkeiten beim Manipulieren un- beziehen sich auf das Halten des Gleichge-
terschiedlicher Objekte. Diesen ähnlich, aber wichts oder Ausdauer bei starker kardiovas-

409
14 Arbeits- und organisationspsychologische Diagnostik

kulärer Belastung, z. B. beim Intervalltraining durch (äußere oder innere) Ereignisse ange-
über 1000 Meter (abwechselnd laufen und ge- regt werden und sich dann im Erleben und
hen). Verhalten manifestieren. Ein wichtiger Zugang
zu den individuellen Motiven stellen die Zie-
Der hohe Differenziertheitsgrad der von le einer Person dar sowie die Ausdauer und
Fleishman ermittelten Strukturen weist darauf Intensität, mit der diese verfolgt werden. Im
hin, dass es sich bei motorischen und physi- Zentrum berufsbezogener Motive steht zwei-
schen Fertigkeiten um sehr spezifische Merk- fellos das Leistungsmotiv. Weitere Motive mit
male handelt. Das hat natürlich unmittelbare Bedeutung für die Arbeitswelt sind das Do-
Konsequenzen für die Verwendung entspre- minanzstreben, die Bedürfnisse nach Beach-
chender Batterien in der Eignungsdiagnostik: tung und sozialer Anerkennung, das Anleh-
(a) Die Kriteriumsleistung lässt sich im Allge- nungsbedürfnis sowie die Risikomeidung und
meinen nicht ausschließlich auf eine (oder we- das Ordnungsstreben. Diese Motive sind Teil
nige) dieser Fertigkeiten beziehen. Stattdessen der von Murray (1938) konzipierten Struktur
stellt sie meist ein Konglomerat verschiedener grundlegender Bedürfnisse und können mit
motorischer und physischer Leistungen dar. der Personality Research Form (PRF; Stumpf
Dabei ist es ausgesprochen schwer, das Ge- et al., 1985) oder der Edwards Personality Pre-
wicht der Einzelfertigkeiten bei der Prädiktion ference Schedule (EPPS; Edwards, 1959) ge-
der Kriteriumsleistung angemessen zu bestim- messen werden.
men. (b) Diese Bestimmung fällt auch des-
halb so schwer, weil die Kriteriumsleistung ja Auf die Bedeutung der Erfassung von In-
offensichtlich nicht nur von Eignungsvoraus- teressen für die Berufsberatung und Be-
setzungen, sondern ganz wesentlich auch von werberauswahl wurde bereits eingegangen
der Geübtheit des einzelnen Mitarbeiters ab- (I Kap. 10.4). Interessen determinieren da-
hängt. Wenn also Zusammenhänge zwischen bei zum einen die Selbstselektion (für welche
Maßen der individuellen Fertigkeit und der beruflichen Positionen sich jemand interessiert
Leistung am Arbeitsplatz interessieren, dann und letztlich bewirbt), zum anderen die spätere
muss zuvor festgelegt werden, welches Aus- Berufszufriedenheit.
maß an Übungsmöglichkeiten die Tätigen auf- Berufsbezogene Einstellungen bezeichnen die
weisen sollen. (c) Für die Vorhersage der Ein- Art und Weise, wie Menschen Gegebenhei-
gangsleistung (ohne größere Übung) scheinen ten ihres Arbeitslebens auffassen (kognitive
andere Variablen geeignet zu sein als für die Komponente), bewerten (affektive Komponen-
Prädiktion der Leistung nach einem Training. te) und behandeln (verhaltensmäßige Kompo-
Dabei ist die Vorhersage der Leistung nach ei- nente). Die affektive Komponente ist dabei
nem Training für die Eignungsdiagnostik von eine zentrale Determinante der Arbeitszufrie-
besonderem Interesse (Fleishman, 1972). denheit (AZ), während die verhaltensmäßige
Komponente Merkmale wie organisationsbe-
Motivationale Merkmale. Neben kognitiven zogenes Engagement, Pflichtbewusstsein oder
und motorisch-physischen Merkmalen bildet Hingabe beeinflusst. Diese Aspekte ergänzen
die Messung berufsbezogener Motive, Inter- als sog. „kontextuelle“ Leistung (Borman &
essen und Einstellungen einen weiteren zen- Motowidlo, 1993) die eigentliche Aufgaben-
tralen Bereich der Berufseignungsdiagnostik. leistung („task performance“; was durch die
Die Erfassung solcher Merkmale war bereits Stellenbeschreibung erwartet wird).
in I Kap. 10 und 11 besprochen worden.
Motive sind vergleichsweise dauerhafte Ver- Die kontextuellen Leistungen werden in ih-
haltensbereitschaften bzw. Dispositionen, die rer Bedeutung für den Berufserfolg wie auch

410
14.3 Diagnostik bei der Person

für den Erfolg der Arbeitsgruppe und der Or- Herzberg, Mausner und Snyderman (1959)
ganisation insgesamt zunehmend erkannt und gründeten ihre Konzeption von AZ ebenfalls
unter den Begriffen Organizational Citizen- auf die beiden zentralen Aspekte der positi-
ship Behavior (OCB; Organ, 1988) oder Work ven und negativen Valenz, die eine Tätigkeit
Commitment (Cooper-Hakim & Viswesvaran, haben kann. Ausgangspunkt ihrer Analyse wa-
2005) erforscht. AZ und OCB sollen im Fol- ren situative Bedingungen, die zum Entstehen
genden ausführlicher behandelt werden. von Zufriedenheit bzw. Unzufriedenheit füh-
ren und dadurch eine positive bzw. negative
Bei der AZ handelt es sich um die, meist durch
Valenz erlangen. Über die bereits dargestell-
affektive, teilweise aber auch durch kogniti-
te Methode der kritischen Ereignisse wurden
ve Reaktionen gekennzeichnete, bewertende
beim Arbeitnehmer kritische Ereignisse, Si-
Komponente der Einstellung zu einer bestimm-
tuationen oder Bedingungen des Berufslebens
ten Arbeitstätigkeit und deren Kontext. Die-
erhoben, die mit dem Gefühl der Zufrieden-
se Einstellung kann sich, stark vereinfacht,
heit bzw. Unzufriedenheit verbunden waren.
als Unzufriedenheit, Zufriedenheit oder In-
Folgende Ereignisgruppen, die Herzberg et al.
differenz äußern. Diese Beschreibung scheint
„Zufriedenmacher“ oder „Motivatoren“ nann-
es nahezulegen, AZ als ein eindimensionales
ten, waren mit dem Gefühl der Zufriedenheit
Konstrukt zu betrachten. Dieser Auffassung
verbunden: Leistungen vollbringen, Anerken-
stehen allerdings empirische Untersuchungen
nung finden, eine interessante Arbeit ausüben,
entgegen, die die unterschiedlichen Facetten
Verantwortung haben. Da sich alle diese Ereig-
der Arbeitstätigkeit analysieren und auf dieser
nisse auf Arbeitsinhalte bezogen, sprachen die
Grundlage eher zu einer mehrdimensionalen
Autoren hier von Inhaltsfaktoren. Mit Unzu-
Konzeption von AZ gelangen (z. B. Neuberger
friedenheit waren folgende Ereignisgruppen,
& Allerbeck, 1978).
die sog. „Unzufriedenmacher“ bzw. „Hygiene-
Ergebnisse der Zwillingsforschung deuten auf faktoren“, verbunden: Die Unternehmenspoli-
einen Erbeinfluss auf die Ausprägung dieses tik und -organisation, die Art der Führung und
Merkmals hin. So erhoben Arvey, Bouchard, Überwachung, die Beziehung zu Vorgesetz-
Segal und Abraham (1989) die AZ bei eineii- ten und Kollegen, äußere Arbeitsbedingungen.
gen Zwillingen, die von Geburt an getrennt Da sich die Merkmale auf den Arbeitskontext
aufgewachsen waren, und fanden, dass der ge- bezogen, bezeichneten die Autoren sie als Kon-
netische Einfluss 31 % der Variabilität der AZ- textfaktoren. Die Entlohnung war sowohl mit
Scores aufklärte. Die Autoren erklären die ho- Zufriedenheit als auch mit Unzufriedenheit
he Übereinstimmung bei Zwillingen durch in- verbunden, stellte jedoch eher einen Kontext-
dividuelle Unterschiede in positiver und nega- bzw. Hygienefaktor dar.
tiver Affektivität. Für dieses Merkmal konnte
eine deutlich genetische Determination nach- Zufriedenheit vermittelt sich hiernach also
gewiesen werden (Krohne & Tausch, 2014; primär über Leistung, Anerkennung und den
Tellegen et al., 1988). Nach Arvey et al. sol- Arbeitsinhalt, Unzufriedenheit über die Un-
len diese affektiven Persönlichkeitsmerkmale ternehmenspolitik, den Führungsstil, Arbeits-
einen Einfluss darauf haben, wie Menschen bedingungen und andere kontextuelle Fakto-
günstige oder ungünstige Umstände ihrer Ar- ren. Zufriedenheit und Unzufriedenheit schei-
beitstätigkeit auffassen, bewerten und erin- nen hiernach, da durch sehr unterschiedliche
nern. (Zur Beziehung zwischen Persönlich- Sachverhalte bedingt, nicht einfach die Ge-
keitsmerkmalen und Beschreibungen der eige- genpole eines eindimensionalen Kontinuums
nen Arbeitssituation siehe auch Schallberger, zu sein. Entsprechend konzipierten Herzberg
1995.) et al. eine Zweifaktorentheorie der Arbeits-

411
14 Arbeits- und organisationspsychologische Diagnostik

zufriedenheit mit den unabhängig voneinan- 1. Kollegen


der variierenden Dimensionen Zufriedenheit- 2. Unmittelbarer Vorgesetzter
Nichtzufriedenheit (bzw. Indifferenz) und 3. Eigene Tätigkeit
Unzufriedenheit-Nichtunzufriedenheit (Indif- 4. Äußere Arbeitsbedingungen
ferenz). 5. Gesamtorganisation und deren Leitung
6. Qualifikations- und Entwicklungschancen
Die Theorie ist besonders im Hinblick auf 7. Finanzielle Entlohnung
zwei Punkte kritisiert worden (Locke, 1976): 8. Arbeitszeitregelung
Zum einen wurde bemängelt, dass es sich hier 9. Arbeitsplatzsicherheit
letztlich nur um das Resultat einer bestimmten
Erhebungsmethode handelt. Wenn man Arbeit- Es wurde bereits darauf hingewiesen, dass die
nehmer in der von Herzberg et al. vorgenom- AZ neben der affektiven auch eine kogniti-
menen Weise befragt, erhält man weniger tat- ve Komponente enthält. So würde man im-
sächliche Ereignisse im Zusammenhang mit mer dann, wenn das Organisationsmitglied be-
Zufriedenheit bzw. Unzufriedenheit, sondern stimmte Aspekte seiner Arbeitssituation mit
typische Kausalattributionsmuster. Unzufrie- einem Referenzwert vergleicht, von einer eher
denheit wird externen Ursachen zugeschrieben kognitiven Reaktion sprechen. Dies wäre et-
(z. B. der Unternehmenspolitik, zu geringem wa gegeben, wenn das Mitglied seine eigenen
Gehalt), Zufriedenheit eher einer internen Ver- Qualifikations- und Entwicklungschancen in
ursachung (z. B. eine Leistung vollbracht zu der Organisation mit den Chancen von Freun-
haben). den und Bekannten in anderen Betrieben ver-
gleicht. Eine eher affektive Reaktion würde
Der zweite Kritikpunkt bezieht sich auf den dagegen vorliegen, wenn sich ein Arbeitneh-
geringen Grad empirischer Bestätigung. Wo mer z. B. häufig durch seinen unmittelbaren
empirische Untersuchungen durchgeführt wur- Vorgesetzten ungerecht behandelt fühlt. Diese
den, zeigte sich regelmäßig, dass sowohl Unterscheidung ist insofern wichtig, als die-
Inhalts- als auch Kontextfaktoren zur Zufrie- se beiden Komponenten offenbar unterschied-
denheit und zur Unzufriedenheit beitragen. lich stark mit relevanten Aspekten des orga-
Das ist auch unmittelbar einsichtig. Wer eine nisationsbezogenen Verhaltens assoziiert sind
ausgesprochen uninteressante Arbeit verrich- (Moorman, 1993). Dabei scheint die kogniti-
tet oder wenig berufliche Anerkennung findet, ve Komponente das – im nächsten Abschnitt
der wird nicht mit Indifferenz, sondern mit Un- genauer beschriebene – Organizational Citi-
zufriedenheit reagieren. Umgekehrt ist nicht zenship Behavior besser vorherzusagen als die
einzusehen, warum gute Arbeitsbedingungen affektive Komponente.
bestenfalls zur Indifferenz, nicht aber zur Zu-
friedenheit führen sollen. Dieses Befundmuster macht es notwendig, In-
strumente zur Erfassung von AZ genauer hin-
Tests zur Erfassung von AZ gehen durchweg sichtlich ihrer jeweiligen Zusammensetzung
von einer vieldimensionalen Struktur des Kon- aus kognitiven und affektiven Items zu analy-
strukts aus. Grundlage für die Strukturierung sieren (Brief & Roberson, 1989). Offensicht-
sind dabei verschiedene (im Prinzip auch bei lich deutlich auf die Erhebung affektiver Re-
Herzberg et al. aufgeführte) Aspekte der Ar- aktionen ausgerichtet sind alle Instrumente, in
beit, zu denen Mitarbeiter unterschiedliche deren Items Begriffe wie „langweilig“, „an-
Einstellungen haben können. So gehen Neu- regend“, „belastend“ oder „ärgerlich“ auftau-
berger und Allerbeck (1978) in ihrem Arbeits- chen. Häufig basieren derartige Skalen auf
beschreibungsbogen (ABB) von neun Aspek- den Items der Positive and Negative Affect
ten (Dimensionen) der AZ aus: Schedule (PANAS; Watson et al., 1988), so

412
14.3 Diagnostik bei der Person

z. B. die Job Affect Scale (JAS; Brief, Burke, sozusagen „eingerichtet“ und sein bisheriges
George, Robinson & Webster, 1988). Kogni- Anspruchsniveau aufrechterhalten (d. h. nicht,
tive Reaktionen werden dagegen etwa dann was ja bei diesem Vergleich auch denkbar wä-
erhoben, wenn die bestehende Arbeitssitua- re, gesteigert). Bei der resignativen AZ fiel
tion an einem Bezugssystem gemessen wird. der Vergleich ungünstig aus, der Arbeitneh-
Hier wird danach gefragt, wieviel von einem mer hat daraufhin sein Anspruchsniveau ge-
bestimmten Aspekt der Arbeitssituation (z. B. senkt und seine AZ über eine Art „Dienst nach
Aufstiegschancen) eine Person für sich erwar- Vorschrift“ erreicht.
tet und wieviel sie meint tatsächlich zu erhal-
ten (z. B. bei Porter, 1962). In diesem Ansatz Die Unterscheidung zwischen diesen und
wird allerdings nicht unterschieden, was ei- weiteren von den Autoren beschriebenen
ne Person idealiter für sich wünscht und was Formen der Arbeitszufriedenheit bzw.
sie realiter für sich erwartet. Unberücksichtigt -unzufriedenheit ist besonders für die Orga-
bleibt auch, dass nicht alle Diskrepanzen für nisationsentwicklung wichtig. So ist etwa
eine Person gleichermaßen bedeutsam sind. die Behebung technischer oder sozialer
Defizite in der Arbeitsituation schwierig,
Problematisch am derzeitigen Stand der Mes- wenn man diese über eine direkte Befragung
sung von AZ ist auch, dass gleiche gemes- der Arbeitnehmer hinsichtlich ihrer Arbeitszu-
sene Niveaus der AZ auf sehr unterschiedli- friedenheit identifizieren will, die Mitarbeiter
chen Entstehungsbedingungen beruhen und aber weitgehend eine resignative AZ mani-
mit sehr verschiedenartigen Ergebnissen hin- festieren. Mit dem Fragebogen zur Erhebung
sichtlich des weiteren Verhaltens in der Or- von Arbeitszufriedenheitstypen (FEAT) hat
ganisation verbunden sein können. So unter- Ferreira (2009) deshalb ein Instrument zur
scheiden Bruggemann, Groskurth und Ulich Identifizierung dieser verschiedenen Formen
(1975) mehrere Qualitäten der Arbeitszufrie- der AZ vorgelegt.
denheit bzw. -unzufriedenheit, die auf den je-
weiligen Ergebnissen des Vergleichs persönli- Das Organizational Citizenship Behavior
cher Erwartungen und aktueller Arbeitssitua- (OCB) reflektiert die verhaltensmäßige Kom-
tion sowie der dadurch ausgelösten Bewälti- ponente berufs- bzw. organisationsbezogener
gungsprozesse beruhen. Zu den Bewältigungs- Einstellungen. Ein ähnliches, wenn auch brei-
maßnahmen gehören in erster Linie Verände- teres Konstrukt als das OCB stellt das von
rungen des Anspruchsniveaus und der Einsatz Cooper-Hakim und Viswesvaran (2005) be-
kognitiver (z. B. Umdeutung des Situation) schriebene und analysierte Work Commitment
sowie verhaltensmäßiger (z. B. konstruktive dar. Organ (1988) ging bei der Entwicklung
Problemlösung) Strategien. Nach ihrer Quali- dieses Konzepts von der Beobachtung aus,
tät unterscheiden die Autoren etwa eine „sta- dass generell eher schwache Beziehungen zwi-
bilisierte“ von einer „resignativen“ AZ. Die- schen Maßen der AZ und Indikatoren der Ar-
se beiden Qualitäten mögen auf herkömmli- beitsleistung bestehen. Dies soll jedoch nicht
chen Instrumenten nicht unterscheidbar sein bedeuten, dass kaum Zusammenhänge zwi-
(in beiden Fällen würden sich die Arbeitneh- schen diesen beiden Bereichen existieren, son-
mer etwa als „im Großen und Ganzen zufrie- dern dass man bislang die falschen Krite-
den“ schildern), beruhen jedoch auf verschie- rien zur Erfassung der Arbeitsleistung her-
denen Entwicklungsprozessen. Bei der stabi- angezogen hat. Nach Organ sollte die Ar-
lisierten AZ fiel der Vergleich von Erwartung beitsleistung auch über Verhaltensweisen ge-
und aktueller Lage günstig aus. Der Arbeitneh- messen werden, die er als OCB zusammen-
mer hat sich daraufhin in seiner Organisation fasst. Hierbei handelt es sich um Verhalten,

413
14 Arbeits- und organisationspsychologische Diagnostik

das zwar nicht direkt aus der Stellenbeschrei- „cooperate with others in the team“, „persist
bung gefordert wird, aber dennoch instrumen- in overcoming obstacles to complete a task“
tell für ein effektives Funktionieren des Sys- oder „volunteer for additional duty“ beurteilt
tems ist. Nach Organ handelt es sich hier werden. In einer nachfolgenden Studie haben
um Verhalten, das (a) vom Organisationsmit- Van Scotter und Motowidlo (1996) zwei Fa-
glied nach eigener Entscheidung (also ohne cetten kontextueller Leistung identifiziert, die
äußeren Druck) erbracht wird, (b) im for- interpersonelle Orientierung (interpersonal fa-
mellen Belohnungssystem der Organisation cilitation) und die Hingabe an die Arbeit (job
nicht direkt aufgeführt ist und (c) in seiner dedication). Eine deutschsprachige Entspre-
Gesamtheit das effektive Funktionieren der chung ist der Fragebogen zur Erfassung des
Organisation fördert. Dieses OCB soll deutli- leistungsbezogenen Arbeitsverhaltens (FELA;
cher durch Maße der AZ vorhergesagt werden Staufenbiel & Hartz, 2000).
als die „technische“ Arbeitsleistung (Organ,
Podsakoff & MacKenzie, 2006). Zur Erfas- Persönlichkeitseigenschaften. Bei der Mes-
sung dieses Verhaltens konstruierten Smith, sung kognitiver Merkmale ging es darum, Re-
Organ und Near (1983) den Organizational- aktionen des Probanden nach einem Güte-
Citizenship-Behavior-Questionnaire (OCBQ; maßstab (richtig, gut, brauchbar) zu bewer-
deutsche Version, GOCBQ, Bierhoff, Müller ten (I Kap. 12). Im Bereich motivationaler
& Küpper, 2000) Merkmale wurden dagegen Orientierungen
von Menschen (Bedürfnisse, Werte, Vorlieben)
In Abgrenzung von der rein auf die Aufgabe erhoben. Bei der Erfassung von Persönlich-
bezogenen Leistung (task performance) be- keitseigenschaften interessiert nun das typi-
zeichnen Borman und Motowidlo (1993) die sche Verhalten von Personen. Dieses Verhal-
als OCB zusammengefassten Verhaltenswei- ten wird zum einen auf sehr breite Konstrukte
sen auch als umfeldbezogene Leistung (con- bezogen (z. B. Extraversion, Neurotizismus),
textual performance). Sie beschreiben dabei die individuelle Unterschiede in einer Vielzahl
fünf Kategorien dieser Leistung: (1) Freiwil- von Verhaltensweisen erklären sollen. Zum an-
lig Aufgaben erledigen, die nicht formell Be- deren spielen in der neueren Persönlichkeits-
standteil der Arbeitsleistung sind. (2) Beson- forschung und -messung zunehmend auch en-
dere Hingabe bei der Durchführung eigener gere Merkmale, sog. affektive Dispositionen,
Aufgabenerledigungen. (3) Mit anderen Or- eine Rolle, deren Bedeutung gerade für das
ganisationsmitgliedern kooperieren und ihnen Funktionieren von Arbeitsgruppen und Orga-
helfen. (4) Von der Organisation vorgegebenen nisationen immer deutlicher erkannt wird (Ge-
Regelungen folgen, auch wenn das persönlich orge, 1996).
unbequem ist. (5) Zu den Zielen der Organi-
sation stehen und diese verteidigen (vgl. auch Die meisten dieser Variablen und der ih-
Lohaus & Schuler, 2014). nen zugeordneten Testverfahren waren bereits
in den einschlägigen Kapiteln (insbesondere
Gemessen werden diese Kategorien mit einer I Kap. 10 und 11) besprochen worden. Des-
aus 16 Items bestehenden Skala, die von Vor- halb soll an dieser Stelle nur noch einmal eine
gesetzten zu beantworten ist (vgl. auch Mo- Übersicht über diejenigen Merkmale gegeben
towidlo & Van Scotter, 1994). Unter der all- werden, die sich für die Eignungsdiagnostik
gemeinen Beschreibung „while performing als besonders relevant erwiesen haben.
his or her job, how likely is it that this per-
son would. . . “ müssen auf einer Fünf-Punkte- Bei den zentralen, d. h. breiten Persön-
Skala von 1 (= much below average) bis 5 (= lichkeitsmerkmalen konzentrieren sich For-
much above average) Verhaltensweisen wie schung und Diagnostik in den letzten Jah-

414
14.3 Diagnostik bei der Person

ren auf das sog. Fünf-Faktoren-Modell der nungsregeln immer explizit gemacht wur-
Persönlichkeit (Costa & McCrae, 1985). den.
Dessen Dimensionen – Extraversion, emo- 2. Ähnlich wurde auf der Seite der Kriterien
tionale Stabilität/Neurotizismus, Kultiviert- verfahren. Hier wurden globale und spezi-
heit/Offenheit für (neue) Erfahrungen, Verträg- fische, „technische“ (z. B. Arbeitsproduk-
lichkeit/Freundlichkeit und Gewissenhaftig- tivität) und „kontextuelle“ Variablen (z. B.
keit – werden mit Hilfe des NEO-Personality wahrgenommene Führung) oft ohne Unter-
Inventory (NEO-PI-R; deutsche Version von schied zu einem Kriterium („Erfolg“) ver-
Ostendorf & Angleitner, 2004) bzw. seiner eint.
Kurzform, des NEO Five-Factor Inventory 3. Es wurde zu wenig nach relevanten Stich-
(NEO-FFI; deutsche Version von Borkenau probenmerkmalen, z. B. einzelnen Berufs-
& Ostendorf, 1993), erfasst. Diese Tests wur- gruppen, differenziert und damit die Mög-
den in I Kap. 10 ausführlich beschrieben. Im lichkeit vergeben, festzustellen, ob signi-
Folgenden wollen wir uns darauf beschrän- fikante Zusammenhänge vielleicht nur für
ken, die kriteriumsbezogene Validität dieser Untergruppen, z. B. bestimmte Berufe, be-
Dimensionen im Rahmen organisationspsy- stehen. Ebenso wurde auf der Seite der fünf
chologischer Untersuchungen zu analysieren NEO-Dimensionen zu wenig Gebrauch ge-
(vgl. auch Lord, 2011). macht von der weiteren Unterteilung dieser
Skalen in Facetten (I Tab. 10.1, S. 259). So
Zahlreiche Metaanalysen befassen sich mit der könnte etwa eine spezifische Kombination
Validität dieser Variablen hinsichtlich Arbeits- von Facetten aus unterschiedlichen NEO-
leistung, Führungseffektivität oder Arbeitszu- Skalen eine höhere kriteriumsbezogene Va-
friedenheit (Barrick & Mount, 1991; Judge, lidität besitzen als jede der fünf Hauptdi-
Bono, Ilies & Gerhardt, 2002; Judge, Heller mensionen (Hough & Oswald, 2000).
& Mount, 2002; Mount, Barrick & Steward, 4. Häufig werden die Validitätskoeffizienten
1998; Salgado, 1997, 1998; Tett, Jackson & aus den analysierten Einzelstudien hinsicht-
Rothstein, 1991). Überblicke über die Ergeb- lich Einschränkungen der Varianz sowie der
nisse verschiedener Metaanalysen finden sich Prädiktor- und Kriteriumsreliabilitäten kor-
in Barrick, Mount und Judge (2001), Hough rigiert (d. h. erhöht; I Kap. 3). Dieser er-
und Schneider (1996), Matthews (1997) so- höhte Wert darf aber nicht mit der fakti-
wie Vinchur, Schippmann, Switzer und Roth schen Validität des Tests verwechselt wer-
(1998). Bevor jedoch ausgewählte Ergebnis- den.
se dargestellt werden, müssen einige kritische 5. Anders als bei der Beziehung zwischen Fä-
Vorbehalte gegen einzelne dieser Analysen for- higkeitsmaßen und „technischen“ Kriteri-
muliert werden (vgl. auch Hough & Oswald, umsvariablen (z. B. Arbeitsleistung), für die
2000; Schuler & Höft, 2007). die Annahme eines linearen Zusammen-
hangs zumindest nicht unplausibel ist, las-
1. Nicht alle Variablen, die in den Metaana- sen sich für die Domäne der Persönlich-
lysen als Repräsentanten einer Dimension keitseigenschaften auch komplexere Bezie-
des Fünf-Faktoren-Modells standen, wur- hungen annehmen (Murphy, 1996a). Diese
den auch über eine entsprechende NEO- könnten etwa asymptotisch sein, d. h. nur
Skala gemessen. Erst von den Autoren der bis zu einer bestimmten Ausprägung ei-
Metaanalyse wurden diese – über andere nes Persönlichkeitsmerkmals steigt auch ein
Verfahren als den NEO erfassten – Varia- Kriteriumswert an, danach wird ein Plateau
blen einer bestimmten NEO-Dimension zu- erreicht. Denkbar wären aber auch umge-
geordnet, ohne dass allerdings die Zuord- kehrt u-förmige Beziehungen. So könnten

415
14 Arbeits- und organisationspsychologische Diagnostik

z. B. sowohl ein Zuwenig als auch Zuviel an (1996) nachweisen. Vertreter einer Organisa-
Extraversion mit einem ineffizienten Funk- tion hatten die beiden Aufgaben, neue Kun-
tionieren in einer Arbeitsgruppe verbunden den zu gewinnen sowie die Mitgliedschaft
sein. alter Kunden aufrechtzuerhalten. Einige Ab-
teilungen der Organisation belohnten (durch
Was nun die Vorhersagevalidität der Dimen- ein spezifisches Bonussystem) in erster Linie
sionen des Fünf-Faktoren-Modells betrifft, so die Gewinnung neuer Kunden, andere dage-
weist eine Reihe von Analysen darauf hin, dass gen das Behalten alter Kunden. Während die
Gewissenhaftigkeit offenbar ein valider Prädik- Leistung introvertierter Vertreter unabhängig
tor über verschiedene Typen von Organisatio- vom Belohnungssystem auf einem mittleren
nen, Berufen (Akademiker, Polizisten, Mana- Niveau lag, waren extravertierte Vertreter bei
ger, Verkäufer, Handwerker), Situationen und der jeweils belohnten Aufgabe besonders er-
Kriterien (Arbeitsleistung, Trainingserfolg, be- folgreich und bei der wenig belohnten Aufga-
ruflicher Karriere) ist (Barrick & Mount, 1991; be eher erfolglos. (Für weitere Moderatoren
Dilchert & Ones, 2013; Salgado, 1997, 1998). siehe auch Hough & Schneider, 1996.)
Ein weiterer stabiler, wenn auch weniger star-
ker, Prädiktor scheint die emotionale Stabilität Die Dimensionen Gewissenhaftigkeit, emotio-
zu sein (Barrick et al., 2001). Das Kriterium nale Stabilität und Verträglichkeit sind wesent-
Führungseffizienz wird dagegen offenbar eher liche Bestandteile der in den letzten Jahren
durch Extraversion vorhergesagt (Judge, Bo- in der organisationspsychologischen Diagnos-
no et al., 2002). Hohe Extraversion prädiziert tik vermehrt eingesetzten Integrity-Tests (Ones
auch, zusammen mit dem Faktor Offenheit für & Viswesvaran, 1998b, 2001; Ones, Viswes-
neue Erfahrungen, gute Leistungen in einem varan & Schmidt, 1993; Sackett & Wanek,
Trainingsprogramm (Barrick & Mount, 1991). 1996). Diese Verfahren zielen auf die Iden-
tifizierung von Mitarbeiterverhalten, das im
Andere Autoren stellen jedoch auf Grund ih- Hinblick auf die Erreichung von Organisati-
rer Befunde die durchgängige Prädiktionsstär- onszielen kontraproduktiv ist (generell niedri-
ke des Faktors Gewissenhaftigkeit in Frage ges Verantwortungsbewusstsein, das sich etwa
(Hough, 1992). So weisen Hough und Oswald ausdrückt in Unpünktlichkeit und häufigem
(2000) darauf hin, dass Gewissenhaftigkeit Fehlen, in Diebstahl am Arbeitsplatz, Unehr-
dort bei der Vorhersage des Erfolgs versagt, lichkeit, Substanzmissbrauch während der Ar-
wo es um Kreativität und Innovationsfähig- beit oder Streit und Gewalttätigkeit im Betrieb;
keit geht. Abweichend von den o. g. Befun- Marcus, 2000). Ein deutscher Integrity-Test
den (z. B. Barrick & Mount, 1991) fanden Tett ist das Inventar berufsbezogener Einstellun-
et al. (1991) in ihrer Metaanalyse, dass die gen und Selbsteinschätzungen (IBES; Marcus,
berufliche Leistung eher mit Merkmalen wie 2006), in dem u. a. Einschätzungen der Ver-
Verträglichkeit, emotionaler Stabilität und Of- breitung derartigen Verhaltens erhoben wer-
fenheit für Erfahrungen zusammenhängt als den.
mit Gewissenhaftigkeit. Die Autoren konnten
darüber hinaus, ebenfalls abweichend von den Umfassende Metaanalysen einer Vielzahl von
Prädiktoren des Berufserfolgs konnten zeigen,
o. g. Befunden, zeigen, dass die Stärke der je-
weiligen Zusammenhänge durch die Art des dass durch Hinzunahme von Integrity-Tests
Berufs oder des Kriteriums moderiert wird. zusätzlich zu Tests der allgemeinen kognitiven
Fähigkeit, die stets mit Abstand die stärksten
Einen moderierenden Einfluss der Art des Be- Prädiktoren beruflicher Leistung waren, ein
lohnungssystems auf den Zusammenhang zwi- deutlicher Zuwachs an kriteriumsbezogener
schen Extraversion und Erfolg konnte Stewart Valdität (inkrementelle Validität, I Kap. 3)

416
14.3 Diagnostik bei der Person

stattfand (Berry, Ones & Sackett, 2007; Ones der NEO-Dimensionen (I Tab. 10.1, S. 259)
& Viswesvaran, 1998b; Schmidt & Hunter, deutlich unterschiedlich mit den betreffen-
1998). Der stärkste Einzelprädiktor war dabei den Skalen von Hogan und Hogan korrelie-
die Gewissenhaftigkeit. Eine ähnlich hohe in- ren. So ist die Dienstleistungsorientierung
krementelle Validität wie Integrity-Tests schei- innerhalb des Faktors emotionale Stabili-
nen auch strukturierte Einstellungsinterviews tät/Neurotizismus substanziell mit der Reiz-
(I Kap. 8) zu besitzen (Schmidt & Hunter, barkeit (r = −.62), aber nur schwach mit
1998). Dies ist vermutlich darauf zurückzufüh- der Verletzlichkeit (r = −.22; Costa & Mc-
ren, dass in derartigen Interviews in starkem Crae, 1995) korreliert. Innerhalb des Fak-
Maße Sachverhalte erfragt werden, die auch tors Verträglichkeit/Freundlichkeit korrelie-
Thema von Integrity-Tests sind. ren Entgegenkommen am höchsten (r = .52)
und Vertrauen am niedrigsten (r = .21) mit
Es ist allerdings nicht zu erwarten, dass bei dieser Orientierung. Bei der Gewissenhaftig-
der Vorhersage beruflicher Leistung Integrity- keit sind Pflichtbewusstsein und Besonnen-
Tests in der Domäne der Persönlichkeitseigen- heit signifikant (r = .35 bzw. .30) mit diesem
schaften die gleiche Bedeutung erlangen, die Merkmal assoziiert, Leistungsstreben dage-
Intelligenztests im Bereich kognitiver Fähig- gen nicht (r = −.01). Für die Managementeig-
keiten erreicht haben. So korreliert etwa Krea- nung fand Hough (1992), dass die „Stärke“-
tivität – ein wichtiger Prädiktor des Erfolgs Komponente der Extraversion (Durchsetzungs-
bei innovativen Tätigkeiten – negativ mit dem fähigkeit, Aktivität) mit diesem Merkmal deut-
Gesamtwert aus Integrity-Tests. Auch die Leis- licher korreliert war als die „soziale“ Kompo-
tung von Managern scheint eher unabhängig nente (Herzlichkeit, Geselligkeit, Frohsinn).
von ihren Werten in derartigen Tests zu sein Die Verkaufseignung wurde zwar von den
(Hough, 1992). Bestimmte Formen kontrapro- NEO-Dimensionen Extraversion, Offenheit
duktiven Verhaltens (z. B. Gewalttätigkeit oder für Erfahrungen und Verträglichkeit vorher-
Substanzmissbrauch) werden darüber hinaus gesagt, aber nicht von allen Facetten. Keine
offenbar durch spezifische Maße (z. B. Ag- Prädiktoren waren Geselligkeit, Erlebnishun-
gressivitätstest) besser vorhergesagt als durch ger sowie Offenheit des Normen- und Werte-
Integrity-Tests. systems.
Die Überlegung, dass spezifische Maße die
Leistung in bestimmten Tätigkeitsfeldern bes- Eine zweite Kritik an der Verwendung des
ser vorhersagen als globale Persönlichkeitsska- NEO in der Eignungsdiagnostik (jedenfalls an
len, fand ihren Niederschlag in der Definition seiner Kurzform ohne Differenzierung nach
einer Reihe anforderungsbasierter Konstrukte, Facetten, NEO-FFI; I Kap. 10) richtet sich
die hinsichtlich ihrer Bedeutung zunehmend nicht gegen die Globalität der Dimensionen,
zur Integrität aufschließen (Hough & Schnei- sondern bemängelt, dass fünf Faktoren nicht
der, 1996). Es handelt sich dabei um die Kon- ausreichen, um den Erfolg in wesentlichen Be-
strukte Dienstleistungsorientierung (customer rufsfeldern vorherzusagen (siehe u. a. Hough
service orientation), Managementeignung (ma- & Schneider, 1996). Weiterführende Ansät-
nagement potential) und Verkaufseignung (sa- ze sind deshalb u. a. dadurch gekennzeichnet,
les potential). dass diese die NEO-Dimensionen aufspalten,
teilweise einzelne Facetten neu zuordnen und
Hogan und Hogan (1992) haben ein In- die eine oder andere neue Dimension hinzufü-
ventar entwickelt, mit dem u. a. diese Kon- gen. Von der Aufspaltung und Neuzuordnung
strukte erfasst werden können. Bemerkens- ist in besonderem Maße die Extraversion be-
wert ist dabei, dass die einzelnen Facetten troffen, was nicht weiter verwundert, da dieser

417
14 Arbeits- und organisationspsychologische Diagnostik

Faktor deutlich globaler, und damit auch hete- Eine detaillierte Beschreibung von Instrumen-
rogener, als die restlichen vier Dimensionen ten zur Erfassung dieser verschiedenen Aspek-
ist (Krohne & Tausch, 2014). Ein Kandidat für te wird in I Kap. 10 gegeben.
die Neuaufnahme ist meist die Kontrollüber-
zeugung (I Kap. 10). Die meisten Übersichtsdarstellungen zur Mes-
sung von Persönlichkeitseigenschaften mit
Ein deutschsprachiges Beispiel für diese Stra-
Hilfe von Selbstberichten (Q-Daten) thema-
tegie ist das Bochumer Inventar zur berufs-
tisieren mögliche subjektive Einflüsse auf
bezogenen Persönlichkeitsbeschreibung (BIP;
das Antwortverhalten von Probanden. Die-
Hossiep & Paschen, 2003). In vier Bereichen
se Einflüsse werden in erster Linie unter
persönlicher Eignungsvoraussetzungen (beruf-
dem Aspekt sog. „Verfälschungstendenzen“
liche Orientierung, Arbeitsverhalten, soziale
betrachtet (Hough & Schneider, 2004; Schu-
Kompetenzen, psychische Konstitution) wer-
ler Höft & Hell, 2014), obwohl natürlich
den insgesamt 14 Dimensionen unterschieden.
viele unterschiedliche Einflüsse existieren
Einige dieser Dimensionen stimmen weitge-
(I Kap. 10.6). Besonders intensiv untersucht
hend mit den globalen NEO-Faktoren über-
wurde aus naheliegenden Gründen die Ten-
ein, etwa die Dimension Gewissenhaftigkeit
denz zum Antworten im Sinne der sozialen
aus dem Arbeitsverhalten oder die Dimensi-
Erwünschtheit (S-E-Tendenz). Im Kontext der
on emotionale Stabilität aus der psychischen
organisationspsychologischen Diagnostik ist
Konstitution. Andere Dimensionen korrespon-
darunter die Tendenz zu verstehen, in Aus-
dieren mit NEO-Facetten, etwa Leistungsmo-
wahlsituationen eine beschönigende Selbstdar-
tivation aus der beruflichen Orientierung mit
stellung zu liefern.
Leistungsstreben, Soziabilität und Durchset-
zungsstärke aus sozialen Kompetenzen mit Ge-
Es ist einleuchtend, dass durch diese Tendenz
selligkeit und Durchsetzungsfähigkeit oder Be-
besonders das Antwortverhalten in Integrity-
lastbarkeit aus der psychischen Konstitution
Tests und entsprechenden Passagen von Ein-
mit Verletzlichkeit. Andere Dimensionen wie
stellungsinterviews beeinflusst wird. So konn-
Flexibilität (eine Komponente der Kreativität)
ten Ones und Viswesvaran (1998a) in einer
oder Handlungsorientierung aus dem Arbeits-
Metaanalyse an einer sehr großen Stichpro-
verhalten sind dagegen neu. Das BIP – 6F er-
be zeigen, dass die S-E-Tendenz substanziell
weitert diesen Ansatz auf sechs Dispositionen:
mit den Kernvariablen von Integrity-Tests (Ge-
Engagement, Disziplin, Dominanz, Stabilität,
wissenhaftigkeit, emotionale Stabilität, Ver-
Kooperation und Soziale Kompetenz (Hossiep
träglichkeit) korreliert ist. Allerdings fand
& Krüger, 2012).
sich auch, dass die Stärke des Zusammen-
Eine Ergänzung hat der NEO-Ansatz auch hangs zwischen den Werten in Integrity-Tests
durch die verstärkte Beachtung der Rolle ge- und Maßen des Berufserfolgs durch die S-E-
funden, die Affekte in Organisationen spielen Tendenz nicht beeinflusst wurde.
(Brief & Weiß, 2002). Affekte haben einen
wichtigen Einfluss auf die soziale Urteilsbil- Dieser auf den ersten Blick etwas überraschen-
dung (Forgas, 1992) wie auch auf das Verhal- de Befund könnte damit zusammenhängen,
ten in Organisationen (Isen & Baron, 1991). dass es sich bei der S-E-Tendenz nicht um ein
Dabei ist für die Diagnose von Affekten nicht einheitliches Merkmal handelt. In I Kap. 10
nur die naheliegende Differenzierung nach po- war bereits dargestellt worden, dass diese Ten-
sitiven und negativen Affekten wichtig, son- denz zwei Komponenten enthält: die Tendenz,
dern auch die Unterscheidung nach affektiven sozial unerwünschte Eigenschaften bei sich
Zuständen und Dispositionen (George, 1996). abzuleugnen (Defensivität), und die Tendenz,

418
14.3 Diagnostik bei der Person

sich sozial erwünschte Merkmale zuzuschrei- Aufgaben am künftigen Arbeitsplatz identisch


ben (Attribution). Es könnte nun sein, dass sein, ja diesen nicht einmal ähneln müssen.
beide Tendenzen gegenläufige Effekte auf be- So wird etwa die Eignung zum Flugzeugfüh-
stimmte Erfolgskriterien ausüben. Die Attri- rer nicht dadurch geprüft, dass man diesen
butionstendenz könnte für die Leistung in be- probeweise ein Flugzeug steuern lässt. Die
stimmten Berufen, in denen die erfolgreiche Items eigenschaftsorientierter Eignungstests
Gestaltung sozialer Beziehungen ausschlag- sind vielmehr auf Grund theoretischer Überle-
gebend ist, einen fördernden Einfluss haben. gungen und empirischer Befunde hinsichtlich
Eine hohe Ausprägung in dieser Tendenz be- der für eine bestimmte Tätigkeit notwendigen
deutet nämlich, sich an den Erwartungen An- personalen Voraussetzungen ausgewählt wor-
derer zu orientieren und damit insgesamt ei- den. Im Beispiel des Flugzeugführers würden
ne positive soziale Interaktion zu erreichen. zu diesen Voraussetzungen etwa Merkmale
Defensive Personen befassen sich dagegen in wie räumliches Vorstellungsvermögen, Feld-
sozialen Situationen primär mit eigenen De- unabhängigkeit, Konzentrationsfähigkeit so-
fiziten und versuchen, diese vor anderen zu wie emotionale Stabilität und Belastbarkeit ge-
verbergen. Dadurch sind sie weniger offen für hören. Ihre Brauchbarkeit zur Vorhersage von
soziale Hinweisreize und erreichen somit ins- Erfolg müssen derartige Verfahren über die
gesamt eine schlechtere soziale Anpassung. Kriteriums- bzw. Konstruktvalidierung nach-
weisen.
Diese im Hinblick auf Erfolgskriterien gegen-
läufigen Tendenzen konnten von Diemand und
In simulationsorientierten Verfahren wird die
Schuler (1991) für das Abschneiden in einem
Eignung dagegen über das augenblickliche
Assessment Center (AC; vgl. hierzu den nach-
Leistungsniveau bei bestimmten Aufgaben
folgenden Abschnitt zu den simulationsorien-
bzw. Tätigkeiten geprüft. Diese sollen für die
tierten Verfahren) nachgewiesen werden. Wäh-
am künftigen Arbeitsplatz anfallenden Tätig-
rend Teilnehmer mit einer erhöhten attribu-
keiten repräsentativ sein, d. h. diese so genau
tiven (bei Diemand & Schuler „assertiven“)
wie möglich abbilden. Beim Typ der Arbeits-
Selbstdarstellungstendenz im AC besser ab-
probe ist dabei die Übereinstimmung perfekt.
schnitten als Teilnehmer mit einer diesbezüg-
So wird etwa ein Bewerber um den Posten
lich niedrigen Tendenz, waren defensive Per-
eines Simultandolmetschers probeweise ge-
sonen deutlich erfolgloser als nichtdefensive
nau die Übersetzungen vorzunehmen haben,
(vgl. hierzu auch Blickle, Momm, Schneider,
die auch an seinem künftigen Arbeitsplatz
Gansen & Kramer, 2009; Marcus, 2003; Uziel,
anfallen. Häufig ist es jedoch zu aufwändig,
2010).
eine spätere Tätigkeit insgesamt probeweise
ausführen zu lassen. In diesem Fall würde
man sich mit einer möglichst realitätsnahen
14.3.3 Simulationsorientierte Simulation begnügen, etwa wenn man einen
Verfahren künftigen Kundenberater in einem Rollenspiel
mit einem „schwierigen Kunden“ interagieren
Eignungstests dienen, wie dargestellt, der Vor- lässt. Die Güte der Übereinstimmung derarti-
hersage des Erfolgs bei einer bestimmten Tä- ger Aufgaben mit dem Geschehen am realen
tigkeit oder nach einer bestimmten Ausbil- Arbeitsplatz wird von Experten im Sinne der
dung. In den im vorangegangenen Abschnitt Inhaltsvalidierung (I Kap. 3) geprüft. Natür-
beschriebenen eigenschaftsorientierten Verfah- lich kann man anschließend die Güte derar-
ren wird diese Eignung über Items (bzw. Auf- tiger eignungsdiagnostischer Verfahren etwa
gaben) geprüft, die im Prinzip nicht mit den für die Vorhersage beruflichen Erfolgs auch

419
14 Arbeits- und organisationspsychologische Diagnostik

im Sinne der Kriteriums- bzw. Vorhersagevali- hebungsstrategie bei den betroffenen Personen
dierung bestimmen. führt.

Bei den simulationsorientierten Ansätzen las- Nachteilig an den Arbeitsproben ist der ho-
sen sich Einzelverfahren und kombinierte Stra- he Aufwand bei ihrer Konstruktion, Durch-
tegien unterscheiden. Zu den Einzelverfahren führung und Auswertung. Da Arbeitsproben
gehören Arbeitsproben, Computer-Szenarien, zudem für die jeweilige berufliche Tätigkeit
das Postkorb-Verfahren, Präsentationsaufga- „maßgeschneidert“ werden müssen, können
ben, Rollenspiele und Gruppendiskussionen. sie kaum auf andere Tätigkeitsfelder übertra-
Kombiniert werden diese und mehrere eig- gen werden. Bei, durch die Einführung neuer
nungsdiagnostische Ansätze im Assessment Technologien bedingten, Veränderungen der
Center. Im Folgenden sollen kurz die Einzel- jeweiligen Tätigkeiten werden die bestehen-
verfahren dargestellt werden. Im nächsten Ab- den Verfahren unbrauchbar.
schnitt wird dann etwas ausführlicher auf das Computer-Szenarios. „Szenarios sind spezi-
Assessment Center eingegangen. elle, auf Computern implementierte Aufgaben,
die die Kontrolle und Steuerung komplexer
Arbeitsproben. Es handelt sich hier um stan- dynamischer Systeme oder Prozesse verlan-
dardisierte, inhaltlich valide Aufgaben, d. h. gen, welche mit einer mehr oder weniger rea-
um eine durch Expertenurteil gesicherte re- litätsnahen Rahmenhandlung versehen sind“
präsentative Stichprobe des geforderten beruf- (Höft & Funke, 2006, S. 151). Eine bekannte
lichen Verhaltens. Arbeitsproben sind nicht Computer-Simulation ist das Szenario „Loh-
nur standardisiert, sondern können auch nor- hausen“ (Dörner, Kreuzig, Reither & Stäudel,
miert sein, so dass sie den an einen Test 1983). Wie schon die Definition von Höft und
i. e. S. zu stellenden Anforderungen genügen Funke andeutet, stellen derartige Simulationen
(„work sample tests“). Arbeitsproben beziehen komplexe und vernetzte Probleme dar, d. h. es
sich vorzugsweise auf manuell-motorische Tä- ist eine große Anzahl von Systemvariablen,
tigkeiten, jedoch kann im Prinzip, wie das die durch multiple Wirkrelationen miteinan-
Beispiel des Dolmetschers zeigte, jedes gut der verbunden sind, gleichzeitig zu beachten.
strukturierte und eingrenzbare Arbeitsverhal- Die Problemlösung wird noch zusätzlich da-
ten über eine Arbeitsprobe geprüft werden. durch erschwert, dass die Information über die
Der Einsatz einer Arbeitsprobe setzt allerdings Systemvariablen und die Art ihres Zusammen-
voraus, dass der Proband bereits Vorerfahrung wirkens (zunächst) unzugänglich ist und das
mit der durchzuführenden Tätigkeit hat. Bei System zudem dynamisch angelegt ist. Das
Berufsanfängern könnte man alternativ die bedeutet, dass sich das System einerseits auf
Schnelligkeit und Güte prüfen, mit der die- Grund äußerer Eingriffe ändert, aber auch oh-
se Tätigkeit im Rahmen eines Trainingspro- ne Eingriffe eigendynamische Veränderungen
gramms gelernt wird. vollzieht.

Schmidt und Hunter (1998) konnten in ihrer Geprüft werden sollen mit derartigen Szena-
Metaanalyse zeigen, dass Arbeitsproben eine rios Prozesse der Informationsverarbeitung,
hohe kriteriumsbezogene Validität aufweisen. also etwa die Art der Beschaffung, Bewertung
Dies ist bei inhaltsvaliden Tests natürlich auch und Reduktion von Information zum Zwecke
nicht anders zu erwarten. Arbeitsproben besit- des strategischen Handelns. Es ist offensicht-
zen für Testanwender und Probanden eine ho- lich, dass derartige Designs zunächst einmal
he Augenscheinvalidität („face validity“), was für die kognitionspsychologische Grundlagen-
wiederum zu einer guten Akzeptanz dieser Er- forschung entwickelt wurden. Ob sie auch in

420
14.3 Diagnostik bei der Person

der Eignungsdiagnostik, in der es ja um die verschiedenen Validitätsstudien liefert Funke,


Registrierung stabiler individueller Differen- 1995.) Dabei muss allerdings berücksichtigt
zen und die Vorhersage von Erfolg geht, ver- werden, dass bei der Vielfalt korrelierter Va-
wendbar sind, muss sich in Studien zur psycho- riablen schon rein zufällig eine Anzahl signifi-
metrischen Qualität erweisen. Alle bisherigen kanter Beziehungen zwischen Prädiktoren und
entsprechenden Untersuchungen (Übersichten Kriterien zu erwarten ist. Einzelne signifikante
u. a. in Funke, 1999) haben gezeigt, dass die Korrelationen dürfen also nicht überinterpre-
bei derartigen Simulationen erhobenen Kenn- tiert werden. Wichtig ist hier eine Kreuzvali-
werte nicht stabil sind und kaum mit Maßen dierung der registrierten Zusammenhänge.
der allgemeinen kognitiven Fähigkeiten korre-
Insgesamt gesehen sind Computer-Szenarios
lieren. Dementsprechend kann man schließen,
derzeit noch kein gangbarer Weg zur Er-
dass derartige grundlagenbezogene Computer-
fassung komplexer Persönlichkeitsmerkmale,
Simulationen für die Zwecke der Eignungsdia-
wie etwa Informationsverarbeitungs- oder Pro-
gnostik derzeit kaum verwendbar sind. Deutli-
blemlösefähigkeit. Allerdings eröffnen sich
cher praxisbezogene Szenarios simulieren in
durch derartige Simulationen gute Perspekti-
der Regel komplexe Managemententscheidun-
ven für das Personaltraining (Stumpf, 2013).
gen, etwa das Führen eines mittelständischen
Unternehmens mit dem Ziel einer deutlichen Postkorb-Verfahren. Bei diesem Verfahren
Verbesserung des Betriebsergebnisses (Höft & handelt es sich im Prinzip um eine Arbeitspro-
Funke, 2006; Stumpf, 2013; für Übersichten be, allerdings nicht aus dem Bereich manuell-
über verschiedene Szenarios siehe auch Fun- motorischer, sondern aus dem administrativer
ke, 1995; Kleinmann & Strauß, 1998; zu den Tätigkeiten. „Beim Postkorb-Verfahren wer-
Gütekriterien siehe auch Streufert, Pogash & den von den Probanden schriftliche Materia-
Piasecki, 1988). lien bearbeitet, die einen typischen Postkorb
einer Führungs- oder Fachkraft in einer Orga-
Problematisch an der Verwendung von nisation abbilden sollen“ (Höft & Funke, 2006,
Computer-Szenarios für die Zwecke der Eig- S. 157). Die Materialien bestehen aus Briefen,
nungsdiagnostik ist natürlich die in einem der- Notizen (z. B. über Anrufe), Ausschnitten aus
artigen System bestehende Dynamik. Jeder Zeitungen, internen Rundschreiben u. Ä. Wie
Eingriff der Probanden (auch ein Nichthan- in einem normalen Postkorb sind diese Mate-
deln) führt zu spezifischen Veränderungen des rialien unterschiedlich komplex, wichtig oder
Systems. Dadurch entstehen unterschiedlich eilbedürftig.
schwierige Problemlagen, die einen Vergleich
Zu jedem dieser Materialien muss der Proband
der weiteren Handlungen einzelner Proban-
eine Entscheidung treffen (z. B. anrufen, zü-
den kaum zulassen. Deshalb ist es auch sehr
gig beantworten, zurückstellen, einen Termin
schwierig, die aus der Testkonstruktion her
vereinbaren, Mitarbeiter beauftragen). Dabei
bekannten Gütekriterien (I Kap. 3) für derar-
ist ein Zeitlimit (meist eine Stunde) vorgege-
tige Verfahren einzuschätzen. Allenfalls lässt
ben. Ausgewertet wird das Entscheidungsver-
sich noch die Paralleltest-Reliabilität bestim-
halten nach einer Reihe von Anforderungsdi-
men. Darüber hinaus lassen sich für einzelne
mensionen, z. B. Anzahl der getroffenen Ent-
Parameter, die am Verhalten des Probanden in
scheidungen, Wahrnehmung von Zusammen-
derartigen Szenarios isoliert werden können
hängen zwischen den Materialien, Delegieren
(z. B. Informationssuche, Steuerungsleistung),
von Aufgaben.
Hinweise zur kriteriumsbezogenen Validität
(etwa Übereinstimmungen mit Vorgesetzten- Problematisch an diesem Verfahren ist zum
beurteilungen) gewinnen. (Eine Übersicht zu einen die Existenz vieler Varianten (was

421
14 Arbeits- und organisationspsychologische Diagnostik

einen Vergleich empirischer Untersuchungen Präsentationsaufgaben. Bei diesem Verfah-


erschwert), zum anderen der oft geringe Grad ren bekommt der Proband ein Problem vorge-
ihrer Standardisiertheit. Dies betrifft sowohl legt (z. B. gegenüber Kunden eine Preiserhö-
die Durchführung als auch die Auswertung. hung für eine bestimmte Dienstleistung vertre-
Dementsprechend ist die Objektivität, be- ten), zu dem er sich, nach einer Vorbereitungs-
stimmt als Beurteilerübereinstimmung, eher zeit, in einem (meist mündlichen) Vortrag von
mäßig (Schippmann, Prien & Katz, 1990). Da definierter Dauer (etwa 15 Minuten) äußern
aus den beurteilten Merkmalen Rückschlüs- soll. Der Einsatz von Präsentationsmedien ist
se auf vergleichsweise überdauernde Eigen- dabei möglich. Ausgewertet wird der Vortrag
schaften der Probanden gezogen werden sol- nach formalen, inhaltlichen und darstellungs-
len, müsste zusätzlich zur Beurteilerüberein- mäßigen Gesichtspunkten. Formal interessiert
stimmung in jedem Fall die Stabilität der Test- etwa die Strukturierung des Vortrags, inhalt-
werte geprüft werden (I Kap. 3). lich geht es um die Überzeugungskraft der
Argumente und die Qualität des Lösungswe-
Was die Validität betrifft, so konnte Frederik-
ges, bei der Darstellung werden Anschaulich-
sen (1962) in einer Faktorenanalyse von 70
keit, Sprache sowie Mimik und Gestik bewer-
Anforderungsdimensionen drei Faktoren hö-
tet (Freimuth & Sieland, 2013).
herer Ordnung identifizieren: „preparing for
action“ (entscheidungsvorbereitende Handlun- Die Auswertung des Verhaltens bei Präsenta-
gen; z. B. Informationssuche, Prioritäten set- tionen erfolgt wie beim Postkorb-Verfahren
zen), „amount of action“ (Anzahl der Hand- weitgehend impressionistisch. Dementspre-
lungen) und „seeking guidance“ (Beratungs- chend sind die Beurteilerübereinstimmungen
suche). Die kriteriumsbezogene Validität ein- mäßig (Höft & Funke, 2006); Validitätsanga-
zelner Dimensionen variiert sehr stark, von ben finden sich kaum. Positiv an einer Prä-
negativen zu deutlich positiven Zusammen- sentationsaufgabe könnte immerhin sein, dass
hängen (Höft & Funke, 2006). Metaanalysen, von ihr, auf Grund ihrer hohen Augenschein-
mit deren Hilfe eine generelle Effektstärke die- validität, eine gewisse Motivierung für den
ser Einzelvariablen abgeschätzt werden könn- Probanden ausgeht. Deshalb sollte man sie,
te, sind allerdings kaum möglich, da in den wenn man wie im Assessment Center eine Se-
verschiedenen Studien recht unterschiedliche quenz von Verfahren durchführt, möglichst am
Varianten des Verfahrens verwendet wurden. Anfang darbieten.
Was die Korrelationen von Einzeldimensionen
Rollenspiel. Neben der Organisationspsycho-
mit Kriterumsvariablen betrifft, so gilt auch
logie hat dieser Verfahrenstyp auch in der
hier das für die Computer-Szenarios Gesagte:
sozialpsychologischen Forschung und insbe-
Angesichts der Vielzahl berechneter Beziehun-
sondere der klinisch-therapeutischen Praxis
gen sollten einige von ihnen auch rein zufällig
Bedeutung. In Organisationen dienen Rollen-
signifikant werden.
spiele der Personalauswahl und -entwicklung.
Neben Reliabilitäts- und Validitätsmängeln ist „Eignungsdiagnostische Rollenspiele simulie-
das Postkorb-Verfahren auch durch Defizite ren üblicherweise Interaktionssituationen von
bei der Auswertung und Interpretation belas- zwei Personen im innerbetrieblichen Kontext
tet. Es existieren hierzu kaum explizite Regeln, oder in einer Kundensituation. Der Inhalt der
so dass man den Postkorb als ein typisches Interaktion wird direkt aus der durchgeführten
Beispiel für die in I Kap. 5 ausführlich (und Arbeits- und Anforderungsanalyse abgeleitet“
kritisch) dargestellte Art der Datenkombina- (Höft & Funke, 2006, S. 157). Beim Rollen-
tion nach der klinischen Vorhersage ansehen spiel geht es um die Erfassung von Kompeten-
kann. zen zur Meisterung problematischer Situatio-

422
14.3 Diagnostik bei der Person

nen, z. B. das Eingehen auf Kundenbeschwer- Gruppendiskussion. Bei diesem Verfahrens-


den, das Beheben von Konflikten mit Unterge- typ wird in einer Kleingruppe (meist sechs
benen oder das Überzeugen von Kollegen hin- Teilnehmer, die alle auch Probanden sind) ein
sichtlich bestimmter Lösungswege. Wie diese vorgegebenes Problem so diskutiert, dass am
Beispiele aufzeigen, können die Interaktions- Ende ein von allen Teilnehmern akzeptierter
situationen konfrontativ oder kooperativ ange- Beschluss resultiert. Varianten dieses Verfah-
legt sein. Die zweite Rolle in der Interaktion rens entstehen dadurch, dass die Gruppe ent-
wird von einem Mitglied des Auswahlteams weder geführt oder führerlos ist, und die Rol-
gespielt, das häufig zugleich auch als einer der len vorgegeben oder frei sind. Je nach zu be-
Auswerter fungiert. arbeitendem Problem ist die Gruppensituation
eher auf Kooperation (wenn z. B. eine Gruppe
Wie die bisher vorgestellten Simulationen mit in eine Notsituation geraten ist und mit ihren
Ausnahme der Arbeitsprobe i. e. S. (und evtl. vorhandenen Möglichkeiten aus dieser Lage
der Präsentation) leidet auch das Rollenspiel herauskommen muss) oder auf Wettbewerb
darunter, dass es nur schwer standardisiert wer- angelegt (wenn z. B. in einem Betrieb Res-
den kann. Das liegt natürlich an der Dynamik sourcen zu verteilen sind). Häufig sind auch
der sozialen Interaktionssituation, in der der beide Aspekte vorhanden und die Teilnehmer
eine Partner jeweils auf das Verhalten des an- müssen sich zwischen kooperativen und kom-
deren reagieren muss. Immerhin lassen sich petitiven Strategien entscheiden.
Rollenspiele durch eine genaue Beschreibung
Wie beim Rollenspiel wird das von den ein-
des zu bearbeitenden Problems und Vorgabe
zelnen Teilnehmern gezeigte Verhalten von
schriftlicher Materialien an den Probanden
Beobachtern hinsichtlich festgelegter Anforde-
(z. B. Beschwerdebriefe eines Kunden, bishe-
rungsdimensionen bewertet. Mit den meisten
rigen Stellungnahmen der Firma) stärker struk-
der bisher besprochenen Simulationen teilt die
turieren und damit in ihrem Ablauf besser stan-
Gruppendiskussion die Schwäche mangeln-
dardisieren, wodurch zumindest ansatzweise
der Standardisiertheit. Zusätzlich ist sie noch
der für eine Personalauswahl notwendige Ver-
durch ein zweites Defizit gekennzeichnet. Höft
gleich zwischen den Leistungen verschiedener
und Funke (2006) weisen darauf hin, dass es
Probanden ermöglicht wird. Ein Beispiel für
durchaus fraglich ist, ob es sich bei der Grup-
ein strukturiertes Rollenspiel geben Höft und
pendiskussion überhaupt um eine Simulation
Funke (2006, S. 158).
des betrieblichen Alltagsgeschehens handelt,
d. h. ob die bei diesem Verfahren beobachteten
Ausgewertet werden die Rollenspiele nach den
Verhaltensweisen überhaupt repräsentativ sind
Dimensionen, die aus den jeweiligen Arbeits-
für die am künftigen Arbeitsplatz anfallenden
und Anforderungsanalysen abgeleitet wurden.
Tätigkeiten, die aber ihrerseits die Erfolgskri-
Studien zur Beurteilerübereinstimmung bei
terien wesentlich beeinflussen. Die Situation
diesen Dimensionen weisen für strukturierte
im Betrieb ist nämlich zumindest für die Ebe-
Rollenspiele – zumindest für vergleichswei-
ne, zu der eine Personalauswahl durch Grup-
se globale Merkmale wie z. B. verkäuferische
pendiskussion durchgeführt wird, eher durch
Fähigkeiten oder Kundenkontakt – zufrieden-
Einzelarbeit und dyadische Interaktionen als
stellende Werte (bis zu r = .80) aus. Stabilitäts-
durch Gruppendiskussionen gekennzeichnet.
angaben fehlen weitgehend. Die Koeffizienten
für die kriteriumsbezogene Validität (erfasst Nun könnte argumentiert werden, dass in
z. B. über Vorgesetztenbeurteilung oder Ver- der Gruppendiskussion nicht bloß Verhaltens-
kaufserfolg) liegen selten über r = .30 (Höft & weisen (z. B. wie oft ergreift ein Teilneh-
Funke, 2006). mer das Wort) beobachtet, sondern aus die-

423
14 Arbeits- und organisationspsychologische Diagnostik

sen Beobachtungen auf überdauernde Eigen- Bei den Teilnehmern handelt es sich meist um
schaften des Teilnehmers wie Kooperations-, Nachwuchskräfte, die sich entweder für eine
Entscheidungs- oder Durchsetzungsfähigkeit qualifizierte Position beworben haben oder
„geschlossen“ werden soll. Damit dieser dia- – als Organisationsmitglieder – für eine be-
gnostische Schluss aber trägfähig ist, müss- stimmte Entwicklungsmaßnahme ausgewählt
te die Gruppendiskussion den Gütekriterien werden sollen. Ihre Anzahl übersteigt selten
(insbesondere hinsichtlich der Stabilität der zwölf Personen, die etwa vier Gruppen zu je
Testwerte) genügen, die heutzutage bei der drei Teilnehmern zugewiesen werden können.
Konstruktion diagnostischer Verfahren ange-
legt werden müssen (I Kap. 3). Diese Krite- Die Durchführung eines AC erstreckt sich über
rien werden aber durchweg nicht erfüllt. Zwar mindestens einen vollen Tag, kann aber auch
weist ein früher Überblick von Bass (1954) zwei Tage oder länger dauern. Dabei stellt die
zufriedenstellende Koeffizienten für Beurtei- Durchführung nur einen Teil des AC dar. Hin-
lerübereinstimmung und Stabilität aus, doch zu kommen noch die Eingangsphase der Kon-
kommen spätere Studien mit sophistizierteren zeptualisierung und die abschließende Nach-
Analysemethoden zu deutlich niedrigeren Wer- bereitung (Höft & Funke, 2006).
ten (Übersicht in Höft & Funke, 2006).
Bei der Bestimmung der Eignungsdiagnostik
war eingangs als wesentliches Kennzeichen
ihr multimethodisches Vorgehen genannt wor-
14.3.4 Das Assessment Center den. Das AC kann als das Musterbeispiel für
diese Orientierung angesehen werden. Die Me-
thodenvielfalt wird heutzutage oft auf den Ein-
Das Assessment Center (AC, zu deutsch etwa satz verschiedener – in den vorangegangenen
„Beurteilungszentrum“) ist ein Gruppenprüf- Abschnitten dargestellter – Simulationsverfah-
verfahren, bei dem mehrere Teilnehmer über ren beschränkt (so in den vom Arbeitskreis
eine längere Zeitstrecke in unterschiedlichen Assessment Center, 1995, festgelegten Stan-
Situationen und mit verschiedenartigen Ver- dards). Diese Eingrenzung auf letztlich einen –
fahren untersucht und dabei von mehreren Be- wenn auch in sich sehr vielfältigen – Metho-
obachtern beurteilt werden. Ziel des AC ist die dentyp ist jedoch keineswegs zwingend. Das
Gewinnung von Information zur Absicherung AC basiert auf einem Verfahren zur Offiziers-
von Entscheidungen für die Personalauswahl auswahl, das die deutsche Reichswehr in den
und -entwicklung bei höher qualifizierten Posi- 1920er Jahren eingeführt hatte. Dieses Verfah-
tionen, meist Führungskräften. Daneben haben ren wurde vom britischen und amerikanischen
AC einige weitere innerbetriebliche Funktio- Militär für eigene Auswahlzwecke genutzt und
nen (Kleinmann, 2013): (1) Einen Überblick gelangte von dort nach dem 2. Weltkrieg in die
über die Qualifikationen der Mitarbeiter in füh- amerikanische Wirtschaft. Bekannt geworden
renden Positionen gewinnen. (2) Eventuelle ist hierbei die „Management Progress Study“,
Leistungsdefizite im Unternehmen aufdecken. eine Langzeitstudie der amerikanischen Firma
(3) Bei den Organisationsmitgliedern gemein- AT&T an über 400 Managern (Bray, Campbell
same Standards für Anforderungen und Leis- & Grant, 1974). Diese frühen AC umfassten
tungen setzen. (4) Die Bedeutung der Perso- neben Simulationsaufgaben (wie Präsentatio-
nalplanung und -entwicklung nach außen wie nen, Gruppendiskussionen oder Rollenspielen)
auch innerhalb der Organisation hervorheben. auch viele nichtsituative Verfahren (z. B. Inter-
(5) Beobachter schulen, die ihre Fähigkeiten views, Fähigkeits- und Leistungstests, ja sogar
dann auch im Berufsalltag einsetzen können. projektive Verfahren). Auch aktuell durchge-

424
14.3 Diagnostik bei der Person

führte AC greifen durchaus auf einige dieser Diese Dimensionen sind vergleichsweise glo-
Verfahren zurück. bal und heterogen (z. B. „Persönlichkeitsfor-
mat“ oder „Planungs- und Organisationsver-
Bei den Beobachtern handelt es sich in der halten“), werden aber durch Subdimensio-
Regel um speziell geschulte Mitglieder der Or- nen (z. B. Terminplanung, Delegieren, Prio-
ganisation, deren eigene Position meist zwei ritäten setzen oder Kontrollieren als Subdi-
Ebenen über der Zielposition liegt. Psycholo- mensionen des Planungs- und Organisations-
gen werden häufig als Berater hinzugezogen. verhaltens; Höft & Funke, 2006) etwas prä-
Das Verhältnis von Teilnehmern zu Beobach- zisiert. Die Simulationsorientierung der meis-
tern liegt typischerweise bei 2:1, d. h. in jeder ten AC zeigt sich darin, dass diese Dimensio-
Situation muss ein Beobachter simultan zwei nen nahezu ausschließlich durch verhaltens-
Teilnehmer beurteilen. Damit jeder Beobach- nahe Indikatoren (z. B. „delegiert gezielt an
ter Gelegenheit erhält, alle Teilnehmer zu be- einzelne Mitarbeiter“) operationalisiert wer-
urteilen, wird die Zuordnung im Anschluss an den. Allerdings muss schon an dieser Stelle
jede Situation nach einem festgelegten Rotati- darauf hingewiesen werden, dass diese Indi-
onsschema geändert. katoren wenig mit der Feinheit und opera-
tionalen Genauigkeit der Beobachtungssys-
Obwohl, wie erwähnt, im AC durchaus teme in der systematischen diagnostischen
Fähigkeits-, Leistungs- und Persönlichkeits- Verhaltensbeobachtung (I Kap. 9) zu tun ha-
tests eingesetzt werden können, stehen die ben. Tatsächlich geht es im AC auch weni-
eher „technischen“ Fähigkeiten und Leis- ger um Verhaltensbeobachtung als um Verhal-
tungen sowie Persönlichkeitsmerkmale i. e. S. tensbeurteilung.
hier nicht im Zentrum des Interesses. Im Fokus
Die Zuordnung der Einzelverfahren zu
des AC stehen vielmehr einerseits sehr kom-
den Anforderungsdimensionen erfolgt in ei-
plexe Merkmale wie etwa „Systematisches
ner Anforderungs-Verfahrens-Matrix. Im Sin-
Denken und Handeln“ (Fisseni & Fennekels,
ne der Multitrait-Multimethod-Analyse von
1995). Hierbei handelt es sich um ein, unscharf
Campbell und Fiske (1959; I Kap. 3) sollte je-
definiertes, Amalgam aus kognitiven Fähig-
de Anforderungsdimension durch mindestens
keiten (z. B. schlussfolgerndes Denken) und
zwei von einander unabhängigen Verfahren
Persönlichkeitseigenschaften (z. B. Gewissen-
operationalisiert werden, um so konvergente
haftigkeit, Organisiertheit). Andererseits inter-
und diskriminante Validitäten innerhalb der
essieren besonders sog. „soft skills“, das sind
Matrix aufzudecken. Problematisch ist dabei
neben den personalen Voraussetzungen für die
im AC die Basis für diese Zuordnung. Nach
bereits beschriebenen kontextuellen Leistun-
den insbesondere in den Kapiteln 3 und 4 be-
gen (Teamfähigkeit, soziales Verhalten; vgl.
schriebenen Gütestandards des Diagnostizie-
u. a. Borman & Motowidlo, 1993) insbesonde-
rens müsste diese Zuordnung einerseits theo-
re Führungsfähigkeit und Stressresistenz.
riegeleitet, andererseits durch die Ergebnisse
vorangegangener Validitätsstudien gesteuert
Welche Merkmalsaspekte im Einzelnen in ei-
werden. Ein Beispiel für ein derartiges Vor-
nem AC erhoben werden sollen, muss zu-
gehen ist die in Abschnitt 14.2 beschriebene
vor durch eine Arbeits- und Anforderungs-
synthetische Validierung. Im AC wird aber of-
analyse geklärt werden. Hierbei können al-
fenbar weniger dieser rationale, als vielmehr
le Verfahren zum Einsatz kommen, die wir
ein intuitiver Weg der Zuordnung beschritten.
im Abschnitt 14.2 bereits kennengelernt ha-
ben. Die Ergebnisse dieser Analyse werden Von größter Wichtigkeit für die Bewertung der
dann zu Anforderungsdimensionen aggregiert. Brauchbarkeit des AC ist eine Analyse der Po-

425
14 Arbeits- und organisationspsychologische Diagnostik

sition des Beobachters. Es versteht sich von expliziten und in vorangegangenen Studien
selbst, dass Beobachter im AC intensiv trai- validierten Algorithmus wird das Urteil auf
niert werden müssen. Zu diesem Training ge- einen in seinem Zustandekommen nur schwer
hört zunächst einmal die Unterscheidung von nachvollziehbaren (wer dominiert z. B. die Be-
Beobachtung und Beurteilung. Dass z. B. ein obachterkonferenz?) Konsenswert gestützt.
Teilnehmer in einer 30-minütigen Gruppendis-
kussion insgesamt 15 Minuten gesprochen hat, Zielsetzung eines AC ist die Einschätzung
ist eine Beobachtung. Dass er die Diskussion der aktuellen Kompetenzen oder des Entwick-
zu dominieren versucht, ist eine Beurteilung. lungspotenzials einer beurteilten Person. Die
Als nächstes muss der Beobachter mit den Brauchbarkeit des AC-Ansatzes im Hinblick
Dimensionen und deren Skalierung vertraut auf die Erreichung dieser Ziele hängt von einer
gemacht werden. Dabei ist es wichtig, dass Reihe von Bedingungen ab, die wir abschlie-
die einzelnen Stufen der Skalen durch meh- ßend besprechen wollen. Wir konzentrieren
rere Beispiele verdeutlicht werden. Schließ- uns dabei zunächst auf die etablierten Güte-
lich muss der Beobachter für typische Feh- kriterien psychologischer Testverfahren, wer-
ler bei der Registrierung des Verhaltens wie den im Anschluss daran aber auch auf weitere
Halofehler, Mildefehler, Kontrastfehler oder Aspekte der AC-Situation, von denen ein Ein-
Tendenzen zur Skalenmitte oder den Extrem- fluss auf die Brauchbarkeit ausgehen könnte,
werten sensibilisiert werden. (Für Übersichten eingehen. Bei den Gütekriterien werden wir
zum Beobachtertraining siehe u. a. Niermeyer, zunächst die Objektivität, sodann die Reliabi-
1999; Renner, 2013.) lität (Stabilität) und anschließend die verschie-
denen Formen der Validität besprechen. Dabei
Für die Gewinnung einer Prognose bzw. Dia-
können wir uns größtenteils auf die Befunde
gnose müssen die Bewertungen, die jeder
stützten, die wir bereits bei den simulationsori-
Beurteiler über einen Teilnehmer abgegeben
entierten Verfahren, aus denen ja im Wesentli-
hat, integriert werden (I Kap. 5). Beim AC
chen ein AC besteht, dargestellt hatten.
wird dabei in der Regel so vorgegangen,
dass zunächst nach jeder Einzelsituation (bzw.
Die Objektivität (bzw. Beurteilerübereinstim-
-aufgabe) das Teilnehmerverhalten von den
mung) variiert über einzelne Studien (aber
zuständigen Beobachtern auf jeder Anforde-
auch innerhalb einer Studie über die Situa-
rungsdimension gemeinsam, etwa in Form ei-
tionen) sehr stark. Was die Variation über ver-
nes numerischen Urteils, bewertet wird. Am
schiedene Situationen betrifft, so haben der
Ende des Gesamt-AC geben sodann alle Be-
Grad der Standardisiertheit einer Aufgabe und
obachter über jeden Teilnehmer ein Urteil ab.
die Genauigkeit der Definition zu beobach-
Diese Urteile werden im Rahmen einer Be-
tender Verhaltenseinheiten einen direkten Ein-
obachterkonferenz zu einer Gesamtbewertung
fluss auf die Objektivität. Bei einer vergleichs-
integriert, die einen (numerischen) Vergleich
weise gut standardisierbaren Aufgabe mit deut-
der einzelnen Bewerber zulässt.
lich distinkten und gut operationalisierbaren
Sowohl die Beschreibung der Datengewin- Beobachtungseinheiten (wie dies im Prinzip
nung über Beobachter als auch die Integra- beim Postkorb-Verfahren erreichbar ist, aller-
tion der so gewonnenen Daten zu einem Ge- dings oft nicht erreicht wird) sollte die Be-
samturteil zeigen, dass wir es beim AC mit obachterübereinstimmung höher ausfallen als
einem typischen Beispiel für eine klinische bei eher unstandardisiert ablaufenden Situa-
Vorhersage (I Kap. 5) zu tun haben. Statt auf tionen mit z. T. einander überlappenden Beob-
eine – durchaus mögliche – statistische Inte- achtungskategorien (z. B. in der Gruppendis-
gration der Einzelinformationen nach einem kussion).

426
14.3 Diagnostik bei der Person

Die Variation der Objektivität über die ein- Anders liegt der Fall bei der Reliabilität. Eine
zelnen Studien dürfte auch durch die Quali- Bestimmung der internen Konsistenz verbie-
tät der Beobachter bedingt sein. Zwar fanden tet sich auf Grund der Heterogenität und der
Arthur, Woehr und Maldegen (2000) in einer Dynamik innerhalb der einzelnen Aufgaben.
umfangreichen empirischen Studie, dass die Zwischen den aufeinander folgenden Verhal-
Gesamtvarianz von neun Beurteilungsdimen- tenseinheiten bestehen Abhängigkeiten, die
sionen in vier Aufgaben nur zu einem gerin- die Anwendung von Techniken der Itemana-
gen Teil (11 %) durch die Art der Aufgaben lyse (I Kap. 3) nicht zulassen. Obwohl, wie
und die verschiedenen Beurteiler aufgeklärt erwähnt, eine zufriedenstellende Stabilität der
wurde, doch kommen Metaanalysen bzw. kri- Verhaltensindikatoren Voraussetzung für einen
tische Sichtungen einzelner Studien (z. B. Lie- Schluss auf zugrunde liegend gedachte Merk-
vens, 1998; Thornton, Gaugler, Rosenthal & male der Person und die sich darauf gründen-
Bentson, 1987) zu anderen Schlussfolgerun- de Prognose ist, gibt es – aus guten Gründen –
gen. Danach moderiert die Variable Beobach- kaum Stabilitätsanalysen. Die Durchführung
ter die Enge des Zusammenhangs zwischen eines AC bewirkt bei jedem Teilnehmer Ver-
Beobachtungs- und Kriteriumsvariablen (d. h. änderungen, allein schon dadurch, dass die
die prädiktive Validität des AC). Teilnehmer nach Abschluss des AC eine detail-
lierte Rückmeldung über verschiedene Aspek-
Wichtige Faktoren auf der Seite des Beobach-
te ihrer Leistung erhalten. Dementsprechend
tens sind dabei die Qualität des Trainings. Auf
fanden Kelbetz und Schuler (2002), dass die
einige Aspekte, auf die bei einem Beobach-
AC-Dimensionen übungsanfällig sind und da-
tertraining zu achten ist, sind wir bereits ein-
mit die Stabilität eher mäßig ausfällt (r = .41
gegangen (für weitere Einzelheiten vgl. Höft
für den AC-Durchschnitt; Intervall 2 Jahre).
& Funke, 2006, und insbesondere Niermeyer,
1999). Ein weiterer Faktor ist die berufliche
Zur Bestimmung der Validität der auf den Er-
Position des Beobachters (trainierte Manager
gebnissen der Einzelverfahren bzw. auf der
aus dem Betrieb vs. Psychologen). Thornton
Gesamtbeurteilung der AC-Leistung gründen-
et al. (1987) empfehlen die Nutzung beider
den Diagnosen werden unterschiedliche Zu-
Quellen, da der Manager die Arbeitsanforde-
gänge realisiert. Simulationsorientierte Ver-
rungen und den Unternehmenskontext genau
fahren werden, wie erwähnt, zunächst einmal
kennt, der Psychologe aber der unabhängigere
hinsichtlich ihrer Inhaltsvalidität geprüft. Ex-
und kompetentere Beobachter ist.
perten beurteilen, ob die einzelnen Verfahren
Eine dritte Variationsquelle liegt schließlich ein repräsentatives Abbild der Aufgaben und
in Persönlichkeitsmerkmalen des Beobachters. Tätigkeiten sind, die bei der Zielposition an-
So fanden etwa Bartels und Doverspike (1997), fallen (I Kap. 3). Hierzu könnte man kritisch
dass die Milde und damit Vorteilhaftigkeit anmerken, dass das Geschehen in vielen Si-
der Beurteilung („leniency“) signifikant mit mulationen nicht unbedingt repräsentativ ist
einer Reihe von Persönlichkeitsmerkmalen für das spätere Tätigkeitsfeld. Durch den ver-
des Beobachters (erfasst mit dem 16-PF-Test, stärkten Einsatz von Rollenspielen oder Grup-
I Kap. 10) assoziiert ist. – Insgesamt gesehen pendiskussionen wird vergleichsweise viel Ge-
sollte es nach diesen Befunden aber möglich wicht gelegt auf die Interaktion in Gruppen,
sein, die Objektivität der Beurteilungen durch während der Einzelne als Problemlöser und
die Entwicklung geeigneter Beobachtungssys- Entscheider eher zurücktritt. Aber auch gene-
teme und ein entsprechendes Training der Be- rell ist das Geschehen in Simulationen nicht
obachter auf ein akzeptables Niveau anzuhe- wirklich repräsentativ für die alltägliche Ar-
ben. beit in der Zielposition. Stattdessen wird in

427
14 Arbeits- und organisationspsychologische Diagnostik

ihnen eher der Umgang mit problematischen weisen eindeutig auf eine fehlende Konstrukt-
(kritischen) Situationen geprüft, die gelegent- validität der von den Autoren analysierten AC
lich auftreten können und dann auch für eine hin. Entweder war in den Studien keine konver-
erfolgreiche Tätigkeit durchaus relevant sind. gente Validität gegeben, dafür aber ein erheb-
licher Methodeneffekt (hohe Interkorrelatio-
Da die vorherzusagenden Kriterien (Arbeits- nen der einzelnen Anforderungsdimensionen
leistung, Potenzial, Karriereentwicklung) aber innerhalb eines Verfahrens = fehlende diskri-
viel mehr beinhalten als das in der Simulation minante Validität). Oder es gab Hinweise auf
erfasste Verhalten, reicht eine Inhaltsvalidie- konvergente Zusammenhänge, der Methoden-
rung zur Bestimmung der Testgüte natürlich effekt war aber immer noch stärker ausgeprägt.
nicht aus. Wie erwähnt, findet auch im AC In jedem Fall wurden aber die in der MTMM-
ein diagnostischer Schluss statt, in dem von Analyse festgelegten Kriterien für Konstrukt-
einem (eingeschränkten) manifesten Merkmal validität deutlich verfehlt. (Für weitere Arbei-
(dem beobachteten Verhalten) auf eine (umfas- ten zur Konstruktvalidität siehe u. a. Fleenor,
sendere) latente Disposition (von der letztlich 1996; Lievens, 1998.)
die Leistung im Kriterium wesentlich deter-
miniert wird) geschlossen wird (I Kap. 1). Die Ergebnisse von Studien zur kriteriumsbe-
Die Tragfähigkeit dieses Schlusses wird über zogenen Validität fallen nicht besser aus als
die kriteriumsbezogene bzw. Konstruktvalidi- die zur Konstruktvalidierung berichteten (Be-
tät geprüft. cker, Höft, Holzenkamp & Spinath, 2011). So
bestimmten Schmidt und Hunter (1998) in
Was die Konstruktvalidität betrifft, so lassen ihrer bereits mehrfach erwähnten umfassen-
sich die Zusammenhänge zwischen den im den Metaanalyse, welchen Validitätszuwachs
AC über unterschiedliche Verfahren erhobe- (inkrementelle Validität) im Hinblick auf das
nen Anforderungsdimensionen mit Hilfe des Kriterium der beurteilten Arbeitsleistung ein-
Multitrait-Multimethod-Ansatzes (MTMM; zelne eignungsdiagnostische Verfahren über
Campbell & Fiske, 1959; I Kap. 3) analy- den generell vorhersagestärksten Prädiktor der
sieren. Die einzelnen Anforderungsdimensio- kognitiven Fähigkeiten hinaus besitzen. Wäh-
nen (z. B. Delegieren, Analysefähigkeit, inter- rend Arbeitsproben (Validitätszuwachs 24%),
personales Geschick) bilden in der entspre- Integrity-Tests (27 %) und strukturierte Ein-
chenden Matrix die Traits, während die un- stellungsgespräche (24 %) bei diesem Ver-
terschiedlichen Verfahren (z. B. Postkorb, Prä- gleich gut abschnitten, wurde für das AC nur
sentation, Gruppendiskussion) die Methoden ein Validitätszuwachs von 4 % registriert. Die-
darstellen. Eine hohe Konstruktvalidität eines ser Wert lag noch unter dem unstrukturier-
entsprechend aufgebauten AC müsste sich in ter Einstellungsgespräche (8% Zuwachs) und
hohen Interkorrelationen der Indikatoren ei- nur wenig höher als der für graphologische
ner spezifischen Anforderungsdimension über Gutachten, der – erwartungsgemäß – bei 0 %
die verschiedenen Verfahren hinweg mani- lag. Die Autoren vermuten, dass die in vielen
festieren (konvergente Validität). Gleichzeitig Studien gefundenen höheren direkten Zusam-
müssten die Interkorrelationen der verschie- menhänge zwischen AC-Indikatoren und Kri-
denen Anforderungsdimensionen innerhalb ei- teriumsvariablen darauf zurückzuführen sind,
nes Verfahrens vergleichsweise niedrig ausfal- dass die meisten Aufgabenmaße im AC hoch
len (diskriminante Validität). mit Tests der allgemeinen kognitiven Fähig-
keit korrelieren.
Eine inzwischen klassische Arbeit zur Be-
stimmung der Konstruktvalidität stammt von Die Metaanalyse von Schmidt und Hunter ist
Sackett und Dreher (1982). Die Ergebnisse hinsichtlich mehrerer Punkte kritisiert worden

428
14.3 Diagnostik bei der Person

(siehe u. a. Schuler & Höft, 2007; zur Technik Potenzialprognose etwas besser zu gelingen
der Metaanalyse vgl. auch Hedges & Okin, als die aktuelle Leistungsdiagnose.
1985). Moniert wurden u. a. die Schätzung
der Validität einzelner Verfahren bei Befun- Dieser letztgenannte Befund leuchtet unmittel-
den mit divergierenden Validitätsangaben, die bar ein, wenn man unterstellt, dass Prädiktoren
Aufnahme von Primärstudien, die hinsichtlich (AC-Anforderungsdimensionen) und Kriteri-
verschiedener Randbedingungen kaum zu par- umsvariablen (meist auf direkten oder indi-
allelisieren waren, sowie die Wahl des Merk- rekten Beurteilungen der Vorgesetzten beru-
mals Vorgesetztenbeurteilung als Erfolgskri- hende Werte) nicht voneinander unabhängig,
terium. Diese Kritikpunkte mögen im Einzel- sondern vielfach konfundiert sind. So werden
nen durchaus berechtigt sein, es ist aber nicht Vorgesetzte kaum geneigt sein, ein Organisa-
erkennbar, wieso das Vorgehen der Autoren tionsmitglied, das aus sehr vielen Bewerbern
ausgerechnet das AC benachteiligt haben soll- in einem sehr aufwändigen Verfahren ausge-
te. Ganz im Gegenteil kommt das Kriterium wählt wurde, später als „Versager“ einzustu-
Vorgesetztenbeurteilung, wie wir weiter unten fen. Auch das häufig verwendete Kriterium
sehen werden, dem AC besonders entgegen. der Karriereentwicklung wird natürlich indi-
rekt durch derartige Vorgesetztenbewertungen,
Eine weitere detaillierte Metaanalyse, aller- etwa im Rahmen der „systematischen Person-
dings ohne Vergleich mit alternativen eig- beurteilung“, beeinflusst. Insofern ist es nach-
nungsdiagnostischen Verfahren, wurde von vollziehbar, dass jede Potenzialprognose mit
Thornton et al. (1987) durchgeführt. Die Pri- der AC-Leistung zusammenhängt, während
märstudien wurden hinsichtlich unterschiedli- dies für vergleichsweise objektive Leistungs-
cher Leistungskriterien analysiert, u. a. Leis- diagnosen nicht von vorneherein zu erwarten
tungsbeurteilung, Potenzialeinschätzung, Leis- ist.
tung in Trainingsprogrammen oder Karriere- Eine zweite Konfundierung ist dadurch ge-
entwicklung. Die Validitätskoeffizienten der geben, dass die Teilnehmer eine detaillierte
insgesamt 50 analysierten Studien variierten Rückmeldung über verschiedene Aspekte ih-
zwischen −.25 und .78. Die Autoren errech- res Verhaltens im AC erhalten. Dadurch erfah-
neten für die Gesamtstichprobe (d. h. aggre- ren sie natürlich auch, welche Erwartungen die
giert über alle Leistungskriterien) einen Vali- Organisation an ihre Tätigkeit knüpft. Es ist
ditätskoeffizienten von r = .37. Dieser Wert naheliegend, dass sich die erfolgreichen AC-
entspricht exakt dem von Schmidt und Hunter Teilnehmer bei ihrer künftigen Arbeit an die-
(1998) berichteten direkten Zusammenhang sen Erwartungen orientieren werden. Damit
von AC-Leistung und Kriterium. Dementspre- haben spätere positive Leistungsbewertungen
chend ist zu vermuten, dass eine Kontrolle der durch Vorgesetzte stark den Charakter einer
Korrelationen zwischen allgemeiner kogniti- Sich-selbst-erfüllenden-Prophezeiung.
ver Fähigkeit und AC-Leistung bzw. Kriteri-
umswert auch den von Thornton et al. gefunde- Die vorliegenden Befunde zur Testgüte des
nen Koeffizienten deutlich verringern würde. AC (Objektivität, Reliabilität und Validität)
Die Bedeutung der Analyse von Thornton et weisen diesen Ansatz der Eignungsdiagnostik
al. liegt weniger in der Berechnung von Va- als unzulänglich aus. Hinzu kommt, dass – wie
liditätswerten als in der Identifizierung von wir in I Kap. 6 gesehen haben – die Testgüte
Variablen, die den Zusammenhang zwischen immer auch auf die Kosten eines Verfahrens zu
AC-Dimensionen und Kriteriumswerten mo- beziehen ist. Eine derart kostspielige Prozedur
derieren. Ein derartiger Moderator ist die Art wie das AC müsste schon eine extrem hohe
des geforderten Urteils. So scheint etwa die Testgüte aufweisen (d. h. zu einem sehr hohen

429
14 Arbeits- und organisationspsychologische Diagnostik

Anteil valide Positiver unter den Akzeptierten parenz der Anforderungen und die hohe Ak-
führen), um für die Organisation als nützlich zeptanz durch die Beteiligten genannt (so z. B.
eingestuft zu werden. (Im Prinzip müssten in Obermann, 1992). Herkömmlicherweise be-
eine derartige Analyse auch – was aus nahelie- zieht man beide Aspekte zunächst einmal auf
genden Gründen natürlich nicht möglich ist – den Probanden. Was die Akzeptanz betrifft, so
Informationen über die weitere Bewährung der ist es sicherlich von Vorteil, wenn der Proband
abgewiesenen Bewerber einbezogen werden.) die diagnostische Situation positiv bewertet
Das AC schneidet bei dieser Nutzenberech- und damit auch zur Mitarbeit motiviert ist. Es
nung ausgesprochen schlecht ab. ist durchaus eine Schwäche vieler etablierter
Testverfahren, diesem Aspekt zu wenig Be-
Die mangelnde Testgüte der AC-Aufgaben ist achtung zu schenken. Hinsichtlich der Trans-
natürlich auch vielen AC-Anwendern nicht parenz ist es natürlich notwendig, bei Verfah-
verborgen geblieben. Generell wird darauf- ren, die die maximale Leistung des Proban-
hin so argumentiert, dass durch die Methoden- den erfassen sollen, die Anforderungen mög-
vielfalt und den Einsatz mehrerer Beurteiler lichst eindeutig bekannt zu machen. Diese Be-
sozusagen ein Fehlerausgleich stattfindet, so dingungen versuchen aber alle Verfahren zur
dass am Ende doch ein brauchbares Gesam- Messung maximaler Leistung zu erfüllen, das
tergebnis resultiert. Diese Erwartung würde AC bildet hier also keine positive Ausnahme.
sich aber – wenn überhaupt – nur erfüllen, Ob Verfahren, die typisches Verhalten erhe-
wenn die einzelnen Fehlerquellen (Verfahren, ben, ebenfalls transparent sein sollen, muss
Beurteiler) unabhängig voneinander variieren. von Fall zu Fall, d. h. abhängig von der jewei-
Das ist aber, wie wir gesehen haben, nicht der ligen Messintention, entschieden werden. Häu-
Fall. Die Beurteiler unterliegen nicht nur glei- fig dürfte hohe Transparenz im Hinblick auf
chen Fehlertendenzen, sondern werden zudem eine valide Erfassung des intendierten Merk-
aufgefordert, ihre Einschätzungen miteinan- mals jedoch eher kontraproduktiv sein.
der zu diskutieren und abzugleichen. Auch die
Fehlertendenzen bei den Verfahren (z. B. die Etwas anders liegt der Fall, wenn man diese
Trainierbarkeit des Verhaltens) sind korreliert. Aspekte nicht in erster Linie auf den Proban-
Damit stellt sich abschließend die Frage, den, sondern auf den Testanwender bezieht.
warum sich ein Verfahren, das nach psychome- Transparenz bedeutet hier, dass das AC offen-
trischen und entscheidungstheoretischen Krite- bar in allen seinen Phasen für den Anwender
rien eher als defizient zu bewerten ist, bei vie- eine hohe Augenscheinvalidität besitzt. Da-
len Organisationen einer so großen Beliebtheit durch erhöht sich bei ihm die Urteilssicher-
erfreut. Als mögliche Antworten sollen drei heit. Die Sicherheit, eine richtige Entschei-
Argumente betrachtet werden: (1) Das AC ist dung (z. B. bei der Personalauswahl) getroffen
in seinen Zielsetzungen transparent und wird zu haben, wirkt sich vermutlich positiv auf
von den Beteiligten in diesen Zielsetzungen ak- das nachfolgende Verhalten gegenüber dem
zeptiert. (2) Das Auswahlverfahren nach dem akzeptierten Mitarbeiter aus, z. B. im Sinne ei-
AC sorgt dafür, dass Bewerber, die in die Orga- ner verstärkten Förderung. Weiter vorn hatten
nisation „passen“, eingestellt werden. (3) Das wir diesen Zusammenhang zwischen Progno-
AC dient der Selbstdarstellung der Organisati- se (anhand der Bewertung im AC) und spä-
on. terer Bewährung (operationalisiert über das
Vorgesetztenurteil) als Konfundierung im Sin-
Transparenz des AC. Als Stärke des AC, ne einer Sich-selbst-erfüllenden-Prophezeiung
die sozusagen seine psychometrischen Schwä- kritisiert. Wenn man jedoch die Bedeutung
chen kompensieren soll, wird häufig die Trans- berücksichtigt, die die Förderung gerade des

430
14.3 Diagnostik bei der Person

Nachwuchses für eine Organisation hat, so die Sicherheit und evtl. das gegenseitige Ver-
kann man diesem Zusammenhang auch eine trauen, was wiederum die Entscheidungsfin-
positive Seite abgewinnen. dung erleichtert. Offenbar glauben die AC-
Anwender, aus dem Verhalten der Bewerber in
Die Transparenz des Verfahrens erhöht auch den verschiedenen Übungen des AC Hinweise
dessen Akzeptanz durch den Anwender. Häu- auf dieses Kriterium gewinnen zu können.
fig handelt es sich ja hier, wie erwähnt, nicht
um Fachpsychologen. Derartige Personen ste- Selbstdarstellung der Organisation. Die In-
hen nur voll hinter den diagnostischen Verfah- formation, dass Führungskräfte mit Hilfe des
ren, den sich darauf gründenden Diagnosen AC ausgewählt werden, dient wesentlich der
und anschließenden Entscheidungen, wenn Selbstdarstellung einer Organisation. So könn-
das Verfahren für sie in allen seinen Abläufen te man zugespitzt formulieren, dass das AC bei
transparent ist und sie seine Logik akzeptieren. großen Unternehmen nicht trotz seiner Kosten
Dies ist bei vielen traditionellen Testverfahren so beliebt ist, sondern weil es so teuer ist. Es
nur sehr eingeschränkt der Fall. So stehen vie- wird gewissermaßen als Aushängeschild der
le Praktiker etwa der Vorstellung, dass man Organisation, sozusagen als Werbemaßnahme
mit Intelligenztests das erfassen kann, was sie genutzt, die man sich etwas kosten lässt. Es
unter allgemeiner kognitiver Kompetenz ver- indiziert so positiv besetzte Begriffe wie Mo-
stehen, eher skeptisch gegenüber. Und schon dernität, Gründlichkeit und Kompetenz. In der
gar nicht verstehen sie, wie aus der Vielzahl Öffentlichkeit und damit auch beim Kunden
der Probandenantworten am Ende ein Wert wird der Eindruck erzeugt, dass ein Unterneh-
wie der IQ resultiert. Dies ist beim AC an- men, das seine Mitarbeiter so aufwändig, so
ders. Hier sind Ablauf des Verfahrens und die differenziert, nach dem neusten Stand der Wis-
Logik der Diagnosestellung, auch wenn unter senschaft auswählt, einfach gute Leute haben
testtheoretischen Gesichtspunkten anfechtbar, und deshalb auch gute Produkte oder Dienst-
für den Praktiker nachvollziehbar. leistungen anbieten muss.

Einstellung „passender“ Bewerber. Es ist


offenbar ein wichtiger – impliziter – Gesichts- 14.3.5 Biographieorientierte
punkt bei der personellen Ergänzung des hö- Verfahren
heren Managements, dass ein einzustellen-
der Mitarbeiter zur Organisation „passt“, d. h. Die Erhebung biographieorientierter Informa-
zentrale Werte der Organisation und entspre- tionen (Biodaten) zählt zu den populärsten Me-
chende Vorstellungen der führenden Personen thoden der Personalauswahl (Überblick in Sto-
teilt und darüber hinaus auch ähnlich „denkt“ kes, Mumford & Owens, 1994). Sie folgt dem
wie die anderen Mitglieder des Managements. eigenschaftsorientierten Konsistenzprinzip der
Man kann dieses Kriterium unter dem Aspekt Diagnostik, nach dem Verhalten und Leistung
kritisieren, dass die Innovationsfähigkeit ei- in der Vergangenheit die besten Prädiktoren
ner Organisation insbesondere auch von der künftigen (Leistungs-)Verhaltens sind. Gene-
Gewinnung von Personen abhängt, die neue rell stehen drei Quellen zur Erhebung von Bio-
Ideen mitbringen. Für die Führung ist aber of- daten zur Verfügung: Bewerbungsunterlagen,
fenbar der Gesichtspunkt der Sicherheit und biographische Fragebogen und Einstellungsin-
des Vertrauens der ausschlaggebendere. Wenn terviews.
man weiß, wie die Person, mit der man bei Ent-
scheidungen zusammenarbeiten muss, denkt Bewerbungsunterlagen. Im Sinne des hand-
und insgesamt „funktioniert“, dann erhöht dies lungstheoretischen Modells von Kaminski

431
14 Arbeits- und organisationspsychologische Diagnostik

Übersicht 14.1 Auswertbare Einzelunterlagen einer Bewerbung

1. Anschreiben (c) Sonstige Bescheinigungen


2. Lichtbild (d) Berufsbedingte Auslandsaufenthalte
3. Lebenslauf (ausführlich oder tabellarisch) (e) Referenzen
4. Zeugnisse (mit Noten) 6. Spezialkenntnisse
(a) Schulzeugnisse (a) Sprachen
(b) Examenszeugnisse (b) EDV
(c) Ausbildungszeugnisse (c) Lehrgänge
5. Nachweise und Bescheinigungen (d) Zusatzausbildung
(a) Arbeitszeugnisse 7. Personalfragebogen
(b) Praktikumsnachweise (falls zuvor verschickt)

(I Kap. 7) stellen Informationen aus Bewer- wahlverfahren bleibt (falscher Positiver), da


bungsunterlagen (Hollmann, 2013) Daten dar, sich dieser auf einer späteren Stufe vermutlich
die am Anfang eines mehrstufigen Auswahl- noch identifizieren lässt.
prozesses sozusagen „von selbst“ eingehen. In
I Übersicht 14.1 sind die Einzelunterlagen, Die inhaltlichen Gesichtspunkte, die zur Aus-
die eine Bewerbung enthalten sollte, aufgelis- wertung von Bewerbungsunterlagen herange-
tet. Diese Unterlagen lassen sich nach forma- zogen werden, sind vielfältig, da das Materi-
len und inhaltlichen Aspekten auswerten. al dieser Unterlagen sehr heterogen ist. Beim
Lichtbild hat offensichtlich die physische At-
Formale Aspekte spielen ganz am Anfang des traktivität der Person einen gewissen Einfluss
Auswahlprozesses eine wichtige Rolle, wenn auf die Vorauswahl (Marlowe, Schneider &
es um die Feststellung der Eignungsvoraus- Nelson, 1996). Attraktive Personen werden als
setzungen für eine bestimmte Position geht. intelligenter beurteilt als unattraktive. Aus der
Zu diesen Aspekten gehören die Fehlerfreiheit Präsentation des Bewerbers in Anschreiben,
des Anschreibens und die Vollständigkeit der Lebenslauf u. Ä. werden Rückschlüsse auf Per-
Unterlagen, Format und Qualität des Lichtbil- sönlichkeitseigenschaften wie Intelligenz, Or-
des, Lückenlosigkeit des Lebenslaufs sowie ganisiertheit oder Gewissenhaftigkeit gezo-
der Nachweis der notwendigen Ausbildung gen. Von ganz besonderer Bedeutung für die
und der geforderten Prüfungen. Im Sinne ei- Vorauswahl sind natürlich alle leistungs- und
nes Screening sollen durch Überprüfung dieser arbeitsbezogenen Informationen (Schulnoten,
Aspekte offensichtlich ungeeignete Bewerber Studienleistungen, Arbeitszeugnisse, Spezial-
(valide Negative) ausgeschieden und damit die kenntnisse, Berufserfahrung, Auslandsaufent-
Anzahl der Bewerber, die in den nachfolgen- halte u. Ä.).
den – aufwändigeren – Stufen des Prozesse
zu untersuchen sind, deutlich reduziert wer- Zur Bestimmung der kriteriumsbezogenen Va-
den. Wichtig ist in dieser Phase die Festlegung lidität dieser Daten liegen zahlreiche Unter-
des Cutoff-Wertes (I Kap. 6). Dieser sollte suchungen vor, die in einer Reihe von Meta-
so gewählt werden, dass möglichst wenige analysen zusammengefasst wurden. So wiesen
geeignete Bewerber bereits auf dieser Stufe Schmidt und Hunter (1998) in ihrer Metaanaly-
ausgeschieden werden (d. h. der Prozentsatz se für Biodaten nur eine inkrementelle Validi-
falscher Negativer sollte sehr gering sein). Da- tät (Zuwachs durch Hinzufügen dieser Daten
gegen ist es weniger problematisch, wenn ein zu Tests der allgemeinen kognitiven Fähig-
ungeeigneter Bewerber zunächst noch im Aus- keit) von 2 % nach. Demgegenüber konnten

432
14.3 Diagnostik bei der Person

in verschiedenen Metaanalysen für leistungs- Der Typ des biographischen Fragebogens un-
und arbeitsbezogene Informationen, und hier terscheidet sich im Prinzip nicht von den In-
besonders für die Schulnoten (Gesamtnote, ventaren, die in I Kap. 10 als Verfahren zur
Mathematiknote), deutliche Zusammenhänge Beschaffung subjektiver Daten beschrieben
mit dem Ausbildungserfolg (Abschlussnoten worden waren. Was die Konstruktionsprinzipi-
bei der Berufsausbildung bzw. dem Studium) en betrifft, so finden sich auch hier die vorge-
nachgewiesen werden (r ≈ .40; Schuler, 1998). stellten Typen (vgl. auch Burisch, 1984): intui-
Auch das Ausmaß der Berufserfahrung (Dauer tiv, internal-induktiv, theoriegeleitet-deduktiv,
und Art der Erfahrung, Anzahl bisher übertra- external-kriteriumsbezogen sowie kombiniert
gener Aufgaben, Erfahrungen mit spezifischen (Breaugh, 2009).
Tätigkeiten) ist ein signifikanter Prädiktor des
Berufserfolgs (Quiñones, Ford & Teachout, Besonders beliebt ist die external-kriteriums-
1995; Schmidt & Hunter, 1992). bezogene Strategie der Itemgewinnung und
Skalenkonstruktion. Ähnlich wie beim MMPI,
Biographische Fragebogen. Die Eignung dem klassischen Vertreter dieses Ansatzes, er-
der verschiedenen Auswertungsaspekte von folgt die Itemselektion über den Vergleich
Bewerbungsunterlagen als Datenquelle für die zweier (oder auch mehrerer) Gruppen von Per-
Personalauswahl ist durch deren mangelnde sonen, die sich hinsichtlich ihres beruflichen
Standardisiertheit stark eingeschränkt. Weder Erfolges unterscheiden (Hogan, 1994). Ein
ist im Einzelnen festgelegt, welche Informatio- Item gilt dann als brauchbar, wenn es von den
nen in den Unterlagen geliefert werden sollen, Gruppen der Erfolgreichen und Erfolglosen
noch folgt die Auswertung dieser Informatio- signifikant unterschiedlich beantwortet wird.
nen verbindlichen Regeln. Stattdessen vollzie- Auf das mit einer ausschließlichen Abstützung
hen sich die Beurteilung der Daten und deren auf das Signifikanzniveau bei der Analyse von
Integration zu einem Gesamturteil eher im- Beantwortungshäufigkeiten verbundene Pro-
pressionistisch, d. h. nach dem bereits darge- blem wurde in I Kap. 10 eingegangen.
stellten Schema der klinischen Urteilsbildung
(I Kap. 5). Es ist klar, dass auf diese Weise Die ebenfalls zur Skalenkonstruktion herange-
die Gütestandards diagnostischer Erhebungs- zogene internal-induktive (d. h. in der Regel
methoden nicht erfüllt werden können. faktorenanalytische) Strategie leidet darunter,
dass hieraus meist eine große Anzahl varianz-
Einen ersten Schritt in Richtung einer besse- schwacher und wenig generalisierbarer Kom-
ren Standardisierung des Vorgehens stellt der ponenten resultiert (vgl. u. a. Hough & Paul-
Einsatz von Personalfragebogen dar, die den lin, 1994). Das ist angesichts der Heterogenität
Bewerbern von den Betrieben zur Beantwor- von Biodaten natürlich auch nicht anders zu
tung zugeschickt und anschließend den Be- erwarten. Versuche, diese Vielfalt zugunsten
werbungsunterlagen beigelegt werden. Aller- varianzstärkerer, besser generalisierbarer Fak-
dings erfolgt die Auswahl der gestellten Fra- toren zu reduzieren, führten meist zu Dimen-
gen weitgehend intuitiv und entsprechend den sionen, die aus der Persönlichkeits- oder Inter-
jeweiligen Bedürfnissen der Betriebe. Außer- essendiagnostik (I Kap. 10) bereits bekannt
dem unterliegt der Bereich zu stellender Fra- sind, z. B. Extraversion, emotionale Stabilität
gen rechtlichen Einschränkungen. Eine Wei- oder bestimmte Interessen (vgl. u. a. Mumford
terentwicklung dieses Ansatzes in Richtung & Owens, 1987).
einer überbetrieblichen, standardisierten und
auf voranalysierten Items beruhenden Form Rein theoriegeleitet-deduktive Strategien wer-
der Datenerhebung stellt der biographische den bei der Konstruktion von biographischen
Fragebogen dar (Marcus, 2013). Fragebogen kaum verwendet. An ihre Stelle

433
14 Arbeits- und organisationspsychologische Diagnostik

tritt ein rational genannter kombinierter An- wahl und Platzierung von Personal, Beurtei-
satz. Items werden von Experten nach den lung und Beratung von Mitarbeitern, Arbeits-
Prinzipien der Inhaltsvalidität formuliert und analyse, Konfliktlösung sowie Organisations-
zu Skalen zusammengesetzt. Anschließend entwicklung. Die weitaus größte Bedeutung
werden diese Skalen in empirischen Analysen hat diese Methode als Einstellungsinterview
anhand teststatistischer Kriterien (Itemtrenn- in der Personalauswahl. Dieses Interview bie-
schärfe, interne Konsistenz) optimiert und hin- tet Gelegenheit zum Austausch personen-,
sichtlich ihrer kriteriumsbezogenen Validität arbeits- und organisationsbezogener Informa-
geprüft (vgl. u. a. Mumford, Costanza, Connel- tionen (Schuler, 2002).
ly & Johnson, 1996).
Strukturierte Einstellungsinterviews sind un-
Vergleiche der Güte verschiedener Skalenty- strukturierten nach allen psychometrischen
pen bei der Vorhersage von Erfolgskriterien Qualitätskriterien deutlich überlegen (vgl. u. a.
(u. a. Verkaufserfolg, Kundenkontakt) haben Campion, Palmer & Campion, 1997; Dipboye,
keine großen Unterschiede zwischen den ein- 1997). So konnte etwa in Metaanalysen nach-
zelnen Ansätzen ergeben. Die Koeffizienten gewiesen werden, dass bei der Auswertung un-
waren durchweg bedeutsam, wenn auch nicht strukturierter Interviews nur eine durchschnitt-
sehr ausgeprägt (meist zwischen r = .30 und liche Beurteilerübereinstimmung von r = .34
.40), wobei die external-kriteriumsbezogene erreicht wird, während dieser Wert für stärker
Strategie etwas schlechter abschnitt als die bei- strukturierte Interviews immerhin auf r = .67
den anderen Ansätze (Hough & Paullin, 1994; steigt (Conway, Jako & Goodman, 1995). Un-
Stokes & Searcy, 1999). geachtet dieser Tatsache präferieren die meis-
Trotz ihrer Vorhersagequalität werden biogra- ten Betriebe jedoch nach wie vor die unstruk-
phische Fragebogen bei der Personalauswahl turierte Form (Graves & Karren, 1996).
nur zögerlich eingesetzt. Der Grund liegt dar- Ein stärker strukturiertes Interview, das Vor-
in, dass Fragen nach bestimmten Informatio- bild für eine Reihe späterer Verfahren wurde,
nen (u. a. familiäre und finanzielle Situation, ist das Behavior Description Interview (BDI;
religiöser oder ethnischer Status) rechtlich pro- Janz, Hellervik & Gilmore, 1986). Mit Hil-
blematisch sind. Darüber hinaus scheinen ein- fe der bereits dargestellten Methode der kri-
zelne Skalen auch auf unterschiedliche Bevöl- tischen Ereignisse (Flanagan, 1954) wurden
kerungsgruppen (z. B. mit bestimmtem ethni- für die jeweilige Organisation positive und ne-
schen Status) nicht gleich gut anwendbar zu gative Vorkommnisse gesammelt (z. B. Streit
sein (siehe Hough & Oswald, 2000). des Verkaufspersonals mit einem Kunden, der
Einstellungsinterviews. Das Interview als ei- sich in unsachlicher Form über den Service
genständige Methode zur Gewinnung diagnos- beschwert). Die verschiedenen Ereignisse wer-
tisch relevanter Information in verschiedenen den zu Kategorien gruppiert, die sich aus den
Anwendungsfeldern der Psychologie wurde einzelnen Aufgabenfeldern einer Organisation
bereits ausführlich in I Kap. 8 dargestellt. ergeben. Zu jeder Kategorie werden Fragen
Deshalb sollen an dieser Stelle nur einige und Folgefragen gestellt, durch die der Um-
Punkte, die für den organisationspsychologi- gang des Bewerbers mit dem kritischen Er-
schen Kontext wesentlich sind, behandelt wer- eignis und seinen möglichen Konsequenzen
den. (Eine umfassende Darstellung findet sich immer genauer eingegrenzt wird.
in Schuler, 2002.)
Im BDI wird versucht, die Eignung eines Be-
Interviews werden in Organisationen für un- werbers für die Bewältigung künftiger Aufga-
terschiedliche Zielsetzungen eingesetzt: Aus- ben aus der Art zu erschließen, wie er in der

434
14.3 Diagnostik bei der Person

Übersicht 14.2 Die diagnoserelevanten Einheiten des Multimodalen Interviews (siehe Schuler,
1992).

Schritt 2 Selbstvorstellung des Bewerbers. Bewertung hinsichtlich


anforderungsbezogener Dimensionen.
Schritt 3 Berufsorientierung und Organisationswahl. Standardisierte Fragen zu
Berufswahl und -interessen, Bewerbungsmotivation, ggf. Fachwissen.
Auswertung auf definierten Skalen.
Schritt 4 Freier Gesprächsteil. Offene Fragen auf der Basis der Bewerbungsunterlagen
und Selbstvorstellung. Summarische Auswertung.
Schritt 5 Biographiebezogene Fragen. Standardisierte Darbietung und Auswertung.
Schritt 7 Situative Fragen. Nach der Methode der kritischen Ereignisse konstruierte
Fragen. Standardisierte Auswertung.

Vergangenheit mit kritischen Ereignissen um- summarischen Auswertungen – etwa bei Ein-
gegangen ist. Im Situativen Interview (SI; La- heit 4 – bis zur Einstufung auf verhaltensver-
tham, 1989) werden dagegen mögliche künfti- ankerten Skalen bei den Einheiten 3, 5 und 7).
ge kritische Situationen geschildert und die Be- So werden etwa die Antworten auf die situati-
werber aufgefordert, ihr Lösungsverhalten zu ve Frage (Einheit 7) ähnlich ausgewertet wie
berichten. Diese Antworten werden anschlie- die Antworten beim SI (siehe Schuler & Höft,
ßend auf mehrstufigen Skalen im Hinblick auf 2007, für eine Frage mit Auswertungsbeispie-
ihre Effizienz zur Lösung des Problems bewer- len).
tet. Zur Erleichterung der Einstufung und da-
mit Erhöhung der Beurteilerübereinstimmung Was die Validität von Interviews betrifft, so
werden einzelne Stufen dieser Skalen durch war bereits in I Kap. 8 darauf hingewiesen
Beispielantworten verdeutlicht. worden, dass bestenfalls strukturierte Inter-
views in einem substanziellen Bezug zu ver-
Ein Interview für den deutschsprachigen schiedenen Erfolgskriterien stehen. So fanden
Raum ist das Multimodale Interview (MMI; Schmidt und Hunter (1998) in ihrer Metaanaly-
Schuler, 1992). Das Interview besteht aus ei- se für strukturierte Einstellungsinterviews eine
ner vorgegebenen Abfolge von acht Einheiten, Steigerung der Validität durch Hinzufügen die-
von denen fünf zur Eignungsdiagnose heran- ser Daten zu Tests der allgemeinen kognitiven
gezogen werden. Drei Einheiten (Nr. 1 Ge- Fähigkeit um 24 % (was exakt der inkremen-
sprächsbeginn, Nr. 6 Realistische Tätigkeits- tellen Validität von Arbeitsproben entspricht).
informationen – Informationen aus der Orga- Demgegenüber betrug der Zuwachs bei un-
nisation für den Bewerber –, Nr. 8 Gesprächs- strukturierten Interviews nur 8 % (was aber
abschluss) werden nicht inhaltlich ausgewer- noch über der inkrementellen Validität des AC
tet. Durch den Einbau dieser – aus der Sicht lag). McDaniel, Whetzel, Schmidt und Mau-
des Bewerbers – freien Gesprächsteile wird rer (1994) stellten in ihrer Metaanalyse ähnli-
der Eindruck eines schematischen Vorgehens che Unterschiede zwischen strukturierten und
gegenüber dem Interviewten vermieden. In unstrukturierten Interviews fest. Der höchste
I Übersicht 14.2 sind die diagnoserelevanten Koeffizient für das Kriterium Berufserfolg er-
Einheiten dargestellt (vgl. auch Schuler, 1992). gab sich mit r = .50 für strukturierte situative
Die einzelnen Einheiten werden unterschied- Interviews. Einen ähnlichen Wert und eine be-
lich ausgewertet (von eher unstandardisierten, deutsame inkrementelle Validität des struktu-

435
14 Arbeits- und organisationspsychologische Diagnostik

rierten Interviews gegenüber kognitiven Tests dem Treffen von Entscheidungen und dem
registrierten Campion, Campion und Hudson anschließenden Mitarbeitergespräch, in dem
(1994). Allerdings resultierte dieser Wert nur diese Entscheidung mitgeteilt und begründet
für biographiebezogene Fragen, während der wird oder – falls keine unmittelbaren Entschei-
Koeffizient für situative (zukunftsbezogene) dungen anstehen – dem Mitarbeiter auf der
Fragen niedriger ausfiel (r = .39). Grundlage der LB Feedback gegeben wird.
Für die Gestaltung des Mitarbeitergesprächs
Auch für das MMI konnten bedeutsame Zu-
ist der Umstand zu beachten, dass einzelne
sammenhänge mit Erfolgskriterien (z. B. in
Zielsetzungen der LB (z. B. Lohnfestsetzung
der beruflichen Ausbildung) nachgewiesen
und Motivierung durch Feedback) miteinander
werden (r zwischen .30 und .50; Schuler &
in Konflikt geraten können.
Moser, 1995). Ferner konnte ein Validitätszu-
wachs gegenüber Tests der allgemeinen ko-
gnitiven Fähigkeit gesichert werden (Schu-
ler, 2002; Schuler, Moser, Diemand & Funke, 14.4.2 Kriterien
1995).

Basis der LB sind die Elemente der Arbeits-


und Anforderungsanalyse. Diese setzen die
14.4 Leistungsbeurteilung Standards der an einem Arbeitsplatz zu erbrin-
genden Leistung. Das bedeutet, dass sich mit
14.4.1 Funktionen der veränderten Anforderungen an die Arbeitstä-
Leistungsbeurteilung tigkeit auch der Inhalt der LB ändern muss
(Cascio, 1995). Inhaltlich kann sich eine LB
Neben der zum Zwecke der Personalauswahl auf drei Kriterien beziehen, Leistungsergeb-
betriebenen Feststellung der Eignung von Be- nisse, Leistungsverhalten und Leistungspoten-
werbern stellt die Beurteilung der Leistung zial. Leistungsergebnisse sind Grundlage der
von Mitarbeitern ein zweites großes Feld dia- Regelbeurteilung, wie sie etwa im Rahmen
gnostischer Tätigkeiten im Bereich von Orga- der „systematischen Personbeurteilung“ in re-
nisationen dar. Berufliche Leistung kann als gelmäßigen Abständen (etwa einmal im Jahr)
Beitrag des einzelnen Beschäftigten zu den durchgeführt wird. Das Leistungsverhalten er-
Zielen der Organisation bestimmt werden (Lo- schließt sich über alltägliche oder systemati-
haus & Schuler, 2014). Anders als die Eig- sche Verhaltensbeobachtungen und liefert die
nungsdiagnostik ist die Leistungsbeurteilung Basis für häufigere, unsystematische, Rück-
(LB) durch mehrere Funktionen gekennzeich- meldungen („Day-to-day-Feedback“). Die Be-
net (siehe I Übersicht 14.3). Nicht bei allen urteilung des Leistungspotenzials ist stärker
Zielsetzungen steht dabei die Einzelperson im eigenschaftszentriert, berücksichtigt aber auch
Mittelpunkt, auch Arbeitsgruppen oder Orga- Leistungsergebnisse und -verhalten. Ihre Ziel-
nisationsteile können Objekt der LB sein. Al- setzung ist eignungsdiagnostisch, etwa in Hin-
lerdings bezieht sich die Mehrzahl der Ansätze blick auf die Qualifizierung für bestimmte
auf die Leistung des Einzelnen, weshalb diese Förderungsprogramme oder die Übertragung
Orientierung auch bei der folgenden Darstel- wichtiger neuer Aufgaben.
lung den Schwerpunkt bildet.
Jedes dieser Kriterien ist im Hinblick auf seine
Die Durchführung von LB gehört zu den zen- Verwendung im Rahmen einer LB problema-
tralen Führungsaufgaben. Neben der reinen tisch. Ergebniskriterien (z. B. Verkaufszahlen,
Beurteilung besteht diese Aufgabe auch aus Fehlzeiten) erfreuen sich großer Popularität,

436
14.4 Leistungsbeurteilung

Übersicht 14.3 Funktionen der Leistungsbeurteilung


• Personelle Entscheidungen
auf individuellem Niveau: Platzierung, Beförderung, Versetzung, Übernahme, Entlassung,
Lohnfestsetzung
auf kollektiver Ebene: Personalplanung
• Personalentwicklung
auf individuellem Niveau: Aufgabenerweiterung, Schulungsmaßnahmen, Fort- und Weiterbil-
dung
auf kollektiver Ebene: Ausbildungs- und Personalplanung
• Individuelle Beratung und Förderung
Feedback, Verhaltenssteuerung, Motivierung
• Verbesserung von Führungskompetenz
• Gestaltung von Arbeitsbedingungen
Arbeitsplatz, Arbeitsumgebung
• Evaluierung von Selektions- und Trainingsmaßnahmen
• Betonung der Existenz von Anforderungen und Standards in verschiedenen Bereichen der
Arbeitstätigkeit, Validierung von Eignungstests
• Betonung der Bedeutung der Personalentwicklung in der Organisation
• Dokumentation der Grundlagen personeller Entscheidungen

da sie scheinbar gut registrierbar und quanti- sen werden häufig Selbst- oder Fremdberichte
fizierbar sind. Allerdings orientieren sich Er- herangezogen. Ferner muss natürlich vor der
gebniskriterien nicht primär an der Arbeits- Verwendung derartiger Kriterien jeweils empi-
und Anforderungsanalyse, sondern in erster risch geklärt werden, wie ein bestimmter Ver-
Linie an den Organisationszielen (z. B. Steige- haltensaspekt mit dem globalen Kriterium des
rung der Verkaufszahlen). Bei Führungskräf- beruflichen Erfolgs zusammenhängt. Immer-
ten versucht man, diese beiden Größen durch hin scheinen Verhaltensmerkmale geeignetere
die Formulierung von Zielvereinbarungen zu Kriterien für einen LB zu liefern als Leistungs-
verbinden. Zu bedenken ist auch, dass Ergeb- ergebnisse (Locke & Latham, 1990). Diese
nisse vielfachen Einflüssen unterliegen, von Merkmale eignen sich auch besser für Rück-
denen ein Teil außerhalb der Kontrolle des meldungen an den Mitarbeiter, da sie stärker
Mitarbeiters liegt. Schließlich haben Viswes- dessen Kontrolle unterliegen und somit auch
varan, Ones und Schmidt (1996) gezeigt, dass von ihm leichter verändert werden können.
die Messgüte für viele Ergebnisdimensionen
(z. B. Produktivität) keineswegs so hoch ist Die Beurteilung des Leistungspotenzials er-
wie intuitiv vermutet. folgt im Prinzip nach den gleichen Maßstä-
ben, die auch in der Eignungsdiagnostik an-
Ein Problem der Erhebung von Verhaltens- gelegt werden. Es werden mit Hilfe der be-
kriterien ist das ihrer eingeschränkten Beob- reits beschriebenen Verfahren Personmerkma-
achtbarkeit. In der Regel wird das kritische le wie Fähigkeiten, Interessen oder Eigen-
Verhalten von denjenigen Organisationsmit- schaften i. e. S. (z. B. Gewissenhaftigkeit) re-
gliedern, die eine LB abgeben (meist Linien- gistriert und für Potenzialentscheidungen ge-
vorgesetzte), nicht direkt beobachtet. Stattdes- nutzt.

437
14 Arbeits- und organisationspsychologische Diagnostik

14.4.3 Dimensionen beruflicher Leistung und Aufgabenleistung war bereits


Leistung im Zusammenhang mit motivationalen Per-
sonmerkmalen eingegangen worden (Conway,
Die meisten Ansätze zur Erforschung berufli- 1999). Hunt (1996) analysierte speziell den
cher Leistung gehen von einer Multidimensio- Bereich kontextueller Leistung (von ihm „ge-
nalität dieses Konstrukts aus (Arvey & Mur- neric work behavior“ genannt), von dem er an-
phy, 1998). Borman und Brush (1993) analy- nimmt, dass er einen eigenständigen Beitrag
sierten eine Vielzahl von Studien zur Leistung zur generellen Arbeitsleistung liefert. Auf der
von Managern und kamen auf dieser Basis zu Basis der Vorgesetztenbeurteilungen von über
15 Leistungsfaktoren (u. a. Planen und Orga- 15 000 Mitarbeitern unterschiedlicher Ebenen
nisieren, Coaching, Potenzialentwicklung bei identifizierte er neun Dimensionen kontextuel-
Mitarbeitern, technische Leistung; vgl. auch ler Leistung:
Staufenbiel, 2013). Eine derartige Differen-
1. Befolgen unbequemer Regeln;
ziertheit ist natürlich im Hinblick auf die Not-
2. Fleiß;
wendigkeit, auf der Basis einer LB eine spezi-
3. Gründlichkeit;
fische Entscheidung zu treffen (z. B. wer von
4. Flexibilität bei Plänen;
den Mitarbeitern soll befördert werden?), we-
5. Erreichbarkeit;
nig praktikabel.
6. Leistungen außerhalb der vorgeschriebenen
Campbell, McCloy, Oppler und Sager (1993) Aufgabe;
bestimmten acht Dimensionen beruflichen 7. Widerspenstigkeit;
Leistungsverhaltens (u. a. Kompetenz bei der 8. Diebstahl;
Aufgabenerfüllung, Kommunikation, Diszi- 9. Substanzmissbrauch.
plin, Anstrengung, Kooperation und Unterstüt-
zung, Mitarbeiterführung, Management und Motowidlo und Van Scotter (1994) konnten
Verwaltung). Die Ausprägung auf diesen Di- nachweisen, dass kontextuelle und Aufgaben-
mensionen geht jedoch auf drei – multiplika- leistung unabhängig voneinander zur allgemei-
tiv verknüpfte – individuelle Determinanten nen Arbeitsleistung beitragen, und dass Per-
zurück: auf die bereits in Abschnitt 14.3.2 be- sönlichkeitsvariablen i. e. S. gute Prädiktoren
schriebenen kognitiven Merkmale deklarati- der kontextuellen Leistung sind (vgl. auch Mo-
ven Wissens (Fakten, Regeln, Prinzipien und towidlo, Borman & Schmidt, 1997, für ein
Vorgehensweisen) und prozedurales Wissen Modell des Zusammenhangs kognitiver und
und Fertigkeiten (Wissen, was jeweils zu tun nichtkognitiver Merkmale der Person mit ver-
ist und wie man es macht) sowie auf den schiedenen Aspekten der Arbeitsleistung).
Faktor Motivation (Leistungsorientierung, An-
strengung, Ausdauer). Eine konfirmatorische
Prüfung (McCloy, Campbell & Cudeck, 1994) 14.4.4 Quellen und Verfahren der
lieferte eine gewisse empirische Stützung die- Leistungsbeurteilung
ses Modells. In Analogie zu Theorien kogni-
tiver Fähigkeiten (I Kap. 12) formulierte Ar-
Die Quellen der LB können objektiver oder
vey (1986) ein hierarchisches Modell beruf-
subjektiver Natur sein. Objektiv sind et-
licher Leistung, mit einem Generalfaktor p
wa Produktionsaufzeichnungen (Stückzahlen,
(performance) an der Spitze.
Vertragsabschlüsse u. Ä.), die Arbeitsquali-
Auf die von Borman und Motowidlo (1993) tät (z. B. Ausschuss, Fehler) oder Kundenbe-
getroffene grundlegende inhaltliche Differen- schwerden. Subjektive Quellen der LB können
zierung beruflicher Leistung in kontextuelle der Vorgesetzte, Gleichgestellte, Untergebene,

438
14.4 Leistungsbeurteilung

der zu Beurteilende selbst oder Außenstehen- nalentscheidungen als vielmehr für Verhaltens-
de (z. B. Kunden) sein. rückmeldungen (sog. „upward feedback“).
Der Selbstbericht des zu Beurteilenden un-
Die wichtigsten Beurteiler sind natürlich die
terliegt natürlich den gleichen Einflussfakto-
Vorgesetzten. Problematisch an dieser Quelle
ren, die wir für subjektive Daten allgemein
ist die oft nicht ausreichende Vertrautheit der
(I Kap. 10) bereits beschrieben haben. An
Vorgesetzten mit Details der Arbeitsaufgabe,
erster Stelle besteht hier der Vorbehalt, dass
insbesondere mit der Schwierigkeit und dem
es beim Selbstbericht zu absichtlichen Ver-
erforderlichen Zeitaufwand. Hinzu kommt,
fälschungen im Sinne einer positiven Selbst-
dass Vorgesetzte häufig nur wenig Gelegen-
darstellung kommen kann. Dieser Tendenz
heit zur direkten Verhaltensbeobachtung ha-
kann man evtl. dadurch entgegenwirken, dass
ben. Zudem verfolgen Vorgesetzte vielfach
der zu beurteilende Mitarbeiter zuvor darüber
auch Eigeninteressen bei der Abgabe einer
informiert wird, dass seine Selbsteinschät-
LB. So wollen sie etwa die Motivation des
zung mit dem Inhalt von Fremdurteilen (z. B.
Mitarbeiters durch eine – von der Sache her
durch den Vorgesetzten) abgeglichen wird. Tat-
an sich gerechtfertigte – kritische Beurteilung
sächlich ist eine bewusste Verfälschung („fa-
nicht untergraben oder aber ihre eigene Abtei-
king“) nicht das Hauptproblem der Datenquel-
lung innerhalb der Organisation nicht durch
le Selbstbericht. Entscheidender dürfte der im
negative Urteile in ein schlechtes Licht stellen.
Kontext der LB kaum zu kontrollierende Ein-
fluss von Personfaktoren wie Bedürfnis nach
Gleichgestellte (z. B. enge Kollegen) als Be-
Anerkennung, Tendenz zur Selbstdarstellung,
urteiler haben den Vorteil, dass sie mit der zu
Selbstaufmerksamkeit oder Selbsteinsicht sein
beurteilenden Arbeitstätigkeit in der Regel gut
(I Kap. 10).
vertraut sind und diese auch meist gut beob-
achten können. Dafür ist diese Quelle aber mit Ein Problem wird auch dann entstehen, wenn
anderen Defiziten belastet. Das gravierendste man im Rahmen der LB Selbst- und Fremdbe-
Problem ist der erlebte Konflikt zwischen der richte vergleicht. Hier muss beachtet werden,
Rolle eines solidarischen und vertrauenswür- dass Akteur (die Person, die sich selbst be-
digen Kollegen und der eines gerechten und urteilt) und Beobachter (der Fremdbeurteiler)
kompetenten Beurteilers. Eine weitere Schwie- für ihre Urteile unterschiedliche Informatio-
rigkeit könnte darin bestehen, dass bei der Kol- nen heranziehen und auf dieser Basis für ein
legenbeurteilung affektive Faktoren (Sympa- bestimmtes Ereignis (z. B. eine Verspätung bei
thie, Antipathie, Missgunst) einen stärkeren einem Kundentermin) unterschiedliche Kau-
Einfluss haben können, als dies bei Vorgesetz- salattributionen vornehmen (Jones & Nisbett,
ten der Fall ist (Varma, DeNisi & Peters, 1996). 1971). Akteure richten ihre Aufmerksamkeit
Diese Datenquelle gilt deshalb auch als wenig vorzugsweise auf die Situation, entnehmen ihr
objektiv und zuverlässig (Viswesvaran et al., saliente Hinweisreize und attribuieren ihr Ver-
1996). halten und dessen Ergebnisse in erster Linie
auf die Situation. Akteure sehen ihr Verhalten
Beurteilungen durch Untergebene werden aus also weniger durch eigene Eigenschaften als
naheliegenden Gründen durchweg nur in an- vielmehr durch situative Merkmale determi-
onymisierter Form erhoben. Sie dienen nicht niert. Beobachter richten ihre Aufmerksam-
in erster Linie der Einschätzung der sachbezo- keit dagegen eher auf den Handelnden, der für
genen Aufgabenerfüllung, sondern der Beur- sie gewissermaßen einen salienten Aspekt ih-
teilung der Mitarbeiterführung. Hier liefern sie rer Umwelt darstellt. Sie vollziehen deshalb in
dann weniger die Grundlage für spätere Perso- erster Linie eine Kausalattribuierung auf den

439
14 Arbeits- und organisationspsychologische Diagnostik

Handelnden, d. h. sie erklären dessen Verhal- 14.4.5 Beurteilungsverfahren


ten und Verhaltensergebnisse weniger durch
situative Umstände als vielmehr durch die Ei- Obwohl in vielen Betrieben nach wie vor die
genschaften des Handelnden (Taylor & Fis- freie Eindrucksschilderung das einzige Ver-
ke, 1978). Es ist naheliegend, dass aus die- fahren der LB ist, sollen in diesem Abschnitt
sem Unterschied Konflikte resultieren können, nur formalisierte Verfahren, die ausschließlich
die dann u. a. auch Einfluss auf die LB ha- der LB dienen, behandelt werden. Bei diesen
ben. – Immerhin können differenzierte Selbst- Verfahren werden drei Gruppen unterschieden.
beschreibungen Aufschluss über selbstwahr- Kennzeichnungs-, Rangordnungs- und Einstu-
genommene Stärken und Schwächen geben. fungsverfahren. Beim Kennzeichnungsverfah-
Sie sollten deshalb weniger für administrati- ren muss der Beurteiler einer vorgegebenen
ve Personalentscheidungen herangezogen wer- Aussage zustimmen bzw. diese ablehnen. In
den als vielmehr für Maßnahmen der Perso- einer erweiterten Fassung kann er auch aufge-
nalentwicklung. fordert werden, nach dem Prinzip der Zwangs-
Die Beurteilung durch Außenstehende erfolgt wahlitems (I Kap. 3) aus einer Reihe von
meist auf dem Wege einer schriftlichen Be- Alternativen die zutreffendste auszuwählen.
fragung der Kunden eines Betriebs. Das Pro- Die Items beziehen sich meist auf erfolgskri-
blem ist hier die Zugänglichkeit dieser Daten- tische Merkmale und Verhaltensweisen, die
quelle sowie die Repräsentativität der Teilneh- etwa nach der Methode der kritischen Ereig-
mer. (Teilnehmen dürften in erster Linie solche nisse gesammelt wurden (z. B. „Liefert Vor-
Kunden, die sich entweder beschweren oder lagen ab, die ohne weitere Korrekturen oder
etwas besonders Positives lobend hervorheben Veränderungen reproduziert werden können“).
wollen.) Auf der Basis von Skalierungsverfahren (z. B.
Paarvergleichen) lässt sich für jedes Item ein
Daten aus den einzelnen Quellen zeigen nur Gewichtsfaktor berechnen, der die Erfolgsrele-
sehr mäßige Zusammenhänge. Während die vanz des betreffenden Merkmals bzw. Verhal-
unterschiedlichen Fremdberichte immerhin tens repräsentiert. Dieses Gewicht, das dem
noch in Höhe von r = .20 bis .30 interkor- Beurteiler natürlich nicht bekannt ist, geht in
relieren, finden sich zwischen Selbst- und die Berechnung des Gesamtscores ein.
Fremdbeurteilungen kaum substanzielle Zu-
sammenhänge (Conway & Huffcutt, 1997). Beim Rangordnungsverfahren müssen mehre-
Vorgesetzten- und Kollegenurteile weisen im re Personen global oder hinsichtlich spezifi-
Hinblick auf die Vorhersage des Berufserfolgs scher Beurteilungskategorien (z. B. Belastbar-
etwa die gleiche Validität auf. Diese variiert keit, Sorgfalt, Fachkenntnisse) in eine Rang-
zwischen r ≈ .50 für Statusänderungen und r reihe gebracht werden. Die Arbeit wird dem
≈ .20 für die Gehaltsentwicklung (Schuler & Beurteiler erleichtert und damit die Beurtei-
Höft, 2007). lung zuverlässiger, wenn man diese Rangreihe
nicht in einem Durchgang, sondern über einen
In den letzten Jahren wurde unter dem Be- vollständigen Paarvergleich herstellen lässt.
griff 360-Grad-Feedback der Versuch unter- Eine interessante Variante dieses Verfahrens
nommen, alle verwertbaren Quellen systema- ist das Verhaltensrangprofil (Lohaus & Schu-
tisch zu einer umfassenden Beurteilung zu in- ler, 2014). Hier werden Aussagen über Merk-
tegrieren (Scherm, 2013; Scherm & Sarges, male und Verhaltensweisen für jede Person in
2002). Dabei wird insbesondere auch Wert eine Rangreihe des Zutreffens gebracht. Kor-
gelegt auf die Einbeziehung standardisierter respondierend dazu lässt sich auch eine Rang-
Erhebungsinstrumente (Scherm, 2004). reihe der Tätigkeitsanforderungen, denen je-

440
14.5 Diagnostik bei der Situation

de Person ausgesetzt ist, aufstellen. Aus dem einzubeziehen und eine Partizipation der Be-
Vergleich dieser beiden Rangreihen lässt sich troffenen, die sich günstig auf die Akzeptanz
dann bestimmen, wie gut die Person und ihr dieses Systems im Betrieb auswirken sollte,
Arbeitsplatz zueinander passen. anzustreben.
Beim Einstufungsverfahren wird vom Beur-
teiler die Intensität oder Häufigkeit skaliert,
mit der ein bestimmtes Merkmal oder eine 14.5 Diagnostik bei der Situation
Verhaltensweise beim zu Beurteilenden vor-
liegen. Dieses Verfahren entspricht also dem
Wie bereits eingangs dargestellt, lassen sich an
in I Kap. 9 beschriebenen Rating. Da insbe-
einer Organisation mehrere mögliche Ebenen
sondere dieses Verfahren vom Beurteiler eine
unterscheiden: die Einzelperson, die Gruppe,
erhebliche Differenzierungsleistung erfordert,
die Abteilung und die Gesamtorganisation. Im
ist es für das Erreichen einer zufriedenstel-
Zentrum der bisherigen Darstellung stand die
lenden psychometrischen Qualität förderlich,
Einzelperson mit den Anforderungen ihres Ar-
wenn bestimmte Stufen dieser Skala durch An-
beitsplatzes und ihrer Arbeitstätigkeit. Wenn
kerbeispiele verdeutlicht werden (statt, wie
wir nun die auf das Individuum gerichtete Per-
häufig, nur die Pole verbal zu beschreiben,
spektive verlassen, so ändern wir unsere dia-
z. B. mit „fast nie“ und „fast immer“). Beispie-
gnostische Zielsetzung von der Messung von
le für Skalen mit ausformulierten Ankerbei-
Eignungsvoraussetzungen und individuellen
spielen sind die Behaviorally Anchored Rating
Leistungsmerkmalen hin zur Organisationsdia-
Scales (BARS; Smith & Kendall, 1963) sowie
gnostik. Diese zielt auf die „Erfassung, Analy-
die Behavior Observation Scales (BOS; La-
se und Darstellung des in einer Organisation
tham & Wexley, 1977). Die BARS sind dabei
oder einem abgegrenzten Organisationsteil re-
nach der im Zusammenhang mit der Einstel-
gelhaft auftretenden Verhaltens und Erlebens
lungsmessung (I Kap. 10.4) bereits beschrie-
ihrer Mitglieder einschließlich ihrer Wirkzu-
benen Methode der gleich erscheinenden Inter-
sammenhänge“ (Kühlmann & Franke, 1989,
valle (Thurstone, 1931) konstruiert, während
S. 632).
die Items der BOS nach der aus den meisten
Persönlichkeitsfragebogen her bekannten Me- Wir beginnen unsere Darstellung mit dem „ab-
thode von Likert skaliert sind. gegrenzten Organisationsteil“ der Arbeitsgrup-
pe, da diese sozusagen das Scharnier bildet
zwischen dem Individuum und seiner Orga-
14.4.6 Ausblick: Formale Systeme nisation. Besonderes Gewicht erhält hier die
der Leistungsbeurteilung Diagnostik bei der zentralen Rolle innerhalb
einer Gruppe, der Führung. Danach wenden
wir uns der Gesamtorganisation zu und be-
Die LB erfolgt in vielen Betrieben immer noch
schreiben Methoden zur Diagnose von Orga-
intuitiv oder anhand ad hoc konstruierter, hin-
nisationsmerkmalen.
sichtlich ihrer Brauchbarkeit aber nur selten
überprüfter, Systeme. Schuler (2004) schlägt
deshalb ein Schema für den Prozess der Ent-
wicklung eines empirisch begründeten und 14.5.1 Diagnostik bei der
überprüften Beurteilungssystems vor (I Über- Arbeitsgruppe
sicht 14.4). Er weist dabei insbesondere auf
die Notwendigkeit hin, bei dieser Entwick- Die anderen Personen, mit denen ein Individu-
lung die Interessenvertreter der Beschäftigten um interagiert, haben natürlich einen starken

441
14 Arbeits- und organisationspsychologische Diagnostik

Übersicht 14.4 Konstruktionsprozess für ein formales Beurteilungssystem (nach Schuler,


2004, Tabelle 5).
1. Bestandsaufnahme vorhandener Verfahren und Bedingungen.
2. Formulierung der wichtigsten Funktionen.
3. Kosten-Nutzen-Kalkulation.
4. Bestimmung der Beurteiler und der Beurteilten.
5. Arbeits- und Anforderungsanalyse.
6. Bestimmung der Beurteilungskriterien.
7. Wahl der Beurteilungsverfahren.
8. Konstruktion und psychometrische Prüfung der Beurteilungsskalen.
9. Erprobung des Beurteilungssystems an repräsentativen Gruppen; ggf. Modifikation.
10. Beurteilertraining.

Einfluss auf das Denken, Fühlen und Handeln träge also in kontinuierlicher Zusammenarbeit
dieses Individuums. In diesem Abschnitt geht erledigt werden (kontinuierliche Arbeitsgrup-
es um die Diagnose dieser Interaktionen in- pen), oder ob sie nur zu bestimmten Zwecken
nerhalb einer Gruppe oder genauer – da un- eingerichtet wurden und ihre Mitglieder nur
ser Gegenstand die Organisation ist – der Ar- von Fall zu Fall zur Bearbeitung spezifischer
beitsgruppe. Derartige Gruppen bestehen aus Aufgaben zusammen kommen (temporäre Ar-
„zwei oder mehr Personen, die über eine ge- beitsgruppen). Zur temporären Form der Grup-
wisse Zeit eine gemeinsame, aus mehreren penarbeit gehören die Qualitätszirkel und die
Teilaufgaben bestehende Aufgabenstellung zu- Projektgruppen, während bei kontinuierlicher
sammen bearbeiten, gemeinsame Ziele verfol- Gruppenarbeit klassische Arbeitsgruppen, Fer-
gen, unterschiedliche Rollen und gemeinsa- tigungsteams und teilautonome Arbeitsgrup-
me Spielregeln entwickeln und sich als Grup- pen unterschieden werden.
pe wahrnehmen“ (Antoni & Bungard, 2004,
S. 134.) Der Begriff Qualitätszirkel bezeichnet eine
Gruppe von Mitarbeitern, die sich regelmäßig
Nicht unter diese Definition fallen Organisa- und freiwillig treffen, um für von ihnen selbst
tionsformen, bei denen entweder unabhängig definierte Probleme innerhalb der Organisati-
voneinander und räumlich getrennt arbeitende on (z. B. Konflikte zwischen einzelnen Abtei-
Personen einem Vorgesetzten zugeordnet sind lungen) Lösungsvorschläge zu erarbeiten. Pro-
(eine Abteilung) oder ähnliche, aber ebenfalls jektgruppen bestehen aus Experten verschiede-
voneinander unabhängige Tätigkeiten räum- ner Arbeitsbereiche, die vorgegebene – neuar-
lich zusammengefasst werden, wie etwa beim tige und komplexe – Problemstellungen (z. B.
Großraumbüro (sog. Kolonnenarbeit). Wesent- die Entwicklung einer neuen Software) bear-
lich für Gruppen ist dagegen, dass viele Auf- beiten. Klassische Arbeitsgruppen führen eine
gaben arbeitsteilig ausgeführt werden. Dies gemeinsame Aufgabe funktions- und arbeits-
stellt erhebliche Anforderungen an die Koope- teilig durch und stehen dabei unter der Kon-
ration zwischen den Mitgliedern, die in dieser trolle eines Vorgesetzten (Meisters). Die Mit-
Form bei Kolonnenarbeit nicht gegeben sind. glieder eines Fertigungsteams arbeiten in der
taktgebundenen Fließbandfertigung. Diese Ar-
Arbeitsgruppen lassen sich danach unterschei- beit besteht aus verschiedenen Stationen, die
den, ob sie ein dauerhafter Bestandteil der re- miteinander technisch verkoppelt sind. Jedes
gulären Arbeitsorganisation sind, Arbeitsauf- Mitglied muss die Arbeit an mehreren Statio-

442
14.5 Diagnostik bei der Situation

nen beherrschen, seine eigene und die Arbeit Bedürfnisse sowie die Entwicklung und Qua-
der vorgeschalteten Station kontrollieren und lifizierung von Gruppenmitgliedern. Indika-
ggf. Fehler direkt beheben. Teilautonome Ar- toren auf Gruppenebene wären etwa Produk-
beitsgruppen erstellen ein komplettes Produkt tivitätsfaktoren wie Qualität, Quantität, Stö-
oder eine Dienstleistung weitgehend eigenver- rungen im Arbeitsablauf, Fehler oder Unfälle,
antwortlich. Dies impliziert auch, dass sie Ar- Gruppenmerkmale wie Kohäsion, Gruppen-
beitsabläufe selbst regulieren. (Zu einer aus- zusammensetzung (z. B. homogen vs. hetero-
führlicheren Beschreibung der verschiedenen gen), Kooperation, Partizipation und kollekti-
Formen von Arbeitsgruppen siehe auch Anto- ve Kompetenzerwartung sowie Innovationen
ni & Bungard, 2004.) innerhalb der Gruppe.
Die Erfassung der Gruppenleistung orientiert Empirische Befunde zur Effektivität von Ar-
sich natürlich an den Aufgaben und Zielen beitsgruppen basieren auf Metaanalysen, ex-
der Gruppe. Diese sind von den Organisati- perimentellen Felduntersuchungen, Fallstudi-
onszielen bestimmt. Deshalb wird die Grup- en oder Expertenbefragungen. Die Daten zu
penleistung auch an den Kriterien gemessen, diesen Analysen stammen entweder aus der Q-
die für den Erfolg der gesamten Organisati- Daten-Ebene (z. B. aus Fragebogen zum wahr-
on im Mittelpunkt stehen. Hierbei handelt es genommenen Teamklima, van Dick & West,
sich generell um die Produktivität, die Effizi- 2005), oder aus der Ebene der Beobachtungs-
enz und die Innovationsfähigkeit (Brodbeck & bzw. L-Daten. Beobachtungsdaten sind un-
Guillaume, 2010). verzichtbar, wenn es um die objektive Ana-
lyse von Gruppenprozessen geht (z. B. um die
Zur Bewertung der Gruppenleistung müssen Diagnose der Kommunikation in der Gruppe).
die Merkmale Leistung, Erfolg und Effektivi- Die aus Beobachtungen gewonnenen Daten
tät unterschieden werden. Leistung bezeich- können aggregiert weiterverwendet werden,
net in diesem Zusammenhang das Ausmaß wenn etwa der Zusammenhang zwischen der
des Einsatzes von Verhaltensweisen, die für Häufigkeit aufgabenbezogener Kommunika-
die Zielerreichung relevant sind. Erfolg ist das tionen und dem Gruppenerfolg analysiert wer-
Ausmaß, in dem die Resultate des Leistungs- den soll. In vielen Fällen interessiert aber nicht
verhaltens den vorgegebenen Zielen entspre- nur die reine Quantität eines Ereignisses, son-
chen. Effektivität meint das Ausmaß der Ziel- dern auch die Abfolge, in der die einzelnen
erreichung bezogen auf die verbrauchten Res- Gruppenmitglieder zu einem Ereignis beitra-
sourcen (Brodbeck & Guillaume, 2010). So- gen. So macht es beispielsweise für die Be-
wohl Erfolg als auch Effektivität hängen nicht schreibung der Diskussion in einer Gruppe
nur von gruppeninternen Merkmalen, sondern einen Unterschied, ob – bei gleicher Gesamt-
auch von Kontextfaktoren ab, also von Bedin- länge der individuellen Diskussionsbeiträge –
gungen, die außerhalb der Gruppe existieren. die Gruppenmitglieder einmalig nacheinander
einen Beitrag „abliefern“, oder ob sie sich in
Das aus der Perspektive der Gesamtorganisa-
steter Interaktion zu den einzelnen Punkten
tion entscheidende Kriterium zur Bewertung
äußern (Brodbeck & Guillaume, 2010).
der Leistung einer Arbeitsgruppe ist natürlich
die Effektivität. Indikatoren der Effektivität In vielen Ansätzen gelten die Produktivitäts-
lassen sich auf Individual- und Gruppenebene faktoren (z. B. die Anzahl der Arbeitsstun-
bestimmen. Auf Individualebene gehören hier- den zur Fertigung eines Produkts) als das ent-
zu etwa Arbeitszufriedenheit, Vermeidensver- scheidende Effektivitätskriterium und andere
halten (z. B. Fehlzeiten, Kündigungsabsichten, Individual- und Gruppenmerkmale (z. B. Ar-
Fluktuation), die Befriedigung individueller beitszufriedenheit, Kohäsion) als Faktoren, die

443
14 Arbeits- und organisationspsychologische Diagnostik

dieses Kriterium beeinflussen. Dementspre- Einflussfaktoren: Kontextfaktoren, Gruppen-


chend richten sich viele Programme, die auf synergien und Gruppenprozesse.
eine Verbesserung der Gruppeneffektivität zie-
Zum Faktor Gruppendesign gehören die Auf-
len, dann auch auf diese Einflussfaktoren (vgl.
gabenstruktur (bzw. die Arbeitsorganisation),
u. a. Guzzo & Dickson, 1996).
die Zusammensetzung sowie Gruppennormen
Die registrierten Ergebnisse zu einzelnen Fak- und -ziele. Kontextfaktoren beziehen sich auf
toren sind nicht ganz eindeutig. Dies gilt in das Belohnungssystem (z. B. Gruppenprämi-
besonderem Maße für Metaanalysen (Über- en vs. individuelle Entlohnung), das Ange-
sichten in Antoni & Bungard, 2004; Guzzo bot an Trainingsmaßnahmen, Informations-
& Dickson, 1996). Vergleichsweise deutlich systeme, die der Gruppe zur Verfügung ste-
ist noch der positive Einfluss der Kohäsion hen, sowie die Art der Gruppenführung. Im
auf die Gruppeneffektivität (z. B. Evans & Di- Bereich Gruppensynergien werden Prozessge-
on, 1991; Mullen & Copper, 1994). Auch die winne und -verluste der Gruppenarbeit analy-
kollektive Kompetenzerwartung der Gruppe siert. Ein Prozessgewinn könnte beispielswei-
steht in positiver Beziehung zur Gruppenleis- se darin bestehen, dass leistungsschwächere
tung (Hyatt & Ruddy, 1997; Little & Madigan, Mitglieder von stärkeren „mitgezogen“ wer-
1997). Beim Merkmal Gruppenzusammenset- den oder sich selbst, um den Gruppenerfolg
zung scheint die Heterogenität positiv mit der nicht zu gefährden, besonderes anstrengen.
Gruppenleistung bei Entscheidungs- und Krea- Prozessverluste entstehen, wenn die Gruppen-
tivitätsaufgaben assoziiert zu sein (Jackson, leistung nur unvollkommen und der eigene
1996). Gruppenkonflikte führen (erwartungs- Beitrag praktisch überhaupt nicht bewertet
gemäß) zu einer Beeinträchtigung der Grup- werden. Die bekanntesten Faktoren sind das
penleistung. Dabei muss allerdings zwischen soziale Faulenzen („social loafing“), das Tritt-
Aufgaben- und Beziehungskonflikten unter- brettfahren („free-riding“) und das Nicht-der-
schieden werden. Obwohl beide deutlich kor- Dumme-sein-wollen („sucker“). Kriterien von
reliert sind (um r = .50), geht doch von Be- Gruppenprozessen sind das Teamklima, die
ziehungskonflikten der wesentlich negativere Kohäsion und die Kompetenzerwartung der
Effekt aus (De Dreu & Weingart, 2003). Gruppe.
Generell scheint die Beziehung zwischen Zur Erfassung jeweils ausgewählter Gruppen-
Gruppenmerkmalen und Effektivität von zahl- merkmale wurden in den letzten Jahren eini-
reichen Kontextfaktoren abzuhängen. Zur ge- ge Testverfahren – meist in Fragebogenform
naueren Bestimmung von Gruppenmerkmalen – entwickelt. Der Fragebogen zur Arbeit im
und Kontextfaktoren unterscheiden Campion, Team (FAT; Kauffeld, 2004) besteht aus vier
Medsker und Higgs (1993) fünf Kategorien Subskalen und zielt speziell auf die Diagnose
(mit jeweils weiteren Unterkategorien): Ar- der Merkmale Zielorientierung, Aufgabenbe-
beitsorganisation (z. B. Ausmaß der Selbstre- wältigung, Zusammenhalt sowie Verantwor-
gulation in der Gruppe), Interdependenz un- tungsübernahme. Zusätzlich wird die Tendenz
ter den Gruppenmitgliedern, Heterogenität der zur sozialen Erwünschtheit erfasst. Allerdings
Mitglieder, Intragruppenprozesse und Kontext- sind die Skalen sehr kurz (soziale Erwünscht-
faktoren (z. B. Unterstützung durch das Ma- heit wird beispielsweise nur mit zwei Items
nagement). Einige dieser Faktoren beziehen gemessen), so dass die Reliabilitäten teilwei-
sich auf ein Merkmal, das Antoni und Bun- se unbefriedigend sind (unter .70). Eine ähn-
gard (2004) Gruppendesign nennen. Daneben liche Zielsetzung wie der FAT verfolgt das
beschreiben diese Autoren im Anschluss an Teamklima-Inventar (TKI; Brodbeck, Ander-
Hackman (1987) noch drei weitere Arten von son & West, 2001; amerikanische Originalver-

444
14.5 Diagnostik bei der Situation

sion in Anderson & West, 1996). Es besteht Einflussnahme) und durch arbeitsteilige Ak-
ebenfalls aus vier Subskalen (Vision, Aufga- tivitäten ihrer Mitglieder gekennzeichnet. An
benorientierung, Partizipative Sicherheit und diesen Charakteristika setzt auch die Funkti-
Unterstützung für Innovation) und erreicht mit on von Führung an. Hierbei geht es um die
Werten von α = .80 bis .82 eine befriedigende Koordination der arbeitsteiligen Aktivitäten
Reliabilität. und die Ausrichtung der Einzelpersonen oder
Gruppen in einer Organisation auf die Ziele
Wenn man zusammenfassend die auf die Ar-
der Organisation.
beitsgruppe gerichteten diagnostischen Ansät-
ze bewerten will, so muss man – verglichen Diese Funktion muss nicht notwendigerwei-
etwa mit der Eignungsdiagnostik – ein we- se von Personen, sondern kann auch von be-
nig befriedigendes Niveau registrieren. Zu ei- stimmten Strukturen (sog. Führungssubstitu-
nem ähnlichen Eindruck kommen Ilgen, Hol- ten) ausgeübt werden, z. B. von einem büro-
lenbeck, Johnson und Jundt (2005) in einer kratischen System von Tätigkeitsbeschreibun-
Bewertung der Arbeitsgruppenliteratur. Wäh- gen und Vorschriften (Weber, 1921). In der
rend die Entwicklung im Bereich der Theorien Diagnostik interessiert natürlich nur die Füh-
von den Autoren als durchweg positiv bewer- rung durch Personen. Diese personale Führung
tet wird, fällt ihr Urteil über den Stand der wird definiert als „unmittelbare, absichtliche
empirischen Forschung deutlich negativer aus. und zielbezogene Einflussnahme von bestimm-
Generell wird ein zu geringer Bezug der em- ten Personen – in der Regel Vorgesetzte – auf
pirischen Forschung auf die Theorieentwick- andere Personen – in der Regel Untergebene
lung bemängelt. Nach unserer Auffassung gilt – mit Hilfe der Kommunikationsmittel“ (von
dies auch für den diagnostischen Bereich. Al- Rosenstiel & Kaschube, 2014, S. 680).
le neueren theoretischen Ansätze betonen den
In der Führungsforschung lassen sich norma-
Aspekt der Dynamik von Gruppenprozessen,
tive und deskriptive Ansätze unterscheiden.
also die Interaktion vieler Parameter über die
In normativen Ansätzen, etwa dem Entschei-
Zeit. Diese Dynamik lässt sich nicht über Fra-
dungsmodell von Vroom und Yetton (1973),
gebogen erfassen, die nach der Vorstellung
erhält der Vorgesetzte Ratschläge, welche spe-
stabiler individueller Eigenschaften konstru-
zifischen Führungsverhaltensweisen (z. B. Par-
iert wurden. Stattdessen muss verstärkt auf
tizipation der Mitarbeiter an einer Entschei-
die Methode der Beobachtung von Gruppen-
dung versus Alleinentscheidung) er unter wel-
prozessen und die Gewinnung und statistische
chen situativen Bedingungen realisieren soll.
Weiterverarbeitung entsprechender Interakti-
Derartige Ansätze sind für die Führungsdia-
onsdaten gesetzt werden (I Kap. 9).
gnostik weniger interessant. Ihr Hauptanwen-
dungsgebiet liegt in der Entwicklung von Trai-
ningsprogrammen für optimales Führungsver-
14.5.2 Führungsdiagnostik halten. Deskriptive Ansätze befassen sich dem-
gegenüber mit der Vorhersage des, über sehr
Wir hatten bereits beim Überblick zur Dia- unterschiedliche Kriterien bestimmten, Füh-
gnostik bei der Situation betont, dass Führung rungserfolgs aus Persönlichkeitsmerkmalen
die zentrale Rolle innerhalb einer Gruppe ist. von Führungspersonen, ihren Führungsstilen
Diese sozialpsychologische Bestimmung er- sowie dem Führungsverhalten (einschließlich
fährt in der Organisationspsychologie jedoch der Interaktion von situativen Merkmalen und
eine deutliche Erweiterung. Organisationen Verhalten). Die Ergebnisse dieser Forschun-
sind durch eine Hierarchie der Verantwortung gen sind einerseits relevant für die Diagnos-
(d. h. durch eine Asymmetrie in der sozialen tik, im Hinblick auf die Auswahl geeigneter

445
14 Arbeits- und organisationspsychologische Diagnostik

Führungskräfte, andererseits für die Formulie- motiv, das Machtmotiv und das Anschlussmo-
rung von Lernzielen für die Führungsschulung. tiv analysiert. Wie generell bei Motiven spielt
(Einen Überblick gibt der Sammelband von hier allerdings die „Passung“ zwischen Mo-
Sarges, 2013b.) tivinhalt und situativen Bedingungen für die
Erfolgsprognose eine wesentliche Rolle. So
Sowohl beim psychologischen Laien als auch ist etwa das Machtmotiv dort besonders er-
in der organisationspsychologischen Füh- folgsrelevant, wo in einer Gruppe ein Gefälle
rungsforschung spielt die Vorstellung eine hinsichtlich Status, Ressourcen oder Kompe-
Rolle, dass Persönlichkeitsmerkmale der Füh- tenzen besteht (McClelland & Boyatzis, 1982;
rungsperson direkt (etwa über ihr „Charis- zur Messung dieser Dispositionen siehe So-
ma“) oder indirekt (über das Verhalten) den kolowski, Schmalt, Langens & Puca, 2002;
Führungserfolg bestimmen. Erste Übersichts- I Kap. 10).
darstellungen zu empirischen Befunden (z. B.
Mann, 1959; Stogdill, 1948) haben diese Auf- Persönlichkeitseigenschaften i. e. S. rückten
fassung stark relativiert. Zwar fanden sich mit dem Aufkommen des Fünf-Faktoren-
zwischen den unterschiedlichsten Merkma- Modells der Persönlichkeit erneut in das Blick-
len des Führers (u. a. Alter, Körpergröße und feld der Führungsforschung. (Zu den Varia-
-gewicht, Intelligenz, Dominanz, Extraversion blen dieses Modells I Kap. 10 sowie in die-
oder Selbstbeherrschung) und den verschie- sem Kapitel den Abschnitt „Persönlichkeitsei-
denartigsten Erfolgskriterien durchaus bedeut- genschaften“.) Judge, Higgins, Thoresen und
same Beziehungen, doch fielen diese Werte Barrick (1999) erfassten in einer Längsschnitt-
eher mäßig aus und zeigten zudem erhebli- studie das Kriterium Führungserfolg indirekt
che Streuungen. So korrelierte etwa Intelli- über die Karriere (Status, Einkommen) einer
genz mit verschiedenen Erfolgskriterien im Person. (Wer es also nach der Logik der Au-
Durchschnitt nur zu .26. Werte in ähnlicher toren zur Position eines höheren Vorgesetz-
Höhe fanden sich bemerkenswerterweise für ten gebracht hat, muss ein erfolgreicher Füh-
Körpergröße sowie -gewicht. rer sein.) Das Kriterium Karriere hing da-
bei relativ deutlich zusammen mit den NEO-
In einer Metaanalyse des Datenmaterials die- Dimensionen Gewissenhaftigkeit (r = .41) und
ser frühen Untersuchungen, in der auch die emotionale Stabilität (r = .34) zusammen. Eine
Reliabilitätseinschränkungen der Messinstru- substanzielle Beziehung fand sich auch für die
mente berücksichtigt wurden, konnten Lord, Offenheit für neue Erfahrungen (r = .26), wäh-
De Vader und Allinger (1986) für die Intelli- rend Extraversion und Verträglichkeit nicht
genz allerdings höhere Werte sichern (um .40), mit der Karriere assoziiert waren. Dieses Mus-
wobei sie als Kriterium für Führungserfolg ter entspricht im Wesentlichen den bereits be-
nur die Akzeptanz durch die Gruppe heranzo- richteten Befunden aus der Eignungsdiagnos-
gen. Neuere Studien und Metaanalysen fanden tik, wobei lediglich der insignifikante Zusam-
generell einen substanziellen Zusammenhang menhang zwischen Verträglichkeit und Erfolg
zwischen Intelligenz und verschiedenen Kri- überrascht. (Für eine signifikante Beziehung
terien des Führungserfolgs (vgl. u. a. von Ro- zwischen Verträglichkeit und Erfolg siehe Tett
senstiel & Kaschube, 2014). et al., 1991.)
Neben kognitiven Merkmalen wurden auch Hogan, Curphy und Hogan (1994) argumen-
Motivationsdispositionen und Persönlichkeits- tieren, dass die NEO-Dimensionen zu un-
eigenschaften i. e. S. als Prädiktoren des Füh- differenziert seien, um den Führungserfolg
rungserfolgs analysiert. Im Bereich der Mo- mit seinen verschiedenen Aspekten befriedi-
tivation wurden insbesondere das Leistungs- gend vorherzusagen. In ähnlicher Weise hat-

446
14.5 Diagnostik bei der Situation

ten wir ja weiter vorn darauf hingewiesen, ven Stils sichern ließ (Übersicht in Neuberger,
dass es eher die Facetten als die fünf glo- 1972).
balen NEO-Dimensionen sind, die (evtl. in
Noch von der Idee der Führungsstile aus-
neuer Kombination) den Berufserfolg vorher-
gehend, aber schon mit einer deutlich ver-
sagen. Hogan et al. (1994) plädieren dabei
haltensorientierten Perspektive, wurden Mit-
nicht nur für den Einsatz von sehr spezifi-
te des vorigen Jahrhunderts zwei Ansätze
schen Vorhersageinstrumenten, sondern auch
entwickelt, die unter den Namen Ohio- und
für die Beachtung von Faktoren, die, wie et-
Michigan-Studien (benannt nach den Univer-
wa Feindseligkeit, Arroganz oder Selbstsucht,
sitäten der beiden Forschergruppen) populär
dem Führungserfolg abträglich sind. Sie emp-
wurden. Während dabei die Michigan-Gruppe
fehlen zur Erfassung dieser Merkmale Ver-
(u. a. Likert, 1967) in der Tradition der Kon-
fahren der klinisch-psychologischen Diagnos-
zeptbildung von Lewin et al. (1939) eine
tik (I Kap. 15). Judge, Piccolo und Kosal-
eindimensional-bipolare Auffassung des Füh-
ka (2009) weisen zudem darauf hin, dass sog.
rungsverhaltens – variierend zwischen den
„positive“ Eigenschaften (z. B. Gewissenhaf-
Extremen Mitarbeiterorientierung und Leis-
tigkeit, Verträglichkeit) auch negative Seiten
tungsorientierung – vertrat, entwickelten die
(etwa mangelnde Flexibilität) und „negative“
Forscher der Ohio-Gruppe (Fleishman, 1957;
Eigenschaften (z. B. Dominanzstreben) auch
Hemphill, 1950) ein differenzierteres Modell
positive Seiten (etwa starke Leistungsbereit-
des Führungsverhaltens. Da diese Studien
schaft) haben können.
auch eine Reihe brauchbarer diagnostischer
Instrumente hervorgebracht haben, wollen wir
Das Konzept der Führungsstile stellt die Ver-
uns im Folgenden auf den Ansatz der Ohio-
bindung dar zwischen dem Versuch, erfolgsre-
Gruppe beschränken.
levante Eigenschaften von Führungspersonen
zu bestimmen, und der Analyse des Zusam- Die Forscher dieser Gruppe gingen zunächst
menhangs zwischen bestimmten Aspekten des von neun Apriori-Dimensionen des Führungs-
Führungsverhaltens und dem Führungserfolg verhaltens aus. Zur Erfassung dieser Kompo-
(Krohne, 2013). Führungsstile bezeichnen sehr nenten ließen sie das Verhalten von militä-
globale Muster typischer, d. h. situationsüber- rischen Vorgesetzten auf einer Vielzahl von
greifender und zeitlich stabiler führungsbe- Items durch die Untergebenen beschreiben. Ty-
zogener Verhaltensweisen. Populär geworden pische Feststellungen lauteten etwa: „Er gibt
ist in diesem Feld die auf experimentelle For- nicht nach, wenn andere eine abweichende
schungen von Lewin, Lippitt und White (1939) Meinung haben“ oder „Er fordert von seinen
zurückgehende Dichotomie von „autoritärem“ Untergebenen mehr, als diese leisten können“.
versus „demokratischem“ (bzw. kooperativem) Aus anschließenden Faktorenanalysen resul-
Stil. tierten jedoch nur vier Faktoren, von denen
sich zwei als varianzstark und über verschie-
Organisationspsychologische Untersuchungen denen Untersuchungen stabil erwiesen (Hal-
zu diesen Stilen gingen besonders der Frage pin & Winer, 1957). Der erste Faktor wurde
nach der Überlegenheit des einen oder ande- von den Autoren „Consideration“ (Rücksicht-
ren Stils im Hinblick auf bestimmte Kriterien nahme) genannte. Er ist definiert über Verhal-
nach. Dabei konnte für das Kriterium Grup- tensweisen wie freundliche Zuwendung, Ver-
penleistung keine Überlegenheit eines Stils trauen, Respekt und Wärme, stellt also einen
nachgewiesen werden, während sich für das mitarbeiterorientierten Stil dar. Der zweite,
Merkmal Arbeitszufriedenheit (zumindest ten- von der ersten Komponente unabhängige, Fak-
denziell) eine Überlegenheit des kooperati- tor wurde als „Initiating structure“ (Aufgaben-

447
14 Arbeits- und organisationspsychologische Diagnostik

und Leistungsorientierung) bezeichnet. Er ist vermuten kann, dass hier eher Merkmale des
definiert durch Verhaltensweisen, mit denen Beurteilers (etwa Zufriedenheit mit dem Füh-
der Vorgesetzte die Aktivitäten der Untergebe- rungsverhalten) als Merkmale der beurteilten
nen definiert und organisiert und dabei auch Führungsperson erfasst werden. Eine andere
seine Beziehung zu den Untergebenen fest- Erklärung wäre, dass sich Vorgesetzte gegen-
legt. Konzeptuell haben diese beiden Dimen- über den einzelnen Untergebenen unterschied-
sionen große Ähnlichkeit mit den von Bales lich verhalten und dementsprechend auch un-
für Kleingruppen beschriebenen Rollen des terschiedlich beurteilt werden.
„sozial-emotionalen“ und des „aufgabenorien-
tierten“ Führers (Bales & Slater, 1955). Die Generell lässt sich am diagnostischen Vorge-
beiden restlichen Faktoren, „Production em- hen der Ohio-Gruppe kritisieren, dass in den
phasis“ (Ergebnisorientierung) und „Sensitivi- Items nur wenig Bezug zu konkretem, situa-
ty“ (Sensitivität für Gruppenprozesse) klärten tionsspezifischem Verhalten besteht. Stattdes-
deutlich weniger Varianz auf und spielten in sen werden sehr allgemeine Stellungnahmen
der weiteren Testentwicklung keine Rolle. eingeholt. Damit ist die Gefahr gegeben, dass
hier gar nicht die tatsächliche Struktur des Füh-
Gemessen werden die beiden zentralen Füh-
rungsverhaltens erfasst wird, sondern vielmehr
rungsmerkmale über zwei verschiedene Zu-
die implizite Theorie von Führern und Geführ-
gänge. In Leader Behavior Description Ques-
ten über diese Struktur. Ein weiteres Problem
tionnaire (LDBQ; Halpin, 1957) werden Un-
besteht darin, dass die Items der erwähnten
tergebene aufgefordert, das Verhalten ihrer
Fragebogen recht heterogene Verhaltenswei-
Vorgesetzten auf einer Reihe von Items zu
sen erfassen, so dass die Möglichkeit besteht,
beschreiben. (Eine erweiterte Version ist der
dass die Items einer Skala in unterschiedli-
LDBQ, Form XII; Stogdill, 1963.) Im Lea-
chen Beziehungen zu Kriterien der Führungs-
der Opinion Questionnaire (LOQ; Fleishman,
effektivität stehen. Schließlich scheinen die
1957) sollen Vorgesetzte angeben, wie sich ei-
beiden zentralen Dimensionen, entgegen der
ne Führungsperson in bestimmten Situationen
ursprünglichen Konzeption, deutlich positiv
idealerweise verhalten würde.
miteinander zu korrelieren (Fleishman & Har-
Eine deutsche Version des LDBQ wur- ris, 1962).
de unter dem Namen Fragebogen zur
Vorgesetzten-Verhaltensbeschreibung (FVVB; Trotz dieser Schwierigkeiten konnten über ei-
Fittkau-Garthe & Fittkau, 1971) vorgelegt. ne große Zahl von Untersuchungen bedeutsa-
Der FVVB misst Führungsverhalten auf fünf me, wenn auch stark variierende, Beziehungen
Dimensionen: Freundliche Zuwendung und der beiden Dimensionen des Führungsverhal-
Respektierung (Consideration), mitreißende tens zu verschiedenen Erfolgskriterien nachge-
und zur Arbeit stimulierende Aktivität (Initia- wiesen werden. (Für eine Metaanalyse dieser
ting structure), Mitbestimmung und Beteili- Zusammenhänge siehe Judge, Piccolo & Ilies,
gung, Kontrolle sowie Freundlichkeit und Ak- 2004.) Dabei zeigte sich generell, dass Con-
tivität. Problematisch am FVVB ist zunächst sideration positiv mit Kriterien assoziiert ist,
einmal, dass die drei letztgenannten Dimensio- die die Zufriedenheit der Untergebenen reflek-
nen nicht unabhängig voneinander und von tieren (Zufriedenheit mit dem Vorgesetzten,
den beiden großen Komponenten des Füh- Arbeitszufriedenheit, Motiviertheit). Die Be-
rungsverhaltens sind. Daneben ist auch die ziehungen zwischen Initiating structure und
Übereinstimmung zwischen den Beurteilun- verschiedenen Kriterien fallen niedriger und
gen verschiedener Untergebener ausgespro- gleichförmiger aus als die für Consideration re-
chen niedrig (Nachreiner, 1970), so dass man gistrierten, mit einem leichten Akzent bei der

448
14.5 Diagnostik bei der Situation

eingeschätzten Führungseffektivität. Die Grup- („least preferred coworker“). Auf einem se-
penleistung korreliert dagegen, entgegen der mantischen Differential mit 18 Dimensionen
Erwartung, nur schwach mit Initiating struc- wie „angenehm-unangenehm“, „freundlich-
ture. Überraschenderweise war in der Meta- unfreundlich“, „unkooperativ-kooperativ“ soll
analyse von Judge et al. (2004) Consideration der Führer auf einer Acht-Punkte-Skala denje-
immer noch deutlich stärker mit Führungsef- nigen Mitarbeiter beurteilen, mit dem er in sei-
fektivität assoziiert als Initiating structure. Die ner bisherigen Führungstätigkeit am schlech-
Validität variierte über verschiedene Maße des testen zusammengearbeitet hat. Das LPC-Maß
Führungsverhaltens, wobei LDBQ und LDBQ, ist der Summenwert der Einschätzungen und
Version XII, generell zufriedenstellende Werte gibt an, ob der Führer diesen Mitarbeiter ins-
erreichten. gesamt noch positiv (hoher LPC-Wert) oder
negativ beschreibt. Die Bedeutung dieses LPC-
Neben Haupteffekten dieser beiden Dimen- Maßes ist in vielen Studien untersucht worden.
sionen des Führungsverhaltens auf die Kri- Fiedler interpretiert den Wert als Indikator für
terien scheinen hier auch interaktive Bezie- eine bestimmte Motivationsstruktur des Füh-
hungen zu bestehen. So konnten Fleishman rers, also durchaus im Sinne herkömmlicher
und Harris (1962) zeigen, dass niedrige Con- eigenschaftsorientierter Ansätze. Führer mit
sideration generell mit schlechten und hohe hohem LPC-Wert sollen demnach eher mit-
Consideration generell mit guten Effektivitäts- arbeiterorientiert, solche mit geringem Wert
werten (hier Beschwerderate) verbunden ist, eher aufgabenorientiert sein.
unabhängig vom Ausmaß der Initiating struc-
ture. Bei mittlerer Consideration steigt jedoch In einem nächsten Schritt wird nun jedoch
die Beschwerderate signifikant mit der Stärke nicht, wie bei den zuvor dargestellten Ansät-
von Initiating structure an. Dieser Befund legt zen, die direkte Beziehung dieser Variable zu
den Schluss nahe, dass Consideration ein Füh- Erfolgsmaßen untersucht, sondern der Einfluss
rungsstil ist, der die Beziehungen zwischen an- verschiedener situativer Variablen auf die Grö-
deren Merkmalen des Führungsverhaltens (ins- ße und Richtung dieser Beziehung. Als situati-
besondere hinsichtlich Aufgaben- und Leis- ve moderierende Faktoren bestimmte Fiedler
tungsorientierung) moderiert. die folgenden Merkmale: Die Einstellung der
Die unterschiedlichen Beziehungen zwischen Mitarbeiter zum Führer; den Grad der Struk-
Merkmalen der Führung und verschiedenen turiertheit der Aufgabe; als strukturiert gel-
Kriterien der Effektivität, die in Untersuchun- ten dabei Aufgaben, bei denen das Ziel und
gen gefunden wurden, weisen auf einen sys- der Weg dahin bekannt und die Zielerreichung
tematischen Effekt hin. Offenbar ist der Er- überprüfbar sind; die Positionsmacht des Füh-
folg bestimmter Führer bzw. ihres jeweiligen rers in seiner Gruppe. Diese Teilvariablen
Verhaltens abhängig von spezifischen situati- fasste er, mit unterschiedlicher Gewichtung
ven Bedingungen. Ein erster größerer theore- (4:2:1), zur Gesamtvariable „situative Güns-
tischer Ansatz zur Erforschung dieser Kontin- tigkeit“ zusammen. Diese ist hoch, wenn die
genz wurde von Fiedler (1964) vorgelegt. Einstellung der Mitarbeiter positiv, die Auf-
gabe gut strukturiert und die Positionsmacht
Grundannahme der Theorie ist, dass in groß ist.
verschiedenartigen Gruppen unterschiedliche
Führungsstrategien realisiert werden müssen, Ziel der zahlreichen Untersuchungen von Fied-
wenn diese Gruppen erfolgreich sein sollen. ler und Mitarbeitern war es nun, Höhe und
Ausgangspunkt zur Erfassung dieser Strategi- Richtung der Beziehung zwischen dem LPC-
en ist das von Fiedler entwickelte LPC-Maß Maß als Indikator des Führungsstils einerseits

449
14 Arbeits- und organisationspsychologische Diagnostik

und Effektivitätsmaßen andererseits für unter- menhänge u. U. besser erklären. Sehr günstige
schiedliche Stufen situativer Günstigkeit zu wie auch sehr ungünstige Situationen sind bei-
bestimmen. Dabei fand sich, dass bei hoher de, wenn auch auf unterschiedliche Weise, we-
wie auch bei geringer situativer Günstigkeit nig komplex. Solche Situationen sollten von
LPC-Maß und Effektivität negativ korrelieren, kognitiv einfach strukturierten Führern besser
d. h. ein mitarbeiterorientierter Stil ist eher un- bewältigt werden. Situationen mittlerer Güns-
günstig, ein aufgabenorientierter dagegen ef- tigkeit sind demgegenüber mehrdeutiger und
fektiv. Bei mittlerer situativer Günstigkeit gilt erfordern eine höhere kognitive Komplexität
der entgegengesetzte Zusammenhang, d. h. ein des Führers.
mitarbeiterorientierter Stil ist günstig. Bei Si-
tuationen mittlerer Günstigkeit wird ein Füh- Ferner ist die mangelnde theoretische Fun-
rer die Leistung seiner Mitarbeiter also um- dierung der Beziehungen zu kritisieren. Die-
so mehr steigern können, je mitarbeiterorien- ses Manko findet seinen Niederschlag u. a.
tierter er sich verhält. Bei günstigen und un- in der oberflächlichen Festlegung von Effek-
günstigen Situationen greift dieser Stil nicht, tivitätskriterien wie auch in der theoretisch
bei günstigen wohl deshalb nicht, weil Mitar- nicht begründeten Auswahl von Variablen zur
beiterorientierung hier, anders als vermutlich Operationalisierung von situativer Günstigkeit.
Leistungsansporn, nichts zur Verbesserung der Auch die Art der gewichteten Zusammenfas-
Motivation beiträgt; bei ungünstigen Situatio- sung bleibt unbegründet, wobei noch zusätz-
nen vermutlich nicht, weil hier die Mitarbeiter lich kritisch anzumerken ist, dass die Varia-
nicht auf das entsprechende Führungsverhal- blen „Einstellung der Mitarbeiter zum Führer“
ten eingehen werden. und das LPC-Maß vermutlich nicht unabhän-
gig voneinander sind.
Die Theorie hat eine intensive Debatte und For-
schungstätigkeit ausgelöst. Es wurden sowohl Wenn auch die empirischen Befunde zur Theo-
theoriekonforme als auch abweichende Befun- rie Fiedlers im Einzelnen kritisch zu bewer-
de vorgelegt. Unter den zahlreichen kritischen ten sind, so bleibt als wesentliches Ergebnis
Argumenten sollen nur die folgenden, für die doch die Erkenntnis, dass es im Hinblick auf
Diagnostik relevanten, erwähnt werden: Es ist Erfolgskriterien nicht den günstigsten Füh-
nach wie vor unklar, was der LPC-Test misst. rungsstil gibt. Vielmehr hängt die Effektivität
Der Test weist strukturell eine große Ähnlich- einzelner Führungsverhaltensweisen von der
keit mit dem von Bieri et al. (1966) konstru- Passung (der Kontingenz) zwischen situativen
ierten Verfahren zur Erfassung der kognitiven Merkmalen und bestimmten Aspekten dieses
Komplexität auf. In diesem Verfahren erzielen Verhaltens ab. Deshalb legen alle neueren Füh-
Personen, die andere Menschen auf einer An- rungstheorien großes Gewicht auf die Analyse
zahl von Beurteilungsdimensionen gleichartig des Zusammenhangs von Führungsverhalten
einschätzen, einen niedrigen Wert in Richtung und Situation im Hinblick auf den Führungs-
kognitiver Komplexität. (Für Details zu die- erfolg.
sem Verfahren siehe Krohne, 1973.) Personen
mit niedrigen LPC-Werten würden demnach Kaum eine dieser Theorien hat allerdings zu
ihren am wenigsten geschätzten Mitarbeiter diagnostischen Verfahren geführt, die wesent-
undifferenziert negativ beurteilen, Personen lich über die bereits vorgestellten Instrumente
mit hohem Wert würden diesen Mitarbeiter da- hinausgehen. Eine Ausnahme bildet der von
gegen differenzierter (d. h. auf einigen Dimen- Bass (1985, 1997) vorgelegte Ansatz zur Be-
sionen auch etwas positiver) beschreiben. Die- schreibung und Messung transaktionalen und
se Annahme würde die geschilderten Zusam- transformationalen Führungsverhaltens.

450
14.5 Diagnostik bei der Situation

Ausgangspunkt ist die Theorie der charisma- von sich wie auch andere von ihnen ursprüng-
tischen Führung von House (1977), die auf lich erwartet hatten. Transformationale Füh-
Annahmen der Weg-Ziel-Theorie der Führung rer verwandeln also die Geführten in ihrem
basiert (Evans, 1970; House, 1971). Die Weg- Verhalten und ihrem Selbstbild. Sie erreichen
Ziel-Theorie sieht die Hauptfunktion des Füh- dies, indem sie erstens bei den Geführten das
rungshandelns darin, Mitarbeitern den Weg Bewusstsein dafür stärken, dass es wichtige
zum Ziel und die Attraktivität des Zieles zu und wertvolle Ergebnisse der Organisations-
verdeutlichen. Weg und Ziel sind wesentliche arbeit gibt, sowie Wege, um diese Ziele zu
Determinanten der Arbeitszufriedenheit des erreichen, zweitens die Geführten dazu brin-
Mitarbeiters. Indem der Führer diese Determi- gen, ihre eigenen Interessen und Bedürfnisse
nanten beeinflusst, fungiert er in erster Linie in zurückzustellen zugunsten der Gruppe bzw.
der Rolle des Motivators. Effektives Führungs- der Organisation, und schließlich generell das
verhalten heißt also maximale Motivierung Bedürfnisniveau ihrer Gefolgsleute anheben
der Mitarbeiter, das gesetzte Ziel zu erreichen. bzw. den Bereich der Bedürfnisse und Wün-
Welche Verhaltensweisen dieser Motivierung sche erweitern.
besonders gut dienen, hängt von Merkmalen
Zur Erfassung transaktionaler und transforma-
des Mitarbeiters, der Arbeitsaufgabe sowie der
tionaler Führung wurde von Bass und Avo-
allgemeinen Situation ab.
lio (1995) das Multifactor Leadership Ques-
tionnaire (MLQ) entwickelt. Auf der Basis
Charismatische Führer sollen nun in ganz be-
einer Sequenz von Faktorenanalysen konzi-
sonderem Maße dazu in der Lage sein, die
pierten Bass und Avolio acht Skalen mit ins-
Motiviertheit ihrer Mitarbeiter positiv zu be-
gesamt 141 Items. Vier dieser Skalen erfassen
einflussen. Derartige Führer sind nach Hou-
transformationale Führung: Charisma thema-
se (1977) durch eine Reihe von Persönlich-
tisiert Respekt und Vertrauen gegenüber dem
keitsmerkmalen gekennzeichnet: Selbstver-
Führer (Beispielitem: „ich bin stolz darauf,
trauen, Dominanz, Entschlossenheit, Masku-
mit ihm/ihr zusammenzuarbeiten“); Inspirie-
linität und wahrgenommene Intelligenz. Die
rende Motivierung bezieht sich auf anspornen-
Effektivität charismatischer Führung zeigt sich
de und aktivierende Zukunftsvisionen („er/sie
besonders dann, wenn es darum geht, die nega-
hat eine Zukunftsvision, die mich anspornt“);
tiven Effekte ungünstiger Arbeitsbedingungen
Intellektuelle Stimulierung repräsentiert eine
der Geführten aufzufangen.
Führung, die innovatives Verhalten und das
Aufbrechen eingefahrener Denkmuster fördert
Transaktionale Führer erkennen, welche Be-
(„er/sie ermöglicht es mir, alte Probleme in ei-
friedigung die Geführten aus ihrer Arbeit zie-
nem neuen Licht zu sehen“); Individuelle Wert-
hen möchten und bemühen sich um deren Er-
schätzung bezeichnet das Eingehen auf den
füllung, wenn dies die Leistung der Geführ-
einzelnen Geführten sowie das Bereitstellen
ten rechtfertigt. Sie mobilisieren also Anstren-
von Anleitungen und Hilfen im Arbeitsprozess
gung bei den Geführten, indem sie auf deren
(„er/sie berät, fördert und unterstützt mich,
bereits bestehenden Interessen und Bedürfnis-
falls es notwendig ist“).
se reagieren. Dieser Prozess folgt weitgehend
den Annahmen der Weg-Ziel-Theorie. Drei weitere Skalen messen das Ausmaß trans-
aktionaler Führung: Bedingte Belohnung be-
Transformationale Führer, zu denen auch der zieht sich auf positive und negative Rückmel-
charismatische Führer gehört, motivieren da- dung als Funktion des Grades der Zielerrei-
gegen ihre Gefolgsleute derart, dass sie mehr chung („er/sie weist mich darauf hin, was ich
tun und mehr erreichen wollen, als sie selbst erhalten werde, wenn ich die Anforderungen

451
14 Arbeits- und organisationspsychologische Diagnostik

erfülle“); Active Management by Exception Reliabilitäten dieser Adaptation fallen für fünf
beschreibt ein Verhalten, bei dem der Vorge- Skalen mit Werten von .90 sehr gut aus; nur
setzte die Leistung des Geführten überwacht die Skalen Management by Exception (α =
und Maßnahmen ergreift, sobald eine Abwei- .77) und Laissez-Faire (α = .71) schneiden
chung vom Standard auftritt („er/sie besteht deutlich schlechter ab. Die mittleren Überein-
auf der Einhaltung von Vorschriften, um Feh- stimmungen zwischen den beurteilenden Un-
ler zu vermeiden“); Passive Management by tergebenen sind mit Werten zwischen .77 und
Exception bezeichnet ein Verhalten, bei dem .82 zufriedenstellend.
der Führer erst dann in den Arbeitsprozess ein-
In einer Erhebung mit über 1 500 Mitarbei-
greift, wenn negative Abweichungen vorliegen
tern von Sparkassen, die insgesamt mehr als
(„er/sie vermeidet Eingriffe, außer wenn ich
200 Vorgesetzte zu beurteilen hatten, fanden
gesteckte Ziele nicht erreiche“). Eine achte,
Geyer und Steyrer (1998) allerdings sehr hohe
von den beiden beschriebenen Führungsarten
Interkorrelationen zwischen den meisten der
unabhängige, Skala thematisiert eine Führung
sieben Skalen der deutschen Adaptation. So
(Laissez-Faire), bei der sich der Führer nur
variierten die Koeffizienten für die Skalen Cha-
wenig um die Arbeitsresultate seiner Unterge-
risma, Inspirierende Motivierung, Intellektu-
benen kümmert („er/sie kümmert sich nicht
elle Stimulierung, Individuelle Wertschätzung
um unsere Arbeit“).
und Bedingte Belohnung zwischen .67 und
Judge und Piccolo (2004) führten eine Me- .85. Lediglich zu den Skalen Management by
taanalyse zur Bestimmung der Validität der Exception und Laissez-Faire fielen die Korre-
MLQ-Dimensionen durch. Von den zahlrei- lationen etwas niedriger aus, waren allerdings
chen bedeutsamen Zusammenhängen sollen mit Werten zwischen −.60 und −.26 immer
an dieser Stelle nur die folgenden erwähnt wer- noch substanziell.
den: Die Kriterien Führungseffektivität und
Auf Grund dieser Befundlage unternahmen
Zufriedenheit der Geführten mit dem Füh-
die Autoren eine Neubestimmung der internen
rer wiesen eine enge positive Beziehung zu
Struktur des MLQ mit Hilfe explorativer und
den Dimensionen transformationaler und ei-
konfirmatorischer Faktorenanalysen, die zu
ne ebenso enge negative Beziehung zum Stil
vier Faktoren führte. Diese Struktur bildete die
Laissez-Faire auf. Der Zusammenhang mit der
Grundlage der deutschen Version des MLQ.
transaktionalen Führung durch Bedingte Be-
Eine erste Komponente enthält Items der Ska-
lohnung war hier weniger ausgeprägt. Dage-
len Intellektuelle Stimulierung, Inspirierende
gen waren die Arbeitszufriedenheit der Geführ-
Motivierung, Charisma und Individuelle Wert-
ten sowie die Leistung der Untergebenen enger
schätzung und wird Core-Transformationale
mit Bedingter Belohnung als mit transforma-
Führung genannt (α = .93). Die zweite Kom-
tionaler Führung assoziiert. Laissez-Faire kor-
ponente vereint Items der Skalen Individuel-
relierte negativ mit Arbeitszufriedenheit.
le Wertschätzung und Charisma, in denen ei-
Geyer und Steyrer (1998) entwickelten eine ne positive Beziehung zwischen Führer und
deutsche Adaptation des MLQ, in der aller- Geführten zum Ausdruck kommt. Sie wird
dings die beiden Komponenten des Manage- dementsprechend als Individuelle Wertschät-
ment by Exception (aktiv und passiv) zu einer zung identifiziert (α = .92). Die dritte Kompo-
Dimension zusammengefasst werden. Inspi- nente besteht aus Items der Skalen Bedingte
rierende Motivierung besteht dabei aus sieben, Belohnung und Individuelle Wertschätzung,
die übrigen Skalen aus je zehn Items, die auf in denen insbesondere positives Feedback des
einer fünfstufigen Skala („überhaupt nicht“ bis Vorgesetzten angesprochen wird. Sie wird als
„häufig oder immer“) beantwortet werden. Die Core-Transaktionale Führung bezeichnet (α

452
14.5 Diagnostik bei der Situation

= .93). Die vierte Komponente enthält Items 2006; für eine weitere deutsche Übersetzung
der Skala Management by Exception (MBE), des MLQ siehe Rowold, 2005).
in denen passives Führungsverhalten beschrie-
Als Fazit unserer Darstellung der Führungsdia-
ben wird, sowie zwei Items der Skala Lais-
gnostik lässt sich die Existenz zweier Ansätze
sez-Faire. Sie wird dementsprechend MBE-
konstatieren. Ein älterer – neuerdings aber of-
passiv/Laissez-Faire genannte (α = .85).
fenbar wieder aktueller (siehe u. a. Hogan et
al., 1994; Müller, Garrett, Pikal & Reedwisch,
Auch in dieser Revision sind die Korrelatio-
2002) – Ansatz zielt darauf, erfolgreiche und
nen zwischen den drei erstgenannten Skalen
erfolglose Führer nach einer Reihe von Persön-
noch substanziell (r = .58 bis .70). Nur die
lichkeitseigenschaften zu unterscheiden. Zur
vierte Skala, die sich auf passives Führungs-
Erfassung dieser Eigenschaften kann im Prin-
verhalten bezieht, ist von den anderen Kompo-
zip das bei der Eignungsdiagnostik vorgestell-
nenten weitgehend unabhängig. Zur Bestim-
te Instrumentarium herangezogen werden. Ein
mung der Validität zogen die Autoren Daten
zweiter Ansatz versucht, meist über eine Be-
zum kurzfristigen bzw. langfristigen Verkaufs-
fragung der Geführten, bestimmte Aspekte des
erfolg der einzelnen Sparkassen heran. Dabei
Führungsverhaltens objektiv und reliabel zu
zeigte sich, dass transaktionale Führung ein
messen (Übersicht u. a. in Jöns, 1995). Als zen-
signifikanter Prädiktor des Verkaufserfolgs ist,
trale Merkmale wurden dabei die Dimensio-
dass transformationale Führung aber einen zu-
nen Aufgaben- und Mitarbeiterorientierung so-
sätzlichen positiven Effekt auf den Erfolg aus-
wie transaktionale und transformationale Füh-
übt, der über den der transaktionalen Führung
rung identifiziert. Mehrere Testverfahren zur
hinausgeht. Bemerkenswert ist, dass Individu-
Erfassung dieser Komponenten und einiger
elle Wertschätzung zum kurzfristigen Erfolg
weiterer Nebenaspekte der Führung wurden
in positiver, zum längerfristigen Erfolg aber in
entwickelt. Dabei fällt allerdings auf, dass die
negativer Beziehung steht. Dieses Führungs-
zentralen Dimensionen der Führung, und dies
verhalten enthält offensichtlich Elemente (Bei-
gilt insbesondere für transaktionale und trans-
spielitem: „steht mir mit Rat zur Seite, wenn
formationale Führung, substanziell korreliert
ich es brauche“), die Defizite in der Qualifikati-
sind. Dieser Umstand erschwert natürlich die
on des Mitarbeiters ansprechen. Dieses Verhal-
Bestimmung der diskriminanten Validität der
ten mag deshalb kurzfristig zur Problemlösung
entsprechenden Skalen.
beitragen, reicht aber längerfristig offenbar zur
Erfolgssicherung nicht aus. Großes Gewicht legen alle neueren Ansätze
auf die Bestimmung von Einflüssen aus dem
Felfe und Goihl (2002) legten eine alternative situativen Kontext auf den Erfolg eines spe-
deutsche Version des MLQ, das MLQ 5 x, vor. zifischen Führungsverhaltens. Empirische Er-
Dieses Verfahren, das sich etwas enger als der gebnisse zu derartigen Zusammenhängen lie-
Test von Geyer und Steyrer an das amerika- fern eine wichtige Grundlage für die Schulung
nische Vorbild anlehnt, unterscheidet bei der von Führungskräften. Allerdings ist die Be-
transformationalen Führung zwei Dimensio- fundlage hierzu derzeit noch widersprüchlich,
nen. Außerdem wird noch mit zwei Skalen pas- was wohl in erster Linie auf das Fehlen von
sive Führung (Laissez-Faire) erfasst. Die Re- Taxonomien zur Bestimmung der relevanten
liabilitäten dieser insgesamt zehn Skalen sind, Situationsvariablen zurückzuführen ist.
mit Ausnahme der beiden Dimensionen trans-
aktionaler Führung, gut (zwischen .81 und .92;
für transaktionale Führung .63 bis .70; für eine
transformationale Skala .73; siehe auch Felfe,

453
14 Arbeits- und organisationspsychologische Diagnostik

14.5.3 Diagnostik bei der von Entscheidungsprozessen; (5) Konfigurati-


Organisation on; eine Sammelkategorie, die sich etwa auf
die Zahl der Ebenen, den Anteil von Verwal-
tung und Produktion bzw. Dienstleistung u. Ä.
Diagnostische Interventionen bei der Organi- bezieht.
sation sind ein wichtiges Mittel, um Manager
und Berater bei der Planung, Umsetzung und Faktorenanalysen (u. a. Pugh, Hickson, Hin-
Bewertung von Veränderungsprozessen zu un- ings & Turner, 1976) konnten diese Apriori-
terstützen. Im Sinne des im I Kap. 7 darge- Struktur nicht vollständig replizieren. Wäh-
stellten handlungstheoretischen Modells wird rend sich die Dimension Zentralisierung em-
Organisationsdiagnostik benötigt bei der Indi- pirisch sichern ließ und sich Konfiguration in
kation, d. h. Diagnose und Bewertung von Or- zwei Subdimensionen (Linienkontrolle des Ar-
ganisationsproblemen, bei der Durchführung beitsflusses sowie unterstützende Aktivitäten)
von Veränderungen zur Kontrolle dieses Pro- aufspaltete, scheinen Spezialisierung, Standar-
zesses sowie bei der Evaluation der Ergebnisse disierung und Formalisierung empirisch as-
einer Modifikation. soziiert zu sein und einen einzigen Faktor,
Organisationsdiagnostik vollzieht sich auf ver- „Strukturierung der Aktivitäten“, zu bilden. So-
schiedenen Ebenen: beim Individuum und sei- mit kann man also von vier empirisch gesi-
ner Arbeitstätigkeit, bei Gruppen und Abtei- cherten Dimensionen der Organisationsstruk-
lungen sowie bezogen auf die Gesamtorga- tur ausgehen. Allerdings scheint diese Struk-
nisation (Kühlmann & Franke, 1989). Dabei tur abhängig zu sein von Rahmenbedingun-
lässt sich eine strukturelle von einer prozes- gen wie Größe der Organisation, Technologie,
sualen Orientierung unterscheiden. Bei der ers- Abhängigkeit von anderen Unternehmen, geo-
ten geht es um die Entwicklung von Beschrei- graphische Lage sowie Unternehmenspolitik
bungsmerkmalen für die Struktur von Gruppen (Übersicht in Kieser & Kubicek, 1992).
und Organisationen. Bei der zweiten steht die
Frage im Vordergrund, wie die Gruppe oder Im Zentrum der prozessualen (erlebnisdeskrip-
Organisation von ihren Mitgliedern erlebt wird tiven) Orientierung stehen Konstrukte wie
und auf diese Weise auf das Verhalten wirkt. Organisationskultur oder Organisationsklima.
Wichtige Konstrukte sind hier Organisations- Unter Organisationskultur wird das Muster
klima und die bereits weiter vorn in anderem grundlegender Annahmen und Überzeugun-
Zusammenhang dargestellte Arbeitszufrieden- gen verstanden, die von den Organisationsmit-
heit. gliedern geteilt werden und festlegen, wie die
Organisation sich selbst und ihre Umwelt er-
Charakteristisch für die strukturelle Orientie- lebt (Hofstede, 1998; Schein, 1985). Das Orga-
rung sind die von der Aston-Gruppe (Payne & nisationsklima beschreibt die Art und Weise,
Pugh, 1976; Pugh, 1973) entwickelten Mess- wie eine Organisation in ihren objektiv gege-
verfahren, deren Items (die meist im Rahmen benen Strukturmerkmalen in übereinstimmen-
von Interviews zu beantworten sind) zunächst der Weise von den Organisationsmitgliedern
zu fünf apriorischen Dimensionen kategori- wahrgenommen wird (Schneider, 1975). Die-
siert wurden: (1) Spezialisierung, d. h. Aufglie- ses Konstrukt ist zu unterscheiden von dem be-
derung der Tätigkeiten in spezialisierte Rol- sonders in der deutschen Forschung verwende-
len; (2) Standardisierung, d. h. Determination ten Begriff des Betriebsklimas. Hiermit ist der
der Tätigkeit durch Routineverfahren; (3) For- Zustand der variablen Zufriedenheit der Mehr-
malisierung, d. h. schriftliche Fixierung; (4) heit der Organisationsmitglieder gemeint, der
Zentralisierung, d. h. Grad der Konzentration in definierbaren Merkmalen innerhalb der Or-

454
14.6 Ausblick

Übersicht 14.5 Dimensionen des Organisationsklimas nach Neuberger (1980).


1. Strukturierung: Organisatorische Regelungen, Vorschriften, Praktiken.
2. Autonomie: Unabhängigkeit, Entscheidungsfreiheit, spontane Entfaltungsmöglichkeit.
3. Wärme und Unterstützung: Qualität der sozialen Beziehungen.
4. Leistungsorientierung: Leistung, Zielorientierung, Begeisterung, „Schwung“.
5. Zusammenarbeit: Integration des einzelnen Mitgliedes, Loyalität, konstruktive Zusammenar-
beit.
6. Belohnungshöhe und -fairness : Verhältnis von Investition der Arbeitnehmer und Gegenleis-
tung der Organisation.
7. Innovation und Entwicklung: Erwünschtheit von Veränderungen und Möglichkeit zu persönli-
cher Entwicklung.
8. Hierarchisierung und Kontrolle: Betonung von Rang-, Status- und Einflussunterschieden.

ganisation seine Ursachen hat (von Rosenstiel, lichen Datenquellen basieren, um zu tragfä-
1972). higen Bestimmungen zu gelangen. Büssing
(2004) listet sieben Datenquellen der Organi-
Im Folgenden soll beispielhaft die Messung sationsdiagnostik auf:
des Organisationsklimas dargestellt werden.
Zwar wurde in verschiedenen Studien eine un- 1. Dokumentenanalyse;
terschiedlich große Anzahl von Dimensionen 2. organisations- und betriebswirtschaftliche
des Organisationsklimas beschrieben (siehe Statistiken;
u. a. Hemphill, 1956; James & James, 1989; 3. Befragung von Schlüsselpersonen und
Payne & Pugh, 1976; Pritchard & Karasick, Experten, die organisatorische Regelungen
1973), doch besteht zwischen den meisten An- planen, erlassen und kontrollieren;
sätzen eine deutliche Übereinstimmung hin- 4. Mitarbeiterbefragung;
sichtlich der Inhalte zentraler Dimensionen. 5. Beobachtungen am Arbeitsplatz;
Neuberger (1980) beschreibt acht Dimensio- 6. Gruppengespräche;
nen des Organisationsklimas, die gewisserma- 7. Interaktions- und Netzwerkanalysen.
ßen einen Querschnitt aus verschiedenen An-
sätzen darstellen (I Übersicht 14.5).
Da das Organisationsklima naheliegenderwei- 14.6 Ausblick
se über Befragungen der Mitarbeiter erfasst
wird, besteht die Gefahr, dass es zu Konfundie-
rungen zwischen Indikatoren kommt, die sich Lange Zeit stand die Einzelperson im Zentrum
auf unterschiedliche Konstrukte beziehen sol- arbeits- und organisationsdiagnostischer Be-
len. So fanden sich z. B. zwischen einzelnen mühungen. An ihr interessierte insbesondere
Skalen der Arbeitszufriedenheit und des Or- die Eignung zur Erfüllung der Anforderun-
ganisationsklimas derart hohe Korrelationen, gen, die durch Arbeitsaufgabe und Arbeits-
dass verschiedene Autoren hier von einem ein- platz gestellt wurden. Dementsprechend hatte
heitlichen Bereich ausgehen (Organisationskli- auch die Arbeits- und Anforderungsanalyse
ma als Aspekt der Arbeitszufriedenheit; Gui- früh Bedeutung erlangt, was sich u. a. in der
on, 1973). wegweisenden Entwicklung der Methode der
kritischen Ereignisse durch Flanagan manifes-
Sowohl strukturelle als auch prozessuale Orga- tierte. In der Eignungsdiagnostik selbst domi-
nisationsdiagnostik muss also auf unterschied- nierten zunächst die individuellen Fähigkeiten

455
14 Arbeits- und organisationspsychologische Diagnostik

und Fertigkeiten, die entweder über etablier- „technischen“ Leistung. Am Verhalten des Be-
te Testverfahren oder Situationssimulationen werbers im AC glaubt man offenbar zu erken-
(Arbeitsproben) erfasst wurden. nen, ob dieser in die Organisation „passt“ oder
nicht. Diese „Passung“ scheint ein wichtiges
In den letzten 20 Jahren ist nun eine deutliche
Kriterium für personelle Ergänzungen im Ma-
Erweiterung der arbeits- und organisationspsy-
nagement zu sein. Sie schafft Vertrautheit und
chologischen Diagnostik in mehrere Richtun-
erhöht damit die Sicherheit beim Treffen von
gen zu beobachten. In der Eignungsdiagnostik
Entscheidungen.
trat neben die Messung von Fähigkeiten und
Fertigkeiten die Erfassung relevanter Persön- Ansätze zur Diagnostik bei Gruppen und der
lichkeitsmerkmale wie etwa Gewissenhaftig- Gesamtorganisation sind nach wie vor defi-
keit, Extraversion oder Verträglichkeit. Diese zient. Eine Ausnahme könnte die Situation
Entwicklung wurde wesentlich vorangetrie- bei der Führungsdiagnostik sein. Allerdings
ben durch die Erkenntnis, dass nicht allein lässt die Rückkehr einer eigenschaftszentrier-
die „technische“ Arbeitsleistung der einzelnen ten Diagnostik in Gestalt des charismatischen
Mitarbeiter den Erfolg der Gesamtorganisati- und transformationalen Führers noch keine
on bestimmt, sondern auch deren „kontextuel- klaren Aussagen über einen Fortschritt ent-
le Leistungen“, d. h. freiwilliges Übernehmen sprechender diagnostischer Bemühungen zu.
von Aufgaben und besondere Hingabe bei de- Verglichen mit der Führungsdiagnostik ist die
ren Durchführung, Kooperation, Regelbefol- Diagnostik von Strukturen und Prozessen in
gung sowie Identifikation mit der Organisati- Gruppen und Organisationen unterentwickelt.
on (Borman & Motowidlo, 1993). Verwandte Dies hängt offensichtlich mit dem subjekti-
Konzepte, die in der Diagnostik zunehmend ven Zugang bei der Erhebung entsprechender
an Bedeutung gewinnen, sind Organizational Daten zusammen. Information über Struktu-
Citizenship Behavior (Organ, 1988) und Work ren und Prozesse wird fast ausschließlich über
Commitment (Cooper-Hakim & Viswesvaran, Aussagen der involvierten Mitglieder gewon-
2005). nen. Damit kommt es aber zu einer Konfundie-
rung der Daten, die diese Prozesse und Struk-
Eine zweite Richtung der Weiterentwicklung
turen indizieren sollen, mit Variablen, die die-
liegt in den simulationsorientierten Verfahren
se Daten entweder prädizieren oder von die-
der Eignungsdiagnostik und hier insbesondere
sen abhängen sollen. (Zum Problem derartiger
im Assessment Center (AC). Dieses komplexe
Konfundierung siehe Krohne, 1990.) Wenn
Verfahren dominiert eindeutig die Diskussion
beispielsweise postuliert wird, dass das Or-
der letzten Jahre in der arbeits- und organi-
ganisationsklima die Arbeitszufriedenheit der
sationspsychologischen Diagnostik. Stärken
Mitarbeiter beeinflusst, dann darf man diese
und Schwächen des Ansatzes wurden ausführ-
beiden Merkmale nicht ausschließlich durch
lich vorgestellt. Zieht man ausschließlich das
Berichte der Betroffenen erheben. Hier ist von
Kriterium der prädiktiven, an mehr oder we-
vorneherein, und dies wird noch durch die Aus-
niger objektiven Erfolgswerten orientierten,
richtung der entsprechenden Fragebogen ver-
Validität heran, so überzeugt das AC nicht.
stärkt, mit einer Überlappung der einzelnen
Auch bei Kostenanalysen schneidet es, ver-
subjektiven Stellungnahmen und damit einem
glichen mit anderen eignungsdiagnostischen
positiven Zusammenhang zwischen den bei-
Ansätzen, eher schlecht ab. Seine Populari-
den Merkmalen zu rechnen.
tät hat offensichtlich damit zu tun, dass die
für die Auswahl von Führungspersonen in ei- Subjektive Berichte, die Informationen über
ner Organisation Verantwortlichen sich vom Strukturen und Prozesse in Gruppen und Or-
AC mehr erhoffen als nur die Vorhersage der ganisationen liefern sollen, müssen deshalb

456
14.6 Ausblick

zumindest ergänzt (wenn nicht ersetzt) wer- Fragen zur Wissenskontrolle


den, durch Daten aus objektiven Quellen, spe-
ziell aus der Beobachtung (L-Daten). Im Zen-
1. Welches sind die spezifischen Ziele der
trum sollte hier die Registrierung von Kommu-
Arbeits- und der Anforderungsanalyse?
nikationsprozessen stehen. Wenn man dieses
2. Aus welchen Schritten besteht die Methode
Vorgehen mit der Technik der kritischen Er-
der kritischen Ereignisse?
eignisse kombiniert, dann ließe sich beispiels-
3. Welche Zielsetzung hat die synthetische Va-
weise feststellen, wie (insbesondere auch wie
lidierung?
schnell) Kommunikationsprozesse angesichts
4. Wie ist Arbeitszufriedenheit definiert und
derartiger Ereignisse in Gruppen und Orga-
welche Aspekte lassen sich an ihr unter-
nisationen ablaufen. Dies würde wichtige In-
scheiden?
formationen über strukturelle Aspekte (z. B.
5. Was versteht man unter Assessment Center
Hierarchisierung) wie auch Prozesse (z. B. Fle-
(AC) und welche Ziele hat das AC?
xibilität, Engagement) liefern.
6. Welche Funktion hat die Leistungsbeurtei-
lung?
7. Was versteht man unter Organizational Citi-
Weiterführende Literatur zenship Behavior?
8. Was ist mit den beiden zentralen Führungs-
Darstellungen wichtiger Bereiche der arbeits- dimensionen Consideration und Initiating
und organisationspsychologischen Diagnos- structure gemeint und wie können diese ge-
tik finden sich in den Herausgeberbänden von messen werden?
Fleishman und Reilly (1992), Murphy (1996b), 9. Wie ist Organisationsklima definiert und
Sarges (2013b), Schmitt und Borman (1993), welche Komponenten lassen sich hier unter-
Schuler und Moser (2013) sowie Schuler und scheiden?
Kanning (2014). Wichtige Testverfahren wer-
den in Sarges und Wottawa (2004) vorgestellt.

457
15 Klinische und gesundheitspsychologische
Diagnostik

15.1 Aufgaben der Klinischen Psychologie und der Gesundheitspsychologie . . . 458


15.2 Klinisch-psychologische Diagnostik . . . . . . . . . . . . . . . . . . . . . . . 459
15.2.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459
15.2.2 Systematisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
15.2.3 Das klinische Interview . . . . . . . . . . . . . . . . . . . . . . . . . . 462
15.2.4 Klinische Diagnostik auf der Basis von L-Daten . . . . . . . . . . . . 463
15.2.5 Klinische Diagnostik auf der Basis von Q-Daten . . . . . . . . . . . . 467
15.2.6 Klinische Diagnostik auf der Basis von T-Daten . . . . . . . . . . . . . 476
15.2.7 Systeme zur Klassifikation psychischer Störungen . . . . . . . . . . . 478
15.3 Gesundheitspsychologische Diagnostik . . . . . . . . . . . . . . . . . . . . . 486
15.3.1 Fragestellungen der Gesundheitspsychologie . . . . . . . . . . . . . . 486
15.3.2 Ziele und Bereiche der gesundheitspsychologischen Diagnostik . . . . 487
15.3.3 Evaluation gesundheitspsychologischer Maßnahmen . . . . . . . . . . 504

15.1 Aufgaben der Klinischen gesundheits- und krankheitsrelevanter Verhal-


Psychologie und der tensweisen und Kognitionen des einzelnen
Gesundheitspsychologie Menschen sowie mit gesellschaftlichen Nor-
men, die sich auf Gesundheitsbewusstsein und
-gewohnheiten auswirken. Dabei liefert sie em-
Nachdem es im vorangegangenen Kapitel um
pirisch begründetes Änderungswissen für ge-
die Diagnostik des Verhaltens und Erlebens
sundheitsbezogene Maßnahmen auf individu-
von Menschen in Arbeit, Beruf und Organi-
eller, sozialer, institutioneller und politischer
sation gegangen war, befassen wir uns nun
Ebene. Ausgehend von der Definition Mata-
mit der Messung dieser Merkmale im Bereich
razzos (1980) lassen sich die einzelnen Auf-
von Krankheit und Gesundheit. Zwei Diszipli-
gaben der Gesundheitspsychologie wie folgt
nen der Psychologie widmen sich – mit un-
beschreiben:
terschiedlicher Schwerpunktsetzung – dieser
Aufgabe, die Klinische Psychologie und die
1. Förderung und Erhaltung von Gesundheit;
Gesundheitspsychologie.
2. Prävention, Früherkennung und
Die Gesundheitspsychologie ist die jünge- Beeinflussung von Krankheitsfaktoren;
re dieser beiden Disziplinen. Sie befasst 3. Bestimmung von Risikoverhaltensweisen
sich mit der Analyse und Beeinflussung und anderen ätiologischen und

458
15.2 Klinisch-psychologische Diagnostik

diagnostischen Korrelaten von Gesundheit Diagnose und Behandlung psychischer Stö-


bzw. Krankheit und damit rungen (z. B. Depressionen, Ängste, psychi-
zusammenhängenden Fehlfunktionen; sche Konflikte) bei der Einzelperson kümmern
4. Rehabilitation; wird, während es der Gesundheitspsychologie
5. Analyse und Verbesserung des Systems in erster Linie um die Prävention geht.
gesundheitlicher Aufklärung, Vorsorge und
Versorgung.
Klinische Gesundheits-
Im Zentrum der Betrachtung der Gesundheits- Psychologie psychologie
psychologie steht der körperliche und psychi- zentrieren sich auf
sche Gesundheitsstatus. Der Schwerpunkt ih- Behandlung Prävention
rer Bemühungen liegt dabei auf der Präventi-
psychische psychophysischen
on von Beeinträchtigungen dieses Status. Da-
Störungen Gesundheitsstatus
bei befasst sie sich eher mit dem Kollektiv als
mit der Einzelperson. Einzelperson Kollektiv

Demgegenüber beschäftigt sich die Klinische


Psychologie traditionellerweise mit der Be-
handlung von Erkrankungen bzw. Störungen 15.2 Klinisch-psychologische
und nicht mit dem Thema Gesundheit (vgl.
u. a. Reinecker, 2003). Dabei konzentriert sie
Diagnostik
sich auf die Einzelperson und deren psychi-
sche Merkmale. Körperliche Probleme werden
15.2.1 Zielsetzung
nur am Rande betrachtet, und zwar in erster
Linie in ihrer Funktion als Auslöser oder Kon-
Diagnostik im Bereich der Klinischen Psycho-
sequenzen (meist als Konsequenzen) psychi-
logie hat die folgenden Aufgaben (vgl. Bastine
scher Störungen.
& Tuschen, 1996):
In jüngster Zeit bemüht sich aber auch die
1. Psychische Störungen qualitativ und
Klinische Psychologie in einzelnen Ansätzen
quantitativ zu beschreiben,
um eine stärkere Integration körperlicher und
2. sie zum Zwecke der Indikation bestimmten
psychischer Vorgänge. Dies wird etwa deut-
Klassen zuzuordnen,
lich bei der Diagnose und Behandlung chro-
3. ihre Entstehungsgeschichte bzw. die
nischer Schmerzen. Bei dieser Erkrankung,
Bedingungen ihres Auftretens aufzuklären,
die zunehmend einen Schwerpunkt klinisch-
4. ihren weiteren Verlauf bzw. die
psychologischer Forschung und Praxis bildet,
therapeutische Erfolgswahrscheinlichkeit
ist das Zusammenspiel psychischer und kör-
vorherzusagen sowie
perlicher Faktoren ja ganz offensichtlich. Ähn-
5. Information über den Behandlungserfolg
liches gilt für Themen wie Krankheitsbewäl-
zu liefern.
tigung oder die psychologische Behandlung
von Risikopersonen (z. B. mit Bluthochdruck Diese Aufgaben der klinisch-psychologischen
oder Übergewicht). Entsprechend werden wir Diagnostik korrespondieren mit den zentralen
zwischen den beiden Bereichen der klinisch- Bestimmungsstücken des handlungstheoreti-
psychologischen und gesundheitspsychologi- schen Modells von Kaminski (1970), das ja in
schen Diagnostik eine gewisse Überlappung besonderem Maße – aber nicht ausschließlich
zu erwarten haben, wobei sich die Klinische – für die Diagnostik im Rahmen modifikato-
Psychologie aber nach wie vor primär um die rischer Interventionen konzipiert worden war

459
15 Klinische und gesundheitspsychologische Diagnostik

(I Kap. 7). Nach diesem Modell war die dia- Definition eines Merkmals als behandlungsbe-
gnostische Tätigkeit eng auf die Formulierung dürftige Störung (z. B. Alkoholkonsum) auch
und Überprüfung von vier Hypothesen bezo- von der Verteilung des betreffenden Verhal-
gen: (1) zum Eingangszustand (Z1) des Klien- tens in der Bevölkerung abhängt. Bastine und
ten, (2) zu den Bedingungen dieses Zustands, Tuschen weisen allerdings darauf hin, dass
(3) zum durch eine modifikatorische Interven- hier nicht allein statistische Normwerte, son-
tion angestrebten Zielzustand (Z2) sowie (4) dern auch der Kontext eines Verhaltens be-
zum Weg von Z1 nach Z2. rücksichtigt werden müssen. So wird etwa der
Alkoholkonsum eines ehemaligen Alkoholab-
Dementsprechend zielt die klinisch- hängigen anders zu bewerten sein als das ent-
psychologische Diagnostik auf die Gewinnung sprechende Verhalten einer Person ohne bis-
von Information zur Klärung von vier – mit herige Alkoholprobleme. – Zweitens müssen
diesen Hypothesen korrespondierenden – die speziellen messtheoretischen Implikatio-
Fragestellungen (vgl. auch Bastine & Tuschen, nen, die mit der Erfassung von Veränderungen
1996): des interessierenden Merkmals (Beschwerden,
1. Auf die Definition und Identifikation psy- Störungen oder Symptome) im Rahmen ei-
chischer Störungen und Probleme, d. h. auf ner modifikatorischen Intervention verbunden
die Gewinnung von Information zur Z1- sind, berücksichtigt werden. – Drittens be-
Hypothese. steht die Notwendigkeit, einerseits sehr dif-
2. Auf die Feststellung der Entstehungsbedin- ferenzierte und spezifische, andererseits aber
gungen dieser Probleme und Störungen, al- auch weniger eindeutig definierte Störungen
so auf Hypothesen zu den Bedingungen von diagnostisch zu erfassen. Die klinische For-
Z1. schung und Praxis der letzten Jahre ist durch
3. Auf die Vorhersage des künftigen Entwick- eine zunehmende Ausdifferenzierung sehr un-
lungsverlaufs einer Störung bzw. eines Pro- terschiedlicher Störungen (z. B. Lernstörun-
blems, insbesondere auch im Hinblick auf gen, Panikattacken), für die jeweils spezifische
den Einfluss, den eine modifikatorische In- Diagnoseinstrumente zu entwickeln waren, ge-
tervention auf den problematischen Ein- kennzeichnet. Diesen Störungen stehen aber
gangszustand (Z1) im Sinne einer Verän- nach wie vor weniger klar definierte Störun-
derung in Richtung eines erwünschten Ziel- gen gegenüber (z. B. Selbstwertprobleme), die
zustands (Z2) haben könnte. Diese prognos- in der Regel nicht über spezifische Verfahren
tische Funktion bezieht sich also auf Hypo- diagnostiziert werden, sondern mit Hilfe all-
thesen zu Z2 und zum Weg dorthin. gemeinerer Instrumente, wie wir sie z. T. in
4. Auf die Evaluation einer psychologischen vorangegangenen Kapiteln kennengelernt ha-
Behandlung, also auf die Prüfung, ob eine ben.
modifikatorische Intervention mit den for-
mulierten Hypothesen konkordant verläuft
(Verlaufskontrolle), und ob das Zielkriteri- 15.2.2 Systematisierung
um erreicht wurde (Erfolgskontrolle; siehe
I Abb. 7.2, S. 194). Klinisch-diagnostische Ansätze lassen sich
nach einer Reihe von Gesichtspunkten ordnen
Bei der Verfolgung dieser Ziele muss die kli- (vgl. auch Bastine & Tuschen, 1996): (1) der
nische Diagnostik besonders drei Sachverhal- zeitliche Rahmen, auf den sich die Verfahren
te berücksichtigen (vgl. Bastine & Tuschen, beziehen; (2) die Art der Daten, die mit die-
1996): Erstens müssen normative Aspekte ein- sen Verfahren erfasst werden; (3) die Frage,
bezogen werden, also die Tatsache, dass die ob der diagnostische Ansatz der Identifikation

460
15.2 Klinisch-psychologische Diagnostik

und Beschreibung oder der Klassifikation von Zielsetzungen und Erwartungen, von denen
Störungen dient. angenommen wird, dass sie einen wesentli-
chen Einfluss auf die Steuerung des aktuel-
Unter dem Gesichtspunkt des zeitlichen Rah- len Verhaltens haben (vgl. Brunstein & Maier,
mens stehen natürlicherweise Methoden zur 1996). So hängt beispielsweise die Ausübung
Erhebung der gegenwärtigen psychosozialen eines gesundheitsförderlichen Verhaltens (z. B.
Situation des Klienten im Vordergrund. Hier- Bewegung) bzw. die Unterlassung eines Risi-
zu gehören alle Verfahren zur Erfassung von koverhaltens (z. B. Rauchen) wesentlich von
Merkmalen wie Angst, Depression u. Ä., und der Hierarchie persönlicher Ziele ab. Auch die
zwar sowohl als überdauernde Disposition Erfassung der vom Klienten erwünschten Er-
(Trait) wie auch als aktueller Zustand (State; gebnisse einer Behandlung (im Sinne der Be-
I Kap. 10). Integriert werden verschiedene stimmung von Z2) gehört in den Bereich zu-
dieser Merkmale in Form von Beschwerdelis- kunftsorientierter Diagnostik.
ten oder Befindlichkeitsskalen. Daneben exis-
tiert eine Vielzahl speziellerer Instrumente, Mit Hilfe klinisch-diagnostischer Ansätze kön-
z. B. zur Erfassung von Stress- oder Krank- nen Daten erhoben werden, die den bereits
heitsbewältigung, erlebter sozialer Unterstüt- dargestellten Ebenen der L-, Q-, T- sowie
zung oder Familienbeziehungen, die sich z. T. Fähigkeits- und Leistungsdaten zugeordnet
auch auf sehr eingegrenzte Bereiche bezie- werden können. Dabei muss ein bestimm-
hen, beispielsweise die Protokollierung von tes Verfahren keineswegs nur Daten einer
Schmerzen mittels sog. Schmerztagebücher Ebene liefern. So lassen sich, wie erwähnt
oder die Erhebung von Essstörungen. (I Kap. 8), mit Hilfe des klinischen Inter-
views Selbstauskünfte (Q-Daten) wie auch
Vergangenheitsbezogene Ansätze dienen der Beobachtungsdaten (L-Daten) erheben. Auch
Erhebung von Entstehungsgeschichte und die Durchführung von Fähigkeitstests liefert
-verlauf einer Störung. Hierzu gehören bio- – gerade bei klinischen Fragestellungen (z. B.
graphieorientierte Verfahren, in denen es Lernstörungen) – nicht nur Fähigkeits- oder
um die Lebensgeschichte des Klienten geht, Leistungsdaten, sondern auch relevante In-
die Anamnese, die sich auf die Entwick- formation aus der Verhaltensbeobachtung (L-
lungsgeschichte eines Problems konzentriert Daten; zu Methoden des Verhaltensbeobach-
(I Kap. 8), sowie die Erfassung kritischer Le- tung I Kap. 9).
bensereignisse. Soweit die erhobenen Daten
– was in der Regel der Fall sein wird – aus Die Erhebung von T-Daten beschränkte sich
Selbstberichten des Klienten stammen, muss lange Zeit auf die Darbietung (inzwischen
mit bestimmten Verzerrungstendenzen gerech- weitgehend obsolet gewordener) projekti-
net werden, die u. a. aus dem aktuellen Zu- ver Verfahren oder (für den praktischen
stand des Klienten herrühren. So wird etwa ei- Einsatz wenig geeigneter) objektiver Tests
ne Person ihre Lebensgeschichte unterschied- (I Kap. 11). Inzwischen hat sich das Bild
lich rekonstruieren und berichten, je nachdem, aber durch die Entwicklung von Verfahren,
ob sie sich aktuell in einem depressiven Zu- die an der experimentellen Kognitionsfor-
stand befindet oder nicht (I Kap. 10). schung orientiert sind, sowie durch den ver-
stärkten Einsatz von neuro- und psychophy-
Zukunftsorientierte Verfahren gewinnen in zu- siologischen Methoden in der klinischen Pra-
nehmendem Maße an Bedeutung, und zwar xis deutlich zum Positiven gewandelt. Bei den
noch stärker in der Gesundheitspsychologie kognitiv-experimentellen Verfahren sei beson-
als in der Klinischen Psychologie. Im Zen- ders auf den Impliziten Assoziationstest (IAT)
trum steht dabei die Erhebung persönlicher sowie den Stroop-Test verwiesen. (Für eine

461
15 Klinische und gesundheitspsychologische Diagnostik

ausführlicherer Beschreibung dieser Ansätze wir den Schwerpunkt auf die Erfassung abge-
I Kap. 11.) grenzter, eindeutig definierter Störungen, zu
denen wir allerdings nur jeweils einige aus-
Die einzelnen diagnostischen Methoden in der gewählte diagnostische Verfahren vorstellen.
Klinischen Psychologie (etwa ein klinisches (Zu umfassenderen Dokumentationen klinisch-
Interview oder eine Befindlichkeitsskala) die- psychologischer Diagnoseinstrumente siehe
nen natürlich in jedem Fall der Identifikation insbesondere Brähler, Holling, Leutner & Pe-
einer psychischen Störung. Die Frage ist nur, termann, 2002; Brähler, Schumacher & Strauß,
wie mit den erhobenen Daten weiterverfahren 2003; CIPS, 2005; Röhrle, Caspar & Schlott-
wird. Im Sinne des handlungstheoretischen ke, 2008; Schumacher, Klaiberg & Brähler,
Modells von Kaminski (1970) können die Da- 2003.) Bei den weniger eindeutig bestimmten
ten dazu dienen, Hypothesen zu überprüfen, Störungen verweisen wir auch auf Instrumen-
die der Praktiker auf der Grundlage seines te, die bereits in den einschlägigen Kapiteln
psychologischen Wissens (aus den Speichern des Teils IV ausführlicher vorgestellt worden
Bedingungs- und Änderungswissen) formu- waren. Bei der Abfolge der Darstellung folgen
liert hat (I Kap. 7). So könnte der Psycholo- wir der Systematik, die in diesem Teil vorge-
ge etwa bei einem Kind mit Schulproblemen geben wurde, wir differenzieren also nach In-
die Hypothese aufgestellt haben, dass es sich terview, L-, Q- und T-Daten (einschließlich
hier um ein erworbenes Vermeidungsverhalten fähigkeits- und leistungsorientierter Verfah-
handelt. Wenn diese Hypothese durch weitere, ren). Im Anschluss daran stellen wir dann Sys-
gezielt gesuchte, Daten gestützt wird, so kann teme zur Klassifikation psychischer Störungen
er darauf seine Behandlung aufbauen. vor.
Die, insbesondere durch klinische Interviews
gewonnenen, Daten können jedoch auch ge-
nutzt werden, um den Klienten in eine feste, 15.2.3 Das klinische Interview
von außen durch ein etabliertes Klassifikati-
onssystem von Störungen vorgegebene, Ka- Eine wichtige diagnostische Methode ist das
tegorie einzuordnen. Die Kategorien derarti- klinische Interview. Grundstruktur und Ziel-
ger Systeme, die später noch genauer vorge- setzung dieser Methode hatten wir bereits
stellt werden, sind gewollt theorielos, d. h. oh- kennengelernt (I Kap. 8). Das klinische In-
ne Rückgriff auf ein Bedingungswissen auf- terview befasst sich mit der Vorgeschichte
gestellt worden und werden durch die Anga- des konkreten Problems (Anamnese) oder der
be operationaler Kriterien (welches Merkmal Krankheitsgeschichte des Klienten, es nimmt
muss bzw. darf nicht vorliegen) präzise be- Bezug auf die Biographie und die Lebensver-
stimmt. Auch die anschließende Behandlung hältnisse des Klienten, fragt nach kritischen
richtet sich nach dem zu einer bestimmten Ka- Lebensereignissen sowie Gefühlen und Kogni-
tegorie jeweils vorliegenden Änderungswis- tionen in Bezug auf diese Ereignisse, erkundet
sen und nicht nach den spezifischen Hypo- die Therapiemotivation und die Therapiezie-
thesen, die der Praktiker selbst auf der Basis le des Klienten und spricht schließlich dessen
seiner grundwissenschaftlich orientierten Erar- Erwartungen an die Behandlung und den The-
beitung des vorliegenden Problems aufgestellt rapeuten an.
hat.
In I Kap. 8 war dargelegt worden, dass im
Im Folgenden wollen wir zunächst Verfah- Sinne einer hypothesengeleiteten Planung der
ren zur Identifikation und Beschreibung einer Beschaffung diagnostischer Daten einem un-
psychischen Störung vorstellen. Dabei legen strukturierten (an der jeweiligen Auswertung

462
15.2 Klinisch-psychologische Diagnostik

der bisher erhaltenen Antworten orientierten) großen Klassifikationssysteme für psychische


Vorgehen im Gespräch der Vorzug vor der An- Störungen liefern sollen, dem Diagnostic and
wendung eines vorstrukturierten Fragesche- Statistical Manual of Mental Disorders (DSM;
matismus zu geben ist. Gleichzeitig war aller- aktuelle Versionen: DSM-IV-TR und DSM-5;
dings auch auf die mangelnde psychometri- APA, 2000, 2013) oder der International Stati-
sche Qualität unstrukturierter Interviews hin- stical Classification of Diseases (ICD; aktuelle
gewiesen worden. Deshalb sind die meisten Version: ICD-10; WHO, 1993a). Im Grenz-
der derzeit in der klinischen Praxis durchge- bereich von Interview und Fremdbeurteilung
führten Interviews halb- oder vollstrukturiert. stehen die Checklisten. Auch diese dienen der
Erfassung von Störungen, die meist nach den
Inhalte des klinischen Interviews Kriterien etablierter Klassifikationssysteme, in
der Regel des DSM oder der ICD, definiert
• Vorgeschichte des Problems wurden. Als Informationsquellen für Einord-
• Krankengeschichte des Klienten nungen auf derartigen Checklisten dienen Da-
• Biographie und Lebensverhältnisse ten aus Patientengesprächen und Interviews,
Verhaltensbeobachtungen oder Angaben Drit-
• Kritische Lebensereignisse
ter. I Tab. 15.1 gibt eine Übersicht über eini-
• Gefühle und Kognitionen in Bezug auf ge halb- und vollstrukturierte Interviews für
kritische Lebensereignisse Erwachsene. (Für eine Übersicht über diese
• Therapiemotivation und Therapieziele Erhebungsverfahren vgl. auch Strauß & Schu-
• Erwartungen an die Behandlung macher, 2005.)
• Erwartungen an den Therapeuten

15.2.4 Klinische Diagnostik auf


Eines der ersten strukturierten Interviews war
das bereits in I Kap. 8 beschriebene Pre- der Basis von L-Daten
sent State Examination (PSE; Wing et al.,
1974; deutsche Bearbeitung durch von Cra- Wie bereits dargestellt (I Kap. 9), stammen
nach, 1978). Klinische Interviews lassen sich L-Daten aus zwei Quellen: objektiven Lebens-
danach unterscheiden, ob sie einen weiten Be- daten (wozu auch bisher erlittene Krankhei-
reich von Störungsbildern erkunden (wie z. B. ten gehören) und Fremdbeobachtungen bzw.
im PSE, in dem aus 140 erfragten Symptomen -beurteilungen. In der klinischen Diagnostik in-
Information zu 38 Störungsbildern gewonnen teressiert vor allem diese zweite Datenquelle.
werden kann) oder sich auf eine einzelne Stö- In der Praxis wird die Methode der Verhaltens-
rung konzentrieren (wie z. B. im Strukturier- beobachtung so gut wie nie allein verwendet,
ten Tinnitus-Interview von Goebel & Hiller, sondern meistens mit einer Exploration kom-
2001). Sie lassen sich ferner danach differen- biniert. In dieser Kombination dient sie vor
zieren, ob sie sich eher an Erwachsene oder allem zwei Zielsetzungen: Erstens der Gewin-
Kinder und Jugendliche (bzw. deren Eltern) nung von Information zur Beantwortung von
wenden. Schließlich kann man strukturierte Checklisten. Wir können hier von einer psy-
Interviews noch einmal danach unterscheiden, chiatrischen Orientierung sprechen. Zweitens
ob sie sich an herkömmlichen (meist auf vor- der Diagnostik der Auftretenshäufigkeit pro-
theoretischen psychiatrischen Konzepten ba- blematischen Verhaltens sowie der Registrie-
sierenden) Einordnungen von Störungsbildern rung funktionaler Zusammenhänge zwischen
orientieren oder Information für diagnostische antezedenten Bedingungen, problematischen
Entscheidungen im Rahmen eines der beiden Merkmalen und Konsequenzen im Rahmen

463
15 Klinische und gesundheitspsychologische Diagnostik

Tab. 15.1 Ausgewählte deutschsprachige klinische Interviews für Erwachsene

Kurzname Beschreibung
AMDP Arbeitsgemeinschaft für Methodik und Dokumentation in der Psychiatrie
(AMDP, 2007). Auf Fremdbeurteilung beruhende Dokumentation
anamnestischer Daten sowie psychopathologischer und somatischer
Symptome.
DIA-X/M-CIDI Composite International Diagnostic Interview (Wittchen & Pfister, 1997).
Modulares System mit drei Komponenten: Screening, standardisiertes
Interview (CIDI), computergestütztes Diagnoseverfahren.
IPDE International Personality Disorder Examination (Loranger & WHO, 1996;
deutsch: Mombour et al., 1996). Strukturiertes Interview nach den Kriterien
des ICD-10 und DSM-IV.
IRAOS Interview für die retrospektive Erfassung des Erkrankungsbeginns und
-verlaufs bei Schizophrenie und anderen Psychosen (Häfner, Löffler,
Maurer, Riecher-Rössler & Stein, 1999). Halbstrukturiertes Interview;
Befragung von Patienten, Angehörigen und Klinikpersonal.
SKID Strukturiertes Klinisches Interview für DSM-IV (Wittchen, Zaudig & Fydrich,
1997). Halbstrukturiertes Interview zur Erfassung von Achse I- und
Achse II-Störungen nach den Kriterien des DSM-IV.

einer modifikatorischen Intervention (verhal- 2011). Das DIPS orientiert sich an den Kate-
tenstherapeutische Orientierung). gorien des DSM-IV-TR. Weitere strukturierte
klinische Interviews sind in I Tab. 15.1 zu-
Ein Beispiel für eine kombinierte Vorgehens-
sammengestellt.
weise mit psychiatrischer Orientierung ist die
Internationale Diagnosen Checkliste für Per-
Bei Checklisten werden sowohl Exploration
sönlichkeitsstörungen (IDCL-P; Bronisch, Hil-
als auch Beobachtung in der Regel nicht sys-
ler, Mombour & Zaudig, 1995). Mit Hilfe der
tematisch, d. h. einer verbindlichen Struktur
IDCL-P sollen Persönlichkeitsstörungen nach
folgend, durchgeführt. Häufig kann man nicht
den Definitionen des DSM-IV oder der ICD-
einmal von Exploration oder Beobachtung
10 erfasst werden. Grundlage für die Einord-
sprechen, sondern es werden lediglich Daten
nung in entsprechende Kategorien sind Verhal-
aus Fremdbeurteilungen (Ärzte, Psychologen,
tensbeobachtungen, Information aus der Ex-
Pflegepersonal oder Angehörige) zur Beant-
ploration und evtl. Angaben Dritter. Die Daten
wortung der Checkliste herangezogen.
werden dann nach Kriterien, die direkt aus
den entsprechenden Definitionen der beiden
Deutlich anders ist die Situation in der ver-
genannten Klassifikationssysteme abgeleitet
haltenstherapeutisch orientierten Diagnostik.
wurden, zur Diagnose einer entsprechenden
Hier finden sich alle Grade der Systematisie-
Störung verwendet.
rung, wobei allerdings die systematische Ver-
Im Gegensatz zu Checklisten erfordert die haltensbeobachtung mit ihrer Festlegung der
Durchführung klinischer Interviews mehr Auf- Rahmenbedingungen der Beobachtung und
wand. Ein wichtiges Verfahren ist hier das Dia- des Beobachtungssystems (I Kap. 9) als der
gnostische Interview bei psychischen Störun- beste Weg angesehen wird, um im Prozess
gen (DIPS; Schneider, In-Albon & Margraf, einer Verhaltensmodifikation relevante Infor-

464
15.2 Klinisch-psychologische Diagnostik

mation zu erhalten (vgl. Schulte & Kemmler, Verhaltens sowie nach weiteren kognitiven, af-
1974). fektiven, körperlichen oder motorischen Reak-
tionen befragen. Eine Spezialform dieser Tests
Verhaltenstherapeutisch orientierte Diagnos-
sind die Vermeidenstests, in denen der Grad
tik ist ein zentrales Beispiel für die Erweite-
der Annäherung bzw. Vermeidung angstaus-
rung der Aufgabenstellungen und Ansätze in
lösender Situationen durch den Klienten und
der modernen Diagnostik (I Kap. 1). Ging
die Stärke seiner Angstreaktionen gemessen
es in der traditionellen Diagnostik im Wesent-
werden können.
lichen um die zuverlässige Registrierung der
Unterschiede zwischen Menschen und deren Eine weitere diagnostische Methode im Rah-
Bezug auf stabile latente Persönlichkeitsmerk- men der klinischen Verhaltensbeobachtung ist
male (Hörmann, 1964), d. h. um eine am Ei- das Rollenspiel. Der Klient kann hier seine
genschaftsmodell orientierte Diagnostik (Paw- eigene Rolle in einer bestimmten kritischen
lik, 1988), so zielt die verhaltenstherapeutisch Situation spielen, z. B. in einem Prüfungsge-
orientierte Diagnostik auf die Gewinnung von spräch. Er kann auch die Rolle einer anderen
Information zur Bestimmung der Angemes- Person seiner sozialen Umgebung einnehmen
senheit und Effizienz modifikatorischer In- und schließlich Mitspieler, z. B. den Therapeu-
terventionen im Einzelfall (Diagnostik nach ten, in ihre Rollen einweisen und mit ihnen
dem Modifikationsmodell, Pawlik, 1988). Die- interagieren. In diesem Fall würde der Thera-
se Diagnostik ist nicht in erster Linie an sta- peut zugleich als teilnehmender Beobachter
bilen Persönlichkeitsmerkmalen interessiert (I Kap. 9) fungieren.
(obwohl diese im Sinne der Interaktion von
Bei der Darstellung von Gesichtspunkten zur
Person und Situation durchaus eine Rolle spie-
Systematisierung klinisch-diagnostischer An-
len können), sondern an verhaltenstheoretisch
sätze war auf einige an der experimentellen
orientierten Prozessanalysen der verhaltens-
Kognitionsforschung orientierte Verfahren hin-
auslösenden Situationsmerkmale, der in einer
gewiesen worden (z. B. IAT; Stroop-Test), mit
bestimmten Situation auftretenden Reaktionen
deren Hilfe störungsrelevante Daten erfasst
sowie der Konsequenzen dieses Verhaltens
werden können. Diese Verfahren sind für den
(Schulte, 1976).
Klienten in ihrem Messprinzip (wahrschein-
Da alle wesentlichen Merkmale der Datener- lich) nicht durchschaubar und liefern somit T-
hebungsmethode Verhaltensbeobachtung in Daten (I Kap. 11). Sozusagen eine Vorstufe
I Kap. 9 eingehend vorgestellt wurden, sol- zu diesen experimentellen Verfahren stellen
len an dieser Stelle nur einige, für die Beob- Techniken zur Diagnose störungs- und the-
achtung bei klinischen Fragestellungen rele- rapierelevanter Kognitionen dar. Hierzu ge-
vante, Spezialfälle erwähnt werden. In Verhal- hört etwa die Technik des Gedankenauflistens
tenstests wird das problematische Verhalten (thought-listing procedure; Cacioppo & Pet-
dadurch provoziert und beobachtet, dass der ty, 1981), die anschließend noch genauer be-
Klient in der Realität oder der Vorstellung eine schrieben wird. Da hier das Messprinzip für
Situation aufsucht, in der normalerweise das die meisten Probanden vermutlich durchschau-
problematische Verhalten auftritt. Es kann sich bar ist, kann man die erhaltenen Informationen
dabei um reale Alltagssituationen wie auch um nicht im engeren Sinn als T-Daten bezeichnen.
gestellte Szenarien handeln. Der Therapeut hat Von den, im nächsten Abschnitt zu behandeln-
zum einen die Möglichkeit, den Klienten in ei- den, Selbstauskünften (Q-Daten) sind sie aber
ner derartigen Situation direkt zu beobachten. ebenfalls unterschieden, und zwar durch ihre
Zum anderen kann er den Klienten aber auch geplante Einbettung in eine unter strukturier-
gezielt nach Äußerungen des problematischen ten Bedingungen ablaufende Verhaltensanaly-

465
15 Klinische und gesundheitspsychologische Diagnostik

se. Dieser Gesichtspunkt legt es nahe, sie im Gedanken, nach Kognitionen, die auf die Pro-
Zusammenhang mit Verhaltenstests zu behan- blemsituation bezogen sind bzw. sich nicht
deln. damit befassen, sowie nach dem Ausmaß des
Selbstbezugs dieser Kognitionen. Wenn die
Generell ist allen Techniken zur Erhebung Kategorien präzise bestimmt werden, so lässt
störungs- und therapierelevanter Kognitionen sich hierbei auch eine hohe Beurteilerüberein-
gemeinsam, dass sie immer auf ein konkre- stimmung erzielen. (Für ein entsprechendes
tes Ereignis bezogen sind. Zu diesem Ereignis System zur Auswertung von Gedankenauflis-
soll der Klient unter standardisierten Bedin- tungen vgl. Krohne, Pieper, Knoll & Breimer,
gungen Kognitionen produzieren, die dann in 2002). Von besonderem Interesse ist auch die
strukturierter Form (z. B. nach ihrer zeitlichen Analyse der Gedankenabfolge. So fanden etwa
Abfolge) registriert werden. Die bekanntesten Josephson, Singer und Salovey (1996), dass
Verfahren sind die Technik des Nachspielens nichtdepressive Personen auf ein negatives Er-
(cognitive rehearsal), des Gedankenauflistens eignis hin (z. B. einen Misserfolg) zunächst
(thought listing) und des lauten Denkens (für negative, dann aber im Sinne der „Stimmungs-
eine Übersicht vgl. Bastine & Tuschen, 1996). reparatur“ (mood repair; vgl. Clark & Isen,
1982) positive Gedanken auflisten. Depressive
Bei der Technik des Nachspielens wird der Kli- Personen scheinen dagegen zu dieser „Repara-
ent gebeten, eine Problemsituation so nachzu- tur“ weniger fähig zu sein, d. h. sie fahren fort,
spielen, als ob sie sich gerade ereignet. Dabei negative Gedanken zu produzieren.
kann er, je nach Instruktion, zur Produktion
Bei der Methode des lauten Denkens wird der
von Kognitionen unterschiedlicher Art aufge-
Klient aufgefordert, alle Gedanken, die ihm
fordert werden, etwa situationsbezogene Ge-
in einer aktuellen Situation (z. B. bei der Be-
danken, selbstzentrierte Kognitionen, affektive
arbeitung einer schwierigen Aufgabe) durch
Reaktionen, Empfindungen oder Berichte über
den Kopf gehen, laut zu äußern (vgl. Genest
körperliche Prozesse. Der erfragte Inhalt der
& Turk, 1981). Diese Gedanken können dann
Kognitionen richtet sich nach dem Störungs-
aufgezeichnet und anschließend nach verschie-
bild, zu dem weitere Informationen erhoben
denen Gesichtspunkten ausgewertet werden.
werden sollen.
Der Vorteil dieser Methode liegt in ihrem un-
mittelbaren Situationsbezug; ein Nachteil be-
Beim Gedankenauflisten wird der Klient auf-
steht zunächst darin, dass sie nur auf Einzel-
gefordert, in Bezug auf eine definierte Situati-
situationen, nicht aber auf soziale Interaktio-
on diejenigen Gedanken aufzulisten, die ihm
nen anwendbar ist. Eine mögliche Lösung die-
hierzu durch den Kopf gehen. Dieses Verfah-
ses Problems könnte die Technik der Videore-
ren lässt sich besonders gut standardisieren.
konstruktion (vgl. Kalbermatten, 1984) bieten.
So kann man etwa die Anzahl der aufzulisten-
Hier wird eine soziale Situation aufgezeich-
den Gedanken begrenzen (z. B. auf zehn). Man
net, und der Klient kommentiert anschließend
kann dabei die Auflistung schriftlich durchfüh-
diese Videoaufzeichnung (vgl. Bastine & Tu-
ren lassen und zudem noch die Zeitverhält-
schen, 1996).
nisse bei der Gedankenproduktion registrie-
ren. (Ein Gedanke, der sich besonders schnell Eine weitere Einsatzmöglichkeit von L-Daten
einstellt, hat u. U. eine andere diagnostische liegt in der Fremdbeurteilung des Geschehens
Bedeutung als ein Gedanke, der erst spät auf- innerhalb einer modifikatorischen Interventi-
tritt.) Diese Gedanken lassen sich dann nach on. Das Kodiersystem zur Interaktion in der
zuvor festgelegten Kategorien auswerten, et- Psychotherapie (CIP; Schindler, 1989) ist ein
wa nach positiven, negativen oder neutralen Instrument, mit dessen Hilfe das Verhalten von

466
15.2 Klinisch-psychologische Diagnostik

Therapeut und Klient systematisch erfasst wer- rameter und -ergebnis; vgl. Broda, Dahlbender,
den kann. Im CIP wird das interpersonale Ge- Schmidt, von Rad & Schors, 1993).
schehen innerhalb der Therapie über Merkma-
le beschrieben, die insbesondere in der klient-
zentrierten Gesprächstherapie (Rogers, 1973) 15.2.5 Klinische Diagnostik auf
von zentraler Bedeutung für einen erfolgrei- der Basis von Q-Daten
chen Therapieverlauf sein sollen, also etwa
„Gefühlsansprache“ und „Verständnis“ beim Die am häufigsten genutzte Quelle zur Erlan-
Therapeuten sowie „Selbstöffnung“ beim Kli- gung diagnostisch relevanter Information im
enten. Daneben existieren noch verschiedene klinischen Kontext sind die Selbstauskünfte
Nachbefragungsbogen zum Therapieverlauf. des Klienten. Bereits in den vorangegangenen
Da hier das Geschehen jedoch über Selbstaus- Abschnitten über Interviews und Beobachtung
künfte (des Klienten bzw. Therapeuten) erfasst war deutlich geworden, dass kaum eine dia-
wird, soll auf diese Verfahren im Zusammen- gnostische Vorgehensweise in der Klinischen
hang mit der Behandlung von Q-Daten einge- Psychologie auf derartige Selbstauskünfte ver-
gangen werden. zichten kann. In diesem Abschnitt sollen al-
lerdings nicht Selbstauskünfte allgemein, son-
Das Ausmaß, in dem die vor Beginn einer The- dern die Gewinnung entsprechender Daten auf
rapie festgelegten Ziele der Modifikation er- der Basis etablierter, d. h. standardisierter In-
reicht wurden, soll vom Therapeuten mittels strumente (Skalen oder Fragebogen) behandelt
der Zielerreichungsskalierung („Goal Attain- werden.
ment Scaling“, GAS; vgl. Bolm, 1994; Kire-
suk, Lund & Larsen, 1982) beurteilt werden. Verfahren zur Gewinnung von Selbstauskünf-
Generell werden zwischen drei und fünf Zie- ten lassen sich im Prinzip nach denselben Ge-
le formuliert, die sich auf den Abbau uner- sichtspunkten einteilen, die allgemein für sub-
wünschten oder den Aufbau erwünschten Ver- jektive Daten (I Kap. 10) entwickelt worden
haltens (oder beides) beziehen. Diese Ziele waren (umfassende Inventare, Skalen für ein-
müssen realistisch, d. h. nicht zu leicht oder zelne Konstrukte, Selbstbericht von Zustän-
zu schwer erreichbar sein. Experten sollten den). Dabei ergibt sich allerdings insofern eine
diese Kriterien beurteilen. Für jedes Ziel wird weitere Unterteilung, als in der klinischen Dia-
nun während und nach Ende der Therapie das gnostik innerhalb dieser Kategorien sowohl
Ausmaß der Zielerreichung eingeschätzt. Dies Instrumente mit allgemeiner Anwendung ein-
geschieht in der Regel auf einer bipolaren Ska- gesetzt werden (z. B. NEO-PI oder STADI),
la, die sich von „viel weniger als erwartet“ als auch auf Verfahren zurückgegriffen wird,
(–2), über „etwas weniger als erwartet“ (–1) die speziell für die klinische Diagnostik kon-
bis „etwas mehr als erwartet“ (+1) und „viel struiert wurden (z. B. Beschwerdelisten oder
mehr als erwartet“ (+2) erstreckt. Der Wert Befindlichkeitsskalen). Der folgende Kasten
0 wird vergeben, wenn das Ziel wie erwar- zeigt eine Übersicht.
tet erreicht wurde. Es wird empfohlen, zum
Zwecke der Qualitätssicherung eine Follow- Selbstberichtsinstrumente in der
up-Erhebung von unabhängigen Beurteilern klinischen Diagnostik
durchführen zu lassen. Zur Qualitätssicherung
gehört schließlich auch eine sorgfältige Do- Umfassende Inventare
kumentation diagnose- und behandlungsrele- • Persönlichkeitstest
vanter Merkmale (soziodemographische Varia- • Störungsübergreifende Verfahren
blen, Anamnese, Diagnosen, Behandlungspa-

467
15 Klinische und gesundheitspsychologische Diagnostik

Einzelne Bereiche 90 Items werden neun Skalen (u. a. Somatisie-


rung, Zwanghaftigkeit, Depressivität, Ängst-
• Generelle Konstrukte lichkeit, phobische Angst) zugeordnet. Drei
• Spezielle Störungen globale Kennwerte geben darüber hinaus Aus-
Zustände kunft über die allgemeine psychische Belas-
tung und die Anzahl und Intensität der Symp-
• Allgemeine Skalen tome. Einer ähnlichen Zielsetzung dient die
• Klinisch relevante Zustände Beschwerden-Liste (B-LR, von Zerssen & Pe-
termann, 2011). Die Freiburger Beschwerden-
liste (FBL; Fahrenberg, 1994) und der Gie-
ßener Beschwerdebogen (GBB-24; Brähler
Umfassende Inventare
Hinz & Scheer, 2008) konzentrieren sich dage-
gen stärker auf körperliche oder psychosoma-
Aus dem Bereich der Persönlichkeitstests er-
tische Beschwerden. Vom GBB-24 existiert
freute sich das MMPI in der klinischen Dia-
auch eine Fassung für Kinder und Jugendliche
gnostik lange Zeit großer Beliebtheit. Wegen
(GBB-KJ; Barkmann & Brähler, 2009).
seiner zahlreichen gravierenden methodischen
Probleme, insbesondere der Konzentration auf
wenig reliable Profile, die auch in der derzeit
aktuellen Version MMPI-2 nicht behoben wur- Einzelne Bereiche
den (I Kap. 10), wird dieses Verfahren der-
zeit aber nicht mehr sehr häufig eingesetzt. An Bei der Erfassung genereller, d. h. über die
seine Stelle sind im deutschsprachigen Raum Beschreibung und Erklärung klinischer Stö-
die NEO-Inventare (NEO-PI-R und NEO-FFI) rungen hinausgehender, Konstrukte interes-
sowie das FPI-R getreten (I Kap. 10). Dabei sieren in der Klinischen Psychologie beson-
muss allerdings darauf hingewiesen werden, ders die Bereiche Angst, Ärger und Depressi-
dass derzeit nur wenige Studien zu klinisch re- on. Die einschlägigen Fragebogen hierzu wa-
levanten Fragestellungen existieren, in denen – ren bereits in den entsprechenden Abschnitten
über die unbestrittene Bedeutsamkeit der Di- des Kapitels 12 vorgestellt worden (vgl. auch
mension emotionale Labilität-Stabilität hinaus Krohne & Tausch, 2014). Während die empi-
– die Validität einzelner Haupt- oder Unterdi- rische Erfassung von Angst und Ärger auch
mensionen nachgewiesen werden konnte. außerhalb der klinischen Diagnostik eine be-
deutsame Rolle spielt, ist Depression ein The-
Störungsübergreifende Verfahren können zum ma, das vorzugsweise im klinischen Bereich
einen vergangenheitsbezogen sein und befas- behandelt wird. Dementsprechend weisen hier
sen sich dann mit der Lebensgeschichte des die meisten Tests auch eine deutlich klinische
Klienten (z. B. der Fragebogen zur Lebensge- Orientierung auf. Bekanntestes Instrument in
schichte; Zimmer & Echelmeyer, 1978), oder diesem Bereich ist das Beck Depression Inven-
sie werden gegenwartsbezogen als Symptom- tory (BDI; revidierte Form BDI-II; Beck, Steer
inventare oder Beschwerdelisten dargeboten. & Brown, 1996; deutsche Version: Hautzinger,
Subjektiv empfundene körperliche und psy- Keller & Kühner, 2006).
chische Beschwerden können mit Hilfe der
Symptom Checklist 90-R (SCL-90-R; Deroga- Das BDI ist eine aus 21 Items bestehende Ska-
tis, 1994; deutsche Version SCL-90-S, Franke, la, die kognitive (z. B. Versagensgefühle), ver-
2013) erfasst werden. Hierzu existiert auch haltensmäßige (z. B. sozialer Rückzug), affek-
eine Kurzfassung, das Brief Symptom Inven- tive (z. B. Traurigkeit) und somatische (z. B.
tory (BSI; Franke, 2000). Die Antworten zu Appetitverlust) Komponenten der Depression

468
15.2 Klinisch-psychologische Diagnostik

misst. Jedes Item umfasst vier nach ihrer Inten- & Tausch, 2014; Watson & Clark, 1984) und
sität angeordnete Feststellungen (von „nicht ein Grund für die hohen Korrelationen der Ska-
vorhanden“ bis „starke Ausprägung“), aus de- len aus beiden Bereichen. Zur besseren kon-
nen der Proband diejenige auswählen soll, die zeptuellen und operationalen Abgrenzung von
am genauesten seine Befindlichkeit während Angst und Depression haben Clark und Wat-
der letzten beiden Wochen vor der Erhebung son (1991) ein Modell mit drei Anteilen (tripar-
beschreibt. Je nach Antwort werden für jedes tite model) vorgeschlagen. Danach ist Depres-
Item 0 bis 3 Punkte vergeben. Scores unter 10 sion insbesondere durch niedrigen positiven
gelten als „normal“, Werte zwischen 10 und Affekt (Anhedonie), Angst dagegen speziell
18 sollen auf eine „milde“, zwischen 19 und durch hohe physiologische Erregung gekenn-
29 auf eine „moderate“ und über 29 auf ei- zeichnet. Diese beiden – gut unterscheidbaren
ne „schwere“ Depression verweisen. Tatsäch- – Komponenten sollen dann einem allgemei-
lich ist die Verteilung der BDI-Werte jedoch neren, nichtspezifischen, Faktor negativer Af-
schief (mit einer Konzentration der Werte im fekt untergeordnet sein. Offenbar erfassen die
„Normal“-Bereich), so dass bestenfalls Perso- meisten bisher entwickelten Angst- und De-
nen mit einer extremen Ausprägung klinischer pressionsskalen eher diesen nichtspezifischen
Symptome von Personen ohne Beschwerden Faktor als die jeweils spezifischen Komponen-
zuverlässig unterschieden werden können. Der ten.
Test ist also nur für klinische Fragestellungen,
nicht aber für die Diagnostik im nichtklini- Was die Trennung von Trait und State be-
schen Bereich geeignet. Die Reliabilität vari- trifft, so richtet sich die Instruktion der meis-
iert stark (zwischen .73 und .95), was offenbar ten Depressionsskalen auf den Selbstbericht
mit dem Anteil nichtdepressiver Personen an bestimmter Beschwerden, also – in der Regel –
der analysierten Stichprobe zusammenhängt. auf länger erstreckte Zustände. Eine systemati-
Die Stabilität liegt für ein Intervall von zwei sche statistisch gesteuerte Differenzierung von
Wochen bei .68. Dieser vergleichsweise nied- State- und Trait-Skalen bei der Konstruktion
rige Wert muss nicht notwendigerweise dem von Instrumenten zur Messung von Depres-
Instrument angelastet werden, sondern kann sion ist also, ähnlich wie bei der Konstrukti-
auch auf eine eingeschränkte Stabilität des on von Angstinventaren, wünschenswert. (Für
Merkmals verweisen. Eine weitere Skala zur erste Versuche siehe u. a. Dumenci & Windle,
Erfassung von Depression ist die Allgemeine 1996.) Eine Neuentwicklung in diesem Be-
Depressionsskala (ADS; Hautzinger, Bailer, reich, die nicht nur eine Trennung von Trait
Hofmeister & Keller, 2012). und State, sondern auch von Depression und
Angst gestattet, wurde in Kapitel 10 mit dem
Neben den erwähnten Schwächen sind die bis- STADI (Laux et al., 2013) vorgestellt.
her dargestellten Depressionsskalen insbeson-
dere durch zwei Probleme belastet: die man- Zur Diagnose spezieller Störungen existiert
gelnde Abgrenzung zu Merkmalen der Angst natürlich eine Vielzahl von Messinstrumenten.
sowie die bislang nicht systematisch betrie- An dieser Stelle sollen nur einige Bereiche mit
bene Analyse der Frage, ob mit derartigen ausgewählten Verfahren aufgeführt werden.
Skalen eher eine stabile Persönlichkeitseigen-
schaft (Trait) oder ein variabler aktueller Zu- Essstörungen (Anorexie und Bulimie) werden
stand (State) erfasst wird. Dass die meisten ein zunehmend bedeutsameres Feld für mo-
Angst- und Depressionsskalen große Überlap- difikatorische Interventionen (Jacobi, Thiel
pungen hinsichtlich ihres Iteminhalts aufwei- & Paul, 1995). Das international eingeführ-
sen, ist seit langem bekannt (vgl. u. a. Krohne te Standardverfahren zur mehrdimensionalen

469
15 Klinische und gesundheitspsychologische Diagnostik

Erfassung von Essstörungen ist das Eating Dis- Generelle Angststörungen (generalized anxie-
order Inventory (derzeit gültige deutsche Ver- ty disorder, GAD) werden im Kontext der
sion: Eating Disorder Inventory 2, EDI-2; Paul noch vorzustellenden Klassifikationssysteme
& Thiel, 2004). Die elf Skalen des EDI-2 er- (ICD-10 oder DSM-IV) behandelt. Zu den spe-
fassen Dimensionen wie Schlankheitsstreben, ziellen Angststörungen gehören etwa Panik-
Bulimie, Unzufriedenheit mit dem Körper, In- störungen, auf spezifische Objekte oder Um-
terozeptive Wahrnehmung oder Angst vor dem stände bezogene Ängste, angstbezogene Ko-
Erwachsenwerden. Speziell mit dem Verhalten gnitionen oder das Erleben von chronischem
befasst sich der Fragebogen zum Essverhalten Stress.
(FEV; Pudel & Westenhöfer, 1989).
Zur Erfassung von Panikstörungen wurde die
Ein weiterer zentraler Störungsbereich ist der Panik- und Agoraphobie-Skala (PAS; Bande-
Alkoholismus (Petry, 1996). Das Trierer Alko- low, 1997) entwickelt. Die Skala, die sowohl
holismusinventar (TAI; Funke, Funke, Klein zur Selbst- wie zur Fremdbeurteilung einge-
& Scheller, 1987) zielt speziell auf die Gewin- setzt werden kann, umfasst die fünf Bereiche
nung behandlungsrelevanter Information bei Panikattacken, agoraphobe Vermeidung, anti-
alkoholabhängigen Personen. In sieben Ska- zipatorische Angst, Einschränkung im tägli-
len werden Auslöser und Konsequenzen ex- chem Leben sowie Gesundheitssorgen. Aller-
zessiven Alkoholkonsums erhoben, z. B. Ver- dings werden diese Bereiche nur durch jeweils
lust der Verhaltenskontrolle, Soziales Trinken, zwei bis drei Items operationalisiert, so dass
Süchtiges Trinken oder Partnerprobleme (als die PAS eher einem Furchtinventar als einer
Ursache wie auch Folge des Trinkens). Der mehrdimensionalen Skala ähnelt. Furchtinven-
Münchner Alkoholismus-Test (MALT; Feuer- tare werden in der Verhaltenstherapie einge-
lein, Küfner, Ringer & Antons-Volmerg, 1999) setzt, um im Sinne eines Screenings Personen
dient dagegen eher der Diagnose alkoholge- zu identifizieren, die mit sehr starker (phobi-
fährdeter Personen. Er enthält deshalb einen scher) Angst auf bestimmte Objekte oder Si-
Selbstbeurteilungsteil (MALT-S) und einen tuationen reagieren. Ein bekanntes Furchtin-
Fremdbeurteilungsteil für Psychologen oder ventar ist die Fear Survey Schedule II (FFS II;
Ärzte (MALT-F). Geer, 1965).
Denk- und Handlungszwänge spielen spezi- Eng verbunden mit der Auslösung von Pa-
ell im Bereich neurotischer Störungen eine nikattacken ist offenbar eine verstärkte Wahr-
wesentliche Rolle. Ihrer Diagnose dient das nehmung bestimmter körperinterner Vorgänge
Hamburger Zwangsinventar (HZI; Zaworka, (z. B. einer erhöhten Herzrate). Diese werden
Hand, Jauernig & Lünenschloß, 1983; Kurz- bei entsprechend disponierten Personen als
form HZI-K von Klepsch, Zaworka, Hand, Lü- Vorboten schwerer körperlicher Beeinträch-
nenschloß & Jauernig, 1993). Das HZI besteht tigungen (z. B. eines Herzanfalls) angesehen
aus sechs, sich auf spezielle Zwänge beziehen-und entsprechend mit verstärkter Angst be-
de Subskalen, u. a. Kontrollhandlungen, Wa- antwortet (vgl. Ehlers & Breuer, 1992). Die-
schen, Ordnen oder zwanghafte Vorstellungen. ser Prozess kann von körperlichen Vorgängen
auf die Wahrnehmung angstbezogener Emotio-
Neben allgemeiner oder bereichsspezifischer nen generalisieren und damit zu einer „Angst
Angst, wie sie etwa mit Hilfe des STADI oder vor der Angst“ bzw. Angstsensitivität (Reiss,
des IAF erfasst werden können, spielen in der 1991) führen.
Klinischen Psychologie auch generelle und
spezielle Angststörungen eine wichtige Rolle Zur Erfassung dieser Sensitivität konstruierten
(Übersicht in Hoyer, Helbig & Margraf, 2005). McNally und Kollegen den Anxiety Sensiti-

470
15.2 Klinisch-psychologische Diagnostik

vity Index (ASI; vgl. McNally, 1990, 1996; Skalen Negative Selbstbewertung, Abhängig-
Peterson & Reiss, 1992). Zinbarg, Barlow und keit, Internalisierung von Misserfolg sowie Ir-
Brown (1997) analysierten die 16 Items dieses ritierbarkeit.
Fragebogens und fanden eine hierarchische
Struktur. Unterhalb eines allgemeinen Faktors Eine wesentliche Quelle für psychische und
Angstsensitivität lassen sich drei Komponen- physische Erkrankungen sind belastende Um-
ten identifizieren: Körperliche Besorgnis („Esstände (Stressoren), denen Personen über län-
macht mir Angst, wenn ich starkes Herzklop- gere Zeit ausgesetzt sind. Die von Holmes und
fen verspüre“), soziale Besorgnis („Es ist mirRahe (1967) entwickelte Social Readjustment
wichtig, nicht nervös zu erscheinen“) und Sor-Rating Scale (SRRS) zielt auf die Registrie-
gen über mentale Beeinträchtigung („Wenn rung derartiger Stressoren. Die SRRS besteht
aus 43 Items, die sich auf einen weiten Bereich
ich nervös bin, befürchte ich, dass ich seelisch
krank sein könnte“). Patienten, die unter Pa- persönlicher (z. B. Pensionierung), familiärer
nikstörungen leiden, weisen besonders hohe (z. B. Ehestreitigkeiten) oder beruflicher Er-
Werte bei körperlicher Besorgnis auf. Patien- eignisse (z. B. Entlassung) beziehen und nach
ten mit sozialen Phobien haben dagegen eine dem Ausmaß ihres Einflusses auf das tägli-
stärkere soziale Besorgnis, während generelle che Leben gewichtet werden. Jedem Item ist
Angststörungen (GAD) mit einer allgemein er- ein Gewicht zugeordnet, das auf Antworten ei-
höhten Angstsensitivität assoziiert sind. Einener Normstichprobe basiert, die jedes kritische
auf 36 Items erweiterte Version, der ASI-R, Lebensereignis nach dem Ausmaß seiner rela-
wurde von Taylor und Cox (1998) vorgelegt tiven Intensität sowie der vom Betroffenen ge-
(deutsche Version: Kemper, Lutz, Bähr, Rüd- forderten sozialen Reorientierung eingeschätzt
del & Hock, 2012; Kemper, Ziegler & Taylor, hatte. Die Gewichte aller vom Klienten positiv
2009). beantworteten Ereignisse werden aufaddiert
und ergeben so den Wert für Gesamtbelastung
Eine ähnliche Zielsetzung wie der ASI verfol- durch Stressoren.
gen die von Chambless und Mitarbeitern kon- Die Skala war in den ersten Jahren nach ih-
struierten Skalen (Chambless, Caputo, Bright rer Veröffentlichung sehr populär, wird aber
& Gallagher, 1984). Im deutschsprachigen heute nur noch selten eingesetzt. Neben der
Raum fasst der Fragebogen zu körperbezo- Kritik an der eindimensionalen Konzeption
genen Ängsten, Kognitionen und Vermeidung des Konstruktes „kritische Lebensereignisse“
(AKV; Ehlers, Margraf & Chambless, 2001) wurde insbesondere die fehlende Situationsbe-
diese Skalen zu einem Inventar zusammen. wertung durch die jeweils betroffene Person
Die Items des AKV dienen der Identifizierung bemängelt. Ein Ereignis wie etwa „Scheidung“
interner Angstauslöser, zentraler Befürchtun- erhält ein bestimmtes Stressgewicht, obwohl
gen und darauf aufbauenden Vermeidensver- die einzelnen Betroffenen dieses in sehr unter-
haltens. schiedlichem Maße als Stressor erleben kön-
nen.
Körperbezogene Befürchtungen können auch
als irrationale Kognitionen bezeichnet wer- Das Trierer Inventar zum chronischen Stress
den. Die Modifikation derartiger Kognitionen (TICS; Schulz, Schlotz & Becker, 2004) hat
spielt in der kognitiven Verhaltenstherapie ei- die Idee kritischer Lebensereignisse weiter-
ne wichtige Rolle. Diagnostisch erfassen las- entwickelt hin zur Erfassung erlebter länger
sen sie sich u. a. mit dem Fragebogen Irratio- erstreckter (chronischer) Belastungen. Es ver-
naler Einstellungen (FIE; Klages, 1989). Der folgt dabei einen mehrdimensionalen Ansatz
FIE misst derartige Einstellungen über die vier und differenziert chronischen Stress nach zehn

471
15 Klinische und gesundheitspsychologische Diagnostik

Dimensionen (u. a. Arbeitsüberlastung, Sozia- 1999). Die Bewältigung spezieller belastender


le Überlastung, Soziale Spannungen oder So- Lebensumstände wie etwa Erkrankung oder
ziale Isolation). Eine separate Screening-Skala Behinderung ist eher ein Thema der Gesund-
soll ein Globalmaß für erlebten Stress liefern. heitspsychologie und wird deshalb dort behan-
delt.
Eine Hauptgruppe innerhalb der länger anhal-
tenden Belastungen sind familiäre Probleme, Am Merkmal soziale Unterstützung werden
insbesondere Schwierigkeiten in der Partner- verschiedene Typen unterschieden. Eine allge-
schaft. Der Fragebogen zur Partnerschaftsdia- mein akzeptierte Klassifikation (Thoits, 1985)
gnostik (FPD; Hahlweg, 1996) dient der Erfas- differenziert nach emotionaler Unterstützung
sung derartige Probleme für Fragen der Bera- (die verbale und nonverbale Übermittlung von
tung (Ehe- und Lebensberatung) oder Modi- Anteilnahme und Hilfsbereitschaft), informa-
fikation (Ehetherapie). Er besteht aus drei In- tioneller Unterstützung (die Verbesserung des
strumenten: einem Partnerschaftsfragebogen Kontrollerlebens einer Person durch Informie-
zur Bestimmung der partnerschaftlichen Quali- ren über Möglichkeiten, wie mit einem belas-
tät, einer Problemliste zur Erfassung von Kon- tenden Umstand umgegangen werden kann)
fliktbereichen in der Partnerschaft sowie ei- sowie instrumenteller Unterstützung (die Be-
nem Fragebogen zur Anamnese. reitstellung von Dienstleistungen und materi-
ellen Gütern). Bei der Erfassung dieser Aspek-
Die Paarklimaskalen (PKS) von Schneewind te interessiert insbesondere das Erleben des
und Kruse (2002) zielen auf die Diagnose der Empfängers, also die wahrgenommene bzw.
gesamten Partnerbeziehung, wobei Konflikte antizipierte Unterstützung aus dem sozialen
nur eine Unterkategorie bilden. In der Lang- Umfeld.
form wird die Paarbeziehung über 54 Items auf
neun Primärskalen bestimmt (u. a. Zusammen- Der Fragebogen zur sozialen Unterstützung
halt, Offenheit, Konfliktneigung, Selbststän- (F-SozU; Fydrich, Sommer & Brähler, 2007)
digkeit oder Kontrolle). Eine Kurzform misst erfasst mit 54 Items Ausprägungen auf den
über 24 Items die Ausprägung auf drei fak- Dimensionen Emotionale Unterstützung, Prak-
toriell bestimmten Sekundärskalen: Verbun- tische Unterstützung, Soziale Integration, Be-
denheit, Unabhängigkeit sowie Anregung und lastung aus dem sozialen Netzwerk, Rezipro-
Aktivität. Ein weiteres Instrument zur Paardia- zität, Verfügbarkeit einer Vertrauensperson so-
gnostik ist der bereits beschriebene Gießen- wie Zufriedenheit mit sozialer Unterstützung.
Test (GT-PAAR; Brähler & Brähler, 1993; Außerdem stehen zwei faktorenanalytisch be-
I Kap. 10). stimmte Kurzskalen mit 14 bzw. 22 Items zur
Verfügung.
Neben der Erfassung von Störungsbildern ist
es für die Planung einer modifikatorischen In- Wichtig für die Planung einer modifikatori-
tervention auch wichtig, protektive Faktoren schen Intervention könnte auch die Erfassung
zu identifizieren. Hierzu gehören vor allem der Therapiemotivation des Patienten sein. Der
individuelle Formen der Stressbewältigung so- Fragebogen zur Messung der Psychotherapie-
wie das Vorhandensein sozialer Unterstützung. motivation (FMP; Schneider, Basler & Bei-
Subjektive Verfahren zur Messung verschiede- senherz, 1989) unterscheidet zwischen Krank-
ner Formen der Stressbewältigung waren be- heitserleben als affektiver und Krankheitsver-
reits an anderer Stelle (I Kap. 10) besprochen arbeitung als kognitiver Komponente dieser
worden. Verwiesen sei hier auf den SVF (Jan- Motivation. Diese Merkmale werden über vier
ke et al. , 2002), den UBV (Reicherts & Per- Subskalen operationalisiert: Krankheitserle-
rez, 1993) sowie das ABI (Krohne & Egloff, ben (Leidensdruck und Krankheitsgewinn) so-

472
15.2 Klinisch-psychologische Diagnostik

wie drei (kognitive) Dimensionen der Krank- Zum anderen ist die Feststellung der Verän-
heitsverarbeitung (Laienätiologie, allgemeine derung von Zuständen natürlich von zentraler
Behandlungserwartungen und -einstellungen, Bedeutung für die Abschätzung des Therapie-
Erfahrungen mit psychotherapeutischen Be- verlaufs und -erfolgs, d. h. zur Beantwortung
handlungsmodellen). der Frage, ob eine Modifikation im Hinblick
auf das Erreichen von Zwischen- und Endzie-
Die bisher vorgestellten Verfahren sind für Er- len wie geplant verläuft.
wachsene konzipiert (evtl. noch für Jugend-
liche ab ca. 16 Jahren). Viele der genannten Die Zustandskonstrukte, die über die im ent-
Merkmale spielen jedoch auch bei Kindern sprechenden Abschnitt des Kapitels 12 be-
eine Rolle. Für ihre Erfassung müssen in der schriebenen allgemeinen (d. h. nicht speziell
Regel Instrumente eingesetzt werden, die spe- für die Zwecke der modifikatorischen Praxis
ziell für diese Altersgruppe konstruiert und konstruierten) Skalen (z. B. die PANAS) ope-
normiert wurden. Dabei sind auch Tests von rationalisiert werden, stehen nicht eigentlich
Bedeutung, in denen Bezugspersonen (Eltern, im Zentrum der klinischen Diagnostik. Als
Verwandte, Erzieher) bestimmte kindbezogene zeitlich relativ kurz erstreckte Zustände inter-
Merkmale einschätzen. Obwohl es sich hier essieren sie, wie erwähnt, bestenfalls bei der
häufig nicht um Selbstberichte, sondern um taktischen Planung der Datenerhebung (evtl.
Fremdbeurteilungen (L-Daten) handelt, sollen auch für bestimmte Aspekte der Therapiepla-
einschlägige Verfahren zusammenfassend in nung). Zentrale Aufgabe der Klinischen Psy-
diesem Abschnitt aufgeführt werden. I Über- chologie ist ja die Veränderung von Beschwer-
sicht 15.1 führt klinisch relevante Testverfah- den, Störungen und Symptomen sowie – als
ren für Kinder und Jugendliche auf. Ursache oder Konsequenz dieser Merkmale
– Einstellungen und Verhalten. Hier handelt
es sich um vergleichsweise lang erstreckte
Zustände chronische (z. B. Depression oder bestimmte
Schmerzen) bzw. intermittierend auftretende
Die Erfassung von Zuständen (unterschiedli- (z. B. Panikattacken) Zustände. Deshalb kon-
cher zeitlicher Erstreckung) spielt in der kli- zentriert sich die Diagnostik von Zuständen
nischen Praxis in zweifacher Hinsicht eine auch auf derartige klinisch relevante Merkma-
wichtige Rolle. Zum einen kann sie im Sinne le.
des Diagnostikmodells von Kaminski (1970; Zur Registrierung von Veränderungen psycho-
I Kap. 7) bereits bei der taktischen Planung physischer Merkmale im zeitlichen Verlauf
der Datenerhebung innerhalb der sog. „dia- stehen im Prinzip drei Wege offen: der Prä-
gnostischen Schleife“ gefordert sein, wenn der Post-Vergleich, die Messung von Verläufen
Diagnostiker den Eindruck hat, dass ein be- sowie die Erhebung der erlebten Veränderung
stimmter Zustand des Klienten (z. B. eine stark (als Selbstbericht des Klienten oder als Fremd-
erhöhte Angst) der Gewinnung wichtiger Da- bericht, z. B. von Eltern über ihr Kind).
ten (etwa aus der Lebensgeschichte) im Wege
steht. Der Praktiker muss in diesem Fall einen Zur Registrierung von Veränderungen über
derartigen Zustand diagnostizieren und sodann den Weg des Prä-Post-Vergleichs wird in der
abschätzen, inwieweit dieser seine eigentliche Regel ein Differenzscore gebildet, indem von
diagnostische Zielsetzung gefährdet. Gegebe- der Ausprägung eines Merkmals am Ende der
nenfalls muss er dann bereits innerhalb der Therapie der Wert für dasselbe Merkmal zu
diagnostischen Schleife eine Änderung dieses Therapiebeginn abgezogen wird. Dieser An-
Zustands versuchen. satz wird in der Klinischen Psychologie be-

473
15 Klinische und gesundheitspsychologische Diagnostik

Übersicht 15.1 Fragebogen und Interviews für Kinder und Jugendliche

Bereichsübergreifend, Erhebung beim Kind


SPS-J-II (RAASI) Screening psychischer Störungen im Jugendalter (Hampel & Petermann,
2012)
Kinder-DIPS Diagnostisches Interview bei psychischen Störungen im Kindes- und
Jugendalter (Unnewehr, Schneider & Margraf, 2009)1
Bereichsspezifisch, Erhebung beim Kind
DIKJ Depressionsinventar für Kinder und Jugendliche (Stiensmeier-Pelster,
Braune-Krickau, Schürmann & Duda, 2014)
DTK Depressionstest für Kinder (Rossmann, 2005)
SSKJ 3-8 Fragebogen zur Erhebung von Stress und Stressbewältigung im Kindes- und
Jugendalter (Lohaus, Eschenbeck, Kohlmann & Klein-Heßling, 2006)
SVF-KJ Streßverarbeitungsfragebogen von Janke und Erdmann angepasst für Kinder
und Jugendliche (Hampel, Petermann & Dickow, 2001)
MSI-J Multiphasic Sex Inventory für Jugendliche (Gruber, Waschlewski & Deegener,
2003)
SPAIK Sozialphobie und -angstinventar für Kinder (Melfsen, Florin & Warnke, 2001)
IBS-KJ Interview zu Belastungsstörungen bei Kindern und Jugendlichen (Steil &
Füchsel, 2005)
Bereichsübergreifend, Erhebung bei den Eltern
CBCL/4-18 Elternfragebogen über das Verhalten von Kindern und Jugendlichen
(Arbeitsgruppe Deutsche Child Behavior Checklist, 1998)
VBV 3-6 Verhaltensbeurteilungsbogen für Vorschulkinder (Döpfner, Berner,
Fleischmann & Schmidt, 1993)2
MEI Mannheimer Elterninterview (Esser, Blanz, Geisel & Laucht, 1989)
Bereichsübergreifend, Daten aus unterschiedlichen Quellen
CASCAP-D Clinical Assessment Scale for Child and Adolescent Psychopathology
(Döpfner, Berner, Flechtner, Lehmkuhl & Steinhausen, 1999)
DISYPS-II Diagnostik-System für psychische Störungen nach ICD-10 und DSM-IV für
Kinder und Jugendliche-II (Döpfner, Görtz-Dorten & Lehmkuhl, 2008)3
1
Es existiert auch eine parallele Elternversion. 2 Daten können auch bei Erzieherinnen erhoben werden.
3
Erhebungen bei Kindern, Eltern und Erzieherinnen.

sonders häufig für die Abschätzung der Verän- iert worden. Dieser Umstand bedeutet wieder-
derungen bei Störungen, die fast schon den um, dass es unter bestimmten Bedingungen
Charakter stabiler Persönlichkeitsmerkmale zu einer deutlichen Minderung der Reliabili-
haben (z. B. Depressivität oder Zwangsver- tät dieses Differenzscores im Vergleich zu den
halten), herangezogen. Ein Prä-Post-Vergleich beiden Ausgangswerten kommen kann.
birgt jedoch erhebliche psychometrische Pro-
bleme. Diese rühren insbesondere daher, dass Die Verlaufsmessung stellt eine Erweiterung
wir es hier mit einer wiederholten Statusdia- des Prä-Post-Vergleichs zu einem dreifaktori-
gnose (I Kap. 1) zu tun haben. Instrumente ellen Modell Personen × Störungen × Zeit-
zur Statusdiagnostik sind aber nicht auf die punkte dar. Je nach getroffener Annahme über
Erfassung wahrer Veränderungen hin konstru- die zu erwartenden Effekte lassen sich acht

474
15.2 Klinisch-psychologische Diagnostik

Modelle unterscheiden. Das einfachste Mo- Erfassung der subjektiv erlebten Veränderung
dell nimmt an, dass alle behandelten Personen zurückgegriffen (vgl. Stieglitz, 1994). Hierbei
bei allen in Frage stehenden Störungen den wird eine Veränderung, die im Verlauf einer
gleichen Behandlungserfolg zeigen. Dieses Modifikation stattgefunden haben kann, von
Haupteffektmodell ist jedoch angesichts der einer Person unmittelbar (in Form eines Ver-
Therapierealität wenig plausibel. Das nächs- gleichs – besser, schlechter – mit einem frühe-
te Modell nimmt eine Wechselwirkung zwi- ren Zustand) eingestuft. Verfahren, die bei die-
schen Personen und Zeit an, d. h. einzelne Pa- ser Form der Veränderungsdiagnostik einge-
tienten verändern sich im Therapieverlauf un- setzt werden, sind etwa der Veränderungsfra-
terschiedlich. Man könnte diese individuellen gebogen des Erlebens und Verhaltens (VEV;
Therapieverläufe beispielsweise darstellen, in- Zielke & Kopf-Mehnert, 1978), der Verände-
dem man für jede Person jede Woche den be- rungsprozessbogen (VPB; Grawe, 1982) oder
treffenden Störungswert aufzeichnet. Die übri- der Fragebogen zur erlebten gesundheitlichen
gen sechs Veränderungsmodelle ergeben sich Veränderung (Krampen & von Delius, 1981).
durch Berücksichtigung weiterer Wechselwir-
Bei der Einschätzung der Validität dieser Ver-
kungen, beispielsweise zwischen Störungen
fahren muss allerdings berücksichtigt werden,
und Zeit. (Zur Abschätzung dieser einzelnen
dass hier nicht eigentlich die Veränderung
Effekte etwa mit Hilfe des Rasch-Modells vgl.
im interessierenden Merkmal (z. B. Essstörun-
Rost, 2004; I Kap. 4.)
gen), sondern Kognitionen über diese Verände-
Während beim Prä-Post-Vergleich praktisch al- rungen erfasst werden. Diese Unterscheidung
le Instrumente eingesetzt werden können, die ist insofern wichtig, als sich Veränderungen
der Klient vernünftigerweise mehrfach bear- als Konsequenz einer modifikatorischen Inter-
beiten kann, werden an Instrumente zur Ver- vention meist auf mehreren Ebenen, allerdings
laufsmessung besondere Ansprüche gestellt. in der Regel nicht synchron, vollziehen. Kogni-
Da es sich hier nicht um Status-, sondern um tive Faktoren, also etwa das Wissen, was man
Zustandsdiagnostik handelt, müssen die Items für eine Regulierung des Essverhaltens tun
dieser Instrumente veränderungssensitiv sein, sollte, ändern sich meist schneller als das be-
d. h. es muss in experimentellen Studien nach- treffende (gestörte) Verhalten. Aussagen über
gewiesen werden, dass die Items (z. B. zur Er- erlebte Veränderungen spiegeln deshalb nicht
fassung von Zustandsangst) sensitiv und syste- notwendigerweise das Ausmaß der bereits tat-
matisch auf veränderte situative Bedingungen sächlich vollzogenen Veränderung wider. Die-
(z. B. des Bedrohungsgehalts einer Situation) se Überlegung ist insbesondere im Hinblick
ansprechen. Dies ist für die entsprechend kon- auf die Abschätzung der Zielerreichung einer
struierten Zustandsskalen (I Kap. 10) im All- Therapie wichtig.
gemeinen der Fall. Für Verfahren mit speziell
Dem Zustandskonzept in einem weiteren Sin-
klinischer Orientierung (z. B. Symptomlisten
ne können auch interpersonale Beziehungen in
oder Tagebuchverfahren wie etwa Schmerzta-
der Behandlungssituation zugeordnet werden
gebücher) ist dies jedoch meist nicht geprüft
(vgl. Bastine & Tuschen, 1996). Als wesent-
worden, wenn die Annahme einer Verände-
liches interpersonales Merkmal kann das im
rungssensitivität auch für bestimmte Instru-
Rahmen der klientzentrierten Gesprächsthe-
mente (etwa Schmerztagebücher) nicht un-
rapie (Rogers, 1973) entwickelte Konstrukt
plausibel ist.
der Empathie angesehen werden. Als zentra-
Auf Grund der messtheoretischen Probleme le Bestimmung dieses komplexen Merkmals
bei der Registrierung von Veränderungen wird gilt das einfühlende Verstehen auf Seiten des
als Alternative in zunehmendem Maße auf die Therapeuten. An der Empathie werden vier

475
15 Klinische und gesundheitspsychologische Diagnostik

Komponenten unterschieden, die mit Hilfe des in der klinischen Diagnostik. Kognitive Sti-
Relationship Inventory (RI; Barrett-Lennard, le sind, von Ausnahmen abgesehen (etwa der
1962, 1986; deutsche Übertragung in Tausch, Impulsivität bei Kindern), für die modifikato-
1973) gemessen werden. Jede dieser Kompo- rische Praxis wenig interessant. Die projek-
nenten wird über 16 Items operationalisiert, tiven Verfahren spielten dagegen in der kli-
mit denen der Klient den Therapeuten sowie nischen Diagnostik lange Zeit eine herausra-
dieser sich selbst auf einer sechsstufigen Ska- gende Rolle. So bezeichnete Klopfer, einer
la einschätzen kann. Die einzelnen Kompo- der Hauptvertreter der projektiven Diagnos-
nenten sind: Wertschätzung und emotionale tik, den Rorschach-Test als eine „Röntgen-
Wärme (positive regard; Beispielitem: „Ich aufnahme des Seelenlebens“ (Klopfer, 1940).
fühle, dass er mich wirklich schätzt“), Unbe- Nicht nur wegen dieser naiven Auffassung,
dingtheit von Wertschätzung und emotionaler sondern in erster Linie auf Grund ihrer un-
Wärme (unconditionality; „Seine Gefühle zu zulänglichen psychometrischen Qualität wer-
mir hängen nicht davon ab, wie ich ihm ge- den projektive Verfahren in der diagnosti-
genüber empfinde“), Verbalisierung emotiona- schen Praxis heute sehr skeptisch betrach-
ler Erlebnisinhalte (empathetic understanding; tet. Dafür erlangen Gruppen von Ansätzen
„Gewöhnlich spürt oder erkennt er, was ich füh- zunehmendes Interesse, die in Übersichten
le“); Echtheit-Selbstkongruenz (congruence; zu objektiven Verfahren (bislang) eher mar-
„Er drückt mir gegenüber seine wahren Ein- ginale Positionen einnahmen: Verhaltenstests,
drücke und Gefühle aus“). Ähnliche Merkma- kognitiv-experimentelle Verfahren und biolo-
le sind auch in Fragebogen enthalten, in denen gische Messstrategien. Auf diese Ansätze wol-
Klient und Therapeut die Qualität der Therapie len wir uns im Folgenden konzentrieren.
(oder einzelner Sitzungen) retrospektiv beur-
Mit Verhaltenstests lassen sich Daten aus un-
teilen (vgl. Grawe, Caspar & Ambühl, 1990).
terschiedlichen Bereichen gewinnen. Im Zen-
trum steht natürlich die Beobachtung proble-
matischen Verhaltens, über die L-Daten er-
15.2.6 Klinische Diagnostik auf zeugt werden. Deshalb wurde dieser Ansatz
der Basis von T-Daten auch bereits in dem entsprechenden Abschnitt
behandelt. Daneben lassen sich hiermit auch
Selbsteinschätzungen (Q-Daten) erheben, et-
Im Prinzip können alle in I Kap. 11 vorge-
wa wenn ein Patient mit einer speziellen Pho-
stellten objektiven Testverfahren auch in der
bie seine Angst bei der Annäherung an das
Klinischen Psychologie eingesetzt werden. Al-
gefürchtete Objekt auf einer Skala von 0 bis
lerdings finden sich hier doch einige Schwer-
100 einstufen soll. Schließlich lassen sich in
punktsetzungen, die von der in I Kap. 11 ge-
diesem Kontext auch T-Daten erzeugen, wenn
gebenen Übersicht abweichen. Die, insbeson-
z. B. dieser Patient bei seiner Annäherung
dere auf dem Ansatz von Cattell basierenden,
nicht nur Selbstauskünfte, sondern auch phy-
Testbatterien (z. B. die OA-Testbatterie 75;
siologische Daten liefert (etwa die über einen
Schmidt, Häcker, Schwenkmezger & Cattell,
entsprechenden tragbaren Apparat gemessene
1987; I Kap. 11) werden bei klinischen Fra-
Herzrate).
gestellungen kaum eingesetzt, bestenfalls in
der Forschung zur Diskriminierung bestimm- Kognitiv-experimentelle Verfahren waren be-
ter Störungsbilder (vgl. Schmidt et al., 1985). reits in I Kap. 11 besprochen worden. Erin-
Die große Gruppe von Verfahren zur Operatio- nert sei hier an den emotionalen Stroop-Test
nalisierung kognitiver Stile findet aus nahelie- zur Erhebung unterschiedlicher klinischer Stö-
genden Gründen ebenfalls kaum Verwendung rungen (Ängste, Phobien, Zwangsstörungen,

476
15.2 Klinisch-psychologische Diagnostik

Panik, posttraumatische Belastungsstörungen; phalogramm (EEG). Hierbei wird über Elek-


Übersicht in Williams et al., 1996), die Visual troden, die auf der Kopfhaut angebracht sind,
Dot-Probe zur Messung der Aufmerksamkeits- die elektrische Aktivität des Gehirns abgelei-
orientierung bei ängstlichen Personen (vgl. tet und aufgezeichnet. Diese Daten können zur
MacLeod et al., 1986) oder den Impliziten As- Diagnose neurologischer Störungen herange-
soziationstest (IAT) zur Erfassung von u. U. zogen werden (z. B. bei der Epilepsie), aber
klinisch relevanten Persönlichkeitsmerkmalen etwa auch zur Beobachtung von Schlafstörun-
wie Selbstwertgefühl bzw. Depressivität (Ge- gen und deren Therapie. An die Seite des EEG
mar, Segal, Sagrati & Kennedy, 2001; Green- treten in jüngster Zeit bildgebende Verfahren,
wald & Farnham, 2000), Angst (Egloff & mit deren Hilfe anatomische und funktionel-
Schmukle, 2002), Emotionsregulation (Mauss, le Abbilder des Gehirns und seiner Aktivität
Evers, Wilhelm & Gross, 2006) oder Schüch- gewonnen werden können.
ternheit (Asendorpf et al., 2002). Weitere expe-
rimentell orientierte Methoden zur Gewinnung Die wichtigsten Verfahren sind die
von T-Daten, die für die klinische Diagnostik Computer-Tomographie (CT), die funk-
von Interesse sind, werden in Bastine und Tu- tionelle Magnetresonanz-Tomographie (fMRI;
schen (1996) beschrieben. früher auch Kernspin-Tomographie genannt)
und die Positronenemissions-Tomographie
Biologische Messstrategien werden in der kli- (PET). Während die CT vor allem in der
nischen Praxis wegen ihres erheblichen appa- medizinischen Diagnostik wichtig ist (zur
rativen Aufwands (außer evtl. bei stationärer Lokalisierung anatomischer Veränderungen,
Behandlung) nur selten eingesetzt. Eine zuneh- z. B. Tumore, im Gehirn), werden fMRI
mend größere Rolle spielen sie dagegen in der und PET auch bei psychologischen Fra-
klinischen Forschung. Bei diesen Strategien gestellungen eingesetzt. Im Zentrum steht
lassen sich peripherphysiologische Verfahren, dabei die Registrierung unterschiedlicher
zentralnervöse Messmethoden und Testbatte- Aktivitäten in verschiedenen Hirnarealen
rien mit neuropsychologischer Orientierung bei der Verarbeitung emotional valenter
unterscheiden. (z. B. bedrohlicher) Reize. (Ausführlichere
Unter den peripherphysiologischen Parame- Darstellungen biologischer Messstrategien
tern sind besonders kardiovaskuläre Maße finden sich in Birbaumer & Schmidt, 2010.)
(Herzfrequenz, Blutdruck, Durchblutungsstär-
ke bzw. Hauttemperatur verschiedener Kör- Die bekannteste Testbatterie mit neuropsy-
perteile), Maße der Muskelaktivität sowie die chologischer Orientierung ist die Tübinger
elektrodermale Aktivität für die klinische Dia-Luria-Christensen Neuropsychologische Un-
gnostik relevant. Kardiovaskuläre Maße und tersuchungsreihe (TÜLUC; Hamster, Langner
Parameter der elektrodermalen Aktivität (et- & Mayer, 1980). Die TÜLUC erfasst psychi-
wa die Hautleitfähigkeit) werden besonders sche Funktionen von der Psychomotorik bis zu
bei der Kontrolle der Behandlung von Angst- Denkprozessen und soll somit eine Differen-
störungen herangezogen, während die Regis- zialdiagnose neuropsychologischer Störungen
trierung der Muskelaktivität (mittels eines (z. B. Aphasie) auf der Basis von Fähigkeits-
Elektromyogramms, EMG) speziell bei der und Leistungsdaten erlauben. Sie gliedert sich
Biofeedback-Behandlung chronischer Schmer- dabei in zehn Bereiche, in denen jeweils Auf-
zen wichtig ist. gaben steigender Komplexität dargeboten wer-
den. Wichtige Bereiche sind etwa motorische
Das wichtigste Verfahren zur Registrierung Funktionen, akustisch-motorische Koordinati-
zentralnervöser Parameter ist das Elektroenze- on, kinästhetische Funktionen, visuelle Funk-

477
15 Klinische und gesundheitspsychologische Diagnostik

tionen, verschiedene sprachliche Funktionen, Als Mitte des vorigen Jahrhunderts immer
Rechnen und Erinnern. wirksamere Methoden zur Behandlung psy-
chischer Störungen entwickelt wurden, zeig-
te sich, dass diese Systeme als diagnostische
Basis für die Durchführung derartiger Behand-
15.2.7 Systeme zur Klassifikation lungen wenig tragfähig waren. Insbesondere
psychischer Störungen zwei Defizite wurden kritisch hervorgehoben:
Erstens, die Orientierung der einzelnen Ka-
Die präzise Definition einer psychischen Stö- tegorien und damit der Diagnosen an proble-
rung ist für die Klinische Psychologie unter matischen Krankheitsbildern, in die in star-
verschiedenen Gesichtspunkten unverzichtbar: kem Maße ätiologie- und schulengebundene
in der Forschung zur Bestimmung von Kor- diagnostische Begriffe eingingen (u. a. Sten-
relaten psychischer Störungen und damit zur gel, 1959). Zweitens, die geringe Übereinstim-
Entwicklung differenzialdiagnostischer Sys- mung der Diagnosen verschiedener Psychia-
teme und störungsspezifischer Therapien, in ter bei einem vorliegenden Störungsbild ( u. a.
der klinischen Praxis zur angemessenen Pla- Spitzer & Fleiss, 1974). In neueren Ansätzen
nung und Durchführung modifikatorischer In- hat man versucht, diese Kritik zu berücksich-
terventionen und schließlich bei der Versor- tigen, indem man die problematischen Kate-
gung von Patienten zur Bestimmung der jewei- gorien der Vorläufersysteme durch sehr diffe-
ligen Versicherungsleistungen bei definierten renzierte (ätiologie- und schulenungebunde-
Krankheitsbildern. ne) Klassifikationen ersetzte und außerdem
die Übereinstimmung der Diagnosen durch ex-
plizite operationale Definition der jeweiligen
Zur Feststellung des Vorliegens einer psy- Kriterien erhöhte.
chischen Störung müssen in der Regel meh-
rere Kriterien gleichzeitig erfüllt sein, ins- Das Resultat dieser Bemühungen war die
besondere erhebliches persönliches Leiden, 1980 erschienene dritte Auflage des Diagno-
die (statistische, gesellschaftliche oder indi- stic and Statistical Manual of Mental Disor-
viduelle) Abweichung von Normen, Behin- ders (DSM-III) der American Psychiatric As-
derung oder Funktionseinschränkung sowie sociation (APA), insbesondere die unmittelba-
Selbst- oder Fremdgefährdung (vgl. Reine- re Revision des DSM-III, das DSM-III-R. Die
cker, 2003). derzeit aktuelle deutschsprachige Version ist
das DSM-IV (APA, 2000; Saß, Wittchen, Zau-
dig & Houben, 2003). Eine weitere Revision,
Ein erster Ansatz zur Klassifikation psychi- das DSM-5 (APA, 2013), liegt auf Deutsch
scher Störungen wurde von Kraepelin (1899) noch nicht vor.
entwickelt. Er fasste die Vielfalt psychiatri- Das zweite wichtige Klassifikationssystem
scher Krankheitsbilder in einer Systematik zu- wurde von der World Health Organization
sammen, die sich aus der Registrierung ein- (WHO) entwickelt. Die derzeit aktuelle Ver-
zelner Symptome und deren Integration zu sion ist die ICD-10 (WHO, 1993a; deutsche
Syndromen ergab. Seine Aufgliederung der Version u. a. Dilling, Mombour & Schmidt,
Psychosen in die manisch-depressive Erkran- 2013).
kung und die Dementia praecox (die Gruppe
der Schizophrenien) war über viele Jahrzehnte Bei DSM und ICD handelt es sich um Sys-
Richtschnur für die Entwicklung von Klassifi- teme zur Klassifikation psychischer Störun-
kationssystemen für psychische Störungen. gen, nicht um Instrumente zur Diagnose die-

478
15.2 Klinisch-psychologische Diagnostik

ser Merkmale. Parallel zu diesen Systemen zu bringen. Damit zusammenhängend hatte


wurden deshalb Erhebungsinstrumente (stan- das DSM-System immer schon eine stärkere
dardisierte Interviews und Checklisten, siehe Orientierung an der Forschung als die ICD.
I Tab. 15.1) entwickelt, in denen für jedes
Symptom oder Kriterium sehr spezifische Fra- Trotz dieser Unterschiede wird in DSM-IV
gen vorgegeben werden. Durch diese Standar- und ICD-10 eine Reihe gemeinsamer Prinzipi-
disierung soll eine hohe Beurteilerübereinstim- en realisiert (vgl. auch Freyberger & Stieglitz,
mung bei der Diagnose und anschließenden 1997):
Klassifikation von Störungen erreicht werden. 1. Atheoretischer, rein deskriptiver Ansatz: Bei
Symptomchecklisten werden dabei in der Re- der Beschreibung von Störungen wurde weit-
gel nach einem Gespräch mit dem Klienten gehend auf ätiologische Modelle, d. h. theo-
(evtl. unter Hinzuziehung weiterer Angaben retische Vorstellungen zu den Ursachen einer
und Beobachtungen) ausgefüllt. Störung, verzichtet. Dies hat beispielsweise
Demgegenüber wird in standardisierten Inter- dazu geführt, dass der Begriff endogene Er-
views das gesamte diagnostische Gespräch krankung vollständig aufgegeben wurde und
vorstrukturiert. Derartige Erhebungsinstru- somit nicht länger zwischen neurotischen und
mente stehen für den Gesamtbereich psychi- endogenen Störungen unterschieden wird. Die
scher Störungen zur Verfügung (z. B. das Com- rein deskriptive Orientierung wird auch darin
posite International Diagnostic Interview, CI- deutlich, dass nahezu jede Diagnose mit dem
DI; Wittchen & Pfister, 1997) wie auch für Begriff „Störung“ (disorder) versehen wird.
ausgewählte Störungsgruppen (z. B. die Inter- Bestimmte (objektiv bestimmbare) Zeichen
national Personality Disorder Examination, und Symptome werden als Manifestationen ei-
IPDE; Loranger & WHO, 1996). ner aktuellen Dysfunktion im Verhalten, Den-
ken, Fühlen oder in biologischen Prozessen
Obwohl sich DSM und ICD in ihren neues- angesehen und nicht als Ergebnis des Zusam-
ten Versionen stark angenähert haben, beste- menwirkens verschiedener Faktoren aus Ver-
hen doch weiterhin gewisse Unterschiede in anlagung, Lerngeschichte oder erlebten Belas-
der Zielsetzung. Der WHO ging es mit der tungen.
Entwicklung des ICD-Systems im besonde-
ren Maße darum, die in verschiedenen Kultur- 2. Kriteriumsorientierter Ansatz: Als Konse-
kreisen bestehenden unterschiedlichen Ansät- quenz aus der reinen Orientierung an Zeichen
ze bei der Diagnose und Klassifikation psychi- und Symptomen wurde ein Kodierungssystem
scher Störungen zu vereinheitlichen, um damit entwickelt, das sich an einfach zu beobachten-
die Kommunikation zwischen den Fachleuten den bzw. explorierenden Kriterien orientiert.
zu erleichtern und die Diagnosen vergleichba- Alle komplexeren Merkmale (z. B. des Erle-
rer zu machen. bens), die einen höheren Grad an theoretisch
abgestützter Interpretation erfordern, wurden
Im Zentrum der Bemühungen bei der Ent- aus diesem System eliminiert. Um jedoch auch
wicklung und Verbesserung des ICD-Systems komplexere und untypische Symptombilder er-
stand also dessen internationale Anwendbar- fassen zu können, mussten zu den einzelnen
keit. Für die amerikanische Psychiatrie war Störungskategorien immer feinere Kodierun-
dieser Aspekt weniger bedeutsam. Bei der Ent- gen entwickelt werden. Hierzu gehören auch
wicklung des DSM ging es vielmehr darum, Restkategorien und Schweregradunterteilun-
die unterschiedlichen ätiologischen (und damit gen. Dies führte zu einer Erhöhung der An-
auch diagnostischen) Vorstellungen einzelner zahl diagnostischer Kategorien von ca. 250 im
wissenschaftlicher Schulen auf einen Nenner DSM-III auf rund 400 im DSM-IV.

479
15 Klinische und gesundheitspsychologische Diagnostik

Übersicht 15.2 Die Achsen des DSM-IV.

Achse I Psychische Störungen, Zustandsbilder von klinischer Relevanz


Achse II Persönlichkeitsstörungen, spezifische Entwicklungsstörungen,
Intelligenzminderung
Achse III Körperliche Störungen und Zustände
Achse IV Psychosoziale und umgebungsbezogene Belastungen
Achse V Höchstes Niveau der sozialen Anpassung im letzten Jahr (erfasst mit der Global
Assessment of Functioning Scale, GAF)
Optional • Skala zur Erfassung des Abwehrniveaus
• Global Assessment of Relational Functioning Scale (GARF)
• Social and Occupational Functioning Assessment Scale (SOFAS)

3. Orientierung an der Beurteilerübereinstim- 5. Der multiaxiale Ansatz: Um bei der Gesamt-


mung: In die Systeme sollten nach Möglich- beschreibung der Problematik eines Patienten
keit nur solche diagnostischen Kategorien auf- auch Aspekte zu berücksichtigen, die nicht
genommen werden, für die eine hohe Beur- direkt mit den Kriterien der Störungskategori-
teilerübereinstimmung zu erzielen war. Hier- en zu tun haben, wurde das Prinzip der mul-
zu liegen inzwischen umfangreiche Studien tiaxialen Diagnostik eingeführt. In getrennten
vor (für ICD-10 u. a. Sartorius, Ustun, Korten, diagnostischen Feldern (sog. „Achsen“, siehe
Cooper & van Drimmelen, 1995; für DSM III I Übersicht 15.2) werden Aspekte separat ab-
bzw. DSM-III-R u. a. Spitzer, Forman & Nee, gebildet, die sich auf Ätiologie, Pathogenese,
1979; Williams et al., 1992). belastende Lebensumstände sowie Therapie-
verlauf und Prognose beziehen.
4. Das Komorbiditätsprinzip: Die Ablösung
der globalen psychiatrischen Diagnosen (z. B.
Neben diesen Gemeinsamkeiten weisen ICD-
„psychovegetative Dysregulation“), für die nur
geringe Beurteilerübereinstimmungen zu er- 10 und DSM-IV aber auch eine Reihe von
reichen waren, durch wesentlich engere, dafür Unterschieden auf. So umfasst das System der
aber besser operationalisierte Klassifikations- ICD-10 nur drei Achsen, wobei auf Achse I
systeme brachte es zwangsläufig mit sich, dass alle psychiatrischen, medizinischen und per-
sönlichkeitsbezogenen Diagnosen aufgeführt
die Komplexität eines Symptombildes in der
werden. Das System des DSM-IV besteht da-
Regel nicht länger durch eine einzige Katego-
rie abgebildet werden konnte. Deshalb wur- gegen aus fünf Achsen, von denen zwei Ach-
de das Prinzip der Komorbidität eingeführt, sen für psychiatrische bzw. psychologische
das die Vergabe von mehreren Diagnosen er- Diagnosen und eine weitere Achse für medizi-
laubt, wenn die entsprechenden Kriterien er- nische Befunde verwendet werden. Außerdem
kodiert die ICD-10 die einzelnen Störungen
füllt sind. Danach müssen für jeden Patienten
differenzierter als das DSM-IV.
so viele Diagnosen gestellt werden, wie für
die vollständige Abbildung der Symptomatik
notwendig sind. Dabei ist das Stellen einer Das DSM-IV beurteilt den Patienten anhand
Hauptdiagnose (die Kategorie mit der größten der fünf in I Übersicht 15.2 aufgeführten
klinischen Bedeutung) möglich. Achsen. Achse I erfasst die Mehrzahl der
psychischen Störungen. Zudem werden auch
Merkmale beurteilt, die gesondert beachtet

480
15.2 Klinisch-psychologische Diagnostik

werden müssen, da aus ihnen psychische Stö- Störungen ist das Kapitel V relevant (vgl. Dil-
rungen resultieren können. Psychische Störun- ling, et al., 2013). Jede Störung aus dem Ka-
gen werden nach 15 Hauptkategorien klassifi- pitel V trägt den Kennbuchstaben F. Diesem
ziert, z. B. Schizophrenie und andere psycho- folgt eine mehrstellige Zahl. Die erste Zahl
tische Störungen, Angststörungen, Essstörun- gibt die Hauptkategorie an, beispielsweise 3
gen oder Anpassungsstörungen. Zu den – kli- für „affektive Störungen“. Die nächste Zahl
nisch evtl. relevanten – zusätzlichen Merkma- bezeichnet diese Störung genauer, z. B. 2 für
len zählen etwa Eltern-Kind-Probleme, Part- depressive Episode. Die nächsten, nach einem
nerschaftsprobleme oder Schulschwierigkei- Dezimalpunkt anzugebenden, Zahlen bezie-
ten. hen sich auf den Schweregrad einer Störung
oder spezielle zusätzliche Aspekte, z. B. 0 für
Auf Achse II werden neben der geistigen Be- leicht, 1 für mittel und 2 für schwer. Weitere
hinderung zehn Kategorien von Persönlich- Zahlen können dann nochmals das Vorhan-
keitsstörungen kodiert, u. a. paranoide, schi- densein weiterer Symptome anzeigen. So be-
zoide, antisoziale, borderline oder zwanghaf- deutet beispielsweise der Kode F32.00 eine
te Persönlichkeitsstörung. Achse III dient der „leichte depressive Episode ohne somatische
Klassifikation körperlicher Störungen und Zu- Symptome“, der Kode F 32.11 eine „mittel-
stände, die im Zusammenhang mit der zu be- gradige depressive Episode mit somatischen
handelnden psychischen Störung stehen, z. B. Symptomen“, der Kode F 32.8 eine „sonstige
Diabetes. Diese drei Achsen konstituieren die depressive Episode“ oder der Kode F 41.1 eine
offizielle klinische Diagnose. „generalisierte Angststörung“.
Alle diese Kodes werden in der ICD-10 auf der
Die Achsen IV und V ermöglichen es dem
Achse I niedergelegt (genauer auf der Achse
Diagnostiker, zusätzliche Informationen nie-
Ia, die Achse Ib enthält somatische Diagnosen
derzulegen. Auf Achse IV werden dabei psy-
nach anderen Kapiteln des ICD-10). Achse II
chosoziale und umgebungsgebundene Stres-
gibt das Ausmaß psychosozialer Funktionsein-
soren kodiert, die im Hinblick auf die gegen-
schränkungen wieder. Dieses wird mit Hilfe
wärtige Erkrankung von Bedeutung sein könn-
der WHO-Disability Diagnostic Scale (WHO-
ten. Hierzu gehören u. a. Probleme in Fami-
DDS; WHO, 1993b) erfasst. Achse III kodiert
lie, Beruf, Wohnsituation, Finanzen sowie ju-
Faktoren der sozialen Umgebung und der indi-
ristische Schwierigkeiten. Auf Achse V wird
viduellen Lebensbewältigung gemäß Kapitel
das Niveau angepassten Funktionierens einge-
XXI (Kennbuchstabe Z) der ICD-10 (I Über-
schätzt, das der Patient während des letzten
sicht 15.3).
Jahres erreicht hat. Die Einschätzung wird auf
einer Skala (Global Assessment of Functio- Verglichen mit der recht willkürlichen und
ning, GAF) abgegeben, die zwischen „schwe- wenig standardisierten, an empirisch oft
ren Funktionseinschränkungen“ (Kodierung 1 unzureichend fundierten Vorstellungen über
bis 10) und „hervorragender psychischer Ge- psychische Krankheitsbilder orientierten
sundheit“ (Kodierung 91 bis 100) variiert. Zu- traditionellen psychiatrischen Diagnostik,
sätzlich wird der Zeitraum angegeben, auf den stellt die Einführung der DSM- und ICD-
sich die Beobachtung bezieht. Klassifikationssysteme eindeutig einen
Fortschritt dar. Dementsprechend ist in
Die ICD-10-Klassifikation gliedert den Ge- Deutschland in der gesetzlichen Krankenver-
samtbereich von Erkrankungen und Störun- sorgung auch die Abgabe einer nach ICD-10
gen in 21 Kapitel. Für die – der DSM-IV- kodierten Diagnose vorgeschrieben. Dennoch
Klassifikation entsprechenden – psychischen hat dieser Ansatz auch substanzielle Kritik

481
15 Klinische und gesundheitspsychologische Diagnostik

Übersicht 15.3 Die Achsen des ICD-10

Achse Ia Diagnose der psychische Störungen (nach Kapitel V)


Achse Ib Somatische Diagnosen (nach anderen Kapiteln)
Achse II Ausmaß der psychosozialen Funktionseinschränkungen (nach der WHO
Disability Diagnostic Scale, WHO-DDS; WHO, 1993b)
Achse III Faktoren der sozialen Umgebung und der individuellen Lebensbewältigung
(nach Kapitel XXI).
Problemfelder:
• Erziehung, negative Kindheitserlebnisse
• Ausbildung
• primäre Bezugsgruppe
• soziale Umgebung
• Wohn- und Finanzverhältnisse
• Berufstätigkeit, Arbeitslosigkeit
• Umweltbelastungen
• psychosoziale und juristische Situation
• Krankheit und Behinderung in der Familie
• Lebensführung
• Lebensbewältigung

hervorgerufen, und zwar sowohl innerhalb meisten Publikationen als Reliabilität bezeich-
der Psychiatrie als auch ganz besonders net wird, obwohl es sich testtheoretisch gese-
von Seiten der Psychologie. Von diesen hen um das Kriterium der Objektivität han-
Kritikpunkten sollen im Folgenden nur delt; I Kap. 3). Verglichen mit der noch recht
einige zentrale genannt werden. (Für eine unzulänglichen Übereinstimmung der Diagno-
detailliertere Kritik einzelner Punkte vgl. sen nach dem DSM-III (vgl. Kirk & Kutchins,
u. a. Blashfield, 1998; Hartung & Widiger, 1994; Spitzer, Forman & Nee, 1979), sind die
1998; Kirk & Kutchins, 1992, 1994; Nathan Werte bei den neuesten Versionen (DSM-III-
& Langenbucher, 1999; Scotti & Morris, R, DSM-IV, ICD-10) offenbar deutlich ver-
2000; Widiger, 1993). Dabei konzentrieren bessert und erreichen ein akzeptables Niveau
wir uns auf die folgenden Themen: die (vgl. Nathan & Langenbucher, 1999). Diese
psychometrische Qualität der auf den Klas- Einschätzung gilt allerdings nicht in gleichem
sifikationssystemen beruhenden Diagnosen, Maße für die Stabilität. Hier fallen die Werte
die Anwendbarkeit der Systeme in der deutlich niedriger aus, insbesondere für Dia-
psychiatrischen und psychologischen Praxis, gnosen aus dem Spektrum der Schizophrenien,
das Problem der Komorbidität sowie die der Persönlichkeitsstörungen und einiger Stö-
Kontroverse kategoriale versus dimensionale rungen der Kindheit und Adoleszenz (Matta-
Diagnoseansätze. nah, Becker, Levy, Edell & McGlashan, 1995).
Es stellt sich hier allerdings die Frage, inwie-
Bei der Bestimmung der psychometrischen weit Stabilitätswerte für alle Kategorien des
Qualität wollen wir uns zunächst mit der Be- DSM überhaupt gleichermaßen Auskunft über
urteilerübereinstimmung befassen (die in den die psychometrische Qualität des Instruments

482
15.2 Klinisch-psychologische Diagnostik

geben. Während für einige Diagnosen (z. B. Depression, Dysthymie, Generalisierte Angst-
geistige Behinderung) natürlich eine hohe Sta- störung, Panikstörung) mit Fragebogenmaßen
bilität erwartet werden muss, stellen etwa Pa- dieser Merkmale und fanden für die Diagno-
tienten mit psychotischen Störungen eine dia- sen Major Depression und Panikstörung gute,
gnostisch sehr instabile Gruppe dar, für die für Dysthymie und Generalisierte Angststö-
keine diesbezüglich hohen Werte zu erwarten rung jedoch nur schwache Übereinstimmun-
sind. gen zwischen beiden Datenquellen.
Ergebnisse zur Validität der Diagnosen müs- Als problematisch für die Validität der DSM-
sen nach verschiedenen Störungsklassen ge- Diagnosen müssen auch die deutlichen Ge-
trennt betrachtet werden. Für Störungen aus schlechtsunterschiede in den einzelnen Kate-
dem Schizophrenie-Spektrum zeigen sich gorien angesehen werden. Hartung und Widi-
zumindest für die beiden Endpunkte des ger (1998) weisen darauf hin, dass für DSM-
Spektrums (Schizophrenie vs. psychotisch- IV bei 101 der 125 aufgelisteten psychischen
affektive Erkrankungen) gute Übereinstim- Störungen (81 %) unterschiedliche Prävalen-
mungen mit externen Kriterien (z. B. Gehirn- zen (d. h. Auftretenshäufigkeiten) für die Ge-
untersuchungen mit bildgebenden Verfahren, schlechter berichtet werden. (Für die restli-
Gur et al., 1994, oder Familienuntersuchungen, chen Störungen liefert das DSM-IV keine An-
Kendler, Neale & Walsh, 1995). Anders als bei gaben.) Forschungen über die Ursachen die-
den Diagnosen der Endpunkte des Schizophre- ser Geschlechtsdifferenzen fehlen derzeit noch
niespektrums scheint es für die Diagnosen der weitgehend. Solange derartige Informationen
verschiedenen Subtypen depressiver Störun- aber nicht vorliegen, muss auch mit – validi-
gen nur schwer möglich zu sein, diese auch tätsmindernden – Fehlern bei der Erstellung
anhand externer Kriterien zu differenzieren und Überprüfung des Klassifikationssystems
(vgl. McCullough et al., 2000). gerechnet werden. In ihrer Übersichtsarbeit be-
handeln Hartung und Widiger (1998) zwei Ar-
Für den Bereich der Angststörungen konn- ten derartiger Fehler: mangelnde Repräsentati-
ten Zinbarg und Barlow (1996) bei ambu- vität bei der Zusammenstellung der Stichpro-
lanten Angstpatienten eine gute Übereinstim- ben sowie ein Geschlechts-Bias bei der Festle-
mung zwischen den Diagnosen nach einem, gung der diagnostischen Kriterien. Diese Kri-
auf dem DSM-III-R basierenden, halbstruktu- terien müssten u. a. berücksichtigen, dass sich
rierten Interview und den Daten aus verschie- die gleiche Störung in den Geschlechtern un-
denen Angstfragebogen finden. Ein allgemei- terschiedlich äußern kann.
ner Angstfaktor differenzierte dabei Patienten
von Personen ohne Störungen, während ver- Bei der Einschätzung der Anwendbarkeit der
schiedene untergeordnete Faktoren zwischen Systeme in der psychiatrischen und psychologi-
einzelnen Angststörungen unterschieden. schen Praxis muss zwischen den hochtrainier-
ten Beurteilern in den großen – meist interna-
Was die Trennung von depressiven Störungen tionalen – Studien zur Überprüfung der Quali-
und Angststörungen betrifft, so scheint eine tät der Klassifikationssysteme (z. B. Williams
Differenzierung auf der Basis des bereits er- et al., 1992) und den standardmäßig ausgebil-
wähnten hierarchischen Modells dreier Antei- deten Psychiatern und Psychologen in der Pra-
le (tripartite model) von Clark und Watson xis unterschieden werden (Kirk & Kutchins,
(1991) zumindest partiell möglich zu sein. So 1994). Unter den Spezialisten mag noch ei-
verglichen Clark, Beck und Beck (1994) DSM- ne zufriedenstellende Beurteilerübereinstim-
Diagnosen verschiedener Subtypen depres- mung (zumindest für eine Reihe von Kategori-
siver und angstbezogener Störungen (Major en) erreichbar sein, ob dies aber auch für die

483
15 Klinische und gesundheitspsychologische Diagnostik

Praxis gilt, in der letztlich die den Einzelnen ker im klinischen Alltag gilt, muss bezweifelt
betreffenden Entscheidungen gefällt werden, werden.
muss bezweifelt werden. Kirk und Kutchins
Die Überlegungen zur praktischen Anwend-
weisen darauf hin, dass umfassende Studien
barkeit der Klassifikationssysteme hatten u. a.
zur Übereinstimmung in der Alltagspraxis bis-
deutlich gemacht, dass die Art, wie das Kon-
lang fehlen.
zept der Komorbidität in der DSM- bzw. ICD-
Diagnostik gehandhabt wird, eine Reihe von
Die operationalisierten Klassifikationssysteme
Problemen nach sich zieht. Ursprünglich be-
bestehen aus hunderten von – eng gefassten –
deutet Komorbidität, dass ein Patient mehrere,
diagnostischen Kategorien mit jeweils spezifi-
gut unterscheidbare – wenn auch häufig mit-
schen Kriterienlisten. Die Komplexität eines
einander zusammenhängende – Krankheits-
Symptombildes lässt sich in der Regel kaum
bilder aufweist, z. B. Diabetes und Durchblu-
mit einer einzigen Kategorie bzw. Diagnose
tungsstörungen. Der therapeutische Gewinn
abbilden. Deshalb müssen meist mehrere Dia-
einer Komorbiditätsdiagnose liegt darin, dass
gnosen vergeben werden, wenn die betreffen-
die Behandlung einer Erkrankung u. a. ab-
den Kriterien erfüllt sind (Komorbiditätsprin-
hängt vom Vorliegen oder der Ausprägung
zip). Im klinischen Alltag lässt sich die sorg-
einer anderen Störung. So fanden etwa Sher-
fältige simultane Anwendung der verschiede-
bourne, Wells, Meredith, Jackson und Camp
nen Kriterienlisten schon allein aus Zeit- und
(1996), dass Patienten, die hinsichtlich Blut-
Kostengründen kaum erfüllen. Der Praktiker
hochdruck, Diabetes, Herzerkrankung oder
wird also wohl häufig im Bezug auf das Stö-
Depression behandelt wurden und gleichzei-
rungsbild zu wenige Diagnosen vergeben, mit
tig eine Angststörung aufweisen, generell
entsprechend ungünstigen Folgen für die an-
schlechtere Werte auf verschiedenen Anpas-
schließende Therapie.
sungsparametern aufwiesen als Patienten ohne
komorbide Angst.
Allerdings scheinen die jeweiligen Kriterien-
listen auch bei der Diagnose einzelner Stö- Bei dieser Konzeption von Komorbidität ist
rungsbilder unterschiedlich gut genutzt zu wer- die Frage, wie eng oder weit die Kategorien
den. So fand Westen (1997), dass sich Prakti- für die Diagnose einer spezifischen Störung
ker zur Diagnose von Störungen, die auf Ach- sind, relativ unerheblich für die Komorbidi-
se I des DSM-IV gelistet sind, vergleichsweise tätsdiagnose. Die Enge der Kategorien ist aber
eng an die Listen operationalisierter Kriterien bei den Diagnosen nach ICD-10 und DSM-IV
halten. Zur Diagnose der – weniger spezifi- die entscheidende Ursache für gehäufte Ko-
schen – Persönlichkeitsstörungen auf Achse morbiditätsdiagnosen. Da die diagnostischen
II ziehen sie dagegen eher ihre Eindrücke aus Kategorien unter der Zielsetzung der besseren
Beobachtungen und Gesprächen mit den Pa- Operationalisierbarkeit der Kriterien immer
tienten heran. Es ist offensichtlich, dass hier- enger gefasst wurden, sich die Komplexität
unter die Zuverlässigkeit der Diagnose leiden der zugehörigen Störungsbilder aber natürlich
muss. nicht änderte, mussten logischerweise immer
mehr Diagnosen simultan vergeben werden,
Damit lässt sich zusammenfassend festhal- was dann als Komorbidität bezeichnet wur-
ten, dass die Beurteilerübereinstimmung – als de. Man kann hier von einer Scheinkomorbidi-
Grundlage der Gesamtqualität der Klassifikati- tät sprechen. Daneben existiert innerhalb der
onssysteme – bei Heranziehung von Experten DSM- bzw. ICD-basierten Diagnostik aber na-
gerade noch als gesichert angesehen werden türlich auch „echte“ Komorbidität, beispiels-
kann. Ob dies allerdings auch für die Prakti- weise zwischen Alkoholismus und Persönlich-

484
15.2 Klinisch-psychologische Diagnostik

keitsstörungen (Morgenstern, Langenbucher, kritisiert. Diese Art des Diagnostizierens ent-


Labouvie & Miller, 1997). spricht klassischem medizinischem Denken,
nach dem eine Person entweder eine Krank-
Gerade in den vielen Komorbiditätsdiagno- heit hat oder nicht hat. Die Kategorisierung
sen zeigt sich die Schwäche des atheoreti- nach krank oder gesund stammt aus einer Zeit,
schen Klassifikationssystems. Die einzelnen in der sich die Medizin schwerpunktmäßig
Kategorien sind nicht auf Grund empirischer mit der Diagnose und Behandlung infektiöser
Forschung (in die ja auch immer theoreti- Erkrankungen befassen musste und war dort
sche Annahmen einfließen) bestimmt, sondern sicherlich angebracht. Schon bei den moder-
durch Übereinkunft, orientiert an dem Ziel nen – häufig verhaltensabhängigen – Erkran-
möglichst hoher Beurteilerübereinstimmung. kungen (z. B. Bluthochdruck, Störungen des
Wichtig wäre es aber gewesen, nach gemein- Bewegungsapparats) stößt der kategoriale An-
samen Determinanten innerhalb wie zwischen satz jedoch bereits an seine Grenzen. Unan-
den Störungsbildern zu suchen. Diese könn- gemessen ist er bei psychischen Merkmalen,
ten etwa in bestimmten psychologischen Fak- bei denen die Kategorisierung nach krank und
toren liegen, etwa einem vermeidenden Stil gesund ja dann häufig auch noch durch das
der Stressbewältigung, oder in biologischen Gegensatzpaar „auffällig (bzw. unangepasst)
Prozessen, z. B. Störungen im Serotoninstoff- vs. unauffällig (angepasst)“ ersetzt wird. Gera-
wechsel (vgl. u. a. Krohne & Tausch, 2014). de dieses Gegensatzpaar macht deutlich, dass
Sowohl für die Komorbiditätsforschung wie es sich bei psychiatrischen Klassifikationen
für die diagnostische Praxis ist die Vermi- häufig um die in eine pseudowissenschaftli-
schung der beiden Formen von Komorbidität che Terminologie gegossene Fortführung von
kontraproduktiv. In der Forschung erschwert Alltagskategorisierungen handelt. In diesem
sie die Unterscheidung trivialer Zusammen- Zusammenhang stellt sich auch die Frage der
hänge, die sich aus der Differenzierung ei- Behandlungsrelevanz kategorialer Diagnose-
nes einheitlichen Störungsbildes ergeben, von systeme. Welchen praktischen Nutzen haben
theoretisch interessanten, d. h. in künftigen hochdifferenzierte Systeme zur Klassifikation
Studien verstärkt zu untersuchenden, Bezie- psychischer Störungen, wenn diesen nur eine
hungen, z. B. zwischen bestimmten Persön- sehr begrenzte Zahl unterschiedlicher Behand-
lichkeitsstörungen und spezifischen Arten von lungsmöglichkeiten gegenübersteht?
Substanzmissbrauch. In der Praxis belastet
bereits das Erstellen mehrerer Diagnosen im Als Alternative (zumindest gewichtige Ergän-
Sinne des Komorbiditätsprinzips der DSM- zung) zum kategorialen Ansatz wird deshalb
und ICD-Klassifikationen die Kapazität des ein dimensionales Modell der Klassifikation
Diagnostikers, insbesondere dann, wenn diese in Spiel gebracht (z. B. Widiger, 1993). Statt
Diagnosen alle auf einer Achse (etwa der Ach- immer verfeinertere Kategorien zu entwickeln,
se I des DSM-IV) zu lokalisieren sind. Dies was letztlich zu einem nahezu unbegrenzten
könnte dann dazu führen, dass nach weiteren theorielosen Datensammeln mit dem Zwang
sinnvollen Zusammenhängen (etwa über Dia- zu vielen simultanen Diagnosen führt, sollte
gnosen auf der Achse II des DSM-IV) nicht vermehrt auf theoretisch begründete und relia-
mehr mit der nötigen Sorgfalt gesucht wird. bel erfassbare Dimensionen bei der Diagnos-
tik von Störungen zurückgegriffen werden, zu-
Neben der atheoretischen Orientierung wird mindest für den Bereich der Persönlichkeits-
von Psychologen am DSM-IV und ICD-10 störungen (Achse II im DSM-IV). So macht es
am heftigsten die kategoriale Einordnung von z. B. wenig Sinn, eine „vermeidende Persön-
Störungen („vorhanden vs. nicht vorhanden“) lichkeitsstörung“ danach zu diagnostizieren,

485
15 Klinische und gesundheitspsychologische Diagnostik

ob sie vorliegt oder nicht. Hier ist ganz of- derartige Einordnung könnte etwa die Grup-
fensichtlich eine dimensional begründete Dia- pierung der Störungen nach Internalisierung
gnostik angemessener. und Externalisierung bilden. Internalisierende
Störungen sind hiernach Angst, Depressionen
Widiger und Samuel (2005) schlagen vor, und somatische Symptome, externalisierende
als theoretische Grundlage dieser Diagnos- Störungen wären Impulsivität, Verhaltensstö-
tik das Fünf-Faktoren-Modell der Persönlich- rungen und Substanzmissbrauch. Von dieser
keit (Costa & McCrae, 1985) und als In- relativ groben Kategorisierung ist es allerdings
strumente die entsprechenden NEO-Inventare immer noch ein weiter Weg bis zu einer wirk-
(I Kap. 10) heranzuziehen. Dieser Vorschlag lich theoriegeleiteten Konzeption klinisch auf-
könnte wegweisend sein, insbesondere dann, fälligen Verhaltens mit der Möglichkeit einer
wenn man – wie bereits in der Eignungsdia- kontinuierlichen Messung der jeweiligen Aus-
gnostik praktiziert (I Kap. 14) – die Facet- prägungen.
ten der fünf Dimensionen betrachtet und hier
dann auch, durch prognostische Validitätsstu-
dien gestützt, spezifische Kombinationen von
Facetten zur Diagnose von Störungsbildern 15.3 Gesundheitspsychologische
heranzieht. Neben der wesentlich stärkeren Diagnostik
theoretischen Fundierung hat der dimensio-
nale Ansatz den Vorteil, dass differenzierte
Daten über die Ausprägung einzelner Merk- 15.3.1 Fragestellungen der
malsbereiche geliefert werden, dass diese Da- Gesundheitspsychologie
ten reliabel erfasst werden und statistisch gut
weiterverarbeitet werden können. Immerhin Anhand der bereits in I Kap. 15.1 beschriebe-
finden sich im DSM-IV erste Ansätze zur di- nen Inhalte der Gesundheitspsychologie stel-
mensionalen Diagnostik, allerdings meist nur len sich für die praktische Arbeit mindestens
im Anhang, etwa zur Diagnose von Schizo- die folgenden Aufgaben:
phrenie nach den Dimensionen psychotische
Symptome (Wahn, Halluzinationen), Desorga- 1. Aufklärung über gesundheitsförderliche
nisiertheit und negative Symptome. und gesundheitsgefährdende Bedingungen
in der Umwelt sowie im eigenen Verhalten;
Das DSM-5 hat hier allerdings nicht die er- 2. Entwicklung und Durchführung spezifi-
warteten Fortschritte gebracht. In erster Linie scher Programme zur Verhinderung des Er-
wurde der Bereich der Störungsbilder (wie werbs gesundheitsschädigender Lebenssti-
bei jeder früheren DSM-Revision) reorgani- le (Primärprävention), zum Abbau schädli-
siert, neue Störungen wurden hinzugefügt, an- chen Verhaltens (Sekundärprävention) so-
dere neu eingeordnet und die Diagnosekriteri- wie zur Verhinderung des Rückfalls nach
en verändert (etwa hinsichtlich der Länge des Aufgabe derartiger Gewohnheiten (Rück-
Zeitraums, in dem ein Störungsbild vorliegen fallprävention);
muss, damit eine Diagnose gestellt werden 3. Förderung von Kompetenzen zur Verhinde-
darf). rung der Entwicklung bzw. zur Beeinflus-
sung des Verlaufs von Erkrankungen, z. B.
Immerhin wurde die erwähnte Enge der Ka- Aufbau von sozialen Kompetenzen, Kom-
tegorien als Schwäche erkannt und als mög- petenzerwartungen und internalen Kontroll-
licher Ausweg die Zusammenfassung einzel- überzeugungen sowie effizienten Strategien
ner Störungen zu Clustern ermöglicht. Eine der Stressbewältigung;

486
15.3 Gesundheitspsychologische Diagnostik

4. Schaffung eines hilfreichen sozialen Netz- Forschung und Praxis. Wenn überhaupt, dann
werkes als eines gesundheitsprotektiven wurde Lebensqualität über die Abwesenheit
Faktors; von Krankheit oder, bei chronischen Erkran-
5. Beseitigung oder Verringerung gesundheits- kungen (z. B. Diabetes oder Krebs), über die
gefährdender Stressoren in der Umwelt; Qualität medizinischer Maßnahmen und die
6. Durchführung diagnostischer Maßnahmen Länge der Überlebenszeit bestimmt. Tatsäch-
(einschließlich Evaluation) in allen Feldern lich sind diese Indikatoren aber nur mäßig mit
der Gesundheitspsychologie. der Qualität korreliert, die Patienten selbst ih-
rem Leben zuschreiben (vgl. Taylor, 2003).
Das hängt u. a. damit zusammen, dass Lebens-
15.3.2 Ziele und Bereiche der ge- qualität verschiedene Komponenten umfasst,
sundheitspsychologischen die in unterschiedlicher Beziehung zu medi-
Diagnostik zinischen Variablen stehen. Die wichtigsten
Aspekte sind der körperliche Zustand, das
Daten, die zur Bearbeitung dieser Aufgaben psychische Wohlbefinden, die soziale Funk-
benötigt werden, können im Prinzip mit dem tionsfähigkeit sowie die erkrankungs- bzw. be-
gesamten Spektrum diagnostischer Verfahren handlungsbezogene Symptomatik (vgl. Taylor,
erhoben werden. Aus der Art der Ziele wird 2003).
aber deutlich, dass die Erhebung subjektiver Zur Erfassung dieser Komponenten wurde
Stellungnahmen (speziell mit Hilfe von Fra- eine Reihe diagnostischer Verfahren (meist
gebogen) dominiert. Daneben interessiert die Fragebogen) entwickelt (Böhmer & Ravens-
Registrierung krankheits- bzw. gesundheits- Sieberer, 2005). Diese Instrumente sind ent-
bezogenen Wissens und sog. „traditioneller“ weder krankheitsübergreifend konzipiert, d. h.
Risikofaktoren (z. B. Übergewicht, Bluthoch- sie erfassen die gesundheitsbezogene Lebens-
druck oder erhöhtes LDL-Cholesterin). Ange- qualität von Patienten allgemein, oder sie zie-
sichts der Notwendigkeit, häufig auch Daten len auf die Lebensqualität bei spezifischen Er-
heranzuziehen, die nicht an Einzelpersonen krankungen. Die Lebensqualität wird natür-
erhoben werden können, muss verstärkt auch lich auch stark bestimmt von der Art der ko-
auf in der Psychologie weniger gebräuchli- gnitiven oder verhaltensmäßigen Maßnahmen,
che Daten zurückgegriffen werden, z. B. auf die Patienten im Umgang mit ihrer Erkran-
Archivmaterial oder epidemiologische Statisti- kung einsetzen. Deshalb gehören auch Verfah-
ken. Innerhalb dieser allgemeinen Aufgaben- ren zur Erfassung der Krankheitsverarbeitung
stellungen sind insbesondere die in I Über- bzw. -bewältigung in diesen Bereich.
sicht 15.4 aufgelisteten Bereiche für die Dia-
Eines der ersten Inventare mit krankheitsüber-
gnostik von besonderer Bedeutung. Im Folgen-
greifender Orientierung war das Sickness Im-
den sollen für einige dieser Bereiche diagnos-
pact Profile (SIP; Bergner, Bobbitt, Carter
tische Verfahren vorgestellt werden. (Für eine
& Gilson, 1981). Es erfasst die Funktionsfä-
umfassendere Darstellung vgl. u. a. Jerusalem
& Kohlmann, 2011; Schumacher et al., 2003;higkeit in den Bereichen körperliche, psycho-
Westhoff, 1993). soziale und weitere Funktionen (z. B. Schla-
fen, Essen, Arbeiten, Erholen). Der Test rea-
giert sensitiv auf Veränderungen bei der me-
Lebensqualität dizinischen Behandlung sowie auf den Ver-
lauf chronischer Erkrankungen. Eine Entspre-
Bis vor wenigen Jahren war Lebensqualität chung im deutschsprachigen Raum stellt das
kein eigenständiges Thema psychologischer Profil der Lebensqualität Chronisch Kranker

487
15 Klinische und gesundheitspsychologische Diagnostik

Übersicht 15.4 Bereiche der gesundheitspsychologischen Diagnostik.

Lebensqualität Persönlichkeitsmerkmale, z. B.
• allgemein • Typ-A-Muster, Ärger, Feindseligkeit
• erkrankungsspezifisch • Kontrollüberzeugung
• Krankheitsbewältigung • Hardiness
• Optimismus, Kompetenzerwartung
Verhalten, z. B. • Stressbewältigung
• Bewegung • Vulnerabilität, negative Affektivität
• Ernährung • Symptomwahrnehmung und -berichte
• Schlaf Konzepte und Wissen
• Hygiene • bei Gesundheitsfachleuten
• Rauchen • bei Gesundheitslaien
• Substanzmissbrauch • bei spezifisch Erkrankten
• Risikoverhalten Soziale Unterstützung

(PLC; Siegrist, Broer & Junge, 1996) dar. Auf gendliche ist der Fragebogen KINDL (Ravens-
40 Items wird die Lebensqualität in sechs Sieberer & Bullinger, 1998).
Bereichen eingeschätzt: Leistungsvermögen,
Genuss- und Entspannungsfähigkeit, Positive Die bisher vorgestellten Fragebogen erfassen
Stimmung, Negative Stimmung, Kontaktver- die Lebensqualität (bzw. das Wohlbefinden)
mögen und Zugehörigkeitsgefühl. Zusätzlich auf verschiedenen Dimensionen, vom körper-
wird die krankheitsspezifische Symptombelas- lichen Wohlbefinden über die Qualität psycho-
tung gemessen. (Zur Normierung siehe Lau- sozialer Funktionen bis zu affektiven Reaktio-
bach, Schröder, Siegrist & Brähler, 2001). nen. Der Marburger Fragebogen zum habituel-
len Wohlbefinden (MFHW; Basler, 1999) kon-
Ein weitverbreitetes Instrument ist das 36-Item zentriert sich dagegen mit seinen sieben Items
Health Survey (RAND Health Services Pro- auf einen einzigen Aspekt, den man als po-
gram, 1992), das acht Dimensionen umfasst. sitive Gestimmtheit und Lebenszufriedenheit
Hierzu existiert auch eine deutsche Adap- umschreiben könnte (Itembeispiel: „Ich habe
tation, der SF-36 Fragebogen zum Gesund- mein Leben genießen können“). Die sehr ho-
heitszustand (SF-36; Bullinger & Kirchberger, mogene Skala (α ≈ .90) kann sowohl generell
1998). Seine acht Unterskalen beziehen sich zur Erfassung des Wohlbefindens eingesetzt
auf Körperliche Funktionsfähigkeit, Körperli- werden als auch bei Patienten mit speziellen
che Rollenfunktion, Körperliche Schmerzen, chronischen Erkrankungen, z. B. chronischen
Allgemeine Gesundheitswahrnehmung, Vita- Schmerzen (vgl. Basler, 1999). Der Fragebo-
lität, Soziale Funktionsfähigkeit, Emotionale gen erhebt damit im Wesentlichen dieselben
Rollenfunktion und Psychisches Wohlbefin- Informationen, die auch mit Hilfe der bereits
den. Der Test ist an fast 3 000 Patienten unter-beschriebenen PANAS (I Kap. 10) gewonnen
schiedlicher Altersstufen und Erkrankungen werden können.
normiert und erreicht in seinen Unterskalen
Reliabilitäten zwischen .57 und .94. Es exis- Eine Reihe von Verfahren versucht dagegen,
tiert auch eine Kurzform mit zwölf Items. Ein auch die erkrankungsspezifische Lebensqua-
entsprechendes Verfahren für Kinder und Ju- lität multidimensional zu erfassen. Beispiel-

488
15.3 Gesundheitspsychologische Diagnostik

haft sollen an dieser Stelle nur drei Bereiche Der Fragebogen für Asthmapatienten (FAP-R;
herausgegriffen werden: Krebs, Asthma und Schandry & Duschek, 2003) erfasst die Le-
Diabetes. (Für eine Übersicht über verschiede- bensqualität dieser Patientengruppe auf fünf
ne Bereiche und Instrumente siehe Bowling, Dimensionen: Körperliche Asthmasymptome,
1995, sowie Schumacher et al., 2003.) Allgemeines Wohlbefinden, Einschränkungen
im persönlichen und sozialen Bereich, Emo-
Ein verbreitetes Instrument zur Abschätzung tion sowie Asthmaspezifisches Vermeidens-
der Lebensqualität bei Krebspatienten ist das verhalten. Die Reliabilitäten dieser Subskalen
Cancer Inventory of Problem Situations (CIPS; fallen mit Werten von .82 bis .94 sehr gut aus.
Schag, Heinrich, Aadland & Ganz, 1990). Das
Ausmaß an Lebensqualität wird dabei über Zur Erfassung der Lebensqualität bei Diabeti-
das Vorhandensein alltäglicher Probleme so- kern entwickelten Bradley und Lewis (1990)
wie die Erfüllung von Bedürfnissen erfasst, ein Well-being Questionnaire, das ausschließ-
die mit der Rehabilitation verbunden sind. Auf lich kognitive Aspekte von Angst, Depression
der Basis von Faktorenanalysen wurden fünf und positiver Stimmung anspricht (vgl. auch
Globalfaktoren bestimmt, die sich auf die Pro- Kohlmann & Lißmann, 2003). Auf die Erhe-
blembereiche Körperlichkeit, psychosoziale bung körperlicher Indikatoren wird verzichtet,
Beziehungen, medizinische Behandlung, Part- da diese Symptome auch durch die aktuelle
nerschaft und Sexualität beziehen. Blutzuckerlage bedingt sein können. Der Fra-
gebogen erfasst mit jeweils zwei Skalen nega-
Der von der European Organization for Rese- tive und positive Aspekte des Wohlbefindens;
arch and Treatment of Cancer (EORTC) ent- für den negativen Bereich sind dies Depres-
wickelte Fragebogen zur Lebensqualität liegt sion und Angst, für den positiven psychische
in elf Sprachen (darunter Deutsch) vor und Energie und Wohlbefinden.
erfasst mit 30 Items die Dimensionen psy- Die Items wurden allerdings offenbar intui-
chisches Befinden, körperliche Beschwerden, tiv und nicht auf Grund statistischer Klassi-
funktionale Kompetenz und soziale Unterstüt- fikationen oder theoretischer Ableitungen zu
zung (Aaronson et al., 1993). In einer Zusatz- Skalen zusammengefasst. (Für verschiedene
skala werden krankheits- und therapiespezifi- Strategien zur Konstruktion von Fragebogen
sche Aspekte verschiedener Krebserkrankun- I Kap. 10.) Diese Vorgehensweise lässt sich
gen erfasst. zum einen daran erkennen, dass die Zuord-
nung bestimmter Items zu einzelnen Skalen
Die Fragen zur Lebenszufriedenheit (FLZ) ba- überhaupt nicht nachvollziehbar ist ( z. B. das
siert auf der Annahme, dass die globale Bewer- Thema Schlaflosigkeit zur Angstskala). Zum
tung der Lebensqualität sich aus Dimensionen anderen finden sich Items mit fast identischen
zusammensetzt, die jedoch bei der Bildung des Formulierungen in unterschiedlichen Skalen
entsprechenden Index individuell gewichtet (z. B. zum Thema Niedergeschlagenheit in der
werden müssen (Henrich & Herschbach, 1995, Depressions- und der Energieskala; zu dieser
2000). Die FLZ bestehen derzeit aus drei Mo- und weiterer Kritik vgl. Hermanns und Kulzer,
dulen, dem allgemeinen Modul (das acht allge- 1995).
meine Lebensbereiche umfasst), dem Gesund-
heitsmodul (das sich auf acht diagnoseunab- Hermanns und Kulzer (1995) führten deshalb
hängige Aspekte der Gesundheit bezieht) und eine Faktorenanalyse der 22 Items einer deut-
dem erkrankungsspezifischen Modul (in dem schen Adaptation des Fragebogens durch und
auf die spezifische Krebserkrankung, z. B. ein konnten – erwartungsgemäß – zwei Faktoren
gastrointestinaler Tumor, eingegangen wird). sichern. Die erste Komponente umfasste alle

489
15 Klinische und gesundheitspsychologische Diagnostik

Items positiver, die zweite Komponente alle zur Krankheitsverarbeitung (FKV; Muthny,
Items negativer Befindlichkeit. Zusätzlich fand 1989) und die Trierer Skalen zur Krankheits-
sich, dass die Items der ersten Komponente bewältigung (TSK; Klauer & Filipp, 1993).
zeitlich länger erstreckte, also vergleichswei-
se stabile Befindlichkeiten ansprechen („Mein Der FKV existiert in einer ausführlichen Versi-
tägliches Leben ist ausgefüllt von Dingen, die on mit 102 Items und zwölf Skalen (FKV 102)
mich interessieren“). Demgegenüber themati- sowie zwei Kurzformen mit jeweils 35 Items
sieren die Items der negativen Befindlichkeit zur Selbst- und Fremdbeschreibung (FKV-LIS-
eher kürzer erstreckte Zustände („Ich fühle SE und FKV-LIS-FE). In der Langform rea-
mich nervös und ängstlich“). lisiert Muthny im Sinne der in I Kap. 10 ge-
troffenen Unterscheidung einen mikroanalyti-
Die Ergebnisse zum Fragebogen von Brad-
schen Ansatz, unterscheidet also, ähnlich wie
ley und Lewis haben einen Umstand verdeut-
der SVF (Jahnke et al., 2002), eine größere
licht, der auch auf die meisten anderen In-
Anzahl von Bewältigungsstrategien. In diesen
ventare zur Lebensqualität bzw. zum Wohl-
Strategien kommen entweder verhaltensbezo-
befinden zutrifft, wenn diese auf die Situa-
gene Operationen (z. B. Problemanalyse und
tion chronisch Kranker angewendet werden.
Lösungsverhalten) oder kognitive (z. B. kogni-
Wenn man hier auf Information zum körperli-
tive Vermeidung und Dissimulation oder Re-
chen Zustand und zur erkrankungs- bzw. be-
lativierung durch Vergleich) bzw. emotiona-
handlungsbezogenen Symptomatik verzichtet,
le Reaktionen (depressive Verarbeitung, Miss-
dann reduziert sich das Inventar im Wesent-
trauen und Pessimismus) zum Ausdruck.
lichen auf einen Test positiver und negativer
Emotionalität. Diese Merkmale können aber
Die Reliabilitäten erreichen allerdings nur für
etwa mit der PANAS (Watson et al., 1988)
einzelne Skalen Werte von über .80, fallen da-
präziser erfasst werden, insbesondere dann,
mit also zum Teil mäßig aus. Dies gilt naturge-
wenn man am positiven Affekt nochmals die
mäß in besonderem Maße für die Kurzformen.
beiden Komponenten Aktivation und positive
Von deren Skalen (depressive Verarbeitung, ak-
Gestimmtheit unterscheidet (vgl. Egloff et al.,
tives problemorientiertes Coping, Ablenkung
2003). Wenn derartige Inventare einen prakti-
und Selbstaufbau, Religiosität und Sinnsuche,
schen Beitrag zur Behandlung von Patienten
Bagatellisierung und Wunschdenken) schei-
leisten wollen, dann dürfen sie sich also nicht
nen nur depressive Verarbeitung und aktives
auf die emotionale Befindlichkeit konzentrie-
problemorientiertes Coping eine zufriedenstel-
ren, sondern müssen vordringlich Merkmale
lende psychometrische Qualität aufzuweisen
wie den selbsteingeschätzten körperlichen Zu-
(vgl. Hardt et al., 2003).
stand, die erlebte Symptomatik (insbesonde-
re als Konsequenz bestimmter Behandlungen,
Das Inventar TSK entwickelte sich aus
z. B. einer Chemotherapie) sowie die Gestal-
Forschungen zur Krankheitsbewältigung bei
tung sozialer Aktivitäten thematisieren.
Krebspatienten (vgl. Filipp, Klauer, Ferring
Lebensqualität und Wohlbefinden chronisch & Freudenberg, 1990). Es basiert auf einem
Kranker hängen zum Teil von der individuel- Modell, das Bewältigungsstrategien nach drei
len Art des Umgangs mit der Krankheit ab. unabhängigen Gesichtspunkten klassifiziert:
Auch im Bereich der Krankheitsverarbeitung Richtung der Aufmerksamkeit (auf die Erkran-
bzw. -bewältigung lassen sich krankheitsüber- kung zentriert oder von ihr abgewandt), Ebene
greifende und spezifische Ansätze unterschei- der Bewältigungsreaktion (offen vs. intrapsy-
den. Zwei bekannte Verfahren mit allgemeiner chisch) sowie soziale Einbindung der Bewäl-
Orientierung sind der Freiburger Fragebogen tigungsbemühungen (hoch vs. niedrig). Aus

490
15.3 Gesundheitspsychologische Diagnostik

der Kreuzklassifikation dieser Gesichtspunk- kombinierten Strategie (I Kap. 10) konstru-


te resultierten acht verschiedene Gruppen von iert, also unter Rückgriff auf theoretische Vor-
Bewältigungsstrategien, zu denen jeweils acht stellungen zur Schmerzregulation sowie über
Items formuliert wurden. statistische Analysen zur Bestimmung der Ein-
dimensionalität der Skalen. Der FSR besteht
Faktorenanalysen dieses Fragebogens zur Er- aus 56 Aussagen, die sich auf sieben Ska-
fassung von Formen der Krankheitsbewälti- len verteilen: Kompetenz, Schmerzintensität,
gung (FEKB) konnten diese Apriori-Struktur Angst, Depressivität, Vermeidung, Resignati-
jedoch nicht replizieren (Klauer, Filipp & Fer- on und Ablenkung. Die Reliabilitäten variie-
ring, 1989). Stattdessen ließen sich fünf Di- ren zwischen .70 und .86, fallen damit also
mensionen sichern, aus denen dann der neue teilweise etwas niedrig aus.
Fragebogen TSK gebildet wurde: Rumination,
Suche nach sozialer Einbindung, Bedrohungs- Der Fragebogen zur Erfassung der Schmerz-
abwehr, Suche nach Information und Erfah- verarbeitung (FESV; Geissner, 2001) geht
rungsaustausch sowie Suche nach Halt in der von drei Komponenten aus, von denen sich
Religion. Der TSK besteht nur noch aus 37 zwei auf Schmerzbewältigung und eine auf
Items und weist für seine Unterskalen Reliabi- schmerzbedingte psychische Beeinträchtigun-
litäten zwischen .76 und .82 aus. gen beziehen. Jede Komponente umfasst drei
Subskalen. Zur kognitiven Schmerzbewälti-
Die Inventare FKV und TSK sind so ange- gung gehören die Skalen Handlungskompeten-
legt, dass sie auf Bewältigungsprozesse bei zen, kognitive Umstrukturierung und Kompe-
einer Vielzahl von Erkrankungen anwendbar tenzerleben, zur behavioralen Schmerzbewälti-
sind. Diese Orientierung ist besonders dann gung die Dimensionen mentale Ablenkung, ge-
sinnvoll, wenn Erkrankungen (wie z. B. Herz- gensteuernde Aktivitäten sowie Ruhe und Ent-
Kreislauf- oder Tumorerkrankungen) komplex spannung und zur Beeinträchtigung die Skalen
sind und vielfältige Äußerungsformen haben. schmerzbedingte Hilflosigkeit und Depression,
In diesem Fall würden zu spezifische Fragen schmerzbedingte Angst sowie schmerzbeding-
(etwa zur Bewältigung bei Brustkrebs) dann ter Ärger. Die internen Konsistenzen der neun
nicht für andere Bereiche dieser Erkrankungs- Skalen bewegen sich im gleichen Bereich wie
gruppe gelten. Deshalb wurden die Items der die des FSR.
TSK, die ursprünglich für die Bewältigung bei
Der Fragebogen zur Bewältigung von Hauter-
Tumorpatienten konzipiert worden waren (und
krankungen (FBH; Stangier, Ehlers & Gie-
dort auch nach wie vor ihr Haupteinsatzfeld
ler, 1996) stellt eine Fragebogenbatterie dar,
haben), so formuliert, dass sie auch auf ande-
deren Einzeltests sich mit unterschiedlichen
re schwere Erkrankungen angewendet werden
Problemen von Hauterkrankungen befassen.
können.
Der Marburger Hautfragebogen (MHF) ist für
Nun gibt es daneben chronische Erkrankun- alle chronischen Hautkrankheiten konzipiert
gen, die zwar weit verbreitet sind, sich aber (z. B. Akne, Psoriasis), während der Marbur-
vergleichsweise spezifisch äußern. In diesen ger Neurodermitis-Fragebogen (MNF) spezi-
Fällen ist die Konstruktion krankheitsspezifi- ell auf Probleme und Bewältigungsmöglich-
scher Bewältigungsinventare sinnvoll. Als Bei- keiten bei Neurodermitis zielt. Beide Frage-
spiele sollen hier chronische Schmerzen und bogen erfassen die folgenden Bereiche: Sozia-
Hauterkrankungen besprochen werden. le Ängste und Vermeidensverhalten, Juckreiz-
Kratz-Zirkel, Hilflosigkeit auf Grund von
Der Fragebogen zur Schmerzregulation (FSR; Kontrollverlust, Ängstlich-depressive Stim-
Schermelleh-Engel, 1995) wurde nach einer mung, Einschränkung der Lebensqualität so-

491
15 Klinische und gesundheitspsychologische Diagnostik

wie Informationssuche. Speziell für juckende einzelner Items zu Subskalen kaum nachvoll-
Hauterkrankungen enthält der FBH noch den ziehbar ist. Dementsprechend fallen die Relia-
Juckreiz-Kognitions-Fragebogen (JKF). Er the- bilitäten mit Werten zwischen .71 und .79 auch
matisiert krankheitsbezogene Kognitionen wie eher mäßig aus. Eine deutschsprachige Versi-
Katastrophisieren oder über konkrete Bewälti- on des CHIP mit gleicher Struktur und psycho-
gungsmöglichkeiten nachdenken. Der Frage- metrischer Qualität wie die Originalversion,
bogen für Eltern von Kindern mit Neuroder- der Fragebogen zur elterlichen Krankheitsbe-
mitis (FEN) wendet sich an Eltern von Kin- wältigung, wurde von McCubbin, McCubbin,
dern mit Neurodermitis und erfasst die fol- Cauble und Goldbeck (2001) vorgelegt. Empi-
genden Bereiche: Aggression/Hilflosigkeit im rische Befunde zur Bewältigung in Familien
Umgang mit Kratzen des Kindes, Protektion, chronisch kranker Kinder werden in Seiffge-
Kontrolle von Kratzen sowie Demoralisierung Krenke et al. (1996) berichtet.
bezüglich der Behandlung. Die Reliabilitäten
der vier Fragebogen des FBH liegen zwischen
.62 und .93, fallen also zumindest zum Teil Verhalten
unbefriedigend aus.
Bestimmte Verhaltensweisen stehen in aus-
Die Skala FEN aus dem Fragebogen zur Be- geprägter Beziehung zum Gesundheitsstatus.
wältigung von Hautkrankheiten weist darauf Dieses Verhalten kann entweder gesundheits-
hin, dass Krankheitsbewältigung oft nicht nur fördernd sein (z. B. regelmäßig und ausrei-
eine Aufgabe des unmittelbar Betroffenen, chend schlafen oder sportlich aktiv sein) oder
sondern auch seiner Angehörigen ist. Dies gilt negative Konsequenzen für die Gesundheit ha-
in besonderem Maße für die Eltern erkrankter ben (z. B. Rauchen, starker Alkoholkonsum
Kinder. oder übermäßige und fette Ernährung). Wenn
derartige Verhaltensweisen fest im Verhaltens-
Das Coping Health Inventory for Parents repertoire verankert sind und oft (meist ohne
(CHIP; McCubbin et al., 1983) erfasst mit bewusste Kontrolle) ausgeführt werden, haben
45 Items die Aussagen von Eltern schwer er- sie den Status von Gewohnheiten („health ha-
krankter oder chronisch kranker Kinder zur bits“) erworben. Solche (fördernde oder schä-
Gestaltung des Familienlebens unter dem Ein- digende) Gewohnheiten entwickeln sich meist
fluss dieser Belastung. Die Items verteilen sich während der Kindheit und stabilisieren sich
auf drei faktorenanalytisch bestimmte Subska- (je nach Art des Verhaltens) etwa ab dem 12.
len: Aufrechterhalten der familiären Integra- Lebensjahr. Sie werden gewöhnlich über be-
tion und Kooperation sowie einer optimisti- obachtendes Lernen (mit Eltern oder Peers als
schen Sichtweise der Situation; Aufrechterhal- Vorbildern) übernommen und auf dem Weg
ten von sozialer Unterstützung, Selbstwertge- der Bekräftigung etabliert; ob sie dann aber
fühl und psychologischer Stabilität; Verstehen aufrecht erhalten werden, hängt nicht mehr
der medizinischen Situation durch Kommuni- von diesen Lernbedingungen ab, sondern vom
kation mit anderen Eltern und medizinischem Vorhandensein bestimmter Umweltbedingun-
Personal. gen, mit denen sie assoziiert sind (z. B. einem
bestimmten Essensangebot).
Schon ein Blick auf die Benennung der drei
Komponenten macht deutlich, dass die Sub- In einer inzwischen klassischen Untersuchung,
skalen offenbar inhaltlich recht inhomogen der Alameda County-Studie (Berkman &
sind. Dieser Eindruck wird – wie oft bei rein Breslow, 1989), konnte die Bedeutung be-
faktorenanalytisch bestimmten Skalen – durch stimmter Gewohnheiten für den Gesundheits-
den Umstand verstärkt, dass die Zuordnung status nachgewiesen werden. Die Autoren der

492
15.3 Gesundheitspsychologische Diagnostik

Studie definierten sieben positive Gesundheits- Blutdruck, Übergewicht, Drogen (außer Al-
gewohnheiten, die sie bei ca. 7 000 Personen kohol und Nikotin), körperliche Aktivität, Er-
erfassten: nährung, Entspannung, Schlaf, Stress, Koffein-
konsum sowie Familiengeschichte verhaltens-
1. Jede Nacht 7 bis 8 Stunden schlafen. bezogener Erkrankungen. Auch der Leipziger
2. Nicht rauchen. Lebensstilfragebogen für Jugendliche (LLfJ;
3. Nicht mehr als zwei alkoholische Becker-Zieglschmid & Brähler, 2007) erfasst
Getränke pro Tag konsumieren. in seinen Teilen Lebensstil und Ernährung spe-
4. Regelmäßig Sport treiben. zifische Formen des Gesundheitsverhaltens
5. Nicht zwischen den Mahlzeiten essen. wie etwa Sporttreiben oder Essgewohnheiten.
6. Nicht mehr als 10 % Übergewicht
haben. Der Fragebogen zum Gesundheitsverhalten
von Kindern (GEKI; Meier, Eschenbeck &
Kohlmann, 2013) konzentriert sich auf zwei
Mit diesen Gewohnheiten sind auch schon
Bereiche des Gesundheitsverhaltens: Schutz
die für die Diagnostik des Gesundheitsverhal-
und Ernährung. Jeder dieser Bereiche wird
tens wichtigen Bereiche bestimmt. So misst
über drei Skalen erfasst. Für das Schutzver-
der Fragebogen zur Erfassung des Gesund-
halten sind dies Sicherheit im Straßenverkehr,
heitsverhaltens (FEG; Dlugosch & Krieger,
Sonnenschutz und Zahnhygiene und für die
1995) gesundheitsbezogene Verhaltensweisen
Ernährung Ungesunde Ernährung, Gesunde
und Einstellungen in acht Bereichen: Er-
Ernährung sowie Schulfrühstück. Außerdem
nährung, Rauchen, Alkohol, Bewegung, Me-
kann für jeden Bereich aus den Items der je-
dikamente, Schlaf, Allgemeines Wohlbefin-
weiligen Einzelskalen ein Gesamtscore gebil-
den/Psychosoziale Probleme sowie Umgang
det werden. Hinsichtlich der Validität des GE-
mit Gesundheit und Krankheit. Zu einzelnen
KI zeigte sich u. a., dass die Skala Sicherheit
Bereichen existieren mehrere Skalen, zur Er-
im Straßenverkehr signifikant mit dem Ergeb-
nährung beispielsweise Konsum vom Diät-
nis der theoretischen Fahrradprüfung korrelier-
produkten, Konsum traditioneller (risikorei-
te (während die beiden anderen Skalen zum
cher, z. B. süßer oder ballaststoffarmer) Nah-
Schutzverhalten nicht mit diesem Kriterium as-
rungsmittel, Konsum gesundheitsförderlicher
soziiert waren). Für das Ernährungsverhalten
Nahrungsmittel (z. B. Vollkornprodukte, Obst,
fanden sich u. a. bedeutsame Zusammenhänge
Gemüse) und Unkontrolliertes Essverhalten
der Skala Gesunde Ernährung mit dem Ernäh-
(z. B. zwischen den Mahlzeiten essen). Die
rungswissen und der Qualität des Pausenbrots.
Reliabilitäten der Unterskalen variieren von
Auch die Skala Schulfrühstück korreliert mit
.60 bis .91, sind also teilweise unzureichend.
diesem Kriterium.
Dieses Ergebnis verwundert nicht, wenn man
bedenkt, dass einzelne Bereiche (z. B. Bewe-
Neben diesen auf die umfassende Erhebung
gung) durch recht unterschiedliche Verhaltens-
des Gesundheitsverhaltens ausgerichteten In-
weisen konstituiert werden.
ventare existieren auch Tests, die sich auf ein
Auch die zahlreichen Inventare zur Erfassung spezielles Verhalten konzentrieren. Im Zen-
des Lebensstils enthalten in der Regel Sek- trum steht hier das Essverhalten, das etwa mit
tionen, in denen gesundheitsbezogene Risiko- dem Fragebogen zum Essverhalten (FEV; Pu-
merkmale registriert werden. So erfragt das Li- del & Westenhöfer, 1989; amerikanische Ori-
festyle Appraisal Questionnaire (LAQ; Craig, ginalversion: Stunkard & Messick, 1985) dif-
Hancock & Craig, 1996) mit 21 Items Merk- ferenziert erfasst werden kann. Der FEV be-
male wie Alkoholkonsum pro Tag, Rauchen, steht aus drei Unterskalen: kognitive Kontrolle

493
15 Klinische und gesundheitspsychologische Diagnostik

des Essverhaltens, gezügeltes Essen (Beispie- scher Informationen. Im Zentrum steht hier
litem: „Ich esse bewusst nicht so viel, bis ich die Registrierung des derzeitigen Aktivitäts-
völlig satt bin“); Störbarkeit des Essverhal- niveaus nach motivationalen (Verhaltensinten-
tens (durch emotionale und situative Auslöser; tionen) und behavioralen (Verhaltensregelmä-
„Wenn ich andere Leute essen sehe, bekom- ßigkeiten) Merkmalen. Den fünf Stadien des
me ich auch Appetit“); Erlebte Hungergefühle transtheoretischen Modells der Verhaltensän-
(„Oft kommt mir mein Magen wie ein Fass oh- derung von Prochaska und DiClemente (1983)
ne Boden vor“). Die einzelnen Skalen, die mit entsprechend, entwickelte Cardinal (1995) ein
Reliabilitäten zwischen .74 und .87 befriedi- fünfstufiges Item. Stufe 1 enthält die Aussa-
gende Werte aufweisen, korrelieren differenzi- ge „Ich treibe momentan keinen regelmäßigen
ell mit verringerter bzw. vermehrter Nahrungs- Sport, und beabsichtige nicht, in den nächs-
aufnahme und stehen in einer interaktiven Be- ten sechs Monaten damit zu beginnen“. Perso-
ziehung zum Körpergewicht. So konnten Wes- nen, die dieser Aussage zustimmen, befinden
tenhöfer, Pudel, Maus und Schlaf (1987) in sich nach Prochaska und DiClemente im Sta-
einer Erhebung bei 35 000 Leserinnen einer dium der Präkontemplation (in dem also noch
Frauenzeitschrift zeigen, dass geringe Kontrol- keine Intentionsbildung hinsichtlich einer Ver-
le und hohe Störbarkeit mit dem höchsten, ho- haltensänderung stattgefunden hat). Die Zu-
he kognitive Kontrolle und geringe Störbarkeit stimmung zur Aussage „Ich treibe momentan
mit dem niedrigsten Körpergewicht verbunden keinen regelmäßigen Sport, aber ich beabsich-
waren. tige, in den nächsten sechs Monaten damit zu
beginnen“ charakterisiert dagegen die begin-
Anders als das Essverhalten, bei dem es sich nende Intentionsbildung (Kontemplationssta-
über weite Strecken um die Manifestation dium). Das nächste Stadium der Verhaltensän-
automatisierten Verhaltens handelt, stellt der derung, die Präparation, ist durch die Aussage
Bereich der Bewegung, insbesondere wenn „Ich treibe Sport, aber nur unregelmäßig“ ge-
hierunter sportliche Aktivität verstanden wird, kennzeichnet. Die beiden letzten Aussagen be-
ein zum größten Teil geplantes Verhalten dar. ziehen sich auf Personen, die eine regelmäßige
Dementsprechend haben wir es hier mit dem Handlung aufgenommen haben (Aktionssta-
Einfluss sehr unterschiedlicher Faktoren zu dium) bzw. diese bereits über sechs Monate
tun, insbesondere mit Motiven und persönli- ausführen (Stadium der Aufrechterhaltung).
chen Zielen, Erwartungen, wahrgenommenen
Barrieren sowie Erfolgsbewertungen. Mit der Ausübung sportlicher Aktivität kön-
Diagnostische Verfahren im Bereich Bewe- nen sehr unterschiedliche Ziele, von denen
gung spiegeln diese Komplexität insofern wi- nicht alle gesundheitsbezogen sind, verbun-
der, als sie sich in der Regel jeweils nur auf ein- den sein. Das Exercise Motivation Inventory
zelne Gruppen von Konzepten beziehen (z. B. (EMI; Markland & Ingledew, 1997) dient der
Motive zum Sporttreiben). Dabei haben sie Erfassung derartiger Ziele. Es besteht aus 51
meist den Status forschungsorientierter Verfah- auf einer sechsstufigen Skala zu beantworten-
ren, sind also noch nicht auf die Einzelfalldia- den Items, in denen nach persönlichen Grün-
gnostik ausgerichtet. Eine Übersicht über Ver- den gefragt wird, die die betreffende Person
fahren in den einzelnen Bereichen und deren dazu veranlassen könnten, sportlich aktiv zu
theoretische Grundlagen gibt Thiex (2006). sein (z. B. „um abzunehmen“). Das EMI glie-
dert sich in 14 faktoriell gewonnene Subskalen
Wichtig für die Planung von Interventionen (z. B. Stress management, Enjoyment, Affilia-
zur Erhöhung der sportlichen Aktivität ist zu- tion, Ill-health avoidance oder Weight manage-
nächst einmal die Erhebung sportbiographi- ment). Thiex (2006) führte anhand der Daten

494
15.3 Gesundheitspsychologische Diagnostik

von 469 Teilnehmern eine Faktorenanalyse ei- wenn ich bei diesem Ziel Fortschritte mache“)
ner deutschen Adaptation des EMI durch und sowie Selbstkritik („Ich bin sehr selbstkritisch,
konnte dabei sechs Komponenten sichern: so- wenn ich keine Fortschritte bei diesem Ziel
ziale Anerkennung (Beispielitem: „Um mei- mache“). Im Bereich Aktivierung werden mit
ne Fähigkeiten mit denen anderer Menschen zwei Skalen affektive Prozesse erhoben, die
zu vergleichen“), Psychologische Ziele („Weil bei der Zielverfolgung eine Rolle spielen kön-
Sport mich belebt und aufbaut“), Präventi- nen. Es handelt sich dabei um Negative („Es
on und Gesundheitsförderung („Um meine beunruhigt mich, an dieses Ziel zu denken“)
Beweglichkeit zu erhalten“), Körperbezoge- und Positive Aktivierung („Auf dieses Ziel hin-
ne Ziele („Um mein Gewicht zu kontrollie- zuarbeiten macht mir Freude“). Zusätzlich zu
ren“), Affiliation („Um Zeit mit Freunden zu diesen Skalen enthält die GSAB-d noch eine
verbringen“) sowie Gesundheitlicher Druck Skala Zielkonflikt („Wenn ich dieses Ziel ver-
(„Weil mein Arzt mir Sport empfohlen hat“). folge, muss ich andere Ziele zurückstecken“).
Mit Ausnahme der letztgenannten Skala, die Die Reliabilitäten der Skalen fallen mit Aus-
bei drei Items nur eine Reliabilität von .66 er- nahme der Zusatzskala Zielkonflikt (α = .63)
reicht, sind die Werte der anderen fünf Skalen mit Werten zwischen .73 und .91 zufrieden-
mit Koeffizienten zwischen .87 und .92 ausge- stellend aus.
zeichnet.
Die GSAB lässt sich natürlich überall dort
einsetzten, wo Personen über die Formulie-
Die Goal Systems Assessment Battery (GSAB;
rung spezifischer Ziele eine Verhaltensände-
Karoly & Ruehlman, 1995) erfasst die indi-
rung anstreben. Dies gilt für die Klinische Psy-
viduelle Repräsentation verschiedener Aspek-
chologie (etwa bei der Zielsetzung der Über-
te von Zielen, die Gegenstand einer geplan-
windung eines phobischen Vermeidensverhal-
ten Verhaltensänderung sind. Es handelt sich
tens) ebenso wie für den Bereich des Gesund-
dabei um die Aspekte Richtung, Regulation,
heitsverhaltens (z. B. bei der Ernährungsum-
Kontrolle und Aktivierung. In der deutschen
stellung). Bei der Zielsetzung der Erhöhung
Adaptation (GSAB-d; Pöhlmann, 1999) wer-
der sportlichen Aktivität ist die Erfassung der
den diese Aspekte durch neun Skalen mit je-
verschiedenen Aspekte der Zielrepräsentation
weils vier Items, die fünfstufig zu beantworten
jedoch besonders sinnvoll, da es sich hier, zu-
sind, abgedeckt. Dem Aspekt Richtung (d. h.
mindest in den ersten Stadien der Verhaltens-
die Orientierung auf ein Ziel hin) sind die Ska-
änderung, um ein stark geplantes und kontrol-
len Wert (Beispielitem: „Dieses Ziel ist loh-
liertes Verhalten handelt, so dass Störungen
nend“) und Selbstwirksamkeit („Ich bin fähig,
im Prozess der Veränderung (etwa durch Ziel-
dieses Ziel zu erreichen“) zugeordnet. Zur Re-
konflikte) auch relativ gut lokalisiert werden
gulation der Zielerreichung gehören die Ska-
können (vgl. Thiex, 2006).
len Sozialer Vergleich („Ich bewerte meinen
Erfolg bezüglich dieses Ziels daran, wie gut
andere Menschen dieses Ziel erreichen“) und Persönlichkeitsmerkmale
Self-Montioring („Ich achte auf Hindernisse,
die meinem Erfolg im Wege stehen könnten“). Wir konzentrieren uns an dieser Stelle auf
Beim Aspekt Kontrolle werden mit drei Ska- Merkmale, die entweder explizit für den Ge-
len unterschiedliche Strategien der Zielverfol- sundheitsbereich konzipiert (z. B. das Typ A-
gung erfasst: Planung/Stimuluskontrolle („Ich Verhaltensmuster) oder – bei allgemeineren
plane die Schritte im Voraus, die notwendig Merkmalen – speziell an den Gesundheitsbe-
sind, um dieses Ziel zu erreichen“), Selbstbe- reich angepasst wurden (z. B. erkrankungsspe-
lohnung („Ich gönne mir etwas besonderes, zifische Kontrollüberzeugungen).

495
15 Klinische und gesundheitspsychologische Diagnostik

Für den medizinischen Laien scheint es offen- siologische Korrelate einen direkten Einfluss
sichtlich zu sein, dass die „Persönlichkeit“ ei- auf den Gesundheitsstatus ausüben. Von ver-
nes Menschen seinen Gesundheitsstatus beein- haltensbezogenen Persönlichkeitsmerkmalen
flusst. Ein „nervöser“ Mensch soll etwa eher soll über die Ausübung bzw. Unterlassung be-
Magenprobleme entwickeln als eine „ruhige“ stimmter Verhaltensweisen (z. B. Teilnahme
Person, ein „aufbrausender Charakter“ eher an Vorsorgemaßnahmen, Präventivverhalten
Gefahr laufen, einen Schlaganfall zu erleiden wie die Benutzung von Sonnencremes, ge-
als jemand, der emotional „ausgeglichen“ ist. sundheitsschädigendes Verhalten wie Rauchen
Dementsprechend stellt sich für den Laien gar oder Risikoverhalten) ein indirekter Weg zur
nicht erst die Frage, auf welchen Wegen sich Entwicklung spezifischer Erkrankungen (z. B.
dieser Einfluss denn äußert. Haut- oder Lungenkrebs, koronare Herzerkran-
kung oder AIDS) führen (vgl. Adler & Matt-
Tatsächlich sind die Verbindungswege zwi-
hews, 1994; Kohlmann, 2003; Weber, 2005).
schen Persönlichkeit und Erkrankung jedoch
komplex und häufig nur vage definiert. Ge-
Ein zentrales Thema verhaltensbezogener Per-
nerell lassen sich zwei Wege bzw. zwei Ar-
sönlichkeitsmerkmale ist die von der betreffen-
ten von Effekten unterscheiden. Beim direk-
den Person erlebte Kontrolle, und zwar über
ten Effekt initiieren oder verstärken die phy-
das eigene Verhalten, über dessen Konsequen-
siologischen Korrelate bestimmter Persönlich-
zen sowie über situative Umstände. Wichti-
keitsprozesse einen Erkrankungsprozess. Un-
ge Persönlichkeitsdispositionen dieser Gruppe
ter Persönlichkeitsprozessen verstehen wir da-
sind deshalb die Kontrollüberzeugungen, die
bei eine Reihe verhaltenssteuernder kognitiv-
Selbstwirksamkeitserwartung oder der Opti-
emotionaler Prozesse (z. B. aktuelle Erwartun-
mismus (I Kap. 10).
gen, Bewertungen, Anstrengungen zur Selbst-
regulation oder emotionale Reaktionen), die
Allerdings darf man sich die Unterscheidung
einerseits durch bestimmte Persönlichkeitsdis-
zwischen direktem und indirektem Effekt
positionen, andererseits durch aktuelle situati-
bzw. emotions- und verhaltensbezogenen Per-
ve Merkmale (z. B. die Konfrontation mit ei-
sönlichkeitsmerkmalen nicht im Sinne einan-
ner gefährlichen Situation) angestoßen werden
der ausschließender Kategorien vorstellen. So
(vgl. Mischel & Shoda, 1995). Beim indirek-
schließen die Begriffe direkter Effekt bzw.
ten Effekt interagieren Umwelt- und Persön-
Emotionsbezug eine Vermittlung über Verhal-
lichkeitsfaktoren hinsichtlich der Ausübung
tensprozesse nicht aus. Emotionen wie Angst,
gesundheitsschädigenden bzw. -fördernden
Ärger, Trauer oder Freude sind eingebettet in
Verhaltens, das dann seinerseits den Gesund-
Bedeutungszuweisungen und zusammen mit
heitsstatus beeinflusst.
diesen mit bestimmten Handlungstendenzen
Entsprechend dieser Unterscheidung zwischen verbunden, etwa aktiver Annäherung bei Freu-
einem direkten, über physiologische Prozes- de und Ärger oder passiver Vermeidung bei
se verlaufenden, und einem indirekten, über Trauer. Diese Aktivitäten sollten auch das ge-
Verhaltensprozesse vermittelten, Einfluss der sundheitsbezogene Verhalten beeinflussen.
Persönlichkeit auf den Gesundheitsstatus las-
sen sich auch zwei Gruppen gesundheitsbe- Umgekehrt sind verhaltensbezogene Merkma-
zogener Persönlichkeitsmerkmale unterschei- le wie etwa Optimismus nicht nur mit dem
den. Emotionsbezogene Persönlichkeitsmerk- Gesundheitsverhalten, sondern auch mit phy-
male (z. B. negative Affektivität, Feindselig- siologischen Prozessen verbunden (vgl. u. a.
keit, Emotionsunterdrückung) sollen über spe- Räikkönen, Matthews, Flory, Owens & Gump,
zifische emotionale Reaktionen und deren phy- 1999; Scheier & Carver, 1992). Schließlich

496
15.3 Gesundheitspsychologische Diagnostik

lässt sich eine bestimmte Gruppe gesundheits- An dieser Stelle interessiert nur die diagnosti-
bezogener Persönlichkeitsmerkmale, nämlich sche Erfassung solcher Dispositionen, die spe-
die Dispositionen der Stressbewältigung (etwa ziell für den Gesundheitsbereich entwickelt
Vigilanz und kognitive Vermeidung; vgl. Kroh- wurden. (Für diagnostische Verfahren zu glo-
ne, 2010; I Kap. 10), weder der einen noch baleren Dispositionen mit Relevanz für die
der anderen Gruppe zuordnen. So ist etwa ko- Gesundheit I Kap. 10 und 11.) Das bedeu-
gnitive Vermeidung sowohl mit unmittelbaren tet aber nicht, dass globalere Konstrukte an
physiologischen Prozessen verbunden, etwa dieser Stelle ausgeblendet werden. Für viele
Blutdruckerhöhung (King. Taylor, Albright & derartige Merkmale hat sich nämlich gezeigt,
Haskell, 1996) oder verminderter Immunkom- dass bestimmte Indikatoren in einem einge-
petenz (Esterling, Antoni, Kumar & Schnei- grenzten Bereich besser von bereichsspezifi-
derman, 1990), als auch mit gesundheitsbe- schen als von allgemeinen Tests dieses Kon-
zogenen Verhaltensweisen, beispielsweise der struktes vorhergesagt werden können. Dies
Nichtteilnahme an Maßnahmen der Vorsorge gilt in besonderem Maße für den Gesundheits-
und Überwachung im Hinblick auf Krebser- bereich. So lässt sich nach Rotter (1966) das
krankungen (Miller, 1995). Verhalten in Lebensbereichen, in denen Men-
schen noch wenig Erfahrung haben, am besten
Viele globale Persönlichkeitskonstrukte ste-
von ihrer allgemeinen Kontrollüberzeugung,
hen in direkter oder indirekter Beziehung zum
wie sie mit dem IPC-Fragebogen erfasst wird,
Gesundheitsstatus (Krohne & Tausch, 2014) .
vorhersagen. In Bereichen, in denen Perso-
Hierzu gehören zum einen die eher emotions-
nen jedoch schon intensive Erfahrungen er-
bezogenen Merkmale Ängstlichkeit, Ärgernei-
worben haben (z. B. bei einer chronischen Er-
gung (einschließlich der Feindseligkeit) und
krankung), sollten bereichsspezifische Tests
Depressivität, wobei sich Ängstlichkeit und
bessere Prädiktoren sein. Dementsprechend
Depressivität nochmals zur negativen Affek-
lässt sich das Kontrollerleben hinsichtlich ver-
tivität zusammenfassen lassen. Bei den eher
schiedener Aspekte der eigenen Gesundheit
verhaltensbezogenen Konstrukten haben ins-
bzw. einer Erkrankung (z. B. Diabetes) bes-
besondere die Kontrollüberzeugung und der
ser durch einen Test der erkrankungs- bzw.
dispositionelle Optimismus einen deutlichen
gesundheitsspezifischen Kontrollüberzeugung
Gesundheitsbezug. Merkmale der Regulation
vorhersagen als durch Skalen der generellen
von Emotionen bzw. der Bewältigung belas-
Kontrollüberzeugung (vgl. Kohlmann et al.,
tender Situationen können, wie erwähnt, über
1991).
emotionale Prozesse einen direkten wie auch
über das Verhalten einen indirekten Einfluss
Bei der Konstruktion von Verfahren zur Erfas-
auf die Gesundheit ausüben. Hierzu gehören
sung gesundheitsbezogener Persönlichkeits-
die unter die Begriffe Stressbewältigung und
merkmale lassen sich also zwei Prinzipien un-
Ärgerausdruck subsumierten Konstrukte (z. B.
terscheiden. Zum einen haben wir es mit Tests
kognitive Vermeidung, Ärgerunterdrückung).
zu tun, die Konstrukte operationalisieren, die
Daneben existiert eine Reihe begrifflich „enge- speziell für den Gesundheitsbereich konzipiert
rer“ Persönlichkeitsmerkmale, die speziell für wurden. Zum anderen liegen Tests vor, die im
den Bereich der Gesundheit entwickelt wur- Zusammenhang mit der Adaptation eines glo-
den. Die bekanntesten Merkmale sind hier balen Konstrukts an den Bereich Gesundheit
das Typ-A-Verhaltensmuster, das Symptom- bzw. Erkrankung entwickelt wurden. Zu jedem
berichten (Pennebaker, 1982) und (als gesund- Prinzip wollen wir ein Konstrukt und seine dia-
heitsprotektiver Faktor) die Hardiness (Koba- gnostische Erfassung genauer vorstellen. Für
sa, 1979). die gesundheitsspezifischen Dispositionen ist

497
15 Klinische und gesundheitspsychologische Diagnostik

dies das Typ-A-Verhaltensmuster und für die beschreiben würden. Wichtig ist dabei, dass ei-
an den Erkrankungs- bzw. Gesundheitsbereich nige dieser Fragen auf eine Weise gestellt wer-
adaptierten Konstrukte die erkrankungsspezi- den, die charakteristisches Typ-A-Verhalten
fische Kontrollüberzeugung. (z. B. in der Art des Sprechens) provozieren
soll. So mag eine Frage mit offensichtlicher
Das Typ-A-Verhaltensmuster wurde Anfang Antwort etwa in zögernder und langsamer Art
der 1970er Jahre von den amerikanischen Kar- gestellt werden. Die Typ-A-Person würde den
diologen Friedman und Rosenman als psy- Sprecher in diesem Fall wahrscheinlich unter-
chologischer Risikofaktor für Koronarerkran- brechen und antworten, bevor dieser noch zu
kungen identifiziert. Friedman und Rosenman Ende gesprochen hat. Oder der Interviewer
(1974, S. 67) definierten dieses Muster als äußert Zweifel an der Korrektheit einer Ant-
einen „handlungsbezogenen und emotionalen wort, um auf diese Weise bei entsprechend
Stil, der durch ein aggressives, nie nachlas- disponierten Personen aggressiv-feindselige
sendes Bemühen gekennzeichnet ist, mehr Reaktionen hervorzurufen.
und mehr in immer kürzerer Zeit, oft gegen
Das Interviewprotokoll wird nach einer Rei-
den Widerstand oder in Wettstreit mit anderen
he von Gesichtspunkten (ca. 40) ausgewer-
Personen und Kräften, zu erledigen“. Perso-
tet, die sich drei Kategorien zuordnen las-
nen mit hoher Typ-A-Ausprägung sind also
sen: Die Inhaltsratings werden auf einer fünf-
durch folgende Merkmale gekennzeichnet: ein
stufigen Skala abgegeben und bewerten die
starkes, insbesondere wettbewerbsorientiert-
Antwortinhalte hinsichtlich ihrer Beziehung
es Leistungsstreben, das ausgeprägte Gefühl,
zum Typ-A-Muster, z. B. „ist mit seinem der-
unter Zeitdruck zu stehen, sowie Aggressivi-
zeitigen Leistungsniveau unzufrieden“, „be-
tät und Feindseligkeit. Das entgegengesetzte
schwert sich, wenn er hinter einem langsamen
Muster wird als Typ B bezeichnet.
Auto herfahren muss“, „greift ein, wenn an-
dere zu langsam arbeiten“, „isst schnell“ oder
Erfasst wird das Typ-A-Muster entweder über
„ist im Sport sehr wettbewerbsorientiert“. Die
ein Strukturiertes Interview (SI; Rosenman,
Sprachratings bewerten die Art des Sprechens,
1978) oder über einen Fragebogen, den Jen-
z. B. bestimmte Sprechgeräusche oder ein Un-
kins Activity Survey (JAS; Jenkins, Zyzanski &
terbrechen des Interviewers. Die Klinischen
Rosenman, 1979). Weitere, allerdings weniger
Ratings beziehen sich u. a. auf die Manifesta-
häufig eingesetzte Instrumente sind die Fra-
tion von Feindseligkeit. Faktorenanalysen die-
mingham Type A Scale (Haynes, Feinleib &
ser Variablen erbrachten vier Faktoren: Sich-
Kannel, 1980) sowie die Bortner Rating Scale
unter-Druck-setzen (insbesondere Zeitdruck),
(Bortner & Rosenman, 1967).
Klinische Ratings, Ärger sowie Wettbewerbs-
orientierung (Matthews, Krantz, Dembroski &
Das SI besteht aus etwa 25 Fragen, die Perso-
MacDougall, 1982).
nen auffordern, über ihre charakteristische Art
des Reagierens auf Situationen zu berichten, Der JAS existiert in mehreren Varianten; die
die bei Typ-A-Personen Ungeduld, Feindse- häufig eingesetzte Form B besteht aus 54
ligkeit oder Wettstreit hervorrufen sollen. So Items, die den Fragen aus dem SI entsprechen
werden Probanden etwa gebeten, ihre Reaktio- (z. B. „Wenn Sie jemandem zuhören und die-
nen beim Arbeiten mit einem langsamen Part- se Person braucht zu lange, um zur Sache zu
ner oder beim Warten in einer langen Schlan- kommen, wie häufig möchten Sie diese Person
ge darzustellen. Andere Fragen eruieren, ob zur Eile anhalten?“). Die Antwort erfolgt auf
Partner oder enge Freunde den Interviewten einer dreistufigen Skala, z. B. „oft – manchmal
als hart arbeitend und wettbewerbsorientiert – nie“. Die Items werden bei der Auswertung

498
15.3 Gesundheitspsychologische Diagnostik

gewichtet, und zwar anhand der Diskriminanz- Situative Faktoren wie Anforderungen, Ein-
funktionen, die in einer Serie von Analysen die schränkungen der Freiheit, mehrdeutige Leis-
nach dem SI bestimmten Typ-A- und Typ-B- tungsrückmeldung oder interpersonelle Kon-
Personen optimal trennten. Diese Scores wer- flikte aktivieren diese Überzeugungen. Typ
den standardisiert. Neben einem Gesamtscore A-Personen sind dabei in besonderem Ma-
für Typ A lassen sich drei faktoriell gewonne- ße für Feindseligkeitshinweise sensitiviert, da
ne Unterskalen bestimmen: Konkurrenzstre- sie generell in verstärktem Maße Strategien
ben, Tempo und Ungeduld sowie Berufliches zur Entdeckung derartiger Hinweise einsetzen.
Engagement. Der Gesamtwert weist eine Sta- Die aktivierten Überzeugungen führen zu ei-
bilität (Intervall 1 bis 4 Jahre) von .60 bis .70 ner Reihe von Bedrohungsbewertungen, z. B.
auf (Jenkins et al., 1979; deutsche Adaptati- „meine Freiheit ist bedroht“ oder „ich werde
on bei Badura et al., 1987; vgl. auch Myrtek, ausgebeutet, getäuscht und manipuliert“. Die-
Schmidt & Schwab, 1984). se Bewertungen sind mit spezifischen Verhal-
tenskonsequenzen, etwa aggressiver Gegenre-
Nachdem durch eine größere Zahl von Unter- aktion, sowie affektiven, z. B. Ärger, und phy-
suchungen (vgl. u. a. Matthews, 1982) deutlich siologischen Reaktionen, u. a. Blutdruckstei-
geworden war, dass nicht alle im SI und JAS gerungen, verbunden, die wiederum teilweise
erfassten Komponenten gleichermaßen geeig- als pathogen angesehen werden können.
net sind, das Risiko für Koronarerkrankungen
Diese interaktive Konzeption könnte insbe-
zu bestimmen, erfolgte eine Umorientierung
sondere auch für die Diagnostik des Feind-
hinsichtlich der Definition des Typ-A-Musters,
seligkeitspotenzials und damit für die Prädik-
fort von einer aktionalen hin zu einer stärker
tion pathophysiologischer Prozesse von Be-
kognitiven Bestimmung (vgl. Contrada, Ca-
deutung sein. Generell wird Feindseligkeit an-
ther & O’Leary, 1999). Zurück traten Wettbe-
hand der Cook-Medley-Skala (Cook & Medley,
werbsorientierung und Leistungsstreben, die
1954) oder über die Feindseligkeitsratings aus
noch im Zentrum der Definition von Friedman
dem SI gemessen. Dabei scheinen die Ratings
und Rosenman (1974) gestanden hatten, und
aus dem SI, trotz geringerer psychometrischer
in den Vordergrund trat die Feindseligkeit (vgl.
Qualität, bessere Vorhersagen physiologischer
u. a. Miller, Smith, Turner, Guijarro & Hallet,
Reaktionen zu liefern (vgl. Räikkönen, Matt-
1996).
hews, Flory & Owens, 1999). Auf dem Hin-
tergrund des interaktiven Modells von Price
Diese stärkere Orientierung an Feindseligkeits-
(1982) ist dieser Befund gut erklärbar. Wäh-
kognitionen wird besonders in der sozialen
rend sich mit Hilfe der Cook-Medley-Skala
Lerntheorie des Typ-A-Verhaltens von Price
bestenfalls generelle, d. h. situativ nicht aktu-
(1982) deutlich. Typ-A-Personen sind hier-
ell aktivierte, Überzeugungen erfassen lassen,
nach durch drei Kernüberzeugungen gekenn-
liefern die in einer sozialen Interaktionssituati-
zeichnet: Der Selbstwert hängt ab vom Erbrin-
on gewonnenen Ratings des SI Hinweise auf
gen extern anerkannter Leistungen; es gibt
die durch die – teilweise aversive – Situation
keine universellen moralischen Gesetze; alle
aktivierten kognitiven Prozesse und die ihnen
Ressourcen sind knapp. – Die beiden letzten
zugeordneten verhaltensmäßigen und affek-
Überzeugungen konstituieren dabei die feind-
tiven Reaktionen. Das SI erlaubt somit eine
selige Weltsicht: Es herrscht ein Kampf aller
vergleichsweise direkte Registrierung der rele-
gegen alle ums Überleben und Fortkommen;
vanten Person-Situation-Interaktion.
in diesem Kampf setzen die anderen alle Mit-
tel (auch unfaire) ein, um ihre selbstsüchtigen Verfahren zur Messung der Dimensionen
Ziele zu erreichen. der Kontrollüberzeugung waren bereits in

499
15 Klinische und gesundheitspsychologische Diagnostik

I Kap. 10 vorgestellt worden. Es ist offen- Der Umstand, dass die individuelle Ausprä-
sichtlich, dass die drei zentralen Dimensionen gung der Kontrollüberzeugung offenbar von
dieser Überzeugung, Internalität sowie sozia- der generellen Kontrollierbarkeit einer Er-
le und fatalistische Externalität, unmittelbare krankung abhängt, legt es nahe, den Begriff
Relevanz für die Ausübung gesundheitsbezo- Bereichsspezifität noch etwas enger zu fas-
genen Verhaltens besitzen. So sollten Perso- sen und krankheitsspezifische Tests zu ent-
nen mit internaler Kontrollüberzeugung eher wickeln. Kohlmann, Küstner, Schuler und
als Externale bereit sein, ein Verhalten auszu- Tausch (1994) haben in diesem Sinne einen
führen, von dem sie sich direkte positive Kon- Fragebogen zur Erfassung der Kontrollüber-
sequenzen für ihre Gesundheit oder die Kon- zeugungen beim Diabetes, einer der verbrei-
trolle ihrer Erkrankung erwarten. Bei Perso- tetsten chronischen Erkrankungen, entwickelt.
nen mit externaler Kontrollüberzeugung soll- (Zu psychologischen Aspekten des Diabetes
ten solche mit sozialer Orientierung anders siehe auch Bradley, 1994; Kohlmann & Kulzer,
reagieren als fatalistisch Externale. So sollte 1995.)
bei sozial-externaler Kontrollüberzeugung ei-
ne wesentlich stärkere Bereitschaft bestehen, Der IPC-Diabetes-Fragebogen (IPC-D1) wur-
Anweisungen und Ratschlägen medizinischer de als Variante des bereits beschriebenen
Fachleute zu folgen, als bei fatalistischer Über- IPC-Fragebogens (I Kap. 10.3.1) speziell für
zeugung. Typ-I-Diabetiker entwickelt. Diese Speziali-
sierung auf den sog. „juvenilen“ Diabetes
Der auf der Multidimensional Health Locus of schien den Autoren notwendig, da derartige
Control Scale (MHLC; Wallston, Wallston & Patienten in wesentlich stärkerem Maße als
DeVellis, 1978) basierende Fragebogen zur Er- die Typ-II-Diabetiker (sog. „Altersdiabetes“)
hebung von Kontrollüberzeugungen zu Krank- zur Durchführung und lebenslangen Aufrecht-
heit und Gesundheit (KKG; Lohaus & Schmitt, erhaltung einer anspruchsvollen Therapie ge-
1989) misst Kontrollüberzeugung auf den drei nötigt sind.
genannten Dimensionen. Zu jeder Subskala
existieren sieben Items, zur Internalität bei- Ausgehend von einer Hauptkomponentenana-
spielsweise „Wenn ich mich körperlich nicht lyse mit 45 Items wurden nach mehreren Zwi-
wohl fühle, dann habe ich mir das selbst zu- schenschritten vier faktoriell gewonnene Ska-
zuschreiben“, zur sozialen Externalität „Wenn len mit insgesamt 29 Items bestimmt: Interna-
ich Beschwerden habe, suche ich gewöhnlich lität (I) mit acht Items (Beispiel: „Wenn ich
einen Arzt auf“ und zur fatalistischen Externa- mich richtig verhalte, habe ich meinen Diabe-
lität „Ob meine Beschwerden länger andauern, tes unter Kontrolle“), arztbezogene Externali-
hängt vor allem vom Zufall ab“. tät (P; sieben Items, „Damit meine Therapie
Aussicht auf Erfolg hat, verlasse ich mich völ-
Die Reliabilitäten der Skalen fallen mit Werten lig auf die Therapiepläne der Experten“), Un-
um .70 bestenfalls befriedigend aus. Hinsicht- vorhersehbarkeit (CU; neun Items, „Ich habe
lich der Validität konnten Schmitt, Lohaus und schon oft festgestellt, dass mein Blutzucker
Salewski (1989) zeigen, dass die Kontrollüber- sich unvorhersehbar verändert“) sowie Glück
zeugungen mit der Art der Kontrollerfahrun- und Zufall (CG; fünf Items, „Ob Komplika-
gen, die chronische Erkrankungen bieten, vari- tionen mit meinem Diabetes länger andauern,
ieren. Je stärker die erlebten Einflussmöglich- hängt vor allem vom Zufall ab“).
keiten sind, desto höher ist die internale und
desto geringer die externale Kontrollüberzeu- Die Reliabilitäten der Skalen liegen mit Wer-
gung. ten um .80 höher als beim KKG; auch die

500
15.3 Gesundheitspsychologische Diagnostik

Stabilitäten (Zeitraum 7 bis 13 Monate) fal- spiele für verschiedene Skalen werden in
len mit Werten um .75 zufriedenstellend aus. Schwarzer (1996) gegeben.
Validitätsstudien wurden u. a. im Hinblick auf
Zur Erfassung dispositioneller und aktueller
die Diabetes-Therapieform und das Diabetes-
Stressbewältigung wurde eine Vielzahl von
Wissen durchgeführt (vgl. Kohlmann et al.,
Verfahren entwickelt, von denen eine Auswahl
1994). So zeigen Patienten mit konventionel-
bereits in I Kap. 10 vorgestellt wurde und
ler Therapie (regelmäßige Mahlzeiten sowie
deshalb hier nicht mehr abgehandelt werden
eine morgendliche und abendliche Injektion
muss (für weitere Verfahren vgl. auch Kroh-
einer vom Arzt festgelegten Mischung unter-
ne, 2010). Dasselbe gilt für den spezielleren
schiedlich schnell wirkender Insuline) eine hö-
Bereich der Krankheitsbewältigung, den wir
here arztbezogene Kontrollüberzeugung als
ebenfalls weiter oben kennengelernt hatten.
Patienten mit intensivierter oder Pumpenthe-
rapie. (Diese beiden Formen verlangen vom Bekanntestes Verfahren zur Messung der Vul-
Patienten ein höheres Maß eigenständiger Mit- nerabilität bzw. negativen Affektivität ist die
wirkung, bieten dafür aber auch größere Frei- bereits in I Kap. 10 beschriebene PANAS
heit in der Gestaltung des Tagesablaufs.) Das (Watson et al., 1988). Speziell für gesundheits-
diabetesbezogene Wissen der Patienten korre- psychologische Fragestellungen und Diagno-
lierte signifikant negativ mit deren Werten auf sezwecke wurde das Konzept der negativen
den Dimensionen der Externalität. Affektivität inzwischen zur „Distressed Per-
sonality“ (Typ D) weiterentwickelt (Denollet,
Weitere in I Übersicht 15.4 genannte gesund-
2000). Typ-D-Personen sollen dabei durch die
heitsbezogene Persönlichkeitsmerkmale sol-
Tendenz gekennzeichnet sein, häufig negati-
len hinsichtlich ihrer diagnostischen Erfassung
ve Emotionen wie Angst oder Depression zu
hier nur kursorisch behandelt werden (für eine
erleben und gleichzeitig deren Ausdruck in
ausführlichere Beschreibung siehe Jerusalem
sozialen Situationen zu unterdrücken (soziale
& Kohlmann, 2011). Hardiness ist ein Amal-
Inhibition).
gam aus den Komponenten internale Kontroll-
überzeugung, Engagement (Commitment) und Zur Messung von Typ D entwickelte Denol-
Ansporn bzw. Herausforderung (Challenge). let (2005) die Typ-D-Skala (DS 14) mit 14
Erfasst wurden diese drei Komponenten zu- Items und den beiden Subskalen Negative Af-
nächst durch unterschiedliche, jeweils spezifi- fektivität und Soziale Inhibition. Eine deut-
sche Skalen (vgl. Kobasa, 1979), deren Items sche Version dieser Skala wurde von Grande
später zu einer revidierten dreidimensionalen et al. (2004) vorgestellt. Die Skala hat sich u. a.
Hardiness-Skala (Maddi, 1987) zusammenge- als guter Prädiktor kardialer Ereignisse (In-
fasst wurden. farkt, Mortalität) über eine Periode von zehn
Jahren erwiesen (Denollet & Brutsaert, 1998).
Optimismus lässt sich mit Hilfe des in
Über Zusammenhänge mit Ärger und Feindse-
I Kap. 10 beschriebenen Life Orientation
ligkeit, die ja, als zentrale Komponenten des
Test (LOT; Wieland-Eckelmann & Carver,
Typ-A-Konstrukts, ebenfalls Prädiktoren kar-
1990) messen. Kompetenzerwartung (bzw.
dialer Ereignisse sind, berichten Denollet et al.
Selbstwirksamkeitserwartung) lässt sich als
(2010) sowie Perbandt, Hodapp, Wendt und
generalisierte Erwartung erfassen, etwa mit
Jordan (2006).
Hilfe der entsprechenden Skala aus dem Fra-
gebogen zu Kompetenz- und Kontrollüberzeu- Zur Messung der habituellen Tendenz zum
gungen (FKK; Krampen, 1991) oder gesund- Symptomberichten entwickelte Pennebaker
heitsspezifisch, z. B. im Hinblick auf Ernäh- (1982) das Pennebaker Inventory of Limbic
rungsverhalten und Raucherabstinenz. Bei- Languidness (PILL). Die Skala besteht aus 54

501
15 Klinische und gesundheitspsychologische Diagnostik

Items, die eine Vielzahl von Symptomen be- tenden Symptome und deren Zusammenhang
schreiben (z. B. tränende Augen, Klingeln im besitzen. Verursachung bezeichnet subjekti-
Ohr, Juckreiz, Schwindelgefühle oder Übel- ve Theorien über die Ursachen einer Erkran-
keit). Kohlmann (1997) hat eine deutsche kung (z. B. Krebs wird durch Umwelteinflüs-
Adaptation des PILL faktoriell analysiert und se verursacht), Zeit erfasst die Vorstellungen
konnte dabei acht Komponenten sichern. Von über die zeitlichen Verhältnisse bei einer Er-
diesen weisen allerdings nur vier eine ausrei- krankung. Eine Krankheit kann hiernach als
chende Reliabilität (α > .75) auf: Schwäche akut und kurz erstreckt, als chronisch oder
(u. a. Schwächegefühle, Kopfschmerzen, Frös- zyklisch-episodisch eingeschätzt werden. Kon-
teln), Erkältung (laufende Nase, Husten), Ma- sequenz reflektiert die individuelle Einschät-
gen/Darm (Verdauungsbeschwerden, Sodbren- zung der Schwere einer Erkrankung und ih-
nen, Verstopfung) sowie Muskeln/Gelenke res möglichen Einflusses auf den körperlichen,
(steife Gelenke, Muskelschmerzen). Da aller- sozialen und psychischen Zustand. Heilung
dings der erste, unrotierte, Faktor deutlich vari- erfasst Überzeugungen über die Wirkung von
anzstärker war als alle anderen Komponenten, Behandlungsmaßnahmen auf die Erkrankung.
empfiehlt sich auch die Verwendung des PILL-
Gesamtwertes. Zur Erfassung dieser Komponenten entwickel-
ten Weinman, Petrie, Moss-Morris und Horne
(1996) das Illness Perception Questionnaire
Konzepte
(IPQ). Den Dimensionen der Theorie von Le-
venthal et al. (1984) entsprechend, besteht
Beim Ausbruch einer Krankheit tritt in der
es aus fünf Subskalen. Zunächst werden die
Regel eine Reihe von Problemen auf, die aller-
Items der Identitätsskala dargeboten. Es han-
dings von Patient zu Patient sehr unterschied-
delt sich dabei um Symptome (z. B. Übelkeit,
lich ausfallen können, selbst wenn objektiv
Gewichtsverlust, Kopfschmerzen, Magenpro-
das gleiche Krankheitsbild vorliegt. Die in-
bleme), deren Auftretenshäufigkeit der Pati-
dividuelle Problembelastung hängt u. a. von
ent auf einer vierstufigen Skala (von „ständig“
dem Ausmaß ab, in dem der Patient Kontrolle
bis „nie“) einschätzen muss. Je nach Art der
über seine Erkrankung erlebt. Diese Kontrol-
Erkrankung kann diese Liste durch weitere
le kann verhaltensmäßiger Art sein, also über
Symptome ergänzt werden. Die Items der rest-
die Ausführung bestimmter Maßnahmen die
lichen vier Skalen werden in durchmischter
Erkrankung beeinflussen, oder zumindest in-
Abfolge präsentiert und auf einer fünfstufi-
formationell, sich also auf subjektives Wissen
gen Skala (von „stimme völlig zu“ bis „lehne
über die Krankheit und ihren Verlauf stützen.
völlig ab“) beantwortet. Ein Beispielitem für
Zur Verbesserung des Kontrollerlebens bilden
Verursachung ist „Umweltverschmutzung hat
deshalb Patienten eigene Konzepte bzw. Mo-
meine Krankheit verursacht“. Die Dimensi-
delle einer Erkrankung.
on Zeit wird durch Items wie „Meine Erkran-
Leventhal und Mitarbeiter (Leventhal & Die- kung wird lange anhalten“, Konsequenz u. a.
fenbach, 1991; Leventhal, Nerentz & Steele, durch „Meine Erkrankung hat ernste finanzi-
1984) haben eine Theorie der Selbstregula- elle Konsequenzen“ und Heilung u. a. durch
tion entwickelt, in der sie verschiedene Di- „Die Behandlung, die ich erhalte, wird meine
mensionen der subjektiven Erkrankungsmo- Krankheit wirksam heilen“ repräsentiert.
delle unterscheiden. Die Dimension Identität
bezieht sich auf die Vorstellungen, die Pati- Mit Ausnahme der Skala Verursachung, deren
enten insgesamt über die Natur einer Erkran- Itembeantwortungen einzeln betrachtet wer-
kung (z. B. AIDS) sowie über die dabei auftre- den, werden die Items der übrigen Skalen

502
15.3 Gesundheitspsychologische Diagnostik

(zum Teil nach Invertierung) addiert und bil- Das Wissen über gesundheits- bzw. krank-
den somit Scores für Symptombelastung (Iden- heitsrelevante Sachverhalte spielt bei der Ri-
tität), Dauer (Zeit), Schwere (Konsequenz) sikowahrnehmung und der Ausübung eines
und Heilungschancen (Heilung). Die Reliabili- entsprechenden Vorsorgeverhaltens (z. B. im
täten dieser Skalen variieren zwischen .73 und Hinblick auf die Verhinderung einer HIV-
.82, die Stabilitäten sind für das Intervall von Infektion; vgl. Bengel, 1993) sowie bei der
einem Monat (mit Ausnahme der Skala Zeit) Gesundheitsförderung (speziell bei Kindern
vergleichsweise hoch (zwischen .68 und .84), und Jugendlichen; vgl. Lohaus, 1993; Lohaus,
nehmen nach sechs Monaten aber deutlich ab. Jerusalem & Klein-Heßling, 2006) eine zen-
trale Rolle. Dabei kann man dieses Wissen als
Inzwischen haben Moss-Morris et al. (2002) Teil einer allgemeinen Gesundheitskompetenz
eine revidierte Fassung des Fragebogens (IPQ- („health literacy“; Nutbeam, 2000). betrach-
R) vorgelegt, in der einige der Dimensionen ten. Dieser Umstand hat aber bisher nicht zur
aufgeteilt und eine neue Komponente (Emotio- Etablierung umfassender Wissenstests geführt.
nale Repräsentationen, Beispielitem: „Ich wer- Wenn Wissen erhoben wird, dann in der Re-
de depressiv, wenn ich über meine Krankheit gel anhand selbstkonstruierter Instrumente im
nachdenke“) hinzugefügt wurde. So wurde Rahmen empirischer Untersuchungen (spezi-
Verursachung in psychologische Attributionen, ell zur Überprüfung des Effekts bestimmter
Risikofaktoren, Immunität sowie Zufall aufge- Gesundheitsprogramme bzw. Schulungsmaß-
teilt. Bei der Zeit wurden akut-chronische und nahmen; vgl. z. B. Lohaus, 1993). Lediglich
zyklische Verläufe unterschieden; bei der Hei- für spezifische chronische Erkrankungen, bei
lung persönliche und Behandlungskontrolle. denen Wissen wesentlich ist für die Mitarbeit
Außerdem wurden einige Items neu hinzuge- des Patienten bei der Behandlung (z. B. beim
fügt. Die Reliabilitäten sind für zehn der nun- Diabetes), existieren ausgearbeitetere Wissens-
mehr zwölf Subskalen gut (zwischen .77 und test.
.89). Lediglich für die sehr kurzen Skalen Im-
munität und Zufall erreichen sie keine akzep- So haben Roth, Kulzer, Teupe und Borken-
tablen Werte. Auch die Stabilitäten (Intervalle stein (1996) einen Diabetes-Wissens-Test: Typ
drei Wochen bzw. sechs Monate) sind überwie- I (DWT Typ-I) entwickelt. Zu elf Wissens-
gend zufriedenstellend. Ähnliche Zielsetzun- bereichen (z. B. Insulin, Insulinwirkung; In-
gen wie das IPQ verfolgt der deutschsprachige sulininjektion, -lagerung; Ernährung; Hyper-
Patiententheoriefragebogen (PATEF; Zenz, Bi- glykämie; Hypoglykämie; Folgeschäden) wer-
schoff & Hrabal, 1996). den unterschiedlich viele Problemstellungen
(Items) dargeboten, mit denen jeder Typ-I-
Diabetiker konfrontiert werden kann. (In der
Langform handelt es sich um insgesamt 66,
Weitere Bereiche in der Kurzform um 30 Items.) Zu jeder Pro-
blemstellung werden drei Lösungen angebo-
ten, von denen entweder eine, zwei oder alle
In I Übersicht 15.4 waren als weitere, für richtig sein können. Ausgewertet werden die
die Diagnostik relevante Bereiche Wissen Antworten entweder auf der Ebene der ein-
und soziale Unterstützung aufgeführt worden. zelnen Lösungen oder des Gesamtitems. Auf
Die Diagnostik sozialer Unterstützung war der Ebene der Einzellösung wird für jede Ak-
bereits im Zusammenhang mit der klinisch- zeptierung einer richtigen und Zurückweisung
psychologischen Diagnostik behandelt wor- einer falschen Lösung ein Punkt vergeben (ma-
den. ximaler Score in der Langform also 198). Auf

503
15 Klinische und gesundheitspsychologische Diagnostik

Übersicht 15.5 Aspekte bei der Evaluation von Programmen

Zielrichtung der Evaluation Objekt der Evaluation Zeitpunkt der Evaluation


• Praxisorientierung • Input • Antizipatorisch
• Entwicklungsorientierung • Compliance • Prozess
• Theorieorientierung • Output • Ergebnis

der Ebene des Items wird nur dann ein Punkt Die Zielrichtung der Evaluation kann entwe-
vergeben, wenn alle drei Lösungen korrekt der praxis-, entwicklungs- oder theorieorien-
beantwortet wurden (maximaler Score in der tiert sein. Bei der Praxisorientierung geht es
Langform 66). um die Bewertung konkreter Maßnahmen,
z. B. um die Prüfung des Erfolgs einer im Kin-
Die internen Konsistenzen beider Auswer- dergarten durchgeführten Kampagne zur Ver-
tungsvarianten sind sowohl für die Lang- wie besserung der Zahnpflege. Entwicklungsori-
für die Kurzform sehr hoch (α ≈ .90). Für die entierte Maßnahmen sind dagegen weiterrei-
elf Wissensbereiche (in denen die Anzahl der chend. Hier geht es darum, für spätere Pro-
Items zwischen drei und zwölf variiert) sind gramme zur Gesundheitsvorsorge die Grund-
sie naturgemäß deutlich niedriger (zwischen lagen zu schaffen, also etwa aus bisher durch-
.40 und .81). Hinsichtlich der Validität des geführten Maßnahmen brauchbare Aspekte zu
Tests konnte ein signifikanter Zuwachs an Wis- integrieren bzw. zu modifizieren oder diffe-
sen nach einmaliger systematischer Schulung renzielle Aspekte (d. h. unterschiedliche Wir-
im Vergleich zu einer Kontrollgruppe festge- kungen bei verschiedenen Personengruppen,
stellt werden (vgl. Roth & Kulzer, 1995). Der z. B. mit unterschiedlichem ethnischem Hin-
Test scheint damit geeignet zu sein, gesund- tergrund) zu berücksichtigen. Bei der theorie-
heitliche Schulungsmaßnahmen zu evaluieren. orientierten Evaluation wird die praktische Be-
währung theoretischer Ansätze, z. B. das im
Zusammenhang mit dem gesundheitsbezoge-
nen Verhalten erwähnte Modell von Prochas-
15.3.3 Evaluation gesundheits- ka und DiClemente (1983), über eine Vielzahl
psychologischer von Studien, meist in Form von Metaanalysen,
Maßnahmen geprüft.
Das Objekt der Evaluation kann entweder der
Input sein, z. B. die Bewertung der Güte ver-
Anders als in der Klinischen Psychologie
wendeter Lehrmaterialien, die Compliance, al-
spielt in der Gesundheitspsychologie die
so die Akzeptanz des Programms bzw. ein-
Durchführung von Maßnahmen zur Gesund-
zelner Teile (z. B. Nahrungsangebot in einem
heitsförderung bzw. Erkrankungsprävention
Ernährungsprogramm) durch die Teilnehmer
eine zentrale Rolle. Diagnostisch schlägt sich
(evtl. auch die Öffentlichkeit, z. B. bei Pro-
dies in der Notwendigkeit der Evaluation ent-
grammen zur Sexualerziehung), oder der Out-
sprechender, auf eine größere Gruppe inner-
put, d. h. die Bewertung des angestrebten Er-
halb der Bevölkerung zielender Programme
gebnisses (z. B. Gewichtsabnahme, Nebenwir-
nieder. Bei Evaluationsmaßnahmen lassen sich
kungsanalyse).
dabei die Aspekte Zielrichtung, Objekt und
Zeitpunkt unterscheiden (I Übersicht 15.5; Beim Aspekt Zeitpunkt werden antizipatori-
vgl. auch Dlugosch & Wottawa, 1994). sche, Prozess- und Ergebnisevaluation unter-

504
15.3 Gesundheitspsychologische Diagnostik

schieden. Antizipatorisch müssen bei vielen Fragen zur Wissenskontrolle


Programmen die Konsequenzen bestimmter
Maßnahmen bewertet werden, z. B. die Kon-
1. Welche unterschiedlichen Zielrichtungen
sequenzen der Freigabe sog. „weicher“ Dro-
haben Klinische Psychologie und Gesund-
gen. Bei der Prozessevaluation werden Maß-
heitspsychologie?
nahmen kontinuierlich begleitet, um im Falle
2. Welche Zielsetzungen hat die klinisch-
eines ungünstigen Verlaufs sofort eingreifen
psychologische Diagnostik?
zu können, etwa bei einem Programm zum
3. Was sind die typischen Inhalte des klini-
Antigewalt-Training in der Schule. Ergebnise-
schen Inventars?
valuation meint insgesamt die Wirksamkeits-
4. Nennen Sie die derzeit wichtigsten Syste-
beurteilung einer Maßnahme. Hierzu gehören
me zur Klassifikation psychischer Störun-
insbesondere auch Kosten-Nutzen-Analysen.
gen. Nach welchen gemeinsamen Prinzipi-
en sind sie konstruiert?
5. Was sind die zentralen Kritikpunkte an die-
Weiterführende Literatur sen Systemen?
6. Welche Zielsetzungen hat die gesundheits-
Informationen zu speziellen Testverfahren fin- psychologische Diagnostik?
den sich u. a. in Brähler et al. (2002), Brähler 7. Was unterscheidet emotionsbezogene von
et al. (2003), Jerusalem und Kohlmann (2011), verhaltensbezogenen Persönlichkeitsmerk-
Schumacher et al. (2003), Strauß und Schuma- malen?
cher (2005) sowie Westhoff (1993). 8. Welche Umorientierung hat das Konstrukt
des Typ-A-Verhaltens erfahren?

505
16 Pädagogisch-psychologische und
Erziehungsdiagnostik

16.1 Diagnostik individueller Merkmale . . . . . . . . . . . . . . . . . . . . . . . 508


16.1.1 Kognitive Lernvoraussetzungen . . . . . . . . . . . . . . . . . . . . . 508
16.1.2 Emotionale und motivationale Merkmale . . . . . . . . . . . . . . . . 514
16.1.3 Arbeitsverhalten und Lernstrategien . . . . . . . . . . . . . . . . . . . 520
16.2 Lernresultate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522
16.2.1 Prüfungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522
16.2.2 Schulleistungstests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523
16.2.3 Erfassung des Erreichens von Lehrzielen . . . . . . . . . . . . . . . . 524
16.3 Diagnostik bei der Schullaufbahnberatung . . . . . . . . . . . . . . . . . . . 527
16.3.1 Schuleintritt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 528
16.3.2 Sonderpädagogischer Förderbedarf . . . . . . . . . . . . . . . . . . . 529
16.3.3 Übertritt in weiterführende Schulen . . . . . . . . . . . . . . . . . . . 530
16.4 Diagnostik von Umwelt- und Systemmerkmalen . . . . . . . . . . . . . . . . 531
16.4.1 Schul- und Klassenklima . . . . . . . . . . . . . . . . . . . . . . . . . 531
16.4.2 Lehrerverhalten und Lehrer-Schüler-Interaktion . . . . . . . . . . . . . 532
16.4.3 Beziehungen unter den Schülern . . . . . . . . . . . . . . . . . . . . . 535
16.5 Familiale Interaktion und Erziehungsverhalten . . . . . . . . . . . . . . . . 537
16.5.1 Klassifikation des Erziehungsverhaltens . . . . . . . . . . . . . . . . . 537
16.5.2 Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 538
16.5.3 Probleme und Perspektiven . . . . . . . . . . . . . . . . . . . . . . . . 544

Zum Kernbereich der pädagogisch-psycholo- gnostik dabei den schulischen Bereich und
gischen Diagnostik gehört die Analyse der setzt dort primär an den einzelnen Lernen-
Bedingungen, des Verlaufs und der Ergeb- den an. Zwei zentrale Aufgabenfelder sind
nisse institutionalisierter Lehr-Lern-Prozesse. hier die Erfassung von Lernresultaten so-
Ihr wesentliches Ziel ist es, Information zu wie das Bereitstellen von Entscheidungshil-
gewinnen, die für eine Optimierung indivi- fen für die Wahl verschiedener Schullauf-
duellen Lernens benötigt wird (Ingenkamp bahnen oder Bildungswege. Weiter gefasste
& Lissmann, 2008). Traditionellerweise fo- Definitionen beziehen Aufgaben außerhalb
kussiert die pädagogisch-psychologische Dia- des schulischen oder universitären Bildungs-

506
15.3 Gesundheitspsychologische Diagnostik

systems mit ein, insbesondere die berufliche Aufgabe bestünde hier in der Beschreibung
Aus- und Weiterbildung in Unternehmen und und Evaluation der Effekte dieser Verände-
Organisationen (z. B. Traineeprogramme) so- rungen für Erleben und Verhalten der be-
wie die Erziehungsberatung. Darüber hinaus troffenen Schüler und Lehrer.
wird auch die Beschreibung von Lern- und • Diagnostik für eine Bedingungsselektion
Entwicklungsumwelten zum Aufgabenspek- liegt z. B. vor, wenn die Wahl eines Studien-
trum der pädagogisch-psychologischen Dia- fachs oder eines beruflichen Ausbildungs-
gnostik gerechnet (Wild & Krapp, 2001). Dies weges durch die Prüfung von Eignungen
ist sinnvoll, da pädagogisch-psychologische und Interessen mittels psychologischer Test-
Maßnahmen Umweltbedingungen des Leh- verfahren unterstützt wird.
rens und Lernens immer berücksichtigen müs-
sen – auch wenn sie im Einzelfall nicht direkt Im Rahmen der Bildungs- und Erziehungs-
auf diese einwirken. beratung lassen sich verschiedene allgemeine
Interventionstypen ausmachen, in denen dia-
In I Kap. 1 hatten wir mit Pawlik (1976) zwi- gnostische Tätigkeit notwendig wird.
schen Modifikations- und Auswahlstrategien
(Selektion bzw. Klassifikation) als grundlegen- • Um Einzelfallhilfe bei erzieherischen Fra-
der Handlungsalternativen unterschieden, die gen wird meist von Eltern oder Lehrkräf-
sich jeweils in Richtung auf Personen (hier: ten nachgefragt, die mit individuellen Pro-
Lernende) oder Bedingungen (Umweltmerk- blemen von Kindern konfrontiert sind, z. B.
male von Lernenden) implementieren lassen. Lern- und Leistungsschwierigkeiten oder
Mit dem resultierenden Vier-Felder-Schema Verhaltensauffälligkeiten.
lassen sich auch viele Aufgaben im Bereich • Auch die Schullaufbahn-, Studien- und Be-
der pädagogisch-psychologischen Diagnostik rufslaufbahnberatung richten sich an ein-
nach ihren jeweiligen Schwerpunkten ordnen. zelne Personen. Hier werden Orientierungs-
und Entscheidungshilfen für die Realisie-
• Diagnostik im Rahmen einer Personmodifi- rung von Bildungszielen bereitgestellt.
kation könnte sich z. B. darauf richten, mit • Die Systemberatung fokussiert dagegen auf
Hilfe spezieller Testverfahren Teilleistungs- Lehr-Lernprozesse und institutionelle Rah-
schwächen eines Schülers zu eruieren, an menbedingungen, die für die Verbesserung
denen ein Interventionsprogramm erfolgver- des Lehrens und Lernens relevant sind. Sie
sprechend ansetzen kann. umfasst Maßnahmen bei der Planung, Um-
• Personklassifikation würde etwa bei der Zu- setzung, Evaluation und Modifikation sol-
ordnung von Schülern zu Kursen, die un- cher Prozesse oder Bedingungen.
terschiedliche Vorkenntnisse voraussetzen, Da die für diagnostische Aufgaben im beruf-
vorliegen. Die diagnostische Aufgaben be- lichen Bereich relevanten Gesichtspunkte be-
stünde hier in der Messung des Kenntnis- reits in I Kap. 14 besprochen wurden, kon-
stands der einzelnen Schüler; ggf. müssen zentrieren wir uns in diesem Kapitel weitge-
hier auch die Anforderungsmerkmale der hend auf die Schule. Wir beschreiben zunächst
unterschiedlichen Kurse analysiert werden. diagnostische Verfahren zur Bestimmung in-
• Bedingungsmodifikationen im pädagogi- dividueller Merkmale und Verhaltensweisen
schen Bereich betreffen z. B. Veränderun- von Lernenden. Dabei werden allgemeine ko-
gen der Lernumwelt von Schülern, wie die gnitive Lernvoraussetzungen, also Fähigkeits-
Einführung neuer Lehrmaterialien oder die und Leistungsmerkmale, emotionale und moti-
Erprobung alternativer Formen der Unter- vationale Eigenschaften sowie Lernstrategien
richtskommunikation. Eine diagnostische betrachtet. Anschließend wird die Erfassung

507
16 Pädagogisch-psychologische und Erziehungsdiagnostik

von Lernresultaten diskutiert. Im dritten Ab- besprochenen Verfahren wurden hierfür Tests
schnitt dieses Kapitels stellen wir als Beispiel konzipiert, die bereits in der frühen Kindheit
für praktisch-diagnostische Aufgaben einige eingesetzt werden können. Derartige Tests sol-
Fragen dar, die sich im Rahmen der Schullauf- len die Diagnose des Entwicklungsstands in
bahnberatung ergeben. Der vierte Abschnitt einem oder mehreren Funktionsbereichen er-
behandelt die Erfassung von Umwelt- und Sy- lauben. Sie werden daher auch als Entwick-
stemmerkmalen im Bereich der Schule. Im lungstests bezeichnet.
fünften Abschnitt werden Methoden zur Be-
schreibung des Erziehungsverhaltens und der Während sich Entwicklungsdiagnostik im wei-
Beziehungen unter den Mitgliedern einer Fa- teren Sinn auf alle lebenslaufbezogenen Ver-
milie skizziert. änderungen im Erleben und Verhalten richtet,
konzentrieren sich Entwicklungstests im enge-
ren Sinn auf Fähigkeiten und Leistungen im
16.1 Diagnostik individueller Kindesalter. Häufige Ziele, die mit dem Ein-
Merkmale satz derartiger Tests verknüpft sind, bestehen
in der Identifikation von Risiken und Defizi-
ten sowie der Bestimmung persönlicher Res-
16.1.1 Kognitive
sourcen, an denen Fördermaßnahmen anset-
Lernvoraussetzungen zen können. Unterschieden wird dabei zwi-
Ein wichtiges Aufgabenfeld der pädagogisch- schen Entwicklungsscreenings, allgemeinen
psychologischen Diagnostik ist die Feststel- Entwicklungstests und spezifischen Entwick-
lung von Lernvoraussetzungen für schulische lungstests (Petermann & Macha, 2005).
oder berufliche Bildung. Die Diagnose von
Lernvoraussetzungen stützt sich zu einem er- Entwicklungsscreenings liefern eine ökono-
heblichen Teil auf Fähigkeits- und Leistungs- mische (meist nur 10–20 Minuten dauernde),
tests (I Kap. 12). Im schulischen Bereich dafür aber auch nur grobe Orientierung über
sind darüber hinaus auch Merkmale der sozia- Auffälligkeiten, denen dann ggf. mit allgemei-
len und emotionalen Entwicklung eines Kin- nen oder spezifischen Verfahren nachgegan-
des relevant. Wir besprechen in diesem Ab- gen wird. Hierbei wird manchmal auch auf
schnitt zunächst Verfahren zur Bestimmung Informationen von Eltern oder Lehrkräften zu-
der intellektuellen Entwicklung von Kindern. rückgegriffen. Mit allgemeinen Entwicklungs-
Im Anschluss wird das Prinzip sog. Lerntests tests ist eine differenziertere und genauere Dia-
ausführlicher erläutert. Solche Tests zielen auf gnostik eines breiteren Spektrums an Merk-
die Erfassung des Lern- und Entwicklungs- malen (z. B. Motorik, Wahrnehmung, soziale
potenzials von Personen und sind daher für Entwicklung) möglich. Die Durchführung und
die pädagogisch-psychologische Diagnostik Auswertung dieser Tests nimmt entsprechend
besonders relevant. Darüber hinaus ist auch mehr Zeit in Anspruch. Spezifische Entwick-
das Konzentrationsvermögen eine wichtige all- lungstests dienen der präzisen Erfassung von
gemeine Lernvoraussetzung, auf die wir kurz Leistungen und deren Grundlagen in eng um-
eingehen. schriebenen Bereichen (z. B. Lesen, Rechnen).

Intellektuelle Entwicklung Ein illustratives Beispiel für einen allgemeinen


Entwicklungstest ist der Wiener Entwicklungs-
Die Vorhersage des Lernerfolgs an Schulen test (WET; Kastner-Koller & Deimann, 2012).
ist der originäre Anwendungszweck von Intel- Beim WET handelt es sich um ein Breitband-
ligenztests. Neben den bereits in I Kap. 12 diagnostikum, das den Entwicklungsstand

508
16.1 Diagnostik individueller Merkmale

Tab. 16.1 Skalen- und Aufgabenbeispiele des Wiener Entwicklungstests

Bereich Beispieltest und -aufgabe


Motorik Lernbär: Einem Teddybär ist mit einer Kordel ein
Halsband zu binden
Visuelle Wahrnehmung/Visumotorik Nachzeichnen: Abzeichnen von Vorlagen (z. B. ein
Kreuz)
Lernen und Gedächtnis Schatzkästchen: verschiedene in Schubladen
versteckte Spielgegenstände sind wiederzufinden
(geprüft wird unmittelbar und 20 Minuten nach dem
Lernen)
Kognition Muster legen: Muster mit Mosaiksteinen nach
Vorlagen legen
Sprache Puppenspiel: Verbal geschilderte Sachverhalte (z. B.
„Der Hund beißt den Vater, der das Mädchen
festhält“) mit Puppen nachstellen
Sozial-emotionale Fähigkeiten Fotoalbum: Erkennen und Verstehen mimischer
Gefühlsausdrücke auf Fotos

drei- bis sechsjähriger Kinder in den Berei- ben, in welchen Bereichen bei einem Kind
chen Motorik, visuelle Wahrnehmung und Vi- Förderung sinnvoll ansetzen kann. Die für Ent-
sumotorik, Lernen und Gedächtnis, Kognition, wicklungstests zu erwartenden Leistungsstei-
Sprache sowie sozial-emotionale Fähigkeiten gerungen mit dem Alter konnten für alle Sub-
mit insgesamt 13 Subtests erfasst. Die Verhal- skalen nachgewiesen werden. Faktorenanaly-
tensbereiche sind für Entwicklungstests recht sen bestätigten die Einteilung in Funktionsbe-
typisch. I Tab. 16.1 führt einige Beispiele auf. reiche zwar nicht vollständig, aber doch mit
Altersentsprechend sind die Aufgaben spiele- akzeptabler Passung.
risch gestaltet, was sich auch in der Benen-
Für die Diagnose allgemeiner kognitiver Lern-
nung der Subtests niederschlägt. Die Durch-
voraussetzungen im Vorschulalter existieren
führung des Tests mit dem Kind nimmt etwa
auch Varianten gängiger Intelligenztests. Ta-
eine Stunde in Anspruch. Zusätzlich ist ein
belle I Tab. 16.2 führt einige gebräuchliche
Fragebogen zur Einschätzung der Selbststän-
Verfahren zusammen mit ihrem Altersbereich
digkeit des Kindes von den Eltern auszufüllen.
auf. K-ABC und WPPSI sind sehr umfassen-
Die Skalen wurden auf der Basis von Item-
de Verfahren – der WPPSI ist eine angepass-
Response-Modellen optimiert und erreichen
te Form der bereits ausführlich behandelten
überwiegend zufriedenstellende Reliabilitäten
Wechsler-Tests –, beim CFT und dem SON-R
(um .85).
handelt es sich dagegen um nonverbale Intelli-
genztests, welche primär die fluide Intelligenz
Der WET erlaubt die Berechnung eines Ge-
fokussieren (I Kap. 12.4). Von den aufgeführ-
samtwerts zur globalen Kennzeichnung des
ten Tests existieren auch Versionen für ältere
Entwicklungsstands eines Kindes. Für die
Kinder und Jugendliche.
meisten diagnostischen Fragestellungen ist al-
lerdings die von den Autoren favorisierte Be- Als Breitbanddiagnostika eignen sich der
trachtung des Skalenprofils sinnvoller. Hier- WET, die K-ABC oder die WPPSI vor allem
durch können sich Aufschlüsse darüber erge- zur Gewinnung eines Überblicks im Hinblick

509
16 Pädagogisch-psychologische und Erziehungsdiagnostik

Tab. 16.2 Intelligenztests für Kinder im Vorschulalter

Verfahren Altersbereich (Jahre)


K-ABC (Melchers & Preuß, 2009) 2;6 – 12;5
WPPSI-III (Petermann, 2011) 3 – 7;2
CFT 1-R (Weiß & Osterland, 2012) 5;3 – 11;11
SON-R 2½-7 (Tellegen, Laros & Petermann, 2007) 2;6 – 7;11
K-ABC = Kaufman Assessment Battery for Children; WPPSI = Wechsler Preschool and Primary
Scale of Intelligence-III; CFT = Grundintelligenztest Skala 1 – Revision; SON-R = Nonverbaler
Intelligenztest 2½-7.

auf die Entwicklung in verschiedenen Fähig- die Klangähnlichkeit von Wortpaaren (z.B.
keitsbereichen. Für eine genauere Diagnose Wind–Kind) zu beurteilen (Subtest Reimen).
einzelner Bereiche kann auf eine Vielzahl spe- Die Stabilität des BISC-Gesamtscores über
zifischer Tests für Kinder im Vorschul- und ein halbes Jahr ist mit .82 sehr hoch, Validi-
Schulalter zurückgegriffen werden, die enger tätsuntersuchungen belegen, dass das BISC
umgrenzte Fähigkeitskonstrukte, Wissen oder schulische Lese-Rechtschreibleistungen bis
schulrelevante Fertigkeiten und deren Voraus- zur zweiten Klasse gut prognostizieren kann.
setzungen (z. B. Hörverstehen, Lesen, Recht-
schreibung, fachspezifische Vorkenntnisse) ab- Definition phonologische Bewussheit
decken (Lissmann, 2010; Lukesch, 1998).
Unter phonologischer Bewusstheit wird die
Ein wichtiger Bereich besteht hier in der Dia- Fähigkeit verstanden, sich von der Bedeu-
gnostik von Vorläuferfähigkeiten für Kompe- tung sprachlicher Äußerungen zu lösen und
tenzen, die in der Schule erworben werden sol- die Aufmerksamkeit auf deren lautliche
len, insbesondere Lesen, Schreiben und Rech- Struktur zu lenken (Wagner & Torgesen,
nen. Ein Beispiel für einen solchen Test ist das 1987). Phonologische Bewussheit gilt als
Bielefelder Screening zur Früherkennung von zentrale Vorbedingung für das Erlernen von
Lese-Rechtschreibschwierigkeiten (BISC; Jan- Lesen und Schreiben.
sen, Mannhaupt, Marx & Skowronek, 2002),
das bei Kindern im letzten Vorschuljahr zur
Bei der Bewertung der Ergebnisse von Fähig-
Identifizierung des Risikos für die Entwick-
keitstests für jüngere Kinder ist die in die-
lung von Lese-Rechschreibschwierigkeiten
sem Alter starke intraindividuelle Dynamik
eingesetzt werden kann (Steinbrink & Lach-
der kognitiven Entwicklung zu berücksichti-
mann, 2014). Das 20 bis 30 Minuten in An-
gen. Auch interindividuelle Unterschiede sind
spruch nehmende Screening erfasst mit insge-
hier noch recht labil. Vorhersagen über länge-
samt neun Subtests phonologische Bewussheit
re Zeiträume sind daher mit sehr viel größe-
sowie Merkmale der visuellen Aufmerksam-
rer Unsicherheit behaftet als bei Jugendlichen
keit und des Gedächtnisses.
oder Erwachsenen. Für relativ kurzfristige Pro-
Zur Erfassung der phonologischen Bewusst- gnosen, etwa im Rahmen von Einschulungs-
heit wird im BISC beispielsweise die Fähig- empfehlungen, sind solche Verfahren jedoch
keit geprüft, bestimmte Laute in vorgesproche- geeignet.
nen Wörtern zu erkennen (z. B. au in Auto;
Subtest Laut-zu-Wort), Wörter in Silben zu
gliedern (Subtest Silben-Segmentieren) oder

510
16.1 Diagnostik individueller Merkmale

Lernpotenzial – Lerntests einer Person. Sie wird als allgemeines Poten-


zial eines Individuums angesehen, aus Erfah-
rungen zu lernen (Thorndike, 1922) und ent-
Lerntests wurden als Alternative zur klassi-
spricht damit dem Konzept der fluiden Intel-
schen Entwicklungs- bzw. Intelligenzdiagnos-
ligenz (I Kap. 12). Intelligenz A bildet die
tik konzipiert.
Grundlage für die Intelligenzen B und C, de-
terminiert diese jedoch nicht vollständig. Die
Definition Lerntest zweite Ebene – Intelligenz B – beschreibt die
aktuelle intellektuelle Leistungsfähigkeit, wie
Lerntests sind dynamische Testverfahren sie sich beim Problemlösen im Alltag mani-
zur Messung der Intelligenz. Die Qualifika- festiert. Intelligenz B ist das Produkt der In-
tion dynamisch meint dabei, dass im Ver- teraktion zwischen Genotyp und Umwelt; sie
lauf der Testprozedur gezielt Verhaltensän- markiert gewissermaßen den jeweils aktuellen
derungen hervorgerufen und für die Dia- Stand der intellektuellen Persönlichkeitsent-
gnose intellektueller Fähigkeiten nutzbar wicklung. Während Intelligenz A und B laten-
gemacht werden. te Größen darstellen, repräsentiert Intelligenz
C die beobachtbare Performanz einer Person
in einem Intelligenztest.
Ziel ist es dabei, nicht nur etwas über den
aktuellen Stand einer Fähigkeit zu erfahren, Wie in I Abb. 16.1 angedeutet, existieren auf
sondern vielmehr auch die Entwicklungsmög- jeder der Ebenen bestimmte beeinträchtigen-
lichkeiten, d. h. das Lernpotenzial in dem vom de Faktoren. Für Intelligenz A sind dies z. B.
Test zu erfassenden Merkmalsbereich offen Hirntraumata oder bestimmte Krankheiten.
zu legen. Es sollen also Aussagen über Eigen- Die Ausschöpfung der Kapazität A kann durch
schaftsausprägungen und deren Veränderbar- Umweltmerkmale behindert werden. Mangel
keit getroffen werden. Mit der Anwendung an Anregung und Unterstützung oder defizi-
von Lerntests wird die Hoffnung verbunden, täre materielle Lernbedingungen können Intel-
zu valideren und faireren Urteilen über die ligenz B mindern. Die Transmission von Intel-
Entwicklungsmöglichkeiten einer Person zu ligenz B in Intelligenz C kann durch ungünsti-
gelangen als mit traditionell konzipierten In- ge situative Gegebenheiten, evtl. im Verein mit
telligenztests. Dies betrifft etwa Kinder, die affektiven Merkmalen wie z. B. Bewertungs-
ethnischen Minoritäten angehören oder Kin- angst in Testsituationen, gestört werden.
der, die ungünstigen materiellen oder sozialen
Entwicklungsbedingungen ausgesetzt waren
(Guthke, Beckmann & Wiedl, 2003; Guthke Mit Lerntests wird nun versucht, das Potenzial
& Wiedl, 1996). einer Person dadurch aufzudecken, dass Lern-
möglichkeiten in die Prozedur eingebaut wer-
Der diagnostische Anspruch von Lerntests den. Dies kann durch Rückmeldungen, Ver-
kann auf der Basis einer Differenzierung drei- mittlung von Heuristiken oder Einbau Trai-
er Ebenen erläutert werden, auf denen sich ningsstrecken geschehen. Es werden also Lern-
Intelligenz betrachten lässt (Guthke & Wiedl, situationen geschaffen, die Aussagen über bis-
1996). Die drei Ebenen werden kurz mit In- lang noch nicht manifest gewordene intellektu-
telligenz A, B und C notiert (I Abb. 16.1). elle Reserven ermöglichen sollen (vgl. Kliegl
Die erste und fundamentale Ebene – Intelli- & Baltes, 1987). Im Fokus der Diagnostik
genz A – ist die hauptsächlich genetisch deter- steht hier die Fähigkeit, von derartigen Lern-
minierte neurobiologische „Basisaustattung“ anregungen zu profitieren.

511
16 Pädagogisch-psychologische und Erziehungsdiagnostik

Ebenen Beeinträchtigende Faktoren

Neurobiologische
A z. B. Traumata, Krankheiten
Kapazität

Aktuelle z. B. ungünstige soziale oder materielle


B
Intelligenz Entwicklungsbedingungen

Performanzmindernde situative oder


Aktuelle
C personale Gegebenheiten, z .B.
Leistung
Leistungsdruck oder Prüfungsangst

Abb. 16.1 Drei Betrachtungsebenen der Intelligenz.

Verfahrenstechnisch wird dabei zwischen heit der Lösungsvorschläge gegeben oder es


Langzeit- und Kurzzeit-Lerntests unterschie- werden explizite Lösungshinweise bzw. auf
den. Langzeit-Lerntests folgen einem Prätest- die Fehlerart abgestimmte Hilfen formuliert.
Intervention-Posttest-Design. Ein Beispiel Konstruiert wurden Kurzzeit-Lernformen z. B.
hierfür ist der Lerntest Schlussfolgerndes Den- für die Raven-Tests (I Kap. 12). In der von
ken (LTS; Guthke, Jäger & Schmidt, 1983), Carlson und Wiedl (1979) vorgestellten Form
der induktive Fähigkeiten bei Schülern der erhalten die Probanden bei inkorrekten Lö-
Klassenstufen 6 bis 9 erfassen soll. Zur Be- sungsvorschlägen detaillierte Rückmeldungen
stimmung des Ausgangsniveaus wird zunächst darüber, welche Aspekte der Aufgabe rich-
ein Prätest durchgeführt. Es folgen zwei an un- tig und welche falsch gesehen wurden. Auch
terschiedlichen Tagen terminierte Trainingssit- bei korrekten Lösungen werden die jeweils re-
zungen, in denen den Schülern in standardisier- levanten Aufgabenmerkmale hervorgehoben.
ter Form Lösungsstrategien vermittelt werden. Eine weitere Form, der Raven-Lerntest von
Sechs Tage nach dem Prätest wird der Posttest, Frohriep (1978) verwendet ein abgestuftes Hil-
eine parallele Variante des Prätests, gegeben. fesystem, in dem bei inkorrekten Lösungen
Vom traditionellen Testen unterscheidet sich zunehmend massivere Unterstützung gewährt
diese Form also durch das Trainingsprogramm wird. Zur besseren Veranschaulichung wer-
sowie durch die Tatsache, dass zweimal getes- den dabei nicht gelöste Aufgaben zusätzlich
tet wird. in Puzzle-Form präsentiert.

In Kurzzeit-Lerntests wird die Trainingsphase Inhaltlich werden in Lerntests bevorzugt Auf-


in die Testprozedur hinein verlagert, so dass gaben herangezogen, die der fluiden Intel-
hier nur eine Sitzung erforderlich ist. Der resul- ligenz zuzurechnen sind. Dies ist in dem
tierende Zeitgewinn war ein wesentliches Mo- Wunsch begründet, Bildungsvoraussetzungen
tiv für die Entwicklung von Kurzzeit-Lerntests. der Items minimal zu halten. Darüber hinaus
In ihnen werden den Probanden Rückmeldun- lassen sich Lösungsheuristiken einfacher und
gen über die Richtigkeit oder Angemessen- rascher vermitteln als Faktenwissen, das zur

512
16.1 Diagnostik individueller Merkmale

Beantwortung von Aufgaben aus dem Bereich besteht noch Forschungsbedarf (Beckmann,
der kristallisierten Intelligenz notwendig ist. 2004; Meijer, 2001). Gleiches gilt für die Fra-
ge nach der optimalen inhaltlichen und zeitli-
Lerntests sollen validere Aussagen über das
chen Gestaltung von Trainings- und Rückmel-
intellektuelle Potenzial erlauben als herkömm-
dungsphasen (Kormann, 1982).
liche Fähigkeitstests. Validitätsgewinne ver-
spricht man sich besonders für Personen, die Insgesamt stellt der Ansatz des dynamischen
ungünstigen Lern- und Entwicklungsbedin- Testens jedoch eine vielversprechende Alter-
gungen ausgesetzt waren oder aus anderen native zur klassischen Ein-Punkt-Messung
Gründen bei traditionellen Tests oder schu- intellektueller Fähigkeiten dar, die Ansprü-
lischen Prüfungen vergleichsweise schlecht chen an eine individualisierte und förderungs-
abschneiden. Auch die Tatsache, dass im Ver- orientierte Diagnostik und Intervention ent-
lauf der Testprozedur Unterschiede in der Vor- gegenkommt. Im Rahmen des pädagogisch-
erfahrung von Personen mit den jeweiligen psychologischen Bereichs diskutieren Guth-
Aufgaben- oder Problemtypen zumindest par- ke und Wiedl (1996) Anwendungsmöglichkei-
tiell ausgeglichen werden, soll zur Validität ten für curriculare Fragestellungen, bei Kin-
beitragen. Dieser Anspruch wird durch eine dern mit besonderem Förderungsbedarf, Kin-
Reihe vorliegender Befunde gestützt (für Über- dern aus ethnischen Minoritäten sowie bei der
sichten siehe z. B. Guthke et al., 2003; Guth- Studien- und Berufsberatung.
ke & Wiedl, 1996). Hessels (2000) fand z. B.,
dass sich der Lernfortschritt von Schulkindern,
der über ein halbes Jahr mit Hilfe von Schul-
leistungstest verfolgt wurde, mit einem dyna- Aufmerksamkeit und Konzentration
mischen Verfahren besser vorhersagen ließ als
mit einem traditionellen Intelligenztest. Dies
galt vor allem für Kinder im unteren Leistungs- Aufmerksamkeits- und Konzentrationsleistun-
bereich. Insgesamt bedarf die Annahme inkre- gen sind wichtige Vorbedingungen für erfolg-
menteller Validität von Lerntests gegenüber reiches Lernen. Tatsächlich nehmen Konzen-
traditionellen Verfahren jedoch noch weiterer trationsschwierigkeiten einen Spitzenplatz un-
empirischer Untermauerung (Guthke & Wiedl, ter den von Lehrkräften berichteten schuli-
1996). schen Problemen von Kindern ein. Phäno-
menal kann dabei unterschieden werden zwi-
In der diagnostischen Praxis werden Lerntests schen einer hyperaktiven Form, die durch mo-
zur Zeit selten eingesetzt. Gründe hierfür sind torische Unruhe, leichte Ablenkbarkeit, Nicht-
u. a. darin zu suchen, dass deren Durchfüh- Abwarten-Können, Nicht-Zu-Ende-Führen be-
rung mit einem relativ hohen Aufwand ver- gonnener Tätigkeiten und schnellen Wech-
knüpft ist und viele Verfahren wegen fehlender sel zwischen verschiedenen Aktivitäten ge-
bzw. nur vorläufiger Normierung und Validie- kennzeichnet ist, und einer hypoaktiven, ruhi-
rung eher für die Forschung geeignet erschei- gen Form, die durch sehr langsames Arbeiten,
nen. Auch zentrale konzeptuelle und metho- Verträumt-Sein und Trödeln charakterisiert ist
dische Fragen sind noch nicht zufriedenstel- (Kinze, Barchmann & Ettrich, 1985).
lend beantwortet. Dies betrifft insbesondere
messtechnische Probleme, die eine reliable Er- Gebräuchliche Testverfahren zur Bestimmung
fassung von Veränderungen aufwirft. Auch des Konzentrationsvermögens, die wir bereits
im Hinblick auf Einflüsse nichtintellektueller dargestellt hatten (I Kap. 12.5), messen pri-
Faktoren (z. B. Leistungsmotivation oder Prü- mär die Fähigkeit einer Person, ihre Aufmerk-
fungangst) auf die Ergebnisse von Lerntests samkeit über einen vergleichsweise kurzen

513
16 Pädagogisch-psychologische und Erziehungsdiagnostik

Zeitraum auf sehr spezifische Reize oder Reiz- Hinweise auf individuelle Merkmale gewin-
aspekte zu fokussieren. Die mit diesen Verfah- nen lassen, sind sie in diesem Bereich in erster
ren verknüpfte Anforderung zur kurzfristigen Linie für Gruppenvergleiche geeignet, in de-
„maximalen Anspannung“ der Aufmerksam- nen es z. B. um Unterschiede in der Nutzung
keit steht beim Lernen – und generell bei der von Lernmöglichkeiten während des Unter-
Informationsaufnahme und -verarbeitung – je- richts in verschiedenen Klassen geht.
doch häufig nicht im Vordergrund. Mit der
Testreihe zur Prüfung der Konzentrationsfä-
higkeit (TBK; Kurth & Büttner, 1999) wurde
der Versuch unternommen, ein stärker an Kon- 16.1.2 Emotionale und
zentrationsanforderungen in der Schule ori- motivationale Merkmale
entiertes Verfahren zu konstruieren. Das drei-
teilige Verfahren, das für Kinder der 2. bis
Neben Fähigkeitsmerkmalen ist für viele
6. Klassenstufe normiert ist, besteht aus einer
pädagogisch-psychologische Fragen auch die
Abschreibaufgabe (hier ist ein vorgegebener
Diagnostik emotionaler und motivationaler Ei-
Text zu kopieren), einer Aufgabe zur rezepti-
genschaften wichtig. Hierbei handelt es sich
ven Aufmerksamkeit (es wird eine Geschichte
zwar nicht um persönliche Lernvoraussetzun-
vorgelesen, die Kinder sollen sich die darin
gen im engeren Sinne, aber doch um Faktoren,
vorkommenden Tierarten merken und später
die individuelles Lernen wie auch Lernpro-
aufschreiben) und einfachen Rechenaufgaben.
zesse in Gruppen massiv beeinflussen kön-
Das Verfahren ist sehr reliabel (um .90 für
nen. Relevant sind insbesondere Ängstlich-
die zentralen Kennwerte) und weist eine recht
keit, Selbstwirksamkeitserwartungen, Selbst-
hohe Stabilität auf (.80 für ein Intervall von 2
konzept, Leistungsmotivation, Kontrollüber-
Monaten). Mit anderen Konzentrationstest kor-
zeugungen und Stressbewältigung, auf die wir
reliert es nur moderat bis mittelhoch (zwischen
uns in diesem Abschnitt konzentrieren. Eine
.34 und .63), was angesichts der unterschied-
gewisse Sonderstellung nimmt hier aggressi-
lichen inhaltlichen Anforderungen allerdings
ves Verhalten ein, das offenbar nicht direkt
nicht überrascht. Zum Urteil von Lehrkräften
lern- bzw. leistungsrelevant ist. Auf die Dia-
zeigt sich eine substanzielle Assoziation (r =
gnostik von Aggression gehen wir dennoch
.59).
kurz ein.
Für die Erfassung der Aufmerksamkeitsver- Emotionale und motivationale Merkmale be-
teilung in Klassen wurden Beobachtungsver- einflussen die von Schülern aufgewendete
fahren konzipiert, mit denen sich verschiede- Lernzeit (Harnishfeger & Wiley, 1976). Intel-
ne Aspekte aufmerksamen (aufgabenorientier- ligenz und Konzentration bestimmen dagegen
ten) und unaufmerksamen Verhaltens (z. B. die benötigte Lernzeit. Bei massiven Diskre-
Dösen, mit dem Nachbarn boxen) während panzen zwischen benötigter und aufgewende-
des Unterrichts protokollieren lassen (z. B. ter Lernzeit sind Schulleistungsprobleme zu
Helmke & Renkl, 1992). Im Unterschied zu erwarten (Zielinski, 1980). Überdies determi-
Konzentrationstests wird hier die Aufmerk- nieren diese Merkmale wesentlich das Verhal-
samkeitsorientierung auf unterrichtsrelevante ten und Erleben in Prüfungen und können sich
oder -irrelevante Gegenstände bestimmt. Er- hier leistungsbeeinträchtigend oder leistungs-
fasst wird also kein Fähigkeitsmerkmal (Ma- fördernd bemerkbar machen.
ximalleistung sensu Cronbach, 1990), sondern
eher typisches (volitionales) Verhalten. Ob- Ein zentrales leistungsbeeinträchtigendes Per-
wohl sich mit Beobachtungsverfahren auch sönlichkeitsmerkmal ist hohe Ängstlichkeit

514
16.1 Diagnostik individueller Merkmale

und dabei besonders die Prüfungangst (alter- hinreichend nutzen. Die mangelhafte Ausnut-
native Begriffe sind Bewertungs- und Leis- zung von Lernzeiten kann darin begründet
tungsangst). Wie bereits besprochen wur- sein, dass Schüler die Erfolgschancen eige-
de, muss bei der Prüfungsangst mindestens ner Handlungsmöglichkeiten in einer spezi-
zwischen einer Besorgnis- und einer Aufge- ellen Lernsituation aufgrund ihrer bisherigen
regtheitskomponente unterschieden werden Erfahrungen als gering einschätzen, so dass
(I Kap. 10.3.4). Leistungsmindernde Effekte sie Eigeninitiative als nicht aussichtsreich erle-
gehen primär vom Grad der Besorgnis in einer ben. Mit Verfahren zur Erfassung von Selbst-
Prüfungssituation aus (Krohne, 2010). wirksamkeitserwartungen lassen sich solche
Probleme abklären (Schwarzer, 1994; Schwar-
Ein etabliertes Verfahren zur Messung leis-
zer & Jerusalem, 2002). Eine Reihe von Ska-
tungsbezogener Angst ist der Angstfragebo-
len zur Erfassung verschiedener Facetten der
gen für Schüler (AFS; Wieczerkowski, Nickel,
Selbstwirksamkeit bei Schülern und Lehrkräf-
Janowski, Fittkau & Rauer, 1981), der Skalen
ten wurden von Schwarzer und Jerusalem
zur Erfassung der Prüfungsangst, allgemeinen
(1999) dokumentiert und (online) verfügbar
Angst, Schulunlust und (als Kontrollskala) so-
gemacht. Diese nützliche Ressource enthält
zialen Erwünschtheit enthält. Die Reliabilitä-
neben den Items auch Angaben zu psychome-
ten der Skalen streuen zwischen .67 und .85,
trischen Kennwerten der Skalen zur Selbst-
die Stabilitäten für ein Intervall von einem Mo-
wirksamkeit und ähnlicher Konstrukte.
nat zwischen .67 und .77. Mittels einer dem
Test beigelegten Einschätzskala für den Leh-
Verwandt mit dem Konstrukt der Selbstwirk-
rer lassen sich zudem Selbst- und Fremdein-
samkeitserwartung ist das der Kontrollüberzeu-
schätzungen miteinander vergleichen. Neuere
gung. Wie wir in I Kap. 10.3.1 sahen, bezie-
Inventare, die differenziertere Diagnosen im
hen sich internale Kontrollüberzeugungen auf
Bereich der Leistungsangst ermöglichen, wur-
die generalisierte Erwartung, dass bestimmte
den bereits in I Kap. 10 skizziert.
Ergebnisse Konsequenz eigener Verhaltens-
Als protektiver Faktor für die Auslösung weisen sind. Externale Kontrollüberzeugun-
von Angst in Prüfungssituationen gelten star- gen beziehen sich dagegen auf die Erwartung,
ke Selbstwirksamkeitserwartungen (Bandu- dass Ergebnisse von situativen Umständen ab-
ra, 1977; hierfür wird auch die Bezeichnung hängen, z. B. vom Verhalten anderer Personen
„Kompetenzerwartung“ gebraucht). Selbst- (soziale Externalität) oder vom Zufall (fata-
wirksamkeitserwartungen betreffen Einschät- listische Externalität). Kontrollüberzeugungen
zungen hinsichtlich effektiver Handlungsmög- und Selbstwirksamkeitserwartungen müssen
lichkeiten in einer Problemsituation. Von ih- nicht immer Hand in Hand gehen. So mag
rer Ausprägung soll die Initiierung problem- eine internale Person beispielsweise davon
lösender Handlungen, das Ausmaß investier- überzeugt sein, dass intensives Lernen vor ei-
ter Anstrengung und die Persistenz angesichts ner Prüfung zu einer guten Note führt (hohe
eintretender Schwierigkeiten und Rückschlä- Kontrollerwartung), sich aber nicht zutrauen,
ge abhängen. Starke Selbstwirksamkeitserwar- über längere Zeit angestrengt zu lernen (gerin-
tungen fördern explorative und erprobende ge Selbstwirksamkeitserwartung). Umgekehrt
Tätigkeiten und tragen damit auch zum Auf- könnte eine externale Person sich durchaus in
bau von Kompetenzen bei, während schwa- der Lage fühlen, angestrengt zu lernen, gleich-
che Selbstwirksamkeitkeitserwartung hierfür zeitig aber davon überzeugt sein, dass die Prü-
hinderlich sind. Schüler mit Lernschwierig- fungsnote letztlich doch von anderen Umstän-
keiten sind häufig dadurch gekennzeichnet, den (Glück mit den Prüfungsaufgaben, Laune
dass sie die ihnen zugestandene Lernzeit nicht des Prüfers usw.) abhängt. Verfahren zur Er-

515
16 Pädagogisch-psychologische und Erziehungsdiagnostik

fassung von Kontrollüberzeugungen werden Ein Verfahren, das sich speziell auf den Be-
in Krampen (1989) dargestellt. reich schulischer Leistungen konzentriert, ist
das Differentielle Schulische Selbstkonzept-
Unter dem Selbstkonzept werden kognitiv-
Gitter (DISK-Gitter) mit Skala zur Erfassung
affektive Repräsentationen verstanden, die ei-
des Selbstkonzepts schulischer Leistungen und
ne Person von sich selbst aufbaut. Diese Re-
Fähigkeiten (SKSLF-8) von Rost, Sparfeldt
präsentationen umfassen Beschreibungen und
und Schilling (2007). Mit diesem Fragebogen
Bewertungen eigener Merkmale, die sich auf
ist es möglich, neben dem allgemeinen schuli-
unterschiedliche Erlebens- und Verhaltensbe-
schen Selbstkonzept auch fachspezifische Aus-
reiche beziehen, z. B. intellektuelle Fähigkei-
prägungen des Selbstkonzepts bei Kindern der
ten, sportliche Leistungen, soziale Akzeptanz
7. bis 10. Klassenstufe zu erheben. Für die
oder physische Erscheinung. Die bewerten-
fachspezifischen Selbstkonzepte liegen separa-
den Komponenten des Selbstkonzepts deter-
te Skalen für Mathematik, Deutsch, Geschich-
minieren wesentlich die globale Selbstwert-
te, Physik, Englisch und Biologie vor. Die Re-
schätzung (das Selbstwertgefühl) einer Person,
liabilitäten sind generell recht hoch (größer als
wobei die Bedeutung einzelner Bereiche von
.80 für das allgemeine Selbstkonzept, größer
Person zu Person variieren kann (Moschner
als .90 für die fachspezifischen Selbstkonzep-
& Dickhäuser, 2006; Schütz, 2003). Bei einer
te), die Stabilitäten über vier bis acht Wochen
Person kann sich das Selbstwertgefühl etwa
variieren zwischen .71 und .91. Zur konvergen-
primär aus intellektuellen Leistungen, bei ei-
ten und diskriminanten Validität liegen recht
ner anderen primär aus der Akzeptanz durch
umfangreiche und überzeugende Befunde vor.
Bekannte speisen. Selbstwirksamkeitserwar-
tungen können als Bestandteile des fähigkeits- Unter den für Lernen und Leistung relevanten
bezogenen Selbstkonzepts aufgefasst werden. Motiven ist das Leistungsmotiv das wichtigs-
Viele Verfahren zur Bestimmung des Selbst- te und entsprechend am intensivsten erforsch-
konzepts sind jedoch breiter angelegt und kön- te (Brunstein & Heckhausen, 2010; Heckhau-
nen damit Aufschluss über Merkmale liefern, sen, 1980). Wie bereits dargestellt wurde, kön-
die mit Skalen zur Selbstwirksamkeit nicht nen Komponenten des Leistungsmotivs (z. B.
aufgedeckt werden. Hoffnung auf Erfolg, Furcht vor Misserfolg)
mit projektiven Tests (I Kap. 11) oder Befra-
Ein Beispiel für ein solches Verfahren
gungsverfahren (I Kap. 10) erfasst werden.
ist das Frankfurter Kinder-Selbstkonzept-
Konzeptuell bestehen hier deutliche Überlap-
Inventar (FKSI; Deusinger, 2002), mit dem
pungen mit Variablen aus dem Angstbereich,
zentrale Facetten des Selbstkonzepts bei drei-
die sich auch in substanziellen Korrelationen
bis 13-jährigen Kindern gemessen werden
manifestieren. In neuerer Zeit werden in der
können. Der Test wird bei jüngeren Kindern
pädagogisch-psychologischen Theoriebildung
als Fragespiel durchgeführt, bei älteren kann
und Diagnostik zunehmend Konzepte zur Ziel-
er als Gruppentest angewendet werden. Die
orientierung wichtig (z. B. Elliot, 1999). Diese
erfassten Bereiche beziehen sich auf (a) kör-
Konzepte können als Fortführung der klassi-
perliche Aspekte (z. B. Erscheinungsbild), (b)
schen Forschung zur Leistungsmotivation an-
Stimmung, Angst und Selbstsicherheit, (c)
gesehen werden.
moralische Selbstwertschätzung, (d) Leistung
und (e) soziale Interaktion (Selbstbehauptung, Zielorientierungen sind situativ angeregte dis-
Durchsetzung, Wertschätzung durch andere, positionelle Präferenzen für bestimmte Arten
Kontakt- und Umgangsfähigkeit). Für den Ge- von Zielen in Lern- und Leistungssituationen.
samttest, der Reliabilitäten um .88 erreicht, Grundlegend wird dabei zwischen Lernzie-
sind 60 Minuten zu veranschlagen. len und Leistungszielen differenziert. Bei der

516
16.1 Diagnostik individueller Merkmale

Lernzielorientierung richtet sich Lern- und Die SELLMO sind für Kinder der Klassen-
Leistungsverhalten auf die Erweiterung der stufen 3 bis 10 normiert, können aber auch
eigenen Kompetenzen. Bei der Leistungsziel- für die Erfassung der Motivation bei Studie-
orientierung geht es der Person dagegen ent- renden eingesetzt werden. Die Reliabilitäten
weder darum, die eigenen Fähigkeiten vor an- der Skalen streuen zwischen .73 und .78, die
deren zu demonstrieren – diese Form heißt Stabilitäten (Zeitintervall 6 Monate) bewegen
Annäherungs-Leistungszielorientierung – oder sich zwischen .54 und .63. Mit schulischen
darum, eigene Schwächen vor anderen zu Leistungen (Noten) zeigen sich erwartungs-
verbergen – hierbei handelt es sich um die konform gerichtete, allerdings eher niedrige
Vermeidungs-Leistungszielorientierung. Per- Korrelationen (im Mittel um −.20, dies ist für
sonen können sich dabei durchaus an meh- Motivskalen nicht unüblich), die für Lernziele
reren Zielen gleichzeitig orientieren. Für und Arbeitsvermeidung deutlicher ausfallen
langfristig effektives Lernen wird eine aus- als für die beiden anderen Skalen.
geprägte Lernzielorientierung als besonders
günstig angesehen, während die Orientie- Wichtig im Bereich der Motivationsdiagnos-
rung an Vermeidungs-Leistungszielen ungüns- tik ist die Erfassung von Attributionsmustern
tig sein soll. Bei ausgeprägten Annäherungs- für Erfolg und Misserfolg. Es sollte also ge-
Leistungszielen werden – wie bei der Lernziel- klärt werden, auf welche Ursachen Schüler mit
orientierung – positive, im Unterschied zu ihr Lern- oder Leistungsschwierigkeiten Misser-
allerdings eher kurzfristige Effekte auf Leis- folge zurückführen. Häufig attribuieren Schü-
tungen erwartet. ler mit Leistungsproblemen eigene Misserfol-
ge auf mangelnde Fähigkeiten, also eine sta-
Spinath, Stiensmeier-Pelster, Schöne und bile internale Ursache. Derartige Attribuierun-
Dickhäuser (2012) haben mit den Skalen zur gen sind ungünstig für das Engagement beim
Erfassung der Lern- und Leistungsmotivati- Lernen. Für die Erfassung von Attribuierungs-
on (SELLMO) ein Verfahren vorgelegt, mit tendenzen bei Kindern und Jugendlichen ist
dem sich Zielorientierungen messen lassen. z. B. der Fragebogen Kausalattribuierungen
Entsprechend der genannten Differenzierung in Leistungssituationen (FKL; Keßler, 1988;
bietet das mit 31 Items sehr ökonomische Ver- Reliabilitäten zwischen .70 und .86; Stabilität
fahren drei Skalen zur Bestimmung von Ziel- für 10 Wochen zwischen .54 und .68.; ein-
orientierungen an, nämlich setzbar ab 13 Jahre) sowie der Attributionsstil-
Fragebogen für Kinder und Jugendliche (AFS-
• Orientierung an Lernzielen (Itembeispiel:
KJ; Stiensmeier-Pelster, Schürmann, Eckert,
„In der Schule/im Studium geht es mir dar-
Pelster, 1994; einsetzbar bei Acht- bis Sech-
um, etwas Interessantes zu lernen“),
zehnjährigen) geeignet, dessen Subkskalen al-
• Annäherungs-Leistungszielen („... dass an- lerdings nicht durchgängig die für eine Ein-
dere denken, dass ich klug bin.“) und zelfalldiagnostik notwendige Reliabilität er-
• Vermeidungs-Leistungszielen („... dass nie- reichen (Reliabilitäten zwischen .52 und .81,
mand merkt, wenn ich etwas nicht verste- Stabilitäten für vier Wochen zwischen .49 und
he.“) .65).

Die Antworten werden mit einer fünfstufigen Alltagsbelastungen im Kontext der Schule stel-
Antwortskala versehen. Mit einer vierten Ska- len mitunter erhebliche Ansprüche an die Be-
la wird zusätzlich die Tendenz zur Arbeitsver- wältigungsfähigkeit von Kindern. Als Belas-
meidung („... zu Hause keine Arbeiten erledi- tungsquellen sind dabei nicht nur Leistungsan-
gen zu müssen.“) erfasst. forderungen, sondern auch soziale Probleme

517
16 Pädagogisch-psychologische und Erziehungsdiagnostik

mit Mitschülern (z. B. Ausgrenzung durch an- Die Beschreibungen wurden geschlechtsspe-
dere) anzusehen. Ein Verfahren zur Erhebung zifisch angepasst und dabei jeweils mit Zeich-
solcher Belastungen und entsprechender Be- nungen konkretisiert. Die Kinder wählen aus
wältigungsreaktionen ist der Fragebogen zur einer von drei vorgegebenen Reaktionsoptio-
Erhebung von Stress und Stressbewältigung nen, die aggressives oder sozial erwünschtes
im Kindes- und Jugendalter (SSKJ; Lohaus, (nicht-aggressives) Verhalten beschreiben, die
Eschenbeck, Kohlmann & Klein-Heßling, auf sie am besten zutreffende aus (im Beispiel:
2006), der bei Kindern und Jugendlichen der „Ich kippe von hinten den Stuhl um und set-
dritten bis achten Klasse eingesetzt werden ze mich auf meinen alten Platz.“ – „Ich gehe
kann (Durchführungszeit: 30–40 Minuten). Er- zum Lehrer und sage ihm, dass Holger mir
fasst werden die Stressvulnerabilität (Ausmaß meinen Platz weggenommen hat.“ – „Ich su-
des Belastungsempfindens im Leistungs- und che mir einen freien Platz.“). Der Aggressions-
sozialen Bereich), Präferenzen für bestimmte score ist mit .87 sehr reliabel und über zwei
Stressbewältigungsstrategien (die Subskalen Monate recht stabil (.71). Der Versuch der
sind: Suche nach sozialer Unterstützung, pro- Autoren, zusätzlich unterschiedliche Formen
blemorientierte Bewältigung, vermeidende Be- bzw. Aggressionstypen mit Hilfe der Angaben
wältigung, konstruktiv-palliative Emotionsre- im Fragebogen zu identifizieren, ist sicherlich
gulation, destruktiv-ärgerbezogene Emotions- nachvollziehbar und wichtig, bleibt aufgrund
regulation) sowie die Stresssymptomatik (phy- fehlender empirischer Evidenz jedoch wenig
sische Symptomatik, psychische Symptoma- überzeugend. Die Zeichnungen, die aus der
tik mit den Subskalen Ärger, Traurigkeit und ersten Auflage des Verfahrens stammen, wir-
Angst). Die Reliabilitäten der Skalen streu- ken inzwischen veraltet und hätten bei einer
en zwischen .66 und .89, die Stabilitäten für Neuauflage und -normierung des Tests eine
ein Intervall von zwei Wochen zwischen .56 Anpassung verdient.
und .82. Ein weiteres Verfahren zur Erfassung
des Bewältigungsverhaltens bei Kindern und Als spezifische Form der Aggression im Schul-
Jugendlichen ist die von Hampel, Petermann kontext ist Bullying ein wichtiges Thema ge-
und Dickow (2001) vorgenommene Adapta- worden (Scheithauer, Hayer & Bull, 2007).
tion des bereits dargestellten Streßverarbei- Unter Bullying wird wiederholtes und über
tungsfragebogens (Janke, Erdmann & Kallus, einen längeren Zeitraum hin auftretendes ag-
1985; I Kap. 10). gressives und schikanierendes Verhalten (ei-
ner Gruppe) von Schülern (den „Bullies“) ge-
Zur Diagnostik von Aggression liegt der Er- genüber einzelnen Mitschülern (den Opfern,
fassungsbogen für aggressives Verhalten in „Victims“) verstanden, bei dem sich die Op-
konkreten Situationen (EAS; Petermann & fer aufgrund eines starken Machtgefälles zu
Petermann, 2000) vor, der bei Kindern im den Tätern nicht effektiv zur Wehr setzen kön-
Alter von 9 bis 12 Jahren eingesetzt wer- nen. Unterschieden wird zwischen direkten
den kann. Der Fragebogen ist als Situations- und indirekten bzw. relationalen Formen des
Reaktionsinventar konzipiert. Es werden ins- Bullyings. Bei der direkten Form, die sich
gesamt 22 Situationen geschildert, die alltäg- z. B. in physischer Gewalt, verbalen Drohun-
liche Konflikte zwischen Kindern, Aggressio- gen oder Beschimpfungen äußert, findet eine
nen gegen Gegenstände und Autoaggression offene Konfrontation zwischen Täter und Op-
thematisieren (z. B. „Ich komme in die Schu- fer statt. Bei der indirekten oder relationalen
le und stelle fest, dass Holger sich auf mei- Form vollzieht sich Bullying dagegen oft hin-
nen Platz gesetzt hat. Bei uns in der Klasse ter dem Rücken des Opfers, es wird z. B. von
hat aber jeder meistens seinen festen Platz“). gemeinsamen Aktivitäten ausgeschlossen oder

518
16.1 Diagnostik individueller Merkmale

es werden Gerüchte gestreut. In der neueren ist oft allein.“; proaktiv/Täter: „Das Kind be-
Forschung wird Bullying als Gruppenphäno- droht oder schikaniert andere um seinen/ihren
men betrachtet (Schäfer, 2008). Bullying und Willen durchzusetzen.“; reaktiv/Täter: „Wenn
Viktimisierung stellen also keine individuellen das Kind geärgert wurde, wird es leicht wü-
Eigenschaften dar, vielmehr beschreiben sie tend und schlägt zurück.“). Das pro Kind etwa
Rollen innerhalb eines sozialen Systems (Sal- fünf Minuten in Anspruch nehmende Verfah-
mivalli, 1999; Scheithauer et al., 2007). Hierinren erreicht zufriedenstellende bis gute Re-
besteht ein wichtiger Unterschied zu den ande- liabilitäten (interne Konsistenzen zwischen
ren im vorliegenden Abschnitt beschriebenen .76 und .91). Haupteinsatzgebiete sind die Er-
Verhaltensbereichen. hebung der Prävalenz von Bullying in einer
Gruppe (z. B. Schulklasse), die Identifizierung
Der von Marées und Petermann (2010) konzi- von Kindern, die an solchen Prozessen betei-
pierte Bullying- und Viktimisierungsfragebo- ligt sind, sowie die Evaluation von Maßnah-
gen (BVF) erfasst die Häufigkeit, mit der Kin- men gegen Bullying.
der als Opfer von Bullying betroffen sind bzw.
Die bislang dargestellten Tests sind jeweils
mit der sie selbst als Täter agieren. Das In-
auf umgrenzte Verhaltensbereiche speziali-
strument kann bei Kindern im Alter zwischen
siert, die in pädagogischen Kontexten bedeut-
4 und 11 Jahren angewendet werden. Der
sam sind. Daneben existieren viele Breitband-
BVF liegt in einer Selbstbeurteilungsversion
Diagnostika, die eine ganze Palette pädago-
für Kinder (BVF-K; jüngere Kinder beantwor-
gisch relevanter Eigenschaften erfassen sol-
ten die Fragen mündlich im Einzelinterview)
len, ähnlich wie die in I Kap. 10.2 vorge-
sowie in einer Fremdbeurteilungsversion für
stellten Fragebogen. Mit der Verwendung sol-
Lehrkräfte oder Erzieher (BVF-L) vor, die das
cher Verfahren müssen natürlich Einbußen an
Verhalten der von ihnen betreuten Kinder ein-
Spezifität in Kauf genommen werden, was
schätzen. Damit ist ein diagnostisch sehr auf-
für manche Fragestellungen (z. B. Screening-
schlussreicher Vergleich zwischen Selbst- und
Untersuchungen) jedoch akzeptabel ist.
Fremdurteil möglich.
Ein „Klassiker“ in diesem Bereich ist der Ham-
Beide Versionen enthalten eine Opfer- und ei- burger Persönlichkeitsfragebogen für Kinder
ne Täterskala. Beim BVF-K werden dabei je- (HAPEF-K; Wagner & Baumgärtel, 1978).
weils direkte und indirekte Formen der Ag- Der HAPEF-K ist für neun- bis 13-jährige
gression erfasst (z. B. direkt/Opfer: „Wie oft Kinder konzipiert und nimmt ca. 25 Minuten
tun andere Kinder dir absichtlich weh?“; di- Durchführungzeit in Anspruch. Er besteht aus
rekt/Täter: „Wie oft sagst du gemeine Dinge insgesamt sechs Skalen, deren Reliabilitäten
zu anderen Kindern?“; indirekt/Opfer: „Wie zwischen .82 und .90 variieren. Die Skalen
oft lassen andere Kinder dich nicht mitspie- messen (a) emotional bedingte Leistungsstö-
len?“ indirekt/Täter: „Wie oft sagst du zu ei- rungen (Gefühle der Unsicherheit und Unzu-
nem anderen Kind, wenn du nicht tust, was länglichkeit, mangelnde Konzentrationsfähig-
ich will, bist du nicht mehr mein Freund?“). keit bei Leistungsanforderungen), (b) Angst
Beim BVF-L wird für die Opferskala zwi- und somatische Beschwerden (angstbezogene
schen primären und sekundären Opferanzei- Erwartungen und deren somatische Begleit-
chen differenziert, bei der Täterskala zwischen symptome), (c) Aggression, (d) Neurotizis-
proaktiver und reaktiver Aggression (z. B. pri- mus, (e) Reaktion auf Misserfolg (Leistungs-
mär/Opfer: „Das Kind wird oft gehänselt motivation, neurotische Reaktionen auf Miss-
und/oder schikaniert.“; sekundär/Opfer: „Das erfolgserlebnisse) und (f) Extraversion (sozia-
Kind hat wenig oder keine engen Freunde und le Aktivität, Kontaktbereitschaft, Selbststän-

519
16 Pädagogisch-psychologische und Erziehungsdiagnostik

digkeit im Handeln). Ein neueres Breitband- sind zur Zeit jedoch allein für Forschungszwe-
verfahren ist der von Seitz und Rausche (2004) cke geeignet.
konzipierte Persönlichkeitsfragebogen für Kin-
der zwischen 9 und 14 Jahren (PFK 9-14), mit
dem diverse Verhaltensstile, Motive und Facet-
ten des Selbstbilds mit insgesamt 15 Skalen 16.1.3 Arbeitsverhalten und
abgebildet werden können. Die Durchführung
Lernstrategien
des umfangreichen Verfahrens benötigt ca. 45
Minuten.
Eng auf Motivation bezogen – und für schuli-
Auch projektive Verfahren werden bei Kindern
sche Leistungen essenziell – sind Merkmale
eingesetzt. Beliebt ist z. B. der Rosenzweig
des Lern- und Arbeitsverhaltens. Ein für die
Picture Frustration Test für Kinder (PFT; Ro-
Erfassung solcher Merkmale häufig verwen-
senzweig, 1957), der bei Jungen und Mädchen
detes Verfahren ist das von Keller und Thiel
im Alter von sieben bis 14 Jahren angewen-
(1998) konzipierte Lern- und Arbeitsverhal-
det werden kann. Die Durchführung dauert
tensinventar (LAVI), das bei Kindern der 5.
etwa 20 Minuten. Gemessen wird die Belast-
bis 10. Klasse eingesetzt werden kann. Das
barkeit (Frustrationstoleranz) in sozialen Kon-
Verfahren enthält 58 Items, die das Verhalten
fliktsituationen. Das Verfahren besteht aus 24
in diversen Lern- bzw. Arbeitssituationen er-
Zeichnungen. Dargestellt sind jeweils Situa-
fragen. Die drei faktorenanalytisch gebildeten
tionen, in denen eine Person frustrierende Äu-
Skalen des Inventars umfassen
ßerungen an eine zweite Person richtet. Die
Antwort der zweiten Person ist vom Kind as-
soziativ zu ergänzen und wird anschließend 1. die Arbeitshaltung, worunter die grundsätz-
im Hinblick auf diverse Reaktionsklassen ko- liche Bereitschaft zum konzentrierten Ler-
diert, z. B. Aggression, Selbstbeschuldigung, nen und Problemlösen verstanden wird,
Resignation, Ausweichen, Eigeninitiative. Die 2. die Stressbewältigung, hier geht es um die
Probleme projektiver Tests hatten wir bereits Fähigkeit, Störungen und Misserfolge beim
besprochen (I Kap. 11). Lernen und bei Prüfungen zu meistern, und
3. Lerntechniken, definiert als die Fähigkeit
Verfahren zur Messung emotionaler und mo- zur wirksamen Verarbeitung des Lernstoffs.
tivationaler Merkmale werden in pädagogi-
schen Kontexten u. a. zur Objektivierung von Für jedes Item werden drei Antwortalterna-
Eindrücken über Eigenschaften des Kindes, tiven formuliert, von denen das Kind eine
zur Identifikation personaler Risikofaktoren wählt. Für diese Antworten werden – je nach
oder zur Untersuchung von Hypothesen über (durch Experten eingeschätzter) Angemessen-
Zusammenhänge zwischen Lernumwelt oder heit – 1 Punkt („unbefriedigend“), 2 Punkte
Erziehungspraktiken mit der Persönlichkeits- („teilbefriedigend“) oder 3 Punkte („vollbefrie-
entwicklung verwendet. Von ihrem alleinigen digend“) Punkte vergeben. I Übersicht 16.1
Einsatz für individualdiagnostische Entschei- zeigt Beispiele für die Items und Antwortop-
dungen ist aufgrund der in den I Kap. 10 und tionen.
I Kap. 11 geschilderten Schwierigkeiten ab-
zuraten. Zur Messung affektiver Persönlich- Die Reliabilitäten der Skalen sind zufrieden-
keitsmerkmale bei Kindern werden seit eini- stellend bis gut (Arbeitshaltung: .90, Stress-
gen Jahren auch kognitiv-experimentelle Ver- bewältigung: .81, Lerntechnik: .72), die Sta-
fahren erprobt (I Kap. 11). Diese Verfahren bilitäten über 7 Monate sind relativ hoch (um

520
16.1 Diagnostik individueller Merkmale

Übersicht 16.1 Beispielitems des LAVI. lichkeiten, Ansatzpunkte für Förderziele und
-maßnahmen abzuleiten, wozu im Testhand-
Skala Arbeitshaltung buch auch sinnvolle Empfehlungen gegeben
Ein Aufgabentext lässt sich schwer verstehen. werden.
a) Ich lasse die Aufgabe aus.
b) Ich lese ihn nochmals durch, vielleicht ver- Unter Lernstrategien werden Verhaltenswei-
stehe ich ihn dann. sen verstanden, die Lernende aktiv für Zwecke
c) Ich mache ihn mir verständlich, indem ich des Wissenserwerbs einsetzen (Wild, 2006,
ihn in eigene Worte übersetze oder durch eine S. 427). Das Konzept spielt in Modellen zum
Zeichnung verdeutliche. selbstgesteuerten Lernen eine wichtige Rolle
(Schiefele & Pekrun, 1996), die theoretische
Skala Stressbewältigung
Grundlagen für die Verbesserung des Lernver-
Du hast eine schlechte Note erhalten.
haltens schaffen sollen. Lernstrategien werden
a) Ich bin niedergeschlagen.
im Allgemeinen in drei Kategorien unterteilt:
b) Ich versuche, den Misserfolg zu vergessen.
Informationsstrategien, Kontrollstrategien und
c) Der Misserfolg wirft mich nicht um. Auf
Ressourcenmanagement (Wild & Schiefele,
die nächste Arbeit werde ich mich gründlich
1994; Pintrich, 1989).
vorbereiten.
Skala Lerntechniken Informationsstrategien betreffen die unmittel-
Du musste Dir ein schwieriges Fachwort (z. B. bare Verarbeitung aufgenommener Informati-
in Biologie) einprägen. on. Zu ihnen zählen
a) Ich merke es mir über eine Eselsbrücke.
b) Ich schaue es mir an und sage es mir dann 1. das Wiederholen von Fakten, Regeln und
mehrmals vor. Zusammenhängen,
c) Ich schaue es mir an. 2. das Elaborieren des Materials (Aktivitäten,
die der Integration neuer Information in be-
reits bestehendes Wissen dienen, z. B. Her-
.75). Auch der Zusammenhang mit schuli- stellen von Querverbindungen zu bereits Be-
schen Leistungen (ermittelt über die Durch- kanntem, Finden von Alltagsbeispielen; An-
schnittsnote aus Deutsch, Englisch und Mathe- reichern aufgenommener Information mit
matik) fällt relativ hoch aus (multiple Korrela- neuer, z. B. Bilden von Analogien; Para-
tion .47) – er geht hauptsächlich auf die Skala phrasieren),
Arbeitshaltung zurück – und bleibt nach der 3. das kritische Prüfen von Aussagen (z. B.
Kontrolle der Intelligenz (offenbar) substan- durch Analyse ihrer Begründung oder Kon-
ziell. Die Validitätsanalysen sind recht spär- trastierung mit konkurrierenden Hypothe-
lich und nur unzureichend dokumentiert. So sen) sowie
fehlen z. B. Angaben zur durchgeführten Fak- 4. das Organisieren, in dem vorliegende In-
torenanalyse der Items vollständig. Über die formation in eine leichter zu verarbeitende
Korrelationen der drei Skalen erfährt der Le- Form überführt wird (z. B. Reduzieren um-
ser nichts, obwohl dies für die Interpretation fangreichen Materials auf wesentliche Punk-
der Testergebnisse wichtig wäre. Unterschie- te, Zusammenfassen in Form von Tabellen,
de zwischen Schularten, Klassenstufen und Graphiken, Mind Maps).
Geschlechtern wurden zwar analysiert, die Er-
gebnisse werden aber nicht berichtet und auch Elaborieren, Prüfen und Organisieren sollen
nicht bei der Erstellung von Normtabellen ver- für das Verstehen von Bedeutungszusammen-
wendet. Immerhin bietet der Test gute Mög- hängen besonders förderlich sein.

521
16 Pädagogisch-psychologische und Erziehungsdiagnostik

Kontrollstrategien oder metakognitive Strate- 16.2 Lernresultate


gien richten sich auf die Planung und inhalt-
liche Vorbereitung von Lernphasen (z. B. Fra- 16.2.1 Prüfungen
gen zum Text stellen), die Überwachung des
Lernfortschritts sowie Handlungen beim Auf- Am weitaus häufigsten werden Lernresulta-
treten von Schwierigkeiten (z. B. eine Pause te durch die von Lehrenden an Schulen und
einlegen und anschließend den Stoff noch ein- Hochschulen konzipierten schriftlichen und
mal neu angehen). Ressourcenmanagement be- mündlichen Prüfungen erfasst. Deren Ergeb-
zeichnet lernunterstützende Verhaltensweisen, nisse werden in Form von Zensuren und Zeug-
die auf die Optimierung der inneren (z. B. Kon- nissen dokumentiert, über die evtl. wichtige
zentration, Anstrengungsbereitschaft) und äu- Weichen für den weiteren Lebensweg einer
ßeren Lernbedingungen (z. B. Gestaltung des Person gestellt werden. Diesem Sachverhalt
Arbeitsplatzes) zielen. Sie werden auch als ist es zu verdanken, dass das schulische Beur-
Stützstrategien bezeichnet. teilungssystem auch außerhalb der Profession
Ein Fragebogen zur Erfassung der genannten immer wieder Gegenstand kritischer Ausein-
Lernstrategien im Hochschulbereich wurde andersetzungen wird.
von Wild und Schiefele (1994) vorgelegt. Ar- Tatsächlich deckten empirische Untersuchun-
telt (1999) berichtet über ein stärker am kon- gen der Notenvergabe quer über die Fächer
kreten Verhalten orientiertes Verfahren für den gravierende Objektivitäts- und Reliabilitäts-
Schulbereich, in dem Schüleräußerungen nach mängel auf (Lukesch, 1998). Festgestellt wur-
einer Lernepisode mit Hilfe eines Kategori- den (a) starke Streuungen der Beurteilungen
ensystems kodiert und zur Bestimmung des derselben Prüfungsarbeit durch verschiedene
Strategieeinsatzes genutzt werden. Derartige Lehrer, (b) starke Streuungen zwischen Erst-
Verfahren können helfen, die unzureichende und Zweitbeurteilung einer Arbeit durch die
Nutzung von Strategien oder den Einsatz we- gleichen Lehrer nach einer gewissen Zeitspan-
nig effektiver Formen des Wissenserwerbs auf- ne sowie (c) Einflüsse diverser sachfremder
zudecken. Faktoren auf die Beurteilung (z. B. Status der
Eltern, Handschrift, Beliebtheit des Schülers,
Im Hinblick auf die zentrale Frage nach der Ef-
Einsatz von Noten zu Disziplinierungszwe-
fektivität von Lernstrategien und besteht noch
cken).
erheblicher Forschungsbedarf. Es zeigt sich,
dass ein vermehrter Einsatz elaborativer und Die Ursachen dieser Defizite sind vielfältig.
organisatorischer Strategien nicht immer mit Offensichtlich ist, dass Prüfungsanforderun-
höherem Prüfungserfolg assoziiert ist (Bau- gen hinsichtlich Inhalt und Schwierigkeit zwi-
mert & Köller, 1996). Ganz offenbar müs- schen Lehrenden, Schulen und Regionen stark
sen hier weitere Faktoren moderierend wirken differieren. Darüber hinaus legen verschiedene
(Artelt, 1999). Zu denken ist dabei z. B. an Lehrende unterschiedliche Bewertungsmaßstä-
Fähigkeits- oder Vorwissensunterschiede (sehr be an Leistungen an. Viele Lehrende adjus-
kompetente Personen könnten in geringerem tieren z. B. die Noten am durchschnittlichen
Maße auf den Einsatz von Lernstrategien an- Leistungsniveau der Klasse, so dass Arbeiten
gewiesen sein) oder an die Art der jeweils vor- in Klassen mit objektiv hohem Leistungsni-
herrschenden Prüfungsanforderungen (für be- veau oft strenger beurteilt werden als in Klas-
stimmte Prüfungsinhalte kann das Auswendig- sen mit niedrigem Niveau (Orientierung der
lernen isolierter Fakten tatsächlich die effek- Notenvergabe an einem klasseninternen Be-
tivste Form der Vorbereitung darstellen; Wild, zugssystem). Die genannten Faktoren beein-
1996). trächtigen die Vergleichbarkeit der Noten von

522
16.2 Lernresultate

Schülern aus unterschiedlichen Einrichtungen. Deutsch, Mathematik) oder einzelne fachspe-


Problematisch ist dies, wenn – wie in unserem zifische Kompetenzen (z. B. Lesen, Recht-
Bildungssystem – Studienmöglichkeiten und schreibung, Wortschatz). Einige Tests sind
spätere Berufsperspektiven auch von schuli- breiter angelegt und erfassen Kenntnisse und
schen Beurteilungen abhängen. Fertigkeiten in verschiedenen Gebieten. In
neueren Verfahren wird verstärkt Wert auf
eine differenzierte Diagnose einzelner Wis-
senskomponenten gelegt. Mit diesen Tests las-
16.2.2 Schulleistungstests sen sich z. B. Bereiche identifizieren, in de-
nen Schüler noch verstärkter Förderung bedür-
fen. Mit manchen Verfahren – etwa dem Dia-
Schulleistungstests bieten eine Alternative zur
gnostischen Rechtschreibtest (DRT), von dem
traditionellen schulischen Leistungsbeurtei-
Varianten für diverse Klassenstufen vorliegen
lung. Sie werden mit der Zielsetzung konstru-
(z.B. Müller 2003) – sind qualitative Fehler-
iert, die Ergebnisse schulischen Lernens ob-
analysen möglich. Hier werden Fehler nicht
jektiver, reliabler und valider abzubilden als
nur ausgezählt, sondern auch nach inhaltlichen
dies mit herkömmlichen Prüfungen möglich
Gesichtspunkten kategorisiert, was wichtige
ist. Im Sinne der in I Kap. 9 vorgestellten Ein-
Hinweise für gezielte individuelle Maßnah-
teilung handelt es sich um achievement tests
men liefern kann. Auch zur Evaluation des
(Kenntnistests), mit denen Fortschritte in Lern-
Effekts von Unterrichtseinheiten oder didakti-
prozessen erfasst werden sollen. Dabei lassen
scher Vorgehensweisen sind solche Tests ge-
sich formelle und informelle Tests gegenüber-
eignet. Schließlich können sie Anhaltspunkte
stellen (Ingenkamp & Lissmann, 2008).
für die Bewertung der Angemessenheit schu-
Formelle Schulleistungstests werden mit Hilfe lischer Leistungsbeurteilungen bereit stellen
psychometrischer Modelle und Methoden kon- (für Übersichten siehe Lissmann, 2010, und
struiert. Die Tests werden anhand allgemein Lukesch, 1998).
geltender Zielvorgaben von Lehrplänen er-
Die Konstruktion und Normierung eines for-
stellt. Das Kriterium der Inhaltsvalidität spielt
für die Auswahl der Aufgaben entsprechend mellen Schulleistungstests verlangt einen er-
eine wichtige Rolle. Die meisten Tests sind fürheblichen methodischen und finanziellen Auf-
Klassenstufen und Schularten normiert und er- wand, der von Lehrenden im Allgemeinen
lauben es daher, den Leistungsstand einzelner nicht zu leisten ist. Lehrende können sich je-
Schüler oder das allgemeine Leistungsniveau doch durchaus eigene Verfahren bauen, die auf
in Klassen oder Schulen an überregionalen ihre spezifischen Anliegen und Lehrinhalte ab-
Standards zu messen. Bei der Interpretation gestimmt sind. Man spricht hier von informel-
der Ergebnisse solcher an Bezugsgruppen ori- len Schulleistungstests oder informellen Lern-
kontrolltests. Im Englischen ist hierfür auch
entierter Vergleiche müssen natürlich evtl. vor-
liegende lokale Besonderheiten berücksichtigt die Bezeichnung teacher-made test gebräuch-
werden, etwa die Betonung ganz spezieller lich, die hervorhebt, dass es sich um Verfahren
Lehrziele oder didaktischer Vermittlungsfor- handelt, die von Lehrenden selbst, gegebenen-
men von Inhalten, aber auch gehäufter Unter- falls mit psychologischer Unterstützung, für
richtsausfall oder andere ungünstige Schulsi- wiederkehrende Anliegen zusammengestellt
tuationen (z. B. große Klassen). werden. Sie informieren Lehrende über das
Wissensniveau von Gruppen oder einzelner
Inhaltlich konzentrieren sich viele Schulleis- Schüler und dienen damit der Lehrvorberei-
tungstests auf ein bestimmtes Fach (z. B. tung und -planung sowie der Bestimmung von

523
16 Pädagogisch-psychologische und Erziehungsdiagnostik

Lehreffekten. Aus ihren Ergebnissen lassen entsprechend spezialisierte Verfahren auch als
sich – wie bei formellen Tests – geeignete An- lehrzielorientierte Tests bezeichnet. Wir ver-
satzpunkte für spezifische pädagogische Maß- wenden den Begriff „lehrzielorientierter Test“
nahmen ableiten (z. B. verstärkte Förderung im Folgenden in einem weiten Sinne, der auch
einzelner Schüler, Abstimmung der Lehrin- Klausuren oder andere testähnliche Prüfungen
halte und -methoden auf die spezifischen Vor- im Schulbereich umfasst, da die hier behandel-
aussetzungen einer Klasse). Die Konstruktion ten Gesichtspunkte für die Zusammenstellung
informeller Tests orientiert sich an der ihrer von Aufgaben und die Feststellung der Zieler-
formellen Vorbilder. Informelle Tests können reichung im Prinzip auch für Prüfungen gelten
entsprechend durchaus Testgütekriterien ge- oder doch auf sie übertragbar sind.
nügen. Von formellen Tests unterscheiden sie
sich im Wesentlichen durch ihren an einen Bei der Konstruktion lehrzielorientierter Tests
Lehrenden gebundenen Einsatzzweck und die kommt der Inhaltsvalidität eine besonders
fehlende (repräsentative) Normierung. Auch große Bedeutung zu. Die Aufgaben des Tests
systematische psychometrische Analysen lie- müssen also für die Lehrziele relevant sein und
gen (verständlicherweise) meist nicht vor. sie in ihrer Gesamtheit möglichst gut repräsen-
tieren. Wie wir sahen, ist die Repräsentativität
der Items für den durch einen Tests anvisier-
16.2.3 Erfassung des Erreichens ten Verhaltensbereich generell ein wichtiger
von Lehrzielen Gesichtspunkt (I Kap. 3). Bei lehrziel- und
anderen kriteriumsorientierten Verfahren muss
darüber hinaus festgelegt werden, wie gut die
Informelle Tests dienen primär der Optimie-
Aufgaben beherrscht werden müssen, damit
rung des Unterrichts, indem sie Rückmeldun-
ein Erreichen des Ziels attestiert werden kann.
gen für Lehrende liefern. Darüber hinaus ist es
Benötigt wird also ein Kompetenzkriterium,
in unserem Bildungssystem vorgesehen, das
anhand dessen über die Zielerreichung ent-
Erreichen oder Verfehlen von Lehrzielen bei
schieden werden kann. Dieser zweite Gesichts-
Schülern oder Studierenden festzustellen und
punkt ist für kriteriumsorientierte Verfahren
mittels Punkt- oder Notensystemen zu bewer-
spezifisch.
ten. Auf wesentliche Gesichtspunkte hierfür
soll in diesem Abschnitt eingegangen werden.
Für die Definition einer repräsentativen Auf-
In I Kap. 3 hatten wir verschiedene Bezugs- gabenmenge ist das Erstellen einer Verhaltens-
systeme für die Einordnung von Testwer- Inhalts-Matrix zweckmäßig. Es handelt sich
ten diskutiert. Dabei wurde u. a. zwischen um eine Kreuztabelle, deren erste Dimension
normorientierten und kriteriumsorientierten mit Verhaltensweisen gefüllt wird, die im Rah-
Bezugssystemen unterschieden. Normorien- men einer Unterrichtseinheit aufgebaut wer-
tierte Vergleiche beziehen Leistungen auf die den sollen. Hierbei werden meist breite, in-
Testwertverteilung in einer Referenzgruppe. haltsunspezifische Verhaltenskategorien ver-
Bei kriteriumsorientierten Vergleichen geht es wendet, die unterschiedliche Anforderungen
demgegenüber um die Frage, ob – und evtl. oder gestufte Anforderungsebenen repräsen-
in welchem Maße – Leistungen einem vorab tieren, z. B. Reproduktion oder Transfer. Die
festgelegten Standard genügen. Für schulische zweite Dimension wird durch die behandelten
Beurteilungen kommt kriteriumsorientierten Inhalte bzw. Themen aufgespannt. Die Zel-
Vergleichen naturgemäß eine zentrale Rolle len der Matrix enthalten dann Kombinationen
zu. Da es sich bei den Kriterien im vorlie- von Verhaltensaspekten und Inhalten, für die
genden Kontext um Lehrziele handelt, werden jeweils konkrete Aufgaben formuliert werden.

524
16.2 Lernresultate

Die Füllung der Verhaltensdimension kann also um reines Wiederholen oder Nachvollzie-
sich auf Klassifikationschemata für Lehrziele, hen von Sachverhalten oder die Demonstration
sog. Lehrzieltaxonomien, stützen. Ein recht von Fertigkeiten in bereits bekannten Zusam-
einfaches Schema unterscheidet z. B. auf einer menhängen. Reorganisation meint das selbst-
globalen Ebene zwischen (a) kognitiven, (b) ständige Auswählen, Anordnen, Verarbeiten
affektiven und (c) psychomotorischen Lehrzie- und Darstellen bekannter Sachverhalte, Trans-
len. Diese Kategorien können jeweils weiter fer die Übertragung von Gelerntem auf neue,
differenziert werden. Sehr bekannt ist die von aber dem Übungszusammenhang vergleichba-
Bloom, Engelhart, Furst, Hill und Krathwohl re Situationen. Problemlösung bezieht sich auf
(1956) für den kognitiven Bereich vorgeleg- das kreative Bearbeiten neuer Aufgaben mit
te Taxonomie, in der die Kategorien Wissen, dem Ziel, selbstständig zu Lösungen, Folge-
Verständnis, Anwendung, Analyse, Synthese rungen und Bewertungen zu gelangen sowie
und Beurteilung unterschieden werden. Wie auf das selbstständige Auswählen und Anpas-
die Bezeichnungen vermuten lassen, sind die sen von Methoden und Verfahren in neuartigen
sechs Kategorien im Sinne zunehmender Kom- Situationen (die Erläuterungen entstammen
plexität der Anforderung geordnet. Das Sche- den „Einheitlichen Prüfungsanforderungen in
ma von Bloom et al. wird in vielen Lehrbü- der Abiturprüfung“ für das Fach Mathematik,
chern der Pädagogischen Psychologie genauer KMK, 2002, S. 11–13).
dargestellt und diskutiert (z. B. Gage & Berli-
Das systematische Zusammenstellen von Ver-
ner, 1996).
haltensanforderungen und Inhalten ist ein Mit-
Ein Revision und Erweiterung der Taxonomie tel, mit dem sichergestellt werden kann, dass
wurde von Krathwohl und Kollegen vorge- alle essenziellen Lehrziele mit angemessenem
legt (Überblick bei Krathwohl, 2002). Hier Gewicht durch Aufgaben im Test vertreten
werden die aus der Bloomschen Taxonomie sind. Auch für die Unterrichtsplanung sind
im Wesentlichen übernommenen Kategorien Verhaltens-Inhalts-Matrizen nützliche Instru-
mit grundlegenden Wissenarten (Faktenwis- mente. Wie Gage und Berliner (1996, S. 32)
sen, konzeptuelles Wissen, prozedurales Wis- bemerken, tendieren Lehrende manchmal da-
sen, metakognitives Wissen) kreuzklassifiziert, zu, sich primär mit den Inhalten einer Unter-
so dass eine Matrix entsteht, mit deren Hilfe richtseinheit zu beschäftigen und das, was die
sich Lehrziele und -aktivitäten sehr detailliert Schüler mit diesen Inhalten anfangen sollen,
beschreiben lassen. zu vernachlässigen. Legen Lehrende von vorn-
herein Verhaltensweisen fest, die im Rahmen
Für schulische Prüfungen werden einfachere einer Einheit aufgebaut oder geübt werden sol-
Schemata mit drei oder vier Kategorien be- len, können sie dieser Einseitigkeit effektiv
vorzugt, die eine möglichst eindeutige Zuord- begegnen.
nung von Aufgaben oder Teilaufgaben zu Ver-
haltensklassen gewährleisten sollen. Die Ver- Eine kritische Aufgabe bei der Anwendung
haltensklassen und entsprechenden Anforde- lehrzielorientierter Tests betrifft die Festle-
rungsebenen lassen sich beschreiben als (a) gung eines Kompetenzkriteriums (Trenn-, Cut-
Reproduktion, (b) Reorganisation und Trans- off-Werts). Es muss festgelegt werden, wie
fer sowie (c) Problemlösen. gut die Aufgaben beherrscht werden müssen,
damit ein Erreichen des Lehrziels festgestellt
Reproduktion bezieht sich auf die Kenntnis be- werden kann. Im einfachsten Fall geht es hier
handelter Daten, Fakten, Regeln usw. sowie um eine dichotome Klassifikation: Wurde das
auf die Beschreibung und Verwendung geübter Lehrziel X von Schüler Y erreicht oder ver-
Techniken und Verfahrensweisen. Hier geht es fehlt? Für eine Bewertung mit Zensuren in-

525
16 Pädagogisch-psychologische und Erziehungsdiagnostik

teressiert darüber hinaus eine Quantifizierung festlegen zu müssen, dadurch eliminiert, dass
des Grads der Zielerreichung. In diesem Fall man die durchschnittliche Leistung und de-
müssen mehrere Trennwerte festgelegt wer- ren Streuung bei den geprüften Schülern zum
den, die polytome (mehr als zwei Klassen dif- Maßstab macht. Hier werden Leistungen im
ferenzierende) Einteilungen ermöglichen. Für Durchschnittsbereich als „befriedigend“ de-
eine sachgerechte Festlegung von Trennwer- klariert, Abweichungen nach oben oder un-
ten existieren unterschiedliche Vorgehenswei- ten entsprechend als „gut“, „ausreichend“ usw.
sen, die wir hier nur kurz illustrieren wollen Ein Beispiel liefern „Standardschulnoten“, die
(siehe Crocker & Algina, 1986, sowie Klau- nach der Formel 3 – z (z repräsentiert dabei
er, 1987, für detaillierte Diskussionen). Wir standardisierte Werte) berechnet werden (Lie-
konzentrieren uns dabei auf dichotome Klassi- nert & Raatz, 1994, S. 285). Das Problem die-
fikationen (Kriterium erreicht oder verfehlt). ses Vorgehens ist offensichtlich: In einer Klas-
se, in der alle Schüler das festgesetzte Lehrziel
In manchen Fällen können Trennwerte aprio- erreicht haben, erhält man den gleichen No-
risch bzw. rational festgesetzt werden. Eine tendurchschnitt und die gleiche Notenstreuung
solche Festlegung könnte z. B. darin beste- wie in einer Klasse, in der alle Schüler das Ziel
hen, dass die Schüler alle Wörter, die im Rah- verfehlt haben. Selbst bei einer repräsentati-
men einer fremdsprachlichen Unterrichtsein- ven Normierung des Tests würden die Noten
heit durchgenommen wurden, aktiv und passiv prinzipiell nichts über die Zielerreichung aus-
beherrschen sollen. In einem entsprechenden sagen. Ein gewisse Zahl unterdurchschnittli-
Vokabeltest würde man dann das Kriterium cher Leistungen z. B. würde methodenbedingt
auf 100 % abzüglich einer gewissen Fehlerto- immer als „mangelhaft“ qualifiziert werden,
leranz (5–10 %) setzen. auch wenn diese Leistungen eventuell deutlich
Wie die Kennzeichnung „apriorisch“ andeutet, über einem sachlich angemessenen Kriterium
nimmt diese Prozedur in ihrer reinen Form kei- liegen.
nerlei Rücksicht auf die faktisch zu erwartende
Verteilung der Testwerte bei den zu prüfenden Ein zweites Beispiel für ein auf Testwertver-
Schülern. Kriterien, die deutlich unterhalb der teilungen gestütztes Vorgehen ist die Methode
Marke perfekten Beherrschens liegen, sind da- der Gruppenkontrastierung, in der die Test-
mit schwer zu begründen. Die Methode ist leistungen zweier Gruppen miteinander ver-
daher primär bei inhaltlich eng umgrenzten glichen werden. Die eine Gruppe besteht aus
und einfach zu operationalisierenden Lehrzie- Schülern, die das Kompetenzkriterium erfül-
len anwendbar, deren vollständiges Erreichen len; diese Gruppe konstituiert die sog. Masters.
erwartet wird, etwa Beherrschung der Grund- Die zweite Gruppe besteht aus Schülern, die
rechenarten oder Lösen von Gleichungen mit es (noch) nicht erfüllen; die Mitglieder die-
einer Unbekannten. Liegen komplexere Lehr- ser Gruppe heißen Nonmasters. Der Test wird
ziele vor und sollen zudem gestufte Leistungs- zunächst beiden Gruppen gegeben. Anschlie-
bewertungen vorgenommen werden, ist es un- ßend wird der kritische Trennwert nach ent-
umgänglich, sich auch daran zu orientieren, scheidungstheoretischen Gesichtspunkten fest-
was Schüler einer bestimmten Klassenstufe gelegt. Grundlage hierfür sind die Häufigkeits-
faktisch erreichen können. verteilungen der Testwerte in beiden Gruppen,
wie sie in I Abb. 16.2 beispielhaft illustriert
Eine zweite Familie von Prozeduren stützt sich sind. Als Trennwert wird derjenige Wert (also
auf empirisch festgestellte Verteilungen der Punkt auf der Abszisse) gewählt, an dem sich
Testwerte. In einer extremen Variante wird das die beiden Verteilungen schneiden. Jenseits
Problem, ein sachlich begründetes Kriterium dieses Punkts ist die Wahrscheinlichkeit, dass

526
16.3 Diagnostik bei der Schullaufbahnberatung

Abb. 16.2
Illustration der
Häufigkeitsverteilung von
Testwerten bei Masters und
Nonmasters.

eine Person zur Mastergruppe gehört höher als le“, sondern die von gerade noch sehr guten,
die, dass sie zur Nonmastergruppe gehört und guten Leistungen usw. Vorteile der Methode
umgekehrt. Neben diesem Gesichtspunkt kön- liegen in ihrer Einfachheit und Transparenz.
nen auch die evtl. unterschiedlichen Kosten Voraussetzung für die Gewinnung sinnvoller
verschiedener Arten von Fehlklassifikationen Trennwerte ist allerdings eine substanzielle
(falsch Positive, falsch Negative; I Kap. 6) Übereinstimmung der Expertenurteile, die in
berücksichtigt werden. Dies würde zu einer jedem Fall zu prüfen ist.
Verschiebung des Trennwerts nach links oder
Besonders für Tests, mit denen die Erreichung
rechts führen. Neben dem relativ hohen Auf-
komplexerer Lehrziele erfasst werden soll und
wand besteht ein praktisches Problem dieser
von deren Ergebnissen folgenreiche Entschei-
Vorgehensweise in der sicheren Identifizierung
dungen für die geprüften Personen abhängen,
von Masters und Nonmasters. Die Angemes-
ist die Festsetzung von Trennwerten ein nach
senheit des ermittelten Trennwerts steht und
wie vor ein intensiv diskutiertes Thema. Die
fällt mit der Reliabilität und Validität der Grup-
Erprobung geeigneter Methoden, die zu fai-
penzuordnung.
ren Entscheidungen führen, bleibt mithin ein
wichtiger Forschungsgegenstand. Sinnvoll er-
Eine dritte Klasse von Prozeduren stützt sich
scheint in jedem Fall eine Kombination ra-
bei der Festlegung kritischer Trennwerte auf
tionaler und empirisch gestützter Verfahrens-
Experteneinschätzungen. Weit verbreitet ist ei-
weisen, wie sie etwa im Rahmen von Weiter-
ne von Angoff (1971) beschriebene Metho-
entwicklungen der Angoff-Methode erwogen
de. Hier werden Experten (zumeist Lehrende)
werden (Ricker, 2006).
gebeten, sich eine Gruppe von Schülern vor-
zustellen, die das Lernziel gerade eben noch
erreicht haben. Die Experten schätzen dann
unabhängig voneinander für jede einzelne Auf- 16.3 Diagnostik bei der
gabe ein, wieviel Prozent dieser „auf der Kip- Schullaufbahnberatung
pe stehenden“ Schüler die Aufgabe wohl lö-
sen werden. Den kritischen Grenzwert erhält Durch den Einsatz diagnostischer Verfahren
man dann durch Summierung der entsprechen- bei der Schullaufbahnberatung soll u. a. ge-
den relativen Häufigkeiten und anschließende prüft werden, ob Lernvoraussetzungen von
Mittelung der Summe über die Experten. Die Kindern schulischen Anforderungen entspre-
Angoff-Methode kann auch für polytome Klas- chen. Hierdurch sollen frustrierende Erfahrun-
sifikationen herangezogen werden, wie sie bei- gen durch schulische Über- bzw. Unterforde-
spielsweise bei der Vergabe von Zensuren vor- rung vermieden werden. Wir skizzieren in die-
genommen werden. Eingeschätzt werden dann sem Abschnitt drei Bereiche, in denen Be-
nicht die Lösungshäufigkeiten für „Grenzfäl- ratungsbedarf besteht: Schuleintritt, Sonder-

527
16 Pädagogisch-psychologische und Erziehungsdiagnostik

bzw. Förderschulüberweisung und Übertritt in Kindes bestimmt wird. Darüber hinaus wer-
weiterführende Schulen. den außer der perzeptuellen Entwicklung wei-
tere Merkmale als relevant erachtet. Neben
basalen physischen (z. B. Ossifikation, Den-
tition, motorische Entwicklung) und kogni-
16.3.1 Schuleintritt
tiven Faktoren (z. B. Wahrnehumgsdifferen-
zierung, Sprachbeherrschung, Konzentration)
Mittels Schuleingangstests (andere Bezeich- ist auch die Berücksichtigung motivationa-
nungen sind: Schulreifetests, Schulfähigkeits- ler (z. B. Leistungsbereitschaft, Belastbarkeit,
tests, Schuleignungstests) soll geprüft wer- Misserfolgstoleranz) und sozialer Merkmale
den, ob Kinder im Einschulungsalter am An- (z. B. Loslösung von Bezugspersonen, Bereit-
fangsunterricht erfolgreich teilnehmen können. schaft zum Kontakt mit Fremden) für eine an-
Durch ihren Einsatz bereits vor Schuleintritt gemessene Einschulungsentscheidung wichtig
soll eine Überforderung noch nicht schulfähi- (Kammermeyer, 2010).
ger Kinder verhindert werden.
Ihre Blüte hatten Schuleingangstests in der
Ein wesentlicher Impuls für die Konstrukti- Mitte der 1970er Jahre, in denen ca. 60–70 %
on von Eingangstests ist einer Monographie aller Schulanfänger getestet wurden. Häufig
von Kern (1951) mit dem Titel „Sitzenbleiber- benutzt wurden z. B. die Weilburger Testaufga-
elend und Schulreife“ zu verdanken. Kern ar- ben für Schulanfänger (WTA; Hetzer & Tent,
gumentierte, dass die damals sehr hohe Sitzen- 1971), die mit zehn Aufgabengruppen (z. B.
bleiberquote nicht auf mangelnde Begabung, Zeichnen, Begriffsbildung, Einprägen, Wieder-
sondern primär auf eine zu früh terminierte erkennen, Mengenerfassung) ein relativ brei-
Einschulung vieler Kinder zurückzuführen sei. tes Verhaltensspektrum abbilden. Danach ist
Er empfahl deshalb, noch nicht schulfähige dieser Anteil deutlich zurückgegangen (auf ca.
Kinder mit Hilfe spezifischer Testverfahren zu 10 %).
identifizieren und von der Einschulung zurück-
zustellen. Kern war der Auffassung, dass der Gegen den „flächendeckenden“ Einsatz von
adäquate Zeitpunkt der Einschulung von der Testverfahren spricht die inzwischen sehr ho-
Entwicklung der visuellen Differenzierungs- he Basisquote von Schülern, denen ein Er-
fähigkeit („Gliederungsfähigkeit“) bei einem folg am Ende des ersten Schuljahres attestiert
Kind abhänge, die Voraussetzung für das Er- wird. Laut Angaben des Statistischen Bundes-
lernen der Schriftsprache sei. Diese solle pri- amts betrug der Anteil an Wiederholern im
mär durch Reifungsprozesse determiniert, da- Schuljahr 2007/2008 in der ersten Klassenstu-
mit nicht trainierbar und überdies relativ be- fe 1.4 % (Statistisches Bundesamt, 2010). In
gabungsunabhängig sein. Entsprechend warb den nachfolgenden Jahren wurden wegen der
er für den Einsatz von Verfahren zur Messung Einführung flexibler Eingangsphasen für die
der visuellen Differenzierungsfähigkeit. ersten beiden Klassenstufen keine Wiederho-
ler mehr aufgeführt. Es existiert aber ein erheb-
In neuerer Zeit wird anstelle des Begriffs der licher Anteil verspätet eingeschulter Kinder
Schulreife meist der Begriff der Schulfähig- (im Schuljahr 2012/13 betrug dieser ca. 7 %:
keit oder Schuleignung verwendet. Der termi- Statistisches Bundesamt, 2013). Der Anteil
nologische Wandel soll hervorheben, dass die korrekter Entscheidungen auf der Grundlage
erfolgreiche Teilnahme am Unterricht nicht al- von Schuleingangstests liegt bei etwa 90 %;
lein eine Frage genetisch bedingter Reifungs- ihr Einsatz verspricht damit gegenüber der
prozesse ist, sondern auch von den Anregun- Aufnahme aller Kinder keinen generellen Zu-
gen und Lernmöglichkeiten der Umwelt eines wachsnutzen (Tiedemann, 1974). Zweckmä-

528
16.3 Diagnostik bei der Schullaufbahnberatung

ßig ist der Einsatz solcher Verfahren in Zwei- Geistige Behinderungen umfassen eine hete-
felsfällen. Schuleingangsdiagnostik kann un- rogene Gruppe von Beeinträchtigungen, die
günstige Folgen einer Überforderung für die durch massive Lerndefizite charakterisiert
Persönlichkeitskeitsentwicklung durch falsch sind. Geistige Behinderungen werden im All-
positive Entscheidungen – hierauf konzentrie- gemeinen durch Hirnschädigungen oder Hirn-
ren sich ja die Fehler bei Einschulung aller – funktionsstörungen hervorgerufen und mani-
verhindern. festieren sich bei Kindern in deutlichen Ent-
wicklungsrückständen in den Bereichen Wahr-
Vermutlich mitbedingt durch den Rückgang nehmung, Motorik, Sprache und Kognition.
der Nachfrage mangelt es zur Zeit an aktuell
normierten und validierten Schuleingangstests. Lernbehinderungen stellen die größte Gruppe
Die Normierung der meisten Tests liegt inzwi- dar. Auch bei Kindern mit Lernbehinderun-
schen 20 Jahre oder mehr zurück. Bei entspre- gen stehen deutliche Lerndefizite im Vorder-
chenden Fragestellungen wird man daher auf grund, die jedoch nicht so schwerwiegend sind
Entwicklungs- bzw. Intelligenztests auswei- wie bei geistig behinderten Kindern. Lernbe-
chen oder Testverfahren verwenden, die den hinderungen werden im Kontext der Schule
Entwicklungsstand von Vorläuferfähigkeiten eher institutionell-pragmatisch, denn psycho-
für Kompetenzen messen, die in der Grund- logisch definiert (Orthmann, 2006). Wie Kan-
schule erworben werden sollen. ter und Scharff (2005, o. S.) feststellen,

16.3.2 Sonderpädagogischer ... ist Lernbehinderung keine eindeutig um-


rissene, definierte Behinderungsform wie
Förderbedarf
etwa Sinnes- oder Körperbehinderungen,
für die bestimmte physische oder psy-
Als sonderpädagogisch unterstützungsbedürf- chische Ursachen zu benennen sind (...).
tig gelten Kinder, die an allgemeinen Schu- Vielmehr handelt es sich um einen Ar-
len in ihren Bildungs-, Entwicklungs- und beitsbegriff, durch den ein Anspruch auf
Lernmöglichkeiten nicht hinreichend geför- spezifische Hilfestellung für junge Men-
dert werden können (Kultusministerkonferenz, schen signalisiert wird, die längerfristig
1994, 1999). In Deutschland wurden zehn ver- erheblichen Beeinträchtigungen in ihren
schiedene Sonder- bzw. Förderschulformen Entwicklungs-, Lern- und Bildungsmög-
eingerichtet, in denen Kinder von speziell aus- lichkeiten unterliegen (...). Dabei wird [...]
gebildeten Lehrenden mit Methoden und Ma- in einem Feststellungsverfahren stets im
terialien unterrichtet werden, die auf die jewei-Einzelfall entschieden werden müssen, ob
lige Art der Beeinträchtigung abgestimmt sind. und in welcher Weise besondere Hilfe zu
Hierher gehören Schulen, die für diverse physi- leisten ist.
sche Beeinträchtigungen (z. B. Blindheit oder
Gehörlosigkeit), Verhaltensstörungen, geistige
Behinderungen oder Lernbehinderungen spe-
zialisiert sind (Witt-Brummermann, 2010). Das „Feststellungsverfahren“ wird im Allge-
meinen von einem Sonderpädagogen durchge-
Unter Verhaltensstörungen werden markante führt, der an der in Frage kommenden Schul-
und längerfristig stabile Abweichungen im so- form unterrichtet. Das Verfahren selbst ist
zialen Verhalten verstanden. Hierunter fallen recht uneinheitlich; es hängt u. a. von den kon-
einerseits Hemmung und Schüchternheit, an- kreten Problembereichen ab, die von der mel-
dererseits aggressives Verhalten (I Kap. 15). denden Instanz (meist die allgemeine Schule)

529
16 Pädagogisch-psychologische und Erziehungsdiagnostik

beschrieben werden. Grundlage des Gutach- 16.3.3 Übertritt in weiterführende


tens sind dabei Beobachtungen, etwa im Rah- Schulen
men eines Probeunterrichts, aber auch infor-
melle Tests und psychologische Testverfahren.
Unter den psychologischen Testverfahren ist Schullaufbahnberatung beim Übergang auf
meist ein Intelligenztest vertreten, um das Gut- weiterführende Schulen (Hauptschule. Real-
achten rechtlich abzusichern. schule, Gymnasium, Gesamtschule) soll über
Hauptkriterium für die Zuweisung zu einer schulische Bildungsmöglichkeiten orientieren
Schule für Lernbehinderte ist ein Leistungs- sowie Entscheidungshilfen für die Wahl der
rückstand von mehr als einem Jahr, der durch Schulart bereitstellen. Im Zentrum der dia-
Maßnahmen in der allgemeinen Schule nicht gnostischen Tätigkeit stehen dabei Eignungs-
kompensiert werden kann. Für eine objektive untersuchungen, wie wir sie für den Kon-
Bestimmung des Rückstands bietet sich der text der Arbeits-, Betriebs- und Organisati-
Einsatz standardisierter Schulleistungstests an. onspsychologie bereits kennen gelernt haben
Dabei muss allerdings sichergestellt werden, (I Kap. 14).
dass ein eventuell festgestellter Rückstand
nicht auf Merkmale der Lernumwelt (etwa Grundlage sind die bisherigen schulischen
Unterrichtsausfall, lokale Besonderheiten des Leistungen, Empfehlungen der Lehrkräfte so-
Lernstoffs) zurückzuführen ist. Nach den Emp- wie Einschätzungen, Erwartungen und Interes-
fehlungen des Bildungsrats (1973) soll zudem sen der Schüler und ihrer Eltern. Darüber hin-
die allgemeine Intelligenz des Kindes, gemes- aus liefern die Ergebnisse von Fähigkeits- und
sen mit einem validen Intelligenztest, unter Leistungstests Daten, die für die anstehende
einem IQ-Wert von 85 liegen (zwischen 55 Entscheidung relevant sind. Speziell zu diesem
und 85). Der Wert liegt im Normalbereich und Zweck wurden sog. Übertrittstests konstruiert,
deutlich über dem Kriterium, das die WHO die im Allgemeinen wie mehrdimensionale In-
als Grenze für eine „leichte Intelligenzminde- telligenztests aufgebaut sind. Die Aufgaben
rung“ (IQ = 70) festgelegt hat. Der Zweck der sind jedoch auf den Einsatz in der vierten bzw.
Intelligenzdiagnose liegt darin, einer Überwei- fünften Klasse zugeschnitten.
sung von Kindern, die zwar Schulleistungsde-
Ein Beispiel für einen Übertrittstest sind die
fizite aufweisen, in ihrer Lernfähigkeit aber
Aufgaben zum Nachdenken (AzN 4+; Hylla &
nicht beeinträchtigt sind, vorzubeugen (Kaut-
Kraak, 1976). Die insgesamt fünf Subtests des
ter, 1978). Hierfür werden besonders nonver-
Verfahrens umfassen u. a. Rechenaufgaben,
bale Verfahren empfohlen (I Kap. 12). Auch
Zahlenreihen, Analogien und Satzergänzun-
für Lerntests, wie wir sie oben besprochen hat-
gen (I Kap. 12), die sich auf den Dimensio-
ten, wäre dies ein genuiner Einsatzbereich.
nen rechnerisch-logisches Denken und sprach-
Die Überweisung von Schülern in eine Schule logische Fähigkeit ordnen lassen. Wie andere
für Lernbehinderte gehört zu den kritischen Intelligenztests ist das Verfahren mit Reliabili-
Aufgaben im Rahmen der Schullaufbahnbera- tätskoeffizienten um .90 sehr zuverlässig. Die
tung. Ausführliche Diskussionen der Proble- prognostische Validität für Maße des Schuler-
matik finden sich z. B. bei Ingenkamp (1997) folgs nach einem Jahr ist mit r = .60 recht hoch.
oder (für den amerikanischen Bereich) bei Bei längerfristigen Prognosen fallen die Zu-
Cronbach (1990). Hasselhorn und Gold (2013) sammenhänge mit Schulzensuren allerdings
geben eine transparente Darstellung der mit deutlich ab (Heller et al., 1978). Zur Zeit lie-
den Begriffen Lernstörung bzw. -behinderung gen keine aktuell normierten, speziell als Über-
verknüpften Mehrdeutigkeiten. trittstests gekennzeichneten, Fähigkeitstests

530
16.4 Diagnostik von Umwelt- und Systemmerkmalen

vor. Daher werden Intelligenz- oder Schulleis- auf drei Bereiche: (a) Schul- bzw. Klassenkli-
tungstests verwendet, wenn entsprechende dia- ma, (b) Lehrerverhalten und Lehrer-Schüler-
gnostische Fragen vorliegen. In manchen Tests Interaktion, (c) Beziehungen unter Schülern
werden schulartspezifische Normen geliefert, (Lukesch, 1998).
was Empfehlungen für die eine oder andere
Schulart unterstützen kann. Dabei ist beson- 16.4.1 Schul- und Klassenklima
ders auf die Aktualität der Normen zu achten,
da der Anteil an Kindern und Jugendlichen,
die höhere Schulen besuchen, steigt. Das da- Die Begriffe Schul- bzw. Klassenklima bezie-
mit zu erwartende Sinken der durchschnittli- hen sich auf die Wahrnehmung und Bewer-
chen Intelligenz an diesen Schulen wird durch tung materieller, sozialer und personaler Be-
den Flynn-Effekt (I Kap. 3.6.1) vermutlich dingungen an einer Schule bzw. in einer Klas-
nicht vollständig kompensiert. se durch Lehrer oder Schüler. Entsprechende
„Klimakognitionen“ (Pekrun, 1985) können
Ein Problem für Vorhersagen des Schulerfolgs alle Merkmale betreffen, die für die Mitglie-
ist die bereits angesprochene messtechnische der einer Schule oder Klasse bedeutsam sind
Qualität der Kriterienmaße, also vornehmlich (Eder, 2006, S. 622). Hauptziel der Forschung
Noten oder anderer schulischer Leistungsbeur- zum Schul- oder Klassenklima ist die Bestim-
teilungen. Die Lernanforderungen, Leistungs- mung der Effekte spezifischer Merkmale der
erwartungen und Bewertungsmaßstäbe diffe- Lernumwelt auf die Leistungen und das so-
rieren erheblich zwischen Regionen, Schulen ziale Verhalten von Schülern (Übersicht bei
und Lehrern, so dass das Kriterium „Schuler- Schnabel, 2001).
folg“ mit einem erheblichen Fehler (im test-
theoretischen Sinn) belastet ist. Die Variation Gesichtspunkte, die bei der Diagnostik des
von Anforderungen und Maßstäben begrenzt Klimas in Organisationen wichtig sind, wur-
den prognostischen Wert von Übertritts- oder den bereits diskutiert (I Kap. 14). Wir be-
anderen Fähigkeitstests für Zensuren. Über- schränken uns daher beispielhaft auf ein Ver-
dies hängen schulische Leistungen nicht nur fahren zur Erfassung des Klassenklimas, die
von intellektuellen Fähigkeiten ab, wie sie Landauer Skalen zum Sozialklima (LASSO;
mit Intelligenztests gemessen werden, sondern von Saldern & Littig, 1985, 1987). Wie die
auch von einer Vielzahl nichtintellektueller Testbezeichnung hervorhebt, thematisiert das
Faktoren (Leistungsmotivation, Ängstlichkeit, Verfahren primär den Aspekt der sozialen Be-
Unterstützung des sozialen Umfelds usw.), die ziehungen in der Klasse. Von Saldern und Lit-
für Übertrittsempfehlungen und unterstützen- tig (1987, S. 13) definieren das soziale Klima
de Maßnahmen ebenfalls zu berücksichtigen wie folgt:
sind.
Definition soziales Klima

16.4 Diagnostik von Umwelt- und Das soziale Klima bezieht sich auf die
subjektiven Wahrnehmungen, die subjekti-
Systemmerkmalen ve Beurteilung und das subjektive Erleben
schul- und unterrichtsbezogener Aspekte
Eigenschaften der schulischen Umwelt sind durch den Schüler. Von sozialem Klima
für die kognitive, emotionale und soziale Ent- wird erst dann gesprochen, wenn ein ge-
wicklung von Kindern wesentlich. Diagnosti- wisses Maß an Übereinstimmung zwischen
sche Verfahren zur Erfassung schulischer Um- den Angaben der Schüler festzustellen ist.
weltmerkmale konzentrieren sich vor allem

531
16 Pädagogisch-psychologische und Erziehungsdiagnostik

Der Fragebogen ist bei Schülern ab der vier- der Frage, wie die Umwelt nach der Ansicht
ten Klasse anwendbar und nimmt ca. ei- der Schüler beschaffen sein sollte. In der
ne Stunde Durchführungszeit in Anspruch. LEHRER-Variante beurteilt der Lehrer die fak-
Mit insgesamt 17 Skalen werden diverse tischen Verhältnisse in der Klasse.
Merkmale der Lehrer-Schüler-Interaktion, der
Ein weiteres etabliertes Verfahren ist der Lin-
Schüler-Schüler-Beziehungen sowie allgemei-
zer Fragebogen zum Schul- und Klassenklima,
ner Merkmale des Unterrichts recht umfassend
der in Versionen für die 4. bis 8. (LFSK 4-8;
abgebildet:
Eder & Mayr, 2000) sowie für die 8. bis 13.
• Lehrer-Schüler-Beziehungen Klassenstufe (Eder, 1998) vorliegt. Das Ver-
1. Fürsorglichkeit des Lehrers fahren nimmt 15 bis 20 Minuten in Anspruch
2. Aggressionen gegen den Lehrer und erfasst die Dimensionen
3. Zufriedenheit mit dem Lehrer
• Sozial- und Leistungsdruck,
4. Autoritärer Führungsstil des Lehrers
5. Bevorzugung und Benachteiligung durch • Schülerzentriertheit,
den Lehrer • Kohäsion und
• Schüler-Schüler-Beziehungen • Disziplin.
6. Ausmaß der Cliquenbildung Die Reliabilitäten für dieser Skalen variieren
7. Hilfsbereitschaft der Mitschüler auf der Ebene einzelner Schüler zwischen .64
8. Aggressionen gegen Mitschüler und .88, auf der Klassen- bzw. Schulebene
9. Diskriminierung von Mitschülern werden Konsistenzen zwischen .81 und .96 er-
10. Zufriedenheit von Mitschülern reicht. Für Grundschulkinder kann der Frage-
11. Konkurrenzverhalten von Mitschülern bogen zur Erfassung emotionaler und sozialer
• Allgemeine Merkmale des Unterrichts Schulerfahrungen (FEESS) eingesetzt werden,
12. Leistungsdruck der in Versionen für die 1. und 2. sowie die 3.
13. Zufriedenheit mit dem Unterricht und 4. Klassenstufe vorliegt (Rauer & Schuck,
14. Disziplin und Ordnung 2003, 2004).
15. Fähigkeit des Lehrers zur Vermittlung
von Lerninhalten Mit genannten und vergleichbaren Fragebo-
16. Resignation gen lassen sich relativ globale Merkmale der
17. Reduzierte Unterrichtsanteilnahme Lernumwelt abbilden, so wie sie sich aus der
subjektiven Sicht der Schüler darstellen. Für
Zur Erfassung des Klimas werden die Ein- eine objektive Bestimmung des konkreten Un-
schätzungen der erfragten Gegebenheiten über terrichtsablaufs ist der Einsatz von Beobach-
alle Schüler einer Klasse aggregiert, so dass tungsmethoden notwendig.
die Skalenwerte die durchschnittliche Sicht
des Klassenverbands repräsentieren. Die Ska-
len erreichen recht gute Reliabilitäten (zwi- 16.4.2 Lehrerverhalten und
schen .76 und .89). Die Stabilitäten (Abstand
Lehrer-Schüler-Interaktion
9 Monate) fallen demgegenüber deutlich ab
(zwischen .29 und .52).
Zur Erfassung des Lehrerverhaltens und der
Das Verfahren kann in drei Varianten durch- Lehrer-Schüler-Interaktion bieten sich syste-
geführt werden: In der Standardvariante (sog. matische Beobachtungsverfahren an, auf deren
REAL-Variante) wird nach der Wahrnehmung Basis das Unterrichtsgeschehen im Hinblick
faktischer Gegebenheiten durch die Schüler formale und inhaltliche Gesichtspunkte analy-
gefragt. Die IDEAL-Variante befasst sich mit siert werden kann.

532
16.4 Diagnostik von Umwelt- und Systemmerkmalen

Ein wichtiger formaler Gesichtspunkt ist die • Lehreräußerungen


Verteilung von Sprechakten bei Lehrern und 1. akzeptiert Gefühle
Schülern. Untersuchungen zur Häufigkeit und 2. lobt und ermutigt
zeitlichen Erstreckung von Lehrer- und Schü- 3. akzeptiert oder verwendet Gedanken der
leräußerungen während des Unterrichts wei- Schüler
sen auf eine deutliche Asymmetrie zwischen 4. stellt Fragen
Lehrern und Schülern hin. Tausch (1962) z. B. 5. Lehrervortrag
fand, dass im Mittel ca. 60 % der während 6. gibt Anweisungen
einer Unterrichtstunde gesprochenen Wörter 7. kritisiert oder rechtfertigt die eigene Au-
vom Lehrer stammen. Damit ergibt sich ein torität
Verhältnis von etwa 45:1 zwischen Lehreräu-
• Schüleräußerungen
ßerungen und Äußerungen einzelner Schüler.
Untersuchungen neueren Datums erbringen 8. Antworten
ähnliche Zahlen (Ahlers, Oberst & Nentwig, 9. Initiativen
2009; Stigler, Gonzales, Kawanaka, Knoll &
Serrano, 1999). Im Ausmaß dieser Asymme- Wie ersichtlich sind sieben der Kategorien für
trie bestehen jedoch deutliche und relativ stabi- die Kodierung des Lehrerverhaltens reserviert,
le Unterschiede zwischen verschiedenen Leh- zwei für die des Schülerverhaltens. Eine zehn-
renden. Im Gegensatz zu einer verbreiteten te Kategorie (Schweigen und Durcheinander)
Auffassung hängt die „sprachliche Dominanz“ ist für nicht kodierbare Abschnitte vorgesehen.
von Lehrern nur in relativ geringem Maß von Neben der Auszählung von Kategorienhäufig-
der jeweils unterrichteten Klasse oder dem Un- keiten sind mit dem Verfahren auch sequen-
terrichtsfach ab (Baumann, 1974). Generell zielle Analysen möglich, die Aufschluss über
unterschätzen Lehrende den Anteil ihrer Äu- die Abfolge von Verhaltensweisen im Unter-
ßerungen (Wieczerkowski, 1965). richt geben.

Untersuchungen von Sprechzeiten geben un- Das Schülerverhalten wird in Flanders System
gefähre Hinweise auf das Ausmaß der Len- nur sehr undifferenziert abgebildet. Um das
kung des Unterrichts durch den Lehrer und Schülerverhalten differenzierter zu erfassen,
das Fördern oder Einschränken von Schüler- redefinierte Ober (1968; vgl. Hanke, Mandl
beteiligungen am Unterrichtsgeschehen. Für & Prell, 1974) die Kategorien 1 bis 9 in der
genauere Analysen müssen inhaltliche Merk- Weise, dass sie auf Lehrer- und Schüleräuße-
male der Interaktion berücksichtigt werden. rungen gleichermaßen anwendbar sind. Die
Hierfür wurden eine Reihe von Kategoriensys- redefinierten Kategorien lauten:
temen konzipiert, die sich meist an die Interak-
1. trägt zur „Erwärmung“ der Klassenatmo-
tionsprozessanalyse nach Bales (1951) anleh-
sphäre bei
nen (I Kap. 9). Ein bekanntes Beispiel sind
2. akzeptiert
die Flanders Interaction Categories (FIAC;
3. erweitert die Beiträge eines anderen
Flanders, 1970; Hanke, Mandl & Prell, 1974),
4. fordert heraus, provoziert
die zur Kodierung des verbalen Verhaltens von
5. gibt Antwort
Lehrern und Schülern konzipiert sind. Das
6. legt nahe, bringt in Gang
System sieht eine zeitliche Segmentierung des
7. steuert, ordnet an
Interaktionsstroms vor, wobei alle drei Se-
8. korrigiert
kunden eine der folgenden Kategorien notiert
9. trägt zur „Abkühlung“ der Klassenatmo-
wird:
sphäre bei
10. Schweigen oder Durcheinander

533
16 Pädagogisch-psychologische und Erziehungsdiagnostik

Verfahren auf der Basis des Systems von Ba- In vielen Verfahren zur Fremdbeurteilung wur-
les sind recht vielseitig anwendbar, treffen mit den Konzepte aus der klientenzentrierten The-
ihren relativ breiten und unspezifischen Ka- rapie (Rogers, 1973) oder Konstrukte aus
tegorien jedoch selten den eigentlichen Kern der Forschung zum elterlichen Erziehungs-
einer Untersuchungsfrage. Deshalb ist es häu- verhalten (z. B. Unterstützung, Strenge) ad-
fig zweckmäßig, eigene Systeme zu erstel- aptiert. Einige Verfahren bemühen sich, auch
len, deren Kategorien auf die jeweils vorlie- methodisch-didaktische Aspekte des Lehrver-
genden Fragen und Hypothesen abgestimmt haltens zu berücksichtigen. Ein Beispiel hier-
sind. Bei Beobachtungsverfahren bieten sich für ist das Lehrerverhaltensinventar (LVI; Lu-
– im Unterschied zu Testverfahren – Neukon- kesch, Haenisch, Kischkel & Fend, 1982). Mit
struktionen oder Modifikationen bestehender dem LVI sollen Dimensionen des Lehrerver-
Systeme auch deshalb an, weil im Allgemei- haltens erfasst werden, die als gute Prädikto-
nen keine Normierung vorliegt oder verfüg- ren der Lehreffektivität gelten. Das Verfahren
bare Verteilungsdaten nicht auf den jeweils ist für die Schülerbeurteilung vorgesehen und
aktuellen Kontext übertragbar sind. Allerdings beinhaltet die Skalen
kann die Erstellung und Erprobung eines neu-
en Systems mit einem erheblichen Aufwand 1. Strukturiertheit vs. Unstrukturiertheit,
verknüpft sein. 2. Strenge vs. Schülerorientierung,
3. Monitoring,
Sinnvolle und ökonomisch vertretbare Einsatz- 4. Zeitverschwendung vs. Zeitnutzung.
möglichkeiten von Beobachtungsverfahren be-
stehen außerhalb der Forschung vor allem bei Die Skala Strukturiertheit erfasst die Trans-
der Aus- und Weiterbildung von Lehrenden, parenz des Unterrichts und der Anforderun-
etwa im Rahmen supervidierter Schulpraktika. gen, das Geben von Erklärungen und Hil-
Die (angehenden) Lehrer erhalten hierdurch fen, die Gliederung des Unterrichts sowie das
recht genaue Rückmeldungen über ihr eigenes Zusammenfassen und Wiederholen wichtiger
Verhalten und dessen unmittelbare Wirkungen Punkte. Die Skala Strenge vs. Schülerorien-
auf die Schüler. Hierdurch können sich wert- tierung bezieht sich auf die affektive Kompo-
volle Anhaltspunkte für ggf. notwendige Ver- nente des Lehrerverhaltens. Hohe Schülerori-
haltensänderungen ergeben. entierung ist z. B. durch Geduld, Wertschät-
zung und Ermutigung gekennzeichnet. Mo-
Neben Beobachtungsverfahren können für die nitoring meint den Überblick über das Klas-
Erfassung des Lehrerverhaltens oder der Un- sengeschehen, bezieht sich also auf Verhal-
terrichtsinteraktion auch Beurteilungsmetho- tensweisen wie Überwachen von Lernwegen,
den verwendet werden (I Kap. 9). Verhaltens- Antizipation von Schwierigkeiten, Präventi-
beurteilung ist, wie wir sahen, einfacher durch- on von Störungen sowie Konsequenz bei Ent-
zuführen als die systematische Verhaltensbe- scheidungen und Maßnahmen. Die Skala Zeit-
obachtung, dafür allerdings auch anfälliger verschwendung vs. Zeitnutzung umfasst Merk-
für Verzerrungen, die sich aus der subjektiven male des Zeitmanagements, z. B. pünktlicher
Perspektive der jeweiligen Beurteiler ergeben. Unterrichtsbeginn. Die recht kurzen Skalen
Fremdbeurteilungen können durch Experten (jeweils 10 Items) erreichen Reliabilitäten zwi-
(z. B. Kollegen des Lehrers) auf der Grundlage schen .80 und .88.
von Unterrichtsbeobachtungen vorgenommen
werden. Darüber hinaus können Fremdbeurtei- Mit Hilfe des LVI und anderer Verfahren zur
lungen bei Schülern erhoben werden. Schließ- Fremdbeurteilung können Lehrende Rückmel-
lich kann der Lehrer sein Verhalten auch selbst dungen über die Sichtweise anderer auf ihr
beurteilen. Verhalten gewinnen. Diese Rückmeldungen

534
16.4 Diagnostik von Umwelt- und Systemmerkmalen

können Anlass für Korrekturen sein, deren Ef- veranschaulichen. Hierzu werden die Gruppen-
fekte sich durch Wiederholung des Verfahrens mitglieder – zumeist im Rahmen einer schrift-
bestimmen lassen. Weitere Einsatzmöglichkei- lichen Befragung – gebeten, Personen ihrer
ten bestehen im Rahmen von Untersuchungen Gruppe im Hinblick auf ein bestimmtes Krite-
zur Indikation und Erfolgskontrolle von Inter- rium auszuwählen. Die Kriterien werden oft
ventionen zur Verbesserung der Effektivität in Frageform formuliert, z. B. „Neben wem
von Lehre. Die Erfassung des Lehrerbilds von möchtest du gerne sitzen?“ oder „Mit wem
Schülern kann zudem für individuelle Beratun- möchtest du gerne die Ferien verbringen?“
gen, etwa bei Vorliegen von Lehrer-Schüler- Neben positiven Wahlen, die Zuneigung aus-
Konflikten sinnvoll sein. Auch vergleichende drücken, können auch negative Wahlen, die
Untersuchungen von Unterrichtsmerkmalen Abneigung ausdrücken, erfasst werden, z. B.
können mit Hilfe von Schülerbeurteilungen „Neben wem möchtest Du auf keinen Fall sit-
vorgenommen werden (Lukesch, 1998). zen?“

Die Wahlen werden in der Form einer Matrix


dargestellt, deren Zeilen die wählenden und
16.4.3 Beziehungen unter den deren Spalten die gewählten Personen reprä-
Schülern sentieren. Die Matrix heißt Soziomatrix. In
ihre Zellen werden die Wahlen eingetragen.
In dem in I Abb. 16.3 gezeigten einfachen
Allgemeine Merkmale der Beziehungen un- Beispiel sind positive Wahlen mit +, negati-
ter den Schülern können mit Verfahren wie ve Wahlen mit − gekennzeichnet. Person A
dem LASSO oder dem LFSK erhoben wer- nominiert hier die Personen B und C positiv,
den, wie wir oben sahen. Für eine detaillier- Person D dagegen negativ.
tere Untersuchung der Beziehungsstrukturen
von Gruppen bieten sich soziometrische Ver- Im rechten Teil der Abbildung ist die Ma-
fahren an, die auf Wahlen (peer nominations; trix in Soziogrammform übertragen. Positive
I Kap. 9) basieren. Solche Verfahren wurden Wahlen werden – wie hier – oft mit durchge-
vor allem durch Moreno (1934/1996) populär. zogenen Pfeilen, negative Wahlen mit gestri-
Sehr bekannt geworden ist das Soziogramm, chelten Pfeilen vom „Sender“ zum „Empfän-
in dem die Struktur einer Gruppe in der Form ger“ gekennzeichnet. Wechselseitige (rezipro-
eines Netzwerks aus Knoten und Kanten dar- ke) Nominierungen werden durch Doppelpfei-
gestellt wird. Die Knoten repräsentieren dabei le symbolisiert.
die Mitglieder einer Gruppe, die Kanten die
Beziehungen zwischen den Personen. Voraus- Für die Anordnung der Elemente gibt es
setzung für die Erstellung eines Soziogramms verschiedene Möglichkeiten. Eine, die sog.
ist, dass sich alle beteiligten Personen kennen; „Zielscheiben“-Anordnung, sieht vor, Perso-
sie müssen sich zumindest hinsichtlich der je- nen, die viele positive Wahlen auf sich verei-
weils interessierenden Beziehungsmerkmale nigen, in die Mitte des Diagramms, Personen,
einschätzen können. Bei Schulklassen oder Ar- die wenige oder keine Nominierungen erhal-
beitsgruppen kann man dies voraussetzen. ten, an dessen Peripherie zu setzen. Andere
Anordnungen können jedoch übersichtlicher
Das Verfahren wird mit dem Ziel eingesetzt, sein. Für die Beziehungsstruktur potenziell re-
die affektive Qualität der Beziehungen inner- levante Merkmale der Gruppenmitglieder kön-
halb einer Gruppe, also das Muster aus Sym- nen mit speziellen Symbolen gekennzeichnet
pathien, Antipathien oder Indifferenzen, zu werden. So könnte man z. B. Mädchen mit

535
16 Pädagogisch-psychologische und Erziehungsdiagnostik

Abb. 16.3 Soziomatrix und zugehöriges Soziogramm.

Kreisen, Jungen mit Rechtecken symbolisie- viele positive und keine oder nur sehr wenige
ren. negative Wahlen auf sich; Ausgestoßene erhal-
ten viele negative, aber kaum positive Wahlen
Durch Auszählung positiver und negativer
usw. Neben Indices, die soziale Merkmale ein-
Wahlen, die auf die einzelnen Personen ent-
zelner Personen beschreiben, lassen sich auch
fallen, lassen sich die Gruppenmitglieder im
Kennwerte bilden, die Gruppen als ganzes cha-
Hinblick auf ihren Beziehungsstatus klassi-
rakterisieren. Für den Gruppenzusammenhalt
fizieren. Diese Summen sind in den beiden
wurden z. B. Kohäsionsindices vorgeschlagen,
Zeilen unter der Matrix angegeben. Um die
die eine Funktion der Anzahl reziproker (posi-
Klassifikation über Gruppen unterschiedlicher
tiver) Wahlen sind.
Größe und Wahlbereitschaft besser vergleich-
bar zu machen, hat Petillon (1980) die Be-
Bemerkenswert ist, dass die Strukturen, die
rechnung zweier Indices vorgeschlagen, die
mit soziometrischen Verfahren aufgedeckt
über den (positiven) Wahl- bzw. Ablehnungs-
werden, auch bei jüngeren Kindern relativ sta-
status informieren. Der Wahlstatusindex wird
bil sind, besonders für Wahlen, die Gruppen-
berechnet durch
mitglieder des eigenen Geschlechts betreffen
Wi − M (siehe z. B. Petillon, 1981).
1+ ,
N −1
Die Technik eignet sich sowohl zur Feststel-
wobei Wi die Anzahl der positiven Wahlen
lung der aktuellen Gruppenstruktur als auch
repräsentiert, die auf eine Person entfallen,
zur Diagnose von Veränderungen in den Bezie-
M die mittlere Anzahl positiver Wahlen in
hungen der Mitglieder, etwa einer Arbeitsgrup-
der Gruppe. Im Nenner steht die Anzahl von
pe oder einer Schulklasse. Informativ kann
Wahlen, die eine Person maximal erreichen
auch ein Vergleich von Soziogrammen der
kann. Ein Wahlstatus von 1 wäre damit durch-
gleichen Gruppe sein, das auf unterschiedli-
schnittlich. Der Ablehnungsstatus wird in glei-
chen Kriterien basiert. Bei der Wahl der Kri-
cher Weise berechnet, nur dass hier positive
terien ist man nicht auf affektive Merkmale
durch negative Wahlen zu ersetzen sind.
im engeren Sinne beschränkt, vielmehr lassen
Der Beziehungsstatus lässt sich auf Grundla- sich beispielsweise auch aufgabenbezogene
ge beider Kennwerte auch verbal etikettieren: Kriterien verwenden (z. B. „Wer kann dich bei
Stars oder populäre Personen konzentrieren XY am besten unterstützen?“).

536
16.5 Familiale Interaktion und Erziehungsverhalten

Insgesamt handelt es sich um ein vielseitiges z. B. um die Identifikation von Risikofaktoren


und einfach anzuwendendes Instrument, das für Verhaltensprobleme gehen, die selbst noch
wertvolle (und manchmal überraschende) Auf- nicht manifest geworden sind, sich aber – bei
schlüsse über die Struktureigenschaften einer spezifischer Ausprägung der Risiken – mit ho-
Gruppe liefern kann. Besonders im Hinblick her Wahrscheinlichkeit entwickeln werden. So
auf Maßnahmen zur sozialen Integration ein- ist z. B. ein Erziehungsverhalten, das durch
zelner Kinder oder der Kohäsion innerhalb häufige negative Rückmeldung und Inkonsis-
der Klasse sind soziometrische Verfahren sehr tenz gekennzeichnet ist, als Risikofaktor für
nützlich. Für weitergehende Auswertungen die Entwicklung von Ängstlichkeit beim Kind
von Soziomatrizen existieren viele statistische anzusehen (Krohne & Hock, 1994; Krohne &
Analysemöglichkeiten (Dollase, 1976). Ein Rogner, 1981).
Verfahren zur Anwendung im Schulbereich
Schließlich ist Erziehungsdiagnostik für die
wurde von Petillon (1980) vorgelegt.
Evaluation und individuelle Effektkontrolle bei
Interventionsprogrammen zur Verbesserung
der Eltern-Kind-Beziehung notwendig. Mit
16.5 Familiale Interaktion und derartigen Programmen sollen erziehungspsy-
Erziehungsverhalten chologisches Wissen sowie Erziehungsstrate-
gien und -fertigkeiten vermittelt werden. Die
Programme richten sich auch an Eltern, de-
Die Diagnostik der familialen Interaktion – ren Kinder aktuell kein Problemverhalten ma-
und dabei insbesondere die des elterlichen nifestieren, aber an einer Erweiterung ihrer
Erziehungsverhaltens – ist in pädagogisch- erzieherischen Kompetenz, etwa im Hinblick
psychologischen Kontexten von Interesse, auf manchmal kritische Übergangspunkte in
wenn es um die Abklärung möglicher Ursa- der Entwicklung (z. B. Schuleintritt, Beginn
chen für problematisches Kindverhalten geht. der Pubertät), interessiert sind (Übersicht bei
Hierbei kann es sich um emotionale, motiva- Fuhrer, 2009).
tionale und soziale Auffälligkeiten handeln,
aber auch um Kompetenzdefizite, von denen Bei der Darstellung von Instrumenten zur
vermutet wird, dass sie durch das Erziehungs- Erfassung der familialen Interaktion kon-
verhalten oder andere Merkmale der Familien- zentrieren wir uns im Folgenden auf den
umwelt des Kindes mitverursacht oder stabili- gut definierten Bereich des elterlichen Erzie-
siert werden (z. B. intensive Strafen, überhöhte hungsverhaltens, da diesem für pädagogisch-
Leistungsanforderungen, Vernachlässigung). psychologische Interventionen eine besonders
Darüber hinaus kommt der elterlichen Erzie- wichtige Rolle zukommt. Bevor wir Verfah-
hung als Quelle von Konflikten zwischen den ren zur Diagnostik des Erziehungsverhaltens
Familienmitgliedern mitunter eine wichtige vorstellen, ist es zweckmäßig, einige wichtige
Rolle zu. Die Erfassung der Erziehung liefert Begriffe zu erläutern.
hier Information für gegebenenfalls einzulei-
tende korrektive Maßnahmen, die am Verhal-
ten der Eltern, Eigenschaften der Eltern-Kind- 16.5.1 Klassifikation des
Interaktion oder der Beziehung zwischen den Erziehungsverhaltens
Eltern ansetzen.
Auch im Rahmen präventiver Zielsetzungen Bei der Beschreibung des Erziehungsverhal-
ist die Diagnose bestimmter Charakteristika tens hat sich das Konzept des elterlichen Er-
der Familieninteraktion wichtig. Hier kann es ziehungsstils als nützlich erwiesen.

537
16 Pädagogisch-psychologische und Erziehungsdiagnostik

Definition Erziehungsstil Befragungsmethoden. Dies hat keine sachli-


chen Gründe, es liegt vielmehr allein an dem
Erziehungsstile sind interindividuell varia- erhöhten Aufwand, der mit der Realisierung
ble, aber intraindividuell vergleichsweise solcher Methoden verbunden ist. Da Beobach-
stabile Tendenzen von Eltern, bestimmte tungsmethoden in I Kap. 9 bereits anhand
Erziehungspraktiken zu manifestieren (vgl. eines Beispiels aus dem Erziehungsbereich il-
Krohne & Hock, 1994, S. 5). lustriert wurden, konzentrieren wir uns hier
auf die exemplarische Darstellung von Befra-
gungsverfahren zur Erziehung.
Erziehungsstile beziehen sich auf Praktiken,
also manifestes Verhalten, nicht auf Wissen,
Einstellungen, Ziele oder instrumentelle Über-
zeugungen zur Erziehung. So bezeichnet z. B. 16.5.2 Verfahren
der Erziehungsstil „Strenge“ die bei verschie-
denen Eltern unterschiedlich ausgeprägte (d. h. Ältere Verfahren
„variable“), aber für einzelne Eltern charakte-
ristische („stabile“) Tendenz, ein Verhalten des Einer der ersten bekannt gewordenen Erzie-
Kindes zu bestrafen, das sie als unerwünscht hungsstilfragebogen ist das Parent Attitude
einschätzen (Stapf, Herrmann, Stapf & Stä- Research Instrument (PARI; Schaefer & Bell,
cker, 1973). Die Qualifikation „variabel“ kann 1958). Das PARI besteht aus insgesamt 23 Ska-
sich dabei sowohl auf die Häufigkeit beziehen, len (zu je fünf Items), die sich drei Faktoren zu-
mit der Verhaltensweisen auftreten, die einem ordnen lassen: „Autoritäre Kontrolle“, „Feind-
bestimmten Erziehungsstil ( z. B. Strenge) zu- seligkeit“ und „Demokratische Einstellung“
geordnet werden, als auch auf deren Intensität (Schaefer, 1961). Mit dem PARI werden al-
oder Konsistenz (d. h. das Ausmaß ihrer Vor- lerdings weniger Erziehungspraktiken als viel-
hersagbarkeit aus gegebenen situativen Um- mehr vergleichsweise globale und stereotype
ständen). Damit lassen sich am Erziehungs- Erziehungseinstellungen bei den Eltern erfasst
geschehen inhaltlich einzelne Verhaltensten- (z. B. „Es sollte Kindern erlaubt sein, ihren
denzen wie z. B. Strenge, Unterstützung oder Eltern zu widersprechen, wenn sie glauben,
Einschränkung differenzieren, an denen for- bessere Ideen zu haben.“ – „Aufmerksame El-
mal u. a. die Aspekte Häufigkeit, Intensität und tern sollten bemüht sein, alle Gedanken ihres
Konsistenz unterschieden werden können. Kindes zu kennen.“).
Information über das Erziehungsverhalten Anders als das PARI ist das von Bronfenbren-
wird durch Befragung oder Beobachtung ge- ner und Mitarbeitern konstruierte Parent Be-
wonnen. Dabei kann auf verschiedene Daten- havior Questionnaire (PBQ) stärker auf die
quellen zurückgegriffen werden. Am häufigs- Erfassung der Erziehungspraxis hin orientiert
ten ist die Befragung des Kindes nach der von (Devereux, Bronfenbrenner & Suci, 1962; sie-
ihm erlebten Erziehung. Daneben können die he auch Siegelman, 1965). Diese Erziehungs-
Eltern oder andere Erziehende selbst Auskunft praxis wird in der vom Kind erlebten Form
über das eigene Erziehungsverhalten geben. registriert. (Beispielitem: „Zur Strafe verbietet
Schließlich können auch außenstehende Dritte er/sie mir, mit meinen Freunden zu spielen.“)
über die bei den Zielpersonen beobachtete Er- Faktorenanalysen der insgesamt 15 Teilskalen
ziehung befragt werden (vgl. Stapf, 1980). In (zu je drei Items) ergaben drei Komponenten,
der diagnostischen Praxis seltener verwendet die sich als „Liebevolle Zuwendung“, „Bestra-
wird die systematische Verhaltensbeobachtung fungstendenz“ und „Anforderungen stellen“
oder Kombinationen von Beobachtungs- und interpretieren lassen. Herrmann, Stapf und

538
16.5 Familiale Interaktion und Erziehungsverhalten

Krohne (1971) haben das PBQ zum Ausgangs- bieten (z. B. Interesse an der Tätigkeit des Kin-
punkt der von ihnen konstruierten Marburger des, Stärkung seiner Erfolgszuversicht u. ä.).
Skalen gemacht (vgl. auch Stapf, Herrmann, Einschränkung bezeichnet Erziehungsmaßnah-
Stapf & Stäcker, 1972), mit denen Unterstüt- men, die eine Orientierung des Kindes an vor-
zung und Strenge als unabhängige Dimensio- gegebenen Normen und Autoritätsmeinungen,
nen erfasst werden können. die Übernahme von Wissensinhalten und fer-
tigen Lösungen sowie die Aufrechterhaltung
Wir stellen im Folgenden drei neuere Verfah- der Abhängigkeit vom Erzieher begünstigen.
ren, die einen differenzierteren Ansatz ver- Unterstützung und Einschränkung sollen zwei
folgen, etwas näher vor: das Erziehungsstil- voneinander unabhängige Merkmale sein. Ver-
Inventar, das Familiendiagnostische Test- schiedene Eltern können also gleichzeitig er-
system sowie den Familien-Kindergarten- höhte Unterstützung und Einschränkung, aus-
Interaktionstest. schließlich vermehrt Unterstützung bzw. Ein-
schränkung oder insgesamt wenig Unterstüt-
zung und Einschränkung in ihrem Erziehungs-
Das Erziehungsstil-Inventar verhalten zeigen. Das letzte Muster verweist
auf eine insgesamt vernachlässigende Erzie-
Das Erziehungsstil-Inventar (ESI; Krohne & hung.
Pulsack, 1990) ist ein Fragebogenverfahren Positive und negative Rückmeldung werden de-
zur Messung der vom Kind erlebten elterli- finiert als die Tendenzen der Eltern zur Beloh-
chen Erziehung. Es kann bei Kindern ab acht nung erwünschten bzw. zur Bestrafung uner-
Jahren eingesetzt werden. Das Inventar be- wünschten Kindverhaltens. Für Rückmeldun-
steht aus sechs Skalen zur Erfassung der Erzie- gen werden jeweils drei Parameter unterschie-
hungsstile Unterstützung, Einschränkung, Lob den: Die Häufigkeit der Rückmeldung („Lob“
(positive Rückmeldung), Tadel, Strafintensität bezeichnet dabei die Häufigkeit positiver, „Ta-
und Inkonsistenz. Die drei letzten Skalen er- del“ die Häufigkeit negativer Rückmeldung);
fassen verschiedene Parameter negativer Rück- die Intensität der Rückmeldung (hier interes-
meldung. Im Unterschied zu vielen anderen siert besonders die Intensität negativer Rück-
Verfahren ist das ESI auf der Basis eines ex- meldung, die als „Strafintensität“ bezeichnet
plizit formulierten Modells (des Zweiprozess- wird) sowie das Ausmaß der Inkonsistenz der
Modells; Krohne, 1985a) konstruiert worden, Rückmeldung. Inkonsistenz macht das Eltern-
in dem der Einfluss der Erziehung auf die Aus- verhalten für das Kind schwer prädizierbar, so
bildung angstbezogener Erwartungshaltungen, dass es z. B. dessen Konsequenzen oder die
Bewältigungsstrategien und Kompetenzen be- Folgen eigener Handlungen nicht genau abse-
schrieben wird (Krohne & Hock, 1994). hen kann. Wie Unterstützung und Einschrän-
kung sollen auch positive und negative Rück-
Der Erziehungsstil Unterstützung umfasst
meldung relativ unabhängig voneinander va-
Maßnahmen der Eltern, die dem Kind beim
riieren. So bilden z. B. häufiges Loben und
Aufbau von Problemlösestrategien helfen
intensives Strafen keine Gegenpole einer Di-
(z. B. Mithilfe beim Üben von Fertigkeiten,
mension, vielmehr können sie durchaus ge-
bei der Strukturierung von Problemen u. ä.),
meinsam auftreten. I Tab. 16.3 zeigt Itembei-
materielle Voraussetzungen für den Kompe-
spiele für die Skalen.
tenzerwerb schaffen (z. B. Herstellen von Si-
tuationen, die die Erprobung von Fertigkeiten Das ESI besteht aus einer Mutter- und einer
gestatten) sowie motivationale und emotionale Vaterversion, die bis auf die angegebenen Ziel-
Bedingungen für erfolgreiches Problemlösen personen identisch formuliert sind. Die Durch-

539
16 Pädagogisch-psychologische und Erziehungsdiagnostik

Tab. 16.3 Skalen und Itembeispiele des ESI

Skala Itembeispiel
Unterstützung Meine Mutter (mein Vater) zeigt mir, wie Dinge funktionieren, mit denen
ich umgehen möchte.

Einschränkung Meine Mutter (mein Vater) sagt mir, dass ich für bestimmte Dinge, die ich
gern tun möchte, noch zu jung bin.

Lob Meine Mutter (mein Vater) freut sich, wenn ich bei einer Arbeit geholfen
habe.

Tadel Meine Mutter (mein Vater) wird ärgerlich, wenn ich Widerworte gebe.

Inkonsistenz Meine Mutter (mein Vater) lässt sich lange Zeit nicht anmerken, dass sie
(ihn) etwas ärgert, wird dann aber plötzlich richtig wütend.

Strafintensität Wenn ich nicht pünktlich nach Hause komme ...


• nimmt sie (er) es mir nicht übel.
• zeigt sie (er) mir, dass ich ihr (ihm) Kummer gemacht habe.
• schimpft sie (er) mit mir.
• verbietet sie (er) mir meine Lieblingsbeschäftigung (z. B. Fernsehen,
Rad fahren).
• gibt sie (er) mir Stubenarrest.
• schlägt sie (er) mich.

führung des ESI dauert etwa 20 Minuten pro schränkung (schlechte Leistungen) vorhersa-
Version. Mit Ausnahme der Strafintensität sind gen.
die Reliabilitäten der Skalen mit Werten zwi-
schen .77 und .92 zufriedenstellend bis gut.
Das Familiendiagnostische Testsystem
Für das ESI liegen zahlreiche Untersuchungen
vor, in denen die Skalen mit Tests zur Erfas-
sung von Persönlichkeitsmerkmalen bei Er- Auch beim Familiendiagnostischen Testsys-
zieher und Kind sowie Beobachtungsindikato- tem (FDTS; Schneewind, Beckmann & Hecht-
ren der Erzieher-Kind-Interaktion konfrontiert Jackl, 1985) handelt es sich um ein Fragebo-
wurden (Übersicht bei Krohne & Hock, 1994). geninventar, das familiäre Beziehungsaspek-
Für die im Zweiprozess-Modell zentralen Va- te aus der Perspektive der beteiligten Famili-
riablen der allgemeinen Ängstlichkeit und enmitglieder erfasst. Es ist für Familien mit
der Prüfungsängstlichkeit des Kindes konnten Kindern zwischen neun und 14 Jahren konzi-
besonders deutliche Assoziationen mit elter- piert. Das FDTS erlaubt eine sehr umfassende
licher Inkonsistenz, negativer Rückmeldung Bestimmung erziehungsrelevanter Variablen
und Einschränkung aufgewiesen werden. Leis- auf drei verschiedenen „Systemebenen“, die in
tungsvariablen (aus Fähigkeitstests oder Schul- I Abb. 16.4 veranschaulicht sind: (a) Eltern-
noten) lassen sich besonders gut durch elter- Kind-Beziehungen, (b) Ehepartnerbeziehung
liche Unterstützung (gute Leistung) und Ein- und (c) Familienklima.

540
16.5 Familiale Interaktion und Erziehungsverhalten

Familien-
klima

Ehepartner-
Mutter Vater
beziehung

Mütterliche Väterliche

Abb. 16.4 Erziehungs- Erziehungs-


einstellungen, einstellungen,
Struktur des -ziele, -ziele,
Familiendiagnostischen -praktiken -praktiken
Testsystems. Die Pfeile
deuten an, über welchen
Bereich ein
Tochter/Sohn
Familienmitglied
berichtet. (Nach
Schneewind, 1999, S.
190, Abbildung 5.7.)

Auf der Ebene der Eltern-Kind-Beziehung, hütung (emotionale Bedeutung des Kindes für
die besonders differenziert betrachtet wird, die Eltern), Gelassenheit und Souveränität, Ex-
werden Erziehungseinstellungen, -ziele und perimentieren (Bereitschaft, sich über Erzie-
-praktiken jeweils mit separaten Tests gemes- hungsfragen zu informieren und Neues zu pro-
sen. Für jeden der drei Bereiche liegen acht bieren), Inkonsistenz und Offenheit (Ausmaß,
Verfahren vor. Die Zahl acht ergibt sich daraus, in dem Mutter bzw. Vater dem Kind eigene
dass z. B. Erziehungseinstellungen der Mut- Gedanken und Gefühle anvertrauen).
ter oder des Vaters gegenüber Tochter oder
Sohn aus der Sicht des Erziehenden (Selbstper- Erziehungsziele betreffen u. a. die Orientie-
zeption) oder aus der des betroffenen Kindes rung an religiösen Normen, Leistungsehrgeiz,
(Fremdperzeption) erfasst werden. Ein Test häusliche Entlastungsforderungen (Selbststän-
betrifft z. B. Erziehungseinstellungen der Mut- digkeit und Mitverantwortung bei Arbeiten im
ter gegenüber ihrem Sohn aus der Sicht des Haushalt), Selbstständigkeit und Aufgeschlos-
Kindes. senheit, Bildungsanspruch und Konformität
(Anpassung und Konfliktvermeidung).
Erziehungseinstellungen umfassen u. a. die Erziehungspraktiken umfassen unterschiedli-
Skalen Permissivität (Gewährenlassen des che Formen positiver und negativer Rückmel-
Kindes, Vertrauen in die kindliche Autono- dung (z. B. liebevolle Zuwendung, materielle
mie), Selbstkritik (Eingestehen von Schwie- Belohnung, Liebesentzug, Ärger und Gering-
rigkeiten in der Beziehung zum Kind; sich schätzung, körperliche Bestrafung).
gelegentlich überfordert, inkonsequent, unbe-
herrscht fühlen), autoritäre Rigidität (konse- Für die Ebene der Ehepartnerbeziehung sind
quente Durchsetzung elterlicher Normen), Be- separate Tests für die beiden Partner vorge-

541
16 Pädagogisch-psychologische und Erziehungsdiagnostik

sehen. Die Unterskalen sind Zärtlichkeit (er- Das FTDS ist modular aufgebaut; je nach dia-
lebte Zufriedenheit in der Partnerschaft), Kon- gnostischer Fragestellung können also interes-
flikt (Ausmaß offener ehelicher Auseinander- sierende Tests zur Untersuchung herausgegrif-
setzungen), resignative Unzufriedenheit (ehe- fen werden, wobei die Informationsbasis ggf.
liche Probleme, die sich in einer resignati- sukzessive erweitert werden kann. Schnee-
ven Wendung nach innen äußern) und Unter- wind und Kollegen haben mit dem FTDS ei-
drückung (bei Frauen eher eine Haltung der ne Reihe von Studien durchgeführt, in denen
Aufopferung und des Nachgebens, bei Män- Veränderungen familialer Beziehungen sowie
nern auch eine Vorwurfshaltung gegenüber der Zusammenhänge zwischen dem Erziehungs-
Dominanz der Partnerin). verhalten und Persönlichkeitsmerkmalen des
Kindes untersucht wurden (Schneewind, Beck-
Die Ebene des Gesamtsystems wird mit drei
mann & Engfer, 1983; Schneewind, Ruppert
Tests zum Familienklima beschrieben, die sich
& Harrow, 1998).
auf Einschätzungen der Mutter, des Vaters
oder des Kindes stützen. Die Tests, bei de-
nen es sich um eine deutsche Adaptation der
Familien-Kindergarten-Interaktionstest
Family Environment Scale von Moos (1974)
handelt, beinhalten jeweils zehn Skalen. Drei
Das ESI und das FTDS sind erst ab einem
der Skalen erfassen das Ausmaß, in dem die
Alter von acht bis neun Jahren einsetzbar.
Familienmitglieder Beziehungen zu anderen
Ein Test zur Erfassung des wahrgenommenen
aufbauen und erhalten können, nämlich Zu-
Erziehungsverhaltens bei jüngeren Kindern
sammenhalt, Offenheit (Tolerierung sponta-
ist der Familien-Kindergarten-Interaktionstest
ner Gefühlsäußerungen) und Konfliktneigung.
(FIT-KIT; Sturzbecher & Freytag, 2000). Der
Fünf weitere Skalen beziehen sich auf Mög-
FIT-KIT lässt sich bei Kindern zwischen vier
lichkeiten der Selbstverwirklichung und per-
und acht Jahren zur Untersuchung entwick-
sönlichen Entwicklung. Es sind dies die Ska-
lungsrelevanter Merkmale der Interaktion zwi-
len Selbstständigkeit, Leistungsorientierung,
schen Kind und Erziehenden verwenden. Als
kulturelle Orientierung (Aufgeschlossenheit
Erziehende kommen dabei nicht nur die El-
für intellektuelle und kulturelle Inhalte), aktive
tern, sondern auch pädagogisches Personal an
Freizeitgestaltung und religiöse Orientierung.
Kindergärten oder anderen Erziehungseinrich-
Die beiden letzten Skalen umfassen systemer-
tungen in Frage.
haltende bzw. -verändernde Faktoren, nämlich
Organisation (Ordnung, Planung und Rege- Altersgemäß ist die Testprozedur, die etwa
lung von Verantwortlichkeiten innerhalb der 20–30 Minuten in Anspruch nimmt, spiele-
Familie) und Kontrolle (Umfang und Verbind- risch gestaltet. Nach einer Einleitungs- und
lichkeit von familieninternen Regeln). Aufwärmphase, in der der Test als „Oft-
manchmal-selten-oder-nie-Spiel“ eingeführt
Die insgesamt 29 Einzeltests wurden faktoren-
und die Spielregeln erklärt und geübt werden,
analytisch konstruiert, wobei die Skalen sowie
beschreibt der Testleiter dem Kind einen be-
die Zuordnung von Items zu Skalen zum Teil
stimmten Situationstyp. Eine der Situationen
für die jeweilige Kombination aus beurteil-
(Problemsituationen) wird z. B. so eingeführt:
tem Elternteil, Kindgeschlecht und Informant
spezifisch sind. Die Reliabilitäten der Skalen
streuen recht deutlich, sind mit Werten um .80 Wenn du malst oder baust oder bastelst, ge-
im Allgemeinen aber befriedigend. Das Bear- lingt dir dabei immer alles? Also mir ist
beiten eines einzelnen Tests nimmt ca. 15 bis es schon oft passiert, dass ich etwas bas-
30 Minuten in Anspruch. teln wollte, und es hat gar nicht geklappt.

542
16.5 Familiale Interaktion und Erziehungsverhalten

Tab. 16.4 FIT-KIT-Skalen zum Erzieher- (erste acht Skalen) und Kindverhalten (letzte drei
Skalen).

Skala Beschreibung
Kooperation Berücksichtigung kindlicher Handlungsintentionen, Förderung der
zumindest partiellen Realisierung dieser Intentionen durch Integration
in gemeinsames Handeln in Kooperations- und Konfliktsituationen
Hilfe Erklären, Demonstrieren, Übernahme von Teilhandlungen in
Hilfesituationen
Abweisung Zurückhalten von Unterstützung, Entmutigung und Geringschätzung
in Problem- und Kooperationssituationen
Restriktion Strafe, Liebesentzug, Drohungen in Konfliktsituationen
Bekräftigung Aufgeschlossenheit für kindliche Vorschläge, emotionale
Wertschätzung in Ideensituationen
Trösten Anteilnahme, Trösten, Ablenken in Kummersituationen
Emotionale Abwehr Indifferente und zurückweisende Reaktionen in Ideen- und
Kummersituationen
Faxen und Toben „Zweckfreie“, emotional positiv getönte Interaktion in
Spasssituationen
Hilfesuche Nachsuchen von Unterstützung in Problemsituationen
Diplomatie Erkunden und Infragestellen elterlicher Intentionen, Aushandeln von
Kompromissen in Konfliktsituationen
Renitenz Opponieren gegen oder ignorieren, überspielen, überhören von
Forderungen in Konfliktsituationen

Kennst du das auch? ... (Sturzbecher & typen geschildert, für die insgesamt 63 Items
Freytag, 2000, S. 117.) (Karten) zu sortieren sind. Die Situationstypen
sind:

Danach wird die Häufigkeit bestimmter Kind- 1. Problemsituationen (es treten Schwierigkei-
und Erzieherverhaltensweisen in dieser Situa- ten bei einer Tätigkeit auf, so dass das Kind
tion erfragt, z. B. „Wenn dir etwas nicht ge- Hilfe durch die Erziehungsperson benötigt),
lingt, erzählt du es dann X?“ oder „Wenn dir 2. Kooperationssituationen (das Kind möchte
etwas nicht gelingt, macht X dir dann vor, in eine interessante Tätigkeit des Erziehen-
wie du es besser machen könntest?“ (X ist den einbezogen werden),
hier durch die Zielperson zu ersetzen.) Die 3. Konfliktsituationen (es treten Diskrepanzen
Fragen, die dem Kind vom Testleiter vorgele- zwischen den Zielen und Wünschen des
sen werden, sind auf Kärtchen gedruckt, die Kindes und den Erwartungen oder Forde-
vom Kind in den „Oft-Kasten“, „Manchmal- rungen des Erziehers auf),
Kasten“ oder „Selten-oder-nie-Kasten“ gewor- 4. Ideensituationen (das Kind äußert eine Idee
fen werden. Die Kästen sind mit unterschied- und erwartet eine Reaktion des Erziehers),
lich vielen gelben Punkten versehen, um dem 5. Kummersituationen (das Kind erlebt aversi-
Kind die Sortierung zu erleichtern. Im Ver- ve Emotionen, z. B. weil es sich verletzt hat
lauf des Verfahrens werden sechs Situations- oder ihm etwas misslungen ist),

543
16 Pädagogisch-psychologische und Erziehungsdiagnostik

6. Spasssituationen (Zusammensein mit dem dass in bisher vorliegenden Studien nur aus-
Erzieher). geprochen geringe Konvergenzen zwischen
verschiedenen Datenquellen (z. B. Mutter, Va-
Die Items wurden auf der Basis von Faktoren-
ter, Kind, Bruder bzw. Schwester) festgestellt
analysen zu elf Skalen zusammengefasst, von
wurden (Helmke & Kischkel, 1980; Schwarz,
denen sich acht auf das Erzieherverhalten, drei
Barton-Henry & Pruzinsky, 1985). Dies ist in-
auf das Kindverhalten beziehen. Die Skalen
sofern erstaunlich, als die Familienmitglieder
sind in I Tab. 16.4 zusammengefasst. In eini-
ja keine im strikten Sinne „unabhängigen Be-
ge Skalen gehen dabei Antworten auf mehrere
obachter“ des Erziehungsgeschehens darstel-
Situationstypen ein, die wir in der Tabelle mit
len, man also mit einer gewissen Angleichung
angeben.
der Vorstellungen über diesen Verhaltensbe-
Die Reliabilitäten der Skalen streuen zwischen reich rechnen könnte. Das Zustandekommen
.49 und .79 (Mittel: .66) und erreichen damit dieser Diskrepanzen ist noch ungeklärt. Auf-
überwiegend nicht die für eine Einzelfalldia- schlussreich ist in diesem Zusammenhang,
gnostik erforderliche Höhe. Neben dem Alter dass Kinder das Erziehungsverhalten der bei-
der befragten Kinder dürfte hierfür auch die den Eltern als sehr ähnlich darstellen: Die Kor-
geringe Itemzahl der Skalen (zwischen vier relationen der kindberichteten mütterlichen
und acht) verantwortlich sein. Korrelationen und väterlichen Erziehung sind deutlich höher
mit Fähigkeitstests fallen entsprechend niedrig als die Angaben der Eltern selbst. Die Perspek-
aus (der stärkste Zusammenhang ergibt sich tive des jeweiligen Informanten spielt beim
mit abweisendem Mutterverhalten, r = −.24), Zustandekommen von Urteilen über das Erzie-
sind jedoch durchweg erwartungskonform ge- hungsverhalten und deren Kovariationsmuster
richtet. Im Hinblick auf Validitätsbelege be- also eine weitaus größere Rolle, als man zu-
steht noch Forschungsbedarf. nächst vermuten würde. In der diagnostischen
Praxis bietet es sich an, im Einzelfall vorlie-
gende deutliche Diskrepanzen selbst zum The-
16.5.3 Probleme und ma zu machen (Schneewind, 1999).
Perspektiven Zusammenhänge mit Persönlichkeitsmerkma-
len des Kindes fallen für die kindberichtete Er-
In den vorangehenden Abschnitten wurden ziehung im Allgemeinen etwas höher aus als
drei Verfahren vorgestellt, die einen Eindruck für die elternberichtete. Aus diesem Befund
von Zugangsweisen zur elterlichen Erziehung allein lässt sich jedoch nicht ableiten, dass das
auf der Befragungsebene vermitteln sollten. Kind die validere Datenquelle darstellt. Die
Solche Befragungsdaten sind, wie wir bereits stärkeren Assoziationen mit dem Kindbericht
sahen (I Kap. 10), mit einer Reihe von Pro- könnten z. T. auch darauf zurückgehen, dass
blemen behaftet, die deren Validität beein- Persönlichkeitsmerkmale des Kindes dessen
trächtigen. Hierbei geht es z. B. um die Ten- Wahrnehmung des Erziehungsverhaltens prä-
denzen, im Sinne sozial erwünschten Verhal- gen. So könnte etwa eine hohe Korrelation zwi-
tens zu antworten, ein insgesamt harmonisches schen Ängstlichkeit des Kindes und dem kind-
Familienklima zu präsentieren, familiale Kon- berichteten elterlichem Strafverhalten in einer
fliktsituationen herunterzuspielen (evtl. auch erhöhten Sensitivität ängstlicher Kinder für
zu akzentuieren) oder sich als kompetenter Er- negative Rückmeldungen mitbegründet sein.
zieher zu präsentieren.
Vorsicht ist besonders bei Daten geboten, die
Im Hinblick auf die Validität von Befragungs- – wie beim FIT-KIT – von jüngeren Kindern
daten zur Erziehung ist es bemerkenswert, stammen. Die Angaben dieser Kinder dürften

544
16.5 Familiale Interaktion und Erziehungsverhalten

deutlicher von kurz zurückliegenden Ereignis- Weiterführende Literatur


sen beeinflusst werden als die von Jugendli-
chen und Erwachsenen. Darüber hinaus wer-
Darstellungen der pädagogisch-psycholo-
den diese Angaben stärker von der jeweiligen
gischen Diagnostik finden sich in den
Ausgestaltung der Interaktion zwischen Un-
Lehrbüchern von Ingenkamp und Lissmann
tersucher und Kind determiniert sein. Kinder
(2008) sowie Lukesch (1998). Lukesch stellt
sind anfälliger für suggestive Fragestellungen.
auch deutschsprachige Testverfahren, die
Darüber hinaus ist die Möglichkeit von Loya-
für diagnostische Zwecke im pädagogischen
litätskonflikten, die durch die Befragung aus-
Bereich einschlägig sind, zusammen. Eine
gelöst werden können, zu berücksichtigen. Ge-
Aufstellung aktueller schulbezogener Tests
nerell ist bei jungen Kinder mit einer weniger
findet sich bei Lissmann (2010). Familiendia-
differenzierten Wahrnehmung des Erziehungs-
gnostik wird ausführlich im Herausgeberband
verhaltens zu rechnen. Man muss sich hier
von Cierpka (2008) behandelt. Möglichkeiten
immer fragen, wie realistisch solche Daten die
zur Erfassung des Erziehungsverhaltens durch
Erziehungspraxis widerspiegeln.
Beobachtungsverfahren werden von Krohne
Empfehlenswert ist es, subjektive Angaben und Hock (1994) beschrieben.
mit Daten aus Beobachtungen zu konfrontie-
ren. Grotevant und Carlson (1987) berichten
über eine Reihe von Beobachtungsverfahren, Fragen zur Wissenskontrolle
die sich für die Erfassung von Merkmalen der
Familieninteraktion eignen. Hierbei werden
den Mitgliedern bestimmte Aufgaben gestellt, 1. Welche allgemeinen Aufgaben ergeben sich
die im Hinblick auf eine diagnostische Fra- im Rahmen der pädagogisch-psychologi-
ge besonders aufschlussreich erscheinen, z. B. schen Diagnostik?
einen gemeinsamen Urlaub unter Einhaltung 2. Welche diagnostischen Verfahrensweisen
bestimmter Vorgaben planen. Damit soll ein werden bei Lerntests realisiert?
situativer Rahmen geschaffen werden, der Ver- 3. Wie lassen sich Lernstrategien einteilen?
haltenssyteme aus dem Alltagsleben in Gang 4. Welche grundlegenden Gesichtspunkte sind
bringt und dennoch eine gewisse Vergleichbar- bei der Konstruktion lehrzielorientierter
keit verschiedener Gruppen gewährleistet. Die Verfahren zu berücksichtigen?
Daten werden aufgezeichnet und anschließend 5. Wie werden Trennwerte für die Feststellung
im Hinblick auf diagnostisch relevante Verhal- des Erreichens von Lehrzielen bei der sog.
tenskategorien kodiert und ausgewertet. Wie Angoff-Methode gesetzt?
wir bereits angesprochen hatten, sind Normen 6. Wie lässt sich das „Klassenklima“ bestim-
für solche Verfahren im Allgemeinen nicht men?
zugänglich. Dennoch kann sich hier Informa- 7. Was versteht man unter „Erziehungsstilen“?
tion ergeben, die für die Prüfung spezifischer 8. Welche Erfassungsebenen der Familiendia-
diagnostischer Hypothesen, besonders auch gnostik unterscheiden Schneewind und Kol-
hinsichtlich der angesprochenen Divergenzen legen?
zwischen verschiedenen Familienmitgliedern,
sehr wertvoll sein kann.

545
Literatur

A A meta-analysis. Psychological Bulletin, APA. American Psychiatric Association


111, 256–274. (2013). Diagnostic and Statistical Manu-
Aaronson, N. K. (1993). The European Or- al of Mental Disorders (5th ed., DSM-5).
ganization for Research and Treatment of Ambady, N. & Rosenthal, R. (1993). Half
a minute: Predicting teacher evaluations Washington, DC: Author.
Cancer QLQ-C30: A quality-of-life instru-
from thin slices of nonverbal behavior and Arbeitsgruppe Deutsche Child Beha-
ment for use in international clinical trials
physical attractiveness. Journal of Perso- vior Checklist (1998). Elternfragebo-
in oncology. Journal of the National Can-
nality and Social Psychology, 64, 431– gen über das Verhalten von Kindern
cer Institute, 85, 365–376.
441. und Jugendlichen. (Dt. Bearbeitung der
Abels, D. (1974). Konzentrations-Verlauf- Child Behavior Checklist. CBCL/4–18)
AMDP. Arbeitsgemeinschaft für Metho-
Test (KVT). Göttingen: Hogrefe. (2. Aufl.). Köln: Arbeitsgruppe Kinder-,
dik und Dokumentation in der Psychia-
Acklin, M. W., McDowell, C. J., Ver- trie (2007). Das AMDP-System. Manual Jugendlichen- und Familiendiagnostik.
schell, M. S. & Chan, D. (2000). Interob- zur Dokumentation psychiatrischer Befun- Arbeitskreis Assessment Center (1995).
server agreement, intraobserver reliabili- de (8. Aufl.). Göttingen: Hogrefe. Standards der Assessment-Center-
ty, and the Rorschach Comprehensive Sys- Technik. In Arbeitskreis Assessment
Amster, H. (1965). The relation between
tem. Journal of Personality Assessment, Center (Ed.), Das Assessmenter Center
intentional and incidental concept lear-
74, 15–47. in der betrieblichen Praxis: Erfahrungen
ning as a function of type of multiple
und Perspektiven (pp. 58–68). Hamburg:
Adler, N. & Matthews, K. A. (1994). stimulation and cognitive style. Journal
Windmühle.
Health psychology: Why do some people of Personality and Social Psychology, 1,
get sick and some stay well? Annual Re- 217–223. Archer, R. P. & Krishnamurthy, R. (1993).
view of Psychology, 45, 229–259. A review of MMPI and Rorschach inter-
Amthauer, R. (1955). Intelligenz-Struktur-
relationships in adult samples. Journal of
Ahlers, T., Oberst, T. & Nentwig, P. Test (I-S-T) (2. Aufl.). Göttingen: Hogrefe.
Personality Assessment, 61, 277–293.
(2009). Redeanteile von Lehrern und Amthauer, R. (1973). Intelligenz-Struktur- Arnheim, R. (1928). Experimentell-
Schülern im Chemieunterricht nach ChiK. Test 70 (I-S-T 70). Göttingen: Hogrefe. psychologische Untersuchungen zum
Zeitschrift für Didaktik der Naturwissen-
Anastasi, A. (1982). Psychological testing Ausdruckproblem. Untersuchungen zur
schaften, 15, 331–342.
(5th ed.). New York: Macmillan. Lehre von der Gestalt. Psychologische
Aiken, L. R. (1999). Personality assess- Anderson, N. & West, M. A. (1996). The Forschung, 11, 2–132.
ment. Methods and practices (3rd rev. ed.). Team Climate Inventory: Development of Arnold, W. (1975). Der Pauli-Test. Berlin:
Seattle, WA: Hogrefe & Huber. the TCI and its applications in teambuil- Springer.
Allehoff, W. (1984). Berufswahl und be- ding for innovativeness. European Jour- Artelt, C. (1999). Lernstrategien und Ler-
rufliche Interessen. Göttingen: Hogrefe. nal of Work and Organizational Psycholo- nerfolg – Eine handlungsnahe Studie. Zeit-
gy, 5, 53–66. schrift für Entwicklungspsychologie und
Allport, G. W. (1942). The use of personal
documents in psychological science. Soci- Angoff, W. H. (1971). Scales, norms and Pädagogische Psychologie, 31, 86–96.
al Science Research Council Bulletin No equivalent scores. In R. L. Thorndike Arthur, W., Woehr, D. J. & Maldegen, R.
49. (Ed.), Educational measurement (2nd ed., (2000). Convergent and discrimant vali-
pp. 508–600). Washington, DC: American dity of assessment center dimensions: A
Allport, G. W. & Allport, F. H. (1928). Council on Education. conceptual and empirical reexamination
The A-S Reaction Study. Boston, MA:
Annett, J. & Duncan, K. D. (1967). Task of the assessment center construct-related
Houghton Mifflin.
analysis and training design. Occupatio- validity paradox. Journal of Management,
Alpert, R. & Haber, R. N. (1960). Anxiety nal Psychology, 41, 211–221. 26, 813–835.
in academic achievement situations. Jour- Arvey, R. D. (1986). General ability in em-
Antoni, C. H. & Bungard, W. (2004).
nal of Abnormal and Social Psychology, ployment: a discussion. Journal of Voca-
Arbeitsgruppen. In H. Schuler (Ed.), Enzy-
61, 207–215. tional Behavior, 29, 415–420.
klopädie der Psychologie: Wirtschafts-,
Ambady, N., Hallahan, M. & Rosenthal, Organisations- und Arbeitspsycholo- Arvey, R. D., Bouchard, T. J., Segal, N.
R. (1995). On judging and being judged gie: Band 4. Organisationspsychologie L. & Abraham, L. M. (1989). Job satis-
in zero-acquaintance situations. Journal – Gruppe und Organisation (pp. 129–191). faction: Environmental and genetic com-
of Personality and Social Psychology, 69, Göttingen: Hogrefe. ponents. Journal of Applied Psychlogy, 74,
518–529. APA. American Psychiatric Association 187–192.
Ambady, N. & Rosenthal, R. (1992). (2000). Diagnostic and Statistical Manual Arvey, R. D. & Murphy, K. R. (1998). Per-
Thin slices of expressive behavior as of Mental Disorders (4th ed., text revision, formance evaluation in work settings. An-
predictors of interpersonal consequences: DSM-IV-TR). Washington, DC: Author. nual Review of Psychology, 49, 141–168.

547
Literaturverzeichnis

Asch, S. E. (1946). Forming impressions Family, socialization, and interaction pro- der der Psychologie: Band 6. Psychologi-
of personality. Journal of Abnormal and cesses (pp. 259–306). Glencoe, IL: Free sche Diagnostik (pp. 385–410). Göttingen:
Social Psychology, 41, 258–290. Press. Hogrefe.
Asendorpf, J. B. (1989). Soziale Gehemmt- Bandelow, B. (1997). Panik- und Bartenwerfer, H. (1983). Allgemeine Leis-
heit und ihre Entwicklung. Heidelberg: Agoraphobie-Skala (PAS). Göttingen: tungsdiagnostik. In K.-J. Groffmann & L.
Springer. Hogrefe. Michel (Eds.), Enzyklopädie der Psycho-
logie: Psychologische Diagnostik: Band 2.
Asendorpf, J. B., Banse, R. & Mücke, D. Bandura, A. (1973). Aggression: A social
Intelligenz- und Leistungsdiagnostik (pp.
(2002). Double dissociation between im- learning analysis. Englewood Cliffs, NJ:
482–521). Göttingen: Hogrefe.
plicit and explicit personality self-concept: Prentice-Hall.
The case of shy behavior. Journal of Per- Barthel, E. & Schuler, H. (1989). Nutzen-
Bandura, A. (1977). Self-efficacy: Toward kalkulation eignungsdiagnostischer Ver-
sonality and Social Psychology, 83, 380–
a unifying theory of behavioral change. fahren am Beispiel eines biographischen
393.
Psychological Review, 84, 191–215. Fragebogens. Zeitschrift für Arbeits- und
Asendorpf, J. B. & Neyer (2012). Psycho-
Bandura, A. (1986). Social foundations Organisationspsychologie, 33, 73–83.
logie der Persönlichkeit (5. Aufl.). Berlin:
of thought and action. A social cogniti- Basler, H.-D. (1999). Marburger Frage-
Springer.
ve theory. Englewood Cliffs, NJ: Prentice- bogen zum habituellen Wohlbefinden –
Ash, R. A. (1988). Job analysis in the Hall. Untersuchungen an Patienten mit chroni-
world of work. In S. Gael (Ed.), The job
Bank, L., Duncan, T., Patterson, G. R. & schem Schmerz. Schmerz, 13, 358–391.
analysis handbook for business, industry,
and government (pp. 3–13). New York: Reid, J. (1993). Parent and teacher ratings Bass, B. M. (1954). The leaderless group
Wiley. in the assessment and prediction of antiso- discussion. Psychological Bulletin, 51,
cial and delinquent behaviors. Journal of 465–492.
Personality, 61, 699–709.
Bass, B. M. (1985). Leadership and per-
B Bar-Haim, Y., Lamy, D., Lee, P., formance beyond expectations. New York:
Bakermans-Kranenburg, M. & van Ijzen- Free Press.
Baddeley, A. (2000). The episodic buffer: doorn, M. (2007). Threat-related atten-
A new component of working memory? tional bias in anxious and nonanxious Bass, B. M. (1997). Does the
Trends in Cognitive Sciences, 4(11), 417– individuals: A meta-analytic study. Psy- transactional-transformational leadership
423. chological Bulletin, 133, 1–24. paradigm transcend organizational and
national boundaries? American Psycholo-
Baddeley, A. D. (1990). Human memory: Barker, R. G. & Wright, H. F. (1951). One gist, 52, 130–139.
Theory and practice. Boston, MA: Allyn boy’s day: a specimen record of behavior.
& Bacon. Bass, B. M. & Avolio, B. J. (1995).
New York: Harper & Row.
The Multifactor Leadership Questionnaire
Baddeley, A. D. & Hitch, G. (1974). Wor- Barkmann, C. & Brähler, E. (2009). Gieße- (MLQ): Technical Report. Redwood City,
king memory. In G. H. Bower (Ed.), The ner Beschwerdebogen für Kinder und Ju- CA: Mind Garden.
psychology of learning and motivation: gendliche (GBB-KJ) (2. Aufl.). Bern: Hu-
Advances in research and theory (Vol. 8, Bastine, R. (1977). Fragebogen zur direk-
ber. tiven Einstellung (FDE) (2. Aufl.). Göttin-
pp. 47–89). New York: Academic Press.
Barrett-Lennard, G. T. (1962). Dimensi- gen: Hogrefe.
Badura, B. et al. (1987). Leben mit dem ons of therapist response as causal fac-
Herzinfarkt. Eine sozialepidemiologische Bastine, R. & Tuschen, B. (1996).
tors in therapeutic change. Psychological Klinisch-psychologische Diagnostik. In
Studie. Berlin: Springer. Monographs: General and Applied, 76, A. Ehlers & K. Hahlweg (Eds.), Enzyklo-
Bailey, A. et al. (1995). Autism as a stron- (43, Whole No. 562). pädie der Psychologie: Klinische Psycho-
gly genetic disorder: Evidence from a Bri- Barrett-Lennard, G. T. (1986). The Relati- logie: Band 1. Grundlagen der Klinischen
tish twin study. Psychological Medicine, onship Inventory now: Issues and advan- Psychologie (pp. 195–268). Göttingen:
25, 63–78. ces in theory, method, and use. In L. S. Hogrefe.
Bakeman, R., Deckner, D. F. & Quera, V. Greenberg & W. M. Pinsof (Eds.), The psy- Baumann, H. U. (1974). Methoden zur
(2004). Analysis of behavioral streams. In chotherapeutic process. A research hand- quantitativen Erfassung des Unterrichts-
D. M. Teti (Ed.), Handbook of research book (pp. 439–476). New York: Guilford. verhaltens. Bern: Huber.
methods in developmental psychology (pp. Barrick, M. R. & Mount, M. K. (1991). Baumeister, R. F., Dale, K. & Sommer, K.
394–420). Oxford, UK: Blackwell. The big five personality dimensions and L. (1998). Freudian defense mechanisms
Bakeman, R. & Gottman, J. M. (1986). job performance: A meta-analysis. Person- and empirical findings in modern social
Observing interaction. An introduction nel Psychology, 44, 1–26. psychology: Reaction formation, projecti-
to sequential analysis. Cambridge, UK: Barrick, M. R., Mount, M. K. & Judge, T. on, displacement, undoing, isolation, sub-
Cambridge University Press. A. (2001). Personality and performance at limation, and denial. Journal of Personali-
Bales, R. F. (1951). Interaction process the beginning of the new millenium: What ty, 66, 1081–1124.
analysis. A method for the study of do we know and where do we go next? Baumert, J. & Köller, O. (1996). Lern-
small groups. Cambridge, MA: Addison- International Journal of Selection and As- strategien und schulische Leistungen. In
Wesley. sessment, 9, 9–30. J. Möller & O. Köller (Eds.), Emotionen,
Bales, R. F., Cohen, S. P. & Williamson, Bartels, L. K. & Doverspike, D. (1997). Kognitionen und Schulleistung (pp. 137–
S. A. (1979). SYMLOG: A system for the Assessing the assessor: The relationship 154). Weinheim: Beltz PVU.
multiple level observation of groups. New of assessor personality to leniency in as- Bäumler, G. (1974). Lern- und Gedächt-
York: Free Press. sessment center ratings. Journal of Social nistest (LGT 3). Göttingen: Hogrefe.
Behavior and Personality, 12, 179–190.
Bales, R. F. & Slater, P. (1955). Role Bäumler, G. & Weiss, R. (1966). Über den
differentiation in small decision-making Bartenwerfer, H. (1964). Allgemeine Leis- Zusammenhang der Paulitestleistung mit
groups. In T. Parsons & R. F. Bales (Eds.), tungstests. In R. Heiss (Ed.), Handbuch Intelligenztestleistungen (IST-Amthauer,

548
Literaturverzeichnis

CFT-Cattell). Psychologie und Praxis, 10, Bengel, J. (1993). Gesundheit, Risiko- Libre pour l’Etude Psychologique de l’ En-
27–36. wahrnehmung und Vorsorgeverhalten. fant, 187–248.
Untersuchungen am Beispiel der HIV- Birbaumer, N. & Schmidt, R. F. (2010).
Beauducel, A., & Wittmann, W. W. (2005).
Infektion. Göttingen: Hogrefe. Biologische Psychologie (7. Aufl.). Hei-
Simulation study on fit indexes in CFA
based on data with slightly distorted sim- Bents, R. & Blank, R. (1995). Myers- delberg: Springer.
ple structure. Structural Equation Mode- Briggs Typenindikator (MBTI) (2. Aufl.). Birbaumer, N., Tunner, W., Hölzl, R. &
ling, 12, 41–75. Weinheim: Beltz Test. Mittelstaedt, L. (1973). Ein Gerät zur kon-
Beaujean, A. A. (2014). Latent variable Bergner, M., Bobbitt, R. A., Carter, W. B. tinuierlichen Messung subjektiver Verän-
modeling using R: A step-by-step guide. & Gilson, B. S. (1981). The sickness im- derungen. Zeitschrift für experimentelle
New York: Routledge. pact profile: Development and final revi- und angewandte Psychologie, 20, 173–
sion of a health status measure. Medical 181.
Beauregard, K. S. & Dunning, D. (1998).
Care, 19, 787–805. Blashfield, R. K. (1998). Diagnostic mo-
Turning up the contrast: Self-enhancement
Berkman, L. F. & Breslow, L (1983). dels and systems. In C. R. Reynolds (Ed.),
motives prompt egocentric contrast effects
Health and ways of living: The Alameda Comprehensive clinical psychology: Vol.
in social judgments. Journal of Personali-
County Study. London: Oxford University 4. Assessment (pp. 57–86). Oxford, UK:
ty and Social Psychology, 74, 606–621.
Press. Pergamon.
Beck, A. T., Brown, G., Epstein, N. & Blickle, G., Momm, T., Schneider, P. B.
Steer, R. A. (1988). An inventory for mea- Bernreuter, R. G. (1931). The Personality Gansen, D. & Kramer, J. (2009). Does
suring clinical anxiety: Psychometric pro- Inventory. Stanford, CA: Stanford Univer- acquisitive self-presentation in personali-
perties. Journal of Consulting and Clini- sity Press. ty self-ratings enhance validity? Evidence
cal Psychology, 55, 893–897. Berry, C. M., Ones, D. S. & Sackett, P. R. from two experimental field studies. Inter-
Beck, A. T. & Steer, R. A. (1987). Manual (2007). Interpersonal deviance, organiza- national Journal of Selection and Assess-
of the revised Beck Depression Inventory. tional deviance, and their common corre- ment, 17, 142–153.
New York: Psychological Corporation. lates: A review and meta-analysis. Journal Block, J. (1978). The Q-sort method in
of Applied Psychology, 92, 410–424. personality assessment and psychiatric re-
Beck, A. T., Steer, R. A. & Brown, G.
K. (1996). Beck Depression Inventory II - Berry, D. S. (1990). Taking people at face search. Palo Alto, CA: Consulting Psycho-
Manual. San Antonio, TX: Psychological value: Evidence for the kernel of truth hy- logists.
Corproation. pothesis. Social Cognition, 8, 343–361. Block, J. & Block, J. H. (1980). The ro-
Berry, D. S. & Finch Wero, J. L. (1993). le of ego-control and ego-resiliency in the
Becker, E. S. & Rinck, M. (2000). Auf-
Accuracy in face perception: A view from organization of behavior. In W. A. Col-
merksamkeit und Gedächtnis bei Angst
ecological psychology. Journal of Perso- lins (Ed.), Minnesota Symposium on Child
und Depression. Psychologische Rund-
nality, 61, 497–520. Psychology (Vol. 13, pp. 39–101). Hillsda-
schau, 51, 67–74.
le, NJ: Erlbaum.
Becker, N., Höft, S., Holzenkamp, N. & Berry, D. S. & McArthur, L. Z. (1986).
Perceiving character in faces: The im- Block, J., Block, J. H. & Harrington, D. M.
Spinath, F. M. (2011). The predictive va- (1974). Some misgivings about the Mat-
lidity of assessment centers in German- pact of age-related craniofacial changes
on social perception. Psychological Bulle- ching Familiar Figures Test as a measu-
speaking regions - A meta-analysis. Jour- re of reflection-impulsivity. Developmen-
nal of Personnel Psychology, 10, 61–69. tin, 100, 3–18.
tal Psychology, 10, 611–632.
Becker, P. (1982). Interaktions-Angst- Beyme, F. & Fahrenberg, J. (1968). Zur Bloom, B. S., Engelhart, M. D., Furst,
Fragebogen (IAF). Weinheim: Beltz-Test. deutschen Bearbeitung der Anxiety-Tests E. J., Hill, W. H. & Krathwohl, D. R.
von R. B. Cattell. Diagnostica, 14, 39–44. (1956). Taxonomy of educational objecti-
Becker, P. (1997). Interaktions-Angst-
Fragebogen IAF (3. Aufl.). Weinheim: Bierhoff, H. W., Müller, G. F. & Küp- ves: The classification of education goals.
Beltz-Test. per, B. (2000). Prosoziales Arbeitsverhal- New York: McKay.
ten: Entwicklung und Überprüfung eines Bobertag, O. (1911). Über Intelligenzprü-
Becker, W. C. (1960). A comparison of the Meßinstruments zur Erfassung des freiwil- fungen nach der Methode von Binet und
factor structure and other properties of the ligen Arbeitsengagements. Gruppendyna- Simon. I. Methodik und Ergebnisse der
16.P.F. and the Guilford-Martin personali- mik und Organisationsberatung, 31, 141– einzelnen Tests. Zeitschrift für Angewand-
ty inventories. Educational and Psycholo- 153. te Psychologie, 5, 105–203.
gical Measurement, 21, 393–404.
Bieri, J. et al. (1966). Clinical and soci- Böhmer, S. & Ravens-Sieberer, U. (2005).
Becker-Zieglschmid, C. & Brähler, E. al judgment: The discrimination of beha- Das Konzept der Lebensqualität in der ge-
(2007). Der Leipziger Lebensstilfragebo- vioral information. New York: Wiley. sundheitspsychologischen Forschung. In
gen für Judendliche (LLfJ). Göttingen: R. Schwarzer (Ed.), Enzyklopädie der Psy-
Vandenhoek & Ruprecht. Binet, A. & Henri, V. (1895). La psycholo-
gie individuelle. Année Psychologique, 2, chologie: Gesundheitspsychologie: Band
Beckmann, D., Brähler, E. & Richter, H.- 411–465. 1. Gesundheitspsychologie (pp. 369–386).
E. (1990). Gießen-Test (GT). Bern: Huber. Göttingen: Hogrefe.
Binet, A. & Simon, T. (1905). Méthodes
Beckmann, N. (2004). Differentielle Effek- nouvelles pour le diagnostic du niveau in- Bolm, W. (1994). Goal Attainment Sca-
te von Feedback in Intelligenztests. Unver- tellectuel des anormaux. Année Psycholo- ling: Gütemaß und praktische Erfahrun-
öffentlichte Dissertation, Heinrich-Heine- gique, 11, 191–244. gen bei 397 psychiatrischen Behandlungs-
Universität, Düsseldorf. verläufen. Zeitschrift für Klinische Psy-
Binet, A. & Simon, T. (1908). Le dévelop- chologie, Psychopathologie und Psycho-
Bellak, L. & Bellak, S. (1949). Children’s pement de l’intelligence chez les enfants. therapie, 42, 128–138.
Apperception Test. Larchmont, NY: CPS. Année Psychologique, 14, 1–94. Bond, M. H. & Smith, P. B. (1996). Cross-
Bellak, L., Bellak, S. S. & Moog, W. Binet, A. & Simon, T. (1911). La mésure cultural social and organizational psycho-
(1995). CAT. Kinder-Apperzeptions-Test. du développement de l’intelligence chez logy. Annual Review of Psychology, 47,
Göttingen: Hogrefe. les jeunes enfants. Bulletin de la Société 205–235.

549
Literaturverzeichnis

Borg, I. (2000). Führungsinstrument Mit- Brähler, E. & Brähler, C. (1993). Paardia- Basisdokumentation. Eine einheitliche Ba-
arbeiterbefragung. Theorien, Tools und gnostik mit dem Gießen-Test. Bern: Huber. sisdokumentation für die stationäre Psy-
Praxiserfahrungen (2. Aufl.). Stuttgart: chosomatik und Psychotherapie. Psycho-
Verlag für Angewandte Psychologie. Brähler, E., Hinz, A. & Scheer, J. W. therapie Psychosomatik Medizinische Psy-
(2008). Der Gießener Beschwerdebogen chologie, 43, 214–223.
Borkenau, P. & Liebler, A. (1992). Trait (GBB) (3. Aufl.). Bern: Huber.
inferences: Sources of validity at zero ac- Brodbeck, F. C., Anderson, N. & West, M.
quaintance. Journal of Personality and So- Brähler, E., Holling, H., Leutner, D. & Pe- A. (2001). Teamklima Inventar (TKI). Göt-
cial Psychology, 62, 645–657. termann, F. (Eds.). (2002). Brickenkamp tingen: Hogrefe.
Handbuch psychologischer und pädagogi-
Borkenau, P. & Liebler, A. (1993). Con- Brodbeck, F. C. & Guillaume, Y. R.
scher Tests (3. Aufl., 2 Bände). Göttingen:
sensus and self-other agreement for trait F. (2010). Arbeiten in Gruppen. In U.
Hogrefe.
inferences from minimal information. Kleinbeck & K.-H. Schmidt (Eds.), En-
Journal of Personality, 61, 477–496. Brähler, E., Schumacher, J. & Strauß, B. zyklopädie der Psychologie: Wirtschafts-,
Borkenau, P. & Ostendorf, F. (1989). Des- (Eds.). (2003). Diagnostische Verfahren in Organisations- und Arbeitspsychologie:
criptive consistency and social desirability der Psychotherapie (2. Aufl.). Göttingen: Band 1. Arbeitspsychologie (pp. 215–286).
in self- and peer reports. European Jour- Hogrefe. Göttingen: Hogrefe.
nal of Personality, 3, 31–45. Brannigan, G. G., Ash, T. & Margolis, H. Brody, N. (1972). Personality. Research
Borkenau, P. & Ostendorf, F. (1993). (1980). Impulsivity-reflectivity and child- and theory. New York: Academic Press.
NEO-Fünf-Faktoren Inventar (NEO-FFI) ren’s intellectual performance. Journal of
Brogden, H. E. (1949). When testing pays
nach Costa und McCrae. Göttingen: Ho- Personality Assessment, 44, 41–43.
off. Personnel Psychology, 2, 171–183.
grefe.
Bray, D. W., Campbell, R. J. & Grant, D. Bronisch, T., Hiller, W., Mombour, W. &
Borman, W. C. & Brush, D. H. (1993). L. (1974). Formative years in business: A Zaudig, M. (1995). Internationale Diagno-
More progress toward a taxonomy of ma- long-term AT&T study of managerial lives. sen Checkliste für Persönlichkeitsstörun-
nagerial performance requirements. Hu- New York: Wiley. gen (IDCL-P). Bern: Huber.
man Performance, 6, 1–21.
Breaugh, J. A. (2009). The use of biodata Bruggemann, A., Groskurth, P. & Ulich, E.
Borman, W. C., Hanson, M. A. & Hedge, for employee selection: Past research and (1975). Arbeitszufriedenheit. Bern: Huber.
J. W. (1997). Personnel selection. Annual future directions. Human Resource Mana-
Review of Psychology, 48, 299–337. gement Review, 19, 219–231. Bruner, J. S. (1951). Personality dynamics
Borman, W. C. & Motowidlo, S. J. (1993). and the process of perceiving. In R. R.
Brickenkamp, R. (2002). Test d2: Blake & G. V. Ramsey (Eds.), Perception:
Expanding the criteria domain to include
Aufmerksamkeits-Belastungs-Test (9. An approach to personality (pp. 121–147).
elements of contextual performance. In N.
Aufl.). Göttingen: Hogrefe. New York: Ronald.
Schmitt & W. C. Borman (Eds.). Person-
nel selection in organizations (pp. 71–98). Brickenkamp, R. (Ed.). (1975). Handbuch Bruner, J. S. & Postman, L. (1947). Emo-
San Francisco, CA: Jossey-Bass. psychologischer und pädagogischer Tests. tional selectivity in perception and reacti-
Bortner, R. W. & Rosenman, R. H. (1967). Göttingen: Hogrefe. on. Journal of Personality, 16, 69–77.
The measurement of pattern A behavi- Brickenkamp, R. & Karl, G. A. (1986). Bruner, J. S. & Tajfel, H. (1961). Cogniti-
or. Journal of Chronic Diseases, 20, 525– Geräte zur Messung von Aufmerksamkeit, ve risk and environmental change. Journal
533. Konzentration und Vigilanz. In R. Bri- of Abnormal and Social Psychology, 62,
Bosson, J. K., Swann, W. B. & Penne- ckenkamp (Ed.), Handbuch apparativer 231–241.
baker, J. W. (2000). Stalking the perfect Verfahren in der Psychologie (pp. 195– Brunstein, J. C. & Maier, G. W. (1996).
measure of implicit self-esteem: The blind 211). Göttingen: Hogrefe. Persönliche Ziele: Ein Überblick zum
men and the elephant revisited? Journal Stand der Forschung. Psychologische
Brief, A. P., Burke, M. J., George, J. M.,
of Personality and Social Psychology, 79, Rundschau, 47, 146–160.
Robinson, B. S. & Webster, J. (1988).
631–643.
Should negative affectivity remain an un- Brunstein, J. & Heckhausen, H. (2010).
Boudreau, J. W. (1991). Utility analysis measured variable in the study of job Leistungsmotivation. In J. Heckhausen &
for decisions in human resource manage- stress? Journal of Applied Psychology, 73, H. Heckhausen (Eds.), Motivation und
ment. In M. D. Dunnette & L. M. Hough 193–198. Handeln (pp. 145–191). Berlin: Springer.
(Eds.), Handbook of industrial and orga-
nizational psychology (2nd ed., Vol. 2, pp. Brief, A. P. & Roberson, L. (1989). Job at- Buck, R., Miller, R. E. & Caul, W. F.
621–745). Palo Alto, CA: Consulting Psy- titude organization: an exploratory study. (1974). Sex, personality, and physiologi-
chologists. Journal of Applied Social Psychology, 19, cal variables in the communication of af-
717–727. fect via facial expression. Journal of Per-
Bowling, A. (1995). Measuring health. A sonality and Social Psychology, 30, 587–
review of disease-specific quality of li- Brief, A. P. & Weiss, H. M. (2002). Or- 596.
ve measurement scales. Buckingham, UK: ganizational behavior: Affect in the work-
Open University Press. place. Annual Review of Psychology, 53, Bühner, M. (2011). Einführung in die Test-
279–307. und Fragebogenkonstruktion (3. Aufl.).
Bradley, C. (Ed.). (1994). Handbook of
München: Pearson.
psychology and diabetes: A guide to psy- Bristol, M. M. et al. (1996). State of the
chological measurement in diabetes rese- science in autism: Report to the National Bulheller, S. & Häcker H.O. (Eds.) (1998).
arch and practice. Chur, Schweiz: Har- Institutes of Health. Journal of Autism and Advanced Progressive Matrices (APM).
wood. Developmental Disorders, 26, 121–154. Deutsche Bearbeitung und Normierung
Bradley, C. & Lewis, K. S. (1990). Measu- nach J. C. Raven. Frankfurt: Pearson As-
Broadbent, D. E. (1958). Perception and sessment.
res of psychological well-being and treat- communication. London: Pergamon.
ment satisfaction developed from respon- Bulheller, S. & Häcker H.O. (Eds.) (2002).
ses of people with tablet-treated diabetes. Broda, M., Dahlbender, R. W., Schmidt, J., Coloured Progressive Matrices (CPM).
Diabetic Medicine, 7, 445–451. von Rad, M. & Schors, R. (1993). DKPM Deutsche Bearbeitung und Normierung

550
Literaturverzeichnis

nach J. C. Raven. Frankfurt: Pearson As- groups. Personnel Psychology, 46, 823– Cattell, R. B., Horn, J. L., Sweney, A.
sessment. 850. B. & Radcliffe, J. A. (1964). Handbook
Bullinger, M., Heinisch, M., Ludwig, M. Campion, M. A., Palmer, D. K. & Campi- for the Motivation Analysis Test (MAT).
& Geier, S. (1990). Skalen zur Erfas- on, J. E. (1997). A review of structure in Champaign, IL: Institute for Personality
sung des Wohlbefindens: Psychometri- the selection interview. Personnel Psycho- and Ability Testing.
sche Analysen zum „Profile of Mood logy, 50, 655–702. Cattell, R. B. & Kline, P. (1977). The
States“ (POMS) und zum „Psychological Cardinal, B. J. (1995). The stages of exer- scientific analysis of personality and mo-
General Wellbeing Index“ (PGWI). Zeit- cise scale and stages of exercise behavior tivation. London: Academic Press.
schrift für Differentielle und Diagnosti- in female adults. Journal of Sports Medici- Cattell, R. B., Saunders, D. R. & Stice, C.
sche Psychologie, 11, 53–61. ne and Physical Fitness, 35, 87–92. (1957). Handbook for the Sixteen Persona-
Bullinger, M. & Kirchberger, I. (1998). Carlson, J. S. & Wiedl, K. H. (1979). lity Factor Questionnaire. Champaign, IL:
Der SF-36 Fragebogen zum Gesundheits- Toward a differential testing approach: Institute for Personality and Ability Tes-
zustand (SF-36). Göttingen: Hogrefe. Testing-the-limits employing the Raven ting.
Burisch, M. (1984). Approaches to per- matrices. Intelligence, 3, 323–344. Cattell, R. B. & Scheier, I. H. (1960).
sonality inventory construction. American Carpenter, P. A., Just, M. A. & Shell, P. Handbook for the Objective-Analytic (O-
Psychologist, 39, 214–227. (1990). What one intelligence test measu- A) Anxiety Battery. Champaign, IL: Insti-
res: a theoretical account of the processing tute for Personality and Ability Testing.
Buss, A. H. & Durkee, A. (1957). An in-
ventory for assessing different kinds of ho- in the Raven Progressive Matrices Test. Cattell, R. B. & Schuerger, J. M. (1978).
stility. Journal of Consulting Psychology, Psychological Review, 97, 404–431. Personality theory in action: Handbook
21, 343–349. Carroll, J. B. (1993). Human cognitive for the O-A (Objective- Analytic) Test Kit.
abilities: A survey of factor-analytical stu- Champaign, IL: Institute for Personality
Büssing, A. (2004). Organisationsdiagno- and Ability Testing.
dies. New York: Cambridge University
se. In H. Schuler (Ed.), Lehrbuch Organi-
Press. Cattell, R. B. & Warburton, F. W. (1967).
sationspsychologie (pp. 557–599). Göttin-
Cascio, W. F. (1995). Whither industrial Objective personality and motivation tests.
gen: Hogrefe.
and organizational psychology in a chan- Urbana, IL: University of Illinois Press.
Butcher, J. N. & Rouse, S. V. (1996). Per- ging world of work? American Psycholo- Chambless, D. L., Caputo, G. C., Bright,
sonality: Individual differences and clini- gist, 50, 928–939. P. & Gallagher, R. (1984). Assessment
cal assessment. Annual Review of Psycho- of fear in agoraphobics: The Body Sen-
logy, 47, 87–111. Cascio, W. F. & Ramos, R. A. (1986). De-
velopment and application of a new me- sations Questionnaire and the Agorapho-
Butler, J. M. & Haigh, G. V. (1954). Chan- thod for assessing job performance in be- bic Cognitions Questionnaire. Journal of
ges in the relation between self-concepts havioral/economic terms. Journal of App- Consulting and Clinical Psychology, 52,
and ideal concepts consequent upon client- lied Psychology, 71, 20–28. 1090–1097.
centered counseling. In C. R. Rogers & Child, I. L. (1968). Personality in culture.
R. F. Dymond (Eds.), Psychotherapy and Cattell, J. McK. (1886). The time it takes
to see and name objects. Mind, 11, 63–65. In E. F. Borgatta & W. W. Lambert (Eds.),
personality change (pp. 55–76). Chicago: Handbook of personality theory and rese-
University of Chicago Press. Cattell, J. McK. (1890). Mental tests and arch (pp. 82–145) Chicago: Rand McNal-
measurement. Mind, 15, 373–381. ly.
Cattell, R. B. (1946). Description and Christiansen, E. R. (1983). Die Arbeitskur-
C measurement of personality. Yonkers, NY: ve nach E. Kraepelin und R. Pauli. Main-
Word Book. zer Revision. Weinheim: Beltz.
Cacioppo, J. T. & Petty, R. E. (1981). Soci-
al psychological procedures for cognitive Cattell, R. B. (1950). Personality: a syste- Cierpka, M. (Ed.). (2008). Handbuch
response assessment: The thought-listing matic, theoretical, and factual study. New der Familiendiagnostik (3. Aufl.). Berlin:
technique. In T. V. Merluzzi, C. R. Glass York: McGraw-Hill. Springer.
& M. Genest (Eds.), Cognitive assessment Cattell, R. B. (1957). Personality and mo- CIPS. Collegium Internationale Psychia-
(pp. 309–342). New York: Guilford. tivation structure and measurement. Yon- triae Scalarum (Eds.). (2005). Internatio-
Campbell, D. T. & Fiske, D. W. (1959). kers, NY: World Book. nale Skalen für Psychiatrie (5. Aufl., bear-
Convergent and discriminant validation Cattell, R. B. (1963). Theory of fluid and beitet von G. Meng). Göttingen: Hogrefe.
by the multitrait-multimethod matrix. Psy- crystallized intelligence: A critical experi- Cisler, J.M. & Koster, E.H. (2010). Mecha-
chological Bulletin, 56, 81–105. ment. Journal of Educational Psychology, nisms of attentional biases towards threat
54, 1–22. in anxiety disorders: An integrative review.
Campbell, J. P., McCloy, R. A., Oppler,
S. H. & Sager, C. H. (1993). A theory of Cattell, R. B. (1965). The scientific ana- Clinical Psychology Review, 30, 203–216.
performance. In N. Schmitt & W. C. Bor- lysis of personality. Harmondsworth, UK: Clark, L. A., Beck, A. T. & Beck, J.
man (Eds.), Personnel selection in orga- Penguin. S. (1994). Symptom differences in ma-
nizations (pp. 35–70). San Francisco, CA: Cattell, R. B. (1987). Intelligence: Its jor depression, dysthymia, panic disorder,
Jossey-Bass. structure, growth, and action. New York: and generalized anxiety disorder. Ameri-
Campion, M. A., Campion, J. E. & Hud- Elsevier. can Journal of Psychiatry, 151, 205–209.
son, P. J. (1994). Structured interviewing: Cattell, R. B., Cattell, A. K. & Cattell, Clark, L. A. & Watson, D. (1991). Tripar-
A note on incremental validity and alter- H. E. (1993). Sixteen Personality Factor tite model of anxiety and depression: Psy-
native question types. Journal of Applied Questionnaire (5th ed.). Champaign, IL: chometric evidence and taxonomic impli-
Psychology, 79, 998–1002. Institute for Personality and Ability Tes- cations. Journal of Abnormal Psychology,
Campion, M. A., Medsker, G. J. & Higgs, ting. 100, 316–336.
A. C. (1993). Relations between work Cattell, R. B. & Child, D. (1975). Moti- Clark, M. S. & Isen, A. M. (1982). To-
group characteristics and effectiveness: vation and dynamic structure. New York: ward understanding the relationship bet-
implications for designing effective work Halsted. ween feeling states and social behavior. In

551
Literaturverzeichnis

A. H. Hastorf & A. M. Isen (Eds.), Cogni- Conway, J. M. (1999). Distinguishing con- Cronbach, L. J. (1990). Essentials of psy-
tive social psychology (pp. 73–108). New textual performance from task performan- chological testing (5th ed.). New York:
York: Elsevier. ce for managerial jobs. Journal of Applied Harper & Row.
Clarke, P. J. F., Macleod, C. & Guastella, Psychology, 84, 3–13. Cronbach, L. J. & Furby, L. (1970). How
A. J. (2013). Assessing the role of spatial Conway, J. M. & Huffcutt, A. I. (1997). should we measure „change“ – or should
engagement and disengagement of atten- Psychometric properties of multi-source we? Psychological Bulletin, 74, 68–80.
tion in anxiety-linked attentional bias: a performance ratings: A meta-analysis of
Cronbach, L. J. & Gleser, G. C. (1965).
critique of current paradigms and suggesti- subordinate, supervisor, peer, and self-
Psychological tests and personnel decisi-
ons for future research directions. Anxiety, ratings. Human Performance, 10, 331–
ons (2nd ed.). Urbana, IL: University of
Stress, and Coping, 26, 1–19. 360.
Illinois Press.
Cline, V. B. (1964). Interpersonal percepti- Conway, J. M., Jako, R. A. & Goodman,
Cronbach, L. J. & Meehl, P. E. (1955).
on. In B. A. Maher (Ed.), Progress in expe- D. F. (1995). A meta-analysis of interrater
Construct validity in psychological tests.
rimental personality research (Vol. 1, pp. and internal consistency reliability of se-
Psychological Bulletin, 52, 281–302.
222–284). New York: Academic Press. lection interviews. Journal of Applied Psy-
chology, 80, 565–579. Cronbach, L. J. & Snow, R. E. (1977).
Clum, G. A. (1975a). Intrapsychic varia- Aptitudes and instructional methods. New
bles and the patient’s environment as fac- Cook, W. W. & Medley, D. M. (1954). Pro-
York: Irvington.
tors in prognosis. Psychological Bulletin, posed hostility and pharisaic-virtue scales
82, 413–431. for the MMPI. Journal of Applied Psycho- Crowne, D. P. & Marlowe, D. (1960). A
logy, 38, 414–418. new scale of social desirability indepen-
Clum, G. A. (1975b). Relations between dent of psychopathology. Journal of Con-
biographical data and patient symptomato- Cooper-Hakim, A. & Viswesvaran, C.
(2005). The construct of work commit- sulting Psychology, 24, 349–354.
logy. Journal of Abnormal Psychology, 84,
80–83. ment: Testing an integrative framework. Crowne, D. P. & Marlowe, D. (1964). The
Psychological Bulletin, 131, 241–259. approval motive. New York: Wiley.
Coalson, D. & Weiss, L. (2002). The evo-
Corah, N. L., Gale, E. N. & Illig, S. J.
lution of Wechsler Intelligence Scales in
(1978). Assessment of a dental anxiety
historical perspective. Assessment Focus,
scale. Journal of the American Dental As- D
11(11), 1–3.
sociation, 97, 816–819.
D’Andrade, R. G. (1965). Trait psycholo-
Cohen, J. (1960). A coefficient of agree- Costa, P. T. & McCrae, R. R. (1985). gy and componential analysis. American
ment for nominal scales. Educational and The NEO Personality Inventory: Manu- Anthropologist, 67, 215–228.
Psychological Measurement, 20, 37–46. al. Odessa, FL: Psychological Assessment
Davidson, K. W. (1993). Suppression and
Cohen, J. (1968). Weighted Kappa: Nomi- Resources.
repression in discrepant self-other ratings:
nal scale agreement with provision for sca- Costa, P. T. & McCrae, R. R. (1992). Re- Relations with thought control and cardio-
led disagreement or partial credit. Psycho- vised NEO Personality Inventory (NEO vascular reactivity. Journal of Personality,
logical Bulletin, 70, 213–220. PI-R) and the NEO Five-Factor Inventory 61, 669–691.
Colbert, G. A. & Taylor, L. R. (1978). Em- (NEO-FFI) professional manual. Odessa,
FL: Psychological Assessment Resources. Dawes, R. M. (1994). House of cards: Psy-
pirically derived job families as a foundati-
chology and psychotherapy built on myth.
on for the study of validity generalization. Costa, P. T. & McCrae, R. R. (1995). Do- New York: Free Press.
Study III. Generalization of selection test mains and facets: Hierarchical personali-
validity. Personnel Psychology, 31, 355– ty assessment using the Revised NEO Per- De Dreu, C. W. K. & Weingart, L. R.
364. sonality Inventory. Journal of Personality (2003). Task versus relationship conflict,
Assessment, 64, 21–50. team performance, and team member sa-
Colvin, C. R. (1993). Childhood antece- tisfaction: a meta-analysis. Journal of Ap-
dents of young-adult judgability. Journal Cox, D. R. & Wermuth, N. (1996). Mul- plied Psychology, 88, 741–749.
of Personality, 61, 621–635. tivariate dependencies: models, analysis
and interpretation. London: Chapman & De Houwer, J. (2001). A structural and
Colvin, C. R. & Funder, D. C. (1991). Pre- process analysis of the implicit association
dicting personality and behavior: A boun- Hall.
test. Journal of Experimental Social Psy-
dary on the acquaintanceship effect. Jour- Craig, A., Hancock, K. & Craig, M. chology, 37, 443–451.
nal of Personality and Social Psychology, (1996). The Lifestyle Appraisal Ques-
60, 884–894. tionnaire: A comprehensive assessment of Dearborn, G. (1897). Blots of ink in ex-
health and stress. Psychology and Health, perimental psychology. Psychological Re-
Conger, A. J. (1980). Integration and ge- view, 4, 390–391.
11, 331–343.
neralization of kappas for multiple raters.
Psychological Bulletin, 88, 322–328. Crocker, L. & Algina, J. (1986). Introduc- Deegener, G. (1996). Multiphasic Sex In-
tion to classical and modern test theory. ventory (MSI). Göttingen: Hogrefe.
Conklin, A. & Westen, D. (2001). Thema-
Fort Worth, TX: Holt, Rinehart & Win- Deinzer, R., Steyer, R., Eid, M., Notz, P.,
tic Apperception Test. In W. Dorfman &
ston. Schwenkmezger, P., Ostendorf, F. & Neu-
M. Hersen (Eds.), Understanding psycho-
logical asessment: Perspectives on indivi- Cronbach, L. J. (1951). Coefficient Alpha bauer, A. (1995). Situational effects in
dual differences (pp. 107–133). New York: and the internal structure of tests. Psycho- trait assessment: The FPI, NEO-FFI, and
Kluwer. metrika, 16, 297–334. EPI questionnaires. European Journal of
Personality, 9, 1–23.
Contrada, R. J., Cather, C. & O’Leary, A. Cronbach, L. J. (1955). Processes affec-
(1999). Personality and health: Dispositi- ting scores on „understanding of others“ Dellas, M. & Gaier, E. L. (1970). Identi-
ons and processes in disease susceptibility and „assumed similarity“. Psychological fication of creativity: The individual. Psy-
and adaptation to illness. In L. A. Pervin Bulletin, 52, 177–193. chological Bulletin, 73, 55–73.
& O. P. John (Eds.), Handbook of perso- Cronbach, L. J. (1957). The two disci- Denollet, J. (2000). Type D personality.
nality: Theory and research (2nd ed., pp. plines of scientific psychology. American A potential risk factor refined. Journal of
576–604). New York: Guilford. Psychologist, 12, 671–684. Psychosomatic Research, 49, 255–266.

552
Literaturverzeichnis

Denollet, J. (2005). Standard assessment Dlugosch, G. E. & Krieger, W. (1995). Handbook of industrial and organizatio-
of Negative Affectivity, Social Inhibition, Fragebogen zur Erfassung des Gesund- nal psychology (pp. 473–520). Chicago,
and Type D Personality. Psychosomatic heitsverhaltens (FEG). Frankfurt a. M.: IL: Rand McNally.
Medicine, 67, 89–97. Swets Test. Dweck, C. S. (1975). The role of expecta-
Denollet, J. et al. (2010). Anger, suppres- Dlugosch, G. E. & Wottawa, H. (1994). tions and attributions in the alleviation of
sed anger, and risk of adverse events in pa- Evaluation in der Gesundheitspsychologie. learned helplessness. Journal of Persona-
tients with coronary artery disease. Ame- In P. Schwenkmezger & L. R. Schmidt lity and Social Psychology, 31, 674–685.
rican Journal of Cardiology, 105, 1555– (Eds.), Lehrbuch der Gesundheitspsycho- Dweck, C. S. & Wortman, C. B. (1982).
1560. logie (pp. 149–168). Stuttgart: Enke. Learned helplessness, anxiety, and achie-
Denollet, J. & Brutsaert, D. L. (1998). Per- Dollase, R. (1976). Soziometrische Techni- vement motivation. Neglected parallels in
sonality, disease severity, and the risk of ken. Weinheim: Beltz. cognitive, affective, and coping responses.
long-term cardiac events in patients with Döpfner, M., Berner, W., Flechtner, H., In H. W. Krohne & L. Laux (Eds.), Achie-
a decreased ejection fraction after myocar- Lehmkuhl, G. & Steinhausen, H.-C. vement, stress, and anxiety (pp. 93–125).
dial infarction. Circulation, 97, 167–173. (1999). Psychopathologisches Befund- Washington, DC: Hemisphere.
System für Kinder und Jugendliche. (Dt. Dyer, F. N. (1973). The Stroop phenome-
DePaulo, B. M. (1992). Nonverbal beha-
Bearbeitung der Clinical Assessment non and its use in the study of perceptual,
vior and self-presentation. Psychological
Scale for Child and Adolescent Psy- cognitive, and response processes. Memo-
Bulletin, 111, 203–243.
chopathology. CASCAP-D). Göttingen: ry and Cognition, 1, 106–120.
Derogatis, L. R. (1994). SCL-90-R: Symp- Hogrefe.
tom Checklist-90-R: Administration, sco- Döpfner, M., Berner, W., Fleischmann, T.
ring, and procedural manual (3rd ed.). & Schmidt, M. H. (1993). Verhaltensbeur- E
Minneapolis, MN: National Computer teilungsbogen für Vorschulkinder (VBV 3–
Systems. Ebbinghaus, H. (1885). Über das Gedächt-
6). Göttingen: Hogrefe. nis. Untersuchungen zur experimentellen
Deusinger, I. M. (2002). Frankfurter Döpfner, M., Görtz-Dorten, A. & Lehm- Psychologie. Leipzig: Duncker & Hum-
Kinder-Selbstkonzept-Inventar (FKSI). kuhl, G. (2008). Diagnostik-Sytem für blot.
Frankfurt a. M.: Johann Wolfgang Goethe- psychische Störungen nach ICD-10 und
Universität, Institut für Psychologie. Ebbinghaus, H. (1897). Über eine neue
DSM-IV für Kinder und Jugendliche – II Methode zur Prüfung geistiger Fähigkei-
Deutscher Bildungsrat (1973). Empfehlun- (DISYPS-II). Bern: Huber. ten und ihre Anwendung bei Schulkindern.
gen der Bildungskommission. Zur pädago- Dörner, D. (1987). Problemlösen als Infor- Zeitschrift für Psychologie, 13, 401–459.
gischen Förderung behinderter und von mationsverarbeitung (3. Aufl.). Stuttgart: Eckensberger, L. H. & Reinshagen, H.
Behinderung bedrohter Kinder und Ju- Kohlhammer. (1979). Überlegungen zu einem Struktur-
gendlicher. Bonn: Bundesdruckerei.
Dörner, D., Kreuzig, H. W., Reither, F. & modell der Entwicklung des moralischen
Devereux, E. C., Bronfenbrenner, U. & Su- Stäudel, T. (1983). Lohhausen. Vom Um- Urteils. In L. Montada (Ed.), Brennpunk-
ci, G. (1962). Patterns of parent behavi- gang mit Unbestimmtheit und Komplexität. te der Entwicklungspsychologie (pp. 267–
or in the United States of America and Bern: Huber. 280). Stuttgart: Kohlhammer.
the Federal Republic of Germany: A cross- Dowaliby, F. J. & Schumer, H. (1973). Eder, F. (1998). Linzer Fragebogen zum
national comparison. International Social Teacher-centered versus student-centered Schul- und Klassenklima für die 8. bis 13.
Science Journal, 14, 488–506. mode of college classroom instruction as Klassenstufe (LSFK 8–13). Göttingen: Ho-
Dickens, W. T. & Flynn, J. R. (2001). Heri- related to manifest anxiety. Journal of grefe.
tability estimates versus large environmen- Educational Psychology, 64, 125–132. Eder, F. (2010). Schul- und Klassenklima.
tal effects: the IQ paradox resolved. Psy- Drake, D. M. (1970). Perceptual correlates In D. H. Rost (Ed.), Handwörterbuch Päd-
chological Review, 108(2), 346–369. of impulsive and reflective behavior. Deve- agogische Psychologie (4. Aufl., pp. 694–
Diemand, A. & Schuler, H. (1998). Sozial lopmental Psychology, 5, 202–214. 704). Weinheim: Beltz PVU.
erwünschtes Verhalten in eignungsdiagno- DuBois, P. H. (1970). A history of psycho- Eder, F. & Mayr, J. (2000). Linzer Frage-
stischen Situationen. In H. Schuler & U. logical testing. Boston, MA: Allyn & Ba- bogen zum Schul- und Klassenklima für
Funke (Eds.), Eignungsdiagnostik in For- con. die 4. bis 8. Klassenstufe (LSFK 4–8). Göt-
schung und Praxis (pp. 135–145). Göttin- tingen: Hogrefe.
Dudycha, A. L. & Naylor, J. C. (1966).
gen: Hogrefe.
Characteristics of the human inference Eder, R. W. & Ferris, G. R. (Eds.). (1989).
Dilchert, S. & Ones, D. S. (2013). process in complex choice behavior situa- The employment interview: Theory, rese-
Gewissenhaftigkeit. In W. Sarges (Ed.), tions. Organizational Behavior and Hu- arch, and practice. Newbury Park, CA: Sa-
Management-Diagnostik (4. Aufl., pp. man Performance, 1, 110–128. ge.
323–332). Göttingen: Hogrefe. Düker, H. & Lienert, G. A. (2001). Edwards, A. L. (1959). Manual for the Ed-
Dilling, H., Mombour, W. & Schmidt, M. Konzentrations-Leistungs-Test – Revidier- wards Personal Preference Schedule (rev.
H. (2013). Internationale Klassifikation te Fassung (KLT-R) (Neubearbeitung von ed.). New York: Psychological Corporati-
psychischer Störungen ICD-10 Kapitel V H. Lukesch & S. Mayrhofer). Göttingen: on.
(F). Klinisch-diagnostische Leitlinien (9. Hogrefe. Edwards, A. L. (1970). The measurement
Aufl.). Bern: Huber. Dumenci, L. & Windle, M. (1996). A of personality traits by scales and invento-
Dipboye, R. (1997). Stuctured selection latent trait-state model of adolescent de- ries. New York: Holt, Rinehart and Win-
interviews: Why do they work? Why are pression using the Center for Epidemiolo- ston.
they underutilized? In N. Anderson & gic Studies-Depression Scale. Multivaria- Egeland, B. & Weinberg, R. A. (1976).
P. Herriot (Eds.), International handbook te Behavioral Research, 31, 313–330. The Matching-Familiar-Figures Test: A
of selection and assessment (Vol. 13, pp. Dunnette, M. D. (1976). Aptitudes, abili- look at its psychometric credibility. Child
455–473). Chichester, UK: Wiley. ties, and skills. In M. D. Dunnette (Ed.), Development, 47, 483–491.

553
Literaturverzeichnis

Eggert, D. (1983). Eysenck-Persönlich- change. Journal of Psychology, 136, 514– Estes, S. G. (1938). Judging personality
keits-Inventar (EPI) (2. Aufl.). Göttingen: 520. from expressive behavior. Journal of Ab-
Hogrefe. normal and Social Psychology, 33, 217–
Ekman, P. (1984). Expression and the na-
Egloff, B. & Hock, M. (2001). Interactive 236.
ture of emotion. In P. Ekman & K. R.
effects of state anxiety and trait anxiety on Scherer (Eds.), Approaches to emotion (pp. Evans, C. R. & Dion, K. L. (1991).
emotional Stroop interference. Personality 319–343). Hillsdale, NJ: Erlbaum. Group cohesion and performance: A meta-
and Individual Differences, 31, 875–882. analysis. Small Group Research, 22, 175–
Eller, F. & Winkelmann, K. (1983). Ent-
186.
Egloff, B. & Hock, M. (2003). Asses- wicklung und Evaluierung eines Beobach-
sing attentional bias toward threat-related tungssystems zur sequentiellen Beschrei- Evans, M. G. (1970). The effects of su-
stimuli: A comparison of the emotional bung und verhaltenstheoretischen Analyse pervisory behavior on the path-goal relati-
Stroop and the attentional probe task. Per- von Eltern-Kind-Interaktionen. Frankfurt onship. Organizational Behavior and Hu-
sonality and Individual Differences, 35, a. M.: R. G. Fischer. man Performance, 5, 277–298.
475–483. Exner, J. E. (1974). The Rorschach: A
Ellgring, H. (1996). Verhaltensbeurteilung
Egloff, B. & Krohne, H. W. (1998). als Methode in der Differentiellen Psycho- Comprehensive System. Vol. 1. New York:
Die Messung von Vigilanz und kogniti- logie. In K. Pawlik (Ed.), Enzyklopädie Wiley.
ver Vermeidung: Untersuchungen mit dem der Psychologie: Differentielle Psycholo- Exner, J. E. (1993). The Rorschach: A
Angstbewältigungs-Inventar (ABI). Dia- gie und Persönlichkeitsforschung: Band 1. Comprehensive System. Vol. 1: Basic
gnostica, 44, 189–200. Grundlagen und Methoden der Differenti- Foundations (3rd ed.). New York: Wiley.
Egloff, B. & Schmukle, S. C. (2002). Pre- ellen Psychologie (pp. 395–425). Göttin-
Eysenck, H. J. (1947). Dimensions of
dictive validity of an Implicit Association gen: Hogrefe.
personality. London: Routledge & Kegan
Test for assessing anxiety. Journal of Per- Embretson, S. E. & Reise, S. P. (2000). Paul.
sonality and Social Psychology, 83, 1441– Item response theory for psychologists.
1455. Eysenck, H. J. (1959). Manual of the
Mahwah, NJ: Erlbaum. Maudsley Personality Inventory. London:
Egloff, B. & Schmukle, S. C. (2003). Does Endler, N. S. & Magnusson, D. (Eds.). University of London Press.
social desirability moderate the relation- (1976). Interactional psychology and per- Eysenck, H. J. (1970). EPI Eysenck Per-
ship between implicit and explicit anxiety sonality. Washington, DC: Hemisphere. sonality Inventory. London: University of
measures? Personality and Individual Dif-
Engel, R. (2000). MMPI-2. Minnesota London Press.
ferences, 35, 1697–1706.
Multiphasic Personality Inventory (deut- Eysenck, H. J. (1975). The measurement
Egloff, B., Schmukle, S. C., Burns, L. sche Adaptation). Bern: Huber. of emotion: Psychological parameters and
R., Kohlmann, C.-W. & Hock, M. (2003).
Entwistle, N. J. & Ramsden, P. (1983). methods. In L. Levi (Ed.), Emotions:
Facets of dynamic positive affect: Diffe-
Understanding student learning. London: Their parameters and measurement (pp.
rentiating joy, interest, and activation in
Croom Helm. 439–467). New York: Raven.
the Positive and Negative Affect Schedule
(PANAS). Journal of Personality and So- Epstein, S. (1994). Integration of the co- Eysenck, H. J. (1980). Intelligenz. Struk-
cial Psychology, 85, 528–540. gnitive and psychodynamic unconscious. tur und Messung. Berlin: Springer.
Egloff, B., Schwerdtfeger, A. & Schmu- American Psychologist, 49, 709–724. Eysenck, H. J. (1991). Personality, stress,
kle, S. C. (2005). Temporal stability of the Erdelyi, M. H. (1985). Psychoanalysis. and disease: An interactionist perspective.
Implicit Association Test – Anxiety. Jour- Freud’s cognitive psychology. New York: Psychological Inquiry, 2, 221–232.
nal of Personality Assessment, 84, 82–88. Freeman. Eysenck, H. J. (Ed.). (1976). The measure-
Egloff, B., Tausch, A., Kohlmann, C.-W. ment of personality. Lancaster, UK: Medi-
Erdman, H. P., Klein, M. H. & Greist, J.
& Krohne, H. W. (1995). Relationships cal & Technical Publishers.
H. (1985). Direct patient computer inter-
between time of day, day of the week, and viewing. Journal of Consulting and Clini- Eysenck, H. J. & Eysenck, M. W. (1985).
positive mood: Exploring the role of the cal Psychology, 53, 760–773. Personality and individual differences. A
mood measure. Motivation and Emotion, natural science approach. New York: Ple-
19, 99–110. Eschenbeck, H., Kohlmann, C.-W., Heim-
num.
Dreger, U., Koller, D. & Leser, M. (2004).
Ehlers, A. & Breuer, P. (1992). Increased Processing bias and anxiety in primary Eysenck, H. J. & Eysenck, S. B. G. (1968).
cardiac awareness in panic disorder. Jour- school children: A modified emotional Manual of the Eysenck Personality Inven-
nal of Abnormal Psychology, 101, 371– Stroop colour-naming task using pictori- tory. London: University of London Press.
382. al facial expressions. Psychology Science, Eysenck, H. J. & Eysenck, S. B. G. (1975).
Ehlers, A., Margraf, J. & Chambless, D. 46, 451–465. Manual of the Eysenck Personality Ques-
L. (2001). Fragebogen zu körperbezoge- Esquirol, J. E. D. (1838). Die Geistes- tionnaire. London: Hodder & Stoughton.
nen Ängsten, Kognitionen und Vermei- krankheiten in Beziehung zur Medizin
dung (AKV) (2. Aufl.). Göttingen: Beltz- und Staatsarzneikunde (2 Bände). Berlin:
Test. Voss’sche Buchhandlung. F
Eid, M., Gollwitzer, M., & Schmitt, M. Esser, G., Blanz, B., Geisel, B. & Laucht, Fahrenberg, J. (1986). Psychophysiologi-
(2011). Statistik und Forschungsmethoden M. (1989). Mannheimer Elterninterview cal individuality: A pattern analytic ap-
(2. Aufl.). Weinheim: Beltz. (MEI). Weinheim: Beltz-Test. proach to personality research and psycho-
Eid, M. & Schmidt, K. (2014). Testtheorie Esterling, B. A, Antoni, M. H., Kumar, somatic medicine. Advances in Behaviour
und Testkonstruktion. Göttingen: Hogrefe. M. & Schneiderman, N. (1990). Emotio- Research and Therapy, 8, 43–100.
Eide, P., Kemp, A., Silberstein, R. B., Na- nal repression, stress disclosure responses, Fahrenberg, J. (1987). Zur psychophysio-
than, P. J. & Stough, C. (2002). Test-retest and Epstein-Barr viral capsid antigen ti- logischen Methodik: Konvergenz, Fraktio-
reliability of the emotional Stroop task; ters. Psychosomatic Medicine, 52, 397– nierung oder Synergismen? Diagnostica,
Examining the paradox of measurement 410. 33, 272–287.

554
Literaturverzeichnis

Fahrenberg, J. (1994). Die Freiburger Be- Fiedler, F. E. (1964). A contingency model Columbus, OH: Bureau of Business Rese-
schwerdenliste (FBL). Göttingen: Hogre- of leadership effectiveness. In L. Berko- arch, Ohio State University.
fe. witz (Ed.), Advances in experimental soci- Fleishman, E. A. (1972). On the relati-
Fahrenberg, J., Hampel, R. & Selg, H. al psychology (Vol. 1, pp. 146–190). New on between abilities, learning, and human
(2001). Freiburger Persönlichkeitsinven- York: Academic Press. performance. American Psychologist, 27,
tar (FPI-R) (7. Aufl.). Göttingen: Hogre- Filipp, S.-H. & Freudenberg, E. (1989). 1017–1032.
fe. Fragebogen zur Erfassung dispositionaler Fleishman, E. A. & Harris, E. F. (1962).
Fahrenberg, J., Myrtek, M., Pawlik, K. Selbstaufmerksamkeit (SAM). Göttingen: Patterns of leadership behavior related to
& Perrez, M. (2007). Ambulantes Assess- Hogrefe. employee grievances and turnover. Person-
ment: Verhalten im Alltagskontext erfas- Filipp, S.-H., Klauer, T., Ferring, D. & nel Psychology, 15, 43–56.
sen. Psychologische Rundschau, 58, 12– Freudenberg, E. (1990). Coping with life- Fleishman, E. A. & Reilly, M. E. (Eds.).
13. threatening disease: some research pro- (1992). Handbook of human abilities. De-
Fahrenberg, J. & Selg, H. (1970). Das blems and selected findings. In L. R. finitions, measurements, and job task re-
Freiburger Persönlichkeits-Inventar FPI. Schmidt, P. Schwenkmezger, J. Weinman quirements. Palo Alto, CA: Consulting
Göttingen: Hogrefe. & S. Maes (Eds.), Theoretical and app- Psychologists.
lied aspects of health psychology (pp. 385–
Farrell, A. D. (1993). Computers and be- Fleiss, J. L. (1981). Statistical methods for
398). Chur, Schweiz: Harwood.
havioral assessment: Current applications, rates and proportions. New York: Wiley.
future possibilities, and obstacles to routi- Finney, J. C. (1966). Programmed inter-
ne use. Behavioral Assessment, 13, 159– pretation of MMPI and CPI. Archives of Flynn, J. R. (1987). Massive IQ gains in
170. General Psychiatry, 15, 75–81. 14 nations: What IQ tests really measure.
Psychological Bulletin, 101, 171–191.
Faßnacht, G. (1995). Systematische Ver- Finney, J. C. (1985). Anxiety: Its measu-
haltensbeobachtung. Eine Einführung in rement by objective personality tests and Föderation Deutscher Psychologenvereini-
die Methodologie und Praxis (2. Aufl.). self-report. In A. H. Tuma & J. D. Maser gungen (1988). Richtlinien für die Erstel-
München: Reinhardt. (Eds.), Anxiety and the anxiety disorders lung psychologischer Gutachten. Bonn:
(pp. 645–673). Hillsdale, NJ: Erlbaum. Deutscher Psychologenverlag.
Fay, E. & Stumpf, H. (1995). Leistungsda-
ten. In R. S. Jäger & F. Petermann, Psycho- Forgas, J. P. (1992). Affect in social judg-
Fischer, G. H. (1974). Einführung in die
logische Diagnostik (pp. 380–396). Wein- ments and decisions: a multi-process mo-
Theorie psychologischer Tests: Grundla-
heim: Beltz PVU. del. In M. Zanna (Ed.), Advances in expe-
gen und Anwendungen. Bern: Huber.
rimental social psychology (pp. 227–275).
Fazio, R. H. & Olson, M. A. (2003). Impli- Fischer, G. H. (1988). Spezifische Ob- San Diego, CA: Academic Press.
cit measures in social cognition research: jektivität: Eine wissenschaftstheoretische
Their meaning and use. Annual Review of Formann, A. K., Waldherr, K. & Piswan-
Grundlage des Rasch-Modells. In K. D.
Psychology, 54, 297–327. ger, K. (2011). Wiener Matrizen-Test-2
Kubinger (Ed.), Moderne Testtheorie –
(WMT-2): Ein Rasch-skalierter sprachfrei-
Fechner, G. T. (1860). Elemente der Psy- Ein Abriß samt neuesten Beiträgen. Mün-
er Kurztest zur Erfassung der Intelligenz.
chophysik. Leipzig: Breitkopf & Härtel. chen: Psychologie Verlags Union.
Göttingen: Hogrefe.
Feingold, A. (1992). Good-looking peo- Fiske, D. W. (1949). Consistency of the Försterling, F. (1985). Attributional retrai-
ple are not what we think. Psychological factorial structures of personality ratings ning: A review. Psychological Bulletin, 98,
Bulletin, 111, 304–341. from different sources. Journal of Abnor- 495–512.
Felfe, J. (2006). Validierung einer deut- mal and Social Psychology, 44, 329–344.
Foulds, G. A., Caine, T. M. & Creasy,
schen Version des „Multifactor Lea- Fisseni, H.-J. (1982). Persönlichkeitsbeur- M. A. (1960). Aspects of extra- and intro-
dership Questionnaire“ (MLQ Form teilung. Zur Theorie und Praxis des psy- punitive expression in mental illness. Jour-
5 x Short) von Bass und Avolio (1995). chologischen Gutachtens. Göttingen: Ho- nal of Mental Science, 106, 599–609.
Zeitschrift für Arbeits- und Organisations- grefe.
psychologie, 50, 61–78. Frank, L. K. (1948). Projective methods.
Fisseni, H.-J. & Fennekels, G. (1995). Das Springfield, IL: Thomas.
Felfe, J. & Goihl, K. (2002). Transforma- Assessment-Center. Einführung für Prakti-
tional leadership and commitment. In J. ker. Göttingen: Hogrefe. Franke, G. H. (2002). SCL-90-R – Die
Felfe (Ed.), Organizational development Symptom-Checkliste von L.R. Derogatis.
and leadership (pp. 87–124). Frankfurt Fittkau-Garthe, H. & Fittkau, B. Deutsche Version (2. Aufl.). Göttingen:
a. M.: Lang. (1971). Fragebogen zur Vorgesetzten- Beltz-Test.
Verhaltensbeschreibung (FVVB). Göttin-
Fenigstein, A., Scheier, M. F. & Buss, gen: Hogrefe. Franke, G. H. (2013). Symptom-Checklist-
A. H. (1975). Public and private self- 90-Standard. SCL-90-S. Göttingen: Ho-
consciousness: Assessment and theory. Flanagan, J. C. (1954). The critical in- grefe.
Journal of Clinical and Consulting Psy- cident technique. Psychological Bulletin,
51, 327–358. Frederiksen, N. R. (1962). Factors in in-
chology, 43, 522–527. basket performance. Psychological Mono-
Ferguson, L. W. (1952). Personality mea- Flanders, N. A. (1970). Analyzing tea- graphs: General & Applied, 76 (22, Who-
surement. New York: McGraw-Hill. ching behavior. Reading, MA: Addison. le No. 541).
Ferreira, Y. (2009). FEAT - Fragebogen Fleenor, J. W. (1996). Constructs and de- Freimuth, J. & Sieland, J. (2013). Vor-
zur Erhebung von Arbeitszufriedenheitsty- velopmental assessment centers: Further träge und Präsentationen. In W. Sarges
pen. Zeitschrift für Arbeits- und Organisa- troubling empirical findings. Journal of (Ed.), Management-Diagnostik (4. Aufl.,
tionspsychologie A & O, 53, 177–193. Business and Psychology, 10, 319–335. pp. 668–676). Göttingen: Hogrefe.
Feuerlein, W., Küfner, H., Ringer, C. & Fleishman, E. A. (1957). The Leader Opi- Freud, S. (1973). Psychoanalytische Be-
Antons-Volmerk, K. (1999). Münchner Al- nion Questionnaire. In R. M. Stogdill & A. merkungen über einen autobiographisch
koholismustest (MALT) (2. Aufl.). Göttin- E. Coons (Eds.), Leader behavior: Its de- beschriebenen Fall von Paranoia (Demen-
gen: Beltz-Test. scription and measurement (pp. 120–133). tia paranoides). In A. Mitscherlich, A.

555
Literaturverzeichnis

Richards & J. Strachey (Eds.), Sigmund Funder, D. C. (1987). Errors and mistakes: consistencies in cognitive behavior. Psy-
Freud Studienausgabe: Band 7. Zwang, Evaluating the accuracy of social judg- chological Issues, 1 (4, Monograph No.
Paranoia und Perversion (pp. 133–203). ment. Psychological Bulletin, 101, 75–90. 4).
Frankfurt a. M.: S. Fischer. (Erstveröffent- Funder, D. C. & West, S. G. (1993). Con- Gardner, R. W., Jackson, D. N. & Mes-
lichung 1911) sensus, self-other agreement, and accura- sick, S. J. (1960). Personality organizati-
Freud, S. (1974). Totem und Tabu. (Ei- cy in personality judgment: An introducti- on in cognitive controls and intellectual
nige Übereinstimmungen im Seelenleben on. Journal of Personality, 61, 457–476. abilities. Psychological Issues, 2 (4, Mo-
der Wilden und der Neurotiker). In A. nograph No.8).
Funke, J. (Ed.). (1999). Themenheft. Kom-
Mitscherlich, A. Richards & J. Strachey Gaskill, P. C., Fenton, N. & Porter, J. P.
plexes Problemlösen. Psychologische
(Eds.), Sigmund Freud Studienausgabe: (1927). Judging the intelligence of boys
Rundschau, 50, 194–233.
Band 9. Fragen der Gesellschaft. Ursprün- from their photographs. Journal of App-
ge der Religion (pp. 287–444). Frankfurt Funke, U. (1995). Szenarien in der Eig-
lied Psychology, 11, 394–403.
a. M.: S. Fischer. (Erstveröffentlichung nungsdiagnostik und im Personaltraining.
1913) In B. Strauß & M. Kleinmann (Eds.), Com- Geer, J. H. (1965). The development of a
putersimulierte Szenarien in der Personal- scale to measure fear. Behaviour Research
Frey, A. (2008). Adaptives Testen. In H. and Therapy, 3, 45–53.
arbeit (pp. 145–216). Göttingen: Hogrefe.
Moosbrugger & A. Kelava (Eds.), Test-
theorie und Fragebogenkonstruktion (pp. Funke, U. & Barthel, E. (1990). Nut- Geissner, E. (2001). Fragebogen zur Er-
261–278). Heidelberg: Springer. zen und Kosten von Personalentscheidun- fassung der Schmerzverarbeitung (FESV).
gen. In W. Sarges (Ed.), Management- Göttingen: Hogrefe.
Freyberger, H. J. & Stieglitz, R.-D.
(1997). Krankheitsbilder, Klassifikation, Diagnostik (pp. 647–658). Göttingen: Ho- Gemar, M. C., Segal, Z. V., Sagrati, S.
Dokumentation. In W. Senf & M. Broda grefe. & Kennedy, S. J. (2001). Mood-induced
(Eds.), Praxis der Psychotherapie. Theore- Funke, W., Funke, J., Klein, M. & Schel- changes in the Implicit Association Test
tische Grundlagen von Psychoanalyse und ler, R. (1987). Trierer Alkoholismusinven- in recovered depressed patients. Journal
Verhaltenstherapie (pp. 16–23). Stuttgart: tar (TAI). Handanweisung. Göttingen: Ho- of Abnormal Psychology, 110, 282–289.
Thieme. grefe. Genest, M. & Turk, D. C. (1981). Think-
Fridlund, A. J. (1991). Emotion and facial Funkenstein, D. H., King, S. H. & Drolet- aloud approaches to cognitive assessment.
action in reflex, social motive, and paralan- te, M. E. (1954). The direction of anger du- In T. V. Merluzzi, C. R. Glass & M.
guage. Biological Psychology, 32, 3–100. ring a laboratory stress-inducing situation. Genest (Eds.), Cognitive assessment (pp.
Psychosomatic Medicine, 16, 404–413. 233–269). New York: Guilford.
Friedman, H. S. & Miller-Herringer, T.
(1991). Nonverbal display of emotion in Fydrich, T., Sommer, G. & Brähler, E. Genser, B., Häfele, A. & Häfele, M.
public and private: Self-monitoring, perso- (2007). Fragebogen zur Sozialen Unter- (1978). Reflexivität-Impulsivität: Fähig-
nality, and expressive cues. Journal of Per- stützung (F-SozU). Göttingen: Hogrefe. keit oder kognitiver Stil? Zeitschrift für
sonality and Social Psychology, 61, 766– Entwicklungspsychologie und Pädagogi-
775. sche Psychologie, 10, 114–123.
Friedman, H. S. & Rosenman, R. H. G George, J. M. (1996). Trait and state af-
(1974). Type A behavior and your heart. fect. In K. R. Murphy (Ed.), Individual
Gage, N. L. & Berliner, D. C. (1996). Päd- differences and behavior in organizations
New York: Knopf.
agogische Psychologie. (5. Aufl.). Wein- (pp. 145–171). San Francisco, CA: Jossey-
Friedrich, H. F. & Mandl, H. (1992). Lern- heim: Beltz. Bass.
und Denkstrategien – ein Problemaufriss.
In H. Mandl & H. F. Friedrich (Eds.), Galton, F. (1869). Hereditary genius. An Geyer, A. & Steyrer, J. (1998). Messung
Lern- und Denkstrategien. Analyse und In- inquiry into its laws and consequences. und Erfolgswirksamkeit transformationa-
tervention (pp. 3–54). Göttingen: Hogrefe. London: Macmillan. ler Führung. Zeitschrift für Personalfor-
Galton, F. (1883). Inquiries into human fa- schung, 12, 377–401.
Frieling, E. & Hoyos, C. Graf (1978). Fra-
gebogen zur Arbeitsanalyse (FAA). Deut- culty and its development. London: Mac- Gignac, G. E. (2008). Higher-order mo-
sche Bearbeitung des Position Analysis millan. dels versus direct hierarchical models: g as
Questionnaire (PAQ). Bern: Huber. Galton, F. (1884). Measurement of charac- superordinate or breadth factor? Psycholo-
ter. Fortnightly Review, 36, 179–185. gy Science Quarterly, 50(1), 21–43.
Frohburg, I. (1970). Zur psychodia-
gnostischen Erfassung von Persönlich- Goebel, G. & Hiller, W. (2001). Struk-
Gangestad, S. W. & Snyder, M. (2000).
keitsveränderungen mit Hilfe der Q- turiertes Tinnitus-Interview (STI). Göttin-
Self-monitoring: Appraisal and reapprai-
Sortierungstechnik. In H.-D. Rösler, H. D. gen: Hogrefe.
sal. Psychological Bulletin, 126, 530–555.
Schmidt & H. Szewczyk (Eds.), Persön- Goldberg, L. R. (1965). Diagnosticians
Gardner, H. (1983). Frames of mind.
lichkeitsdiagnostik (pp. 119–133). Berlin: versus diagnostic signs: The diagnosis of
The theory of multiple intelligences. New
Deutscher Verlag der Wissenschaften. psychosis versus neurosis from the MMPI.
York: Basic Books.
Frohriep, K. (1978). Einige Ergebnisse zur Psychological Monographs, 79 (9, Whole
Gardner, H. (1999). Intelligence reframed: No. 602).
psychodiagnostischen Validität eines neu
Multiple intelligences for the 21st century. Goldberg, L. R. (1970). Man versus model
entwickelten Kurzzeit-Lerntests für die
New York: Basic Books. of man: A rationale plus some evidence
Differentialdiagnostik entwicklungsrück-
ständiger Vorschulkinder im Vergleich mit Gardner, K. E. & Williams, A. P. O. for a method of improving on clinical in-
konventionellen Verfahren und Langzeit- (1973). A twenty-five year follow-up of an ferences. Psychological Bulletin, 73, 422–
Lerntests. In G. Clauß, J. Guthke & G. extended interview selection procedure in 432.
Lehwald (Eds.), Psychologie und Psycho- the Royal Navy. Occupational Psycholo- Goldberg, L. R. (1981). Language and in-
diagnostik lernaktiven Verhaltens (pp. 67– gy, 47, 1–13. dividual differences: the search for univer-
72). Berlin: Gesellschaft für Psychologie. Gardner, R. W., Holzman, P. S., Klein, G. sals in personality lexicons. Review of Per-
Fuhrer, U. (2009). Lehrbuch Erziehungs- S., Linton, H. B. & Spence, D. P. (1959). sonality and Social Psychology, 2, 141–
psychologie. (2. Aufl.) Bern: Huber. Cognitive control: A study of individual 165.

556
Literaturverzeichnis

Goodenough, D. R. (1978). Field depen- Greenwald, A. G., McGhee, D. E. & interpretations. Beverly Hills, CA: Sheri-
dence. In H. London & J. E. Exner (Eds.), Schwartz, J. L. K. (1998). Measuring in- dan.
Dimensions of personality (pp. 165–216). dividual differences in implicit cogniti- Guion, R. M. (1973). A note on organi-
New York: Wiley. on: the Implicit Association Test. Journal zational climate. Organizational Behavior
Goodenough, D. R. & Karp, S. A. (1961). of Personality and Social Psychology, 74, and Human Performance, 9, 120–125.
Field dependence and intellectual functio- 1464–1480.
Gur, R. E. et al. (1994). Clinical subtypes
ning. Journal of Abnormal and Social Psy- Greenwald, A. G. & Nosek, B. A. (2001). of schizophrenia: differences in brain and
chology, 63, 241–246. Health of the Implicit Association Test at CSF volume. American Journal of Psych-
Gotlib, I. H. & McCann, C. D. (1984). Age 3. Zeitschrift für Experimentelle Psy- iatry, 151, 343–350.
Construct accessibility and depression: chologie, 48, 85–93.
Guthke, J., Beckmann, J. F. & Wiedl, K. H.
An examination of cognitive and affective Greenwald, A. G., Poehlman, T. A., Uhl- (2003). Dynamik im dynamischen Testen.
factors. Journal of Personality and Social mann, E. L. & Banaji, M. R. (2009). Un- Psychologische Rundschau, 54, 225–232.
Psychology, 47, 427–439. derstanding and using the Implicit Asso-
Guthke, J., Jäger, C. & Schmidt, I. (1983).
Göttert, R. & Asendorpf, J. B. (1989). Ei- ciation Test: III. Meta-analysis of predicti-
Lerntestbatterie „Schlussfolgerndes Den-
ne deutsche Version des California-Child- ve validity. Journal of Personality and So-
ken“ (LTS). Berlin: Humboldt-Universität,
Q-Sort. Zeitschrift für Entwicklungspsy- cial Psychology, 97, 17–41.
Psychodiagnostisches Zentrum.
chologie und Pädagogische Psychologie, Greuel, L. et al. (1998). Glaubhaftigkeit Guthke, J. & Wiedl, K. H. (1996). Dyna-
21, 70–82. der Zeugenaussage. Theorie und Praxis misches Testen. Zur Psychodiagnostik der
Gottschaldt, K. (1926). Über den Einfluß der forensisch-psychologischen Begutach- intraindividuellen Variabilität. Göttingen:
der Erfahrung auf die Wahrnehmung von tung. Weinheim: Beltz PVU. Hogrefe.
Figuren. I. Über den Einfluß gehäufter Grewe, W. & Wentura, D. (1997). Wis- Guttman, L. (1944). A basis for scaling
Einprägung von Figuren auf ihre Sichtbar- senschaftliche Beobachtung. Weinheim: qualitative data. American Sociological
keit in umfassenden Konfigurationen. Psy- Beltz. Review, 9, 139–150.
chologische Forschung, 8, 261–317.
Groffmann, K.-J. (1983). Die Entwick- Guzzo, R. A. & Dickson, M. W. (1996).
Gough, H. G. (1957). California Psycho- lung der Intelligenzmessung. In K.-J. Teams in organizations: Recent research
logical Inventory. Palo Alto, CA: Consul- Groffmann & L. Michel (Eds.), Enzyklo- on performance and effectiveness. Annual
ting Psychologists. pädie der Psychologie: Psychologische Review of Psychology, 47, 307–338.
Grande, G. et al. (2004). Evaluation der Diagnostik: Band 2. Intelligenz- und Leis-
deutschen Typ-D-Skala (DS14) und Präva- tungsdiagnostik (pp. 1–103). Göttingen:
lenz der Typ-3-Persönlichkeit bei kardio- Hogrefe. H
logischen und psychosomatischen Patien- Grotevant, H. D. & Carlson, C. I. (1987).
ten sowie Gesunden. Psychotherapie Psy- Häcker, H. (1982). Objektive Tests zur
Family interaction coding system: A de-
chosomatik Medizinische Psychologie, 54, Messung der Persönlichkeit. In K.-J.
scriptive review. Family Process, 26, 49–
413–422. Groffmann & L. Michel (Eds.): Enzy-
74.
klopädie der Psychologie: Psychologische
Graves, L. M. & Karren, R. J. (1996). Grove, W. M. & Meehl, P. E. (1996). Com- Diagnostik: Band 3. Persönlichkeitsdia-
The employee selection interview: A fresh parative efficiency of informal (subjective, gnostik (pp. 132–185). Göttingen: Hogre-
look at an old problem. Human Resources impressionistic) and formal (mechanical, fe.
Management Journal, 35, 163–180. algorithmic) prediction procedures: The Häcker, H., Schmidt, L. R. & Cattell, R.
Grawe, K. (1992). Der Veränderungspro- clinical-statistical controversy. Psycholo- B. (1977). MAT. Experimenteller Motiva-
zeßbogen. In M. Zielke (Ed.), Diagnos- gy, Public Policy, and Law, 2, 293–323. tions Analyse Test. Weinheim: Beltz.
tik in der Psychotherapie (pp. 231–252). Grove, W. M., Zald, D. H., Lebow, B. S., Häcker, H., Schmidt, L. R., Schwenkmez-
Stuttgart: Kohlhammer. Snitz, B. E. & Nelson, C. (2000). Clini- ger, P. & Utz, H. E. (1975). Objektive Test-
Grawe, K., Caspar, F. & Ambühl, H. cal versus mechanical prediction: a meta- batterie OA-TB 75. Manual. Weinheim:
(1990). Die Berner Therapievergleichsstu- analysis.. Psychological Assessment, 12, Beltz.
die: Prozeßvergleich. Zeitschrift für Klini- 19–30.
Häcker, H., Schwenkmezger, P. & Utz, H.
sche Psychologie, 19, 316–337. Gruber, T., Waschlewski, S. & Deegener, E. (1979). Über die Verfälschbarkeit von
Grawe, K., Donati, R. & Bernauer, F. G. (2003). Multiphasic Sex Inventory für Persönlichkeitsfragebogen und objektiven
(1994). Psychotherapie im Wandel – Von Jugendliche (MSI-J). Göttingen: Hogrefe. Persönlichkeitstests unter SD-Instruktion
der Konfession zur Profession (2. Aufl.). Guilford, J. P. (1940). An inventory of fac- und in einer Auslesesituation. Diagnosti-
Göttingen: Hogrefe. tors STDCR. Beverly Hills, CA: Sheridan. ca, 25, 7–23.
Green, B. F. Jr. (1968). Descriptions and Guilford, J. P. (1950). Creativity. Ameri- Hackman, J. R. (1970). Tasks and task per-
explanations: a comment on the papers by can Psychologist, 5, 444–454. formance in research on stress. In J. E. Mc-
Hoffman and Edwards. In B. Kleinmuntz Grath (Ed.), Social and psychological fac-
(Ed.), Formal representation of human jud- Guilford, J. P. (1964). Persönlichkeit.
tors in stress (pp. 202–237). New York:
gement (pp. 91–98). New York: Wiley. Weinheim: Beltz.
Holt, Rinehart and Winston.
Greenwald, A. G. et al. (2002). A uni- Guilford, J. P. (Ed.). (1967). The nature of Hackman, J. R. (1987). The design of
fied theory of implicit attitudes, stereoty- human intelligence. New York: McGraw- work teams. In J. W. Lorsch (Ed.), Hand-
pes, self-esteem, and self-concept. Psycho- Hill. book of organizational behavior (pp. 315–
logical Review, 109, 3–25. Guilford, J. P. & Hoepfner, R. (1971). 342). Englewood Cliffs, NJ: Prentice-
Greenwald, A. G. & Farnham, S. D. The analysis of intelligence. New York: Hall.
(2000). Using the Implicit Association McGraw-Hill. Hackman, J. R. & Oldham, G. R. (1975).
Test to measure self-esteem and self- Guilford, J. P. & Zimmerman, W. S. Development of the job diagnostic survey.
concept. Journal of Personality and Social (1949). The Guilford-Zimmerman Tempe- Journal of Applied Psychology, 60, 159–
Psychology, 79, 1022–1038. rament Survey. Manual of instructions and 170.

557
Literaturverzeichnis

Häfner, H., Löffler, W., Maurer, K., Hardt, J. et al. (2003). Was mißt der FKV? to self: Role of self-esteem. Journal of Per-
Riecher-Rössler, A. & Stein, A. (1999). Eine Überprüfung des Freiburger Frage- sonality and Social Psychology, 78, 725–
Interview für die retrospektive Erfassung bogens zur Krankheitsverarbeitung bei Pa- 736.
des Erkrankungsbeginns und -verlaufs tienten mit unterschiedlichen Erkrankun- Heckhausen, H. (1963). Hoffnung und
bei Schizophrenie und anderen Psychosen gen. Zeitschrift für Klinische Psychologie Furcht in der Leistungsmotivation. Mei-
(IRAOS). Bern: Huber. und Psychotherapie, 32, 41–50. senheim: Hain.
Hagtvet, K. A. (Ed.). (1992). Advances in Harmon, L. W., Hansen, J.-I. C., Borgen, F. Heckhausen, H. (1980). Motivation und
test anxiety research (Vol. 7). Lisse, Nie- H. & Hammer, A. L. (1994). Strong Inte- Handeln. Berlin: Springer.
derlande: Swets & Zeitlinger. rest Inventory: Applications and technical
guide. Palo Alto, CA: Consulting Psycho- Heckhausen, H. & Rheinberg, F. (1980).
Hahlweg, K. (1996). Fragebogen zur
logical Press. Lernmotivation im Unterricht, erneut be-
Partnerschaftsdiagnostik (FPD). Göttin-
trachtet. Unterrichtswissenschaft, 8, 7–47.
gen: Hogrefe. Harnishfeger, A. & Wiley, D. E. (1976).
The teaching-learning process in elemen- Hedges, L. V. & Okin, I. (1985). Statisti-
Hall, G. S. (1891). The contents of child-
tary schools. Curriculum Inquiry, 6, 5–43. cal methods for meta-analysis. New York:
ren’s minds on entering school. Pedagogi-
Academic Press.
cal Seminary and Journal of Genetic Psy- Harper, G. & Kember, D. (1989). Interpre-
chology, 1, 139–173. tation of factor analyses from the Approa- Heller, K. A. & Geisler, H. J. (1983). Ko-
Hall, V. & Russell, W. J. (1974). Multitrait- ches to Studying Inventory. British Jour- gnitiver Fähigkeitstest für 1. bis 3. Klas-
multimethod analysis of conceptual tem- nal of Educational Psychology, 59, 66–74. sen (KFT 1–3). Weinheim: Beltz.
po. Journal of Educational Psychology, Heller, K. A., Kratzmeier, H. & Leng-
Hartung, C. M. & Widiger, T. A. (1998).
66, 932–939. felder, A. (1998a). Matrizen-Test-Manual,
Gender differences in the diagnosis of
Halpin, A. W. (1957). Manual for the Lea- Band 1. Ein Handbuch mit deutschen Nor-
mental disorders: conclusions and contro-
der Behavior Description Questionnaire. men zu den Standard Progressive Matri-
versies of DSM-IV. Psychological Bulle-
Columbus, OH: Bureau of Business Rese- ces von J. C. Raven. Göttingen: Beltz-
tin, 123, 260–278.
arch, Ohio State University. Test.
Hasselhorn, M. & Gold, A. (2013). Päd- Heller, K. A., Kratzmeier, H. & Leng-
Halpin, A. W. & Winer, B. J. (1957). A agogische Psychologie (3. Aufl.). Stutt-
factorial study of the leader behavior des- felder, A. (1998b). Matrizen-Test-Manual,
gart: Kohlhammer. Band 2. Ein Handbuch mit deutschen Nor-
criptions. In R. M. Stogdill & A. E. Coons
(Eds.), Leader behavior: Its description Hastie, R. & Rasinski, K. A. (1988). The men zu den Advanced Progressive Matri-
and measurement (pp. 39–51). Columbus, concept of accuracy in social judgment. ces von J. C. Raven. Göttingen: Beltz-
OH: Bureau of Business Research, Ohio In D. Bar-Tal & A. W. Kruglanski (Eds.), Test.
State University. The social psychology of knowledge (pp. Heller, K. A. & Perleth, C. (2000). Kogni-
193–208). New York: Cambridge Univer- tiver Fähigkeitstest für 4. bis 12. Klassen,
Hambleton, R. K., Swaminathan, H. & Ro- sity Press.
gers, H. J. (1991). Fundamentals of item Revision. (KFT 4–12+ R). Göttingen: Ho-
response theory. Newbury Park, CA: Sa- Hathaway, S. R. (1948). Some considerati- grefe.
ge. ons relative to nondirective counseling as Helmes, E. & Reddon, J. R. (1993). A
therapy. Journal of Clinical Psychology, 4, perspective on developments in assessing
Hampel, P. & Petermann, F. (2012). Scree-
226–231. psychopathology: A critical review of the
ning psychischer Störungen im Jugendal-
ter (SPS-J). (Dt. Adaptation des Reynolds Hathaway, S. R. & McKinley, J. C. (1943). MMPI and MMPI-2. Psychological Bulle-
Adolescent Adjustment Screening Invento- Manual for the Minnesota Multiphasic tin, 113, 453–471.
ry. RAASI) (2. Aufl.). Göttingen: Hogrefe. Personality Inventory. New York: Psycho- Helmke, A. & Kischkel, K.-H. (1980). Zur
Hampel, P., Petermann, F. & Dickow, logical Corporation. Wahrnehmung elterlichen Erziehungsver-
B. (2001). Streßverarbeitungsfragebogen Hathaway, S. R. & McKinley, J. C. (1989). haltens durch Eltern und ihre Kinder und
von Janke und Erdmann angepaßt für Kin- MMPI-2. Minneapolis, MN: University of dessen Erklärungswert für kindliche Per-
der und Jugendliche (SVF-KJ). Göttingen: Minnesota Press. sönlichkeitsmerkmale. In H. Lukesch, M.
Hogrefe. Perrez & K. A. Schneewind (Eds.), Famili-
Hathaway, S. R. & Meehl, P. E. (1951). äre Sozialisation und Intervention (pp. 81–
Hampel, R. & Selg, H. (1975). Fragebo- An atlas for the clinical use of the MMPI. 105). Bern: Huber.
gen zur Erfassung von Aggressivitätsfak- Minneapolis, MN: University of Minneso-
toren (FAF). Göttingen: Hogrefe. ta Press. Helmke, A. & Renkl, A. (1992). Das Mün-
chener Aufmerksamkeitsinventar (MAI):
Hamster, W., Langner, W. & Mayer, Hautzinger, M., Bailer, M., Hofmeister, D. Ein Instrument zur systematischen Verhal-
K. (1980). Tübinger Luria-Christensen & Keller, F. (2012). Allgemeine Depressi- tensbeobachtung der Schüleraufmerksam-
Neuropsychologische Untersuchungsreihe ons Skala (ADS) (2. Aufl.). Göttingen: Ho- keit im Unterricht. Diagnostica, 38, 130–
(TÜLUC). Weinheim: Beltz-Test. grefe. 141.
Hangarter, M., Schmitt, M. & Ebert, D. Hautzinger, M., Keller, F. & Kühner, C. Hemphill, J. K. (1950). Relations between
(2001). Aufmerksamkeits- und Gedächt- (2006). Beck-Depressions-Inventar (BDI- the size of the group and the behavior of
nisindikatoren zur Konstruktvalidierung II). Revision. Frankfurt a. M.: Harcourt. „superior“ leaders. Journal of Social Psy-
von sozial- und persönlichkeitspsychologi-
Haynes, S. G., Feinleib, M. & Kannel, W. chology, 32, 11–22.
schen Eigenschafts- und Zustandsmaßen
(Berichte aus der Arbeitsgruppe „Verant- B. (1980). The relationship of psychoso- Hemphill, J. K. (1956). Group dimensions:
wortung, Gerechtigkeit, Moral“ Nr. 142). cial factors to coronary heart disease in A manual for their measurement. Colum-
Trier: Universität Trier, Fachbereich I – the Framingham Study: III. Eight-year in- bus, OH: Bureau of Business Research,
Psychologie. cidence of coronary heart disease. Ameri- Ohio State University.
can Journal of Epidemiology, 11, 37–58.
Hanke, B., Mandl, H. & Prell, S. (1974). Henrich, G. & Herschbach, P. (1995).
Soziale Interaktion im Unterricht. Mün- Heatherton, T. F. & Vohs, K. D. (2000). In- Fragen zur Lebenszufriedenheit (FLZ) –
chen: Oldenbourg. terpersonal evaluations following threats ein Gewichtungsmodell. In R. Schwarz, J.

558
Literaturverzeichnis

Bernhard, H. Flechtner, T. Küchler & C. Hodapp, V. (1991). Das Prüfungsängst- Hogan, R. & Hogan, J. B. (1992). Hogan
Hürny (Eds.), Lebensqualität in der On- lichkeitsinventar TAI-G: Eine erweiterte Personality Inventory manual. Tulsa, OK:
kologie II (pp. 77–93). München: Zuck- und modifizierte Version mit vier Kompo- Hogan Assessment Systems.
schwerdt. nenten. Zeitschrift für Pädagogische Psy-
Holden, R. R. & Passey, J. (2010). Social-
Henrich, G. & Herschbach, P. (2000). chologie, 5, 121–130.
ly desirable responding in personality as-
Questions on Life Satisfaction (FLZM) – Hodapp, V. (1996). The TAI-G: A multidi- sessment: Not necessarily faking and not
A short questionnaire for assessing subjec- mensional approach to the assessment of necessarily substance. Personality and In-
tive quality of life. European Journal of test anxiety. In C. Schwarzer & M. Zeid- dividual Differences, 49(5), 446–450. doi:
Psychological Assessment, 16, 150–159. ner (Eds.), Stress, anxiety, and coping in 10.1016/j.paid.2010.04.015
Hermanns, N. & Kulzer, B. (1995). Die academic settings (pp. 95–130). Tübingen:
Holland, J. L. (1973). Making vocational
Messung von Wohlbefinden bei Dia- Francke.
choices: A theory of careers. Englewood
betikern: Evaluation des Wohlbefinden- Hodapp, V. & Benson, J. (1997). The mul- Cliffs, NJ: Prentice-Hall.
Fragebogens von Bradley. In C.-W. Kohl- tidimensionality of test anxiety: a test of
mann & B. Kulzer (Eds.), Diabetes und different models. Anxiety, Stress, and Co- Holling, H. & Melles, T. (2004). Ent-
Psychologie. Diagnostische Ansätze (pp. ping, 10, 219–244. scheidung und Nutzen. In H. Schu-
34–50). Bern: Huber. ler (Ed.), Enzyklopädie der Psychologie:
Hodapp, V., Glanzmann, P. & Laux, L. Wirtschafts-, Organisations- und Arbeits-
Hermans, H. J. M., Petermann, F. & Ziel- (1995). Theory and measurement of test
inski, W. (1978). Leistungsmotivationstest psychologie: Band 4. Organisationspsy-
anxiety as a situation-specific trait. In C. D. chologie – Gruppe und Organisation (pp.
(LMT). Amsterdam, NL: Swets & Zeitlin- Spielberger & P. R. Vagg (Eds.), Test an-
ger. 335–381). Göttingen: Hogrefe.
xiety: Theory, assessment, and treatment
Herrmann, T., Stapf, A. & Krohne, H. W. (pp. 47–58). Washington, DC: Taylor & Holling, H., Preckel, F. & Vock, M. (2004).
(1971). Die Marburger Skalen zur Erfas- Francis. Intelligenzdiagnostik. Göttingen: Hogrefe.
sung des elterlichen Erziehungsstils. Dia- Hodapp, V., Rohrmann, S. & Ringeisen, Holling, H. & Reiners, W. (1999). Mone-
gnostica, 17, 118–131. T. (2011). Prüfungsangstfragebogen PAF. tärer Nutzen verschiedener Selektionsstra-
Hersen, M. & van Hasselt, V. B. (Eds.). Göttingen: Hogrefe. tegien in Assessment Centern. In H. Hol-
(1998). Basic interviewing: A practical ling & G. Gediga (Eds.), Evaluationsfor-
Hoffman, P. J. (1960). The paramorphic re-
guide for counselors and clinicians. Mah- schung. Göttingen: Hogrefe.
presentation of clinical judgment. Psycho-
wah, NJ: Erlbaum.
logical Bulletin, 57, 116–131. Hollmann, H. (2013). Dokumentenanaly-
Herzberg, F., Mausner, B. & Snyderman, sen. In W. Sarges (Ed.), Management-
B. (1959). The motivation to work. New Hoffman, P. J. (1968). Cue-consistency
Diagnostik (4. Aufl., pp. 742–751). Göt-
York: Wiley. and configurality in human judgment. In
tingen: Hogrefe.
B. Kleinmuntz (Ed.), Formal representati-
Hessels, M. G. P. (2000). The learning po- on of human judgment (pp. 53–90). New Holmes, D. S. (1968). Dimensions of pro-
tential test for ethnic minorities: A tool York: Wiley. jection. Psychological Bulletin, 69, 248–
for standardized assessment of children in 268.
kindergarten and the first years of primary Hofmann, W., Friese, M., Müller, J. &
school. In C. S. Lidz & J. Elliott (Eds.), Strack, F. (2011). Zwei Seelen woh- Holmes, D. S. (1978). Projection as a de-
Dynamic assessment: Prevailing models nen, ach, in meiner Brust. Psychologische fense mechanism. Psychological Bulletin,
and applications. New York: Elsevier. Rundschau, 62, 147–166. 85, 677–688.
Hetzer, H. & Tent, L. (1971). Weilburger Hofmann, W., Gawronski, B., Gschwend- Holmes, T. H. & Rahe, R. H. (1967). The
Testaufgaben für Schulanfänger (WTA). ner, T., Le, H., & Schmitt, M. (2005). A Social Readjustment Rating Scale. Jour-
Weinheim: Beltz. meta-analysis on the correlation between nal of Psychosomatic Research, 11, 213–
Heubrock, D. & Petermann, F. (2001). Auf- the implicit association test and explicit 218.
merksamkeitsdiagnostik. Göttingen: Ho- self-report measures. Personality and So-
cial Psychology Bulletin, 31, 1369–1385. Holocher-Ertl, S., & Kubinger, K. D.
grefe. (2009). Hochbegabungsdiagnostik: Das
Heymans, G. & Wiersma, E. (1906). Hofstede, G. (1998). Attitudes, values Wiener Diagnosemodell zum Hochleis-
Beiträge zur speziellen Psychologie auf and organizational culture: Desentangling tungspotenzial. Report Psychologie, 34,
Grund einer Massenuntersuchung. Zeit- the concepts. Organizational Studies, 19, 116–126.
schrift für Psychologie, 42, 81–127. 477–493.
Holt, R. R. (1958). Clinical and statistical
Hock, M. (1992). Exchange of aversive Höft, S. & Funke, U. (2006). Simulations- prediction: a reformulation and some new
communicative acts between mother and orientierte Verfahren der Personalauswahl. data. Journal of Abnormal and Social Psy-
child as related to perceived child-rearing In H. Schuler (Ed.), Lehrbuch der Per- chology, 56, 1–12.
practices and anxiety of the child. In K. A. sonalpsychologie (2. Aufl., pp. 145–188).
Hagtvet (Ed.), Advances in test anxiety re- Göttingen: Hogrefe. Holtzman, W. H., Thorpe, J. S., Swartz, J.
search (Vol. 7, pp. 156–174). Lisse, The D. & Herron, E. W. (1961). Inkblot per-
Hogan, J. B. (1994). Empirical keying of
Netherlands: Swets and Zeitlinger. ception and personality: Holtzman Inkblot
background data measures. In G. S. Sto-
Technique. Austin, TX: University of Te-
Hock, M. & Krohne, H. W. (1987). Inter- kes, M. D. Mumford & W. A. Owens
xas Press.
aktionszustände von Mutter und Kind bei (Eds.), Biodata handbook: Theory, rese-
einer Problemlöseaufgabe als Indikatoren arch, and use of biographical information Holzkamp, K. (1965). Zur Geschichte und
mütterlicher Erziehungsstile. Psychologi- in selection and performance prediction Systematik der Ausdruckstheorien. In R.
sche Beiträge, 29, 315–348. (pp. 69–107). Palo Alto, CA: Consulting Kirchhoff (Ed.), Handbuch der Psycholo-
Psychologists. gie: Band 5. Ausdruckspsychologie (pp.
Hock, M. & Krohne, H. W. (1989). Müt-
39–113). Göttingen: Hogrefe.
terliches Erziehungsverhalten während ei- Hogan, R., Curphy, G. J. & Hogan, J. B.
ner Hausaufgabenanfertigung und Ängst- (1994). What we know about leadership: Holzman, P. S. (1966). Scanning: a princi-
lichkeit beim Kind. Zeitschrift für Pädago- Effectiveness and personality. American ple of reality contact. Perceptual and Mo-
gische Psychologie, 3, 169–180. Psychologist, 49, 493–504. tor Skills, 23, 835–844.

559
Literaturverzeichnis

Holzman, P. S. & Gardner, R. W. (1959). Hornke, L. F., Küppers, A. & Etzel, S. new alternatives. Structural Equation Mo-
Leveling and repression. Journal of Abnor- (2000). Konstruktion und Evaluation eines deling, 6(1), 1–55.
mal and Social Psychology, 59, 151–155. adaptiven Matrizentests. Diagnostica, 46, Huarte, J. (1968). Prüfung der Köpfe zu
Holzman, P. S. & Klein, G. S. (1956). In- 182–188. den Wissenschaften. München: Fink (Erst-
tersensory and visual field forces in size Horowitz, R. & Murphy, L. B. (1938). Pro- veröffentlichung 1575).
estimation. Perceptual and Motor Skills, 6, jective methods in the psychological study Huffcutt, A. I. & Arthur, W. (1994). Hun-
37–41. of children. Journal of Experimental Edu- ter and Hunter (1994) revisited: Interview
Hörmann, H. (1960). Konflikt und Ent- cation, 7, 133–140. validity for entry level jobs. Journal of Ap-
scheidung. Experimentelle Untersuchun- Hossiep, R. & Krüger, C. (2012). Bochu- plied Psychology, 79, 184–190.
gen über das Interferenzphänomen. Göt- mer Inventar zur berufsbezogenen Persön- Huffcutt, A. I., Conway, J. M., Roth, P. L.
tingen: Hogrefe. lichkeitsbeschreibung – 6 Faktoren (BIP- & Klehe, U.-C. (2004). The impact of job
Hörmann, H. (1964). Aussagemöglichkei- 6F). Göttingen: Hogrefe. complexity and study design on situatio-
ten psychologischer Diagnostik. Göttin- Hossiep, R. & Paschen, M. (2003). Bo- nal and behavior description interview va-
gen: Hogrefe. chumer Inventar zur berufsbezogenen Per- lidity. International Journal of Selection
Hörmann, H. (1982). Theoretische Grund- sönlichkeitsbeschreibung (BIP) (2. Aufl.). and Assessment, 12, 262–273.
lagen der projektiven Verfahren. In K.- Göttingen: Hogrefe. Huffcutt, A. I. & Culbertson, S. S. (2011).
J. Groffmann & L. Michel (Eds.), Enzy- Hossiep, R. & Schulte, M. (2007). BOWIT. Interviews. In S. Zedeck (Ed.), APA Hand-
klopädie der Psychologie: Psychologische Bochumer Wissenstest. Göttingen: Hogre- book of industrial and organizational psy-
Diagnostik: Band 1. Grundlagen psycho- fe. chology: Vol. 2. Selecting and developing
logischer Diagnostik (pp. 173–247). Göt- members for the organization (pp. 185–
tingen: Hogrefe. Hossiep, R. & Schulte, M. (2013).
Wissenstests. In W. Sarges (Ed.), 203). Washington, DC: American Psycho-
Hörmann, H. (Org.). (1967). Die Bezie- Management-Diagnostik (4. Aufl., pp. logical Association.
hungen zwischen psychologischer Dia- 628–636). Göttingen: Hogrefe. Hull, C. L. (1928). Aptitude testing. Yon-
gnostik und Grundlagenforschung. In F. kers, NY: World Book.
Merz (Ed.), Bericht über den 25. Kongreß Hough, L. M. (1992). The „Big Five“ per-
der Deutschen Gesellschaft für Psycholo- sonality variables-construct confusion: de- Humm, D. G. & Wadsworth, G. W.
gie in Münster 1966 (pp. 101–131). Göt- scription versus prediction. Human Perfor- (1935). The Humm-Wadsworth Tempera-
tingen: Hogrefe. mance, 5, 139–155. ment Scale. American Journal of Psychia-
try, 92, 163–200.
Horn, J. L. (1994). Theory of fluid and Hough, L. M. & Oswald, F. L. (2000). Per-
crystallized intelligence. In R. J. Sternberg sonnel selection: Looking toward the fu- Hunt, S. T. (1996). Generic work behavi-
(Ed.), Encyclopedia of human intelligence ture – Remembering the past. Annual Re- or: an investigation into the dimensions of
(pp. 443–451). New York: MacMillan. view of Psychology, 51, 631–664. entry-level, hourly job performance. Per-
sonnel Psychology, 49, 51–83.
Horn, J. L. & Cattell, R. B. (1966). Refi- Hough, L. M. & Paullin, C. (1994).
nement and test of the theory of fluid and Construct-oriented scale constuction: The Hunter, J. E. (1983). A causal analysis
crystallized general intelligences. Journal rational approach. In G. S. Stokes, M. D. of cognitive ability, job knowledge, job
of Educational Psychology, 57, 253–270. Mumford & W. A. Owens (Eds.), Bioda- performance, and supervisor ratings. In F.
ta handbook: Theory, research, and use of Landy, S. Zedeck & J. Cleveland (Eds.),
Horn, R. (Ed.). (2009). Standard Progres-
biographical information in selection and Performance measurement and theory (pp.
sive Matrices (SPM). Deutsche Bearbei-
performance prediction (pp. 109–145). Pa- 257–266). Hillsdale, NJ: Erlbaum.
tung und Normierung nach J. C. Raven. (2.
Aufl.). Frankfurt: Pearson Assessment. lo Alto, CA: Consulting Psychologists. Hunter, J. E. & Hunter, R. F. (1984). Va-
Hough, L. M. & Schneider, R. J. (1996). lidity and utility of alternative predictors
Horn, W. (1983). Leistungsprüfsystem
Personality traits, taxonomies, and appli- of job performance. Psychological Bulle-
(LPS). Göttingen: Hogrefe.
cations in organizations. In K. R. Murphy tin, 96, 72–98.
Horn, W., Lukesch, H., Kormann, A. (Ed.), Individual differences and behavior
& Mayrhofer, S. (2002). Prüfsystem für Hyatt, D. E. & Ruddy, T. M. (1997). An
in organizations (pp. 31–88). San Francis- examination of the relationship between
Schul- und Bildungsberatung für 4. bis 6. co, CA: Jossey-Bass.
Klassen – revidierte Fassung (PSB-R 4–6). work group characteristics and performan-
Göttingen: Hogrefe. House, R. J. (1971). A path goal theo- ce: Once more into the breech. Personnel
ry of leader effectiveness. Administrative Psychology, 50, 553–585.
Horn, W., Lukesch, H., Mayrhofer, S. Science Quarterly, 16, 321–338.
& Kormann, A. (2003). Prüfsystem für Hylla, E. (1927). Testprüfungen der Intel-
Schul- und Bildungsberatung für 6. bis 13. House, R. J. (1977). A 1976 theory of ligenz. Braunschweig: Westermann.
Klassen – revidierte Fassung (PSB-R 6– charismatic leadership. In J. G. Hunt & Hylla, E. & Kraak, B. (1976). Aufgaben
13). Göttingen: Hogrefe. L. L. Larson (Eds.), Leadership: The cut- zum Nachdenken (AzN 4+). Weinheim:
ting edge (pp. 189–207). Carbondale, IL: Beltz.
Hornke, L. F. (1976). Grundlagen und
Southern Illinois University Press.
Probleme antwortabhängiger Testverfah-
ren. Frankfurt a. M.: Haag und Herchen. Howarth, E. (1972). A factor analysis of
selected markers for objective personality I
Hornke, L. F. (1977). Antwortabhängige
factors. Multivariate Behavioral Research, Ilgen, D. R., Hollenbeck, J. R., Johnson,
Testverfahren: Ein neuartiger Ansatz psy-
7, 451–476. M. & Jundt, D. (2005). Teams in organiza-
chologischen Testens. Diagnostica, 23, 1–
14. Hoyer, J., Helbig, S. & Margraf, J. (2005). tions: From input-process-output models
Hornke, L. F. & Habon, M. (1984). Erfah- Diagnostik der Angststörungen. Göttin- to IMOI models. Annual Review of Psy-
rungen zur rationalen Konstruktion von gen: Hogrefe. chology, 56, 517–543.
Testaufgaben. Zeitschrift für Differentiel- Hu, L., & Bentler, P. M. (1999). Cutoff Ingenkamp, K. (1997). Lehrbuch der Päd-
le und Diagnostische Psychologie, 5, 203– criteria for fit indexes in covariance struc- agogischen Diagnostik (4. Aufl.). Wein-
212. ture analysis: Conventional criteria versus heim: Beltz.

560
Literaturverzeichnis

Ingenkamp, K. & Lissmann, U. (2008). Screening zur Früherkennung von Lese- Judge, T. A., Heller, D. & Mount, M.
Lehrbuch der Pädagogischen Diagnostik Rechtschreibschwierigkeiten (BISC) (2. K. (2002). Five-factor model of persona-
(6. Aufl.). Weinheim: Beltz. Aufl.). Göttingen: Hogrefe lity and job satisfaction: A meta-analysis.
Janz, T., Hellervik, L. & Gilmore, D. C. Journal of Applied Psychology, 87, 530–
Irle, M. & Allehoff, W. (1984). Berufs-
(1986). Behavior Description Interview- 541.
Interessen-Test II (BIT II). Göttingen: Ho-
grefe. ing. Newton, MA: Allyn & Bacon. Judge, T. A., Higgins, C. A., Thoresen, C.
Jenkins, C. D., Zyzanski, S. J. & Rosen- J. & Barrick, M. R. (1999). The Big Fi-
Isen, A. M. & Baron, R. A. (1991). Posi-
man, R. H. (1979). Jenkins Activity Survey. ve personality traits, general mental abili-
tive affect as a factor in organizational be-
New York: Psychological Corporation. ty, and career success across the life span.
havior. In B. M. Staw & L. L. Cummings
Jensen, A. R. & Rohwer, W. D. (1966). Personnel Psychology, 52, 621–652.
(Eds.), Research in organizational beha-
vior (Vol. 13, pp. 1–53). Greenwich, CT: The Stroop Color-Word Test: a review. Ac- Judge, T. A. & Piccolo, R. F. (2004).
JAI Press. ta Psychologica, 25, 36–93. Transformational and transactional leader-
Jerusalem, M. & Kohlmann, C.-W. (2011). ship: A meta-analytic test of their relati-
Izard, C. E. (1991). The psychology of ve validity. Journal of Applied Psychology,
emotions. New York: Plenum. Gesundheitspsychologische Diagnostik.
In L. F. Hornke, M. Amelang & M. Kers- 89, 755–768.
ting (Eds.), Enzyklopädie der Psycholo- Judge, T. A., Piccolo, R. F. & Ilies, R.
J gie: Psychologische Diagnostik: Band 1.
Grundfragen und Anwendungsfelder psy-
(2004). The forgotten ones? The validi-
ty of consideration and initiating structure
Jackson, D. N. (1967). Manual for the Per- chologischer Diagnostik (pp. 479–616). in leadership research. Journal of Applied
sonality Research Form. London, Canada: Göttingen: Hogrefe. Psychology, 89, 36–51.
University of Western Ontario. John, O. P. & Robins, R. W. (1993). De- Judge, T. A., Piccolo, R. F. & Kosalka, T.
Jackson, S. E. (1996). The consequences terminants of interjudge agreement on per- (2009). The bright and dark sides of leader
of diversity in multidisciplinary work sonality traits: The Big Five domains, ob- traits: A review and theoretical extension
teams. In M. A. West (Ed.), Handbook of servability, evaluativeness, and the unique of the leader trait paradigm. The Leader-
work group psychology (pp. 53–76). Chi- perspective of the self. Journal of Persona- ship Quarterly, 20, 855–875.
chester, UK: Wiley. lity, 61, 521–551.
Jung, C. G. (1910). The association me-
Jolly, J. B., Dyck, M. J., Kramer, T. A. &
Jacobi, C., Thiel, A. & Paul, T. (1995). thod. American Journal of Psychology, 31,
Wherry, J. N. (1994). Integration of po-
Kognitive Verhaltenstherapie bei Anorexia 219–269.
sitive and negative affectivity and cogni-
und Bulimia nervosa. Weinheim: Psycho- Jung, C. G. (1919). Studies in word asso-
tive content-specificity: Improved discri-
logie Verlags Union. ciation. New York: Moffat.
mination of anxious and depressive sym-
Jäger, A. O. (1986). Validität von Intelli- ptoms. Journal of Abnormal Psychology, Jung, C. G. (1921). Psychologische Typen.
genztests. Diagnostica, 32, 272–289. 103, 544–552. Zürich: Rascher.
Jäger, A. O. (1986). Zwischenbilanz und Jones, E. E. (1990). Interpersonal percep-
Jungermann, H., Pfister, H. R. & Fischer,
Perspektiven der Intelligenzdiagnostik – tion. New York: Freeman.
K. (2005). Die Psychologie der Entschei-
ein Vorwort. Diagnostica, 32, 269–271. Jones, E. E. & Davis, K. E. (1965). From dung. München: Elsevier, Spektrum.
acts to dispositions: The attribution pro-
Jäger, A. O. & Althoff, K. (1994). Wilde-
cess in person perception. In L. Berko-
Intelligenz-Test (WIT) (2. rev. Aufl.). Göt-
witz (Ed.), Advances in experimental soci- K
tingen: Hogrefe.
al psychology (Vol. 2, pp. 219–266). New
Jäger, A. O., Holling, H., Preckel, York: Academic Press. Kagan, J. (1965). Impulsive and reflective
F., Schulze, R., Vock, M., Süß, H.- Jones, E. E. & Nisbett, R. E. (1971). The children: Significance of conceptual tem-
M. & Beauducel, A. (2006). Berliner actor and the observer: Divergent percep- po. In J. Krumboltz (Ed.), Learning and
Intelligenzstruktur-Test für Jugendliche: tions of the causes of behavior. In E. E. the educational process (pp. 133–161).
Begabungs- und Hochbegabungsdiagnos- Jones et al. (Eds.), Attribution: Perceiving Chicago: Rand McNally.
tik (BIS-HB. Göttingen: Hogrefe. the causes of behavior (pp. 79–94). Morri- Kagan, J., Moss, H. A. & Sigel, I. E.
Jäger, A. O., Süß, H.-M. & Beauducel, A. ston, NJ: General Learning Press. (1963). Psychological significance of sty-
(1997). Berliner Intelligenzstruktur-Test Jones, L. K. (1980). Holland’s typology les of conceptualization. In J. C. Wright
(BIS-Test. Form 4). Göttingen: Hogrefe. and the new guide for occupational explo- & J. Kagan (Eds.), Basic cognitive process
James, L. A. & James, L. R. (1989). In- ration: Bridging the gap. Vocational Gui- in children. Monographs of the Society for
tegrating work environment perceptions: dance Quarterly, 29, 70–76. Research in Child Development, 28 (2, Se-
Explorations into the measurement of Jöns, I. (1995). Entwicklung der Beurtei- rial No. 86).
meaning. Journal of Applied Psychology, lungsinstrumente. In K. Hofmann, R. Köh- Kagan, J., Rosman, B. L., Day, D., Albert,
74, 739–751. ler & V. Steinhoff (Eds.), Vorgesetztenbe- J. & Phillips, W. (1964). Information pro-
urteilung in der Praxis (pp. 37–55). Wein- cessing in the child: Significance of analy-
Janke, W. & Debus, G. (1978). Die Eigen- heim: Psychologie Verlags Union. tic and reflective attitudes. Psychological
schaftswörterliste (EWL-K) – Ein Verfah-
Josephson, B. R., Singer, J. A. & Salovey, Monographs, 78 (1, Whole No. 578).
ren zur Erfassung der Befindlichkeit. Göt-
tingen: Hogrefe. P. (1996). Mood modulation and memory: Kalbermatten, U. (1984). Selbstkonfron-
Repairing sad moods with happy memo- tation. Eine Methode zur Erhebung ko-
Janke, W., Erdmann, G. & Kallus, W. ries. Cognition and Emotion, 10, 437–444. gnitiver Handlungsrepräsentationen. In H.
(2002). Streßverarbeitungsfragebogen mit
Judge, T. A., Bono, J. E., Ilies, R. & Ger- Lenk (Ed.), Handlungstheorien interdis-
SVF 120 und SVF 78 (3. Aufl.). Göttingen:
hard, M. W. (2002). Personality and lea- ziplinär: Band 3, 2. Halbband. Verhal-
Hogrefe.
dership: A qualitative and quantitative re- tenswissenschaftliche und psychologische
Jansen, H., Mannhaupt, G., Marx, H. view. Journal of Applied Psychology, 87, Handlungstheorien (pp. 659–679). Mün-
& Skowronek, H. (2002). Bielefelder 765–780. chen: Fink.

561
Literaturverzeichnis

Kaminski, G. (1970). Verhaltenstheo- Kautter, H. (1978). Der Übergang zu Son- Kersting, M. (Ed.). (2008). Qualität in der
rie und Verhaltensmodifikation. Stuttgart: derschulen. In K. J. Klauer, Handbuch der Diagnostik und Personalauswahl – der
Klett. Pädagogischen Diagnostik (Band 4, pp. DIN-Ansatz. Göttingen: Hogrefe.
Kaminski, G. (1976). Rahmentheoretische 977–988). Düsseldorf: Schwann. Keßler, B. H. (1982). Biographische Dia-
Überlegungen zur Taxonomie psychodia- Keith, N., Hodapp, V., Schermelleh-Engel, gnostik. In K.-J. Groffmann & L. Mi-
gnostischer Prozesse. In K. Pawlik (Ed.), K. & Moosbrugger, H. (2003). Cross- chel (Eds.), Enzyklopädie der Psycholo-
Diagnose der Diagnostik (pp. 45–70). sectional and longitudinal confirmatory gie: Psychologische Diagnostik: Band 3.
Stuttgart: Klett. factor models for the German Test Anxie- Persönlichkeitsdiagnostik (pp. 1–56). Göt-
ty Inventory: a construct validation. Anxie- tingen: Hogrefe.
Kaminski, G. (1981). Überlegungen zur
Funktion von Handlungstheorien in der ty, Stress, and Coping, 16, 251–270. Keßler, M. (1988). Fragebogen zur Kau-
Psychologie. In H. Lenk (Ed.), Hand- Kelava, A. & Schermelleh-Engel, K. salattribuierung in Leistungssituationen
lungstheorien interdisziplinär: Band 3, (2008). Latent-State-Trait-Theorie (LST- (FKL). Weinheim: Beltz.
1. Halbband. Verhaltenswissenschaftliche Theorie). In H. Moosbrugger & A. Ke- Kieser, A. & Kubicek, H. (1992). Organi-
und psychologische Handlungstheorien lava (Eds.), Testtheorie und Fragebogen- sation (3. Aufl.). Berlin: deGruyter.
(pp. 93–121). München: Fink. konstruktion (pp. 343–360). Heidelberg: Kindt, M., Bierman, D. & Brosschot, J. F.
Kaminski, G. (1988). Ökologische Per- Springer. (1996). Stroop versus stroop: Comparison
spektiven in psychologischer Diagnostik? Kelbetz, G. & Schuler, H. (2002). Verbes- of a card format and a single-trial format
Zeitschrift für Differentielle und Diagnos- sert Vorerfahrung die Leistung im Assess- of the standard color-word stroop task and
tische Psychologie, 9, 155–168. ment Center? Zeitschrift für Personalpsy- the emotional stroop task. Personality and
Kammermeyer, G. (2010). Schulreife und chologie, 1, 4–18. Individual Differences, 21, 653–661.
Schulfähigkeit. In D. H. Rost (Ed.), Keller, G. & Thiel, R.-D. (1998). Lern- King, A. C., Taylor, C. B., Albright, C. A.
Handwörterbuch Pädagogische Psycholo- und Arbeitsverhaltensinventar (LAVI). & Haskell, W. L. (1990). The relationship
gie (4. Aufl., pp. 718–728). Weinheim: Göttingen: Hogrefe. between repressive and defensive coping
Beltz PVU. styles and blood pressure responses in he-
Kemper, C. J., Lutz, J., Bähr, T., Rüddel,
Kanfer, R. & Ackerman, P. L. (1989). althy, middle-aged men and women. Jour-
H. & Hock, M. (2012). Construct validity
Motivation and cognitive abilities: An nal of Psychosomatic Research, 34, 461–
of the Anxiety Sensitivity Index-3 in clini-
integrative/aptitude-treatment interaction 471.
cal samples. Assessment, 19(1), 89–100.
approach to skill acquisition. Journal of Kinze, W., Barchmann, H. & Ettrich,
Kemper, C. J., Ziegler, M. & Tay-
Applied Psychology Monograph, 74 (4), K.-U. (1985). Möglichkeiten der Thera-
lor, S. (2009). Überprüfung der
657–690. pie von Konzentrationsstörungen im Kin-
psychometrischen Qualität des
desalter. Psychologie in Erziehung und
Kant, I. (1963). Metaphysische Anfangs- Angstsensitivitätsindex-3. Diagnostika,
Unterricht, 32, 14–20.
gründe der Naturwissenschaft. In W. Wei- 55, 223–233.
schedel (Ed.), Immanuel Kant Werke in Kiresuk, T. J., Lund, S. H. & Larsen, N. E.
Kendler, K. S., Neale, M. C. & Walsh, D. (1982). Measurement of goal attainment
sechs Bänden: Band V. Kritik der Ur-
(1995). Evaluating the spectrum concept in clinical and health care programs. Drug
teilskraft und Schriften zur Naturphilo-
of schizophrenia in the Roscommon Fami- Intelligence and Clinical Pharmacy, 16,
sophie (pp. 7–135). Darmstadt: Wissen-
ly Study. American Journal of Psychiatry, 145–153.
schaftliche Buchgesellschaft. (Erstveröf-
152, 749–754.
fentlichung 1786) Kirk, S. A. & Kutchins, H. (1992). The
Kenny, D. A. (1991). A general model selling of DSM: The rhetoric of science
Kanter, G. O. & Scharff, G. (2005).
of consensus and accuracy in interperso- in psychiatry. Hawthorne, NY: Aldine-de
Lernbehinderung. Elektronisches Do-
nal perception. Psychological Review, 98, Gruyter.
kument, verfügbar unter http://www.
155–163.
ausbildungberufchancen.de/handbuch/ Kirk, S. A. & Kutchins, H. (1994). The
vollversionen/lernbehinderung Kenny, D. A. (1993). A coming-of-age for myth of the reliability of DSM. Mind and
research on interpersonal perception. Jour- Behavior, 15, 71–86.
Karoly, P. & Ruehlman, L. S. (1995). Goal
nal of Personality, 61, 789–807.
cognition and its clinical implications: De- Klages, U. (1989). Fragebogen irrationa-
velopment and preliminary validation of Kenny, D. A. (2004). PERSON: A gene- ler Einstellungen (FIE). Göttingen: Hogre-
four motivational assessment instruments. ral model of interpersonal perception. Per- fe.
Assessment, 2, 113–129. sonality and Social Psychology Review, 8, Klauer, K. J. (1987). Kriteriumsorientierte
265–280. Tests. Göttingen: Hogrefe.
Kastner-Koller, U. & Deimann, P. (2012).
Wiener Entwicklungstest (WET). Ein Ver- Kenny, D. A. & Albright, L. (1987). Accu- Klauer, T. & Filipp, S.-H. (1993). Trierer
fahren zur Erfassung des allgemeinen Ent- racy in interpersonal perception: A social Skalen zur Krankheitsbewältigung (TSK).
wicklungsstandes bei Kindern von 3 bis 6 relations analysis. Psychological Bulletin, Göttingen: Hogrefe.
Jahren (3. Aufl.). Göttingen: Hogrefe. 102, 390–402.
Klauer, T., Filipp, S.-H. & Ferring, D.
Katz, H. E., Russ, S. W. & Overholser, J. Kern, A. (1951). Sitzenbleiberelend und (1989). Der „Fragebogen zur Erfassung
C. (1993). Sex differences, sex roles, and Schulreife. Freiburg: Herder. von Formen der Krankheitsbewältigung“
projection on the TAT: Matching stimulus Kersting, M. (2000). Rezension des (FEKB): Skalenkonstruktion und erste Be-
to examinee gender. Journal of Personali- „Intelligenz-Struktur-Test 2000“ von R. funde zu Reliabilität, Validität und Stabili-
ty Assessment, 60, 186–191. Amthauer, B. Brocke, D. Liepmann und A. tät. Diagnostica, 35, 316–335.
Kauffeld, S. (2004). Fragebogen zur Ar- Beauducel. Zeitschrift für Arbeits- und Or- Kleinknecht, R. A., Klepac, R. K. & Alex-
beit im Team (FAT). Göttingen: Hogrefe. ganisationspsychologie, 44, 96–101. ander, L. D. (1973). Origins and characte-
Kaufman, A. S. (2000). Tests of intelli- Kersting, M. (2006). Zur Beurteilung der ristics of dental fear. Journal of the Ameri-
gence. In R. J. Sternberg (Ed.), Handbook Qualität von Tests: Resümee und Neube- can Dental Association, 86, 842–848.
of intelligence (pp. 445–476). New York: ginn. Psychologische Rundschau, 57, 243– Kleinmann, M. (2013). Assessment-
Cambridge University Press. 253. Center (2. Aufl.). Göttingen: Hogrefe.

562
Literaturverzeichnis

Kleinmann, M. & Strauß, B. (1998). Kohlmann, C.-W. & Lißmann, I. (2003). Krathwohl, D. R. (2002). A revision of
Validity and application of computer- Well-Being Questionnaire (W-BQ): Frage- Bloom’s taxonomy: An overview. Theory
simulated scenarios in personnel assess- bogen zum Wohlbefinden von Diabetespa- Into Practice, 41(4), 212–218.
ment. International Journal of Selection tienten. In J. Schumacher, A. Klaiberg &
and Assessment, 6, 97–106. E. Brähler (Eds.), Diagnostische Verfah- Krieger, W. (1997). CEPAR: Ein com-
ren zu Lebensqualität und Wohlbefinden putergestütztes Verfahren zur Exploration
Klepsch, R., Zaworka, W., Hand, I., Lü- (pp. 319–323). Göttingen: Hogrefe. psychosozialer Anforderungen und Res-
nenschloß, K. & Jauernig, G. (1993). sourcen. Frankfurt a. M.: Swets Test.
Hamburger Zwangsinventar – Kurzform Kohlmann, C.-W., Weidner, G. & Messi-
(HZI-K). Weinheim: Beltz-Test. na, C. (1996). Avoidant coping style and Krohne, H. W. (1973). Psychologischer
verbal-cardiovascular response dissociati- Stress, Angstkontrolle und Differenziert-
Kliegl, R. & Baltes, P. B. (1987). on. Psychology and Health, 11, 371–384. heit der Personwahrnehmung. Zeitschrift
Theory-guided analysis of development für Sozialpsychologie, 4, 87–102.
and aging mechanisms through testing- Köhnken, G. (1990). Glaubwürdigkeit:
the-limits and research on expertise. In C. Untersuchungen zu einem psychologi- Krohne, H. W. (1985a). Entwicklungsbe-
Schooler & K. W. Schaie (Eds.), Cogniti- schen Konstrukt. München: Psychologie dingungen von Ängstlichkeit und Angst-
ve functioning and social structures over Verlags Union. bewältigung: Ein Zweiprozeß-Modell el-
the life course (pp. 95–119). Westport, CT: terlicher Erziehungswirkung. In H. W.
Konstabel, K., Aavik, T. & Allik, J. (2006). Krohne (Ed.), Angstbewältigung in Leis-
Ablex. Social desirability and consensual validity tungssituationen (pp. 135–160). Wein-
Klopfer, B. (1940). Personality aspects of personality traits. European Journal of heim: edition psychologie.
revealed by the Rorschach method. Ror- Personality, 20(7), 549–566.
schach Research Exchange, 4, 26–29. Krohne, H. W. (1985b). Kognitive Sti-
Kormann, A. (1982). Möglichkeiten von
le. In T. Herrmann & E.-D. Lanter-
Klüber, A., Terlinden-Arzt, P. & Westhoff, Lerntests für Diagnose und Optimierung
mann (Eds.), Persönlichkeitspsychologie.
K. (2010). Psychologisches Gutachten für von Lernprozessen. In K. Ingenkamp, R.
Ein Handbuch in Schlüsselbegriffen (pp.
das Familiengericht – Die Kinder Ludmil- Horn & R. S. Jäger (Eds.), Tests und
338–347). München: Urban & Schwarzen-
la, 13 Jahre, Katerina, 11 Jahre und Mitja, Trends 1982. Jahrbuch der pädagogischen
berg.
6 Jahrte. In K. D. Kubinger & T. Ortner Diagnostik (Band 2, pp. 97–118). Wein-
(Eds.), Psychologische Diagnostik in Fall- heim: Beltz. Krohne, H. W. (1990). Personality as a
beispielen (pp. 192–219). Göttingen: Ho- Kornadt, H.-J. (1982). Aggressionsmotiv mediator between objective events and
grefe. und Aggressionshemmung: Bd. 1. Empi- their subjective representation. Psycholo-
rische und theoretische Untersuchungen gical Inquiry, 1, 26–29.
Kobasa, S. C. (1979). Stressful life events,
zu einer Motivationstheorie der Aggres- Krohne, H. W. (2003). Individual diffe-
personality, and health: An inquiry into
sion und zur Konstruktvalidierung eines rences in emotional reactions and coping.
hardiness. Journal of Personality and So-
Aggressions-TAT. Bern: Huber. In R. J. Davidson, H. H. Goldsmith & K.
cial Psychology, 37, 1–11.
Kraepelin, E. (1896). Der psychologische R. Scherer (Eds.), Handbook of affective
Kogan, N. (1973). Creativity and cogni- sciences (pp. 698–725). New York: Ox-
Versuch in der Psychiatrie. In E. Kraepe-
tive style: A life-span perspective. In P. ford University Press.
lin (Ed.), Psychologische Arbeiten (Band
B. Baltes & K. W. Schaie (Eds.), Life-
1, pp. 1–91). Leipzig: Engelmann. Krohne, H. W. (2010). Psychologie der
span developmental psychology: Persona-
lity and socialization (pp. 145–178). New Kraepelin, E. (1899). Psychiatrie. Ein Angst. Ein Lehrbuch. Stuttgart: Kohlham-
York: Academic Press. Lehrbuch für Studierende und Ärzte (6. mer.
Aufl., 2 Bände). Leipzig: Barth.
Kohlmann, C.-W. (1997). Persönlichkeit Krohne, H. W. (2013). Führungsstile und
und Emotionsregulation: Defensive Be- Kraepelin, E. (1909). Psychiatrie. Ein Führungsverhalten. In W. Sarges (Ed.),
wältigung von Angst und Streß. Bern: Hu- Lehrbuch für Studierende und Ärzte: I. Management-Diagnostik (4. Aufl., pp.
ber. Band. Allgemeine Psychiatrie (8. Aufl.). 419–427). Göttingen: Hogrefe.
Leipzig: Barth.
Kohlmann, C.-W. (2003). Gesundheitsre- Krohne, H. W. & Egloff, B. (1999). Das
levante Persönlichkeitsmerkmale. In M. Krampen, G. (1981). IPC-Fragebogen Angstbewältigungs-Inventar (ABI). Frank-
Jerusalem & H. Weber (Eds.), Psycholo- zu Kontrollüberzeugungen. Göttingen: Ho- furt a. M.: Swets Test.
gische Gesundheitsförderung. Diagnostik grefe.
Krohne, H. W., Egloff, B., Kohlmann, C.-
und Prävention (pp. 39–55). Göttingen: Krampen, G. (1991). Fragebogen zu W. & Tausch, A. (1996). Untersuchungen
Hogrefe. Kompetenz- und Kontrollüberzeugungen mit einer deutschen Version der „Positive
Kohlmann, C.-W. et al. (1991). Der „IPC- (FKK). Göttingen: Hogrefe. and Negative Affect Schedule“ (PANAS).
Diabetes-Fragebogen“: Ein Instrument Krampen, G. (2005). Psychology of con- Diagnostica, 42, 139–156.
zur Erfassung krankheitsspezifischer Kon- trol and personality. In W. Greve, K. Ro- Krohne, H. W. & Hock, M. (1994). Elter-
trollüberzeugungen bei Typ-I-Diabetikern. thermund und D. Wentura (Eds.), The ad- liche Erziehung und Angstentwicklung des
Diagnostica, 37, 252–270. aptive self: Personal continuity and in- Kindes. Untersuchungen über die Entwick-
Kohlmann, C.-W. & Kulzer, B. (Eds.). tentional self-development (pp. 97–115). lungsbedingungen von Ängstlichkeit und
(1995). Diabetes und Psychologie. Dia- Cambridge, MA: Hogrefe & Huber. Angstbewältigung. Bern: Huber.
gnostische Ansätze. Bern: Huber. Krampen, G. (Ed.). (1989). Diagnostik
Krohne, H. W. & Hock, M. (2008). Vi-
von Attributionen und Kontrollüberzeu-
Kohlmann, C.-W., Küstner, E., Schuler, M. gilante und kognitiv vermeidende Stress-
gungen. Göttingen: Hogrefe.
& Tausch, A. (1994). Der IPC-Diabetes- bewältigung. In M. Schmitt-Daffy, G. De-
Fragebogen (IPC-D1): Ein Inventar zur Krampen, G. & von Delius, A. (1981). bus, & W. Janke (Eds.), Experimentelle
Erfassung krankheitsspezifischer Kontroll- Zur direkten Messung subjektiv erlebter Emotionspsychologie: Methodische Ansät-
überzeugungen bei Typ-I-Diabetes melli- gesundheitlicher Veränderungen. Medizi- ze, Probleme und Ergebnisse (pp. 809–
tus. Bern: Huber. nische Psychologie, 7, 166–174. 819). Lengerich: Pabst.

563
Literaturverzeichnis

Krohne, H. W. & Hock, M. (2011). An- DD, general manual. Monterey, CA: Ca- Enzyklopädie der Psychologie: Differen-
xiety, coping strategies, and the proces- lifornia Test Bureau. tielle Psychologie und Persönlichkeitsfor-
sing of threatening information: Investi- schung: Band 3. Temperaments- und Per-
Kühlmann, T. M. & Franke, J. (1989). Or-
gations with cognitive-experimental para- sönlichkeitsunterschiede (pp. 107–151).
ganisationsdiagnose. In E. Roth (Ed.), En-
digms. Personality and Individual Diffe- Göttingen: Hogrefe.
zyklopädie der Psychologie: Wirtschafts-,
rences, 50, 916–925. Laux, L., Hock, M., Bergner-Köther, R.,
Organisations- und Arbeitspsychologie:
Krohne, H. W., Pieper, M., Knoll, N. & Band 3. Organisationspsychologie (pp. Hodapp, V. & Renner, K.-H. (2013). Das
Breimer, N. (2002). The cognitive regulati- 631–651). Göttingen: Hogrefe. State-Trait-Depressions-Inventar STADI.
on of emotions: The role of success versus Göttingen: Hogrefe.
failure experience and coping dispositions. Kühne, H. H. (Ed.). (1987). Berufsrecht
für Psychologen. Baden-Baden: Nomos. Laux, L. & Renner, K.-H. (2002). Self-
Cognition and Emotion, 16, 217–243. monitoring und Authentizität: Die ver-
Krohne, H. W. & Pulsack, A. (1990). Das Kultusministerkonferenz (1994). Empfeh- kannten Selbstdarsteller. Zeitschrift für
Erziehungsstil-Inventar (ESI): Manual (2. lungen zur sonderpädagogischen För- Differentielle und Diagnostische Psycho-
Aufl. 1995). Weinheim: Beltz-Test. derung in Schulen der Bundesrepublik logie, 23, 129–148.
Deutschland. Beschluss der Kultusminis-
Krohne, H. W. & Rogner, J. (1981). terkonferenz vom 06.05.1994. Bonn: Se- Laux, L. & Weber, H. (1993). Emotions-
Prävention von Ängstlichkeit durch ein kretariat der ständigen Konferenz der Kul- bewältigung und Selbstdarstellung. Stutt-
Elterntrainingsprogramm. In G. Zimmer tusminister der Länder in der Bundesrepu- gart: Kohlhammer.
(Ed.), Persönlichkeitsentwicklung und Ge- blik Deutschland. Lazarus, R. S. (1991). Emotion and
sundheit im Schulalter. Gefährdungen und adaptation. New York: Oxford University
Prävention (pp. 309–319). Frankfurt a. M.: Kultusministerkonferenz (1999). Empfeh- Press.
Campus. lungen zum Förderschwerpunkt Lernen.
Beschluss der Kultusministerkonferenz Lenk, H. (Ed). (1981). Handlungstheorien
Krohne, H. W. & Schmukle, S. C. (2006). vom 01.10.1999. Bonn: Sekretariat der interdisziplinär: Band 3, 1. Halbband. Ver-
Das Inventar State-Trait Operations- ständigen Konferenz der Kultusminis- haltenswissenschaftliche und psychologi-
Angst (STOA). Manual. Frankfurt a. M.: ter der Länder in der Bundesrepublik sche Handlungstheorien. München: Fink.
Harcourt. Deutschland. Lenk, H. (Ed). (1984). Handlungstheorien
Krohne, H. W. & Tausch A. P. (2014). Kurth, E. & Büttner, G. (1999). Testreihe interdisziplinär: Band 3, 2. Halbband. Ver-
Persönlichkeit und Emotionen. Individuel- zur Prüfung der Konzentrationsfähigkeit haltenswissenschaftliche und psychologi-
le Unterschiede im emotionalen Erleben (2. Aufl.). Göttingen: Hogrefe. sche Handlungstheorien. München: Fink.
und Verhalten. Stuttgart: Kohlhammer. Leutner, D. (1992). Adaptive Lehrsyste-
Kröner-Herwig, B. & Weich, K.-W. me: Instruktionspsychologische Grundla-
(1990). Erlaubt die Kenntnis habituel- L gen und experimentelle Analysen. Wein-
ler Streßverarbeitungsstrategien (SVF) heim: Beltz PVU.
die Vorhersage von Bewältigungsverhal- Lankes, W. (1915). Perseveration. British Levenson, H. (1974). Activisms and po-
ten in vorgestellten Problemsituationen? Journal of Psychology, 7, 387–419. werful others: Distinctions within the con-
Diagnostica, 36, 329–339. cept of internal-external control. Journal
LaPière, R. T. (1934). Attitudes vs. acti-
Kruglanski, A. W. (1989). The psychology ons. Social Forces, 13, 230–237. of Personality Assessment, 38, 377–383.
of being „right“: The problem of accuracy Leventhal, H. & Diefenbach, M. (1991).
in social perception and cognition. Psycho- Latham, G. P. (1989). The reliability, va-
lidity, and practicability of the situational The active side of illness cognition. In J.
logical Bulletin, 106, 395–409. A. Skelton & R. T. Croyle (Eds.), Men-
interview. In R. W. Eder & G. R. Ferris
Kubinger, K. D. (1984). Die Arbeitskur- (Eds.), The employment interview: Theo- tal representation in health and illness (pp.
ve nach Emil Kraepelin und Richard Pau- ry, research, and practice (pp. 169–182). 247–272). New York: Springer.
li: Mainzer Revision (Testrezension). Zeit- Newbury Park, CA: Sage. Leventhal, H., Nerenz, D. R. & Steele, D.
schrift für Differentielle und Diagnosti- J. (1984). Illness representations and co-
sche Psychologie, 5, 169–170. Latham, G. P. & Sue-Chan, C. (1999). A
meta-analysis of the situational interview: ping with health threats. In A. Baum, S.
Kubinger, K. D. & Holocher-Ertl, S. An enumerative review of the reasons for E. Taylor & J. E. Singer (Eds.), Handbook
(2014). Adaptives Intelligenz Diagnosti- its validity. Canadian Psychology, 40, 56– of psychology and health: Vol. 4. Social
kum - Version 3.1 (AID 3). Göttingen: 67. psychological aspects of health (pp. 219–
Beltz. 252). Hillsdale, NJ: Erlbaum.
Latham, G. P. & Wexley, K. N. (1977). Be- Lewin, K., Lippitt, R. & White, R. K.
Kubinger, K. D. & Wurst, E. (1988). Adap- havioral observation scales for performan-
tives Intelligenz Diagnostikum (AID). Ma- (1939). Patterns of aggressive behavior
ce appraisal purposes. Personnel Psycho- in experimentally created social climates.
nual (2. Aufl.). Weinheim: Beltz. logy, 30, 255–268. Journal of Social Psychology, 10, 271–
Kubinger, K. D. & Wurst, E. (2000). Adap- Laubach, W., Schröder, C., Siegrist, J. & 299.
tives Intelligenz Diagnostikum 2 (AID-2). Brähler, E. (2001). Normierung der Ska-
Manual. Weinheim: Beltz. Liebert, R. M. & Morris, L. W. (1967). Co-
len „Profil der Lebensqualität Chronisch gnitive and emotional components of test
Kuder, F. (1946). Manual to the Kuder- Kranker“ an einer repräsentativen deut- anxiety: A distinction and some initial da-
Preference-Record. Chicago: Science Re- schen Stichprobe. Zeitschrift für Differen- ta. Psychological Reports, 20, 975–978.
search Associates. tielle und Diagnostische Psychologie, 22,
100–110. Lienert, G. A. (1967). Allgemeiner Büro-
Kuder, F. (1988). Kuder E General In- arbeitstest (A-B-A-T). Göttingen: Hogre-
terest Survey, general manual. Chicago: Laux, L. (2008). Persönlichkeitspsycholo- fe.
Science Research Associates. gie (2. Aufl.). Stuttgart: Kohlhammer.
Lienert, G. A. & Raatz, U. (1994). Testauf-
Kuder, F. & Zytowski, D. G. (1991). Ku- Laux, L. & Glanzmann, P. (1996). Angst bau und Testanalyse (5. Aufl.). Weinheim:
der Occupational Interest Survey Form und Ängstlichkeit. In M. Amelang (Ed.), Beltz PVU.

564
Literaturverzeichnis

Lienert, G. A. & Schuler, H. (1994). Lohman, D. F. (2000). Complex informa- M


Revidierter Allgemeiner Büroarbeitstest tion processing and intelligence. In R. J.
(ABAT-R) (3. Aufl.). Göttingen: Hogrefe. Sternberg (Ed.), Handbook of intelligence Mack, B. & Schröder, G. (1977). Ent-
(pp. 285–340). New York: Cambridge Uni- wicklung ökonomischer Angst-Symptom-
Liepmann, D., Beauducel, A., Brocke, Listen für die klinische Diagnostik. Psy-
B. & Amthauer, R. (2007). Intelligenz- versity Press.
chologische Beiträge, 19, 426–445.
Struktur-Test 2000 R (I-S-T 2000 R) (2. Longabaugh, R. (1963). A category sys-
Aufl.). Göttingen: Hogrefe. tem for coding interpersonal behavior as Mackworth, N. H. (1957). Some factors af-
social exchange. Sociometry, 26, 319– fecting vigilance. Advancement of Science,
Lievens, F. (1998). Factors which impro- 53, 389–393.
ve the validity of assessment centers: A 344.
review. International Review of Selection Loranger, A. W. (1995). International Per- MacLeod, C. M. (1991). Half a century of
and Assessment, 6, 141–152. sonality Disorder Examination (IPDE). research on the Stroop effect: An integra-
Odessa, FL: Psychological Assessment tive review. Psychological Bulletin, 109,
Likert, R. (1967). The human organizati- 163–203.
Resources.
on: Its management and value. New York:
McGraw-Hill. Loranger, A. W. & WHO. World Health MacLeod, C. M., Hunt, E. B. & Mathews,
Organization (1996). International Per- N. N. (1978). Individual differences in
Lilienfeld, S. O., Wood, J. M. & Garb, H.
sonality Disorder Examination (IPDE). the verication of sentence-picture relation-
N. (2000). The scientific status of projec-
Bern: Huber. ships. Journal of Verbal Learning and Ver-
tive techniques. Psychological Science in
Lord, F. M. & Novick, M. R. (1968). Sta- bal Behavior, 17, 493–507.
the Public Interest, 1(2), 27–66.
tistical theories of mental test scores. Rea- MacLeod, C., Mathews, A. & Tata, P.
Lindzey, G. (1959). On the classificati-
ding, MA: Addison-Wesley. (1986). Attentional bias in emotional dis-
on of projective techniques. Psychological
Lord, R. G., De Vader, C. L. & Allinger, G. orders. Journal of Abnormal Psychology,
Bulletin, 56, 158–168.
M. (1986). A meta-analysis of the relation- 95, 15–20.
Lissmann, U. (2010). Schultests. In D. ship between personality traits and leader- Maddi, S. R. (1987). Hardiness training at
H. Rost (Ed.), Handwörterbuch Pädagogi- ship perceptions: An application of vali- Bell Telephone. In J. Opatz (Ed.), Health
sche Psychologie (4. Aufl, pp. 737–751). dity generalization procedures. Journal of promotion evaluation (pp. 121–158). Ste-
Weinheim: Beltz PVU. Applied Psychology, 71, 402–410. phens Point, WI: Natural Wellness.
Lissmann, U. (2010). Schultests. In D. Lord, W. (2011). Das NEO-
H. Rost (Ed.), Handwörterbuch Pädagogi- Mann, R. D. (1959). A review of the re-
Persönlichkeitsinventar in der berufs- lationships between personality and per-
sche Psychologie (4. Aufl., pp. 737–751). bezogenen Anwendung. Interpretation
Weinheim: Beltz PVU. formance in small groups. Psychological
und Feedback. Göttingen: Hogrefe. Bulletin, 56, 241–270.
Little, B. L. & Madigan, R. M. (1997). Lovaas, O. I. (1987). Behavioral treat-
The relationship between collective effi- Manns, M., Schultze, J., Herrmann, L. &
ment and normal educational and intellec- Westmeyer, H. (1987). Beobachtungsver-
cacy and performance in manufacturing tual functioning in young autistic children.
work teams. Small Group Research, 28, fahren in der Verhaltensdiagnostik. Salz-
Journal of Consulting and Clinical Psy- burg: Otto Müller.
517–534. chology, 55, 3–9.
Locke, E. A. (1976). The nature and cau- Marcus, B. (2000). Kontraproduktives Ver-
Lück, H. E. (1971). Entwicklung eines halten im Betrieb. Göttingen: Hogrefe.
ses of job satisfaction. In M. D. Dunnette Fragebogens zur Messung der Angst in so-
(Ed.), Handbook of industrial and organi- zialen Situationen (SAP). Diagnostica, 17, Marcus, B. (2003). Persönlichkeitstests
zational psychology (pp. 1297–1349). Chi- 53–59. in der Personalauswahl: Sind „sozial er-
cago, IL: Rand McNally. wünschte“ Antworten wirklich nicht wün-
Lück, H. E. & Guski-Leinwand, S. (2014).
Locke, E. A. & Latham, G. P. (1990). A schenswert? Zeitschrift für Psychologie,
Geschichte der Psychologie (7. Aufl.).
theory of goal setting and task performan- 211, 138–148.
Stuttgart: Kohlhammer.
ce. Englewood Cliffs, NJ: Prentice-Hall. Marcus, B. (2006). IBES. Inventar be-
Lüer, G. & Kluck, M.-L. (1983). Diagnos-
Lohaus, A. (1993). Gesundheitsförderung tische Urteilsbildung. In H. Feger & J. Bre- rufsbezogener Einstellungen und Selbst-
und Krankheitsprävention im Kindes- und denkamp (Eds.), Enzyklopädie der Psy- einschätzungen. Göttingen: Hogrefe.
Jugendalter. Göttingen: Hogrefe. chologie: Forschungsmethoden der Psy- Marcus, B. (2013). Biografische Frage-
Lohaus, A., Eschenbeck, H., Kohlmann, chologie: Band 3. Messen und Testen (pp. bögen. In W. Sarges (Ed.), Management-
C.-W. & Klein-Heßling, J. (2006). Frage- 727–798). Göttingen: Hogrefe. Diagnostik (4. Aufl., pp. 570–575). Göt-
bogen zur Erhebung von Streß und Streß- Lukesch, H. (1998). Einführung in die tingen: Hogrefe.
bewältigung im Kindes- und Jugendalter pädagogisch-psychologische Diagnostik. Markland, D. & Ingledew, D. K. (1997).
(SSKJ 3–8). Göttingen: Hogrefe. Regensburg: Roderer. The measurement of exercise motives:
Lohaus, A., Jerusalem, M. & Klein- Lukesch, H., Haenisch, H., Kischkel, K.- Factorial validity and invariance across
Heßling, J. (Eds.). (2006). Gesundheitsför- H. & Fend, H. (1982). LVI – Lehrerverhal- gender of a revised Exercise Motivation
derung im Kindes- und Jugendalter. Göt- tensinventar (Arbeitsberichte zur Pädago- Inventory. British Journal of Health Psy-
tingen: Hogrefe. gischen Psychologie Nr. 10). Regensburg: chology, 2, 361–376.
Lohaus, A. & Schmitt, G. M. (1989). Fra- Universität, Institut für Psychologie. Marlowe, C. M., Schneider, S. L. & Nel-
gebogen zur Erhebung von Kontrollüber- Lukesch, H. & Lukesch, M. (1976). Frage- son, C. E. (1996). Gender and attractiven-
zeugungen zu Krankheit und Gesundheit bogen zur Messung von Einstellungen zu ess biases in hiring decisions: Are more
(KKG). Göttingen: Hogrefe. Schwangerschaft, Sexualität und Geburt experienced managers less biased? Jour-
Lohaus, D. & Schuler, H. (2014). Leis- (S-S-G). Göttingen: Hogrefe. nal of Applied Psychology, 81, 11–21.
tungsbeurteilung. In H. Schuler & U. P. Lytton, H. (1971). Observation studies of Matarazzo, J. D. (1980). Behavioral health
Kanning (Eds.), Lehrbuch der Personal- parent-child interaction: A methodologi- and behavioral medicine. Frontiers for a
psychologie (3. Aufl., pp. 357–411). Göt- cal review. Child Development, 42, 651– new health psychology. American Psycho-
tingen: Hogrefe. 684. logist, 35, 807–817.

565
Literaturverzeichnis

Matarazzo, J. D. (1984). Behavioral im- McCormick, E. J., DeNisi, A. S. & Shaw, McNally, R. J. (1996). Anxiety sensitivity
munogenes and pathogens in health and J. B. (1979). The use of the Position Ana- is distinguishable from trait anxiety. In R.
illness. In B. L. Hammonds & C. J. Schei- lysis Questionnaire for establishing the M. Rapee (Ed.), Current controversies in
rer (Eds.), Psychology and health (pp. 5– job component validity of tests. Journal of the anxiety disorders (pp. 214–227). New
44). Washington, DC: American Psycho- Applied Psychology, 64, 51–56. York: Guilford.
logical Association. McCormick, E. J. & Jeanneret, P. R. Meehl, P. E. (1954). Clinical versus sta-
Mattanah, J. K., Becker, D. F., Levy, K. N., (1988). Position Analysis Questionnaire tistical prediction: A theoretical analysis
Edell, W. S. & McGlashan, T. H. (1995). (PAQ). In S. Gael (Ed.), The job analysis and a review of the evidence. Minneapolis,
Diagnostic stability in adolescents follo- handbook for business, industry, and go- MN: University of Minnesota Press.
wed up 2 years after hospitalization. Ame- vernment (pp. 825–842). New York: Wi-
Meehl, P. E. (1956). Wanted – a good
rican Journal of Psychiatry, 152, 889– ley.
cookbook. American Psychologist, 11,
984. McCormick, E. J., Jeanneret, P. R. & Me- 263–272.
Matthews, G. (1997). The Big Five as a cham, R. C. (1972). A study of job cha-
Meehl, P. E. (1959). A comparison of clini-
framework for personality assessment. In racteristics and job dimensions as based
cians with five statistical methods of iden-
N. Anderson & P. Herriot (Eds.), Interna- on the Position Analysis Questionnaire
tifying psychotic MMPI profiles. Journal
tional handbook of selection and assess- (PAQ). Journal of Applied Psychology Mo-
of Counseling Psychology, 6, 102–109.
ment (Vol. 13, pp. 475–492). Chichester, nograph, 56(4), 347–368.
UK: Wiley. McCrae, R. R. & Costa, P. T. (1983). Joint Meehl, P. E. (1965). Seer over sign: The
factors in self-reports and ratings: neuro- first good example. Journal of Experimen-
Matthews, K. A. (1982). Psychological tal Research in Personality, 1, 27–32.
perspectives on the Type A behavior pat- ticism, extraversion, and openness to ex-
tern. Psychological Bulletin, 91, 293–323. perience. Personality and Individual Dif- Meehl, P. E. (1978). Theoretical risks and
ferences, 4, 245–256. tabular asterisks: Sir Karl, Sir Ronald, and
Matthews, K. A., Krantz, D. S., Dem- the slow progress of soft psychology. Jour-
broski, T. M. & MacDougall, J. M. (1982). McCubbin, H. I. et al. (1983). CHIP – Co-
ping Health Inventory for Parents: An as- nal of Consulting and Clinical Psychology,
Unique and common variance in Structu- 46, 806–834.
red Interview and Jenkins Activity Sur- sessment of parental coping patterns in the
vey measures of Type A behavior pattern. care of the chronically ill child. Journal of Meehl, P. E. & Dahlstrom, W. G. (1960).
Journal of Personality and Social Psycho- Marriage and the Family, 45, 359–370. Objective configural rules for discrimina-
logy, 42, 303–313. McCubbin, H. I., McCubbin, M. A., Cau- ting psychotic from neurotic MMPI profi-
ble, E. & Goldbeck, L. (2001). Frage- les. Journal of Consulting Psychology, 24,
Mauss, I. B., Evers, C., Wilhelm, F. H. 375–387.
& Gross, J. J. (2006). How to bite your bogen zur elterlichen Krankheitsbewälti-
tongue without blowing your top: Implicit gung: Coping Health Inventory for Parents Mees, U. (1977). Einführung in die sys-
evaluation of emotion regulation predicts (CHIP) – Deutsche Version. Kindheit und tematische Verhaltensbeobachtung. In U.
affective responding to anger provocation. Entwicklung, 10, 28–35. Mees & H. Selg (Eds.), Verhaltensbeob-
Personality and Social Psychology Bulle- McCullough, J. P. et al. (2000). Compari- achtung und Verhaltensmodifikation (pp.
tin, 32, 589–602. son of DSM-III-R chronic major depres- 14–32). Stuttgart: Klett.
sion and major depression superimposed Mees, U. & Selg, H. (Eds.). (1977). Ver-
Mayer, J. D. & Salovey, P. (1997). What
on dysthymia (double depression): Validi- haltensbeobachtung und Verhaltensmodi-
is emotional intelligence? In P. Salovey &
ty of the distinction. Journal of Abnormal fikation. Stuttgart: Klett.
D. Sluyter (Eds.), Emotional development
Psychology, 109, 419–427.
and emotional intelligence: implications Meier, S., Eschenbeck, H. & Kohlmann,
for educators (pp. 3–31). New York: Ba- McDaniel, M. A., Whetzel, D. L., C.-W. (2013). GEKI. Fragebogen zum Ge-
sic Books. Schmidt, F. L. & Maurer, S. D. (1994). sundheitsverhalten von Kindern. Manual.
The validity of employment interviews: A Göttingen: Hogrefe.
McArthur, L. Z. & Baron, R. M. (1983). comprehensive review and meta-analysis.
Toward an ecological theory of social per- Journal of Applied Psychology, 79, 599– Meijer, J. (2001). Learning potential and
ception. Psychological Review, 90, 215– 616. anxious tendency: Test anxiety as a bi-
238. as factor in educational testing. Anxiety,
McDonald, R. P. (1999). Test theory: a uni- Stress, and Coping, 14, 337–362.
McClelland, D. C. (1971). Assessing hu- fied treatment. Mahwah, NJ: Erlbaum.
man motivation. New York: General Lear- Meili, R. (1961). Lehrbuch der psycholo-
ning Press. McGraw, K. O. & Wong, S. P. (1996). For- gischen Diagnostik (4. Aufl.). Bern: Hu-
ming inferences about some intraclass cor- ber.
McClelland, D. C., Atkinson, J. W., Clark, relation coefficients. Psychological Me-
R. A. & Lowell, E. L. (1953). The thods, 1, 30–46. Melchers, P. & Preuss, U. (2009). Kauf-
achievement motive. New York: Appleton- man Assessment Battery for Children
McGrew, K. S. (1997). Analysis of the
Centruy-Crofts. – Deutsche Version (K-ABC) (8. Aufl.).
major intelligence batteries according to
McClelland, D. C. & Boyatzis, R. E. Frankfurt am Main: Pearson.
a proposed comprehensive Gf-Gc frame-
(1982). Leadership motive pattern and work. In D. P. Flanagan, J. L. Genshaft & Melfsen, S., Florin, I. & Warnke, A.
long-term success in management. Jour- P. L. Harrison (Eds). Contemporary intel- (2001). Sozialphobie und -angstinventar
nal of Applied Psychology, 67, 737–743. lectual assessment: Theories, tests, and is- für Kinder (SPAIK). Göttingen: Hogrefe.
McClelland, D. C., Koestner, R. & Wein- sues (pp. 151–180). New York: Guilford. Merz, F. (1984). Die biologische Funkti-
berger, J. (1989). How do self-attributed McNair, D. M., Lorr, M. & Droppleman, on individueller Differenzen. In M. Ame-
and implicit motives differ? Psychological L. F. (1971). Manual: Profile of mood lang & H.-J. Ahrens (Eds.), Brennpunkte
Review, 96, 690–702. states. San Diego, CA: Educational and In- der Persönlichkeitsforschung (Band 1, pp.
McCloy, R. A., Campbell, J. P. & Cudeck, dustrial Testing Services. 191–209). Göttingen: Hogrefe.
R. (1994). A confirmatory test of a model McNally, R. J. (1990). Psychological ap- Messer, S. B. (1976). Reflection-
of performance determinants. Journal of proaches to panic disorder: a review. Psy- impulsivity: A review. Psychological
Applied Psychology, 79, 493–505. chological Bulletin, 108, 403–419. Bulletin, 83, 1026–1052.

566
Literaturverzeichnis

Meyer, G. J. (1992). The Rorschach’s fac- symptom-negative items in the State-Trait Motowidlo, S. J. & Van Scotter, J. R.
tor structure: A contemporary investigati- Anxiety Inventory: A comparison and re- (1994). Evidence that task performance
on and historical review. Journal of Perso- plication. Anxiety, Stress, and Coping, 5, should be distinguished from contextual
nality Assessment, 59, 117–136. 113–123. performance. Journal of Applied Psycho-
Meyer, G. J. (1993). The impact of re- Moorman, R. H. (1993). The influence of logy, 79, 475–480.
sponse frequency on the Rorschach con- cognitive and affective based job satisfac- Mount, M. K., Barrick, M. R. & Stewart,
stellation indices and on their validity with tion measures on the relationship between G. L. (1998). Five-factor model of perso-
diagnostic and MMPI-2 criteria. Journal satisfaction and organizational citizenship nality and performance in jobs involving
of Personality Assessment, 60, 153–180. behavior. Human Relations, 46, 759–776. interpersonal interactions. Human Perfor-
Meyer, G. J. (1997). Assessing reliabili- Moos, R. H. (1974). Family Environment mance, 11, 145–165.
ty: Critical corrections for a critical ex- Scale. Palo Alto, CA: Consulting Psycho- Mowrer, O. H., Light, B. H., Luria, Z. &
amination of the Rorschach Comprehen- logists. Zeleny, M. P. (1953). Tension changes du-
sive System. Psychological Assessment, 9, Moosbrugger, H. & Goldhammer, ring psychotherapy, with special reference
480–489. M. (2007). Frankfurter Adaptiver to resistance. In O. H. Mowrer (Ed.), Psy-
Mielke, R. (Ed.). (1982). Interne / ex- Konzentrationsleistungs-Test (FAKT-II). chotherapy. Theory and research (pp. 546–
terne Kontrollüberzeugung. Theoretische Bern: Huber. 640). New York: Ronald.
und empirische Arbeiten zum Locus of Moosbrugger, H. & Heyden, M. Mueller, S. T., & Piper, B. J. (2014). The
Control-Konstrukt. Bern: Huber. (1997). Frankfurter Adaptiver Psychology Experiment Building Langua-
Mierke, J. & Klauer, K. C. (2003). Konzentrationsleistungs-Test (FAKT). ge (PEBL) and PEBL Test Battery. Jour-
Method-specific variance in the Implicit Bern: Huber. nal of Neuroscience Methods, 222, 250–
Association Test. Journal of Personality 259.
Moosbrugger, H. & Kelava, A. (Eds.).
and Social Psychology, 85, 1180–1192. (2008). Testtheorie und Fragebogenkon- Mullen, B. & Copper, C. (1994). The rela-
Miller, S. M. (1995). Monitoring versus struktion. Heidelberg: Springer. tion between group cohesiveness and per-
blunting styles of coping with cancer in- Moosbrugger, H. & Oehlschlä- formance: An integration. Psychological
fluence the information patients want and gel, J. (1996). FAIR – Frankfurter Bulletin, 115, 210–227.
need about their disease: Implications for Aufmerksamkeits-Inventar. Bern: Huber. Müller, D., Bongard, S., Heiligtag, U.
cancer screening and management. Can- & Hodapp, V. (2001). Das State-Trait-
Moosbrugger, H., Oehlschlägel, J. &
cer, 76, 167–177. Ärgerausdrucks-Inventar in der klinischen
Steinwascher, M. (2011). Frankfurter
Miller, T. Q., Smith, T. W., Turner, C. W., Aufmerksamkeits-Inventar 2 (FAIR-2). Anwendung: Reliabilität und faktorielle
Guijarro, M. L. & Hallet, A. J. (1996). A Bern: Huber. Validität. Zeitschrift für Klinische Psycho-
meta-analytic review of research on ho- logie und Psychotherapie, 30, 172–181.
Moreno, J.L. (1996). Die Grundlagen der
stility and physical health. Psychological Müller, G. F., Garrett, M., Pikal, E.
Soziometrie. Opladen: Leske und Budrich.
Bulletin, 119, 322–348. & Reedwisch, N. (2002). Führungs-
(Erstveröffentlichung 1934)
Mischel, W. & Shoda, Y. (1995). A kräfte mit unternehmerischer Verantwor-
Morgenstern, J., Langenbucher, J. W., La- tung. Selbstständigkeitsrelevante Persön-
cognitive-affective system theory of perso-
bouvie, E. & Miller, K. J. (1997). The co- lichkeitsausprägungen im Vergleich zu
nality: Reconceptualizing situations, dis-
morbidity of alcoholism and personality anderen führungsgeeigneten Angestellten
positions, dynamics, and invariance in per-
disorders in a clinical population: preva- und freien Unternehmern oder Angestell-
sonality structure. Psychological Review,
lence rates and relation to alcohol typolo- ten. Zeitschrift für Personalpsychologie, 1,
102, 248–268.
gy variables. Journal of Abnormal Psycho- 19–26.
Mogg, K. et al. (2000). Trait anxiety, de- logy, 106, 74–84.
fensiveness and selective processing of Müller, R. (2003). Diagnostikscher Recht-
Morris, L. W., Davis, M. A. & Hutchings, schreibtest für 2. Klassen (DRT 2) (2.
threat: An investigation using two measu-
C. H. (1981). Cognitive and emotional Aufl.). Göttingen: Beltz Test.
res of attentional bias. Personality and In-
components of anxiety: Literature review
dividual Differences, 28, 1063–1077. Müller, R. (2003). Diagnostischen Recht-
and a revised worry-emotionality scale.
Mogg, K. & Bradley, B. P. (1998). A Journal of Educational Psychology, 73, schreibtest für 1. Klassen (DRT 1) (2.
cognitive-motivational analysis of anxie- 541–555. Aufl.). Göttingen: Hogrefe.
ty. Behaviour Research and Therapy, 36, Moschner, B. & Dickhäuser, O. (2006). Mumford, M. D., Costanza, D. P., Connel-
809–848. Selbstkonzept. In D. H. Rost (Ed.), ly, M. S. & Johnson, J. F. (1996). Item
Mogg, K. & Bradley, B. P. (1999). Se- Handwörterbuch Pädagogische Psycholo- generation procedures and background da-
lective attention and anxiety: A cognitive- gie (3. Aufl., pp. 685–692). Weinheim: ta scales: Implications for construct and
motivational perspective. In M. Power & Beltz PVU. criterion-related validity. Personnel Psy-
T. Dalgleish (Eds.), Handbook of cogniti- chology, 49, 361–398.
Moscoso. S. (2000). Selection interview:
on and emotion (pp. 145–170). Chichester, A review of validity evidence, adverse im- Mumford, M. D. & Owens, W. A. (1987).
UK: Wiley. pact and application reactions. Internatio- Methodology review: Principles, procedu-
Mogg, K., Bradley, B. P., de Bono, J. & nal Journal of Selection and Assessment, res, and findings in the application of back-
Painter, M. (1997). Time course of atten- 8, 237–247. ground data measures. Applied Psycholo-
tional bias for threat information in non- Moss-Morris, R. et al. (2002). The Revi- gical Measurement, 11, 1–31.
clinical anxiety. Behaviour Research and sed Illness Perception Questionnaire (IPQ- Mummendey, D. H. (1995). Psychologie
Therapy, 35, 297–303. R). Psychology and Health, 17, 1–16. der Selbstdarstellung (2. Aufl.). Göttin-
Mombour, W. et al. (Eds.). (1996). Inter- Motowidlo, S. J., Borman, W. C. & gen: Hogrefe.
national Personality Disorder Examinati- Schmidt, M. J. (1997). A theory of indivi- Murphy, K. R. (1996a). Individual dif-
on (IPDE). Bern: Huber. dual differences in task and contextual per- ferences and behavior in organizations.
Mook, J., van der Ploeg, H. M. & Klei- formance. Human Performance, 10, 71– Much more than g. In K. R. Murphy
jn, W. C. (1992). Symptom-positive and 83. (Ed.), Individual differences and behavior

567
Literaturverzeichnis

in organizations (pp. 3–30). San Francis- Rosenstiel & B. Strümpel (Eds.), Grund- O
co, CA: Jossey-Bass. begriffe der Wirtschaftspsychologie (pp.
128–136). München: Kösel. Ober, R. L. (1968). The reciprocal catego-
Murphy, K. R. (Ed.). (1996b). Individual ry system (RCS): an observational system
differences and behavior in organizations. Neuberger, O. & Allerbeck, M. (1978). designed to assess teacher-student class-
San Francisco, CA: Jossey-Bass. Messung und Analyse von Arbeitszufrie- room verbal interaction. College of Edu-
denheit. Bern: Huber. cation, University of South Florida, Tam-
Murray, H. A. (1938). Explorations in per-
sonality. New York: Oxford. Newman, L. S., Caldwell, T. L., Chamber- pa, FL.
lin, B. & Griffin, T. (2005). Thought sup- Obermann, C. (1992). Assessment Center.
Murray, H. A. (1943). Thematic Appercep-
pression, projection, and the development Wiesbaden: Gabler.
tion Test manual. Cambridge, MA: Har-
of stereotypes. Basic and Applied Social
vard University Press. Oehlschlägel, J. & Moosbrugger, H.
Psychology, 27, 259–266.
Murray, H. A. (1991). TAT. Thematic Ap- (1989). Konzentrationsleistung ohne
Newman, L. S., Duff, K. J. & Baumeister,
perception Test (3rd ed.). Cambridge, MA: Konzentration? Zur Schätzung wahrer
R. F. (1997). A new look at defensive pro-
Cambridge University Press. Leistungswerte im Aufmerksamkeits-
jection: Thought suppression, accessibili-
Belastungs-Test d2. Diagnostica, 37, 42–
Murstein, B. I. & Pryer, R. S. (1959). The ty, and biased person perception. Journal
51.
concept of projection: A review. Psycholo- of Personality and Social Psychology, 72,
gical Bulletin, 56, 353–374. 980–1001. Olea, M. M. & Ree, M. J. (1994). Predic-
ting pilot and navigator criteria: not much
Muthny, F. A. (1989). Freiburger Frage- Nickel, H. (1984). Begriffsbildung im Kin-
more than g. Journal of Applied Psycholo-
bogen zur Krankheitsverarbeitung (FKV). desalter. Bern: Huber.
gy, 79, 845–851.
Göttingen: Hogrefe. Niermeyer, R. (1999). Beobachterkompe-
Myers, I. B. & McCaulley, M. H. (1985). tenz. In W. Jochmann (Ed.), Innovatio- Olson, C. A. & Becker, B. E. (1983). A
Manual: A guide to the development and nen im Assessment Center (pp. 157–179). proposed technique for the treatment of re-
use of the Myers-Briggs Type Indicator. Stuttgart: Schäffer-Poeschel. striction of range in selection validation.
Palo Alto, CA: Consulting Psychologists. Psychological Bulletin, 93, 137–148.
Norenzayan, A. & Schwarz, N. (1999).
Myrtek, M., Schmidt, T. H. & Schwab, Telling what they want to know: Partici- Oltman, P. K. (1979). Procedure for Rod
G. (1984). Untersuchungen zur Reliabili- pants tailor causal attributions to resear- and Frame Apparatus, adults. Chicago,
tät und Validität der deutschen Version des chers’ interests. European Journal of So- IL: Stoelting.
Jenkins Activity Survey (JAS). Zeitschrift cial Psychology, 29, 1011–1020. Ones, D. S. & Viswesvaran, C. (1998a).
für klinische Psychologie, 13, 322–337. Norman, W. T. (1963). Toward an adequa- The effects of social desirability and fa-
te taxonomy of personality attributes: Rep- king on personality and integrity assess-
licated factor structure in peer nomination ment for personnel selection. Human Per-
N personality ratings. Journal of Abnormal formance, 11, 245–269.
and Social Psychology, 66, 574–583. Ones, D. S. & Viswesvaran, C. (1998b).
Nachreiner, F. (1978). Die Messung des
Führungsverhaltens. Bern: Huber. Nosek, B. A., Banaji, M. R. & Greenwald, Integrity testing in organizations. In R. W.
A. G. (2002). Harvesting implicit group at- Griffin, A. O’Leary-Kelly & J. M. Collins
Nathan, P. E. & Langenbucher, J. W. (Eds.), Dysfunctional behavior in organi-
titudes and beliefs from a demonstration
(1999). Psychopathology: Description and zations: Vol. 2. Nonviolent behaviors in
website. Group Dynamics, 6, 101–115.
classification. Annual Review of Psycholo- organizations (pp. 243–276). Greenwich,
gy, 50, 79–107. Nowack, W. & Kammer, D. (1987). CT: JAI.
Self-presentation: Social skills and incon-
Neely, J. H. (1991). Semantic priming ef- Ones, D. S. & Viswesvaran, C. (2001). In-
sistency as independent facets of self-
fects in visual word recognition: A selecti- tegrity tests and other criterion-fucused oc-
monitoring. European Journal of Persona-
ve review of current findings and theories. cupational personality scales (COPS) used
lity, 1, 61–77.
In D. Besner & G. W. Humphreys (Eds.), in personnel selection. International Jour-
Basic processes in reading: Visual word Nowlis, V. (1965). Research with the nal of Selection and Assessment, 9, 3–39.
recognition (pp. 264–336). Hillsdale, NJ: Mood Adjective Check List. In S. S. Tom-
Erlbaum. kins & C. E. Izard (Eds.), Affect, cognition, Ones, D. S., Viswesvaran, C. & Schmidt,
and personality (pp. 352–389). New York: F. L. (1993). Comprehensive meta-
Neisser, U. et al. (1996). Intelligence: Springer. analysis of integrity test validities: Fin-
Knowns and unknowns. American Psycho- dings and implications for personnel
logist, 51, 77–101. Nussbeck, F. W., Eid, M., Geiser, C.,
selection and theories of job performance.
Courvoisier, D. S. & Cole, D. A. (2008).
Nering, M. L. & Ostini, R. (Eds.). (2010). Journal of Applied Psychology Mono-
Konvergente und diskriminante Validität
Handbook of polytomous item response graph, 78(4), 679–703.
über die Zeit: Integration von Multitrait-
models. New York: Routlegde. Multimethod-Modellen und der Latent- Organ, D. W. (1988). Organizational ci-
Neubauer, A. C. & Freudenthaler, H. H. State-Trait-Theorie. In H. Moosbrugger & tizenship behavior: The good soldier syn-
(2001). Emotionale Intelligenz: Ein Über- A. Kelava (Eds.), Testtheorie und Frage- drome. Lexington, MA: Lexington Books.
blick. In E. Stern & J. Guthke (Eds.), bogenkonstruktion (pp. 361–388). Heidel-
Organ, D. W., Podsakoff, P. M. & Mac-
Perspektiven der Intelligenzforschung (pp. berg: Springer.
Kenzie, S. B. (2006). Organizational citi-
205–232). Lengerisch: Pabst. Nutbeam, D. (2000). Health literacy as zenship behavior. Its nature, antecendents,
Neuberger, O. (1972). Experimentelle Un- a public health goal: A challenge for and consequences. Beverly Hills, CA: Sa-
tersuchungen von Führungsstilen. Grup- contemporary health education and com- ge.
pendynamik, 3, 192–219. munication strategies in the 21st century.
Orthmann, D. (2006). Lernschwierigkei-
Health Promotion International, 15, 259–
Neuberger, O. (1980). Organisationskli- ten. In D. H. Rost (Ed.), Handwörterbuch
267.
ma als Einstellung zur Organisation. In Pädagogische Psychologie (3. Aufl., pp.
C. Graf Hoyos, W. Kroeber-Riel, L. von 421–427). Weinheim: Beltz PVU.

568
Literaturverzeichnis

Ostendorf, F. & Angleitner, A. (2004). und Diagnostische Psychologie, 9, 147– Petermann, F. & Zielinski, W. (1979).
NEO-Persönlichkeitsinventar nach Costa 153. Der LMT − ein Verfahren zur Erfassung
und McCrea. Revidierte Fassung (NEO- Pawlik, K. & Buse, L. (1996). Verhal- der Leistungsmotivation. Diagnostica, 25,
PI-R). Göttingen: Hogrefe. tensbeobachtung in Labor und Feld. In K. 351–364.
Pawlik (Ed.), Enzyklopädie der Psycho- Peterson, R. A. & Reiss, S. (1992). An-
logie: Differentielle Psychologie und Per- xiety Sensitivity Index, Revised. Manual.
P sönlichkeitsforschung: Band 1. Grundla- Worthington, OH: International Diagno-
Patterson, G. R. (1974). A basis for iden- gen und Methoden der Differentiellen Psy- stic Systems.
tifying stimuli which control behaviors in chologie (pp. 360–394). Göttingen: Hogre-
Petillon, H. (1980). Soziometrischer Test
natural settings. Child Development, 45, fe.
für 3. bis 7. Klassen (ST 3–7). Weinheim:
900–911. Payne, R. L. & Pugh, D. S. (1976). Or- Beltz.
Paul, T. & Thiel, A. (2004). Eating Disor- ganizational structure and climate. In M.
D. Dunnette (Ed.), Handbook of industrial Petillon, H. (1981). Validität und Reliabili-
der Inventory-2 (EDI-2). Deutsche Versi- tät des soziometrischen Tests. In K. Ingen-
on. Göttingen: Hogrefe. and organizational psychology (pp. 1125–
1174). Chicago, IL: Rand McNally. kamp (Ed.), Wert und Wirkung von Beur-
Paulhus, D. L. (1984). Two-component teilungsverfahren. Weinheim: Beltz.
models of socially desirable responding. Pearson, K. (1896). Mathematical contri-
butions to the theory of evolution: regressi- Petry, J. (1996). Alkoholismustherapie.
Journal of Personality and Social Psycho- Vom Einstellungswandel zur kognitiven
logy, 46, 598–609. on, heredity, and panmixia. Philosophical
Transactions of the Royal Society of Lon- Therapie (3. Aufl.). München: Psycholo-
Paulhus, D. L. (1991). Measurement and don, 187A, 253–318. gie Verlags Union.
control of response bias. In J. P. Robinson,
Pekrun, R. (1985). Schulklima. In W. Pettigrew, T. F. (1958). The measurement
P. Shaver & L. S. Wrightsman (Eds.), Mea-
Twellmann (Ed.), Handbuch Schule und and correlates of category width as a co-
sures of personality and social psychologi-
Unterricht (Band 7.1, pp. 524–547). Düs- gnitive variable. Journal of Personality,
cal attitudes (pp. 17–59). San Diego: Aca-
seldorf: Schwann. 26, 532–544.
demic Press.
Paulhus, D. L. (1994). Balanced Inventory Pennebaker, J. W. (1982). The psychology Phares, E. J. & Davis, W. L. (1966).
of Desirable Responding: Reference ma- of physical symptoms. New York: Sprin- Breadth of categorization and the genera-
nual for BIDR version 6. Unpublished ma- ger. lization of expectancies. Journal of Perso-
nuscript, University of British Columbia, nality and Social Psychology, 4, 461–464.
Perbandt, K., Hodapp, V., Wendt, T. & Jor-
Vancouver, Canada. dan, J. (2006). Die „Distressed Persona- Pintrich, P. R. (1989). The dynamic in-
Paulhus, D. L. (1998). The Balanced In- lity“ (Typ D) – Zusammenhänge mit Är- terplay of student motivation and cogniti-
ventory of Desirable Responding. Toron- ger, Aggression und Feindseligkeit. Psy- on in the college classroom. In C. Ames
to/Buffalo: Multi-Health Systems. chotherapie Psychosomatik Medizinische & M. Maehr (Eds.), Advances in motiva-
Psychologie, 56, 310–317. tion and achievement: Motivating enhan-
Paulhus, D. L. (2002). Socially desirable cing environments (Vol. 6, pp. 117–160).
responding: The evolution of a construct. Perrez, M. & Zbinden, M. (1996). Lernen.
Greenwich, CT: JAI Press.
In H. I. Braun, D. N. Jackson & D. E. Wi- In A. Ehlers & K. Hahlweg (Eds.), Enzy-
ley (Eds.), The role of constructs in psy- klopädie der Psychologie: Klinische Psy- Pöhlmann, K. (1999). Persönliche Ziele:
chological and educational measurement chologie: Band 1. Grundlagen der Klini- Ein neuer Ansatz zur Erfassung von Thera-
(pp. 49–69). Mahwah NJ: Lawrence Erl- schen Psychologie (pp. 301–349). Göttin- piezielen. Praxis Klinische Verhaltensme-
baum. gen: Hogrefe. dizin und Rehabilitation, 45, 14–20.
Paulhus, D. L., & Reid, D. B. (1991). En- Petermann, F. (1995). Kontrollierte Praxix. Porter, L. (1962). Job attitudes in manage-
hancement and denial in socially desirable In R. S. Jäger & F. Petermann, Psycho- ment: I. Perceived deficiencies in need ful-
responding. Journal of Personality and So- logische Diagnostik (pp. 147–154). Wein- fillment as a function of job level. Journal
cial Psychology, 60, 307–317 heim: Beltz PVU. of Applied Psychology, 46, 375–384.
Pauli, R. & Arnold, W. (1951). Der Pauli- Petermann, F. (2011). Frankfurter Price, V. A. (1982). Type A behavior pat-
Test. München: Barth. Aufmerksamkeits-Inventar 2 (FAIR-2) tern: A model for research and practice.
(Testbesprechung). Zeitschrift für Psy- New York: Academic Press.
Paunonen, S. V., Jackson, D. N. & Keino-
chiatrie, Psychologie Und Psychotherapie,
nen, M. (1990). The structured nonverbal Pritchard, R. D. & Karasick, B. W. (1973).
59(4), 325–326.
assessment of personality. Journal of Per- The effects of organizational climate on
sonality, 58, 481–502. Petermann, F. (Ed.). (2011). Wechsler Pre- managerial job performance and job satis-
school and Primary Scale of Intelligence- faction. Organizational Behavior and Hu-
Paunonen, S. V., Jackson, D. N., Trzebin-
III (WPPSI-III) (2. Aufl.). Frankfurt am man Performance, 9, 126–146.
ski, J. & Försterling, F. (1992). Personality
Main: Pearson Assessment.
structure across cultures: A multimethod Prochaska, J. O. & DiClemente, C. C.
evaluation. Journal of Personality and So- Petermann, F. (Ed.). (2012). WAIS-IV. (1983). Stages and processes of self-
cial Psychology, 62, 447–456. Frankfurt am Main: Pearson Assessment. change of smoking: Toward an integrati-
Pawlik, K. (1968). Dimensionen des Ver- Petermann, F. & Petermann, U. (2000) Er- ve model of change. Journal of Consulting
haltens. Bern: Huber. fassungsbogen für aggressives Verhalten and Clinical Psychology, 51, 390–395.
Pawlik, K. (1976). Modell- und Praxis- in konkreten Situationen (EAS) (4. Aufl.). Pudel, V. & Westenhöfer, J. (1989). Frage-
dimensionen psychologischer Diagnostik. Göttingen: Hogrefe. bogen zum Eßverhalten (FEV). Göttingen:
In K. Pawlik (Ed.), Diagnose der Diagnos- Petermann, F. & Petermann, U. (Eds.) Hogrefe.
tik (pp. 13–43). Stuttgart: Klett. (2007). HAWIK-IV. Bern: Huber. Pugh, D. S. (1973). The measurement of
Pawlik, K. (1988). Psychodiagnostik zwi- Petermann, F. & Petermann, U. (Eds.) organization structures: Does context de-
schen Allgemeiner und Differentieller (2011). WISC-IV. Frankfurt am Main: termine form? Organizational Dynamics,
Psychologie. Zeitschrift für Differentielle Pearson Assessment. 1, 19–34.

569
Literaturverzeichnis

Pugh, D. S., Hickson, D. J., Hinings, C. R. much more than g. Journal of Applied Psy- (Eds.), Handbook of personality psycholo-
& Turner, C. (1968). Dimensions of orga- chology, 79, 518–524. gy (pp. 649–679). San Diego, CA: Acade-
nization structure. Administrative Science Reichenbach, H. (1938). Experience and mic Press.
Quarterly, 13, 65–105. prediction. Chicago, IL: University of Chi- Rogers, C. R. (1973). Die klientbezogene
cago Press. Gesprächstherapie. München: Kindler.
Q Reicherts, M. & Perrez, M. (1993). Fra- Rogers, T. B. (1971). The process of re-
gebogen zum Umgang mit Belastungen im sponding to personality items: Some issu-
Quiñones, M. A., Ford, J. K. & Teachout, Verlauf (UBV). Bern: Huber. es, a theory and some research. Multiva-
M. S. (1995). The relationship between riate Behavioral Monographs, 6, 1–66.
work experience and job performance: A Reilly, R. R. & Chao, G. T. (1982). Va-
lidity and fairness of some alternative Rohmert, W. & Landau, K. (1979).
conceptual and meta-analytic review. Per-
employee selection procedures. Personnel Das Arbeitswissenschaftliche Erhebungs-
sonnel Psychology, 48, 887–910.
Psychology, 35, 1–62. verfahren zur Tätigkeitsanalyse (AET).
Bern: Huber.
Reinecker, H. (Ed.). (2003). Lehrbuch der
R Klinischen Psychologie und Psychothera- Röhrle, B. Caspar, F. & Schlottke,
pie (4. Aufl.). Göttingen: Hogrefe. P. F. (2008). Lehrbuch der klinisch-
Räikkönen, K., Matthews, K. A., Flory, J. psychologischen Diagnostik. Stuttgart:
D. & Owens, J. F. (1999). Effects of ho- Reise, S. P. (2012). The rediscovery of bi-
Kohlhammer.
stility on ambulatory blood pressure and factor measurement models. Multivariate
mood during daily living in healthy adults. Behavioral Research, 47(5), 667–696. Rohrmann, S. et al. (2013). Das State-
Health Psychology, 18, 44–53. Trait-Ärgerausdrucks-Inventar-2 (STAXI-
Reiss, S. (1991). Expectancy model of 2). Deutschsprachige Adaptation des
Räikkönen, K., Matthews, K. A., Flory, J. fear, anxiety, and panic. Clinical Psycho- State-Trait Anger Expression Inventory-2
D., Owens, J. F. & Gump, B. B. (1999). logy Review, 11, 141–153. (STAXI-2) von Charles D. Spielberger.
Effects of optimism, pessimism, and trait Remschmidt, H. & Kamp-Becker, I. Bern: Huber.
anxiety on ambulatory blood pressure and (2005). Neuropsychologie autistischer
mood during everyday life. Journal of Per- Rokeach, M. (1960). The open and closed
Störungen. Fortschritte der Neurologie, mind. New York: Basic Books.
sonality and Social Psychology, 76, 104– Psychiatrie, 73, 654–663.
113. Rorschach, H. (1921). Psychodiagnostik.
Renner, G., Baur, H., & Lischke, B. Bern: Bircher.
Ramanaiah, N. V., Schill, T. & Leung, L. S.
(2003). Testbesprechung zum Adaptiven
(1977). A test of the hypothesis about the Rorschach, H. (1992). Rorschach-
Intelligenz Diagnostikum 2. Report Psy-
two-dimensional nature of the Marlowe- Psychodiagnostik (11. Aufl., hrsg. von
chologie, 28(11), 668–676.
Crowne Social Desirability Scale. Journal W. Morgenthaler). Bern: Huber.
of Research in Personality, 11, 251–259. Renner, K.-H. (2013). Verhaltensbeob-
achtung, Beobachtungsfehler und Be- Rosenfeld, P., Doherty, L. M., Vicino, S.
RAND Health Services Program (1992). M., Kantor, J. & Greaves, J. (1989). At-
36-item health survey. Santa Monica, CA: obachtertraining. In W. Sarges (Ed.),
Management-Diagnostik (4. Aufl., pp. titude assessment in organizations: Tes-
Author. ting three microcomputer-based survey
656–663). Göttingen: Hogrefe.
Rasch, G. (1960). Probabilistic models systems. Journal of General Psychology,
for some intelligence and attainment tests. Renner, K.-H., Laux, L., Schütz, A. & Te- 116, 145–154.
Kopenhagen, Dänemark: Danish Institute deschi, J. T. (2004). The relationship bet-
ween self-presentation styles and coping Rosenman, R. H. (1978). The interview
for Educational Research.
with social stress. Anxiety, Stress, and Co- method of assessment of the coronary-
Rauer, W. & Schuck, K.-D. (2003). Fra- ping, 17, 1–22. prone behavior pattern. In T. M. Dem-
gebogen zur Erfassung emotionaler und broski, S. M. Weiss, J. L. Shields, S. G.
sozialer Schulerfahrungen von Grund- Rheinberg, F. & Fries, S. (2010). Bezugs- Haynes & M. Feinleib (Eds.), Coronary-
schulkindern dritter und vierter Klassen normorientierung. In D. H. Rost (Ed.), prone behavior (pp. 55–70). New York:
(FEESS 3–4). Göttingen: Beltz Test. Handwörterbuch Pädagogische Psycholo- Springer.
gie (4. Aufl., pp. 61–68). Weinheim: Beltz
Rauer, W. & Schuck, K.-D. (2004). Fra- Rosenthal, R. & Jacobson, L. (1968). Pyg-
PVU.
gebogen zur Erfassung emotionaler und malion in the classroom: Teacher expecta-
sozialer Schulerfahrungen von Grund- Richter, L. & Kruglanski, A. W. (1997). tions and student intellectual development.
schulkindern erster und zweiter Klassen The accuracy of social perception and New York: Holt, Reinhart & Winston.
(FEESS 1–2). Göttingen: Beltz Test. cognition: Situationally contingent and
process-based. Swiss Journal of Psycholo- Rosenzweig, S. (1957). Rosenzweig P-F
Raven, J. C. (1938/1965). Progressive Ma- Test, Form für Kinder (hrsg. von E. Duhm
trices. New York: Psychological Corpora- gy, 56, 62–81.
& J. Hansen). Göttingen: Hogrefe.
tion. Ricker, K. L. (2006). Setting cut-scores: a
critical review of the Angoff and modified Rossmann, P. (2005). Depressionstest für
Raven, J., Raven, J. C. & Court, J. H. Kinder (DTK) (2. Aufl.). Göttingen: Ho-
(2000). Manual for Raven’s Progressive Angoff methods. The Alberta Journal of
Educational Research, 52, 53–64. grefe.
Matrices and Vocabulary Scales. Oxford,
UK: Oxford Psychologists Press. Rieger, C. (1888). Beschreibung der In- Rost, D. H. (2008). Multiple Intelligenzen,
telligenzstörung in Folge einer Hirnver- multiple Irritationen. Zeitschrift für Päd-
Ravens-Sieberer, U. & Bullinger, M.
letzung nebst dem Entwurf zu einer all- agogische Psychologie, 22(2), 97–112.
(1998). Assessing health-related quality of
life in cronically ill children with the Ger- gemein anwendbaren Methode der Intelli- Rost, D. H. & Schermer, F. J. (1987).
man KINDL: First psychometric and con- genzprüfung. Würzburg: Stahel. Auf dem Wege zu einer differentiellen
tent analytic results. Quality of Life Rese- Robins, R. W. & John, O. P. (1997). The Diagnostik der Leistungsangst. Psycholo-
arch, 7, 399–407. quest for self-insight. Theory and research gische Rundschau, 38, 14–36.
Ree, M. J., Earles, J. A. & Teachout, M. on accuracy and bias in self-perception. Rost, D. H., Sparfeldt, J. R. & Schilling,
S. (1994). Predicting job performance: not In R. Hogan, J. Johnson & S. Briggs S. R. (2007). Differentielles Schulisches

570
Literaturverzeichnis

Selbstkonzept-Gitter mit Skala zur Erfas- S Sarges, W. (2013a). Interviews. In W.


sung des Selbstkonzepts schulischer Leis- Sarges (Ed.), Management-Diagnostik (4.
tungen und Fähigkeiten (DISK-Gitter mit Sackett, G. P. (Ed.). (1978). Observing be- Aufl., pp. 575–592). Göttingen: Hogrefe.
SKSLF-8). Göttingen: Hogrefe. havior: Vol. 2. Data collection and ana-
lysis methods. Baltimore, MD: University Sarges, W. (Ed.). (2013b). Management-
Rost, J. (1999). Was ist aus dem Rasch- Park Press. Diagnostik (4. Aufl.). Göttingen: Hogrefe.
Modell geworden? Psychologische Rund- Sarges, W. & Wottawa, H. (Eds.). (2004).
schau, 50, 140–156. Sackett, P. R. & Dreher, G. F. (1982). Con-
Handbuch wirtschaftspsychologischer
structs and assessment center dimensions:
Rost, J. (2004). Lehrbuch Testtheorie – Testverfahren: Band 1. Personalpsycholo-
Some troubling empirical findings. Jour-
Testkonstruktion (2. Aufl.). Bern: Huber. gische Instrumente (2. Aufl.). Lengerich:
nal of Applied Psychology, 67, 401–410.
Pabst.
Rost, J. & Langeheine, R. (Eds.). (1997). Sackett, P. R. & Wanek, J. E. (1996). New
Applications of latent trait and latent class Sartorius, N., Ustun, T. B., Korten, A.,
developments in the use of measures of
models in the social sciences. Münster: Cooper, J. E. & van Drimmelen, J. (1995).
honesty, integrity, conscientiousness, de-
Waxmann Progress toward achieving a common lan-
pendability, trustworthiness, and reliabili-
guage in psychiatry, II: results from the
Roth, P. L., Bobko, P. & Mabon, H. (2001). ty for personnel selection. Personnel Psy-
international field trial of the ICD-10 dia-
Utility analysis: a review and analysis at chology, 49, 787–829.
gnostic criteria for research for mental and
the turn of the century. In N. Anderson, D. Sackett, P. R., Zedeck, S. & Fogli, L. behavioral disorders. American Journal of
S. Ones, H. K. Sinangil & C. Viswesvaran (1988). Relations between measures of Psychiatry, 152, 1427–1437.
(Eds.), Handbook of industrial, work and typical and maximum job performance. Saß, H., Wittchen, H.-U., Zaudig, M. &
organizational psychology. Vol. 1: Person- Journal of Applied Psychology, 73, 482– Houben, I. (2003). Diagnostisches und
nel psychology (pp. 363–384). London: 486. Statistisches Manual Psychischer Störun-
Sage.
Saldern, M. v. & Littig, K. E. (1985). Die gen – Textrevision (DSM-IV-TR). Göttin-
Roth, R. & Kulzer, B. (1995). Die Erfas- Konstruktion der Landauer Skalen zum gen: Hogrefe.
sung des Theorie- und Behandlungswis- Sozialklima (LASSO). Zeitschrift für Ent- Sawyer, J. (1966). Measurement and pre-
sens zum Typ-I-Diabetes: Der Diabetes- wicklungspsychologie und pädagogische diction, clinical and statistical. Psycholo-
Wissens-Test: Typ-I (DWT: Typ I). In C.- Psychologie, 17, 138–149. gical Bulletin, 66, 178–200.
W. Kohlmann & B. Kulzer (Eds.), Diabe-
Saldern, M. v. & Littig, K. E. (1987). Lan- Schachter, S. (1959). The psychology of af-
tes und Psychologie. Diagnostische Ansät-
dauer Skalen zum Sozialklima 4.-13. Klas- filiation. Stanford, CA: Stanford Universi-
ze (pp. 125–139). Bern: Huber.
sen (LASSO 4–13). Weinheim: Beltz. ty Press.
Roth, R., Kulzer, B., Teupe, B. & Borken- Salgado, J. F. (1997). The five factor mo- Schaefer, E. S. (1961). Converging con-
stein, M. (1996). Diabetes-Wissens-Test: del of personality and job performance in ceptual models for maternal behavior and
Typ-I (DWT TYP-I). Göttingen: Hogrefe. the European Community. Journal of App- for child behavior. In J. C. Glidewell (Ed.),
Rothermund, K. & Wentura, D. (2004). lied Psychology, 82, 30–43. Parental attitudes and child behavior (pp.
Underlying processes in the Implicit As- Salgado, J. F. (1998). Big Five personali- 124–146). Springfield, IL: Thomas.
sociation Test: Dissociating salience from ty dimensions and job performance in ar- Schaefer, E. S. & Bell, R. Q. (1958). De-
associations. Journal of Experimental Psy- my and civil occupations: A European per- velopment of a parental attitude research
chology: General, 133, 139–165. spective. Human Performance, 11, 271– instrument. Child Development, 29, 339–
Rotter, J. B. (1954). Social learning and 288. 361.
clinical psychology. Englewood Cliffs, Salgado, J. F. & Moscoso, S. (2002). Com- Schäfer, M. (2008). Mobbing im Klassen-
NJ.: Prentice-Hall. prehensive meta-analysis of the construct zimmer. In W. Schneider & M. Hasselhorn
Rotter, J. B. (1966). Generalized expec- validity of the employment interview. Eu- (Eds.), Handbuch der Pädagogischen Psy-
tancies for internal versus external control ropean Journal of Work and Organizatio- chologie (pp. 515–526). Göttingen: Hogre-
of reinforcement. Psychological Mono- nal Psychology, 11, 299–324. fe.
graphs: General and Applied, 80, (1, Salmivalli, C. (1999). Participant role ap- Schag, C. A., Heinrich, R. L., Aadland,
Whole No. 609). proach to school bullying: Implications R. L. & Ganz, P. A. (1990). Assessing
Rotter, J. B., Chance, J. E. & Phares, E. for interventions. Journal of Adolescence, problems of cancer patients: psychometric
J. (Eds.). (1972). Applications of a social 22, 453–459. properties of the cancer inventory of pro-
learning theory of personality. New York: blem situations. Health Psychology, 9, 83–
Salovey, P. & Mayer, J. D. (1990). Emo- 102.
Holt, Rinehart & Winston. tional intelligence. Imagination, Cogniti-
on and Personality, 9, 185–211. Schallberger, U. (1995). Die Persönlich-
Rowold, J. (2005). Multifactor Leadership
keitsabhängigkeit von Beschreibungen der
Questionnaire. Psychometric properties of Salzgeber, J. (2001). Familienpsycholo- eigenen Arbeitssituation. Zeitschrift für
the German translation by Jens Rowold. gische Gutachten. Rechtliche Vorgaben Experimentelle Psychologie, 42, 111–131.
Redwood City, CA: Mind Garden. und sachverständiges Vorgehen (3. Aufl.).
München: C.H. Beck. Schandry, R. & Duschek, S. (2002). Fra-
Ruch, W. (1999). Die revidierte Fassung gebogen für Asthmapatienten – revidier-
des Eysenck Personality Questionnaire Sarbin, T. R. (1941). Clinical psychology – te Fassung (FAP-R). Frankfurt a. M.: Har-
und die Konstruktion des deutschen EPQ- art or science. Psychometrika, 6, 391–400. court.
R bzw. EPQ-RK. Zeitschrift für Differen-
Sarbin, T. R. (1942). A contribution to the Scheier, M. F. & Carver, C. S. (1985). Op-
tielle und Diagnostische Psychologie, 20,
study of actuarial and individual methods timism, coping, and health: Assessment
1–24.
of prediction. American Journal of Socio- and implications of generalized outcome
Rugg, D. (1941). Experiments in wording logy, 48, 592–602. expectancies. Health Psychology, 4, 219–
questions. Public Opinion Quarterly, 5, 247.
Sarbin, T. R. (1944). The logic of predic-
91–92.
tion in psychology. Psychological Review, Scheier, M. F. & Carver, C. S. (1992). Ef-
51, 210–228. fects of optimism on psychological and

571
Literaturverzeichnis

physical well-being: Theoretical overview Schippmann, J. S., Prien, E. P. & Katz, Schmidt, L. R., Häcker, H. & Schwenk-
and empirical update. Cognitive Therapy J. A. (1990). Reliability and validity of mezger, P. (1985). Differentialdiagnosti-
and Research, 16, 201–228. in-basket performance measure. Person- sche Untersuchungen mit objektiven Per-
nel Psychology, 43, 837–859. sönlichkeitstests und Fragebogen im psy-
Scheier, M. F., Carver, C. S. & Bridges,
Schlenker, B. R. & Weingold, M. F. chiatrischen Bereich. Diagnostica, 31, 22–
M. W. (1994). Distinguishing optimism
(1992). Interpersonal processes involving 37.
from neuroticism (and trait anxiety, self-
mastery, and self-esteem): A reevaluati- impression regulation and management. Schmidt, L. R., Häcker, H., Schwenkmez-
on of the Life Orientation Test. Journal Annual Review of Psychology, 43, 133– ger, P. & Cattell, R. B. (1987). Objektive
of Personality and Social Psychology, 67, 168. Testbatterie (OA-TB). Revidierte und ge-
1063–1078. Schlesinger, H. J. (1954). Cognitive atti- kürzte Fassung. Weinheim: Beltz-Test.
Schein, E. H. (1985). Organizational tudes in relation to susceptibility to inter- Schmidt, L. R. & Schwenkmezger, P.
culture and leadership. San Francisco: ference. Journal of Personality, 22, 354– (1994). Differentialdiagnostische Untersu-
Jossey-Bass. 374. chungen mit objektiven Persönlichkeits-
Schmalt, H.-D. (1976). Das L-M-Gitter. tests und Fragebogen im psychiatrisch-
Scheithauer, H., Hayer, T. & Bull, H. D.
Handanweisung. Göttingen: Hogrefe. en Bereich: Neue empirische Ergebnisse.
(2007). Gewalt an Schulen am Beispiel
Diagnostica, 40, 27–41.
von Bullying. Zeitschrift für Sozialpsycho- Schmidt, F. L. & Hunter, J. E. (1983). Indi-
logie, 38(3), 141–152. vidual differences in productivity: an em- Schmidt-Atzert, L. (2002). Intelligenz-
pirical test of estimates derived from stu- Struktur-Test 2000 R (Testrezension). Zeit-
Scherer, K. R. & Wallbott, H. G. (1990). schrift für Personalpsychologie, 1, 50–56.
Ausdruck von Emotionen. In K. R. Sche- dies of selection procedure utility. Journal
rer (Ed.), Enzyklopädie der Psychologie: of Applied Psychology, 68, 407–414. Schmidt-Atzert, L. & Rauch, W. (2008).
Motivation und Emotion: Band 3. Psycho- Schmidt, F. L. & Hunter, J. E. (1992). De- Intelligenz-Struktur-Test 2000 R (IST
logie der Emotion (pp. 345–422). Göttin- velopment of causal models of processes 2000 R). 2. Auflage (Testrezension). Re-
gen: Hogrefe. determining job performance. Current Di- port Psychologie, 33(6), 303–304.
Scherm, E. & Sarges, W. (2002). 360°- rections in Psychological Science, 1, 89– Schmitt, G. M., Lohaus, A. & Salew-
Feedback. Göttingen: Hogrefe. 92. ski, C. (1989). Kontrollüberzeugungen
Schmidt, F. L. & Hunter, J. E. (1998). The und Patienten-Compliance: Eine empiri-
Scherm, M. (2004). Response 360°- sche Untersuchung am Beispiel von Ju-
Feedback. In W. Sarges & H. Wottawa validity and utility of selection methods in
personnel psychology: Practical and theo- gendlichen mit Diabetes mellitus, Asthma
(Eds.), Handbuch wirtschaftspsychologi- bronchiale und Alopecia areata. Psycho-
scher Testverfahren: Band 1. Personal- retical implications of 85 years of rese-
arch findings. Psychological Bulletin, 124, therapie Psychosomatik Medizinische Psy-
psychologische Instrumente (2. Aufl., pp. chologie, 39, 33–40.
683–689). Lengerich: Pabst. 262–274.
Schmidt, F. L., Hunter, J. E., McKenzie, Schmitt, N. & Borman, W. C. (Eds.).
Scherm, M. (2013). 360-Grad- (1993). Personnel selection in organizati-
R. C. & Muldrow, T. W. (1979). Impact of
Beurteilungen. In W. Sarges (Ed.), ons. San Francisco, CA: Jossey-Bass.
valid selection procedures on work-force
Management-Diagnostik (4. Aufl., pp.
productivity. Journal of Applied Psycholo- Schmukle, S. C. (2005). Unreliability of
864–872). Göttingen: Hogrefe.
gy, 64, 609–626. the dot probe task. European Journal of
Schermelleh-Engel, K. (1995). Fragebo- Personality, 19, 595–605.
Schmidt, F. L., Hunter, J. E. & Pearlman,
gen zur Schmerzregulation (FSR). Frank-
K. (1981). Task differences as moderators Schmukle, S. C. & Egloff, B. (2004). Does
furt a. M.: Swets.
of aptitude test validity in selection: a red the Implicit Association Test for assessing
Schermelleh-Engel, K., Moosbrugger, H. herring. Journal of Applied Psychology, anxiety measure trait and state variance?
& Müller, H. (2003). Evaluating the fit of 66, 166–185. European Journal of Personality, 18, 483–
structural equation models: Test of signifi- Schmidt, J. A. (1993). Der Allgemeine Bü- 494.
cance and descriptive goodness-of-fit mea- roarbeitstest (ABAT) – mehr als ein Büro-
sures. Methods of Psychological Research Schnabel, K. (2001). Psychologie der
test? Diagnostica, 39, 151–168. Lernumwelt. In A. Krapp & B. Weiden-
– Online, 8(2), 23–74.
Schmidt, J. U. (1984). Stabilität der In- mann (Eds.), Pädagogische Psychologie
Schermelleh-Engel, K. & Schweizer, K. teressen von Oberschülern nach Ende der (4. Aufl., pp. 467–511). Weinheim: Beltz
Multitrait-Multimethod-Analysen. (2008). Schulzeit. Psychologie und Praxis. Zeit- PVU.
In H. Moosbrugger & A. Kelava (Eds.), schrift für Organisationspsychologie, 28,
Testtheorie und Fragebogenkonstruktion Schneewind, K. A. (1984). Persönlich-
26–31. keitstheorien II. Organismische und dia-
(pp. 325–341). Heidelberg: Springer.
Schmidt, J. U. & König, F. (1986). Un- lektische Ansätze. Darmstadt: Wissen-
Schiefele, U. & Pekrun, R. (1996). Psy- tersuchungen zur Validität der revidierten schaftliche Buchgesellschaft.
chologische Modelle des selbstgesteuer- Form des Freiburger Persönlichkeitsinven-
ten und fremdgesteuerten Lernens. In F. E. Schneewind, K. A. (1999). Familienpsy-
tars (FPI-R). Diagnostica, 32, 197–208. chologie (2. Aufl.). Stuttgart: Kohlham-
Weinert (Ed.), Enzyklopädie der Psycho-
logie: Pädagogische Psychologie: Band 2. Schmidt, K. H. & Metzler, P. (1992). Wort- mer.
Psychologie des Lernens und der Instruk- schatztest (WST). Weinheim: Beltz. Schneewind, K. A., Beckmann, M. & Eng-
tion (pp. 249–278). Göttingen: Hogrefe. Schmidt, L. R. (1975). Objektive Persön- fer, A. (1983). Eltern und Kinder. Stutt-
Schindler, L. (1989). Das Codiersystem lichkeitsmessung in diagnostischer und gart: Kohlhammer.
zur Interaktion in der Psychotherapie klinischer Psychologie. Weinheim: Beltz. Schneewind, K. A., Beckmann, M. &
(CIP): Ein Instrument zur systematischen Schmidt, L. R. (1995). Psychodiagnosti- Hecht-Jackl, A. (1985). Das Familiendia-
Beobachtung des Verhaltens von Thera- sches Gutachten. In R. S. Jäger & F. Peter- gnostische Testsystem (FDTS): Konzep-
peut und Klient im Therapieverlauf. Zeit- mann (Eds.), Psychologische Diagnostik tion und Überblick. (Forschungsberichte
schrift für Klinische Psychologie, 18, 68– (3. Aufl., pp. 468–479). Weinheim: Beltz aus dem Institutsbereich Persönlichkeits-
79. PVU. psychologie und Psychodiagnostik, No. 1).

572
Literaturverzeichnis

München: Universität München, Institut Schuler, H. & Görlich, Y. (2007). Kreati- Schwarzer, R. & Jerusalem, M. (2002).
für Psychologie. vität. Ursachen, Messung, Förderung und Das Konzept der Selbstwirksamkeit. Zeit-
Schneewind, K. A. & Graf, J. (1998). 16- Umsetzung in Innovation. Göttingen: Ho- schrift für Pädagogik, 44, 28–53.
Persönlichkeits-Faktoren-Test. Revidierte grefe. Schwarzer, R. & Jerusalem, M. (Eds.).
Fassung (16PF-R). Bern: Huber. Schuler, H. & Höft, S. (2007). Diagno- (1999). Skalen zur Erfassung von
Schneewind, K. A. & Kruse, J. (2002). se beruflicher Eignung und Leistung. In Lehrer- und Schülermerkmalen. Doku-
Paarklimaskalen (PKS). Bern: Huber. H. Schuler (Ed.), Lehrbuch Organisati- mentation der psychometrischen Ver-
onspsychologie (4. Aufl., pp. 289–343.). fahren im Rahmen der Wissenschaft-
Schneewind, K. A., Ruppert, S. & Har- Bern: Huber. lichen Begleitung des Modellversuchs
row, J. (1998). Personality and family de- Selbstwirksame Schulen. Verfügbar un-
Schuler, H., Höft, S. & Hell, B. (2014).
velopment: An intergenerational longitu- ter http://www.ewi-psy.fu-berlin.de/
Eigenschaftsorientierte Verfahren der Per-
dinal comparison. Mahwah, NJ: Erlbaum. einrichtungen/arbeitsbereiche/gesund/
sonalauswahl. In H. Schuler & U. P. Kan-
Schneider, B. (1975). Organizational cli- ning (Eds.), Lehrbuch der Personalpsycho- psychomess/lehrermerkmale.html
mates: An essay. Personnel Psychology, logie (3. Aufl., pp. 195–213). Göttingen: Schwenkmezger, P. (1985). Modelle der
28, 447–479. Hogrefe. Eigenschafts- und Zustandsangst: Theore-
Schneider, S., In-Albon, T. & Margraf, Schuler, H. & Kanning, U. P. (Eds.). tische Analysen und empirische Untersu-
J. (Eds.). (2011). Diagnostisches Inter- (2014). Lehrbuch der Personalpsycholo- chungen zur Angsttheorie von Spielberger.
view bei psychischen Störungen (DIPS) (4. gie (3. Aufl.). Göttingen: Hogrefe. Göttingen: Hogrefe.
Aufl.). Berlin: Springer. Schuler, H. & Moser, K. (1995). Die Va- Schwenkmezger, P. & Hodapp, V. (1993).
Schneider, W. J. & McGrew, K. (2012). lidität des Multimodalen Interviews. Zeit- Theorie und Messung von Ärgerausdruck.
The Cattell-Horn-Carroll model of intelli- schrift für Arbeits- und Organisationspsy- In V. Hodapp & P. Schwenkmezger (Eds.),
gence. In D. P. Flanagan & P. L. Harrison chologie, 39, 2–12. Ärger und Ärgerausdruck (pp. 35–69).
(Eds.), Contemporary Intellectual Assess- Bern: Huber.
Schuler, H., Moser, K., Diemand, A. &
ment: Theories, Tests, and Issues (3rd ed.) Funke, U. (1995). Validität eines Einstel- Schwenkmezger, P., Schmidt, L. R. &
(pp. 99–144). New York: Guilford. lungsinterviews zur Prognose des Aus- Stephan-Hembach, G. (1994). Angst, Är-
Schneider, W., Basler, H.-D. & Bei- bildungserfolgs. Zeitschrift für Pädagogi- ger und Ärgerausdruck bei psychiatrisch-
senherz, B. (1989). Fragebogen zur sche Psychologie, 9, 45–54. en und psychosomatischen Patientengrup-
Messung der Psychotherapiemotivation pen: Objektive Persönlichkeitstests und
Schuler, H. & Prochaska, M. (2001). Leis- Fragebogenverfahren. Zeitschrift für Klini-
(FMP). Weinheim: Beltz-Test. tungsmotivationsinventar (LMI). Göttin- sche Psychologie, 23, 163–177.
Schuerger, J. M. & Cattell, R. B. (1976). gen: Hogrefe.
Schwerdtfeger, A. & Kohlmann, C.-W.
The High School Objective-Analytic Per- Schulte, D. (1976). Psychodiagnostik zur (2004). Repressive coping style and the si-
sonality Battery. Champaign, IL: Institute Erklärung und Modifikation von Verhal- gnificance of verbal-autonomic response
for Personality and Ability Testing. ten. In K. Pawlik (Ed.), Diagnose der Dia- dissociations. In U. Hentschel, G. Smith,
Schuler, H. (1991). Leistungsbeurteilung – gnostik (pp. 149–176). Stuttgart: Klett. J. G. Draguns & W. Ehlers (Eds.), Defen-
Funktionen, Formen und Wirkungen. In H. Schulte, D. & Kemmler, L. (1974). Syste- se mechanisms. Theoretical, research and
Schuler (Ed.), Beurteilung und Förderung matische Beobachtung in der Verhaltens- clinical perspectives (pp. 239–278). Ams-
beruflicher Leistung (pp. 11–40). Göttin- therapie. In D. Schulte (Ed.), Diagnostik terdam: Elsevier.
gen: Hogrefe. in der Verhaltenstherapie (pp. 152–195). Scotti, J. R. & Morris, T. M. (2000). Dia-
Schuler, H. (1992). Das Multimodale Ein- München: Urban & Schwarzenberg. gnosis and classification. In M. Hersen &
stellungsinterview. Diagnostica, 38, 281– Schulz, P., Schlotz, W. & Becker, P. R. T. Ammerman (Eds.), Advanced abnor-
300. (2004). Trierer Inventar zum chronischen mal child psychology (2nd ed., pp. 15–32).
Schuler, H. (1998). Noten und Studien- Stress (TICS). Göttingen: Hogrefe. Mahwah, NJ: Erlbaum.
und Berufserfolg. In D. H. Rost (Ed.), Schumacher, J., Klaiberg, A. & Brähler, Seiffge-Krenke, I. et al. (1996). Chronisch
Handwörterbuch Pädagogische Psycholo- E. (Eds.). (2003). Diagnostische Verfah- kranke Jugendliche und ihre Familien. Be-
gie (pp. 370–374). Weinheim: Psycholo- ren zu Lebensqualität und Wohlbefinden. lastung, Bewältigung und psychosoziale
gie Verlags Union. Göttingen: Hogrefe. Folgen. Stuttgart: Kohlhammer.
Schuler, H. (2002). Das Einstellungsinter- Schütz, A. (2003). Psychologie des Selbst- Seitz, W. & Rausche, A. (2004). Persön-
view. Ein Arbeits- und Trainingsbuch. Göt- wertgefühls (2. Aufl.). Stuttgart: Kohlham- lichkeitsfragebogen für Kinder zwischen 9
tingen: Hogrefe. mer. und 14 Jahren (PFK 9–14) (4. Aufl.). Göt-
Schuler, H. (2004). Leistungsbeurteilung Schwarz, J. C., Barton-Henry, M. & Pru- tingen: Hogrefe.
- Gegenstand, Funktionen und Formen. In zinsky, T. (1985). Assessing child-rearing Seligman, M. E. P. (1975). Helplessness.
H. Schuler (Ed.). Beurteilung und Förde- behaviors: A comparison of ratings made On depression, development, and death.
rung beruflicher Leistung (2. Aufl., pp. 1- by mother, father, child, and sibling on the San Francisco, CA: Freeman.
23). Göttingen: Hogrefe. CRPBI. Child Development, 56, 462–479. Shapiro, D. & Tagiuri, R. (1958). Some
Schuler, H. (2014a). Arbeits- und Anfor- Schwarz, N. (1999). How the questions effects of response context on trait infe-
derungsanalyse. In H. Schuler & U. P. shape the answers. American Psycholo- rences. Journal of Personality, 26, 42–50.
Kanning (Eds.), Lehrbuch der Personal- gist, 54, 93–105. Shedler, J. & Westen, D. (1998). Refining
psychologie (3. Aufl., pp. 61–97). Göttin- Schwarzer, R. (1994). Optimistische Kom- the Measurement of Axis II: A Q-Sort Pro-
gen: Hogrefe. petenzerwartung: Zur Erfassung einer per- cedure for Assessing Personality Patholo-
Schuler, H. (2014b). Gegenstand und sonellen Bewältigungsressource. Diagno- gy. Assessment, 5, 333–353.
Aufgaben der Personalpsychologie. In H. stica, 40, 105–123. Sherbourne, C. D., Wells, K. B., Mere-
Schuler & U. P. Kanning (Eds.), Lehrbuch Schwarzer, R. (1996). Psychologie des Ge- dith, L. S., Jackson, C. A. & Camp, P.
der Personalpsychologie (3. Aufl., pp. 13– sundheitsverhaltens (2. Aufl.). Göttingen: (1996). Comorbid anxiety disorder and the
23). Göttingen: Hogrefe. Hogrefe. functioning and well-being of chronically

573
Literaturverzeichnis

ill patients of general medical providers. Spangler, W. D. (1992). Validity of ques- Spielberger, C. D., Vagg, P. R., Barker, L.
Archives of General Psychiatry, 53, 889– tionnaire and TAT measures of need for R., Donham, G. W. & Westberry, L. G.
895. achievement: Two meta-analyses. Psycho- (1980). The factor structure of the State-
Shrout, P. E. & Fleiss, J. L. (1979). In- logical Bulletin, 112, 140–154. Trait Anxiety Inventory. In I. G. Sarason &
traclass correlation: uses in assessing ra- Spearman, C. (1904). „General intelli- C. D. Spielberger (Eds.), Stress and anxie-
ter reliability. Psychological Bulletin, 86, gence“, objectively determined and mea- ty (Vol. 7, pp. 95–109). Washington, DC:
420–428. sured. American Journal of Psychology, Hemisphere.
15, 201–292. Spinath, B., Stiensmeier-Pelster, J., Schö-
Shweder, R. A. (1982). Fact and artifact in ne, C. & Dickhäuser, O. (2012). Skalen
trait perception: The systematic distorsion Spearman, C. (1927). The abilities of man:
their nature and measurement. London: zur Erfassung der Lern- und Leistungsmo-
hypothesis. In B. A. Maher & W. B. Ma- tivation (SELLMO) (2. Aufl.). Göttingen.
her (Eds.), Progress in experimental perso- Macmillan.
Hogrefe.
nality research (Vol.11, pp. 65–100). San Spence, J. T. & Spence, K. W. (1966).
Diego, CA: Academic Press. Spitzer, R. L. & Fleiss, J. L. (1974). A
The motivational components of manifest
re-analysis of the reliability of psychiatric
Siegelman, M. (1965). Evaluation of Bron- anxiety: Drive and drive stimuli. In C.
diagnosis. British Journal of Psychiatry,
fenbrenner’s questionnaire for children D. Spielberger (Ed.), Anxiety and behavi-
125, 341–347.
concerning parental behavior. Child Deve- or (pp. 291–326). New York: Academic
Press. Spitzer, R. L., Forman, J. & Nee, J. (1979).
lopment, 36, 163–174.
DSM-III field trials: I. Initial interrater dia-
Siegrist, J., Broer, M. & Junge, A. (1996). Spielberger, C. D. (1966). Theory and re- gnostic reliability. American Journal of
Profil der Lebensqualität Chronisch Kran- search on anxiety. In C. D. Spielberger Psychiatry, 136, 818–820.
ker (PLC). Göttingen: Beltz-Test. (Ed.), Anxiety and behavior (pp. 3–20).
New York: Academic Press. Spray, J. A. & Reckase, M. D. (1996).
Siegrist, M. (1997). Test-retest reliabili- Comparison of SPRT and sequential
ty of different versions of the Stroop test. Spielberger, C. D. (1972). Anxiety as an Bayes procedures for classifying exami-
Journal of Psychology, 131, 299–306. emotional state. In C. D. Spielberger (Ed.), nees into two categories using a compute-
Anxiety: Current trends in theory and rese- rized test. Journal of Educational and Be-
Silverman, J. (1964). Scanning-control arch (Vol. 1, pp. 23–49). New York: Aca- havioral Statistics, 21, 405–414.
mechanism and „cognitive filtering“ in demic Press.
paranoid and nonparanoid schizophrenia. Spreen, O. (Ed.). (1963). MMPI Saar-
Spielberger, C. D. (1975). Anxiety: State- brücken. Bern: Huber.
Journal of Consulting Psychology, 28,
trait-process. In C. D. Spielberger & I. G.
385–393. Stangier, U., Ehlers, A. & Gieler, U.
Sarason (Eds.), Stress and anxiety (Vol.
Smith, C. A., Organ, D. W. & Near, J. P. (1996). Fragebogen zur Bewältigung von
1, pp. 115–143). Washington, DC: Hemis-
(1983). Organizational citizenship behavi- Hautkrankheiten (FBH). Göttingen: Ho-
phere.
or: Its nature and antecedents. Journal of grefe.
Spielberger, C. D. (1980). Test Anxiety In-
Applied Psychology, 68, 653–663. Stapf, K. H. (1980). Methoden und Ver-
ventory (TAI). Palo Alto, CA: Consulting
fahrenstechniken im Bereich der Erzie-
Smith, P. C. & Kendall, L. M. (1963). Re- Psychologists.
hungsstilforschung. In K. A. Schneewind
translation of expectations: An approach Spielberger, C. D. (1983). State-Trait An- & T. Herrmann (Eds.), Erziehungsstilfor-
to the construction of unambigous anchors xiety Inventory: A comprehensive biblio- schung. Theorien, Methoden und Anwen-
for rating scales. Journal of Applied Psy- graphy. Palo Alto, CA: Consulting Psy- dung der Psychologie elterlichen Erzie-
chology, 47, 149–155. chologists. hungsverhaltens (pp. 89–120). Bern: Hu-
Snow, R. E. (1989). Aptitude-treatment in- Spielberger, C. D. (1988). Manual for ber.
teraction as a framework for research on the State-Trait Anger Expression Invento- Stapf, K. H., Herrmann, T., Stapf, A. &
individual differences in learning. In P. L. ry (STAXI). Odessa, FL: Psychological As- Stäcker, K. H. (1972). Psychologie des el-
Ackerman, R. J. Sternberg & R. Glaser, sessment Resources. terlichen Erziehungsstils. Bern, Stuttgart:
Learning and individual differences: Ad- Huber, Klett.
vances in theory and research (pp. 13–59). Spielberger, C. D. (2000). State-Trait An-
New York: Freeman. ger Expression Inventory 2 (STAXI-2). Statistisches Bundesamt (2010). Bildung
Odessa, Fl.: Psychological Assessment und Kultur. Allgemeinbildende Schulen.
Snyder, M. (1987). Public appearances, Resources. Schuljahr 2007/08. Fachserie 11, Reihe 1.
private realities: The psychology of self- www.destatis.de.
monitoring. New York: Freeman. Spielberger, C. D., et al. (1985). The expe-
rience and expression of anger: Construc- Staufenbiel, T. (2013). Probleme der Mes-
Snyder, M., Tanke, E. D. & Berscheid, E. tion and validation of an Anger Expressi- sung von Management-Leistung. In W.
(1977). Social perception and interperso- on Scale. In M. A. Chesney & R. H. Ro- Sarges (Ed.), Management-Diagnostik (4.
nal behavior: On the self-fulfilling nature senman (Eds.), Anger and hostility in car- Aufl., pp. 962–969). Göttingen: Hogrefe.
of stereotypes. Journal of Personality and diovascular and behavioral disorders (pp. Staufenbiel, T. & Hartz, C. (2000). Orga-
Social Psychology, 35, 656–666. 5–30). New York: Hemisphere. nizational Citizenship Behavior: Entwick-
Sokolowski, K., Schmalt, H.-D., Longens, Spielberger, C. D., Gorsuch, R. L. & Lus- lung und erste Validierung eines Meßin-
T. A. & Puca, R. M. (2000). Assessing hene, R. E. (1970). STAI Manual for the struments. Diagnostica, 46, 73–83.
achievement, affiliation, and power moti- State-Trait Anxiety Inventory. Palo Alto, Stegmüller, W. (1973). Probleme und Re-
ves all at once – the Multi-Motive-Grid CA: Consulting Psychologists. sultate der Wissenschaftstheorie und ana-
(MMG). Journal of Personality Assess- Spielberger, C. D. & Sydeman, S. J. lytischen Philosophie. Erster Halbband:
ment, 74, 126–145. (1994). State-Trait Anxiety Inventory and Personelle Wahrscheinlichkeit und Ratio-
Spada, H. & Reimann, P. (1988). Wis- State-Trait Anger Expression Inventory. In nale Entscheidung. Berlin: Springer.
sensdiagnostik auf kognitionspsychologi- M. E. Maruish (Ed.), The use of psycholo- Steil, R. & Füchsel, G. (2005). Interviews
scher Basis. Zeitschrift für Differentielle gical tests for treatment planning and out- zu Belastungsstörungen bei Kindern und
und Diagnostische Psychologie, 9, 183– come assessment (pp. 292–321). Hillsdale, Jugendlichen (IBS-KJ). Göttingen: Hogre-
192. NJ: Erlbaum. fe.

574
Literaturverzeichnis

Steinbrink, C. & Lachmann, T. (2014). assessment. European Journal of Psycho- Stokes, G. S. & Searcy, C. A. (1999). Spe-
Lese-Rechtschreibstörung. Grundlagen, logical Assessment, 2, 79–98. cification of scales in biodata form deve-
Diagnostik, Intervention. Berlin: Springer Steyer, R., Ferring, D. & Schmitt, M. J. lopment: rational vs. empirical and global
VS. (1992). States and traits in psychological vs. specific. International Journal of Selec-
assessment. European Journal of Psycho- tion and Assessment, 7, 72–85.
Steinmayr, R., Schütz, A., Hertel, J.
& Schröder-Abé, M. (2011). Mayer- logical Assessment, 8, 79–98. Stouthard, M. E. A., Mellenbergh, G. J.
Salovey-Caruso Emotional Intelligence & Hoogstraten, J. (1993). Assessment of
Steyer, R. & Schmitt, M. (1990). La-
Test (MSCEIT). Bern: Huber. dental anxiety: A facet approach. Anxiety,
tent state-trait models in attitude research.
Stress, and Coping, 6, 89–105.
Steller, M. & Volbert, R. (Eds.). (1997). Quality and Quantity, 24, 427–445.
Psychologie im Strafverfahren. Ein Hand- Strauß, B. & Schumacher, J. (Eds.).
Steyer, R., Schmitt, M. & Eid, M. (1999). (2005). Klinische Interviews und Rating-
buch. Bern: Huber. Latent state-trait theory and research in skalen. Göttingen: Hogrefe.
Stemmler, G., Hagemann, D., Amelang, personality and individual differences. Eu-
ropean Journal of Personality, 13, 389– Streufert, S., Pogash, R. & Piasecki, M.
M. & Bartussek, D. (2011). Differentielle
408. (1988). Simulation-based assessment of
Psychologie und Persönlichkeitsforschung
managerial competence: Reliability and
(7. Aufl.). Stuttgart: Kohlhammer. Steyer, R., Schmitt, M. & Eid, M. (1999). validity. Personnel Psychology, 41, 537–
Stengel, E. (1959). Classification of men- Latent state-trait theory and research in 557.
tal disorders. Bulletin of the World Health personality and individual differences. Eu-
ropean Journal of Personality, 13, 389– Strian, F. (Ed.). (1983). Angst. Grundla-
Organization, 21, 601–663. gen und Klinik. Heidelberg: Springer.
408.
Stephenson, W. (1953). The study of be- Strobel, A. & Westhoff, K. (2009). DIPA
havior: Q-technique and its methodology. Stieglitz, R.-D. (1994). Selbst- und
– Diagnoseinstrument zur Erfassung von
Chicago, IL: University of Chicago Press. Fremdbeurteilung in der psychologisch-
Interviewerkompetenz in der Personalaus-
psychiatrischen Diagnostik und Therapie-
Stern, W. (1912). Die psychologischen wahl. Frankfurt a. M.: Pearson.
forschung. In P. L. Janssen & W. Schnei-
Methoden der Intelligenzprüfung. In F. der (Eds.), Diagnostik in Psychotherapie Strobl, C. (2012). Das Rasch-Modell (2.
Schumann (Ed.), Bericht über den 5. Kon- und Psychosomatik (pp. 37–64). Stuttgart: Aufl.). München: Rainer Hampp.
greß für Experimentelle Psychologie in Gustav Fischer. Strong, E. K. (1938). Vocational interest
Berlin 1912 (pp. 1–109). Leipzig: Barth. blank. Stanford, CA: Stanford University
Stiensmeier-Pelster, J. Braune-Krickau,
Stern, W. (1920). Intelligenzprüfungen M., Schürmann, M. & Duda, K. (2014). Press.
an Kindern und Jugendlichen. Leipzig: Depressionsinventar für Kinder und Ju- Stroop, J. R. (1935). Studies of interfe-
Barth. gendliche (DIKJ) (3. Aufl.). Göttingen: rence in serial verbal learning. Journal of
Sternberg, R. J. (1984). Toward a triarchic Hogrefe. Experimental Psychology, 18, 643–661.
theory of human intelligence. The Behavi- Stiensmeier-Pelster, J., Schürmann, Stumpf, H., Angleitner, A., Wieck, T.,
oral and Brain Sciences, 7, 269–315. M., Eckert, C., Pelster, A. (1994). Jackson, D. N. & Beloch-Till, H. (1985).
Attributionsstil-Fragebogen für Kinder Deutsche Personality Research Form
Sternberg, R. J. (1985). Beyond IQ. A tri-
und Jugendliche (AFS-KJ). Göttingen: (PRF). Göttingen: Hogrefe.
archic theory of human intelligence. Cam-
bridge, UK: Cambridge University Press. Hogrefe. Stumpf, H. & Fay, E. (1983). Schlauchfi-
Stigler, J. W., Gonzales, P., Kawanaka, guren – Ein Test zur Beurteilung des räum-
Sternberg, R. J. (1986). Intelligence app- lichen Vorstellungsvermögens. Göttingen:
lied. Understanding and increasing your T., Knoll, S. & Serrano, A. (1999). The
TIMSS videotape classroom study: Me- Hogrefe.
intellectual skills. San Diego, CA: Har-
court Brace Jovanovich. thods and findings from an explorato- Stumpf, S. (2013). Planspiele. In W.
ry research project on eighth-grade ma- Sarges (Ed.), Management-Diagnostik (4.
Sternberg, R. J. (1998). Erfolgsintelligenz. thematics instruction in Germany, Japan, Aufl., pp. 700–709). Göttingen: Hogrefe.
Warum wir mehr brauchen als IQ und EQ. and the United States. Washington, DC: Stunkard, A. J. & Messick, S. (1985). The
München: Lichtenberg. U.S. Government Printing Office. Retrie- three factor eating questionnaire to measu-
Sternberg, R. J. & Grigorenko, E. L. ved from http://nces.ed.gov/timss. re dietary restraint, disinhibition, and hun-
(1997). Are cognitive styles still in style? Stöber, J. (1999). Die Soziale-Erwünscht- ger. Journal of Psychosomatic Research,
American Psychologist, 52, 700–712. heits-Skala-17 (SES-17): Entwicklung 29, 71–83.
Sternberg, R. J., Wagner, R. K., Williams, und erste Befunde zu Reliabilität und Sturzbecher, D. & Freytag, R.
W. M. & Horvath, J. A. (1995). Testing Validität. Diagnostica, 45, 173–177. (2000). Familien- und Kindergarten-
common sense. American Psychologist, Stogdill, R. M. (1948). Personal factors as- Interaktionstest (FIT-KIT). Göttingen:
50, 912–927. sociated with leadership: A survey of the Hogrefe.
Stevens, S. S. & Stone, G. (1959). Finger literature. Journal of Personality, 25, 35– Swann, W. B. (1984). Quest for accuracy
span: Ratio scale, category scale, and jnd 71. in person perception: A matter of pragma-
scale. Journal of Experimental Psycholo- Stogdill, R. M. (1963). Manual for tics. Psychological Review, 91, 457–477.
gy, 57, 91–95. the Leader Behavior Description Ques- Swanson, J. E., Rudman, L. A. & Green-
tionnaire, Form XII. Columbus, OH: Bu- wald, A. G. (2001). Using the Implicit
Stewart, G. L. (1996). Reward structure as
reau of Business Research, Ohio State Association Test to investigate attitude-
a moderator of the relationship between
University. behavior consistency for stigmatized be-
extraversion and sales performance. Jour-
nal of Applied Psychology, 81, 619–627. Stokes, G. S., Mumford, M. D. & Owens, havior. Cognition and Emotion, 15, 207–
W. A. (Eds.). (1994). Biodata handbook: 230.
Steyer, R. & Eid, M. (1993). Messen und
Theory, research, and use of biographical Sweney, A. B., Cattell, R. B. & Krug, S.
Testen. Berlin: Springer.
information in selection and performance (1970). The School Motivation Analysis
Steyer, R., Ferring, D. & Schmitt, M. prediction. Palo Alto, CA: Consulting Psy- Test. Champaign, IL: Institute for Persona-
(1992). States and traits in psychological chologists. lity and Ability Testing.

575
Literaturverzeichnis

Swets, J. A., Dawes, R. M. & Monahan, Terlinden-Arzt, P., Klüber, A. & West- Thurstone, L. L. (1938). Primary mental
J. (2000). Psychological science can im- hoff, K. (2004). Die Planung entschei- abilities. Chicago, IL: University of Chi-
prove diagnostic decisions. Psychological dungsorientierter psychologischer Begut- cago Press.
Science in the Public Interest, 1, 1–26. achtung für das Familiengericht. Praxis Thurstone, L. L. (1947). Multiple-factor
der Rechtspsychologie, 14, 22–31. analysis. Chicago, IL: University of Chi-
Terman, L. M. (1916). The measurement cago Press.
T of intelligence: An explanation of and a Thurstone, L. L. (1949). Thurstone Tem-
Tack, W. H. (1976). Diagnostik als Ent- complete guide for the use of the Stan- perament Schedule. Chicago, IL: Science
scheidungshilfe. In K. Pawlik (Ed.), Dia- ford revision and extension of the Binet- Research Associates.
gnose der Diagnostik (pp. 103–130). Stutt- Simon Intelligence Scale. Boston, MA: Thurstone, L. L. & Thurstone, T. G.
gart: Klett. Houghton Mifflin. (1941). Factorial structure of intelligence.
Taft, R. (1955). The ability to judge peo- Terman, L. M. & Merrill, M. A. (1937). Chicago: University of Chicago Press.
ple. Psychological Bulletin, 52, 1–23. Measuring intelligence. Boston, MA: Tiedemann, J. (1974). Die Problematik der
Tagiuri, R. (1969). Person perception. Houghton Mifflin. Schuleingangsdiagnostik unter entschei-
In G. Lindzey & E. Aronson (Eds.), dungstheoretischem Aspekt. Zeitschrift
Testkuratorium der Föderation Deutscher
The handbook of social psychology: Vol. für Entwicklungspsychologie und Pädago-
Psychologenvereinigungen (2009). TBS-
3. The individual in a social context gische Psychologie, 6, 124–132.
TK. Testbeurteilungssystem des Testkura-
(pp. 395–449). Reading, MA: Addison- Tiedemann, J. (1983). Der kognitive Stil
toriums der Föderation Deutscher Psycho-
Wesley. Impulsivität-Reflexivität: Eine kritische
logenvereinigungen. Revidierte Fassung
Tajfel, H., Everstine, L. & Richardson, A. vom 09. September 2009. Report Psycho- Bestandsaufnahme. Zeitschrift für Ent-
(1964). Individual judgment consistencies logie, 34, 470–478, sowie Psychologische wicklungspsychologie und Pädagogische
in conditions of risk taking. Journal of Per- Rundschau, 2010, 61, 52–56. Psychologie, 15, 66–74.
sonality, 32, 550–565. Todt, E. (1971). Differentieller Interessen-
Tett, R. P., Jackson, D. N. & Rothstein, M.
Tausch, R. (1962). Merkmalsbeziehun- Test (DIT) (2. Aufl.). Bern: Huber.
(1991). Personality measures as predictors
gen und psychologische Vorgänge in der of job performance: A meta-analytic re- Tondorf, G. (2005). Psychologische
Sprachkommunikation des Unterrichts. view. Personnel Psychology, 44, 704–742. und psychiatrische Sachverständige
Zeitschrift für experimentelle und ange- im Strafverfahren. Verteidigung bei
wandte Psychologie, 9, 474–508. Tewes, U. (1991). Hamburg-Wechsler In- Schuldfähigkeits- und Prognosebegutach-
Tausch, R. (1973). Gesprächspsychothera- telligenztest für Erwachsene. Revision tung (2. Aufl.). Heidelberg: C. F. Müller.
pie (5. Aufl.). Göttingen: Hogrefe. 1991. Bern: Huber. Tränkle, U. (1983). Fragebogenkonstruk-
Taylor, H. C. & Russell, J. T. (1939). The Tewes, U., Rossmann, P. & Schallber- tion. In H. Feger & J. Bredenkamp
relationship of validity coefficients to the ger, U. (1999). HAWIK-III. Hamburg- (Eds.), Enzyklopädie der Psychologie:
practical effectiveness of tests in selection: Wechsler-Intelligenz-Test für Kinder. Forschungsmethoden der Psychologie:
discussion and tables. Journal of Applied Übersetzung und Adaptation der WISC-III Band 2. Datenerhebung (pp. 222–301).
Psychology, 23, 565–578. Wechsler Intelligence Scale for Children. Göttingen: Hogrefe.
Taylor, J. A. (1953). A personality scale Bern: Huber. Trost, G. (1986). Die Bedeutung des In-
of manifest anxiety. Journal of Abnormal Thiel, R. D., Keller, G. & Binder, A. terviews für die Diagnose der Studieneig-
and Social Psychology, 48, 285–290. (1979). Arbeitsverhaltensinventar (AVI). nung. Darstellung der internationalen For-
Braunschweig: Westermann. schungsergebnisse. In R. Lohölter, K. Hin-
Taylor, S. E. (2003). Health psychology richsen, G. Trost & S. Drolshagen (Eds.),
(5th ed.). New York: McGraw-Hill. Thiex, D. (2006). Persönliche Ziele als Das Interview bei der Zulassung zum Me-
Taylor, S. E. & Fiske, S. T. (1978). Sali- Motivatoren und Regulatoren im Sport. dizinstudium (pp. 49–80). Stuttgart: Schat-
ence, attention and attribution: Top of the Unveröffentlichte Dissertation, Johannes tauer.
head phenomena. In L. Berkowitz (Ed.), Gutenberg-Universität, Mainz.
Advances in experimental social psycholo-
gy (Vol. 11, pp. 249–288). New York: Aca- Thoits, P. A. (1985). Social support and U
demic Press. psychological well-being: Theoretical pos-
sibilities. In I. G. Sarason & B. R. Sarason Uhlenhut, E. H. (1985). The measurement
Taylor, S. & Cox, B. J. (1998). An expan- (Eds.), Social support: Theory, research, of anxiety: Reply to Finney. In A. H. Tu-
ded Anxiety Sensitivity Index: Evidence and applications (pp. 51–72). Dordrecht, ma & J. D. Maser (Eds.), Anxiety and the
for a hierarchical structure in a clinical The Netherlands: Martinus Nijhoff. anxiety disorders (pp. 675–679). Hillsdale,
sample. Journal of Anxiety Disorders, 12, NJ: Erlbaum.
463–483. Thorndike, E. L. (1922). Practice effects in
Undeutsch, U. & Hermans, H. J. M.
intelligence tests. Journal of Experimental
Tellegen, A. (1985). Structures of mood (1976). Leistungsmotivationstest für
Psychology, 5, 101–107.
and personality and their relevance to as- Jugendliche (LMT-J). Amsterdam, NL:
sessing anxiety, with an emphasis on self- Thornton, G. C., Gaugler, B. B., Rosen- Swets & Zeitlinger.
report. In A. H. Tuma & J. D. Maser thal, D. & Bentson, C. (1987). Die prädik- Unnewehr, S., Schneider, S. & Margraf, J.
(Eds.), Anxiety and the anxiety disorders tive Validität des Assessment Centers: Ei- (2009). Diagnostisches Interview bei psy-
(pp. 681–706). Hillsdale, NJ: Erlbaum. ne Metaanalyse. In H. Schuler & W. Steh- chischen Störungen im Kindes- und Ju-
Tellegen, A. et al. (1988). Personality si- le (Eds.), Assessment Center als Metho- gendalter (Kinder-DIPS) (2.Aufl.). Berlin:
milarity in twins reared apart and together. de der Personalentwicklung (pp. 36–60). Springer.
Journal of Personality and Social Psycho- Stuttgart: Verlag für Angewandte Psycho-
Urban, T. & Kohlmann, C.-W. (1994). Vi-
logy, 54, 1031–1039. logie.
gilante Streßbewältigung und der Umgang
Tellegen, P. J., Laros, J. A. & Peter- Thurstone, L. L. (1931). The measurement mit Unsicherheit. Zeitschrift für Differen-
mann, F. (2007). Non-verbaler Intelligenz- of attitudes. Journal of Abnormal and So- tielle und Diagnostische Psychologie, 15,
test (SON-R 2½-7). Göttingen: Hogrefe. cial Psychology, 26, 249–269. 49–62.

576
Literaturverzeichnis

Uziel, L. (2010). Rethinking social de- von Marées, N. & Petermann, F. (2010). scales. Health Education Monographs, 6,
sirability scales: From impression mana- Bullying- und Viktimisierungsfragebogen 161–170.
gement to interpersonally oriented self- (BVF). Göttingen: Hogrefe. Walters, G. C. & Grusec, J. E. (1977). Pu-
control. Perspectives on Psychological von Rosenstiel, L. (1972). Motivation im nishment. San Francisco: Freeman.
Science, 5, 243–262. Betrieb. München: Goldmann. Warm, J. S., Parasuraman, R., & Matt-
Uziel, L. (2010). Rethinking social de- von Rosenstiel, L. & Kaschube, J. (2014). hews, G. (2008). Vigilance requires hard
sirability scales: From impression mana- Führung. In H. Schuler & U. P. Kanning mental work and is stressful. Human Fac-
gement to interpersonally oriented self- (Eds.), Lehrbuch der Personalpsychologie tors, 50(3), 433–441.
control. Perspectives on Psychological (3. Aufl., pp. 677–724). Göttingen: Hogre-
Science, 5(3), 243–262. Warnke, A., Trott, G.-E. & Remschmidt,
fe. H. (Eds.). (1997). Forensische Kinder-
von Zerssen, D., Barthelmes, H. et al. und Jugendpsychiatrie. Ein Handbuch für
V (1998). The Biographical Personality In-
terview (BPI) – a new approach to the
Klinik und Praxis. Bern: Huber.
Watkins, C. E., Campbell, V. L., Nieber-
van der Linden, W. J., & Glas, C. A. W. assessment of premorbid personality in ding, R. & Hallmark, R. (1995). Contem-
(Eds.). (2010). Elements of adaptive tes- psychiatric research. Part II: Psychome- porary practice of psychological assess-
ting. New York: Springer. tric properties. Journal of Psychiatric Re- ment by clinical psychologists. Professio-
van Dick, R. & West, M. A. (2005). search, 32, 25–35. nal Psychology: Research and Practice,
Teamwork, Teamdiagnose, Teamentwick- von Zerssen, D. & Petermann, F. (2011). 26, 54–60.
lung. Göttingen: Hogrefe. B-LR. Beschwerden-Liste – Revidierte Watson, D. & Clark, L. A. (1984). Nega-
van Hooff, J. A. R. A. M. (1982). Ca- Fassung. Göttingen: Hogrefe. tive affectivity: The disposition to experi-
tegories and sequences of behavior: Me- von Zerssen, D., Possl, J. et al. (1998). The ence aversive emotional states. Psycholo-
thods of description and analysis. In K. Biographical Personality Interview (BPI) gical Bulletin, 96, 465–490.
R. Scherer & P. Ekman (Eds.), Hand- – a new approach to the assessment of Watson, D., Clark, L. A. & Carey, G.
book of methods in nonverbal behavior premorbid personality in psychiatric rese- (1988). Positive and negative affect and
research (pp. 362–439). Cambridge, UK: arch. Part I: Development of the instru- their relationship to anxiety and depressi-
Cambridge University Press. ment. Journal of Psychiatric Research, 32, ve disorders. Journal of Abnormal Psycho-
Van Scotter, J. R. & Motowidlo, S. J. 19–25. logy, 97, 346–353.
(1996). Interpersonal facilitation and job Vormbrock, F. & Neuser, J. (1983). Watson, D., Clark, L. A. & Tellegen, A.
dedication as separate facets of contextual Konstruktion zweier spezifischer Trait- (1988). Development and validation of
performance. Journal of Applied Psycho- Fragebogen zur Erfassung von Angst in brief measures of positive and negative af-
logy, 81, 525–531. sozialen Situationen (SANB und SVSS). fect: The PANAS scales. Journal of Per-
Vane, J. R. (1981). The Thematic Apper- Diagnostica, 29, 165–182. sonality and Social Psychology, 54, 1063–
ception Test: A review. Clinical Psycholo- Vroom, V. H. & Yetton, P. (1973). Leader- 1070.
gy Review, 1, 319–336. ship and decision-making. Pittsburgh, PA: Watson, D. & Tellegen, A. (1985). Toward
Varma, A., DeNisi, A. S. & Peters, L. University of Pittsburgh Press. a consensual structure of mood. Psycholo-
H. (1996). Interpersonal affect and perfor- gical Bulletin, 98, 219–235.
mance appraisal: A field study. Personnel Weber, H. (2005). Persönlichkeit und Ge-
Psychology, 49, 341–360. W sundheit. In R. Schwarzer (Ed.), Enzyklo-
Varner, G. F. (1922). Can teachers select Wagner, H. & Baumgärtel, F. (1978). pädie der Psychologie: Gesundheitspsy-
bright and dull pupils? Journal of Educa- Hamburger Persönlichkeitsfragebogen für chologie. Band 1. Gesundheitspsychologie
tional Research, 6, 126–132. Kinder (HAPEF-K). Göttingen: Hogrefe. (pp. 129–147). Göttingen: Hogrefe.
Vehrs, W. (1986). Nicht-verbale Erlebnis- Wagner, I. (1973). Trainingsversuche mit Weber, H. & Westmeyer, H. (2001). Die
beschreibung. Göttingen: Hogrefe. kognitiv impulsiven Kindern. Archiv für Inflation der Intelligenzen. In E. Stern &
Vernon, P. E. (1933). Some characteristics Psychologie, 125, 288–316. J. Guthke (Eds.). Perspektiven der Intelli-
of the good judge of personality. Journal Wagner, I. & Cimiotti, E. (1975). Impulsi- genzforschung (pp. 251–266). Lengerich:
of Social Psychology, 4, 42–57. ve und reflexive Kinder prüfen Hypothe- Pabst.
Vernon, P. E. (1965). Ability factors and sen: Strategien beim Problemlösen, auf- Weber, M. (1921). Wirtschaft und Gesell-
environmental influences. American Psy- gezeigt an Blickbewegungen. Zeitschrift schaft. Grundriß der verstehenden Sozio-
chologist, 20, 723–733. für Entwicklungspsychologie und Pädago- logie (2. Aufl.). Köln: Kiepenheuer und
gische Psychologie, 7, 1–15. Witsch.
Vinchur, A. J., Schippmann, J. S., Swit-
zer, F. S. & Roth, P. L. (1998). A meta- Wagner, R. K. & Torgesen, J. K. (1987). Wechsler, D. (1939). The measurement of
analytic review of predictors of job perfor- The nature of phonological processing and adult intelligence. Baltimore, MD: Wil-
mance for salespeople. Journal of Applied its causal role in the acquisition of reading liams & Wilkins.
Psychology, 83, 586–597. skills. Psychological Bulletin, 101, 192– Wechsler, D. (1949). Manual for the
212. Wechsler Intelligence Scale for Children.
Viswesvaran, C., Ones, D. S. & Schmidt, F.
L. (1996). Comparative analysis of the re- Wald, A. (1947). Sequential analysis. New New York: Psychological Corporation.
liability of job performance ratings. Jour- York: Wiley. Wechsler, D. (1955). Manual for the
nal of Applied Psychology, 81, 557–574. Walk, R. D. (1956). Self ratings of fear in a Wechsler Adult Intelligence Scale. New
Vohs, K. D. & Heatherton, T. F. (2001). fear-invoking situation. Journal of Abnor- York: Psychological Corporation.
Self-esteem and threats to self: Implicati- mal and Social Psychology, 52, 171–178. Wechsler, D. (1991). Wechsler intelligence
ons for self-construals and interpersonal Wallston, K. A., Wallston, B. S. & DeVel- scale for children (WISC-III) (3rd ed.).
perceptions. Journal of Personality and lis, R. (1978). Development of the multidi- San Antonio, TX: Psychological Corpora-
Social Psychology, 81, 1103–1118. mensional health locus of control (MHLC) tion.

577
Literaturverzeichnis

Wechsler, D. (1997). Wechsler adult intel- Westen, D. & Weinberger, J. (2005). In critique and an alternative. Psychological
ligence scale (3rd ed.). San Antonio, TX: praise of clinical judgment: Meehl’s for- Inquiry, 4, 75–90.
Psychological Corporation. gotten legacy. Journal of Clinical Psycho- Widiger, T. A. & Samuel, D. B. (2005).
logy, 61, 1257–1276. Diagnostic categories or dimensions? A
Weinert, A. B. (1987). Lehrbuch der Orga-
nisationspsychologie (2. Aufl.). München: Westenhöfer, J., Pudel, V., Maus, N. & question for the Diagnostic and Statistical
Psychologie Verlags Union. Schlaf, G. (1987). Das kollektive Diätver- Manual of Mental Disorders – Fifth Editi-
halten deutscher Frauen als Risikofaktor on. Journal of Abnormal Psychology, 114,
Weinman, J., Petrie, K. J., Moss-Morris, R. 494–504.
für Eßstörungen. Aktuelle Ernährungsme-
& Horne, R. (1996). The Illness Percepti-
dizin, 12, 154–159. Wieczerkowski, W. (1965). Einige Merk-
on Questionnaire: A new method for asses-
sing the cognitive representation of illness. Westhoff, G. (Ed.). (1993). Handbuch psy- male des Sprachverhaltens von Lehrern
Psychology and Health, 11, 431–445. chosozialer Meßinstrumente. Ein Kompen- und Schülern im Unterricht. Zeitschrift für
dium für epidemiologische und klinische experimentelle und angewandte Psycholo-
Weis, S. & Nuerk, H.-C. (2010). TBS-TK Forschung zu chronischer Krankheit. Göt- gie, 12, 502–520.
Rezension: „FAKT-II. Frankfurter Adapti- tingen: Hogrefe.
ver Konzentrationsleistungs-Test“. Report Wieczerkowski, W., Nickel, H., Janowski,
Psychologie, 36, 219–221. Westhoff, K. (Ed.). (2013). The Decision- A., Fittkau, B. & Rauer, W. (1973). Angst-
Oriented Interview (DOI) as a selection in- fragebogen für Schüler (AFS). Göttingen:
Weisberg, R. W. (1989). Kreativität und terview. Lengerich: Pabst. Hogrefe.
Begabung: Was wir mit Mozart, Einstein
Westhoff, K. et al. (Eds.). (2010). Grund- Wieland-Eckelmann, R. & Carver, C. S.
und Picasso gemeinsam haben. Heidel-
wissen für die berufsbezogene Eignungs- (1990). Dispositionelle Bewältigungsstile,
berg: Spektrum der Wissenschaft.
beurteilung nach DIN 33430 (3. Aufl.). Optimismus und Bewältigung: Ein inter-
Weiß, R. H. (2006). Grundintelligenztest Lengerich: Pabst. kultureller Vergleich. Zeitschrift für Diffe-
Skala 2 – Revision (CFT 20-R). Göttingen: rentielle und Diagnostische Psychologie,
Westhoff, K. & Hagemeister, C. (2005).
Hogrefe. 11, 167–184.
Konzentrationsdiagnostik. Lengerich:
Weiß, R. H. (2008). Grundintelligenztest Pabst. Wiersma, E. (1902). Die Ebbinghaussche
Skala 2 – Revision (CFT 20-R) mit Wort- Kombinationsmethode. Zeitschrift für Psy-
Westhoff, K. & Kluck, M.-L. (1983). Zu-
schatztest und Zahlenfolgetest – Revision chologie, 30, 196–222.
sammenhang zwischen Intelligenz und
(WS/ZF-R). Göttingen: Hogrefe. Konzentration. Diagnostica, 29, 310–319. Wiese, W. & Kroj, F. (1972). Untersu-
Weiß, R. H. & Osterland, J. (2012). Grun- chung über den Zusammenhang zwischen
Westhoff, K. & Kluck, M.-L. (1984). An-
dintelligenztest Skala 1 – Revision (CFT Intelligenz (Wechsler) und Konzentrati-
sätze einer Theorie konzentrativer Leistun-
1-R). Göttingen: Hogrefe. onsfähigkeit (Test d2 nach Brickenkamp).
gen. Diagnostica, 30, 167–183.
Zeitschrift für experimentelle und ange-
Wentura, D. (1997). Zur mentalen Reprä- Westhoff, K. & Kluck, M.-L. (2008). Psy- wandte Psychologie, 19, 690–699.
sentation affektiv-evaluativer Komponen- chologische Gutachten schreiben und be-
ten: Die Netzwerkmetapher und das Pa- Wiesner, W. H. & Cronshaw, S. F. (1988).
urteilen (5. Aufl.). Berlin: Springer.
radigma des „affektiven“ Primings. In H. A meta-analytic investigation of the im-
Mandl (Ed.), Bericht über den 40. Kon- Westhoff, K. & Strobel, A. (2011). Inter- pact of interview format and degree of
gress der Deutschen Gesellschaft für Psy- view. In L. F. Hornke, M. Amelang & M. structure on the validity of the employ-
chologie in München 1996 (pp. 964–971). Kersting (Eds.), Enzyklopädie der Psycho- ment interview. Journal of Occupational
Göttingen: Hogrefe. logie: Psychologische Diagnostik: Band 2. Psychology, 61, 275–290.
Methoden der psychologischen Diagnos-
Werner, H. (1948). Comparative psycholo- Wiggins, J. S. (1968). Personality struc-
tik (pp. 371–413). Göttingen: Hogrefe.
gy of mental development (2nd ed.). Chi- ture. Annual Review of Psychology, 19,
Westhoff, K. & Strobel, A. (2013). Struc- 293–350.
cago, IL: Follett.
turing a selection interview. In K. West-
Wiggins, J. S. (1973). Personality and pre-
Westen, D. (1991a). Clinical assessment hoff (Ed.), The Decision-Oriented Inter-
diction: Principles of personality assess-
of object relations using the TAT. Journal view (DOI) as a selection interview. (pp.
ment. Reading, MA: Addison-Wesley.
of Personality Assessment, 56, 56–74. 76–82). Lengerich: Pabst.
Wiggins, N. & Hoffman, P. J. (1968).
Westen, D. (1991b). Social cognition and Westmeyer, H., Winkelmann, K. & Hanne- Three models of clinical judgment. Jour-
object relations. Psychological Bulletin, mann, J. (1988). Intrasituationale dynami- nal of Abnormal Psychology, 73, 70–77.
109, 429–455. sche Interaktion. Zeitschrift für Differen-
tielle und Diagnostische Psychologie, 9, Wild, K.-P. (1996). Beziehungen zwi-
Westen, D. (1997). Divergences between schen Belohnungsstrukturen der Hoch-
241–256.
clinical and research methods for asses- schule, motivationalen Orientierungen der
sing personality disorders: implications WHO. World Health Organization Studierenden und individuellen Lernstra-
for research and the evolution of Axis II. (1993a). International Classification of tegien beim Wissenserwerb. In J. Lomp-
American Journal of Psychiatry, 154, 895– Diseases and Related Health Problems scher & H. Mandl (Eds.), Lehr-Lern-
903. (10th rev., ICD-10). Genf, Schweiz: Au- Probleme im Studium. Bedingungen und
thor. Veränderungsmöglichkeiten (pp. 54–69).
Westen, D., Lohr, N., Silk, K. R., Gold,
L. & Kerber, K. (1990). Object relations WHO. World Health Organization Bern: Huber.
and social cognition in borderlines, ma- (1993b). WHO Disability Diagnostic Wild, K.-P. (2006). Lernstrategien und
jor depressives, and normals: A Thematic Scale (WHO-DDS). Genf, Schweiz: Au- Lernstile. In D. H. Rost (Ed.), Hand-
Apperception Test analysis. Psychological thor. wörterbuch Pädagogische Psychologie
Assessment, 2, 355–364. Wicklund, R. A. (1979). The influence of (3. Aufl., pp. 427–432). Weinheim: Beltz
Westen, D. & Weinberger, J. (2004). self-awareness on human behavior. Ameri- PVU.
When clinical description becomes statisti- can Scientist, 67, 187–193. Wild, K.-P. & Krapp, A. (2001).
cal prediction. American Psychologist, 59, Widiger, T. A. (1993). The DSM-III-R ca- Pädagogisch-psychologische Diagnos-
595–613. tegorical personality disorder diagnoses: a tik. In A. Krapp & B. Weidenmann (Eds.),

578
Literaturverzeichnis

Pädagogische Psychologie (4. Aufl., pp. Handwörterbuch Pädagogische Psycholo- Wottawa, H., Krumpholz, D. & Moosha-
513–563). Weinheim: Beltz PVU. gie (4. Aufl., pp. 788–793). Weinheim: ge, B. (1982). Explizite Erfassung der Ent-
Wild, K.-P. & Schiefele, U. (1994). Lern- Beltz PVU. scheidungsregeln als Grundlage der Ver-
strategien im Studium: Ergebnisse zur besserung diagnostischer Urteilsfindung.
Wittchen, H.-U. & Pfister, H. (1997). In- Diagnostica, 28, 185–194.
Faktorenstruktur und Reliabilität eines struktionsmanual zur Durchführung von
neuen Fragebogens. Zeitschrift für Diffe- DIA-X-Interviews. Frankfurt a. M.: Swets
rentielle und Diagnostische Psychologie, Test.
15, 185–200. Y
Wittchen, H.-U., Saß, H., Zaudig, M. &
Williams, J. B. W. et al. (1992). The Struc- Yiend, J. (2010). The effects of emotion on
Koehler, K. (1989). DSM-III-R: Diagno-
tured Clinical Interview for DSM-III-R attention: A review of attentional proces-
stisches und statistisches Manual psychi-
(SCID) II: Multi-site test-retest reliability. sing of emotional information. Cognition
scher Störungen. Weinheim: Beltz.
Archives of General Psychiatry, 49, 630– and Emotion, 24, 3–47.
636. Wittchen, H.-U., Zaudig, M. & Fydrich, Yoakum, C. S. & Yerkes, R. M. (1920). Ar-
Williams, J. M. G., Mathews, A. & T. (1997). Strukturiertes Klinisches Inter- my mental tests. New York: Holt.
MacLeod, C. (1996). The emotional view für DSM-IV. Achse I und II (SKID).
Stroop task and psychopathology. Psycho- Göttingen: Hogrefe.
logical Bulletin, 120, 3–24. Wittmann, W. W. & Matt, G. E. (1986). Z
Williams, J. M. G. & Nulty, D. D. (1986). Aggregation und Symmetrie. Grundlagen
Zaworka, W., Hand, I., Jauernig, G.
Construct accessibility, depression, and einer multivariaten Reliabilitäts- und Va-
& Lünenschloß, K. (1983). Hamburger
the emotional stroop task: Transient mood liditätstheorie, dargestellt am Beispiel der
Zwangsinventar (HZI). Weinheim: Beltz-
or stable structure? Personality and Indivi- differentiellen Validität des Berliner In-
Test.
dual Differences, 7, 485–491. telligenzstrukturmodells. Diagnostica, 32,
Williams, J. M. G., Watts, F. N., MacLeod, 309–329. Zenz, H., Bischoff, C. & Hrabal, V.
C. & Mathews, A. (1997). Cognitive psy- (1996). Patiententheorienfragebogen (PA-
Wolitzky, D. L. (1967). Cognitive control TEF). Göttingen: Hogrefe.
chology and emotional disorders (2nd ed.). and cognitive dissonance. Journal of Per-
Chichester, UK: Wiley. sonality and Social Psychology, 5, 486– Ziegler, M., MacCann, C., & Roberts, R.
Williams, W. M. & Sternberg, R. J. (1995). 490. (2012). New perspectives on faking in per-
Success acts for managers. Orlando, FL: sonality assessments. New York: Oxford
Harcourt Brace. Wood, J. H., Nezworski, M. T., Lilien- University Press.
feld, S. O. & Garb, H. (2003). What’s Ziehen, T. (1897). Die Prinzipien und
Wilson, T. D., Lindsley, S. & Schooler, T. wrong with the Rorschach? San Francisco:
Y. (2000). A model of dual attitudes. Psy- Methoden der Intelligenzprüfung. Berlin:
Jossey-Bass. Karger.
chological Review, 107, 101–126.
Wood, J. M., Lilienfeld, S. O., Garb, H. Zielinski, W. (1980). Lernschwierigkeiten.
Wine, J. D. (1982). Evaluation anxiety: A
N. & Nezworski, M. T. (2000). The Ror- Stuttgart: Kohlhammer.
cognitive-attentional construct. In H. W.
schach Test in clinical diagnosis: A criti-
Krohne & L. Laux (Eds.), Achievement, Zielke, M. & Kopf-Mehnert, C. (1978).
cal review, with a backward look at Gar-
stress, and anxiety (pp. 207–219). Wa- Veränderungsfragebogen des Erlebens
field (1947). Journal of Clinical Psycholo-
shington, DC: Hemisphere. und Verhaltens (VEV). Weinheim: Beltz-
gy, 56, 395–430.
Wing, J. K., Cooper, J. E. & Sartorius, Test.
N. (1974). Description and classification Wood, W. (2000). Attitude change: Persua- Zier, J. (2002). Recht für Diplom-
of psychiatric symptoms. Cambridge, UK: sion and social influence. Annual Review Psychologen. Eine Einführung. Stuttgart:
Cambridge University Press. of Psychology, 51, 539–570. Kohlhammer.
Wissler, C. (1901). The correlation of men- Woodworth, R. S. (1918). Personal data Zigler, E. (1963). A measure in search
tal and physical tests. Psychological Re- sheet. Chicago, IL: Stoelting. of a theory? Contemporary Psychology, 8,
view Monograph Supplement, 3, No. 16. 133–135.
Woolfolk, A. (2008). Pädagogische Psy-
Witkin, H. A. (1949). Perception of body chologie (10. Aufl.). München: Pearson. Zimmer, D. & Echelmeyer, I. (1978). Fra-
position and of the position of the visu- gebogen zur Lebensgeschichte. Tübingen:
al field. Psychological Monographs, 63 (7, Wottawa, H. (1987). Hypotheses aggluti- DGVT.
Whole No. 302). nation (HYPAG): A method for configu-
ration based analysis of multivariate data. Zinbarg, R. E. & Barlow, D. H. (1996).
Witkin, H. A. (1950). Individual diffe- Structure of anxiety and the anxiety disor-
Methodika, 1, 68–92.
rences in ease of perception of embedded ders: a hierarchical model. Journal of Ab-
figures. Journal of Personality, 19, 1–15. Wottawa, H. & Echterhoff, K. (1982). For- normal Psychology, 105, 181–193.
Witkin, H. A. et al. (1954). Personality malisierung der diagnostischen Urteilsfin-
Zinbarg, R. E., Barlow, D. H. & Brown, T.
through perception. New York: Harper. dung: ein Vergleich von linearen und auf
A. (1997). Hierarchical structure and ge-
Psychologenaussagen gestützten konfigu-
Witkin, H. A., Dyk, R. B., Faterson, H. F., neral factor saturation of the Anxiety Sen-
ralen Ansätzen. Zeitschrift für Differentiel-
Goodenough, D. R. & Karp, S. A. (1962). sitivity Index: Evidence and implications.
le und Diagnostische Psychologie, 3, 301–
Psychological differentiation. Studies of Psychological Assessment, 9, 277–284.
309.
development. New York: Wiley. Zinbarg, R. E., Revelle, W., Yovel, I., & Li.
Witkin, H. A., Oltman, P. K., Raskin, E. & Wottawa, H. & Hossiep, R. (1987). Grund- W. (2005). Cronbach’s α, Revelle’s β , and
Karp, S. A. (1971). A manual for the em- lagen psychologischer Diagnostik. Göttin- McDonald’s ωH : Their relations with each
bedded figures test. Palo Alto, CA: Con- gen: Hogrefe. and two alternative conceptualizations of
sulting Psychologists. Wottawa, H. & Hossiep, R. (1997). An- reliability. Psychometrika. 70, 123–133.
Witt-Brummermann, M. (2010). Sonder- wendungsfelder psychologischer Diagnos- Zuckerman, M., DePaulo, B. M. & Ro-
schulbedürftigkeit. In D. H. Rost (Ed.), tik. Göttingen: Hogrefe. senthal, R. (1981). Verbal and nonverbal

579
Literaturverzeichnis

communication of deception. In L. Berko- Zuckerman, M. & Lubin, B. (1965). Ma- Zytowski, D. G. (1992). Three generati-
witz (Ed.), Advances in experimental so- nual for the multiple affect adjective check ons: The continuing evolution of Frede-
cial psychology (Vol. 14, pp. 1–59). New list. San Diego, CA: Educational and In- ric Kuder’s interest inventories. Journal
York: Academic Press. dustrial Testing Service. of Counseling and Development, 71, 245–
248.

580
Index

16 Personality Factor Questionnaire, 275–280, 283, 291–294, 307, 309– Arbeitsprobe, 69, 349, 406, 408, 419–
255 311, 331, 336, 338, 341, 364, 461, 421, 423, 428, 435, 456
36-Item Health Survey, 488 468–471, 473, 476, 477, 484, 486, Arbeitsverhaltensinventar, 291
360-Grad-Feedback, 440 489, 491, 496, 501, 515, 516, 518, Arbeitszufriedenheit, 7, 10, 183, 402,
519, 587 410, 412, 413, 415, 443, 447, 448,
A Angstbewältigung, 270, 275, 294, 451, 452, 454–457
Achievement Anxiety Test, 273 338 Arbeitszufriedenheitstypen, 413
Achievement-Tests, 347–349, 523 Angstbewältigungs-Inventar, 280, Ärger, 46, 54, 159, 265, 270, 273–
Active Management by Exception, 333 275, 293, 307, 468, 488, 491, 496–
452 Angstfragebogen für Schüler, 515 499, 501, 518, 541
Adaptive Verfahren, 187–189 Ängstlichkeit, 4, 8, 33, 34, 69, 183, Arm-Hand-Stetigkeit, 409
Adaptives Intelligenz Diagnostikum, 197, 254, 256, 259, 264, 270, 275, Assessment Center, 240, 243, 419,
188, 358, 362 276, 278, 283, 294, 299, 303, 304, 420, 422, 424, 456, 457
Advanced Progressive Matrices, 371 308, 309, 315, 336, 468, 497, 514, Attributionsmuster, 517
Aggression, 260, 273–275, 281, 294, 531, 537, 540, 544 Attributionsstil-Fragebogen für Kin-
330, 333, 492, 514, 518–520 Angstsensitivität, 470, 471 der und Jugendliche, 517
Akquieszenz, 255, 256, 294, 295 Angststörung, 28, 133, 148, 185, 470, Aufbau eines psychologischen Gut-
Aktualisierungseffekte, 295, 297 471, 477, 481, 483, 484 achtens, 387
Alkoholismus, 291, 470, 484, 586 Annäherungs-Leistungszielorientierung, Aufgaben zum Nachdenken, 530
Allgemeine Depressionsskala, 469 517 Aufgaben- und Leistungsorientie-
allgemeine Fähigkeitstests, 347 antisoziales Verhalten, 265 rung, 448, 449
allgemeine Leistungstests, 309, 347, antwortabhängiges Testen, 163, 164, Aufgabenebene, 401
348, 378 184, 190, 224 Aufgeregtheit, 41, 100, 277–279
Allgemeiner Büroarbeitstest, 408 Antwortformat, 41, 43–47, 49, 103, Aufmerksamkeit, 13, 163, 218, 244,
Altersäquivalente, 80, 81 112, 119, 295–297, 325, 332 279, 293, 297, 316, 318, 319, 324,
Ambivalenz-Indifferenzproblem, 45 Antwortmodus, 44, 220, 256, 333 335–337, 348, 378, 381–383, 406,
Analyse spezifischer Aspekte des Mo- Anxiety Sensitivity Index, 471 407, 439, 490, 510, 513, 514
dells, 193, 200 aptitude tests, siehe Eignungstests, Aufmerksamkeits- und Konzentrati-
analytische Fähigkeiten, 375 348 onstest d2-R, 378
analytischer versus relational-funkti- Aptitude-Treatment-Interaktion, 164, Augenscheinvalidität, 84, 420, 422,
onaler Stil, 321 181–183, 190 430
Anamnese, 135, 196, 215, 222, 225, Äquivalentnormen, 80–82 Ausdauer bei starker kardiovaskulärer
461, 462, 467, 472 Äquivalenzkoeffizient, 65 Belastung, 410
Änderungswissen, 198–203, 218, Äquivalenzprüfung, 61 Ausdrucksverhalten, 219, 273
386, 458, 462 Arbeits- und Anforderungsanalyse, Auswahlstrategie, 7
Anforderungs-Verfahrens-Matrix, 398–400, 422, 425, 436, 437, 442, Auswertungsökonomie, 48
425 455 Autonomie, 402, 455, 541
Anforderungsanalyse, 398, 400, 401, Arbeitsanalyse, 222, 400, 434
403, 404, 406, 457 Arbeitsbeschreibungsbogen, 412 B
Anforderungsdimensionen, 421–423, Arbeitsgedächtnis, 359–361, 367, Balanced Inventory of Desirable Re-
425, 428, 429 372, 380 sponding, 300
Angst vor großen Gruppen, 279 Arbeitsgeschwindigkeit, 407 Bandbreiten-Fidelitätsdilemma, 164,
Angst vor negativer Bewertung, 279 Arbeitsgruppen, 133, 308, 397, 398, 180
Angst vor physischer Verletzung, 277– 401, 411, 414, 416, 436, 441–443, Basisquote, 171, 173, 174, 190, 528
279 445, 474, 535, 536 Beck Anxiety Inventory, 293
Angst, 8, 33, 34, 41, 46, 54, 84, 103, Arbeitshaltung, 520, 521 Beck Depression Inventory, 293, 468
104, 142, 204, 208, 219, 248, 265, Arbeitskurve, 380

581
Index

Bedürfnis nach Anerkennung, 295, California Psychological Inventory, E


299–301, 439 263 Eating Disorder Inventory 2, 470
Befindlichkeit in sozialen Situationen, California Q-Sort-Deck, 244 Eating Disorder Inventory, 470
279 Cancer Inventory of Problem Situati- Edwards Personality Preference Sche-
Begutachtung, 384–388, 390, 393 ons, 489 dule, 260, 410
Behavior Description Interview, 434 Category-Width Scale, 316, 322, 323 Ehepartnerbeziehung, 540, 541
Behavior Observation Scales, 441 Charisma, 446, 451, 452 Eichsituation, 206, 207, 299
Behaviorally Anchored Rating Sca- Checklisten, 46, 220, 223, 225, 463, Eigenschaftsliste, 292
les, 441 464, 479 Eigenschaftsmodell, 5, 6, 9, 465
Beobachterdrift, 244 Children’s Apperception Test, 330 Eigenschaftswörterliste, 292
Beobachtungsinterview, 402 Cold-pressor Test, 309, 314 Eigenwert, 92, 93
Beobachtungssystem, 230–235, 245, Color-Word Test, 316, 318 Eignung, 9, 13, 30, 72, 148, 172, 177,
247, 249, 464 Coloured Progressive Matrices, 371 348, 349, 385, 398, 399, 403, 405,
Berliner Intelligenzstruktur-Test, 358, Composite International Diagnostic 408, 409, 419, 433, 434, 436, 455
365, 407 Interview, 464, 479 Eignungsdiagnostik, 13, 374, 398,
Bernreuter Persönlichkeits-Inventar, Computer-Interviews, 220 404, 405, 407, 410, 414, 417, 421,
254 Computer-Szenarios, 420–422 424, 429, 436, 437, 445, 446, 453,
Berufs-Interessen-Test II, 288 Computer-Tomographie, 477 455, 456, 486
Berufseignungsdiagnostik, 273, 404, Concept Sorting Task, 316, 321, 322 Eignungstests, 72, 141, 171, 347–349,
405, 410 Cook and Medley Hostility Scale, 404, 419, 437
Berufslaufbahnberatung, 507 274 Ein-Itemskalen, 291, 292
Berufsorientierung und Organisati- Cook-Medley-Skala, 499 Einfallsreichtum, 365, 367
onswahl, 435 Coping Health Inventory for Parents, Einstellungsinterview, 221, 222, 224,
Beschwerden-Liste, 468 492 240, 417, 418, 431, 434, 435
Besorgniskognitionen, 278 Core-Transaktionale Führung, 452 Einstellungsmessung, 288, 289, 291,
Besorgtheit, 256, 278, 279 Core-Transformationale Führung, 441
Beurteilerübereinstimmung, 221, 452 Einstufungsverfahren, 440, 441
290, 422–424, 426, 434, 435, 466, Cutoff, 169, 170, 432, 525 Einzelfallhilfe, 507
479, 480, 482–485 eklektische Position, 353
Beurteilungsverfahren, 440, 442 D elektrodermale Aktivität, 477
Bewerbungsunterlagen, 431–433, deklaratives Wissens, 438 Elektroenzephalogramm, 477
435 Dental Anxiety Inventory, 280 Eltern-Kind-Beziehung, 537, 541
Beziehungsstatus, 536 Dental Anxiety Scale, 280 Embedded Figures Test, 316, 317,
Bielefelder Screening zur Dental Fear Survey, 280 324
Früherkennung von Lese- Diabetes-Wissens-Test: Typ I, 503 emotionale Intelligenz, 377
Rechtschreibschwierigkeiten, 510 Diagnostic and Statistical Manual of emotionale Reaktionen, 278, 283,
binäre Items, 49, 51, 108, 110 Mental Disorders, 223, 463, 478 284, 490, 496
Biographical Personality Interview, Diagnostischen Rechtschreibtest, 523 emotionale Stabilität, 153, 255, 258,
223 Diagnostisches Interview bei psychi- 415–419, 433, 446
Biographieorientierte Verfahren, 431, schen Störungen, 464 Emotionaler Stroop-Test, 335–338,
433, 435 dichotomes Format, 45 476
Biologische Messstrategien, 477 Dienstleistungsorientierung, 417 Emotionsregulierung, 284
BIP – 6F, 418 Differential Emotions Scale, 293 Empathie, 475
Bochumer Inventar zur berufsbezoge- Differentielles Schulisches Selbstkon- Entscheidungen unter Risiko, 164
nen Persönlichkeitsbeschreibung, zept- Gitter, 516 Entscheidungen unter Sicherheit, 164
418 Differenzieller Interessen-Test, 288 Entscheidungen unter Ungewissheit,
Bortner Rating Scale, 498 DIN 33430, 374, 405 164
branched testing, 363 disjunktive Regel, 170 Entscheidungsgüte, 5, 169, 171–175,
Brief Symptom Inventory, 468 diskriminante Validität, 73–75, 283, 190
Bullying, 518, 519 342, 370, 371, 374, 382, 428, 453, Entscheidungsnutzen, 171, 174
Bullying- und Viktimisierungsfrage- 516 Entscheidungstheorie, 163, 164, 178,
bogen, 519 Distraktoren, 47, 63, 378–380 190
Buss-Durkee Hostility Inventory, 274 divergentes Denken, 367, 375 Entwicklungsscreenings, 508
double-stage-Strategie, 179 Entwicklungstests, 347, 348, 508,
C Durchstreichverfahren, 378 509
California Child Q-Sort, 244 dynamische Flexibilität, 409 Ereignis-Teil-Methode, 232, 233
dynamische Stärke, 409 Ereigniskodierung, 232

582
Index

Ereignissegmentierung, 238 Fertigungsteam, 442 Fragebogen zur sozialen Unterstüt-


Ereignisstichprobenplan, 230 Fingerspannenskalierung, 292 zung, 472
Erfassungsbogen für aggressives Ver- Flanders Interaction Categories, 533 Fragebogen zur Vorgesetzten-
halten in konkreten Situationen, fluide Intelligenz, 358, 370–372, 509 Verhaltensbeschreibung, 448
518 Fragebogen für Asthmapatienten, 489 Fragebogens zur Erfassung von For-
Erziehung, 149, 200, 208, 227, 236, Fragebogen für Eltern von Kindern men der Krankheitsbewältigung,
285, 289, 364, 482, 508, 520, 534, mit Neurodermitis, 492 491
537–539, 541, 542, 544, 545 Fragebogen Irrationaler Einstellun- Fragen zur Lebenszufriedenheit, 489
Erziehungsdiagnostik, 10, 506, 537 gen, 471 Frageschemata, 223
Erziehungsstil-Inventar, 539 Fragebogen zu Kompetenz- und Kon- Fragestellung, 35, 42, 168, 195, 384–
essenziell tau-äquivalent, 99 trollüberzeugungen, 271, 501 389, 392, 393, 542
Essstörungen, 264, 461, 469, 470, Fragebogen zu körperbezogenen Framingham Type A Scale, 498
475, 481 Ängsten, Kognitionen und Ver- Frankfurter Adaptiver
Essverhalten, 493, 494 meidung, 471 Konzentrationsleistungs-Test, 380
Evaluation, 5, 8, 177, 398, 408, 454, Fragebogen zum Essverhalten, 470, Frankfurter Aufmerksamkeitsinven-
460, 487, 504, 507, 519, 523, 537 493 tar, 379
Evolutionstheorie, 14, 15 Fragebogen zum Umgang mit Belas- Frankfurter Kinder-Selbstkonzept-
Exercise Motivation Inventory, 494 tungen im Verlauf, 280 Inventar, 516
expected utility, 178 Fragebogen zur Arbeit im Team, 444 Freiburger Beschwerdenliste, 468
Experteneinschätzungen, 527 Fragebogen zur Arbeitsanalyse, 402 Freiburger Fragebogen zur Krank-
Exploration, 215–219, 221, 223–225, Fragebogen zur Bewältigung von heitsverarbeitung, 490
463, 464 Hauterkrankungen, 491 Freiburger Persönlichkeitsinventar,
Explosive Stärke, 409 Fragebogen zur direktiven Einstel- 268, 275, 305
external-kriteriumsbezogene Frage- lung, 291 Fremdbeurteilung, 18, 22, 242, 308,
bogenkonstruktion, 263 Fragebogen zur elterlichen Krank- 309, 463, 464, 466, 470, 534
externale Kontrolle, 271 heitsbewältigung, 492 Führungsdiagnostik, 445, 453, 456
Extraversion, 38, 39, 42, 254, 256– Fragebogen zur Erfassung der Führungseffektivität, 415, 448, 449,
259, 262, 268, 269, 283, 304, 309– Schmerzverarbeitung, 491 452
311, 313, 327, 405, 414–417, 433, Fragebogen zur Erfassung des Ge- Führungsstile, 447
446, 456, 519 sundheitsverhaltens, 493 Führungsverhalten, 445, 447–451,
Eysenck Personality Inventory, 257 Fragebogen zur Erfassung dispositio- 453
Eysenck Personality Questionnaire, neller Selbstaufmerksamkeit, 279 full information methods, 121
257 Fragebogen zur Erfassung emotiona- Füllitems, 63, 272, 332
ler und sozialer Schulerfahrungen, funktionelle Magnetresonanz-
F 532 Tomographie, 477
face validity, siehe Augenscheinvali- Fragebogen zur Erfassung von Ag- Furcht vor Misserfolg, 195, 272, 332,
dität gressivitätsfaktoren, 274 333, 516
Faking, 294 Fragebogen zur Erhebung von Kon- Furchtthermometer, 292
Faktorenanalytische Modelle, 87 trollüberzeugungen zu Krankheit
Familien-Kindergarten- und Gesundheit, 500 G
Interaktionstest, 539, 542 Fragebogen zur Erhebung von Stress gebundenes Antwortformat, 41, 44
Familiendiagnostischen Testsystem, und Stressbewältigung im Kindes- Gedankenauflisten, 466
540 und Jugendalter, 474, 518 geistige Behinderungen, 483, 529
Familiendiagnostisches Testsystem, Fragebogen zur erlebten gesundheit- Gelassenheit, 293, 541
539, 540 lichen Veränderung, 475 general factor, 106, 353
Familienklima, 540, 542, 544 Fragebogen zur Lebensgeschichte, gerichtete Pfade, 102
Family Environment Scale, 542 468 Gesprächsfehler, 218, 220, 225
fatalistische Externalität, 271, 500, Fragebogen zur Messung der Psycho- Gesundheitskompetenz, 503
515 therapiemotivation, 472 Gewissenhaftigkeit, 48, 153, 170,
Fear Survey Schedule II, 470 Fragebogen zur Messung von Ein- 180, 258, 259, 269, 298, 301, 302,
Fehlerstreuung, 55, 56, 59–61, 67 stellungen gegenüber Schwanger- 399, 405, 406, 415–418, 425, 432,
Feindseligkeit, 254, 264, 273, 274, schaft, Sexualität und Geburt, 291 437, 446, 447, 456
289, 293, 298, 447, 488, 496–499, Fragebogen zur Partnerschaftsdiagno- Gießen-Test, 262, 472
501, 538 stik, 472 Gießener Beschwerdebogen, 468
Feldabhängigkeit, 315–317, 324 Fragebogen zur Schmerzregulation, Global Assessment of Functioning,
Feldbeobachtung, 228 491 480, 481
Fertigkeit, 70, 377, 405, 410 globale Schätzprozeduren, 176

583
Index

Goal Systems Assessment Battery, 513 irrationale Kognitionen, 471


495 inkrementeller Nutzen, 175 isomorphe Beschreibung, 230
graphische Ratingskalen, 45 Inspirierende Motivierung, 451, 452 item characteristic curve, 113
Größenschätzaufgabe, 316, 324 institutionelle Entscheidungen, 166, item discrimination power, 52
Grundintelligenztest, 373, 510 169 Item-Response-Funktionen, 110, 112,
Gruppenkontrastierung, 526 Institutionenrisiko, 186 130
Gruppenleistung, 443, 444, 447, 449 Integrity-Tests, 416–418, 428 Item-Response-Theorie, 51, 87, 108,
Gruppenprozessen, 443–445 Intellektuelle Entwicklung, 508 114, 120, 126, 129, 188, 190
Gruppensynergien, 444 Intellektuelle Stimulierung, 451, 452 Itemcharakteristiken, 110, 111, 113,
Guilford-Zimmerman Temperament Intelligenz-Struktur-Test, 368, 374 114, 117–119, 122, 130
Survey, 255 Intelligenzalter, 19, 21, 77, 81, 350– Itemformulierung, 42, 43
Gültigkeit, siehe Validität 352 Iteminhalt, 267, 288, 297
Gutachten, 59, 78, 79, 196, 197, 209, Intelligenzminderung, 351, 352, 480, Itemkennwerte und Testwertvertei-
384–393, 428, 530 530 lung, 48
Gütekriterien, 8, 27, 28, 31, 220, 224,Intelligenzquantität, 363, 364 Itemparameter, 111, 112, 117, 119,
244, 253, 312, 374, 421, 424, 426 Intelligenzquotient, 18, 20, 28, 77, 120, 122–124
350, 406 Items mit mehreren geordneten Ant-
H Intelligenztests, 8, 16, 18, 20, 35, 37, wortkategorien, 45
Halo-Effekt, 224, 244 48, 68, 82, 180, 184, 196, 207, 227, Itemschwierigkeit, 51, 112, 187, 188
Hamburger Persönlichkeitsfragebo- 325, 346–348, 351, 352, 354, 355, Itemselektion, 52, 53, 67, 101, 104,
gen für Kinder, 519 358, 362, 367, 368, 370, 371, 373– 128, 433
Hamburger Zwangsinventar, 470 375, 378, 382, 383, 392, 407, 408, Itemstamm, 41, 43
Handgeschick, 409 417, 431, 508–511, 529–531
Handlungstheorie, 191, 192, 211 inter-rater/observer reliability, 248 J
Hardiness, 488, 497, 501 Interaktionszustände, 236–238 Jenkins Activity Survey, 498
Heilung, 502, 503 Interessenprofil, 286, 288 Job Affect Scale, 413
Heiterkeit, 293 Interferenz, 279, 377 Job Diagnostic Survey, 402
Heterotrait-Heteromethod- Interferenzneigung, 31, 315, 316, Juckreiz-Kognitions-Fragebogen,
Korrelationen, 74, 75 318, 319, 324, 325 492
Heterotrait-Monomethod- Internal-induktive Fragebogenkon-
Korrelationen, 74, 75 struktion, 254 K
hierarchische Aufgabenanalyse, 401 International Personality Disorder Ex- Kategoriale Weite, 316, 321
High School Objective-Analytic Per- amination, 464, 479
Kategoriensysteme, 233–235, 246
sonality Battery, 311 International Statistical Classification Kausalattribuierungen in Leistungssi-
Hoffnung auf Erfolg, 272, 332, 333, of Diseases, 223, 463
tuationen, 517
516 Internationale Diagnosen Checkliste Kausalattributionen, 284, 439
Holtzman Inkblot Technique, 329 für Persönlichkeitsstörungen, 464
Kennzeichnungsverfahren, 440
Hostility and Direction of Hostility interne Konsistenz, 8, 66, 67, 99, 221, Klassifikationssystem von Störungen,
Questionnaire, 274 256, 269, 275, 278, 281, 322, 328,
462
Hypothesenagglutinierung, 153, 156 333, 427, 434 Kodierschemas, 231
interpersonale Beziehungen in der Be-
Kodiersystem zur Interaktion in der
I handlungssituation, 475 Psychotherapie, 466
Illness Perception Questionnaire, 502 Intervallkodierung, 232 Kognitive Lernvoraussetzungen, 508
Implikationen des Modells, 196 Interventionseffekten, 250 kognitive Stile, 314–316, 325, 342,
implizite Motive, 332 Interventionsstrategien, 7, 10, 11, 398 343, 476
Interviewleitfäden mit präkodierten
Impliziter Assoziationstest, 303, 335, kognitive Vermeidung, 31, 281, 282,
Items, 222
338, 344, 461, 477 490, 497
Interviews in Organisationen, 222
independent cluster model, 104 Kohäsionsindices, 536
individualspezifische Reaktionsmus- Intuitive Fragebogenkonstruktion, Kollektiv, 459
tern, 249 254 Kombinierte Konstruktionsstrategien,
Informationsfunktion, 126–129 Inventory of Factors STDCR, 254 268
investigatorische Entscheidungen,
Informationsstrategien, 521 Kommunalität, 92
165
inhaltsparallelisiert, 63, 64 Komorbidität, 480, 482, 484, 485
IPC-Diabetes-Fragebogen, 500
Inhaltsvalidität, 68–71, 73, 349, 406, Kompetenz-Performanz-Problem, 35,
IPC-Fragebogen, 271, 497
427, 434, 523, 524 346, 383
inkrementelle Validität, 169, 304, IPC-Fragebogens, 500 Kompetenzerwartung, 283, 443, 444,
328, 330, 416, 417, 428, 432, 435, ipsative Vergleiche, 83, 84 486, 488, 501, 515

584
Index

Kompetenzkriterium, 524–526 Lebensstil, 493 Marburger Fragebogen zum habituel-


Konfigurationsmodelle, 149, 152– Lehrer-Schüler-Interaktion, 531, 532 len Wohlbefinden, 488
154 Lehrerverhaltensinventar, 534 Marburger Hautfragebogen, 491
kongenerisch, 99 Lehrziele, 70, 71, 523–527, 545 Marburger Neurodermitis-
konjunktive Regel, 170 lehrzielorientierte Verfahren, 349, Fragebogen, 491
Konsistenzeffekte, 295, 297, 298 524 Marburger Skalen, 539
Konsistenzkoeffizienten, 67 Leipziger Lebensstilfragebogen für Marlowe-Crowne Social Desirability
Konstruktvalidität, 68, 72, 73, 85, Jugendliche, 493 Scale, 300
248, 288, 406, 428 Leistungsbeurteilung, 429, 436, 438, Matching Familiar Figures Test, 320
Kontext der Entdeckung, 147, 148 441, 457, 523 Maudsley Medical Questionnaire,
kontextuelle Leistung, 438 Leistungsbeurteilung, Funktionen, 257
Kontrollstrategien, 521, 522 436, 437 Maudsley Personality Inventory, 257
Kontrollüberzeugungen, 46, 254, 270, Leistungsmaßstäbe, 346 Mayer-Salovey-Caruso Emotional In-
271, 283, 418, 486, 488, 495–501, Leistungsmotiv, 272, 410, 446, 516 telligence Test, 377
514–516, 583 Leistungsmotivation, 183, 189, 259– Merkfähigkeit, 365, 366, 368–371
Konzentration, 34, 153, 223, 244, 261, 272, 273, 331–333, 417, 418, Messpräzision, 29, 42, 55, 60–63, 65,
291, 293, 314, 346, 348, 377–380, 498, 499, 513, 514, 516, 519, 531 67, 98, 117, 126, 129, 189, 248,
382, 383, 454, 468, 469, 513, 514, Leistungsmotivations-TAT, 272 338
522, 528 Leistungsmotivationsinventar, 273 Methode der kritischen Ereignisse,
Konzentrations-Leistungs-Test, 380 Leistungsmotivationstest, 272 401, 402, 411, 434, 435, 440, 455
Konzentrations-Verlauf-Test, 380 Leistungsmotivgitter, 273, 332 Michigan-Studien, 447
Konzentrationstests, 180, 335, 378– Leistungsmotiviertheit, 180, 254, 270, Mimik, 219, 240, 422
380, 382, 383, 407, 514 272, 330, 406 Minderungskorrektur, 71, 72, 106,
Konzeptlernen, 318 Leistungsorientierung, 268, 269, 438, 354
Koordination mehrerer Gliedmaßen, 447, 455, 542 Minnesota Multiphasic Personality
409 Leistungszielorientierung, 517 Inventory, 23, 142, 143, 221, 263–
Krankheitsverarbeitung, 472, 473, Lern- und Arbeitsverhaltensinventar, 268, 274, 275, 298, 328, 329, 433,
487, 490 520 468
Kreativität, 34, 345, 367, 375–377, Lernbehinderungen, 529 Misserfolgsfurcht, 272, 273
407, 416–418 Lernkontrolltests, 523 Mitarbeiterbefragung, 222, 455
Kreuzvalidierung, 94, 139, 155, 263, Lernpotenzial, 511 Modifikationsmodell, 5, 6, 465
421 Lernresultate, 522 Modifikationsstrategie, 7
kristallisierte Intelligenz, 358, 368, Lernstrategien, 507, 520–522, 545 Monitoring, 534
370, 371 Lerntechniken, 520, 521 Mood Adjective Check List, 293
kriteriumsorientierte Vergleiche, 82, Lerntest Schlussfolgerndes Denken, Motivation Analysis Test, 311
479 512 Motive, 8, 273, 279, 310, 311, 331,
Kriteriumsstandard, 172 Lerntests, 508, 511–513, 530, 545 332, 338, 344, 404, 410, 494, 520
Kriteriumsvalidität, 415, 420–423, Lernzeit, 514, 515 motorisch-physische Merkmale, 409
428, 432, 434 Lernzielorientierung, 517 motorische Fertigkeiten, 409
Kritieriumsvalidität, 68, 71, 334, 349, Leveling-Sharpening, 315, 316, 323– Müdigkeit, 67, 192, 293
367 325 multiaxialer Ansatz, 480
Kuder General Interest Survey, 287 Life Orientation Test, 272, 501 Multidimensional Health Locus of
Kuder Occupational Interest Survey, Lifestyle Appraisal Questionnaire, Control Scale, 500
287 493 Multifactor Leadership Ques-
Kuder Preference Record, 287 Likelihood, 123–125, 186 tionnaire, 451
Linzer Fragebogen zum Schul- und Multimodales Einstellungsinterview,
L Klassenklima, 532 220
L-Daten, 226, 227, 241, 309, 457, logistische Testmodelle, 87, 111, 112, Multimodales Interview, 435
461, 463, 466, 473, 476 114, 117–119, 122–125, 127, 130 Multiphasic Sex Inventory, 291, 474
Landauer Skalen zum Sozialklima, lokale stochastische Unabhängigkeit, Multiple Affect Adjective Check List,
531 120, 121 292
Latente Variablen, 87 LPC-Maß, 449, 450 multiple Selektion, 167
Lautes Denken, 466 Multiple-Choice-Format, 47
Leader Behavior Description Ques- M Multiple-Choice-Multiple-
tionnaire, 448 Managementeignung, 417 Response-Format, 47
Leader Opinion Questionnaire, 448 Mangel an Zuversicht, 279 Multiple-Choice-Single-Format, 47
Lebensqualität, 487–491, 586 Manifest Anxiety Scale, 275

585
Index

Multitrait-Multimethod-Analyse, 73– Peer-Ratings, 241 Qualitätsmaßstab, 346


75, 425 Pennebaker Inventory of Limbic Lan- Qualitätszirkel, 442
Münchner Alkoholismus-Test, 470 guidness, 501 Quote, 167, 168, 170
Münchner Alkoholismus-Tests, 291 peripherphysiologische Parameter,
Muskelaktivität, 477 477 R
Myers-Briggs Type Indicator, 262 Personal Data Sheet, 22, 254 Rangordnungsverfahren, 440
Personalfragebogen, 432, 433 Ratingverfahren, 235, 236, 240
N Personality Research Form, 260, 410 Raven-Lerntest, 512
negative Affektivität, 329, 488, 496, Personenrisiko, 186 Reaktivitätseffekte, 244, 245
497, 501 Persönlichkeitsfragebogen für Kin- Rechenverfahren, 380, 382, 383
NEO Five-Factor Inventory, 259, 415 der, 520 Reflexivität-Impulsivität, 315, 316,
NEO-Fünf-Faktoren-Inventar, 256 Pfaddiagramme, 102, 103 320, 324
NEO-Inventare, 258, 468, 486 Platzierung, 20, 164, 167, 168, 182, Reihenfolgeeffekte, 299
NEO-Personality Inventory, 259, 415 209, 222, 398, 399, 401, 434, 437 Relationship Inventory, 476
Neurotizismus, 38, 42, 257–259, 269, Position Analysis Questionnaire, 402 Reminiszenz, 313
283, 313, 314, 330, 389, 414, 415, Position, 3, 20, 30, 76, 82, 107, 165, response contingent testing, 184
417, 519 167–169, 171–173, 176, 180, 197, Response Sets, 294, 295, 299
Niveautests, 346 286, 298, 315, 316, 352, 353, 385, Ressourcenmanagement, 521, 522
Nonverbal Personality Questionnaire, 402, 409, 424–427, 432, 446 Retest-Korrelation, 61, 312
260 Positionsmacht, 449 Richtigkeitsmaßstab, 346
Nonverbale Tests, 371 Positive and Negative Affect Schedu- RMSEA, 97, 98, 100, 104
normative Entscheidungstheorie, 164 le, 293, 412, 473, 488, 490, 501 Rod-and-Frame Test, 316
normorientierte Vergleiche, 76, 524 Positronenemissions-Tomographie, Rohwerte, 76, 77, 79–81, 138, 255,
normorientiertes Bezugssystem, 76 477 256, 285, 286
Postkorb-Verfahren, 420–422, 426 Rollenspiel, 419, 422, 423, 465
O power tests, 346 Rorschach-Test, 23, 24, 325–328,
Präsentationsaufgaben, 420, 422 330, 476
OA Anxiety Battery, 311, 314
Prävention, 458, 459, 495, 534 Rosenzweig Picture Frustration Test,
OA-Testbatterie, 311, 476
pre-accept-Strategie, 179, 180 520
Objektivität, 29, 30, 44, 48, 221, 312,
pre-reject-Strategie, 179
327–329, 333, 334
offenes Format, 44
Present State Examination, 223, 463 S
primary mental abilities, 355
Offenheit für neue Erfahrungen, 259, Scanning, 315, 316, 324, 325
Priming-Aufgaben, 338
260, 416, 446 Schematisierungstest, 316, 323
Problemlösen, 18, 284, 367, 511, 520,
Optimismus, 270–272, 283, 488, 496, schlussfolgerndes Denken, 348, 370,
525, 539
497, 501 425
Problemlösung, 7, 210, 236, 413, 420,
Organisationsklima, 454–457 Schnelligkeitsmaßstab, 346
453, 525
Organisationskultur, 454 Schnelligkeitstests, 346, 383
Proficiency-Tests, 347, 349
Organizational Citizenship Behavior, Schüchternheit, 293, 341, 477, 529
Profil der Lebensqualität Chronisch
411–413, 456, 457 Schul- und Klassenklima, 531
Kranker, 487
Schuldgefühle, 293
Profile of Mood States, 292
P Projektive Verfahren, 325, 342
Schullaufbahnberatung, 388, 508,
Paarklimaskalen, 472 527, 530
proportionale Regeln, 176
Panik- und Agoraphobie-Skala, 470 Schulleistungstests, 196, 347, 348,
Prozentränge, 76, 77, 79, 80, 285, 513, 523, 530, 531
Panikstörungen, 470, 471, 483 351, 391
Paralleltestmethode, 61, 63 Schwierigkeiten in der Partnerschaft,
Prozessanalysen, 465 472
Paralleltestung, 8, 61, 63, 67, 68 Prozessdiagnostik, 5
Parameterschätzung, 122 Schwierigkeitsfaktoren, 108, 121
Psychotizismus, 257, 259, 313, 314
paramorphe Modelle, 134, 145, 147, Schwierigkeitsindex, 49, 50
Puppenspiel, 326, 509
148, 152, 157, 158, 162 Segmentierung, 168, 231, 232, 251
Pursuit-rotor task, 313
Parent Attitude Research Instrument, Selbstaufmerksamkeit, 279, 295, 299,
pyramidal verzweigte Tests, 187
538 302–304, 439
Parent Behavior Questionnaire, 538 Selbstbericht, 75, 204, 250, 439, 467,
Q 469, 473
Passive Management by Exception,
452 Q-Daten, 241, 252, 253, 258, 272, Selbstbeurteilung, 241, 243, 252, 294
289, 305, 309, 312, 418, 443, 461, Selbstdarstellung, 217, 227, 295, 299,
Patiententheoriefragebogen, 503
Pauli-Test, 155, 308, 378, 380–382 465, 467, 476 301, 302, 304, 418, 430, 431, 439
Peer-Nominations, 241, 535 Q-Sort-Verfahren, 159, 241–244, 252 Selbsteinsicht, 295, 299, 303, 439

586
Index

Selbstkonzept, 271, 514, 516, 582, spezifische Repräsentativität, 48 Tätigkeitsanalyse, 401


583 sportliche Aktivität, 494 teacher-made test, 523
Selbstsicherheit, 240, 293, 310, 516 Sprachratings, 498 Teamklima-Inventar, 444
Selbstüberwachung, 302, 303 SRMR, 97, 98, 100, 104 Technik des Nachspielens, 466
Selbstvorstellung des Bewerbers, 435 Standard Progressive Matrices, 371 terminale Entscheidungen, 165, 166,
Selbstwertgefühl, 265, 310, 333, 477, Standardfehler der Messung, 55, 56, 168, 179, 180, 185
492, 516 59 Test Anxiety Inventory, 278
Selbstwirksamkeitserwartungen, 203, Standardisierte Ladungen, 90 Testgütekriterien, 5, 29, 68, 220, 292,
496, 501, 514–516 Standardisierung, 16, 29, 66, 68, 89, 524
Selektion, 7, 14, 167–170, 173, 175, 103, 228, 229, 327, 334, 342, 433, Testhalbierungsmethode, 65
177, 181, 202, 208, 209, 375, 398, 454, 479 Testreihe zur Prüfung der Konzentra-
399, 401, 507 Standardnormäquivalente, 76, 80 tionsfähigkeit, 514
Selektionsaufgaben, 9, 161, 167, 169, Standardnormen, 76, 82, 154 Tests der Maximalleistung, 34, 85,
181, 209 Stanford-Binet, 18, 20, 359 345, 407
Selektionsentscheidungen, 145, 166, Stanford-Binet-Test, 18, 20 Tests des typischen Verhaltens, 34, 85,
169, 171, 174, 186 State-Trait Anger Expression Inven- 345, 407
Selektionsquote, 171–175, 190 tory, 274 Tests spezifischer Fähigkeiten, 348,
Self-Consciousness Scale, 279 State-Trait Anxiety Inventory, 275 407
Sequential Probability Ratio Test, State-Trait-Angst-Depressions- Testwiederholung, 61–63, 278, 281,
185 Inventar, 276 322, 328
sequenzielle Analysen, 236, 239 statische Stärke, 409 Testwiederholungsmethode, 61, 62,
sequenzielle Strategien, 13, 178–180 Statusdiagnostik, 5, 474 67, 68
sequenzielle Verfahren, 184, 185 Stichprobenheterogenität, 53 Thematischer Apperzeptionstest, 44,
SF-36 Fragebogen zum Gesundheits- Stichprobenmodell, 5, 6 260, 272, 325, 326, 329–334
zustand, 488 Stichprobenplan, 230 Theoriegeleitet-deduktive Fragebo-
Sich-selbst-erfüllenden- stilles Wissen, 408 genkonstruktion, 260
Prophezeiung, 429, 430 strategische Planung, 205, 206 Therapiemotivation, 462, 463, 472
Sickness Impact Profile, 487 Strenge vs. Schülerorientierung, 534 Thurstones Primärfaktoren, 368
Simulationsorientierte Verfahren, Stressbewältigung, 253, 280, 305, Tilted-Room-Tilted-Chair Tests, 316
419, 427 327, 472, 474, 485, 486, 488, 497, Transparenz, 37, 157, 386, 430, 431,
single-stage-Strategie, 168, 178 501, 514, 518, 520, 521, 583 527, 534
Situations-Reaktions-Inventare, 253, Stressoren, 9, 10, 283, 284, 314, 471, Traurigkeit, 293, 468, 518
281, 333 481, 487 Trennschärfe, 8, 17, 49, 52, 53, 84,
Situatives Interview, 435 Stresssymptomatik, 518 85, 95, 104, 242
Skalen zur Erfassung der Lern- und Streßverarbeitungsfragebogen, 275, Trierer Alkoholismusinventar, 470
Leistungsmotivation, 517 280, 474, 518 Trierer Inventar zum chronischen
Social Cognition and Object Relati- Stressvulnerabilität, 518 Stress, 471
ons Scale, 333 Strong Interest Inventory, 287 Trierer Skalen zur Krankheitsbewälti-
Social Readjustment Rating Scale, Strong Vocational Interest Blank, 287 gung, 490
471 Stroop-Test, 37, 38, 318, 319, 336, true score, 55
Sonderpädagogischer Förderbedarf, 338, 344, 461, 465 Tübinger Luria-Christensen Neuro-
529 Struktur der Interessen, 285 psychologische Untersuchungsrei-
Sortierverfahren, 380 Strukturiertes Interview, 464, 498 he, 477
Soziabilität, 302, 418 Strukturiertes Tinnitus-Interview, 463
soziale Ängste, 278–280, 302 Summennormierung, 123 U
soziale Erwünschtheit, 255, 261, 262, Symptom Checklist 90-R, 468 Übereinstimmungsvalidität, 71
267, 269, 273, 275, 294, 295, 299, Symptomberichte, 283, 497, 501 Übertrittstests, 530
301–304, 418, 444, 515 synthetische Validierung, 403, 404, Uhrtest, 381
soziale Unterstützung, 281, 284, 461, 425, 457 Umwelt- und Systemmerkmalen, 508,
472, 489, 492, 503, 518 Systemberatung, 507 531
Soziogramm, 535, 536
Soziomatrix, 535, 536 T V
Spearman-Brown-Formel, 65, 66, T-Daten, 257, 269, 307, 309, 311, 313, Validitätsskalen, 264, 265
354 461, 462, 465, 476, 477 Veränderungsfragebogen des Erle-
speed tests, 346 tailored testing, 189 bens und Verhaltens, 475
spezifische Objektivität, 116, 117, taktische Planung, 205–208, 211, 218, Verfälschungstendenzen, 257, 292,
119, 125, 130 223, 388 294, 418

587
Index

Verhaltens-Inhalts-Matrix, 524 Visual Dot-Probe-Paradigma, 335– Work Commitment, 411, 413, 456
Verhaltensbeobachtung in kritischen 337, 344, 477 Worry-Emotionality Questionnaire,
Situationen, 13 Vorhersagevalidität, 71, 72, 171, 304, 294
Verhaltensbeobachtung, 13, 29, 75, 416, 427 Wortschatztest, 356
204, 226–228, 231, 235, 240, 241, Vulnerabilität, 488, 501
244, 247–251, 342, 425, 439, 461, Z
463–465, 534, 538 W Zeichensysteme, 233–235
Verhaltensbeurteilung, 227, 240, 241, wahrer Wert, 54–60, 62, 64, 95 Zeit-Teil-Methode, 232, 237
244, 245, 251, 534 Wechsler Adult Intelligence Scale, zeitliche Segmentierung, 238, 533
Verhaltensstörungen, 486, 529 359 Zeitreihen, 236
Verhaltenstests, 465, 466, 476 Wechsler Intelligence Scale for Child- Zeitstichprobenplan, 230
Verkaufseignung, 417 ren, 359 Zeitverschwendung vs. Zeitnutzung,
Verlaufsmessung, 474, 475 Wechsler-Bellevue-Intelligence- 534
Vermeidenstests, 465 Scale, 358 Zentralisierung, 454
Vermeidung Wechsler-Intelligenztests, 317, 358 zentralnervöse Parameter, 477
sozialer Situationen, 279 Weg-Ziel-Theorie, 451 Zielerreichungsskalierung, 467
unbekannter Personen, 279 Weilburger Testaufgaben für Schulan- Zielorientierungen, 516, 517
Vermeidungs-Leistungszielorientierung, fänger, 528 Zuordnungsverfahren, 47
517 Well-being Questionnaire, 489 Zuverlässigkeit, siehe Reliabilität
Verträglichkeit, 180, 258, 259, 269, WHO-Disability Diagnostic Scale, Zwänge, 470
302, 415–418, 446, 447, 456 481 Zwangswahlitems, 46, 253, 262, 271,
Videorekonstruktion, 466 Wiener Entwicklungstest, 508 286, 311, 440
Vigilanz, 137, 281–283, 307, 337, Wiener Matrizen-Test-2, 373 Zweiprozess-Modell, 539, 540
346, 348, 377, 378, 381, 408, 497

588

Das könnte Ihnen auch gefallen