Sie sind auf Seite 1von 667

Frank Faulbaum

Methodische
Grundlagen der
Umfrageforschung
Methodische Grundlagen
der Umfrageforschung
Frank Faulbaum

Methodische Grundlagen
der Umfrageforschung
Frank Faulbaum
Universität Duisburg-Essen
Duisburg, Deutschland

ISBN 978-3-531-17877-6 ISBN 978-3-531-93278-1 (eBook)


https://doi.org/10.1007/978-3-531-93278-1

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen National-


bibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

Springer VS
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019
Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die
nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung
des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikro-
verfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.
Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen
etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die
Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des
Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten.
Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Infor-
mationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind.
Weder der Verlag noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder
implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt
im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten
Karten und Institutionsadressen neutral.

Springer VS ist ein Imprint der eingetragenen Gesellschaft Springer Fachmedien Wiesbaden
GmbH und ist ein Teil von Springer Nature.
Die Anschrift der Gesellschaft ist: Abraham-Lincoln-Str. 46, 65189 Wiesbaden, Germany
Inhalt

Vorwort ......................................................................................................... XV

Teil I: Methoden der Umfrageforschung im Überblick................................... 1

I.1 Einführende Charakterisierung von Umfragen und einige


Grundbegriffe ................................................................................................. 3
I.2 Forschungsprozess, Umfragedesign und Umfrageprozess ..................... 11
I.3 Die Datenerhebungsphase .......................................................................... 15
I.3.1 Allgemeine Ablaufstruktur ...................................................... 15
I.3.2 Der Interviewprozess und seine Komponenten .................... 17
I.4 Umfragequalität und Umfragefehler ......................................................... 22
I.4.1 Umfragequalität: Ideal und Wirklichkeit ............................... 22
I.4.2 Der totale Umfragefehler .......................................................... 23
I.4.3 Datenqualität und Antwortqualität ......................................... 26
I.4.4 Empfehlungen zur Erhöhung der Umfragequalität:
Das maßgeschneiderte Design ................................................. 29
I.5 Methodenspektrum im Umfrageprozess .................................................. 32
I.6 Grundsätzliche Probleme der Umfrageforschung ................................... 37
I.7 Umfragen, konfundierende Variablen und Kausalitätsaussagen ........... 42
I.7.1 Beobachtungsstudien, experimentelle Designs und
konfundierende Variablen ........................................................ 42
I.7.2 Kausale Beziehungen zwischen Variablen.............................. 45
I.8 Umfragen im Rahmen spezieller Forschungsdesigns ............................. 47
I.9 Durchführung von Umfragen auf der Basis von
Access-Panels ................................................................................................ 57
I.10 Beispiele für Umfragen................................................................................ 61
I.10.1 Nationale Umfragen (Auswahl) ............................................... 61
I.10.2 Internationale Umfragen .......................................................... 66
I.10.3 Datenzugang............................................................................... 70
VI Inhalt

I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien ...................... 72


I.11.1 Rechtliche Rahmenbedingungen............................................. 72
I.11.2 Richtlinien und Normen für die Durchführung von
Befragungen ............................................................................... 82
I.12 Institutionen der Sozialforschung.............................................................. 84
I.12.1 Organe der Markt- Meinungs- und Sozialforschung in
Deutschland................................................................................ 84
I.12.2 Amtliche Statistik....................................................................... 88
I.12.3 Wissenschaftliche Vereinigungen ............................................ 89
I.13 Zusammenfassung ....................................................................................... 90

Teil II: Kommunikationsformen (Modes) und ihre Wirkungen................... 93

II.1 Überblick....................................................................................................... 95
II.2 Grundlegende Dimensionen der Kommunikationsform ....................... 96
II.2.1 Administrationsformen und Kommunikationskanäle ......... 96
II.2.2 Befragungstechnologien .......................................................... 99
II.2.2.1 Allgemeines ........................................................... 99
II.2.2.2 Interviewer-administrierte Verfahren mit
Computerunterstützung .................................... 102
II.2.2.3 Selbst-administrierte Verfahren mit
Computerunterstützung (CASI bzw. CASQ) .. 106
II.3 Funktionsweise der Software-Unterstützung in ausgewählten CAI-
Anwendungen ............................................................................................ 112
II.3.1 Die Funktionsweise von CATI-Systemen............................. 112
II.3.1.1 Allgemeine Struktur ........................................... 112
II.3.1.2 Funktionen der CATI-Verwaltungssoftware .. 113
II.3.2 Funktionsweise internet-basierter Befragungstechnologien ..... 118
II.3.2.1 Internetdienste und Typen internetbasierter
Befragungen ........................................................ 118
II.3.2.2 Software-Komponenten zur Realisation
internetbasierter Umfragen ............................... 119
II.4 Zusammenfassung der Vor- und Nachteile computerunterstützter
Interviews .................................................................................................... 125
II.4.1 Vorteile computerunterstützter Interviews .......................... 125
Inhalt VII

II.4.2 Besondere Anforderungen und Qualitätsgefährdungen ........... 126


II.5 Umfragen mit mehreren Kommunikationsformen (Mixed-Mode-
Surveys) ...................................................................................................... 128
II.6 Modeeffekte ................................................................................................ 132
II.6.1 Allgemeines .............................................................................. 132
II.6.2 Selektionseffekte....................................................................... 135
II.6.2.1 Begriffliche Präzisierung .................................... 135
II.6.2.2 Modepräferenzen und ihre möglichen
Ursachen .............................................................. 141
II.6.2.3 Mode-abhängige Selektion der
Antwortqualität ................................................... 145
II.6.3 Effekte auf Messung und Antwortqualität............................ 147
II.6.3.1 Messeffekte........................................................... 147
II.6.3.2 Wirkungen auf die Antwortqualität ................. 150
II.6.4 Beziehungen zwischen Selektionseffekt und Messeffekt .... 150
II.7 Einflüsse der Kommunikationsform auf die Organisation von
Erhebungen ................................................................................................ 153
II.7.1 Besonderheiten Interviewer-administrierter Umfragen .... 153
II.7.1.1 Allgemeines ......................................................... 153
II.7.1.2 Interviewer-Einsatz und
Umfrageorganisation in PAPI- und CAPI-
Umfragen ............................................................. 154
II.7.1.3 Interviewer-Einsatz und
Umfrageorganisation in CATI-Umfragen ....... 157
II.7.1.4 Interviewer-Schulung ......................................... 158
II.7.2 Besonderheiten Selbst-administrierter Umfragen .............. 162
II.7.2.1 Allgemeines ......................................................... 162
II.7.2.2 Organisation und Ablauf von Mailumfragen.. 162
II.8 Zusammenfassung ..................................................................................... 168

Teil III: Fragen und Antworten .................................................................... 169

III.1 Fragen und ihre Bestandteile .................................................................... 171


III.1.1 Der Aufbau von Fragen........................................................... 171
III.1.2 Items .......................................................................................... 175
VIII Inhalt

III.1.3 Grundlegende Typen von Fragen ......................................... 178


III.1.4 Antwortformate und Antwortskalen .................................... 180
III.1.5 Empirische und latente Antwortvariablen ........................... 190
III.1.6 Die Bedeutung von Fragetexten und Antwortvorgaben .... 192
III.1.7 Fragen und Antworten als Indikatoren:
Operationalisierungen ............................................................ 201
III.1.8 Von Fragen zum standardisierten Fragebogen .................... 205
III.1.8.1 Allgemeine Charakterisierung .......................... 205
III.2 Von Fragen zu Antworten......................................................................... 209
III.2.1 Frage-Antwortbeziehungen.................................................... 209
III.2.2 Intervenierende Prozesse und Handlungen ......................... 210
III.2.3 Der Antwortprozess ................................................................ 214
III.3 Einflüsse auf das Antwortverhalten ......................................................... 217
III.3.1 Aspekte der Antwortqualität .................................................. 217
III.3.1.1 Die Adäquatheit von Antworten ...................... 217
III.3.1.2 Messtheoretische Qualität der Antwort ........... 220
III.3.2 Leistungsanforderungen, Leistungsvermögen und
Leistungsbereitschaft ............................................................... 222
III.3.3 Sensitive Wirkungen von Fragetexten .................................. 226
III.3.3.1 Formen sensitiver Wirkungen .......................... 226
III.3.3.2 Instrumente zur Reduktion sensitiver
Wirkungen ........................................................... 230
III.3.4 Einflüsse der Kommunikationsform ..................................... 234
III.3.5 Die Position der Frage im Interview: Wirkungen der
Fragereihenfolge ..................................................................... 238
III.3.6 Die Wirkung von Frageformulierungen,
Antwortvorgaben und Antwortskalen .................................. 240
III.3.6.1 Die Wirkung von Frageformulierungen und
ihren Bedeutungen ............................................. 240
III.3.6.2 Wirkungen von Skaleneigenschaften ............... 243
III.3.6.3 Wirkung von Interviewer-Merkmalen............. 253
III.3.6.4 Einflüsse des Layouts bei
Selbstadministrierten Interviews ...................... 255
Inhalt IX

III.4 Zusammenfassung ..................................................................................... 262

Teil IV: Fragen und Antworten als Messungen............................................ 263

IV.1 Was ist Messen? .......................................................................................... 265


IV.1.2 Formale Präzisierung des Begriffs „Messen“ ....................... 267
IV.1.3 Skalenniveaus: Charakterisierung von Skalen durch
zulässige numerische Transformationen ............................. 270
IV.1.4 Skalenniveaus und zulässige statistische Verfahren für
univariate Analysen ................................................................. 276
IV.2 Die Messung latenter Variablen ............................................................... 277
IV.2.1 Einführende Bemerkungen .................................................... 277
IV.2.2 Messmodelle ............................................................................. 278
IV.2.2.1 Beziehungsformen zwischen
Konstruktvariablen und Indikatoren ............... 278
IV.2.2.2 Messmodelle mit mehreren Indikatoren ......... 281
IV.2.2.3 Die Integration von latenten
Antwortvariablen in Messmodelle ................... 287
IV.2.3 Werkzeuge zur Identifikation und Überprüfung von
Messmodellen ......................................................................... 288
IV.2.3.1 Vorbemerkung .................................................... 288
IV.2.3.2 Einsatz der explorativen Faktorenanalyse zur
Identifikation von Messmodellen ..................... 289
IV.2.3.3 Kurzbeschreibung der konfirmatorischen
Faktorenanalyse zur Überprüfung von
Messmodellen...................................................... 295
IV.3 Fehlertheorie der Messungen ................................................................... 306
IV.3.1 Beobachtete Variablen, wahre Variablen und Messfehler .. 306
IV.3.2 Ähnlichkeiten zwischen Messungen ..................................... 309
IV.3.3 „True-Score“-Modelle und Messmodelle ............................ 310
IV.3.4 Mehrstichprobenvergleiche von Messmodellen .................. 314
IV.3.5 Der Begriff der Reliabilität .................................................... 316
IV.3.6 Praktische Verfahren der Reliabilitätsbestimmung............ 318
IV.3.7 Reliabilität und Stabilität ........................................................ 319
IV.3.8 Reliabilitätmaße für zusammengesetzte Messungen .......... 324
X Inhalt

IV.4 Die Validität von Messungen.................................................................... 328


IV.5 Zusammenfassung ..................................................................................... 333

Teil V: Entwurf und Evaluation von Fragen ................................................ 335

V.1 Überblick ..................................................................................................... 337


V.2 Der Erstentwurf einer Frage ..................................................................... 339
V.2.1 Allgemeine Empfehlungen und Richtlinien......................... 339
V.2.2 Empfehlungen zum Layout in CASI-Interviews ................. 344
V.3 Vom Erstentwurf zur finalen Frage: Instrumente des
Evaluationsprozesses ................................................................................. 347
V.4 Fragebewertungssysteme .......................................................................... 350
V.4.1 Einführende Bemerkungen .................................................... 350
V.4.2 Das Fragebewertungssystem von Willis und Lessler
(QAS 99) ................................................................................... 351
V.4.3 Das Fragebewertungssystem von Faulbaum, Prüfer und
Rexroth (2009) ......................................................................... 360
V.5 Empirische Evaluationsverfahren (Pretest-Verfahren) ......................... 363
V.5.1 Überblick .................................................................................. 363
V.5.2 Kognitive Interviews ............................................................... 365
V.5.2.1 Überblick ............................................................. 365
V.5.2.2 Nachfragetechniken (Probing).......................... 367
V.5.2.3 Paraphrasieren..................................................... 370
V.5.2.4 Bewertung der Verlässlichkeit der Antwort
(engl.: Confidence Rating)................................. 371
V.5.2.5 Sortier- bzw. Vignettentechnik ......................... 372
V.5.2.6 Technik des lauten Denkens .............................. 373
V.5.3 Feld-Pretest .............................................................................. 375
V.5.3.1 Funktionsweise.................................................... 375
V.5.3.2 Befragten- und/oder Interviewer-Debriefing . 376
V.5.3.3 Behavior Coding ................................................ 378
V.5.3.4 Analyse von Antwortverteilungen und Split
Ballot..................................................................... 379
Inhalt XI

V.6 Evaluation von Fragebögen für Selbst-administrierte Interviews ....... 382


V.6.1 Papierfragebögen ..................................................................... 382
V.6.2 Programmierte Fragebögen ................................................... 384
V.6.3 Entwurf und Evaluation von Fragebögen in
interkulturellen Umfragen ...................................................... 387
V.7 Einsatz multivariater Verfahren zur Evaluation der Fragenqualität ... 388
V.8 Zusammenfassung ..................................................................................... 389

Teil VI: Stichprobenauswahl und Schätzung von Populationswerten ........ 391

VI.1 Zielpopulation, Auswahlgrundlage und Auswahlgesamtheit ............. 393


VI.2 Grundbegriffe der Zufallsauswahl ........................................................... 399
VI.3 Die Schätzung von Populationsparametern (Schätzphase) .................. 407
VI.3.1 Rückschluss von der Stichprobe auf die Grundgesamtheit 407
VI.3.2 Stichprobenfehler und Gütekriterien der Schätzung .......... 410
VI.3.3 Horvitz-Thompson-Schätzer und Designgewichtung ........ 417
VI.3.4 Der Horvitz-Thompson-Schätzer für multiple
Auswahlgrundlagen (MF-Schätzer) ...................................... 421
VI.3.5 Verbesserung der Schätzqualität durch Verwendung
von Hilfsvariablen.................................................................... 426
VI.3.5.1 Hilfsvariablen und Hilfsinformationen ........... 426
VI.3.5.2 Der Regressionsschätzer .................................... 428
VI.3.5.3 Verbesserung der Schätzer durch
nachträgliche Schichtung (Poststratifikation). 437
VI.4 Zusammengesetzte Stichprobendesigns ................................................. 438
VI.4.1 Vorbemerkung ......................................................................... 438
VI.4.2 Zweiphasenauswahl ................................................................ 439
VI.4.3 Geschichtete Stichprobenauswahl ......................................... 441
VI.4.3.1 Grundbegriffe und Stichprobenallokation ...... 441
VI.4.3.2 Schätzer für geschichtete Auswahlverfahren .. 444
VI.4.4 Klumpenauswahl .................................................................... 446
VI.4.5 Mehrstufige Auswahlverfahren .............................................. 453
VI.4.6 Selbstgewichtende Designs .................................................... 459
VI.4.7 Bestimmung des Mindeststichprobenumfangs ................... 462
XII Inhalt

VI.5 Repräsentativität......................................................................................... 463


VI.5.1 Präzisierungen des Repräsentativitätsbegriffs ..................... 463
VI.5.2 Repräsentativität in Online-Access-Panels .......................... 466
VI.6 Auswahlverfahren für telefonische Umfragen ....................................... 469
VI.6.1 Allgemeines .............................................................................. 469
VI.6.2 Zufällige Nummernerzeugung .............................................. 471
VI.6.3 Listenbasierte Verfahren ......................................................... 472
VI.6.4 Die Ziehung von Mobilfunk-Stichproben ............................ 477
VI.7 Stichprobenauswahl durch Begehung von Klumpen ........................... 479
VI.8 Auswahl von Personen im Haushalt (Within-Household Sampling) . 481
VI.9 Rekrutierung von Teilnehmern in Webumfragen ................................. 485
VI.10 Rekrutierung von Stichproben in seltenen Populationen .................... 487
VI.11 Zusammenfassung ..................................................................................... 493

Teil VII: Auf dem Weg von der Zielpopulation zur Nettostichprobe ......... 495

VII.1 Einführung und Überblick ...................................................................... 497


VII.2 Typische Ausfallmuster ............................................................................. 499
VII.3 Ausfallmechanismen ................................................................................. 505
VII.4 Gefährdungen der Umfragequalität durch Ausfälle .............................. 509
VII.4.1 Selektionseffekte....................................................................... 509
VII.4.2 Probleme durch Unterdeckung und Unterdeckungsfehler 512
VII.4.3 Nonresponse-Bias .................................................................... 515
VII.4.4 Response-Rate, Bias und Stichprobenqualität ..................... 518
VII.5 Aufschlüsselung von Unit-Nonresponse und Nonresponse-Raten .... 520
VII.5.1 Differenzierung nach Ursachen ............................................. 520
VII.5.2 Klassifikation von Ausfallraten nach AAPOR ..................... 521
VII.5.3 Arten von Nonresponse in Internet-basierten Umfragen .. 526
VII.6 Statistische Modellierung von Ausfallereignissen ................................. 527
VII.7 Bedingungen der Interview-Teilnahme: Kontaktierbarkeit und
Teilnahmebereitschaft ............................................................................... 528
VII.7.1 Kontaktierbarkeit ..................................................................... 528
VII.7.2 Determinanten der Teilnahmebereitschaft: Theoretische
Ansätze ...................................................................................... 533
Inhalt XIII

VII.7.2.1
Allgemeine Aspekte ........................................... 533
VII.7.2.2
Ansätze zur Modellierung der
Teilnahmebereitschaft ........................................ 536
VII.8 Maßnahmen zur Erhöhung der Responserate ....................................... 541
VII.8.1 Einführende Bemerkungen und Überblick ......................... 541
VII.8.2 Ankündigungen ....................................................................... 543
VII.8.3 Zuwendungen .......................................................................... 544
VII.8.4 Form und Inhalt der Kontaktaufnahme ............................... 549
VII.8.5 Interviewer-Performanz und Maßnahmen zu ihrer
Optimierung ............................................................................ 551
VII.8.5.1 Empirische Befunde zum Interviewer-Verhalten 551
VII.8.5.2 Organisations- und trainingsbezogene
Maßnahmen zur Optimierung der
Interviewer-Performanz..................................... 556
VII.8.6 Wahl der Kommunikationsform .......................................... 561
VII.8.7 Rekrutierungsaufwand, Nonresponse und Datenqualität . 564
VII.9 Dokumentation von Nonresponse-Gründen ......................................... 570
VII.9.1 Erfassungsformen .................................................................... 570
VII.9.2 Verweigerungsgründe ............................................................. 575
VII.10 Anpassungsgewichtung ............................................................................. 578
VII.10.1 Einführende Bemerkungen .................................................... 578
VII.10.2 Antwortmechanismen ............................................................ 579
VII.10.3 Gewichtungen ohne Hilfsvariablen: Der gewichtete
Klassenschätzer ........................................................................ 580
VII.10.4 Postratifikationsgewichte ....................................................... 581
VII.10.5 Raking ....................................................................................... 586
VII.10.6 Kalibrierung ............................................................................ 588
VII.10.7 Gewichtung nach dem Verfahren des minimalen
Informationsverlusts ............................................................... 591
VII.10.8 Propensity-Gewichtung ......................................................... 593
VII.10.9 Gewichtungen bei Internet-basierten Umfragen ................ 595
VII.10.9.1 Einleitende Bemerkungen ................................. 595
VII.10.9.2 Postratifikationsgewichtung .............................. 597
XIV Inhalt

VII.10.9.3 Poststratifikation mit Hilfe eines


Referenzsurveys .................................................. 598
VII.10.9.4 Propensity-Gewichtung bei Websurveys ......... 599
VII.11 Verfahren bei Item-Nonresponse: Imputationsverfahren .................... 603
VII.11.1 Einzelverfahren im Überblick ................................................ 603
VII.11.2 Das Verhältnis von Gewichtung und Imputation ............... 607
VII.12 Zusammenfassung ..................................................................................... 609

VIII. Epilog ................................................................................................... 611

Literatur ........................................................................................................ 613


Vorwort
International und national gehören Bevölkerungsumfragen inzwischen zu den
unumstrittenen Hilfsmitteln und wohl etablierten Instrumenten wirtschafts-, bil-
dungs-, kultur- und sozialpolitischer Entscheidungsvorbereitung. Politische Ent-
scheidungen in komplexeren Gesellschaften erfordern, nicht nur zur rechtzeitigen
Prognose krisenhafter Entwicklungen, sondern auch zur Erarbeitung kurz- und
mittelfristiger Planungsunterlagen die systematische Sammlung von Erkenntnis-
sen über Veränderungen in Wirtschaft und Gesellschaft (vgl. z.B. die Beiträge in
König, Stahl & Wiegand, 2011). Längerfristige Planungen bedürfen dabei immer
wieder der zwischenzeitlichen empirischen Überprüfung. Zum Teil werden diese
Erhebungen, wie etwa im Fall des Mikrozensus, auf gesetzlicher Grundlage vom
Staat, vertreten durch das Statistische Bundesamt und die statistischen Ämter,
selbst durchgeführt, zum Teil als Forschungsaufträge an staatliche, akademische
oder privatwirtschaftliche Institutionen vergeben. Nicht nur auf nationaler Ebene,
sondern auch auf internationaler, insbesondere europäischer Ebene, auf regionaler
und kommunaler Ebene, auf der Ebene von Städten und Gemeinden, entwickeln
sich Umfragen inzwischen mehr und mehr zu einem methodischen Standardin-
strument der Sozialberichterstattung, der wirtschaftlichen und gesellschaftlichen
Dauerbeobachtung (Monitoring), der Vorbereitung und Evaluation kultur-, sozi-
al- und arbeitsmarktpolitischer kommunaler Maßnahmen und der Untersuchung
der Akzeptanz kommunaler Entscheidungen. Auch für die sozialwissenschaftliche
Forschung und Lehre liefern Bevölkerungsumfragen die notwendigen Daten, um
Erkenntnisse über Einstellungen, Wertorientierungen und Verhalten zu sammeln
oder darauf bezogene Hypothesen zu überprüfen. Die alle zwei Jahre stattfindende
und vom GESIS – Leibniz-Institut für Sozialwissenschaften in Mannheim betreute
Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) sowie einige
internationale Umfragen wie z.B. der European Social Survey (ESS), sind aus der
akademischen Lehre in der empirischen Sozialforschung kaum noch wegzuden-
ken. Schließlich sind Bevölkerungsumfragen aber auch Datenlieferanten für die
Marktforschung und auch für die medienwirksame Unterhaltung.
Umfragen können durchaus mehrere beabsichtigte oder unbeabsichtigte Funk-
tionen zur gleichen Zeit haben. Ein Beispiel hierfür stellen die Umfragen im Be-
reich der Wahlforschung dar. Einerseits dienen sie dazu, politikwissenschaftliche
Hypothesen zu überprüfen sowie Trends und Veränderungen in den Einstellungen
zu politischen Parteien zu beschreiben. Andererseits bedienen sie aber auch das In-
teresse und den Unterhaltungsbedarf der Bevölkerung, insbesondere vor Wahlen.
XVI Vorwort

Die Umfrageforschung hat in den letzten Jahrzehnten bedeutende methodische


Fortschritte in den Ergebungstechnologien, in der Identifizierung der Einflüsse
auf die Datenqualität, in der Datenanalyse und in der methodischen Begleitfor-
schung gemacht. Wichtige internationale Standardwerke der Methodenliteratur
stehen inzwischen für Studium und Weiterbildung zur Verfügung. Beispiele sind
das Lehrbuch „Survey Methodology“ von Groves et al. (2009) in Bezug auf die
Umfrageforschung, die Monographie „Model Assisted Survey Sampling“ von Särn-
dal, Swensson und Wretman (1992) auf dem Gebiet der Stichprobenauswahl aus
endlichen Grundgesamtheiten sowie die orientierenden Monographien in der Wi-
ley-Reihe „Survey Research“. Die Fortschritte dokumentieren sich in methodisch
anspruchsvollen wissenschaftlichen Aufsätzen vor in Zeitschriften wie „Public
Opinion Quarterly“, „Journal of Official Statistics“, „Survey Research Methods“,
„Field Research“ oder dem „Journal of the Royal Statistical Society, Series A.“ und
anderen. Daneben werden Methoden der Umfrageforschung auch in Einführun-
gen in die empirische Sozialforschung mehr oder weniger vertieft behandelt (vgl.
z.B. Häder, 2010; Schnell, Hill & Esser, 2011 in der 9. Auflage). Auch sehr hilfreiche
praxisorientierte Darstellungen der einschlägigen Methoden liegen inzwischen in
deutscher Sprache vor (vgl. Schnell, 2012, Häder, Häder & Schmich, 2018 in Bezug
auf Telefonumfragen).
Die Motivation für das Verfassen dieser Monographie leitet sich vor allem aus
der Erkenntnis ab, dass es sich bei Umfragen um Messungen handelt, an welche
die gleichen methodischen Anforderungen wie bei Messungen in den Naturwis-
senschaften gestellt werden müssen. Gemessen werden im Fall von Umfragen ge-
sellschaftliche Zustände im weitesten Sinn. Dies ist jedenfalls dann der Fall, wenn
Umfragen nicht ausschließlich zu Unterhaltungszwecken durchgeführt werden.
Obgleich die Bedeutung der Qualität eines Blutdruckmessgeräts für die Messung
des Blutdrucks nicht in Frage gestellt wird, sieht es bei Umfragen eher anders aus.
Wenn zentrale Aspekte der Umfragequalität nicht berücksichtigt werden, darf man
sich über Verzerrungen in den Ergebnissen, seien es nun Wahlprognosen oder an-
deren Ergebnisse, nicht wundern. In jenen Fällen, in denen Umfragen Daten für die
gesellschafts- und wirtschaftspolitische Planung oder die sozialwissenschaftliche
Forschung liefern sollen, muss die Optimierung der Umfragequalität ein zentrales
Anliegen sein.
Allerdings hat sich der Stellenwert von Umfragedaten inzwischen verändert.
Gehörten Umfragen noch vor wenigen Jahren zu den dominanten Datenquellen
der empirischen Sozialforschung, so haben inzwischen auf Grund technologischer
Entwicklungen andere Formen der Datenrekrutierung an Bedeutung gewonnen.
Zur Diskussion steht vor allem das Verhältnis von Umfragedaten zu Daten, die
unter dem Begriff „Big Data“ mehr oder weniger präzise zusammengefasst wer-
Vorwort XVII

den. Eine populäre Definition des Begriffs „Big Data“ basiert auf folgenden Ei-
genschaften (vgl. Japek et al., 2015, p. 841): (1) extremer Umfang der Datenmenge
(„volume“), die für die Analyse zur Verfügung steht, wobei die Daten aus unter-
schiedlichen Quellen stammen können; (2) hohe Geschwindigkeit, mit der die
Datenerhebung erfolgt („velocity“); (3) Unterschiedlichkeit und Komplexität der
Formate; (4) Variabilität („variability“) im Sinne einer Inkonsistenz der Daten über
die Zeit; (5) Bereitschaft, der Korrektheit der Daten zu trauen („veracity“); (6) Not-
wendigkeit, unterschiedliche Datenquellen zu verknüpfen. Beispiele für Typen von
„Big Data“ sind Daten aus den sozialen Medien, sensorische Daten, administrative
Daten, durch Tracking gewonnene persönliche Daten. Viele dieser Daten wurden
und werden im Unterschied zu Umfragedaten nicht-reaktiv erhoben.
Die Methoden der Datengewinnung durch Umfragen bestehen in einer vernetz-
ten Struktur vieler Teilschritte bzw. Komponenten, die auch als Umfrageprozess be-
zeichnet wird (vgl. Teil I.2; Abbildung I.3) und die als komplexes Messinstrument
zur Messung gesellschaftlicher Zustände aufgefasst werden kann. Jeder Schritt im
Umfrageprozess, von der Stichprobenauswahl bis zur Erstellung des Datensatzes
verlangt nach spezifischen Qualitätskriterien, deren Missachtung spezifische Feh-
ler bzw. Verzerrungen zur Folge haben können, die sich zu einem Gesamtfehler
einer Umfrage (totaler Umfragefehler; eng.: total survey error; vgl. Abschnitt I.4.2)
addieren können (vgl. Groves, 2004). Um den Umfragefehler möglichst gering zu
halten, bedarf es zumindest bei Umfragen von großer gesellschaftlicher und/oder
wissenschaftlicher Bedeutung der Zusammenarbeit von Fachleuten in den Schwer-
punkten, die in den Schritten des Umfrageprozesses angesprochen sind (vgl. hierzu
auch Faulbaum, 2016).
In dieser Monographie wird das Methodenpanorama der Umfrageforschung in
den wesentlichen Grundzügen dargestellt. Dabei ließ sich nicht vermeiden, dass
an einigen Stellen auf methodisches Vorwissen der Leser zurückgegriffen werden
muss. Dies ist vor allen in den eher statistisch geprägten Abschnitten des Buches
der Fall. Insbesondere Erfahrungen mit mathematischen Notationen sind sicher-
lich hilfreich. In jedem Fall sollte aber zumindest die Intention der dargestellten
Methoden erkennbar und damit auch eine Einschätzung ihrer Bedeutung im Um-
fragedesign und im gesamten Umfrageprozess möglich sein.
Das Buch ist so aufgebaut, dass im ersten Teil zunächst ein Gesamtüberblick
über Ablauf und Inhalt der Stufen des Umfrageprozesses sowie über die Rolle von
Umfragen im Forschungsprozess gegeben wird. Es war dabei auch ein Anliegen,
einige allgemeine Probleme unter Einschluss des Verwertungszusammenhangs
anzusprechen. In diesem Teil werden auch rechtliche Rahmenbedingungen an-
gesprochen. Der zweite Teil wendet sich den Kommunikationsformen zu, in de-
nen mit Kontaktpersonen und Interviewpartnern kommuniziert wird. Der Begriff
XVIII Vorwort

der Kommunikationsform wird in der Bedeutung des englischen Begriffs „mode“


verwendet. Dementsprechend wird im Text auch von Modes gesprochen. Auch
Alternativbegriffe wie Befragungsart oder Befragungsform werden gelegentlich
alternativ benutzt. Der zweite Teil steht unter dem Vorbehalt, dass technologische
Entwicklungen auch zukünftig zu neuen Kommunikationsformen führen können,
die in dieser Monographie noch nicht angesprochen werden konnten. Ungewöhn-
lich mag in diesem Teil auch erscheinen, dass dort die Ausführungen über die Fel-
dorganisation angesiedelt sind. Grund dafür ist der enorme Einfluss, den Kommu-
nikationsformen gerade auf diesen Aspekt haben. Die darauffolgenden Teile III, IV
und V beschäftigen sich mit dem Entwurf und der Evaluation von Fragen. Teil IV
widmet sich speziell den Konzepten der Messung und deren Gütekriterien. Man-
cher Leser mag den Teil für unnötig detailliert halten. Eine detaillierte Darstellung
schien jedoch sinnvoll, um zu zeigen, was wir tun und welche Implikationen es für
die Datenqualität hat, wenn wir Fragen und Antworten als Messungen betrachten.
In den Teilen VI und VII geht es dann um die Stichprobenverfahren und den durch
Ausfälle (Nonresponse) gepflasterten Weg von einer Ausgangsstichprobe zur Men-
ge der realisierten Interviews und der Menge der realisierten Antworten.
Wo empirische Ergebnisse einzelner Studien berichtet werden, sollte bedacht
werden, dass es sich immer um Einzelstudien/Einzelexperimente handelt, deren
Generalisierbarkeit nicht unbedingt gesichert ist, da sie oft unter besonderen me-
thodischen Voraussetzungen stattfanden. Zahlreiche Ergebnisse beziehen sich auf
Zusatzauswertungen von Erhebungen, die besonderen methodischen Vorgaben
ausgesetzt waren.
Das vorliegende Buch wendet sich an alle, die sich ernsthaft für das Spektrum
der Verfahren interessieren, welche die Qualität von Umfragemessungen beeinflus-
sen können.
Mein Dank gilt dem Verlag Springer VS für die erforderliche Geduld und Un-
terstützung. Gedankt sei auch meinen Mitarbeitern Dawid Bekalarczyk und Lars
Ninke für die Bereitstellung einiger Abbildungen. Schließlich möchte ich meiner
Frau Margrit Rexroth für die erwiesene Geduld und Unterstützung danken.
Teil I: Methoden der Umfrageforschung im
Überblick

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 1
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1_1
I.1 Einführende Charakterisierung von Umfragen und
einige Grundbegriffe

Umfragen unterscheiden sich von anderen Methoden der Datenerhebung vor al-
lem dadurch, dass Daten unter Einsatz systematischer Methoden der Befragung mit
dem Ziel der quantitativen Beschreibung einer Zielpopulation (auch: Grundgesamt-
heit) von Elementen hinsichtlich bestimmter Merkmale (auch: Variablen) erhoben
werden, wobei die Zielpopulation in der Regel Teil einer Gesamtpopulation (engl.:
total population) ist. Ein Beispiel wäre die Zielpopulation der in Privathaushalten
lebenden Personen im Alter ab 18 Jahren als Teilpopulation aller in Privathaus-
halten lebenden Personen der BRD. Elemente von Zielpopulationen können sein:
Personen, Haushalte, Unternehmen, Organisationen, Vereine, soziale Netzwerke,
etc., sie können also durchaus unterschiedlichen Analyseebenen angehören. Bei
der Erhebung ausgewählter Merkmale von Elementen höherer Analyseebenen wie
z.B. Unternehmen und Organisationen (engl.: business surveys oder establishment
surveys; vgl. DesRoches, 2008; Snijkers et al., 2013) muss je nach Element allerdings
zusätzlichen Problemen Rechnung getragen werden. Dazu gehören etwa die Fest-
legung der Informationsbeschaffung über geeignete Auskunftsperson(en) und die
besondere Beachtung der durch sie eingeführten Fehlerquellen (vgl. hierzu Bavdaž,
2010). Auch die Erhebungsinstrumente für Unternehmensbefragungen bedürfen
hinsichtlich ihres Designs besonderer Überlegungen (vgl. Morrison, Dillman &
Christian, 2010). Die mit der inhaltlichen Fragestellung verbundenen Variablen
heißen Zielvariablen (auch: Survey-Variablen, Studienvariablen, Untersuchungsva-
riablen; engl.: target variables, goal variables oder survey variables).
Aus Gründen wie zeitlichen Restriktionen, Kostengründen, etc. ist es insbe-
sondere bei großen Populationen in der Regel nicht möglich, im Rahmen einer
Totalerhebung alle Elemente der Population in eine Umfrage einzubeziehen, so dass
die Auswahl einer Stichprobe notwendig wird (vgl. Abbildung I.1).
Daraus ergibt sich die Aufgabe, statistische Eigenschaften von Merkmalen und/
oder Merkmalszusammenhängen in der Zielpopulation auf Basis der nach Ab-
schluss der Datenerhebung resultierenden Stichprobe, möglichst genau zu schätzen
(vgl. Abbildung I.2 in Bezug auf die Schätzung von Parametern univariater Ver-
teilungen). Aus der vereinfachten Darstellung der Abbildung geht allerdings nicht
hervor, dass zwischen der gezogenen Ausgangsstichprobe und der resultierenden
finalen Stichprobe noch der gesamte Erhebungsprozess mit seinen verschiedenen
Einfallstoren für Verzerrungen liegt.
4 I.1 Einführende Charakterisierung von Umfragen und einige Grundbegriffe

Abbildung I.1: Zielpopulation und Stichprobe

Abbildung I.2: Parameterschätzung


I.1 Einführende Charakterisierung von Umfragen und einige Grundbegriffe 5

Um die Qualität einer Schätzung zu beurteilen, können statistische Verfahren he-


rangezogen werden, mit deren Hilfe bestimmt werden kann, wie groß der Fehler
einzuschätzen ist, der bei Schätzungen von statistischen Eigenschaften der Popu-
lation zu erwarten ist. Angestrebt werden sollte immer eine Schätzung mit einer
unter den gegebenen Bedingungen erreichbaren maximalen Genauigkeit. Umfra-
gen, die von vornherein keine optimale Schätzung der Populationswerte anstreben,
sollten mit Rückschlüssen von den erhobenen Daten auf die Zielpopulation äußerst
zurückhaltend sein. Da es sich bei Stichproben für Umfragen im Unterschied zu
den infiniten Populationen der klassischen Inferenzstatistik um Stichproben aus
endlichen Populationen handelt, wird die statistische Theorie endlicher Grundge-
samtheiten zur begrifflichen Präzisierung der Stichprobendesigns und der Schätz-
verfahren herangezogen (vgl. Teil VI).
Die Schätzung von Populationswerten ist sinnvoll bei großen Populationen. Bei
sehr kleinen Populationen und entsprechend kleinen Stichproben (z.B. 20 Perso-
nen) würde man den Begriff der Umfrage eher nicht verwenden. In diesem Fall
lässt sich der Populationswert direkt berechnen. Der Begriff „Umfrage“ entspricht
im Verständnis dieses Buches also eher dem Begriff des „large sample survey“ in der
angloamerikanischen Literatur (vgl. Groves et al., 2009). In gewissem Sinne lassen
sich Umfragen als Instrumente zur Beobachtung bzw. Messung des Zustands von
Populationen im Sinne einer Momentaufnahme betrachten. Diese Messungen wer-
den gelegentlich auch als Umfragemessungen (engl.: survey measurements) bezeich-
net. Solche Beobachtungen/Messungen können durch wiederholte Umfragen zur
Dauerbeobachtung erweitert werden. Notwendig ist dafür zunächst die Beobach-
tung der individuellen Ausprägungen von vorher festgelegten Merkmalen (Variab-
len) der Elemente in der Stichprobe. Auf der Basis dieser Merkmalsausprägungen
lassen sich dann mit Hilfe statistischer Analysen Annahmen über die Zustände der
Bevölkerung ableiten und charakterisieren. Praktisch bedeutet dies, dass von einer
Individualebene (z.B. Personenebene) auf eine Kollektivebene (z.B. Gesamtbevöl-
kerung, Betriebe, etc.) zurückgeschlossen wird. Aus dem Sachverhalt, dass die Basis
dieses Rückschlusses eine Stichprobe darstellt, ergeben sich dann alle inferenzsta-
tistischen und stichprobentheoretischen Probleme (siehe oben).
Auf dem Weg von der Population über die Stichprobenauswahl zum endgülti-
gen Datensatz können aus unterschiedlichen Gründen ursprünglich ausgewählte
Stichprobenelemente verloren gehen. Diese Nonresponse-Problematik stellt eine
Herausforderung für die Durchführung von Umfragen dar (vgl. Kreuter, 2013a)
und erfordert spezifische Überlegungen zur Reduktion von Nichtantworten und
zur Korrektur der durch sie bedingten Verzerrungen der Ausgangsstichprobe (vgl.
Teil VII).
6 I.1 Einführende Charakterisierung von Umfragen und einige Grundbegriffe

Die in einer Umfrage untersuchten Merkmale variieren je nach Forschungsthe-


ma und Untersuchungsziel. Dabei kann es sich um Einstellungen (z.B. zu Gesund-
heitsthemen, zu politischen Themen, zu sozialen Themen), um Fakten, die man,
insofern ein Gesamtbild der Bevölkerung entworfen werden soll, einfacher im
Rahmen einer Umfrage erheben kann (z.B. Gesundheitsverhalten wie „Rauchen“
oder „Nichtinanspruchnahme von Angeboten zur Krebsvorsorge“, „Veränderung
von Familienstrukturen“, „Struktur von Freundschaftsnetzwerken“, „Migrations-
verhalten“) oder um soziodemographische Merkmale wie „Alter“, „Geschlecht“,
„Bildung“, „Einkommen“, „Haushaltsgröße“, „Erwerbsstatus“, „Mitgliedschaften“,
„Nationalität“, etc. handeln. Die Sammlung soziodemographischer Informationen
steht vor allem im Mittelpunkt der amtlichen Statistik. In der Unternehmensfor-
schung geht es oft um die Erhebung von Fakten, welche spezifisch Unternehmen
betreffen wie die Zahlung von Kurzarbeitergeld, geplante Investitionen, etc. Über
Mitarbeiterbefragungen (vgl. Borg, 2003) können Informationen über die Zufrie-
denheit der Mitarbeiter, z.B. mit dem Arbeitsplatz, mit Vorgesetzten und dem Ar-
beitsklima erhoben werden. In der Marktforschung kann es z.B. im Rahmen von
Konsumentenbefragungen um die Messung der Zufriedenheit von Kunden mit
Produkteigenschaften oder mit dem Service, das Image von Unternehmen, die
Evaluation der Werbewirkung, oder auch einfach um den Anteil von gekauften
Produkten gehen. Schließlich können im Rahmen von biosozialen Surveys (vgl. z.B.
die Beiträge in Committee of Advances in Collecting and Utilizing Biological In-
dicators and Genetic Information in Social Science Surveys, Weinstein, Vaupel &
Wachter, 2007) auch biometrische Daten, sog. Biomarker, erhoben oder genutzt
werden. Beispiele für solche Daten sind Körpergewicht, Blutdruck, genetische Da-
ten, etc. (vgl. z.B. Dykema et al., 2017; Kooreman & Scherpenzeel, 2014; Sakshaug
et al., 2015; Schnell, 2009). Ein Beispiel für ein Umfrageprojekt, in dem Biomarker
erhoben werden, ist das longitudinal angelegte Umfrageprojekt SHARE (Survey of
Health, Aging, and Retirement in Europe (vgl. Hank, Jürges & Schaan, 2009). Auch
können primär der Erhebung der Gesundheit gewidmete Untersuchungen als Teil
Befragungen beinhalten. Ein Beispiel ist die „NAKO Nationale Gesundheitsstudie“
(siehe www.nako.de).
Zur weiteren Vervollständigung von Informationen über Befragte kann ver-
sucht werden, weitere sog. Paradaten zu erheben bzw. zu nutzen (vgl. die Beiträge
in Kreuter, 2013). Paradaten sind Daten, die nicht zu den im Hauptinterview erho-
benen Ziel-, und Hilfsvariablen gehören. Vielmehr handelt es sich um Daten, die im
Rahmen der Vorbereitung und Durchführung der Umfrage erhoben werden, um
die Qualität der Interpretation des Antwortverhaltens zu erhöhen wie z.B. Aufnah-
men des Gesichtsausdrucks während der Beantwortung, Antwortzeiten, Anzahl
der Kontaktversuche, situativer Kontext, Interviewer-Beobachtungen, während des
I.1 Einführende Charakterisierung von Umfragen und einige Grundbegriffe 7

Screenings erhobene Daten. Eine wichtige Funktion von Paradaten besteht in der
Verwendung als Hilfsvariablen bei Gewichtungsverfahren zur Korrektur von Aus-
fällen durch Nonresponse, da bestimmte Paradaten oft auch bei Personen erhoben
werden können, die die Interviewteilnahme verweigern.
Mit einer Umfrage sind stets bestimmte inhaltliche Zielsetzungen und damit
auch die Auswahl bestimmter Untersuchungsvariablen für die Erhebung verbun-
den, die Operationalisierungen der zentralen thematischen Dimensionen darstel-
len und die in ihrer inhaltlichen Funktion von sog. Hilfsvariablen (engl.: auxiliary
variables) unterschieden werden können, die der Unterscheidung verschiedener
Subpopulationen dienen (vgl. z.B. Bethlehem, Cobben & Schouten, 2010, p. 28)
und die zur Optimierung der Schätzungen von Populationswerte auf Grundlage
der Umfragedaten eingesetzt werden. Auf die Rolle der Hilfsvariablen wird in den
Teilen VI und VII näher eingegangen.
Sieht man von Umfragen ab, die ohne Bezug auf besondere methodische Über-
legungen und ohne Berücksichtigung von Qualitätsmerkmalen nur durchgeführt
werden, um Ergebnisse mit Unterhaltungswert zu produzieren, die sich in Boule-
vardzeitschriften oder Unterhaltungssendungen gut präsentieren lassen oder die
nur durchgeführt werden, um eine Einrichtung zwecks Selbstvermarktung in den
Medien zu lancieren, so wird es bei einer Umfrage in erster Linie darum gehen,
die statistischen Eigenschaften der zentralen Variablen der Untersuchungsfrage-
stellung in der Population so genau wie möglich auch in der Stichprobe abzubilden.
Mit dieser Abbildungsgenauigkeit wird oft der Begriff Repräsentativität verbunden
(siehe Teil VI). Die Abbildungsgenauigkeit wird nie perfekt sein, allein schon da-
rum, weil statt der Population nur eine Stichprobe untersucht wird und weil die
nach Durchführung der Umfrage resultierende finale Stichprobe (Menge der re-
alisierten Interviews; auch: Nettostichprobe) durch die Qualität der zur Stichpro-
benauswahl zur Verfügung stehenden Auswahlgrundlage und durch verschiedene
Arten von Nichtteilnahme im Vergleich zur Zielpopulation stets Verzerrungen auf-
weisen wird. Umso wichtiger erscheint es, vor und nach der Erhebung geeignete
Maßnahmen zur Optimierung der Schätzungen der relevanten Populationswerte
zu ergreifen. Dies kann nach der Erhebung etwa durch Anwendung geeigneter
Gewichtungsverfahren zur Korrektur von Schätzungen (vgl. Teile VI und VII) ge-
schehen. Die zusammenfassende Betrachtung aller Fehlerquellen, die im Verlauf
der Realisierung einer Umfrage auftreten können, führt zum Konzept des totalen
Umfragefehlers (engl.: total survey error; siehe Abschnitt I.4.2).
In wissenschaftlichen Forschungsprojekten geht es entweder um die Überprü-
fung von auf eine Population bezogenen, mehr oder weniger komplexen statisti-
schen Hypothesen bzw. Modellen des Forschers (konfirmatorische Nutzung der
erhobenen Umfragedaten) oder um die Exploration von Eigenschaften und Struk-
8 I.1 Einführende Charakterisierung von Umfragen und einige Grundbegriffe

turen einer Zielpopulation (explorative Nutzung der erhobenen Umfragedaten).


Im ersten Fall sind die Hypothesen oft in einen umfassenderen theoretischen Zu-
sammenhang eingebettet, im zweiten Fall können die Ergebnisse der Exploration
Ausgangspunkt für die Stimulierung theoretischer Erklärungen und damit Anlass
für die weitere Elaboration theoretischer Überlegungen sein. Oft existieren beide
Nutzungsformen nebeneinander. In der kommerziellen Anwendung steht in der
Regel die statistische und/oder graphische Beschreibung von Daten durch Häufig-
keiten, Anteile und statistische Kennwerte wie Maße der zentralen Tendenz und
Streuungsmaße im Vordergrund. Hier geht es in erster Linie um die einfache Dar-
stellung für ein methodisch nicht immer ausreichend vorgebildetes Auditorium.
Gelegentlich ergibt sich die Möglichkeit, durch eine Erweiterung der durch eine
Umfrage erzeugten Daten die Menge der überprüfbaren Hypothesen über Merk-
malszusammenhänge zu erweitern. Dies ist dann der Fall, wenn Merkmale von
Elementen (Personen, Betriebe, etc.) bereits mehrfach zu unterschiedlichen Gele-
genheiten und in unterschiedlichen Zusammenhängen erhoben wurden, so dass
ein und das gleiche Element zugleich mehreren Datenquellen angehört, so etwa
als Befragter in einer Bevölkerungsumfrage und als Mitarbeiter in einem Unter-
nehmen. Über geeignete Merkmale wie z.B. Identifikationsschlüssel oder Adressen
lassen sich dann beide Datenquellen zu einem neuen Datensatz verknüpfen, der
nunmehr für ein Element die Merkmale beider Datenquellen enthält. Der neue
Datensatz ermöglicht dann die Ermittlung von Merkmalszusammenhängen, die in
jedem einzelnen Datensatz nicht durchführbar gewesen wäre. Diese Form der Zu-
sammenfügung verschiedener Datenquellen wird auch als „record linkage“ bezeich-
net. Die Verfahren zur Verknüpfung bilden die „record linkage (RCL)“-Verfahren
(vgl. Christen, 2012). Die Form der Zusammenführung von Daten muss allerdings
mit den gesetzlichen Bestimmungen des Datenschutzes vereinbar sein. Ein Daten-
schutzproblem ergibt sich vor allem dadurch, dass Stichprobenelemente durch die
Verknüpfung identifizierbar werden, obwohl sie es vorher nicht waren.
Ein einschlägiges Beispiel für die Anwendung dieser Verfahren ist die Zusam-
menführung von Umfragedaten und administrativen Daten (vgl. z.B. Lillard & Far-
mer, 1997; Schnell, 2013). In der Regel müssen die Untersuchungseinheiten einer
solchen Verknüpfung von Datenquellen zustimmen, wobei die Zustimmung (engl.
consent) von verschiedenen Faktoren wie „Privatheit“, „geringere Bereitschaft zum
Interview (engl.: interview resistance), etc. abhängen kann (vgl. Sakshaug et al.,
2012; Sala, Burton & Knies, 2012). Allgemeinere Ansätze ohne identische Elemen-
te in mehreren Datenquellen, aber mit einer sich überschneidenden Menge von
Merkmalen werden unter dem Begriff „Datenfusion“ bzw. „Statistisches Matching“
zusammengefasst (vgl. Rässler, 2002). Dazu gehören auch die traditionellen Ver-
I.1 Einführende Charakterisierung von Umfragen und einige Grundbegriffe 9

fahren wie das Matching nach dem nächsten Nachbarn oder nach dem identischen
Zwilling (vgl. z.B. Bacher, 2002).
Bereits aus dem Ziel der quantitativen Beschreibung einer Grundgesamtheit
folgt, dass alle Stichprobenelemente in einer Umfrage vergleichbar, d.h. objektiv,
gemessen sein müssen. Dies bedeutet, dass die Fragen, auf denen die angestreb-
ten quantitativen Aussagen beruhen, für alle Einheiten in gleicher Weise gestellt
werden sollten. Dies heißt aber wiederum im Detail, dass Frageformulierung,
Antwortformate, die Position der Frage im Fragebogen sowie Layout, und Inter-
viewer-Anweisungen (bei Interviewer-administrierten Interviews) oder Befrag-
ten-Anweisungen (bei selbstadministrierten Interviews) identisch sind. Da bei
Interviewer-administrierten Befragungen (zum Begriff der Administration vgl.
Teil II) das Antwortverhalten des Befragten durch das Verhalten der Interviewer
beeinflusst werden kann, sollte im Rahmen der stets notwendigen Schulung (Inter-
viewer-Schulung bzw. Interviewer-Training) auch ein möglichst vergleichbares In-
terviewer-Verhalten erreicht werden. Man fasst die genannten Bedingungen unter
dem Begriff Standardisierung (vgl. hierzu Schaeffer & Maynard, 2008) zusammen.
Zur Herstellung dieser Bedingungen lassen sich bestimmte Regeln zur Durchfüh-
rung standardisierter Interviews formulieren (vgl. Prüfer & Stiegler, 2002). Die
Vergleichbarkeit der Messungen wird überdies weiter dadurch erhöht, dass über-
wiegend geschlossene Antwortformate verwendet werden.
Es ist vor allem die Standardisierung und nicht so sehr die Zählbarkeit und
Quantifizierung der Antworten, die Umfragen von qualitativen Erhebungsmetho-
den unterscheidet. Mit zunehmender Standardisierung eines Erhebungsinstru-
ments werden die grundsätzlich denkbaren Reaktionen der Befragten auf solche
eingeschränkt, die vorgegebenen Antwortformaten entsprechen, d.h. auf adäquate
Antworten. Dies bedeutet z.B., dass es Befragten im Unterschied zu den Bedingun-
gen eines Gesprächs nicht gestattet ist, auf eine Frage mit einer Rückfrage oder mit
einer anderen Reaktion als der durch das Antwortformat vorgegebenen zu antwor-
ten. Bei Nachfragen zum Verständnis und anderen nicht-adäquaten Reaktionen
durch den Befragten ist der Interviewer angehalten, in seiner Reaktion sog. neutrale
Techniken zu verwenden, um die Befragten zu einer adäquaten Antwort zu bewe-
gen.
Diese Form der standardisierten Kommunikation zwischen Befragten und
Interviewern unterscheidet Umfragen von weniger strukturierten, qualitativen
Erhebungen. Viele Einwände der qualitativen Forschung in Bezug auf Umfragen
unter menschlichen Individuen haben mit der Befürchtung zu tun, der Mensch als
reflexiv handelndes menschliches Subjekt könnte im Rahmen der Befragung auf
einen Reiz-Reaktionsmechanismus reduziert werden und damit eine reine Variab-
lensoziologie bedienen (vgl. z.B. Blumer, 1956; Groeben, 1986). Richtig ist aber viel-
10 I.1 Einführende Charakterisierung von Umfragen und einige Grundbegriffe

mehr nur, dass die Reflexion des Befragten durch eine Frage angestoßen wird und
in eine Antwort unter einer Menge zugelassener Antworten mündet. Allerdings
entfällt die Weiterführung der Antwort durch ein Gespräch. Zwischen Frage und
Antwort können mehr oder weniger komplexe kognitive und emotionale Prozesse
einschließlich selbstreflexiver Prozesse intervenieren. Mit einer standardisierten
Form der Befragung wird im Grunde ein ähnliches Frage-Antwortverhalten wie
auch in manchen Situationen des Alltags realisiert, in denen ebenfalls im Rahmen
etablierter Konventionen kommuniziert wird. Schwierig wird die Anwendung des
standardisierten Interviews allerdings bei Dialogen, die mit der Absicht geführt
werden, eine gemeinsame Antwort auf ein Problem zu finden, etwa dann, wenn
eine Einigung über die Interpretation eines Textes oder eines Ereignisses erzielt
werden soll. Auch hier lässt sich aber die Anwendbarkeit von formalisierten Ver-
fahren wie der Delphi-Methode prüfen, bei der in mehreren Runden versucht wer-
den kann, Expertenmeinungen zusammenzuführen (vgl. Häder, 2014).
Viele Restriktionen, Bedingungen und Unvereinbarkeiten in der Anwen-
dung von Umfragemethoden lassen sich im Grunde auf ein bekanntes Dilemma
der Kommunikationstheorie zurückführen. Dieses als Bandbreite-Übertragungs-
treue-Dilemma (engl.: bandwidth-fidelity dilemma) (vgl. Cherry 1957; Cronbach &
Gleser, 1965) bezeichnete Dilemma beschreibt das Problem, dass unter bestimmten
zeitlichen Restriktionen mit einer Erhöhung der Bandbreite eine Reduktion der
Übertragungstreue einhergeht. Ein Beispiel wäre, dass unter der Bedingung, dass
ein Interview nur 20 Minuten dauern darf, entweder nur sehr wenige Fragen mit
längeren Fragetexten oder viele Fragen mit nur kurzen Fragetexten gestellt werden
können, oder dass auf umfassendere Antworten auf offene Fragen zugunsten weni-
ger informativer Antworten auf geschlossene Fragen verzichtet werden muss.
Dieses Dilemma kann entsprechend erweitert werden, wenn auch noch die ko-
gnitive Komplexität und das mentale Leistungsvermögen der Befragten als Nadel-
öhr einbezogen wird, da ein bestimmtes Leistungsvermögen des Befragten auch
nur eine bestimmte Komplexität von Fragen zulässt.
Die Standardisierung von Interviews stellt zwar immer noch ein wesentliches
Merkmal von Umfragen dar, jedoch weisen einige Entwicklungen in der Umfrage-
forschung darauf hin, dass zukünftig nicht zuletzt auf Grund von technologischen
Entwicklungen auch Abweichungen vom Prinzip der vollständigen Standardisie-
rung nicht nur sinnvoll, sondern auch notwendig sein können. Ein Beispiel hierfür
ist die Integration von Hilfefunktionen, die Befragten zur Verfügung gestellt wer-
den, um zusätzliche Informationen abrufen zu können wie z.B. Begriffsklärungen
(vgl. Conrad & Schober, 2000; Schober & Conrad, 1997; Schober & Conrad., 2002;
Schober & Conrad, 2008). Die Integration solcher Hilfen erfordert eine Reform des
Standardisierungsbegriffs in Richtung auf eine stärkere Konversationspraxis (vgl.
I.2 Forschungsprozess, Umfragedesign und Umfrageprozess 11

Schaeffer & Maynard, 2008), woraus sich natürlich auch eine Reduktion des kon-
zeptuellen Abstands zwischen qualitativen Erhebungsverfahren und der Erhebung
von Umfragedaten ergibt.
Die Umfrageforschung wird in ihrer Entwicklung, wie einige andere Diszip-
linen auch, durch die Entwicklung neuer Technologien, insbesondere Kommu-
nikationstechnologien, beeinflusst, die einige Konsequenzen für die Form der
Interviewführung und die Darstellung von Informationen beinhaltet. So haben
sich etwa durch die Integration unterschiedlicher Medien (z.B. Video- und Audio-
komponenten) in das Interview neue Möglichkeiten ergeben, Gegenstände der
Beurteilung darzustellen, Erinnerungshilfen zu geben, etc. Zusätzliche Arten von
Paradaten wie z.B. Aufnahmen des Gesichtsausdrucks während der Beantwortung
von Fragen sind nun prinzipiell möglich geworden. Viele der Möglichkeiten wie
etwa die visuelle und auditive Einspielung von Informationen zur Stützung von
Gedächtnisleistungen werden immer noch nicht stärker genutzt. Ein Beispiel wäre
die Einspielung des „Toor, Toor, Toor“ des Rundfunkkommentators Werner Zim-
mermann im Endspiel zur Fußballweltmeisterschaft 1954 als Gedächtnisstütze in
ein CAPI- oder CATI-Interview (zu den Begriffen vgl. Teil II) in einer Umfrage
unter älteren Menschen zu Ereignissen jener Zeit.

I.2 Forschungsprozess, Umfragedesign und Umfrage-


prozess

Die Entscheidung für die Durchführung einer Umfrage und die Festlegung der
Umfrageziele erfolgen im Rahmen des übergeordneten Forschungsprozesses, der
umfassender ist als das Design der Umfrage. Erst wenn sich der Forscher im Rah-
men des Forschungsprozesses an Stelle alternativer Datenerhebungsmethoden, z.B.
an Stelle von nicht-reaktiven Beobachtungsverfahren, für eine Umfrage als Erhe-
bungsmethode entschieden hat, entsteht durch Konkretisierung des Forschungs-
prozesses der Umfrageprozess (engl. survey process; vgl. Lyberg et al., 1997, Biemer
& Lyberg, 2003, p. 27; Groves et al., 2009; Weisberg, 2005). Der Umfrageprozess
besteht in einer Reihe von Schritten, die im Rahmen von Vorbereitung und Durch-
führung einer Umfrage notwendig sind (vgl. Abbildung I.3).
Einige Schritte des Umfrageprozesses, der in der einschlägigen Forschungsli-
teratur mehr oder weniger detailliert beschrieben wird, sind nicht nur spezifisch
für den Umfrageprozess, sondern sind Bestandteil jedes Forschungsprozesses. So
ist etwa die Spezifikation der Umfrageziele nicht von der Spezifikation der For-
12 I.2 Forschungsprozess, Umfragedesign und Umfrageprozess

schungsziele zu trennen. Ebenso bildet die Phase der Konzeptspezifikation einen


unverzichtbaren Teil jedes Forschungsprozesses. Sie spielt jedoch auch eine Rol-
le als Teil des Umfrageprozesses, da davon auszugehen ist, dass gelegentlich auch
noch zum Zeitpunkt der Konkretisierung der Umfrageziele immer noch Begrif-
fe verwendet werden, die eine weitere Präzisierung und eine Dimensionsanalyse
der verwendeten Konzepte erfordern (vgl. Hox, 1997). Einige andere Schritte des
Umfrageprozesses wie die Stichprobenauswahl oder die Datenanalyse sind eben-
falls Bestandteile jedes Forschungsprozesses. Sie erfahren allerdings erst nach der
Entscheidung für die Durchführung einer Umfrage zum Teil ihre besondere Aus-
gestaltung.
Einige Teile des allgemeinen Forschungsprozesses gehören dagegen eher nicht
mehr zum Umfrageprozess, da sie nur die übergeordnete Forschungsfragestellung
betreffen. Dazu gehört etwa die Festlegung des Untersuchungsdesigns wie etwa die
Entscheidung für eine Panelstudie oder eine Querschnittsstudie. Ob der Forscher
sich für eine Panelstudie entscheidet, folgt aus seinen theoretischen Überlegungen
zur Forschungsfragestellung vor jeder Entscheidung für irgendeine Erhebungs-
form. So legen bestimmte Fragestellungen die Messung von Veränderungen anstatt
der Erhebung von Querschnittsdaten nahe. Trotz gewisser Abweichungen lässt sich
der Umfrageprozess aber als umfragespezifische Konkretisierung des Forschungs-
prozesses auffassen.
Die Durchführung einer Umfrage in einer spezifischen Zielpopulation setzt
Entscheidungen über zentrale Aspekte der Umfrage wie die Kommunikationsform
(auch: Befragungsform; engl.: mode; vgl. Teil II), die Länge des Erhebungsinstru-
ments, den Stichprobenumfang, etc. voraus, wobei Kostengesichtspunkte, die For-
schungsfragestellung, Form und Komplexität der Fragen und Items, Anzahl der
verfügbaren Interviewer (bei Interviewer-administrierten Interviews), etc. eine
einschränkende Rolle spielen können. So schließen z.B. bestimmte Kommunikati-
onsformen wie etwa telefonische Interviews die Anwendung bestimmter Antwort-
formate aus, die aber dennoch aus Sicht des Forschers notwendig sein können und
damit die Wahl einer alternativen Kommunikationsform nahelegen. Bestimmte
Fragen sind in der gewählten Zielpopulation eventuell optimal nur unter Einsatz
von Befragungshilfen zu präsentieren. Fragestellungen, welche die Präsentati-
on von Videos oder Bildern erfordern, können für die Durchführung einer On-
linebefragung sprechen. Kostengesichtspunkte können den Stichprobenumfang
einschränken. Im Sinne des in Abschnitt I.1 beschriebenen Bandbreite-Übertra-
gungstreue-Dilemma muss eventuell eine Entscheidung getroffen werden zwischen
einem längeren Fragebogen und einem größeren Stichprobenumfang. Anforderun-
gen an die Stichprobenqualität können zur Vermeidung einer Webumfrage führen.
I.2 Forschungsprozess, Umfragedesign und Umfrageprozess 13

Festlegungen dieser Art werden unter dem Begriff des Umfragedesigns zusam-
mengefasst (vgl. Biemer & Lyberg, 2003, p. 44). Das Umfragedesign (engl.: survey
design) betrifft also die Ausgestaltung aller Schritte der Vorbereitung und Durch-
führung der Umfrage unter Berücksichtigung aller organisatorischen Randbedin-
gungen.

Abbildung I.3: Umfrageprozess


14 I.2 Forschungsprozess, Umfragedesign und Umfrageprozess

Im Verlauf der letzten Jahrzehnte sind durch technologische Fortschritte bestimm-


te Teile des Umfrageprozesses an technische Hilfsmittel wie Computer und Soft-
wareprogramme delegiert worden. Die Durchführung computerunterstützter Um-
fragen beinhaltet in ihrem Ablauf im Wesentlichen aber die gleichen Schritte wie
die Durchführung von Befragungen ohne Computerunterstützung. Unterschiede
ergeben sich daraus, dass verschiedene, in den einzelnen Schritten involvierte Ak-
teure in ihren Aktionen ganz oder teilweise durch Hardware und/oder Software
ersetzt werden und auch der Kommunikationsprozess mit Hilfe von Instrumenten
der Kommunikationstechnologie erfolgen kann. Im Vergleich zu Umfragen ohne
Computerunterstützung können dabei einige neue Elemente des Umfragedesigns
dazukommen wie z.B. die Festlegung des Bildschirm-Layouts und die Program-
mierung des Erhebungsinstruments mit den entsprechenden Konsequenzen für
die Art der Evaluation der Instrumente wie Tests der technischen Funktionalität
und Benutzerfreundlichkeit (engl.: usability). Die Art und Weise, wie die Schritte
des Umfrageprozesses realisiert werden bzw. die konkrete Ausgestaltung der ein-
zelnen Schritte, hängt nicht zuletzt von der Kommunikationsform und ihren spezi-
fischen Anforderungen ab. So erfordert z.B. eine computerunterstützte Telefonum-
frage eine Auswahlgrundlage für die Ziehung von Telefonnummern und schließt
die Verwendung bestimmter Fragen und Befragungshilfen aus, Befragungen ohne
Interviewer stellen spezifische Anforderungen an die Fragebogengestaltung, etc. In
Bezug auf die Durchführung der Umfrage bedarf es ggf. der Setzung der relevan-
ten Parameter in der Verwaltungssoftware; die Schulung der Interviewer und – bei
selbst-administrierten Umfragen – der Befragten - erfordert eine Ergänzung der
Schulung um technische Schulungskomponenten.
Es empfiehlt sich in manchen Fällen, das anfängliche Umfragedesign nicht bis
zum Ende der Erhebung beizubehalten. Groves und Heeringa (2006) haben gezeigt,
wie Kosten und Umfragefehler durch eine Anpassung des Designs an Zwischener-
gebnisse der Umfrage reduziert werden können- Dabei werden an bestimmten
Punkten immer wieder Designentscheidungen getroffen. Ein solches Design be-
zeichnen die Autoren als responsives Design (engl.: responsive design). Es erfordert
eine Zerlegung in aufeinander folgende Designphasen und die Realisierung der
folgenden Schritte (vgl. Groves & Heeeringa, op.cit., p. 440):

• vor Erhebungsbeginn Identifikation von Merkmalen, welche Schätzfehler (vgl.


Teil VI) und Kosten der Umfrage beeinflussen können;
• Identifikation einer Menge von Indikatoren für diese Merkmale und Monito-
ring dieser Indikatoren in der ersten Phase der Erhebung;
I.3 Die Datenerhebungsphase 15

• Änderung der Designmerkmale in nachfolgenden Erhebungsphasen unter Be-


rücksichtigung des Trade-Offs zwischen Ausmaß der Fehler und den zur ihrer
Reduktion entstehenden Kosten;
• Verbindung der Daten aus den verschiedenen Designphasen zu einem einzigen
Schätzer.

Ziel eines responsiven Designs sollte nach Lundquist und Särndal (2013) sein, eine
finale Menge von Respondenten anzustreben, die sich durch messbare und günsti-
ge Eigenschaften auszeichnet. Dabei können sich Eingriffe in den Erhebungsablauf
als sinnvoll erweisen, die zu einer finalen Antwortmenge führen, die für die Ge-
samtstichprobe repräsentativer ist (zum Begriff der Repräsentativität vgl. Abschnitt
VI.5.) und die Auswirkungen von Ausfällen (Nonresponse) reduziert.

I.3 Die Datenerhebungsphase

I.3.1 Allgemeine Ablaufstruktur

Die Phase, in der Daten von Elementen einer Stichprobe erhoben werden sollen, wol-
len wir als Datenerhebungsphase (engl.: data collection period) bezeichnen. Sie setzt
sich aus einer Kontakt- und Screeningphase und der Interviewphase zusammen. Ziel
der Kontaktphase ist die Kontaktaufnahme mit der Zielperson, die im Fall Intervie-
wer-administrierter Interviews auf Grund von Faktoren wie Nichterreichbarkeit, etc.
häufig eine Vielzahl von Kontaktversuchen erfordern kann und oft erst über den
Kontakt mit einer Kontakt- oder Haushaltsperson (Haushaltskontakt) hergestellt
werden kann. Oft kann die Zielperson erst im Rahmen eines sog. Screenings ermit-
telt werden, bei der die definierenden Merkmale der Zielpopulation (z.B. Person in-
nerhalb einer bestimmten Altersgruppe, Person mit bestimmtem Migrationshinter-
grund) erhoben werden müssen. Der Screening-Aufwand kann reduziert werden,
wenn die Auswahlgrundlage, aus der die Ausgangsstichprobe gezogen wird (vgl. Teil
VI), bereits identifizierende Merkmale der Zielpopulation (Identifikatoren) enthält,
die zumindest eine teilweise Einschränkung der Auswahlgrundlage auf die Elemente
der Zielpopulation erlauben. Bei der Stichprobenauswahl aus Melderegistern kann
z.B. bereits eine Einschränkung der Stichprobe nach Altersgruppen erfolgen, so dass
das Alter nicht mehr im Rahmen eines Screenings erhoben werden muss.
Im Rahmen des schließlich erfolgten Erstkontakts mit der Zielperson werden
nach der Kurzdarstellung der Studienziele Auftraggeber und Umfrageinstitut ge-
nannt sowie die im Datenschutzrecht vorgesehenen Zusicherungen (z.B. Freiwil-
16 I.3 Die Datenerhebungsphase

ligkeit, Anonymität) gegeben. Bei schriftlichen Formen der Kontaktaufnahme kön-


nen noch weitere Unterlagen beigefügt sein (vgl. Abschnitt II). Anschließend wird
die Bitte um Teilnahme (engl.: survey request) vorgetragen. Es kann allerdings nicht
ausgeschlossen werden, dass die Kurzdarstellung der Studienziele, etc. bereits vor
dem Kontakt mit der Zielperson einer anderen Haushaltsperson vorgetragen wer-
den muss, um einen Zugang zur Zielperson zu ermöglichen.
Im Rahmen des Screenings, das die Form eines längeren Interviews
(Screening-Interview) annehmen kann – ein Beispiel ist die Erfassung des Migra-
tionshintergrunds –, kann versucht werden, weitere Paradaten zu erheben, die
zur Optimierung der Auswahl von Teilnehmern für eine bestimmte Kommuni-
kationsform (vgl. Sakshaug & Kreuter, 2011). Im Anschluss an Kontaktaufnahme
und Screening kann bei Kooperationsbereitschaft der Zielperson das Interview
stattfinden, wobei die Kommunikationsform des Interviews nicht notwendig mit
der Form übereinstimmen muss, in der die Kontaktaufnahme und das Screening
durchgeführt werden. So können der Kontakt und das Screening z.B. telefonisch
erfolgen, das Interview aber selbstadministriert über das Web. Die Wahl der Kom-
munikationsform für Kontakt, Screening und Interview kann allerdings mit be-
stimmten negativen Effekten auf Teilnahmebereitschaft und Datenqualität verbun-
den sein (sog. Mode-Effekte; vgl. Teil II).
Der grobe Normalverlauf der Datenerhebungsphase ist in Abbildung I.4 darge-
stellt. Dieser stellt sich je nach gewählter Kommunikationsform im Detail anders
dar (vgl. Teil II).
Natürlich kommt es nur dann zu einem Interview, wenn die Bitte um Teilnah-
me schließlich nach mehr oder weniger aufwändiger Überzeugungsarbeit positiv
beantwortet wurde. Dabei kann es mitunter gelingen, einen anfänglichen Verwei-
gerer doch noch zur Teilnahme zu überreden, allerdings mit nicht immer positiven
Konsequenzen für die Datenqualität (vgl. Teil VI). Oft stößt der Interviewer aber
gar nicht erst zur Zielperson vor, weil bereits die Haushaltsperson, mit der der Erst-
kontakt zunächst hergestellt werden musste, die Kooperation verweigert. Es wur-
de aus Gründen der Übersichtlichkeit darauf verzichtet, Abbildung I.4 nach allen
Eventualitäten auszudifferenzieren.
I.3 Die Datenerhebungsphase 17

Abbildung I.4: Grobe Ablaufstruktur der Erhebungsphase

I.3.2 Der Interviewprozess und seine Komponenten

Wesentlicher Teil des Umfrageprozesses ist die Feldarbeit und deren wesentlicher
Bestandteil, die praktische Durchführung bzw. Realisation von Interviews. Die
Durchführung von Interviews lässt sich als Prozess betrachten, an dem die folgen-
den Komponenten beteiligt sind:

• Administratoren (auch: Umfrageoperatoren)


Administratoren steuern die Applikation des Erhebungsinstruments, das bei
Umfragen, wie in Abschnitt 1.1 bereits ausgeführt, in der Regel aus weit-
gehend standardisierten Fragebögen besteht, sowie die Interaktion mit den
Befragten. Administratoren können menschliche Individuen sein oder auch
technische Geräte wie Computer. Im ersten Fall spricht man auch von In-
terviewern. Interviewer können ihrerseits technische Hilfsmittel zur Unter-
18 I.3 Die Datenerhebungsphase

stützung im Interview einsetzen. Je nach Typ des Administrators werden


den Befragten unterschiedliche Merkmale des Administrators sichtbar oder
hörbar, die einen möglichen Einfluss auf die Reaktionen der Befragten aus-
üben können. Grundsätzlich können ganz unterschiedliche Aktivitäten im
Interviewprozess aus dem humanen Bereich auf Maschinen übertragen wer-
den, d.h. die Arbeitsteilung zwischen Mensch und Maschine kann sehr un-
terschiedlich aussehen. Bei Selbst-administrierten Interviews etwa sind die
Administratoren die Befragten selbst
• Kommunikations- bzw. Übertragungskanal
Es muss ein Kommunikationskanal existieren und möglichst störungsfrei
genutzt werden können. Ein Kommunikationskanal bezieht sich auf eine
bestimmte Sinnesmodalität, in welcher sprachliche und ggf. visuelle Infor-
mationen vom Befragten empfangen werden können. Für die Erzeugung
von Informationen in einer bestimmten Sinnesmodalität können sowohl
menschliche als auch technische Systeme eingesetzt werden. Grundsätzlich
muss der Übertragungskanal für die Übermittelung der Informationen des
Administrators nicht notwendig identisch sein mit dem Übertragungskanal,
den der Befragte für die Übermittlung seiner Antwort wählt. So kann eine
Frage im Prinzip telefonisch gestellt werden und schriftlich/online beant-
wortet werden.
• Erhebungsinstrumente (Fragebögen)
Ein Erhebungsinstrument besteht, grob charakterisiert, aus einer Menge
von Fragen/Items sowie deren Bestandteilen (zu den Begriffen „Frage“ und
„Items“ vgl. Abschnitt III.1), Anweisungen zur Art und Weise, wie eine Fra-
ge auszuführen ist (z.B. welcher Teil vorgelesen werden soll, Betonungen,
etc.) sowie Navigationsanweisungen, welche den Verlauf des Interviews
steuern. Die im Interviewprozess eingesetzten Erhebungsinstrumente müs-
sen sowohl an die Administratoren (z.B. an Computer mit Browser) als auch
an die Kommunikationskanäle angepasst werden. Es handelt sich in der
Regel um sprachliche Repräsentationen von Fragen und Befragungshilfen,
die in einer bestimmten räumlichen und zeitlichen Anordnung sowie un-
ter Verwendung von weiteren Symbolen einer Symbolsprache im gewählten
Kommunikationskanal realisiert werden. Das Erhebungsinstrument kann
nicht unabhängig vom Sinneskanal gedacht werden. Wenn es nicht gesehen,
gehört oder irgendwie anders „gefühlt wird“ ist es für den Befragten nicht
existent. Das Erhebungsinstrument ist immer an eine physikalische Reprä-
sentation gebunden, die die Wahrnehmungsapparate von Administrator
und Befragten beeinflussen muss.
I.3 Die Datenerhebungsphase 19

• Befragte (auch: Respondenten)


Die Befragten sind sowohl Empfänger als auch Sender von Informationen
im Interviewprozess. Sie empfangen über einen oder mehrere Sinneskanä-
le Informationen vom Administrator unter denen sich auch Informationen
zu den geforderten Leistungen und zum Universum der vom Respondenten
erwarteten Antworten befinden. Letztere werden zumeist durch die Über-
mittlung von Antwortalternativen bzw. Skalenwerten realisiert. Vom Be-
fragten wird angenommen, dass es sich um einen zielgerichtet handelnden
Akteur handelt, der von seinen Kompetenzen her in der Lage ist, die mit der
Fragebeantwortung verbundenen Leistungen zu erbringen, dem aber in der
Regel ein Spektrum von Reaktionen zur Verfügung steht, welches weit über
die erwarteten zulässigen Antworten hinausgeht. Er könnte prinzipiell auch
nicht-adäquat reagieren und statt in zulässiger Weise zu antworten schimp-
fen, sich beschweren. mit dem Fuß aufstampfen, in Gelächter ausbrechen,
etc. Solche Reaktionen sind allerdings durch die im Interview definierte Rol-
lenverteilung selten und hängen nicht nur vom Inhalt der Frage, sondern
möglicherweise auch vom Verhalten der Interviewerin/des Interviewers ab.
Nicht-adäquate Reaktionen zeigen sich im günstigsten Fall bereits im Pretest
und können dann durch Modifikation oder Weglassen der Frage entschärft
oder sogar beseitigt werden. Zwischen dem Empfang der Informationen
und den Reaktionen der Befragten laufen für den externen Beobachter nicht
beobachtbare interne mentale und nicht-mentale, emotionale Prozesse ab,
über deren Struktur lediglich hypothetische Modelle entwickelt werden
können, die sich in experimentellen Studien mehr oder weniger überprü-
fen lassen. Modelle der mentalen Abläufe stellen eher eine theoretische Folie
dar, auf deren Hintergrund das Verhalten der Befragten für den Forscher
verstehbar wird.

In der Regel sind die genannten Komponenten in einen sequentiellen Ablauf einge-
bunden, des Stufen die in Abbildung I.5 dargestellte Struktur besitzen.
Alle Komponenten des Interviewprozesses müssen miteinander kompatibel
sein. Dies bedeutet insbesondere, dass das Erhebungsinstrument, die Kompeten-
zen des Administrators, die Kompetenzen des Befragten und die Sinneskanäle auf-
einander abgestimmt sein müssen. So sollte der Administrator in der Lage sein,
eine Repräsentation des Erhebungsinstruments in der gewählten Sinnesmodalität
zu erzeugen und der Befragte in der Lage sein, das Instrument in dieser Modali-
tät zu empfangen. Aus der Realisierung eines Interviews als sequentieller Ablauf
von dyadischen Interaktionen mit Personen in ihrer Rolle als Befragte zieht bereits
eine Reihe methodischer Fragestellungen nach sich wie z.B. die Beeinflussung der
20 I.3 Die Datenerhebungsphase

Antworten auf eine Frage durch die Antworten auf in der Sequenz vorangehende
Fragen (vgl. Teil III).

Abbildung I.5: Struktur einer Stufe des Interviewprozesses (n: Anzahl der Fragen)

Die in Abbildung I.5 dargestellte Interviewer-Befragten-Interaktion kann aufgefasst


werden als eine Konversation mit einer klaren Rollenverteilung zwischen Inter-
viewer und Respondent, die bestimmten impliziten und/oder expliziten Regeln
bzw. einer bestimmten Konversationslogik folgt (vgl. Grice, 1975; Schwarz, 1995,
1996, 1997). Zentrales Prinzip der Konversation ist das Kooperationsprinzip (co-
operative principle). Dieses Prinzip besagt, dass Teilnehmer an einer Konversation
von der impliziten Vereinbarung ausgehen, ihre Beiträge so zu gestalten, dass das
Ziel der Konversation unterstützt wird. Weitere Unterprinzipien sind die Maxime
der Quantität, nach der die Teilnehmer ihre Beiträge so informativ wie notwendig
gestalten sollten, die Maxime der Qualität, nach der die Teilnehmer keine Beiträge
leisten sollten, die sie für falsch halten, die Maxime der Relation, nach der die Kon-
versationsteilnehmer nur relevante Beiträge zur Konversation liefern sollten und
die Maxime der Art und Weise (manner), nach der die kommunikativen Beiträge
I.3 Die Datenerhebungsphase 21

der Teilnehmer klar verständlich sein sollten (vgl. hierzu auch die Ausführungen in
Faulbaum, Prüfer & Rexroth 2009).
Für das Verständnis sowohl der Bedingungen, unter denen ein Befragter an ei-
nem Interview teilnimmt als auch für die Einschätzung der Befragten-Reaktionen
erweist es sich oft als hilfreich, wenn Interviewer und Befragter als bewusst han-
delnde Personen gesehen werden, die unter Einbeziehung verfügbarer Informatio-
nen und unter Verfolgung bestimmter Interessen Fragen stellen und Antworten ge-
ben. Nicht nur das Stellen von Fragen, sondern auch die Antworten des Befragten
können als Konsequenzen bewusster Entscheidungen aufgefasst werden. Für den
Befragten sind es oft Entscheidungen unter Risiko, da er subjektiv keine Kenntnis,
sondern nur Vermutungen darüber hat, was mit seinen Antworten weiter geschieht,
was zu entsprechenden Bedenken, z.B. Anonymitätsbedenken, führen kann.
Wie bereits in Abschnitt I.1 erwähnt, verlaufen die Interviewprozesse bei Um-
fragen weitgehend über alle Befragten standardisiert. Standardisierung bedeutet,
dass für alle Befragten die gleichen Befragungsbedingungen gelten:
• gleiche Einleitungstexte;
• gleiche Fragen und gleiche Antwortvorgaben;
• die gleiche Reihenfolge der Fragen;
• die gleichen Befragungshilfen (z.B. Listen, Kärtchen, etc. bei Face-to-Face-In-
terviews);
• Anweisungen an den Administrator die Bestandteile des Erhebungsinstru-
ments in der vorgegebenen Form zu handhaben.
Die methodische Bedeutung der Standardisierung liegt in der Reduktion des In-
terviewer-Einflusses bzw. der durch den Interviewer erzeugten Varianz der Unter-
suchungsvariablen (vgl. hierzu auch Groves et. al. 2009, S. 295) und damit in der
Erhöhung der Objektivität der durchgeführten Messungen, indem sie die Funktion
des Administrators auf die reine Präsentation der Fragen und das kommentarlose
Registrieren der Antworten beschränkt. Ist der Administrator ein Computer, sind
die Anweisungen bereits programmiert, so dass die Administrator-Varianz bei der
Präsentation der Fragen entfällt. Die Regeln des standardisierten Interviews legen
fest, wie sich der Interviewer bei der Klärung von Nachfragen seitens der Befragten
und wie er bei nicht-adäquaten Antworten die relevanten Informationen verhalten
sollte (vgl. Prüfer & Stiegler, 2002).
22 I.4 Umfragequalität und Umfragefehler

I.4 Umfragequalität und Umfragefehler

I.4.1 Umfragequalität: Ideal und Wirklichkeit

Aus den Ausführungen des Abschnitts I.2 sollte bereits deutlich geworden sein,
dass sich die Qualität einer Umfrage als Qualität eines aus mehreren Schritten be-
stehenden Prozesses darstellt. Man spricht in diesem Fall auch von der Prozess-
qualität (engl.: process quality) von Umfragen (vgl. Lyberg et al., 1997; Schuman &
Kalton, 1985). Die Art und Weise, wie die einzelnen Schritte des Umfrageprozesses
realisiert werden, ist maßgebend für deren Qualität und damit für die Qualität der
gesamten Umfrage einschließlich der aus ihr resultierenden Daten; d.h. die Opti-
mierung einer Umfrage beinhaltet die Optimierung aller Schritte (vgl. Lyberg et
al., 1997; Biemer & Lyberg, 2003). Jeder einzelne Schritt des Umfrageprozesses be-
sitzt eigene Qualitätsmerkmale, die bei seiner Realisierung beachtet werden sollten.
Die Optimierung beginnt bereits bei der Präzisierung der Forschungsfragestellung
und der in ihr verwendeten Begriffe sowie der Operationalisierung, in der die the-
oretischen Begriffe durch Zuordnung empirischer Indikatoren messbar gemacht
werden müssen. Suboptimale Realisierungen sind mit Abweichungen von der er-
reichbaren Qualität verbunden. Qualitätseinbußen in einzelnen Stufen lassen sich
nach Abschluss einer Umfrage in der Regel nicht mehr oder nur mit einem z.T.
erheblichen methodisch/statistischen Zusatzaufwand korrigieren. Die Prozessop-
timierung erfordert eine entsprechende Ausbildung und Training des an Planung
und Durchführung einer Umfrage eingesetzten Personals (vgl. Faulbaum, 2016).
Mit Recht weist eine Denkschrift der Deutschen Forschungsgemeinschaft (vgl.
Kaase, 1999, S. 96) darauf hin, dass sich Methodenstudien in der Umfragefor-
schung in der Regel nur mit einzelnen Aspekten und Teilfragen befassen und dass
eine Methodologie der Qualitätsbewertung von Umfragen eher eine ganzheitliche
Perspektive einnehmen müsste. Die Denkschrift der DFG schlägt den Begriff des
Verfahrensmodells als Beschreibung eines Umfragetypus vor. Ein Verfahrensmodell
besteht aus der Spezifikation verschiedener Komponenten oder Dimensionen des
Gesamtablaufs einer Umfrage, wobei folgende Komponenten unterschieden wer-
den:
• Ausgangsstichprobe (Adäquation, coverage)
• Ausfälle in der Befragung (nonresponse)
• Interviewmethode (mode effects)
• Datenerfassung und -verarbeitung (Fehlermöglichkeiten/Fehlervermeidung)
• Zeitbedarf (Schnelligkeit)
• Dokumentation (Transparenz)
I.4 Umfragequalität und Umfragefehler 23

In der genannten Denkschrift wird in Bezug auf die Qualitätsbewertung die Tren-
nung von zwei Ebenen vorgeschlagen (vgl. Kaase, 1999, S. 107):
• die erreichbare Qualität der jeweiligen Verfahrensmodelle;
• die erreichte Qualität der Verfahrensmodelle.
Bei der Qualitätsbewertung mittels eines solchen Vergleichs wird man sich aller-
dings der Gefahr einer vorschnellen Relativierung auf niedrige Qualitätsnormen
bewusst sein müssen.
Der Vergleich zwischen erreichbarer und erreichter Qualität lässt sich durchaus
quantifizieren. Einen Vorschlag für die Quantifizierung der Abweichung einer Pa-
rameterschätzung unter den tatsächlichen Bedingungen der konkreten Durchfüh-
rung einer Umfrage vom Parameter unter Vorgabe der idealen Ziele haben Han-
sen, Hurwitz und Pritzker (1967; vgl. hierzu auch Dippo, 1997, pp. 461) gemacht.
Sie zerlegen den mittleren quadratischen Fehler der Abweichung des Schätzers auf
Basis der unter den konkreten operationalen und organisatorischen Bedingun-
gen realisierten Stichprobe vom idealen Wert in drei Abweichungskomponenten:
die Abweichung der konkreten Schätzung vom Erwartungswert (Mittelwert) des
Schätzers in Bezug auf die konkrete Realisierung, die Abweichung dieses Erwar-
tungswerts vom Erwartungswert des Schätzers unter den in der Planung getrof-
fenen Festlegungen für die Umfrage und die Abweichung dieses Erwartungswerts
vom idealen Parameter (zu den Begriffen „Parameter“, „mittlerer quadratischer
Fehler“ und „Schätzer“ siehe Teil VI).

I.4.2 Der totale Umfragefehler

Die Qualität von Umfragen steht auch im Mittelpunkt des Konzepts des totalen
Umfragefehlers (engl.: total survey error; kurz: TSE). Thematisiert werden in diesem
Konzept die Fehlerquellen, die während der Datenerhebung von der Stichprobenaus-
wahl bis zum vorliegenden, bereinigten Datensatz die Schätzung der Populationspa-
rameter verzerren könnten. Die mit dem Konzept verbundene Absicht ist also, die
Abweichung der Parameterschätzung (Schätzung von Populationsparametern wie
Mittelwert, Varianz, etc.) auf der Basis des (bereinigten) finalen Datensatzes auf ver-
schiedene Fehlerquellen zurückzuführen, die auf unterschiedlichen Stufen des Erhe-
bungsprozesses in unterschiedlichem Ausmaß zur Gesamtabweichung der Parame-
terschätzung vom wahren Populationswert beitragen. (Groves, 2004; Weisberg, 2005;
Faulbaum, 2018 ; vgl. auch die praktischen Anwendungen des Konzepts in Biemer et
al., 2017). Die Komponenten des TSE sind in Abbildung I.6 dargestellt.
24 I.4 Umfragequalität und Umfragefehler

Abbildung I.6: Zerlegung des totalen Umfragefehlers

Da haben wir zunächst den Stichprobenfehler, der einfach dadurch entsteht, dass
statt der vollständigen Grundgesamtheit nur eine Stichprobe erhoben wird. Dieser
Fehler wird gelegentlich noch einmal zerlegt in einen Schätzfehler (engl.: estimation
error) und einen Auswahlfehler (engl.: selection error) (vgl. Bethlehem 2009, p. 181).
Der Schätzfehler betrifft den Sachverhalt, dass bei einer Zufallsauswahl (zum Be-
griff der Zufallsstichprobe vgl. Teil VI) bei jeder Ziehung eine andere Schätzung re-
sultiert, die vom Populationswert mehr oder weniger stark abweicht. Der Auswahl-
fehler entsteht dadurch, dass in der Formel für den Schätzer des Populationswerts
die falschen Wahrscheinlichkeiten für die Auswahl einer Stichprobe eingesetzt wer-
den. In einigen Kommunikationsformen (zum Begriff der Kommunikationsform
vgl. Teil II) wie etwa in Webumfragen sind die Auswahlwahrscheinlichkeiten oft
unbekannt. In diesem Fall kann auch nicht mehr von einer Zufallsauswahl im sta-
I.4 Umfragequalität und Umfragefehler 25

tistischen Sinn gesprochen werden, da von einer Zufallsauswahl die Kenntnis bzw.
die Berechenbarkeit der Auswahlwahrscheinlichkeiten gefordert wird.
Vom Stichprobenfehler unterschieden sind die verschiedenen Arten des so
genannten Nicht-Stichprobenfehlers (engl.: nonsampling error), der weiter aufge-
schlüsselt werden kann in Nicht-Beobachtungsfehler (engl.: nonobservation error),
Beobachtungsfehler (engl.: observation error) und Spezifikationsfehler (engl.: speci-
fication error).
Nicht-Beobachtungsfehler betreffen einerseits die Abdeckung der Grundgesamt-
heit in der Auswahlgrundlage, andererseits die verschiedenen Arten von Nichtant-
wort (engl.: nonresponse), die entweder im Ausfall einer ganzen Untersuchungsein-
heit (engl.: Unit-Nonresponse) und oder im Ausfall von Antworten auf spezifische
Fragen (engl.: Item Nonresponse) (siehe Teil VII) bestehen kann.
Beobachtungsfehler werden im Rahmen des TSE-Ansatzes noch einmal unter-
teilt in Messfehler (engl.: measurement errors), Verarbeitungsfehler (engl.: processing
errors) und technische Fehler (engl.: technical errors). Beispiele für Verarbeitungs-
fehler sind Editierfehler, Eingabefehler, Tabellierungsfehler und Gewichtungsfehler
(vgl. Biemer & Lyberg, 2003, p.39). Letztere bestehen in der falschen Berechnung
von Gewichten zur Korrektur der Schätzer. Technische Fehler werden nicht immer
separat aufgeführt. Sie bekommen aber durch neue technologische Innovationen
in der Datenerhebung stärkeres Gewicht. Geräteausfälle, fehlerhafte Software, etc.
können zu technischen Fehlern führen, die das Antwortverhalten der Befragten
beeinflussen können. Von besonderer Bedeutung für die Datenqualität ist der
Messfehler. Er beschreibt, wie stark die tatsächliche Messung von der wahren Mes-
sung abweicht. Seine Formulierung basiert auf der klassischen Testtheorie mit ihrer
Zerlegung einer Messung in eine wahre Messung und in einen Fehler, wobei der
Fehler auch systematische Komponenten enthalten kann, die auf den Interviewer,
die Befragungssituation, etc. zurückgeführt werden können. Je größer dieser Feh-
ler, desto geringer die sogenannte Zuverlässigkeit bzw. Reliabilität einer Messung.
Diese Konzepte werden in Teil IV näher erläutert.
Der Spezifikationsfehler schließlich betrifft den Grad der Übereinstimmung
zwischen dem, was gemessen werden soll und dem, was tatsächlich gemessen wird,
also die sog. Validität bzw. Gültigkeit einer Messung. Je größer der Spezifikationsfeh-
ler, desto gefährdeter ist die inhaltliche Interpretierbarkeit der Daten. Theoretisch
wäre es möglich, dass sich die Parameterschätzung einer im Übrigen fehlerfreien
Umfrage auf eine falsch spezifizierte Variable bezieht, was bedeuten würde, dass die
Interpretation aller statistischen Ergebnisse, die sich auf diese Variable beziehen, in
Zweifel zu ziehen wäre. Der Spezifikationsfehler lässt sich im Rahmen spezifischer
Umfrage- und/oder Fragebogendesigns quantifizieren wie etwa durch Korrelation
eines empirischen Indikators mit dem durch ihn gemessenen Konstrukts (theoreti-
26 I.4 Umfragequalität und Umfragefehler

sche Validität; vgl. Teil IV). Im Falle der Validität von Modellen spielt insbesondere
die korrekte Spezifikation der Modellstruktur eine Rolle. Fehlspezifikationen der
Modellstruktur äußern sich vor allem in Defiziten der Modellanpassung.
Mit den genannten unterschiedlichen Fehlerarten kann immer auch eine
Stichprobenverzerrung (engl.: bias) oder eine Verzerrung durch Messfehler un-
terschiedlichen Ausmaßes verbunden sein, von denen Teilgruppen der Stichprobe
unterschiedlich stark betroffen sein können.
Die Frage bleibt, ob mit der Aufteilung des totalen Stichprobenfehlers alle
Einflüsse auf die Datenqualität erfasst sind. Im Rahmen ihrer kritischen Betrach-
tung des Konzepts des totalen Umfragefehlers und seiner Rolle in der Umfrage-
forschung zählen Groves und Lyberg (2010) einige Unzulänglichkeiten des in Ab-
bildung I.4 dargestellten Rahmenkonzepts vor, das nach wie vor eine akzeptable
Hintergrundfolie für die Optimierung des Umfragedesigns darstellt. Die Autoren
kritisieren insbesondere das Fehlen nicht-statistischer Qualitätsindikatoren wie
Transparenz, Glaubwürdigkeit, etc. sowie den Aufwand für die Messung bestimm-
ter Fehlerkomponenten, der die Messung in praktischen Anwendungen erschwert.
Sie fordern außerdem im Rahmen von Kausalanalysen eine verstärkte Suche nach
den Fehlerursachen sowie eine Betrachtung der Korrelationen zwischen den Feh-
lerkomponenten. Ähnlich wie Groves und Lyberg argumentiert auch Smith (2011),
der eine weitere Vervollständigung der Fehlerkomponenten und eine Anpassung
an die Erfordernisse des interkulturellen Vergleichs vorschlägt. Versucht werden
kann, weitere Prozessinformationen (Paradaten) zur Minimierung von Fehlern zu
verwenden (vgl. Kreuter, 2013a), wobei die Zuverlässigkeit dieser Daten immer
wieder hinterfragt werden muss.

I.4.3 Datenqualität und Antwortqualität

Wenn in der Umfrageforschung der Begriff der Datenqualität thematisiert wird,


lassen sich zwei Verwendungsweisen des Begriffs unterscheiden. Einerseits wird
der Begriff der Datenqualität synonym mit dem Begriff der Umfragequalität ver-
wendet und umfasst alle Einflüsse auf die Schätzung der Populationsparameter.
Andererseits wird der Begriff aber spezifisch auf die Antwortqualität bezogen, die
ihrerseits von den Determinanten des Antwortverhaltens bestimmt wird. Dazu
zählen eine ganze Reihe von Faktoren wie Leistungsvermögen und Leistungsbe-
reitschaft des Befragten, Merkmale der Kommunikationsform, der Frageformulie-
rung, des Interviewer-Verhaltens, etc. Für den Fragebogendesigner ergibt sich die
I.4 Umfragequalität und Umfragefehler 27

Aufgabe, seine Fragen und die in ihnen formulierten Aufgaben so zu gestalten, dass
die Antwortqualität optimiert wird.
Zu den zentralen empirischen Indikatoren der Qualität einer Antwort auf eine
Frage zählt zunächst deren Adäquatheit. Als adäquat bezeichnen wir eine Antwort
des Befragten dann, wenn sie in das vorgegebene Antwortformat passt, d.h. wenn
sie einer der vorgegebenen Antwortalternativen oder einem zulässigen Skalenwert
entspricht. In allen anderen Fällen spricht man von einer nicht-adäquaten Antwort.
Nicht-adäquate Antworten signalisieren Probleme des Befragten mit der Frage. Sie
stellen somit Indikatoren für mögliche Qualitätsgefährdungen dar wie Probleme
des Verständnisses des Fragetextes, generell Probleme mit der Lösung der im Fra-
getext beschriebenen Aufgabe, die der Befragten im Beantwortungsprozess erbrin-
gen muss und die von ihm eine bestimmte Leistung erfordert. Um einen Befrag-
ten nach einer nicht-adäquaten Antwort zu einer adäquaten Antwort zu bewegen,
bedarf es auf Seiten des Interviewers der Anwendung sog. neutraler Techniken,
die geeignet sind, auf den Befragten nicht beeinflussende Weise bei diesem eine
adäquate Antwort hervorzurufen. Die Vermittlung neutraler Techniken gehört zu
den Regeln des standardisierten Interviews und ist notwendiger Bestandteil des In-
terviewer-Trainings (vgl. Prüfer & Stiegler, 2002). Wir werden die Adäquatheit von
Antworten im Zusammenhang mit dem Antwortverhalten in Teil III noch einmal
genauer thematisieren.
Allerdings ist die Adäquatheit einer Antwort zwar notwendige Bedingung für
die Qualität einer Antwort, aber keine hinreichende Bedingung. Eine adäquate Ant-
wort kann auch dann erfolgen, wenn sie ohne Ernsthaftigkeit oder zufällig gegeben
wird, oder wenn die Frage im Befragten Wirkungen auslöst wie „Angst“, „Ärger“,
„Bedenken“, etc., die aus Sicht des Forschers Nebeneffekte darstellen, aber durch-
aus dazu führen könnten, dass die Antwort eines Befragten zwar adäquat ist, aber
von der Antwort abweicht, die der korrekten Lösung der im Fragetext beschriebe-
nen Aufgabe entspricht. Fragetexte, die solche Wirkungen entfalten, werden in der
Regel als sensitiv bezeichnet. Schließlich gibt es auch Antworten, die der Befragte
nach bestem Gewissen gibt, die aber dennoch verzerrt sein können wie etwa die
bekannte Überschätzung von Häufigkeiten oder Wahrscheinlichkeiten, fehlerhafte
Prozentangaben, etc. Solche Antworten, die mitunter schwer zu validieren sind,
stellen aus Sicht des Respondenten korrekte Antworten dar (er weiß es nicht bes-
ser), aus Sicht des Forschers sind sie aber nicht korrekt. Sie beeinflussen zweifellos
die Validität, was aber vom Forscher nicht unbedingt überprüft werden kann.
Für die Qualität einer adäquaten Antwort auf eine Frage bzw. der Einstufung
eines Items sind natürlich der zu den Beobachtungsfehlern gehörende Messfeh-
ler und die Gütekriterien der auf einer adäquaten Antwort beruhenden Messung
von entscheidender Bedeutung. Dem Begriff der Messung und ihrer Gütekriterien
28 I.4 Umfragequalität und Umfragefehler

der Validität und Reliabilität ist ein getrennter Abschnitt gewidmet (vgl. Teil IV).
Das Konzept der Reliabilität thematisiert die Abweichung einer auf einer Antwort
beruhenden Messung von einer wahren Messung, wobei der Begriff der wahren
Messung durchaus unterschiedliche Bedeutungen haben kann. Wichtige Varianten
sind:

• Die wahre Messung ist zwar prinzipiell beobachtbar wie z.B. ein faktisches Er-
eignis, das tatsächlich stattgefunden haben muss (z.B. Geburt eines Kindes),
das aber dem Forscher verborgen und nur dem Befragten bekannt sein kann.
Wird das Ereignis vom Befragten genannt, muss der Forscher dieser Informati-
on Glauben schenken und kann bei Fehlen unabhängiger objektiver Unterlagen
nicht beurteilen, ob die Information korrekt ist. In diesem Fall kann also die be-
obachtete Messung (z.B. des Geburtsdatums der Großmutter) von der wahren
Messung (tatsächliches Geburtsdatum) abweichen. Zur Fehlerkorrektur könn-
ten z.B. administrative Daten herangezogen werden.
• Die wahre Messung ist prinzipiell nicht beobachtbar wie z.B. im Fall einer Ein-
stellungsmessung, von Bewertungen, etc. Gibt der Befragte z.B. einen bestimm-
ten Zufriedenheitswert auf einer Zufriedenheitsskala an, so weiß der Forscher
nicht, ob dieser Zufriedenheitswert die „wahre“ Ausprägung repräsentiert. Um
dies sicherzustellen, müssen Maßnahmen ergriffen werden, um „störende“ Ein-
flüsse auf den wahren Wert zu kontrollieren oder zu eliminieren.

Grundsätzlich sind alle Variablen vom Messfehler „bedroht“, ob es sich nun um


sog. harte Faktenfragen und sozioökonomische Variablen handelt oder um Ein-
stellungsvariablen. Ob Abweichungen der tatsächlichen Messung von der wahren
Messung als zufällig oder systematisch betrachtet werden können, hängt von theo-
retisch/statistischen Überlegungen ab.
Das Gütekriterium der Validität betrifft vor allem die Rolle der Frage-Ant-
wort-Dyaden als Indikatoren für die zu messenden Konstrukte. Natürlich können
auch nicht-adäquate Antworten eine hohe Validität und eine hohe Reliabilität auf-
weisen. Nur messen sie in der Regel nicht die vom Forscher intendierten Konst-
rukte. So können etwa Antwortverweigerungen Indikatoren für unterschiedliche
Konstrukte der Sensitivität, aber auch Vorbehalte gegen die Inhalte der Studie ins-
gesamt messen. Ähnliches gilt für die übrigen Typen nicht-adäquater Antworten.
Grundsätzlich könnte eine in Bezug auf das intendierte Konstrukt des Forschers
nicht valide Messung ein anderes Konstrukt perfekt, d.h. ohne Messfehler messen.
Wichtige Determinanten der Antwortqualität seien bereits in diesem Über-
blickskapitel genannt:
I.4 Umfragequalität und Umfragefehler 29

• Leistungsvermögen und Leistungsbereitschaft des Befragten, ggf. vermittelt


über weitere Variablen wie Motivationsstärke, Konzentrationsfähigkeit, psy-
chologischen oder physischen Zustand, Einstellungen, die ihrerseits wieder
durch soziale Situation, etc. beeinflusst sein können;
• Ernsthaftigkeit der Bemühung des Befragten, die im Fragetext beschriebenen
Aufgabe zu lösen;
• Unerwünschte oder nicht-intendierte Nebeneffekte einer Frage:
• Sensitive Effekte des Fragetextes;
• Unerwünschte Wirkungen des Layouts und der Antwortformatierung;
• Unerwünschte Effekte der Antwortformate bzw. Antwortskalen und ihres Lay-
outs;
• Kontexteinflüsse durch vorangehende Fragen;
• Merkmale des Interviewers (sichtbare Merkmale wie z.B. Geschlecht, Alter,
stimmliche Merkmale oder unsichtbare Merkmale wie Einstellungen);
• Merkmale der Interviewsituation (z.B. Anwesenheit dritter Personen bei ei-
nem Interviewer-administrierten Interview oder einer weiteren Person bei
Selbst-administrierten Interviews), die auch von der sozialen Situation wie z.B.
Wohnausstattung, daheim zu pflegende Versandte, Verfügbarkeit eines Kinder-
gartenplatzes, etc. abhängen können;
• Merkmale der Kommunikationsform (Administrationsform, Kommunikati-
onskanal, Technologie).

Diese Effekte werden später an geeigneter Stelle näher beschrieben (vgl. Teil III).
Sie können sowohl die Parameterschätzungen als auch die Interpretation der sta-
tistischen Ergebnisse beeinflussen. Wenn etwa statt der Variablen „häusliche Ge-
walt“ die Variable „soziale Erwünschtheit“ (zum Begriff „Soziale Erwünschtheit“
vgl. Teil III) gemessen wird, weil der Befragte sich nicht auf den Inhalt der Frage
bezieht, sondern auf seine Außendarstellung sind alle Interpretationen statistischer
Modelle, welche die Variable „häusliche Gewalt“ einschließen, wertlos.

I.4.4 Empfehlungen zur Erhöhung der Umfragequalität:


Das maßgeschneiderte Design

Selbstverständlich tragen alle Maßnahmen, die eine Reduktion des totalen Umfrage-
fehlers und seiner Komponenten bewirken, dazu bei, die Umfragequalität zu erhö-
hen. Schon an dieser Stelle soll aber eine zentrale theoretische Perspektive vorgestellt
werden, aus der sich Empfehlungen ableiten lassen, die eine Reduktion von Kompo-
30 I.4 Umfragequalität und Umfragefehler

nenten des totalen Umfragefehlers erwarten lassen. Eine solche Perspektive wurde
von Don Dillman vorgeschlagen. Dillman (2000, Dillman, Smyth & Christian, 2014)
hat versucht, aus soziologischer Perspektive einen Ansatz zur Verbesserung der Um-
fragequalität zu entwickeln. Unter der Bezeichnung maßgeschneidertes Design (engl.:
tailored design) hat Dillman eine Reihe von Verfahren und Prinzipien für selbstadmi-
nistrierte Interviews zusammengefasst, die zu einer erhöhten Datenqualität führen
sollen. Diese Verfahren können aber analog durchaus auch für Interviewer-adminis-
trierte Interviews gelten. Sie betreffen sowohl den Entwurf von Erhebungsinstrumen-
ten als auch die Erhöhung der Teilnahmebereitschaft und die Reduktion der Anzahl
fehlender Werte, insbesondere bei heiklen Fragen. Dillman entwickelt seinen Ansatz
auf Grundlage der Theorie des sozialen Austausches (engl.: social exchange theory).
(vgl. Blau, 1964; Homans 1958). Diese postuliert, dass Beziehungen zwischen Part-
nern (Individuen, Organisationen, etc.) auf einer Kosten-Nutzen-Analyse basieren.
Eine Beziehung zwischen sozialen Akteuren wird aufgenommen und aufrechterhal-
ten, wenn und solange die Kosten den Nutzen nicht übersteigen. Nach dieser Theorie
sind Handlungen von sozialen Akteuren durch das motiviert, was sie durch diese
Handlungen als Gegenleistung erhalten. Der Ansatz legt also als Modell der Befrag-
ten-Entscheidung einen Rational-Choice-Ansatz bzw. ein „cost/benefit“-Ansatz (vgl.
Schnell, 1997; Singer, 2011) zugrunde. Dillmans schlägt vor, die folgenden Empfeh-
lungen im Umfragedesign zu berücksichtigen:

Etablierung von Vertrauen


• Es sollten schon beim ersten Kontakt Zeichen der Wertschätzung gegeben wer-
den;
• Auftraggeber sollten legitimierte Autoritäten sein (z.B. Ministerien, Universi-
täten, etc.);
• Die Umfrage sollte als wichtiges Ereignis dargestellt werden;
• Die Umfrage sollte mit anderen Austauschverhältnissen verbunden werden
(z.B. man nimmt an einer Umfrage teil, weil die Tochter studiert hat oder weil
man für eine Reform des Gesundheitssystems ist); Befragte nehmen eher teil,
wenn sie anderen damit etwas Gutes tun.
I.4 Umfragequalität und Umfragefehler 31

Erhöhung des Werts der Gegenleistung


• Zeigen von Achtung und Rücksicht;
• Bezeugung von Dankbarkeit;
• Unterstützung von Werten der Gemeinschaft/Gesellschaft, in welche die Be-
fragten eingebunden sind;
• greifbare Belohnungen;
• Konstruktion eines interessanten Fragebogens;
• Betonung der sozialen Anerkennung, z.B. durch den Hinweis darauf, dass an-
dere Personen schon ähnliche Handlungen ausgeführt haben;
• Betonung der Beantwortung als günstige Gelegenheit, die noch genutzt werden
kann.

Reduktion sozialer Kosten


• Vermeidung einer herablassenden Sprache bzw. von Befehlsformen;
• Vermeidung von Verlegenheit oder Verwirrung auf Seiten des Befragten;
• Vermeidung von Unannehmlichkeit bzw. Unbequemlichkeit, z.B. durch Beile-
gen einer Rückantwortkarte;
• Konstruktion eines kurzen und leichten Fragebogens;
• Minimierung von Forderungen nach persönlichen Informationen, die die Be-
fragten nicht gerne weitergeben;
• Entwurf untereinander konsistenter Fragen.

Diese Prinzipien liegen implizit oder explizit vielen Empfehlungen anderer Auto-
ren zur Reduktion von Nonresponse und zur Messqualität zugrunde. Zahlreiche
Untersuchungen bestätigen direkt oder indirekt das Konzept. Sie sollen nicht an
dieser Stelle aufgezählt werden, doch wird der Leser keine Schwierigkeiten haben,
diese Perspektive später im Zusammenhang mit Modellen der Teilnahmebereit-
schaft oder Ergebnissen zur Reduktion von Nonresponse und zur Erhöhung der
Antwortqualität wiederzufinden. Die obigen Empfehlungen lassen sich zwar nicht
bei allen Forschungsfragestellungen berücksichtigen und sind sicherlich auch un-
vollständig, in jedem Fall sollte man aber diese Gesichtspunkte dort, wo es sinnvoll
und möglich erscheint, in die eigenen Designüberlegungen einbeziehen. In Bezug
auf den Entwurf von Fragebögen und Fragen ergibt sich aus dem Ansatz vor allem
die Konsequenz, die Belastungen des Befragten, seien es kognitive, emotionale Be-
lastungen oder Belastungen durch schlechte Benutzerfreundlichkeit des Fragebo-
gens, gering zu halten (vgl. Teil III). Bei selbstadministrierten Interviews ergeben
sich aus diesen Prinzipien Vorschläge für die Gestaltung des Layouts (vgl. Dillman,
Smyth & Christian, 2014).
32 I.5 Methodenspektrum im Umfrageprozess

I.5 Methodenspektrum im Umfrageprozess

Das Spektrum der im Umfrageprozess eingesetzten Methoden besteht prinzipiell


aus allen Methoden, die für die Bearbeitung der einzelnen Schritte des Umfrage-
prozesses in Abschnitt 1.3 vorgeschlagen wurden. Entsprechend lassen sich grob
folgende Methoden unterscheiden:

Methoden der Konzeptspezifikation (vgl. z.B. Hox 1997)


Die Präzisierung der Umfrageziele erfordert eine Spezifikation der Konzeptuali-
sierungen, die Grundlage für die Festlegung dieser Ziele sind. Beispiele sind Kon-
zeptualisierungen des Migrationsbegriffs, des Begriffs „Minderheit“ oder des Be-
griffs „Lebenszufriedenheit“. Solche Begriffe erfordern nicht nur die Eingrenzung
des Begriffsumfangs durch Angabe der Merkmale und ihrer Ausprägungen, die
festlegen, welche Individuen unter den Begriff fallen, wie z.B. durch Angabe der
Merkmale von Personen, die zur Gruppe der Migranten gerechnet werden sollen.
Vielmehr geht es auch um eine Exploration der verschiedenen Aspekte (Dimensio-
nen) eines Begriffs. Ein Beispiel wäre etwa die Analyse des Begriffs „Zufriedenheit“
hinsichtlich seiner kognitiven und emotionalen Aspekte wie die Aufschlüsselung
in Bereichszufriedenheiten und die emotionale Bedeutung für die Lebensqualität.
Schon auf dieser Stufe können bereits empirische Verfahren eingesetzt werden wie
Sorting-Techniken (vgl. z.B. Coxon, 1999; Prüfer & Rexroth, 2005). Ein einfaches
Beispiel wäre die empirische Definition des Begriffs „Verkehrsunfall“, indem ver-
schiedene Szenarien von Verkehrsereignissen sortiert werden, um herauszufinden,
welche Szenarios zum Begriff „Verkehrsunfall“ gerechnet werden können (siehe
Teil V). Auch für den Sozialwissenschaftler eher exotisch anmutende formale alge-
braische Verfahren wie die formale Begriffsanalyse (vgl. z.B. Wolf, Gabler und Borg,
1994; Ganter & Wille, 1996) oder facettentheoretische Methoden und Methoden
der nicht-metrischen multidimensionalen Skalierung (vgl. z.B. Borg 2000; Borg
& Groenen, 2010; Borg & Shye 1996) können prinzipiell bei der Exploration der
Dimensionen eines Begriffs Anwendung finden, auch wenn ihre Anwendung im
Umfrageprozess in der Regel zu aufwändig sein dürfte.
I.5 Methodenspektrum im Umfrageprozess 33

Methoden der Operationalisierung und Fragebogenkonstruktion


In der Phase der Operationalisierung werden den theoretischen Untersuchungs-
variablen konkrete Messoperationen zugeordnet, um die Ausprägungen der the-
oretischen Variablen empirisch ermitteln zu können. Dies bedeutet konkret, dass
in dieser Phase nicht nur die Frageformulierungen und die dazu gehörigen Ant-
wortformate/Skalen festgelegt werden müssen, sondern auch die Kommunikati-
onsform inkl. des verwendeten Sinneskanals (visuell oder auditiv), und das Layout,
in dem die Texte und eventuell die Graphiken den Befragten präsentiert werden
sollen (vgl. Dillman, Smyth & Christian, 2014; Faulbaum, Prüfer & Rexroth 2009,
Porst, 2011). Eine Messoperation ist also nicht von der Art und Weise zu trennen,
in der sie konkret durchgeführt wird. Obgleich in der Umfrageforschung vor allem
die auditiven und visuellen Sinneskanäle zur Kommunikation eingesetzt werden,
kommt prinzipiell auch der taktile Sinneskanal in Frage, etwa bei der Befragung
von Blinden per Blindenschrift.
Zu den theoretischen Variablen gehören auch beobachtete soziodemographi-
sche Variablen wie z.B. das monatliche Nettoeinkommen. Auch hier ist die the-
oretische Ebene von der Operationalisierung zu trennen. So kann das Nettoein-
kommen in unterschiedlicher Weise durch Messoperationen realisiert werden, z.B.
durch eine kategorisierte Abfrage, durch eine direkte Frage, durch das Heraussu-
chen des Steuerbescheids, etc.

Methoden der Stichprobenauswahl


Die Methoden der Stichprobenauswahl umfassen alle Verfahren zur Auswahl von
Untersuchungseinheiten, mit den entsprechenden theoretischen und praktischen
Voraussetzungen. Zu den letzteren gehören etwa. die statistisch/mathematische Be-
wertung der Güte der Parameterschätzungen und die Methoden zur Verbesserung
der Schätzqualität wie die unterschiedlichen Methoden der Gewichtung von Um-
fragedaten (vgl. z.B. Bethlehem, Cobben & Schouten, 2010; Kalton & Flores-Cer-
vantes, 2003; Kish, 1965; Särndal, Swensson & Wretman, 1992; Särndal & Lund-
ström, 2005; vgl. auch die Beiträge in Gabler, Hoffmeyer-Zlotnik & Krebs, 1994).
Eine spezielle Form der Stichprobenauswahl stellt die adaptive Stichprobenauswahl
dar, bei der die Einbeziehung von Einheiten in die Stichprobe in Abhängigkeit von
Werten interessierender Untersuchungsvariablen während der Umfrage geschieht
(vgl. Thompson & Seber, 1996), um die Parameterschätzungen zu optimieren.
34 I.5 Methodenspektrum im Umfrageprozess

Methoden der Durchführung (Feldarbeit)


Mit „Durchführung“ ist hier die praktische Realisation einer Umfrage gemeint.
Sie wird vor allem bestimmt durch die Wahl der Kommunikationsform zusam-
men mit den geeigneten Technologien (vgl. Teil II), durch die Form der Intervie-
wer-Rekrutierung und- Schulung (bei Interviewer-administrierten Interviews), die
Form der Kontaktaufnahme einschließlich des möglichen Einsatzes von Ankün-
digungsschreiben, das Verhalten der Interviewer im Feld, die Feldplanung sowie
die Feldorganisation (bei Interviewer-administrierten Umfragen), Eine große Rolle
spielen auch die Maßnahmen zur Sicherung der Umfragequalität. Bei computer-
unterstützten Umfragen werden die Feldorganisation und damit der Feldverlauf in
weiten Teilen durch den Einsatz geeigneter Software gesteuert.

Methoden der Datenaufnahme und Dateneditierung


Die Methoden der Datenaufnahme haben sich seit Einführung des Computers in
der Datenerhebung grundlegend geändert. Nicht nur werden bei computerunter-
stützten Umfragen die Antworten der Befragten in verschlüsselter Form automa-
tisch in eine Datei eingetragen, sondern es lassen sich bereits während der Pro-
grammierung des Fragebogens Fehlervermeidungsstrategien einführen wie die
Vermeidung von Eingabefehlern durch Beschränkung auf zulässige Antworten,
Prüfung auf Antwortkonsistenz, etc. Der Vorgang der Editierung von Daten betrifft
alle Schritte des Datenerhebungsprozesses: Bei der Fragebogenentwicklung werden
bereits die Filter und die möglichen Inkonsistenzen definiert, empirische Pretests
und Tests der Funktionsfähigkeit des Erhebungsinstruments ergeben bereits Hin-
weise auf Fehler. Durch kontinuierliche Checks während der Feldphase lassen sich
fehlerhafte Angaben u.U. durch Maßnahmen wie Re-Kontaktierung der Befragten
korrigieren. Liegt der Datensatz vor, können Editierungen (engl. edits) entweder
auf der Ebene der Fälle bzw. „records“ mit der primären Absicht der Validierung
(engl.: micro edits) oder im Rahmen statistischer Analysen von aggregierten Daten
erfolgen (engl.: macro edits) (vgl. Pierzchala, 1990) Auf der Ebene der Fälle lassen
sich fehlende oder ungenaue Werte, Inkonsistenzen, etc. entdecken und bereinigen,
auf Aggregatebene lassen sich Besonderheiten von univariaten und/oder multiva-
riaten statistischen Verteilungen wie z.B. Mittelwerte, Varianz, Schiefe, Kurtosis,
gestutzte Verteilungen (engl. truncated distributions) und Deckeneffekte (engl.: cei-
ling effects) sowie Ausreißerwerte (engl.: outliers) entdecken, so dass entsprechende
Bereinigungsaktivitäten eingeleitet werden können. In beiden Fällen können die
erforderlichen Routinen programmiert werden, wodurch ein automatischer Ablauf
I.5 Methodenspektrum im Umfrageprozess 35

gesichert werden kann. Einen Überblick über die Verfahren der Editierung geben
Van de Waal, Pannekoek und Scholtus (2011).
Der Aufwand für den Editierprozess kann mehr oder weniger hoch sein (vgl.
Granquist & Kovar, 1997), was entsprechende Kosten nach sich zieht. Er sollte aber
Prüfungen und ggf. Korrekturen der folgenden Komponenten einbeziehen (vgl.
Pierzchala, 1990):

• Vollständigkeitsfehler (completeness errors)


Diese Fehler können bei telefonischen Interviews durch Abbrüche oder durch
fehlende Antworten auf bestimmte Fragen auftreten (fehlende Werte bzw. Item
Nonresponse). Da Abbrüche keine expliziten Verweigerungen darstellen, kön-
nen die Befragten noch einmal durch andere Interviewer kontaktiert werden,
um die Daten zu vervollständigen. Fehlende Werte können mit Hilfe von Im-
putationsverfahren ersetzt werden (vgl. Teil VII) ersetzt werden.
• Bereichsfehler (domain errors):
Diese Fehler treten auf, wenn Antworten gegeben werden, die außerhalb des
zulässigen Bereichs liegen (nicht-adäquate Antworten). Diese Art von Fehlern
lässt sich bei computerunterstützten Interviews bereits im Rahmen der Pro-
grammierung verhindern, da die entsprechende Software im Normalfall die
Definition solcher Bereiche erlaubt. Allerdings gibt es bei direkten numeri-
schen Angaben diese Möglichkeit nicht unbedingt, da selbst ungewöhnliche
Angaben gültig sein können.
• Konsistenzfehler (consistency errors):
Konsistenzfehler treten auf, wenn sich Antworten auf unterschiedlicheFragen
gegenseitig widersprechen (logische Konsistenz) oder sich zuwidersprechen
scheinen (mangelnde Plausibilität). Zu denKonsistenzprüfungen zählen auch
Prüfungen, ob Angaben für Teile mit den Angaben für ein Total kompatibel ist,
z.B. ob die Anzahl der angegebenen Fahrkilometer pro Jahr mit den angegebe-
nen Kilometern pro Monat kompatibel ist.
• Filterfehler (routing errors):
Filterfehler entstehen durch vom Fragebogen-Designer und vom Programmie-
rer nicht-intendierte Verzweigungen.

Bereichsfehler und Filterfehler lassen sich bereits in der Testphase des Fragebogens
identifizieren. Programmierungen können auf die Algorithmen von Fellegri und
Holt (1976) zurückgreifen. Alle identifizierten Fehler sollten in einem Fehlerproto-
koll sorgfältig dokumentiert werden. Das einzuleitende Maßnahmenpaket und die
Randbedingungen seiner Anwendung (z.B. Übereinstimmung der Randverteilun-
36 I.5 Methodenspektrum im Umfrageprozess

gen des editierten Datensatzes mit den dem Datensatz der unbeanstandeten Fälle)
müssen präzise definiert und begründet sein.
Mit einer Fehleranalyse ist die Qualität eines Datensatzes aber noch nicht er-
schöpfend analysiert. Sie kann ergänzt werden durch Analysen von Interviewer-Ef-
fekten, von Einflüssen der Interviewsituation und von Antwortstrategien der Be-
fragten.

Methoden der Datenanalyse


Die in der Analyse von Umfragedaten eingesetzten Verfahren richten sich im We-
sentlichen nach den Zielen der Umfrage. Ist nur eine statistische Beschreibung der
Daten beabsichtigt, so reichen in der Regel die Verfahren der deskriptiven Statis-
tik mit einer tabellarischen Aufbereitung, mit geeigneten graphischen Darstellun-
gen und einer Charakterisierung der empirischen Verteilungen durch statistische
Kennwerte aus. Sollen dagegen statistische Hypothesen, z.B. über Populationspara-
meter oder über die Form statistischer Verteilungen von Variablen geprüft werden,
so wird man inferenzstatistische Verfahren anwenden. Gegenstand der Analyse
können sowohl einzelne Variablen und ihre Verteilungen sein (univariate Analyse;
vgl. z.B. Fahrmeir et al., 2004; Hartung, Elpelt & Klösener, 2009; Jann, 2005; Kühnel
& Krebs, 2012) oder mehrere multivariat verteilte Variablen (multivariate Analyse;
vgl. Backhaus et al., 2006; Fahrmeier, Hamerle & Tutz, 1996; Hartung & Elpelt,
2007; Arminger, Clogg & Sobel, 1995). Auf Grund der bei Umfragen oft großen
Stichprobenumfänge eignen sich Umfragedaten besonders gut zur Überprüfung
von Modellen für komplexe Abhängigkeitsbeziehungen zwischen beobachteten
und/oder unbeobachteten (latenten) Variablen. Diese Modelle werden auch als
Strukturgleichungsmodelle bezeichnet (vgl. z.B. Bollen, 1989; Kaplan, 2008; Reine-
cke, 2014). In Teil IV, Abbildung IV.11 wird ein Beispiel für ein komplexes Struk-
turgleichungsmodell gegeben. Strukturgleichungsmodelle werden auch in metho-
dischen Studien der Umfrageforschung angewendet wie z.B. in der Untersuchung
vom Modeeffekten (vgl. Heerwegh & Loosveldt, 2011) oder in der international
vergleichenden Umfrageforschung beim Vergleich zwischen Messmodellen in ver-
schiedenen Nationen (vgl. Faulbaum, 1990; Billiet, 2003). Die Verfahren werden im
Zusammenhang mit der Überprüfung der Reliabilität und Validität von Messungen
in Teil III noch einmal aufgegriffen.
I.6 Grundsätzliche Probleme der Umfrageforschung 37

I.6 Grundsätzliche Probleme der Umfrageforschung

Oft treten bei Planung, Vorbereitung und Durchführung von Umfragen in der Re-
gel methodische Probleme auf, die nicht zuletzt mit den Fehlern bzw. Verzerrungen
zusammenhängen, die sich im Rahmen des Umfrageprozesses einstellen und die
die gesamte Qualität einer Umfrage negativ beeinflussen können. Einige Probleme
kann man durch entsprechende methodische Entscheidungen und die Anwendung
bestimmter Methoden zu minimieren versuchen. Andere Probleme lassen sich
nicht ohne weiteres lösen. Hier seien einige Entscheidungsprobleme aufgeführt,
mit denen immer zu rechnen ist:

Unvereinbarkeit bestimmter Anforderungen


Bei der Planung von Umfragen werden immer wieder Entscheidungen zwischen
zwei Anforderungen verlangt, die nicht oder nur schwer gleichzeitig optimiert wer-
den können und zwischen denen Kompromisse gefunden werden müssen:

• zwischen dem Leistungsvermögen der Befragten und der Komplexität der Fra-
gen, die gestellt werden können;
• zwischen den Belastungen (engl.: work load) von Befragten und Interviewern
und der Länge des Fragebogens;
• zwischen den Kosten der Umfrage und Merkmalen der Umfragequalität; z.B.
zwischen Kosten der Umfrage und der Länge des Erhebungsinstruments, der
gewählten Kommunikationsform oder dem Stichprobenumfang;
• zwischen der verfügbaren Interviewzeit, der Anzahl der Fragen und der Fra-
genkomplexität;
• zwischen der Kompetenz des Umfragedesigners und der Qualität des Fragebo-
genentwurfs;
• zwischen der soziokulturellen Heterogenität einer Stichprobe und der Formulierung
von Fragen, die für alle Subgruppen in gleicher Weise verstanden werden können.

Unvollständige Kontrolle von relevanten Befragten-Merkmalen


Ein weiteres Problem stellt die mangelnde totale Kontrollierbarkeit jener Befrag-
ten-Merkmale dar, welche Teilnahme und Antwortverhalten der Befragten maß-
geblich beeinflussen können. Dazu gehören insbesondere auch die Interviewsitua-
tion und das Befragungsklima. Messtheoretisch bedeutet dies, dass die relevanten
Komponenten des Messfehlers überhaupt nicht oder nicht mit ausreichender Ge-
nauigkeit bestimmt werden können.
38 I.6 Grundsätzliche Probleme der Umfrageforschung

Unvollständige oder ungenaue Kenntnisse der Populationsparameter


Oft liegen keine direkten Informationen über die zu schätzenden Parameter der
Grundgesamtheit vor. Zu erwarten sind solche Informationen eigentlichen nur bei
administrativen Daten und bei Totalerhebungen. Wenn solche Informationen vor-
liegen, sind diese oft noch nicht einmal aktuell, d.h. präzise auf den Befragungs-
zeitpunkt bezogen (z.B. bei Zensusdaten). Näherungsweise kann man sich dann an
anderen, auf sehr großen Stichprobenumfängen beruhenden, amtlichen Stichpro-
ben wie dem Mikrozensus orientieren. Dies gelingt aber in er Regel nur in Bezug
auf ausgewählte soziodemographische Variablen. In Abwesenheit von Kenntnissen
über die präzisen Populationswerte ist es notwendig, für die Schätzung dieser Wer-
te Schätzer zu verwenden, von denen mathematisch gezeigt werden kann, dass sie
zu einer erwartungstreuen (engl.: unbiased) Schätzung der Parameter führen bzw.
zu einer Schätzung, deren Verzerrung korrigiert werden kann. Voraussetzung ist
immer eine Zufallsstichprobe. Die Korrektur erfordert oft die Verwendung von
sog. Hilfsvariablen, für die Werte für alle Untersuchungseinheiten der Population
vorliegen (zum Begriff der Hilfsvariablen vgl. Teile VI und VII).

Unvollständige Kenntnis der Lebenswelt der Befragten und der interpre-


tativen Prozesse
Die Befragten sind in eine bestimmte Lebenswelt eingebunden mit ihren spezifi-
schen Ritualen und kulturell bestimmten Bedeutungen, die sie dem Verhalten der
Interviewer und den sprachlichen Formulierungen einschließlich der darin ent-
haltenen Begriffe geben. Insbesondere Vertreter des symbolischen Interaktionis-
mus und der interpretativen Ansätze in der Soziologie haben mit ihrer Kritik an
der „Variablensoziologie“ auf diesen Umstand immer wieder hingewiesen (vgl. z.B.
Blumer, 1969; Mead, 1934; Wilson, 1970). Unvollständige Kenntnisse dieser Art
betreffen in der Kontaktphase nicht nur die Einleitung in das Thema der Erhebung,
den Auftraggeber, sondern auch die Definition der Situation, deren Bedeutung Es-
ser in Bezug auf das Handeln der Befragten im Interview hervorgehoben hat (vgl.
Esser, 1986). Ganz praktisch kann dies bedeuten, dass eine kontaktierte Person die
Situation als eine Situation des Direktmarketings definiert und sofort nach einem
realisierten Telefonkontakt verweigert. Für manche mag ein Anruf spontan als si-
tuativ bedrohlich empfunden werden. Relevant ist hier das Framing der Situation.
Es bezeichnet im Zusammenhang mit der Definition der Situation ein Interpre-
tationsschema, das vom Befragten ausgewählt wird und in das die Art und Weise
Kontaktaufnahme eingeordnet wird. Diese Interpretation kann maßgeblich für die
Entscheidung des Befragten sein, an einer Umfrage teilzunehmen. Über die Defini-
I.6 Grundsätzliche Probleme der Umfrageforschung 39

tion der Situation stellen können in der Regel nur Vermutungen angestellt werden.
Durch die Art der Kontaktaufnahme kann eine gewisse Steuerung der Interpreta-
tion versucht werden.
Die Einbindung in das kulturell geprägte Alltagsleben und die Lebenswelt des
Befragten kann sich ebenfalls in den Bedeutungszuordnungen, die Befragte den
Fragetexten geben, also in der Interpretation der Frageformulierungen ausdrücken,
was wiederum Auswirkungen auf die Relevanz und die Form von kognitiven Inter-
views bei der Evaluation von Fragen haben kann (vgl. Miller, 2011). Die Lebens-
welt spielt infolgedessen insbesondere bei interkulturellen Umfragen eine Rolle,
bei denen mit unterschiedlichen Lebenswelten gerechnet werden muss. Da die Ge-
sellschaft kulturell inhomogen ist, ist beim Entwurf von Fragen die soziokulturel-
le Heterogenität auch bei nationalen Umfragen immer mit in Betracht zu ziehen.
Selbst durch kognitive Pretests (vgl. Teil V) wird man oft keine sichere Kenntnis
über die Interpretationen der Befragten erhalten können, da die Ergebnisse nicht
immer reichhaltig und präzise genug sind. Das Hinterfragen der von den Befragten
gelieferten Interpretationen kann wiederum problematisch werden, da die Fragen
des Forschers ihrerseits immer wieder vom Befragten interpretiert werden müssen,
d.h. die Nachfragen müssten ihrerseits wieder einem Pretest unterworfen werden,
etc. Das Problem ist ähnlich gelagert wie beim hermeneutischen Zirkel (Gadamer,
1990, S. 270) oder dem Basisproblem in der Wissenschaftstheorie (vgl. Popper,
1976, S. 60). Die Frage könnte hier sein, wie viele geschachtelte Pretests sind not-
wendig, um sichere Kenntnis von der Interpretation der Befragten zu erlangen? Als
weiteres Problem ergibt sich, dass mit Sicherheit in diesem Fall nur die subjektive
Sicherheit des Forschers gemeint sein kann.

Umfragen als Belastungen (engl.: burden) der Befragten


Insofern Befragungen fast immer einen Einbruch in den Alltag der Befragten
darstellen, werden sie oft als Störungen empfunden. Entscheidungstheoretisch
betrachtet entstehen für Befragte mit ihrer Entscheidung, an der Umfrage teilzu-
nehmen, Kosten im Sinne einer erbrachten Leistung und dem damit verbunde-
nen Aufwand, der zur Verfügung gestellten Zeit, etc. Die zu beantwortende Frage
ist, was der Forscher ihm dafür in Form von Zuwendungen (engl. incentives) oder
einem entgegenkommenden, reziproken Verhalten anbieten kann. In der Regel
zahlt der Befragte ohne eine Gegenleistung - ein Problem, dessen Lösung sich dem
Ansatz des maßgeschneiderten Designs besonders verpflichtet fühlen muss (siehe
Abschnitt 4.4 oben).
40 I.6 Grundsätzliche Probleme der Umfrageforschung

Bewertung der statistischen Ergebnisse einer Umfrage


Grundsätzlich kann die Bewertung statistischer Ergebnisse nicht vom Aspekt der
Verwendung der Ergebnisse klar getrennt werden (Aspekt des Verwertungszusam-
menhangs). Oft sind diese Bewertungen klar interessengesteuert. Politisch unter-
schiedlich ausgerichtete Medien neigen dazu, das gleiche statistische Ergebnis, z.B.
zur Parteineigung, unterschiedlich zu bewerten. Abbildung I.8 zeigt die Beziehun-
gen zwischen Umfrage, Daten und inhaltlichen Schlussfolgerungen.

Abbildung I.8: Umfrage und inhaltliche Schlussfolgerungen

Im Grunde gibt es drei Ebenen der Ergebnisinterpretation (vgl. Abbildung I.9): Auf
der untersten Ebene 1 haben wir die Schätzungen der Populationswerte (Parame-
terschätzungen), auf der zweiten Ebene haben wir die Ebene der Bewertung der
statistischen Daten und auf der dritten Ebene haben wir die inhaltlichen Schluss-
folgerungen.
Abbildung I.10 stellt ein fiktives Beispiel dieser dreistufigen Ergebnisinterpreta-
tion dar. Dargestellt ist, wie aus der Schätzung des Anteils rechtsradikaler Antwor-
ten eine inhaltliche Schlussfolgerung entstehen könnte.
Eine von der in Abbildung I10 abweichende Interpretation könnte den 12% An-
teil der Radikalen als gering einstufen, womit sich auch die inhaltlichen Schlussfol-
gerungen auf Ebene 3 ändern würden. Anstatt der Betrachtung der Ergebnisse zu
einem Zeitpunkt wäre die Betrachtung der statistischen Veränderungen in der Zeit,
I.6 Grundsätzliche Probleme der Umfrageforschung 41

also Anstieg oder Abnahme der Anteile. Voraussetzung ist allerdings, dass Ergeb-
nisse zu mehreren Zeitpunkten vorliegen. Der Umfrageforscher sollte sich dieser
Problematik insbesondere im Umgang mit den Medien bewusst sein, weil Stufe 3
oft den Medien überlassen wird.

Abbildung I.9: 3-Ebenen-Modell der Ergebnisinterpretation

Abbildung 1.10: 3-Ebenen-Modell der Ergebnisinterpretation: Beispiel


42 I.7 Umfragen, konfundierende Variablen und Kausalitätsaussagen

I.7 Umfragen, konfundierende Variablen und Kausali-


tätsaussagen

I.7.1 Beobachtungsstudien, experimentelle Designs und


konfundierende Variablen

Umfragen gehören zur Klasse der Beobachtungsstudien (engl.: observational stu-


dies; vgl. z.B. Cochran, 1983), genauer: zu den ex post facto-designs, bei denen der
Forscher keine Kontrolle über die Zuordnung von Untersuchungseinheiten zu
bestimmten Behandlungen (engl.: treatments) hat (Fehlen der Stimuluskontrolle).
Enthält eine Umfrage z.B. eine Frage nach der Einnahme bestimmter Medikamente
sowie eine Frage nach dem subjektiven Wohlbefinden, so werden den Medikamen-
ten nicht nach Zufall Personen zugeordnet und die Konsequenzen der Einnahme
beobachtet. Der Forscher bestimmt also nicht, welche Personen welchen Versuchs-
bedingungen unterworfen werden. Damit ist der Forscher nicht in der Lage, Stör-
variablen bzw. Merkmale, die nicht Einflussvariablen im Fokus der Analysefrage-
stellung sind, durch eine zufällige Zuordnung (engl. assignment) von Elementen zu
Stimuli zu kontrollieren. Dies unterscheidet Beobachtungsstudien von experimen-
tellen Designs.
In einem Experiment wird dagegen eine Menge unabhängiger Variablen (auch:
Experimentalvariablen, exogene Variablen, Faktoren, Behandlungen bzw. Treat-
ment-Variablen) manipuliert. Anschließend wird die Wirkung dieser Manipulation
auf eine Menge von Wirkungsvariablen (auch: Ausgabevariablen, Reaktionsvariab-
len, endogene Variablen) beobachtet und registriert. Dabei kommt es vor allem dar-
auf an, den Einfluss bekannter oder unbekannter Störvariablen zu minimieren oder
zu kontrollieren. Experimentalvariablen können sein: externe Variablen, interne
(kognitive oder emotionale) Variablen oder organismische Variablen eines oder
mehrerer Probanden. Die Manipulierbarkeit der Experimentalvariablen trennt das
Experiment begrifflich von der systematischen Beobachtung. Oft wird nur Experi-
mentalgruppe einer Kontrollgruppe gegenübergestellt, die keine Behandlung erfah-
ren hat.
Obgleich eine Umfrage selber kein Experiment darstellt, lassen sich Umfragen
aber im Rahmen von Forschungsdesigns einsetzen, die eine Intervention vorse-
hen. Solche Designs werden auch als quasi-experimentelle Designs bezeichnet (vgl.
Campbell & Stanley, 1963; vgl. auch Bredenkamp, 1969).
Eine Konsequenz aus der bei Umfragen auf Grund des Designs nicht möglichen
expliziten Kontrolle von Störvariablen, z.B. durch Randomisierung, besteht darin,
dass Störvariablen mit den unabhängigen Variablen, deren Einfluss auf abhängige
I.7 Umfragen, konfundierende Variablen und Kausalitätsaussagen 43

Variablen untersucht werden soll, konfundiert sein können. So kann etwa der Ein-
fluss der Häufigkeit eines Kontakts mit Migranten auf die Einstellung konfundiert
sein mit dem Geschlecht, indem etwa Männer oder Frauen eine niedrigere oder
höhere Kontakthäufigkeit aufweisen. Dieser Sachverhalt führt dazu, dass Effekte
auf die abhängigen Variablen nicht eindeutig auf die unabhängigen Variablen, de-
ren Einfluss geprüft werden soll und die im Fokus der Analysefragestellung stehen,
zurückgeführt werden können. Damit ist eine Isolation von Ursachen nicht mehr
ohne weiteres möglich. Mit der Konfundierung zwischen Experimentalvariablen
und Störvariablen ist eine Verminderung der internen Validität verbunden.
Eine Präzisierung des Begriffs der konfundierenden Variablen (engl.: con-
founding variable, confounder) liefern Szlklo und Nieto (zit. nach Weisberg, 2010,
p.128). Eine konfundierende Variable
• hängt kausal mit der Outcome-Variablen zusammen;
• hängt kausal oder nicht kausal mit dem Treatment zusammen;
• ist keine vermittelnde Variable auf dem Weg zwischen Treatment und Outcome.

Beispiel I.1 (Konfundierung mit Modeeffekt; vgl. Teil II):


Angenommen, eine Gruppe von Personen würde im Rahmen einer Umfrage
vor die Wahl gestellt, die Fragen entweder über das Web oder telefonisch zu
beantworten. Geprüft werden soll, ob die Kommunikationsform einen Einfluss
auf die Bereitschaft hat, an der Umfrage teilzunehmen. Dann wäre die Schul-
bildung eine konfundierende Variable genau dann, wenn (1) die Schulbildung
einen kausalen Einfluss auf die Teilnahmebereitschaft hat, (2) die Schulbildung
mit der Kommunikationsform zusammenhängt und (3) der Einfluss der Kom-
munikationsform auf die Teilnahmebereitschaft nicht über die Schulbildung
vermittelt ist.
Beispiel I.2 (Konfundierung in einem Zusammenhang zwischen Hilfs- und
Zielvariablen):
Angenommen, wir haben in einer Umfrage das Alter sowie die Einstellung zu
Ausländern erhoben. Wir wollen prüfen, ob das Alter einen kausalen Einfluss
auf die Einstellungsvariable hat. Dann wäre das Geschlecht eine konfundierende
Variable dann, wenn es (1) mit der Einstellung zu Ausländern zusammenhängt,
wenn es (2) mit dem Alter zusammenhängt und wenn es keine zwischen Alter
und Einstellung zu Ausländern vermittelnde Variable darstellt.

Die Vermutung, dass konfundierende Variablen die Beziehung zwischen zwei Va-
riablen beeinflussen können, führt zur Frage nach den Möglichkeiten ihrer Kon-
44 I.7 Umfragen, konfundierende Variablen und Kausalitätsaussagen

trolle. Die Kontrollierbarkeit setzt voraus, dass man die konfundierende Variable in
der Erhebung beobachten konnte und sie im Datensatz vorhanden ist. Ist dies der
Fall bieten sich folgende Kontrollmöglichkeiten an:

Matching bzw. Subklassifikation


Beim Matching werden in den Experimentalgruppen Untersuchungseinheiten mit
gleichen oder ähnlichen Merkmalsausprägungen getrennt analysiert. Stellt z.B. das
Alter eine konfundierende Variable dar, so würde man den Vergleich zwischen den
Gruppen nur innerhalb bestimmter Alterskategorien vornehmen.

Multivariate Analyse
Im Rahmen von Regressionsmodellen können die konfundierenden Variablen als
Kontrollvariablen (auch: Kovariate; engl.: covariate) in das Regressionsmodell auf-
genommen werden. Die Effekte der unabhängigen Variablen stellen dann Effekte
unter Konstanthaltung der Kontrollvariablen dar. Ein enstprechendes Vorgehen
stellt die Kovarianzanalyse dar, bei der die Effekte der konfundierenden Variablen
aus den Effekten der Faktorvariablen herausgerechnet sind.
Eine Variante des Matching stellt die Subklassifikation nach Propensity Scores
dar. Liegen zwei Gruppen von Untersuchungseinheiten mit ihren Messungen sowie
eine Reihe möglicher konfundierender Variablen vor, so kann der Einfluss dieser
Kovariaten auf die dichotome Variable „Gruppenzugehörigkeit“ im Rahmen eine
verallgemeinerten linearen Modells, z.B. logistisches Modell, Probit-Modell, etc.,
statistisch überprüft werden. In der Regel wird eine binäre logistische Regressi-
on gewählt. Die Wahrscheinlichkeit, einer der beiden Gruppen an der Stelle einer
bestimmten Merkmalskombination der Kovariaten anzugehören, wird auch als
Propensity Score bezeichnet (siehe auch die Ausführungen in Teil VI). Rosenbaum
und Rubin (1983: 44, Theorem 1) bewiesen, dass die Zuordnung von Untersu-
chungseinheiten zu zwei Treatments und die beobachteten Kovariaten unter der
Bedingung eines Propensity Scores von einander statistisch unabhängig sind, in
Symbolen:

x ⊥⊥ z | e ( x )

wobei x ein Vektor von Kovariaten, z die Behandlungszuordnung und e(x) der
Propensity Score. Dieses Theorem gilt für alle sog. balancing scores. Unter einem
balancing score b(x) ist eine Funktion der beobachteten Kovariaten zu verstehen, so
dass die bedingte Verteilung gegeben den balancing score unabhängig davon ist,
welcher Treatment-Gruppe eine Untersuchungseinheit zugordnet ist.
I.7 Umfragen, konfundierende Variablen und Kausalitätsaussagen 45

Aus dem genannten Theorem folgt, dass unter Konstanthaltung der Propensity
Scores, die multivariaten Verteilungen der konfundierenden Kovariaten in beiden
Gruppen gleich sein müssten bzw. sich die multivariaten Verteilungen der Kovari-
aten in beiden Gruppen nur zufällig unterscheiden dürften, was zugleich bedeutet,
dass Gruppenunterschiede für Untersuchungseinheiten mit dem gleichen Propen-
sity Score nur noch auf den Einfluss der Untersuchungsvariablen zurückzuführen
sind. Empfohlen wird eine Kategorisierung der Propensity Scores durch Intervall-
bildung und die Durchführung der Analysen innerhalb eines Propensity-Intervalls
(vgl. Rosenbaum & Rubin, 1984; vgl. auch die leicht verständliche Darstellung und
das epidemiologische Beispiel in Rubin, 1997).
Diese Form der Analyse findet sich in zahlreichen Methodenstudien der Um-
frageforschung, insbesondere bei der Kontrolle von Effekten der Kommunikations-
form (siehe Teil II). Die Verteilungsgleichheit innerhalb der Propensity-Kategorien
lässt sich durch Verteilungstests überprüfen. Sind die Verteilungen signifikant un-
terschieden, so kann man versuchen, die Kategorisierung der Propensity Scores zu
ändern.

I.7.2 Kausale Beziehungen zwischen Variablen

In der sozialwissenschaftlichen Forschung werden kausale Zusammenhänge in der


Regel auf gerichtete Beziehungen zwischen Variablen angewendet, worunter auch
der Einfluss von Treatment-Bedingungen auf eine abhängige Ergebnisvariable fällt.
Das Vorliegen einer kausalen Verbindung zwischen zwei Variablen wird an drei
Bedingungen geknüpft (vgl. Heise, 1975; Kenny, 1979):
Der Einfluss einer Variablen x auf eine Variable y, in Symbolen: x o y, stellt
eine kausale Verbindung (engl.: causal link) dar, wenn folgende Bedingungen erfüllt
sind:

1) x muss y zeitlich vorausgehen (Bedingung der zeitlichen Asymmetrie)


2) x muss mit y durch eine funktionale Beziehung verbunden sein; d.h. es muss
gelten: y = f(x) für irgendeine Funktion f.
3) Es darf keine Drittvariable z geben, die sowohl x als auch y kausal beeinflusst,
dergestalt, dass die Beziehung zwischen beiden Variablen verschwindet, wenn z
kontrolliert wird (Ausschluss von Scheinkorrelationen (engl.: non-spuriousness).

Neben diesen drei Kernannahmen werden gelegentlich noch eine Reihe weiterer
Annahmen aufgestellt (vgl. Klein, 1987). Dazu gehören die Annahme, dass die Ein-
46 I.7 Umfragen, konfundierende Variablen und Kausalitätsaussagen

flussbeziehungen nicht zwischen Werten, sondern nur zwischen Veränderungen


zwischen Werten angenommen werden dürfen, dass die Beziehung zwischen Vari-
ablen eine konstante Konjunktion darstellt (Stabilität der Kovariation und dass die
Zeitverzögerung der kausalen Wirkung hinreichend klein ist.
Das oben dargestellte Konzept einer kausalen Verbindung kann ohne Proble-
me auf den Fall multipler Verursachung (engl.: multiple causation) erweitert werden
und ist keineswegs auf beobachtete Variablen beschränkt. So kann z.B. in einem
statistischen Modell mit latenten Variablen, ein hypothetischer Einfluss einer ge-
meinsamen latenten Ursache postuliert werden.
Bedingung 2 der Definition einer kausalen Verbindung liegt die Forderung der
Manipulierbarkeit zugrunde: Wenn man statt des Wertes x = a den Wert x = b ein-
stellen würde, dann würde sich in der Ergebnisvariablen statt des Wertes y = f(a)
der Wert y = f(b) ergeben. Wenn man also gewissermaßen an x „drehen“ würde,
würde sich y auf Grund der funktionalen Beziehung f in vorhersagbarer Weise ver-
ändern. Diese Formulierung hat die Form einer sog. kontrafaktischen Bedingungs-
aussage (engl. counterfactual conditional; vgl. Lewis, 1973).
Bezieht man Bedingung 2 auf ein konkretes Individuum i so ergibt sich eine
Formulierung, die einigen Kausalitätsbetrachtungen in experimentellen Kontexten
zugrundeliegt (vgl. Holland, 1986; Rosenbaum & Rubin, 1983; Rubin, 1974). An-
genommen, wir nehmen eine Zuordnung von Individuen nach bestimmten Regeln
(engl.: assignment mechanism) zu zwei Treatmentgruppen 0 und 1 vor. Dann besagt
Bedingung 2: Wenn wir Individuum i der Gruppe 0 (z.B. Kontrollgruppe) zuord-
nen würden, würde die Ergebnisvariable R den Wert r0i annehmen. Würden wir i
dagegen der Gruppe 1 zuordnen, so würde sich der Wert r1i ergeben. Der kausale
Effekt bezieht sich auf den Vergleich zwischen r0i und r1i, d.h. auf die mögliche Ver-
änderung von R bezogen auf ein Individuum i.
Bedingung 3 der notwendigen Bedingungen für das Vorliegen einer kausalen
Verbindung bezieht sich auf die Abwesenheit des Einflusses von Drittvariablen und
damit des Einflusses konfundierender Variablen.
Verbindungen zwischen Variablen werden im Rahmen der statistischen Da-
tenanalyse auf der Basis von Stichprobeninformationen überprüft. Schon Fisher
(vgl. Fisher, 1946, p. 191) hatte aber vor kausalen Schlussfolgerungen ohne inhalt-
liche Vorannahmen über Verursachungszusammenhänge gewarnt und die in den
70iger Jahren des vergangenen Jahrhunderts geführte Diskussion über die Bedeu-
tung statistischer Signifkanzaussagen (vgl. z.B. Atkinson & Jarret, 1979; Morrison
& Henkel, 1970) hat zu Zweifeln darüber geführt, ob aus statistisch signifikanten
Zusammenhängen überhaupt theoretische Schlussfolgerungen gezogen werden
können (vgl. auch Baumrind, 1983). Insbesondere bei statistischen Modellen über
komplexe Zusammenhängen zwischen Variablen, wie sie in der Analyse von Ko-
I.8 Umfragen im Rahmen spezieller Forschungsdesigns 47

varianzstrukturen (Strukturgleichungsmodelle) kann gezeigt werden, dass es zu


einem an die Daten gut angepassten Modell beliebig viele andere Modelle mit voll-
kommen anderer Struktur gibt, die aus rein mathematischen Gründen genau so
gut auf die Daten passen (vgl. Lee & Hershberger, 1990; Stelzl, 1986, vgl. auch die
Ausführungen in Abschnitt IV.2). Dabei kann sich die Richtung kausaler Einflüsse
sogar umkehren. Daraus folgt, dass in diesen Modellen Annahmen über kausa-
le Verbindungen nicht oder nur auf der Basis plausibler theoretischer Argumente
entschieden werden kann.
Insbesondere die Kritik am Subsumptionsansatz der kausalen Erklärung (auch:
Covering-Law-Modell) nach Hempel und Oppenheim (1948), der einen empiri-
schen Zusammenhang durch Ableitung aus gesetzesartigen Aussagen kausal zu
erklären sucht sowie an Hume (1981; Original erschienen 1758), der Kausaliät aus
einer konstante Konjunktion empirischer Ereignisse ableitet, haben zur Anregung
geführt, die Suche nach statistischen Zusammenhängen durch die Suche nach
generativen bzw.produktiven Mechanismen zu ersetzen (vgl. Baumrind, 1983).
Boudon (1979, p. 62) empfiehlt die Entwicklung generativer Modelle, in denen die
Handlungen der Individuen berücksichtigt werden sollten, aus denen die quantita-
tiven Zusammenhänge abgeleitet werden können.
Die Schlussfolgerung aus der Diskussion über die Kausalität von Variablenver-
bindungen ist, dass die statistische Signifikanz eines Zusammenhangs zwischen
Variablen für die Annahme einer kausalen Verbindung nicht ausreicht, sondern
dass zusätzliche theoretische Argumente, insbesondere, was die Prozessverbindun-
gen zwischen den Variablen angeht, angeführt werden müssen (vgl. hierzu auch
Faulbaum, 1991).

I.8 Umfragen im Rahmen spezieller Forschungsdesigns

Umfragen in Fallstudien
Im Zentrum von Fallstudien steht die Untersuchung einzelner Fälle (Untersu-
chungseinheiten). Fälle können sein: Personen, Gruppen, Schulklassen, Städte,
Stadtviertel, Kulturen, Haushalte, Betriebe, Organisationen, etc. Ziel ist die ge-
naue Beschreibung eines einzelnen Falls hinsichtlich verschiedener Aspekte eines
Forschungsproblems. Dabei steht oft nicht so sehr die Überprüfung von Theorien
und Hypothesen im Vordergrund, sondern die Zustandsbeschreibung sowie die
Hypothesengenerierung und Exploration. In diesem Zusammenhang werden oft
weniger strukturierte Erhebungsverfahren eingesetzt und eine große Vielfalt von
48 I.8 Umfragen im Rahmen spezieller Forschungsdesigns

Informationsquellen genutzt (Amtliche Statistik, Befragungen, offene Interviews,


Beobachtungen, etc.). Besteht ein Fall nicht nur in einer Person, sondern z.B. in
einem höheren Aggregat wie einem Stadtviertel, einer ganzen Stadt oder einer Re-
gion, können Umfragen wertvolle Informationen über die Bevölkerung und ihre
Einstellungen zu relevanten Merkmalen wie Versorgung mit infrastrukturellen
Einrichtungen, subjektiv empfundenen Sanierungsbedarf, etc. liefern. Ein bekann-
tes Beispiel stellt die Untersuchung von Jahoda, Lazarsfeld und Zeisel im Jahr 1933
über die Arbeitslosen von Marienthal dar, die neben zahlreichen anderen Erhe-
bungsmethoden auch Umfragemethoden einsetzte (vgl. Jahoda, Lazarsfeld & Zei-
sel, 1975).

Umfragen in Querschnittsstudien
In der Regel werden Umfragen im Rahmen von Querschnittsstudien (engl.: cross-sec-
tional studies) durchgeführt. Erhoben werden bei Querschnittsuntersuchungen
die Merkmalsausprägungen eines oder mehrerer Merkmale (Variablen) bei einer
großen Stichprobe von Individuen zu einem bestimmten Zeitpunkt bzw. einer be-
stimmten Gelegenheit (engl.: occasion). In der Regel handelt es sich bei den Zeit-
punkten um durch die Dauer der Erhebung (auch: Feldzeit) definierte Zeiträume.

Umfragen in Längsschnittstudien
Umfragedaten werden aber auch in verschiedenen Formen von Längsschnittstudi-
en erhoben. Zu den Längsschnittstudien werden Trendstudien, Panelstudien, Zeit-
reihenstudien und Studien, welche Ereignisse erheben, gezählt.
Trendstudien bestehen in zu mehreren Gelegenheiten erhobenen Querschnit-
ten; d.h.: mehrere Variablen werden zu mehreren Zeitpunkten erhoben, wobei die
Stichprobe der zu untersuchenden Einheiten von Zeitpunkt zu Zeitpunkt variiert.
Zu jedem Zeitpunkt wird also eine mit dem gleichen Auswahlverfahren ausgewähl-
te unterschiedliche Stichprobe von Personen gezogen und bezüglich der gleichen
Merkmale untersucht. Die Analyse von Trenddaten ermöglicht die Darstellung
statistischer Kennwerte bzw. Parameterschätzungen im Zeitverlauf, jedoch keine
Analyse und Messung individueller Veränderungen.
Bei einer Panelstudie wird dieselbe Menge von Untersuchungseinheiten über
mehrere Gelegenheiten (Wellen; engl.: waves) hinweg bezüglich einer Menge von
Merkmalen untersucht, wobei die Menge der Messzeitpunkte relativ klein ist. Zu-
mindest eine Teilmenge der Merkmale, manchmal sogar alle Variablen, ist über die
Messzeitpunkte hinweg identisch. Der Vorteil von Panelstudien besteht darin, dass
sie Aussagen über Art, Richtung und Ausmaß von Veränderungen gestatten. Neh-
I.8 Umfragen im Rahmen spezieller Forschungsdesigns 49

men wir als fiktives Beispiel z.B. an, wir hätten zu zwei verschiedenen Zeitpunkten
t1 und t2 die gleichen 100 Personen befragt, ob sie gegenwärtig erwerbslos sind
oder nicht und die Ergebnisse in der in Abbildung I.11 dargestellten Übergangsta-
belle (engl.: turnover bzw. crossover-Tabelle) zusammengefasst.

  erwerbslos t2 nicht erwerbslos t2 Summe t1

erwerbslos t1 0 50 50

nicht erwerbslos t1 50 0 50

Summe t2 50 50 100

Abbildung I.11: Übergangstabelle

Wie man erkennt, würde man im Fall einer Trendstudie zu beiden Zeitpunkten
keine Veränderung feststellen können, obwohl sich eine enorme Dynamik entfaltet
hat: Alle zum Zeitpunkt t1 Erwerbslosen gehen zum Zeitpunkt t2 einer Erwerbstä-
tigkeit nach und umgekehrt. Solche Veränderungen, auch wenn sie nicht so radikal
sind wie im dargestellten Beispiel, lassen sich nur im Rahmen von Panelstudien
beschreiben und analysieren.
Die Ziele von Panelstudien lassen sich wie folgt zusammenfassen:

• Beschreibung, Erklärung und Prognosen von Veränderungen bzw. Verände-


rungsprozessen in Wirtschaft und Gesellschaft;
• Sammlung von Erkenntnissen über gesellschaftliche Veränderungen und Ent-
wicklungen, die gegebenenfalls auch als Planungsunterlagen für Entscheidun-
gen in bestimmten gesellschaftlichen Bereichen verwendet werden können, z.B.
Untersuchungen der Einkommensdynamik.
• Untersuchungen bestimmter theoretischer und methodischer Fragestellungen
wie z.B. Bestimmung der Reliabilität (z.B. Test-Retest-Reliabilität) und Stabili-
tät von Messinstrumenten [Trennung von Instabilität der Messung, Instabilität
der untersuchten Merkmale und Instabilität der exogenen Einflüsse (vgl. Hei-
se, 1969; Wiley &Wiley, 1970); vgl. auch die Beiträge in Bohrnstedt, Mohler
50 I.8 Umfragen im Rahmen spezieller Forschungsdesigns

& Müller, 1987], Schätzungen item-spezifischer Einflüsse (vgl. Raffalovich &


Bohrnstedt, 1987).

Spezialfälle von Paneldesigns sind:

• Test-Retest-Studie: Anzahl der Wellen = 2;


• Univariate Panelstudie: Anzahl der gemessenen Variablen = 1;
• Multivariate Panelstudie: Anzahl der gemessenen Variablen > 1;
• Follow-Back-Panelstudie (auch: retrospektives Panel): Zu einem bestimmten
Zeitpunkt wird eine Stichprobe gezogen, als Daten für die früheren Messzeit-
punkte werden Archivdaten oder Erinnerungsdaten verwendet;
• Catch-up-Panelstudie: Aus einem Archiv wird zu irgendeinem Zeitpunkt in der
Vergangenheit eine Stichprobe gezogen. Dann legt man die Analyseeinheiten
für die Gegenwart fest.

Ein Follow-Back-Panel kann auch im Rahmen von Umfragen realisiert werden,


indem Befragte nach ihrer Vergangenheit befragt werden (Problematik: Erinne-
rungsverzerrungen). In einigen Panelstudien wird nur eine Teilmenge der Variab-
len konstant gehalten, die durch variierende Mengen von Variablen ergänzt werden.
Weitere Varianten von Panelstudien bieten sich zur Kontrolle von Gewöh-
nungs- und Erinnerungseffekten an. Dazu gehören das alternierende Panel, bei dem
die gesamte Stichprobe in Subgruppen zerlegt wird, die abwechselnd in den Panel-
wellen befragt werden, und das rotierende Panel, bei dem nicht alle Befragten über
alle Wellen hinweg im Panel. Die Stichprobe wird in Gruppen zerlegt. Zu jedem
Erhebungszeitpunkt wird eine andere Gruppe der Ausgangsstichprobe durch eine
neu erhobene Gruppe ersetzt.
Bekannte Probleme von Panelstudien sind Veränderungen der Teilnehmer
durch die Teilnahme am Panel (Paneleffekt) und die Ausfallrate bzw. Panelmortali-
tät. Die Panelbereitschaft der Untersuchungseinheiten muss durch eine kontinuier-
liche Panelpflege aufrechterhalten werden.
Die Analyse von Paneldaten erfordert die Anwendung spezifischer statistischer
Modelle (vgl. Andreß, Golsch & Schmidt, 2013; Engel & Reinecke, 1994; Faulbaum,
1987a; Hsiao, 2003; Plewis, 1985; für eine Demonstration verschiedener Metho-
den an einer konkreten Umfrage vgl. die Beiträge in Bohrnstedt, Mohler & Müller,
1987). Da sich Paneldaten auch als Mehrebenen-Daten (siehe unten) auffassen las-
sen, können auch Verfahren der Mehrebenen-Analyse Anwendung finden.
Paneldaten eröffnen zusätzliche Möglichkeiten zur Untersuchung bestimm-
ter methodischer Effekte und zu einer detaillierten Betrachtung der Panelausfäl-
le. Ein Beispiel für die erweiterten methodischen Möglichkeiten ist die Schätzung
I.8 Umfragen im Rahmen spezieller Forschungsdesigns 51

item-spezifischer Effekte, d.h. der Effekte von spezifischen Merkmalen einzelner


Items auf die beobachteten Variablen. Ein Beispiel ist in Abbildung I.12 zu sehen
(vgl. Jagodzinski, Kühnel & Schmidt, 1987, S. 266). Dort ist ein Panelmodell mit
drei Wellen abgebildet, in dem für jedes Item ein item-spezifischer Faktor einge-
führt wird, der jeweils alle drei Wiederholungsmessungen des gleichen Items be-
einflusst. Das Modell bezieht sich auf die in ALLBUS-Umfragen wiederholt erho-
benen sog. Ausländeritems:
• In Deutschland lebende Ausländer sollten ihren Lebensstil ein bisschen besser
an den der Deutschen anpassen (Variable ANPASS).
• Wenn Arbeitsplätze knapp werden, sollte man die in Deutschland lebenden
Ausländer in ihre Heimat zurückschicken (Variable REMIG).
• Man sollte in Deutschland lebenden Ausländern jede politische Bestätigung in
Deutschland untersagen (Variable NOPOL).
• In Deutschland lebende Ausländer sollten ihre Ehepartner unter ihren Lands-
leuten auswählen (Variable UNTSICH).
Die Items wurden auf einer 7er oder 5er Zustimmungsskala beurteilt (1: stimme
überhaupt nicht zu bis 7 (5): stimme voll und ganz zu) beurteilt. Sie bilden vier
Indikatoren einer latenten Konstruktvariablen „Einstellung zu Ausländer“, die zu
drei Messzeitpunkten wiederholt gemessen wird. Die Wiederholungsmessungen
der latenten Variablen sind mit Einst1-Einst3 bezeichnet.
Weiterhin erlauben Panelstudien eine genauere Darstellung der Eigenschaften
von Panelteilnehmern, die in einer oder mehreren nachfolgenden Wellen ausge-
schieden sind. Dabei lassen sich im Rahmen sog. multipler Gruppenvergleiche
Kausalstrukturen der Teilnehmer mit denen der Nichtteilnehmer vergleichen (vgl.
z.B. Faulbaum, 1987b). Schließlich lassen sich auch mit „Propensity“-Modellen die
Teilnahme oder Nichtteilnahme an einer Welle auf der Basis von Eigenschaften
vorhersagen, die in einer oder mehreren vorangegangenen Wellen teilgenommen
haben.
Im Unterschied zu Trend- und Panelstudien werden in Zeitreihenstudien (vgl.
Lüttgepohl, 2007; Schlittgen & Streitberg, 2001; Shumway & Stoffer, 2011; Thome,
2005) eine oder nur sehr wenige Untersuchungseinheiten bezüglich bestimmter
Variablen zu sehr vielen Messzeitpunkten (Anzahl der Messzeitpunkte > 50) beob-
achtet bzw. gemessen. Auch hier können Umfragedaten eine wichtige Rolle spielen,
indem z.B. Statistiken einer im Rahmen von Umfragen erhobenen Variablen einer
Untersuchungseinheit wie der Bundesrepublik Deutschland über eine große An-
zahl von Zeitpunkten dargestellt werden. In der Ökonometrie stellt die Analyse
solcher Zeitreihen ein wichtiges Thema dar. Im Übrigen werden bei einer ausei-
52 I.8 Umfragen im Rahmen spezieller Forschungsdesigns

chend großen Anzahl von Messzeitpunkten auch in der Panelanalyse Methoden


der Zeitreihenanalyse anwendbar.

Abbildung I.12: Panelmodell mit item-spezifischen Faktoren

Außer Trenddaten, Paneldaten und Zeitreihendaten gibt es eine weitere Art zeitab-
hängiger Daten, die als Ereignisdaten (vgl. Aalen, Borgan & Gjessing, 2008; Bloss-
I.8 Umfragen im Rahmen spezieller Forschungsdesigns 53

feld, Hamerle & Mayer, 1988; Blossfeld & Rohwer, 2001; Yamaguchi, 1999) bezeich-
net werden. Ereignisdaten sind Daten über Lebensereignisse, ihren Wechsel und
ihre Dauer (z.B. Untersuchung der Zeit bis zum ersten Eintritt in den Beruf, Ehe-
zeiten, etc.), die im Rahmen der Ereignisanalyse (engl.: event history analysis; Analy-
se von Verweildauern, Wartezeiten, etc.) statistisch analysiert werden. Ereignisdaten
lassen sich auch im Rahmen von Querschnittsuntersuchungen erheben. Beispie-
le für Umfragen, in denen u.a. auch solche Daten erhoben werden oder wurden,
sind das Soziökonomische Panel des Deutschen Instituts für Wirtschaftsforschung
(DIW) in Berlin oder die Lebenslaufstudie des Max-Planck-Instituts für Bildungs-
forschung in Berlin. Auch Zeitbudgetstudien erheben solche Daten. Ihre Erhebung
erfordert oft den Einsatz spezifischer Erhebungsinstrumente wie z.B. Kalendarien.

Umfragen in Netzwerkstudien
Umfragen erlauben auch die Erhebung sozialer, egozentrierter Netzwerke (vgl.;
Bien & Marbach, 2008; Burt, 1984; McCallister & Fisher, 1978), wobei die Erhe-
bung von Netzwerken auch über das Web erfolgen kann (vgl. z.B. Manfreda, Veho-
var & Hlebec, 2004).

Umfragen in vergleichenden Untersuchungen


Umfragen spielen eine wichtige Rolle in vergleichenden Studien, etwa in Regional-
vergleichen, wobei oft bestimmte Merkmale und Teilpopulationen im Mittelpunkt
der Untersuchung stehen (vgl. z.B. Nauck & Bertram, 2005 in Bezug auf die Le-
bensverhältnisse von Kindern, Bundesministerium für Familie, Senioren, Frauen
und Jugend, 2012 in Bezug auf Familien) oder in Städtevergleichen, z.B. in Bezug
auf die Attraktivität als touristisches Ziel. Im Rahmen der Erhebung objektiver und
subjektiver sozialer Indikatoren wie Einkommen, Bevölkerungsstruktur, Lebens-
zufriedenheit, etc. werden Daten für regionale und internationale Vergleiche von
Staat und Gesellschaft bereitgestellt. Die Vergleiche erfolgen dabei in der Regel eher
rein deskriptiv mit graphischer Unterstützung (vgl. z.B. die Datenreports, heraus-
gegeben vom Statistischen Bundesamt und dem Wissenschaftszentrum Berlin und
in Zusammenarbeit mit dem Sozioökonomischen Panel). Das European System
of Social Indicators dient dem systematischen Monitoring der sozialstrukturellen
Veränderungen in Europa und enthält mehr als 600 Indikatoren in 13 Lebensbe-
reichen für den innereuropäischen Vergleich. Es erlaubt außerdem den Vergleich
mit außereuropäischen Referenzgesellschaften und kann über das System SIMon
(Social Indicators Monitor) von GESIS zusammen mit dem deutschen System sozi-
aler Indikatoren benutzt werden (vgl. http://www.gesis.org). Mit dem Ziel, zu einer
54 I.8 Umfragen im Rahmen spezieller Forschungsdesigns

Standardisierung der Regionalisierung von Umfragedaten mit Empfehlungen für


die Typisierung von Gebieten einschließlich der Georeferenzierung und für die
Nutzung von regionalen Hintergrundinformationen und geeigneten Datenquellen,
beizutragen, wurden vom Statistischen Bundesamt, dem Arbeitskreis Deutscher
Markt- und Sozialforschungsinstitut sowie der Arbeitsgemeinschaft Sozialwissen-
schaftlicher Institute die „Regionalen Standards“ herausgegeben (vgl. Arbeitsgrup-
pe Regionale Standards, 2013).
In international vergleichenden Studien, die oft auch als interkulturell ver-
gleichende Studien angelegt sind, werden Umfragen in mehreren Ländern paral-
lel durchgeführt (vgl. Harkness, Van de Vijver & Mohler, 2003; Harkness, 2008;
Harkness et al., 2010), was die Lösung einer Reihe spezifischer Probleme erfor-
dert. Dazu gehören die Harmonisierung und vergleichbare Konzeptualisierung von
Variablen wie z.B. Bildung (vgl. die Beiträge in Hoffmeyer-Zlotnik & Wolf, 2003;
Hoffmeyer-Zlotnik & Warner, 2013a, 2013b; Granda, Wolf & Hadorn, 2010), der
Entwurf semantisch äquivalenter Erhebungsinstrumente (vgl. z.B. Johnson, 2003)
oder die Ziehung internationaler Stichproben (vgl. Häder & Gabler, 2003; Häder
& Lynn, 2007; Heeringa & O’Muircheartaig, 2010). Da internationale Stichproben
sich dadurch auszeichnen können, dass einige der beteiligten Nationen unter-
schiedliche Stichprobendesigns verwenden, gilt es die daraus resultierenden Effekte
zu bestimmen und zu kontrollieren (vgl. Gabler, Häder & Lynn, 2006).
Interkulturelle Studien sind nicht auf internationale Studien beschränkt, da es
auch in einer einzelnen Nation kulturell unterschiedene Subgruppen geben kann.
Diese können allerdings nicht immer im Voraus an bekannten beobachteten Merk-
malen festgemacht werden und äußern sich daher in einer unbeobachteten He-
terogenität, die mit Hilfe von Klassifikationsverfahren und/oder Mischverteilungs-
modellen (engl.: mixture models; Arminger & Stein, 1997; McLachlan & Peel, 2000)
aufgedeckt werden kann.
In der vergleichenden statistischen Analyse können alle inferenzstatistischen
Verfahren des Vergleichs von einfachen und multivariaten Mittelwertvergleichen
bis zur univariaten und multivariaten Varianz- und Kovarianzanalyse sowie Me-
thoden des Vergleichs von Antwortfunktionen (vgl. Saris, 2003a) und multiplen
Gruppenvergleichen von Strukturgleichungsmodellen angewendet werden (vgl.
z.B. Billiet, 2003; Faulbaum, 1990). Die zuletzt genannten Vergleiche können ins-
besondere zum Vergleich der Eigenschaften von Messmodellen herangezogen
werden, wozu auch die theoretische Validität und die Reliabilität gehören. Unter-
stützt werden können diese Analysen durch spezifische Umfragedesigns wie Mul-
titrait-Multimethod-Designs (vgl. Saris, 2003b; Saris & Gallhofer, 2007). Besonde-
re Sorgfalt ist in interkulturell vergleichenden Umfragen auf die Übersetzung zu
legen, (vgl. z.B. Harkness, Pennell, Schoua-Glucksberg, 2004; Harkness, Villar &
I.8 Umfragen im Rahmen spezieller Forschungsdesigns 55

Edwards, 2010), weil die messtheoretische Vergleichbarkeit wie die interkulturelle


Äquivalenz von Messungen durch die Übersetzung beeinflusst werden kann (vgl.
Davidov & De Beuckelaer, 2010).

Umfragen in Kohortenstudien
Bei Kohortenstudien werden Individuen, bei denen zum annähernd gleichen Zeit-
punkt ein spezielles Lebensereignis eingetreten ist, untersucht. Ein Beispiel stellen
Geburtenkohorten dar. Kohorten wurden etwa in der oben erwähnten Lebenslauf-
studie erhoben. Kohortenstudien erlauben Intra- und Interkohortenvergleiche.
Durch spezifische Designs lassen sich Perioden- von Alters- und Periodeneffekte
trennen (vgl. z.B. Mayer & Huinink, 1990).

Umfragen in experimentellen Studien


Wie bereits oben erwähnt, stellt eine Umfrage selber kein experimentelles Design
dar, sondern ein „ex-post-facto“-Design dar (vgl. Campbell & Stanley, 1963). Erst
nachdem die Umfrage realisiert wurde, lassen sich in der statistischen Analyse
Unterschiede zwischen Subgruppen prüfen, die sich durch bestimmte Merkma-
le auszeichnen. Umfragen werden seit längerer Zeit aber auch in genuin experi-
mentellen Studiendesigns als Erhebungsverfahren eingesetzt (vgl. z.B. die Beiträge
in Keuschnigg & Wolbring, 2015). Beispiele sind der Einsatz von Umfragen bei
Choice-Experimenten, bei denen die Respondenten aufgefordert werden, sich zwi-
schen verschiedenen Handlungsalternativen zu entscheiden, wobei sich die Alter-
nativen durch verschiedene Attribute mit bestimmten Abstufungen unterscheiden
können. Dabei kommen unterschiedliche experimentelle Anordnungen zur An-
wendung. In sozialwissenschaftlichen Fragestellungen werden die experimentellen
Bedingungen oft in Form sog. Vignetten vorgegeben (vgl. Rossi, 1979). Vignetten
sind Aussagen, die auf einer Antwortdimension bewertet werden sollen und die
eine bestimmte Kombination von Treatment-Bedingungen zum Ausdruck brin-
gen. Umfragen im Rahmen solcher Designs werden auch als faktorielle Surveys
bezeichnet (Rossi & Anderson, 1982; Liebig, Sauer & Friedhoff, 2015).
Mit Hilfe experimenteller Designs lassen sich auch die Wirkungen von Merk-
malen untersuchen, die einen Einfluss auf verschiedene Aspekte der Umfragequa-
lität wie Befragten-Verhalten und Antwortqualität, wie die Teilnahmebereitschaft,
etc. haben. Ein bekanntes Beispiel ist die Anwendung von „split ballot“-Designs
bei Pretests (vgl. Fowler, 2001; Krosnick, 2011). Voraussetzung ist, dass sich die
Untersuchungseinheiten, z.B. Befragte, Interviewer, etc. nach Zufall auf die experi-
mentellen Bedingungen verteilen lassen. Zur Optimierung des Erhebungsdesigns
56 I.8 Umfragen im Rahmen spezieller Forschungsdesigns

und zur Kontrolle der Wirkungen der Kommunikationsform werden Befragte in


Umfragen gelegentlich nach Zufall verschiedenen Modes, z.B. Telefon oder Web,
zugeordnet (vgl. z.B. Fricker et al., 2005).

Umfragedaten in Simulationsstudien
Umfragedaten können die Datenbasis für Mikrosimulationen abgeben (vgl. z.B. Es-
ser 1991; Gilbert & Troitzsch, 2005; Heike & Sauerbier, 1997; Leim 2008; Sauerbier,
2002; Troitzsch & Möhring, 1988). Dabei werden Daten von Umfragen wie des So-
zioökonomischen Panels oder des Mikrozensus in ein formales Simulationsmodell
eingespeist, das dann auf dieser Basis zukünftige demographische Entwicklungen
berechnet.

Mikro-Makroinformationen in Umfragedaten: Mehrebenen-Analyse


Wird als Design der Stichprobenauswahl ein mehrstufiges Verfahren eingesetzt, in
dem zunächst eine Menge von Makro- oder Mesoeinheiten (z.B. Schulen, Gemein-
den, Haushalte, Betriebe, etc.) gezogen wird, aus denen dann wiederum eine Menge
von Mikroeinheiten (z.B. Schüler, Haushalte, Haushaltsmitglieder, Mitarbeiter, Nach-
barschaftskontexte, etc.) gezogen wird, werden in einer Umfrage Informationen über
Makroeinheiten erhoben oder werden Umfragedaten Informationen über Makroein-
heiten zugespielt, so können diese Daten mit Hilfe von Verfahren der Mehrebenen-
analyse analysiert werden (vgl. z.B. Engel, 1998; Hox, 2010; Snijders & Bosker, 2012).
In der Mehrebenenanalyse geht es um das Zusammenspiel der Zusammenhänge zwi-
schen den Merkmalen der Mikroeinheiten, zwischen den Merkmalen der Makroein-
heiten sowie zwischen den Merkmalen der Makroeinheiten und den Merkmalen der
Mikroeinheiten. Im einfachsten Fall einer Makroebene, bei der das einzige Merkmal
eine feste Gruppenzugehörigkeit ist, z.B. die Zugehörigkeit zu einer Partei, ergibt sich
nach der Dummy-Codierung der Gruppenzugehörigkeit das einfache Modell einer
Varianzanalyse mit parallel verschobenen Interzepten (Abschnitten auf der y-Achse
für x=0). Die Modelle werden sehr schnell komplexer, wenn man bei zufälliger Aus-
wahl der Makroeinheiten die Interzepte und die Regressionskoeffizienten zwischen
den Makroeinheiten zufällig variieren lässt und wenn außerdem im multivariaten Fall
mehr als eine abhängige Variable vorliegt. Interessante Anwendungen ergeben sich
für die Analyse der Effekte von Eigenschaften von Einheiten einer höheren Aggre-
gatstufe auf die Einheiten einer niedrigeren Aggregatstufe. Auch andere Designs, die
nicht explizit als Mehrebenen-Studien konzipiert wurden, lassen sich durch Mehre-
benen-Modelle beschreiben. Ein Beispiel sind Panelstudien (vgl. z.B. Singer & Willett,
2003). In diesem Fall werden die Aggregateinheiten (zweite Ebene) durch die Indivi-
I.9 Durchführung von Umfragen auf der Basis von Access-Panels 57

duen und die Einheiten der ersten Stufe durch die Messzeitpunkte definiert. Anwen-
dungen lassen sich auch in der Analyse von Interviewer-Einflüssen finden, wenn die
Interviewer als Einheiten der zweiten Ebene und die Messwerte als Einheiten erster
Stufe eingeführt werden. So untersuchten Pickery und Loosveldt (1999, 2001, 2004)
mit Hilfe der Mehrebenenanalyse verschiedene Interviewereffekte, wobei u.a. gezeigt
wird, wie mit diesem Verfahren Ausnahmeinterviewer identifiziert werden können.
Sinibaldi, Durrant und Kreuter (2013) führen als zweite Ebene Kreuzklassifikationen
von Regionen und Interviewern ein, um deren Auswirkungen auf die Korrektheit
von Interviewer-Beobachtungen als Paradaten zu prüfen. Weitere Beispiele für das
Studium von Interviewer-Effekten geben Campanelli und O’Muircheartaig (2002),
Hox, De Leeuw und Kreft (1991) und Hox (1994).

I.9 Durchführung von Umfragen auf der Basis von


Access-Panels

Bei einem Access-Panel handelt es nicht, wie der Name vermuten ließe, um eine Pa-
nelstudie im klassischen Sinn (siehe oben), sondern um einen Pool von Befragten,
die sich im Verlauf eines Rekrutierungsvorgangs bereit erklärt haben, an weiteren
Befragungen. teilzunehmen. Mit einem Access-Panel lassen sich unterschiedliche
Studiendesigns realisieren (vgl. Abbildung I.10). Ein Access-Panel

• gestattet die Beobachtung und Messung von Richtung und Ausmaß an Verän-
derungen (gilt auch für die klassische Panelstudie);
• bietet die Möglichkeit der gezielten Befragung von Substichproben, die sich
durch bestimmte Merkmale (z.B. soziodemografische Merkmale, wie eine be-
stimmte Geburtskohorte oder bestimmte Gesundheitsmerkmale) auszeichnen,
ohne dass diese Spezialstichproben neu rekrutiert werden müssen (Verkürzung
der Kontaktphase);
• erlaubt interventionsbezogene, evaluative Erhebungen, in denen der Erfolg von
Maßnahmen (z.B. amtliche Verordnungen) abgeschätzt werden kann, die große
Bevölkerungsteile betreffen;
• erlaubt flexible Forschungsdesigns, insbesondere auch für unterschiedliche Ar-
ten von Längsschnittdesigns;
• erlaubt kurzfristige Ad-hoc-Erhebungen, die sich auf kurzfristig relevant ge-
wordene Inhalte beziehen;
• spart Rekrutierungskosten bei Folgebefragungen;
58 I.9 Durchführung von Umfragen auf der Basis von Access-Panels

• erlaubt die Abkürzung der Kontaktphase bei Folgebefragungen.

Im Unterschied zu einer klassischen Panelstudie müssen Befragungen von Teil-


nehmern eines Access-Panels also nicht notwendig in bestimmten Zeitinterva-
llen (Wellen) erfolgen. Vielmehr ergibt sich die Möglichkeit, ad-hoc-Befragun-
gen bestimmter Teilgruppen des Access-Panels (z.B. bestimmter Altersgruppen)
herauszugreifen und zu ausgewählten Themen zu befragen. Access-Panels lassen
sich grundsätzlich in allen Kommunikationsformen und ihren Mischungen („Mi-
xed-Mode“-Befragungen) durchführen, wobei innovative Erhebungsmethoden
zum Einsatz kommen können (vgl. Scherpenzeel, 2016).

Abbildung 1.13: Realisierbare Untersuchungsformen bei Access-Panels

Da im Fall eines Access-Panels nicht immer alle Teilnehmer in eine Befragung


eingebunden werden müssen, ergibt sich die Möglichkeit einer gezielten Kontrol-
le von Paneleffekten. Qualitätsanforderungen an Access-Panels sind in der inter-
nationalen ISO-Norm 26362 verbindlich gemacht worden (vgl. Österreichisches
Normungsinstitut, 2010). Um die Qualität eines Access-Panels zu sichern, muss
I.9 Durchführung von Umfragen auf der Basis von Access-Panels 59

ein erheblicher Aufwand für Panelverwaltung (Panelmanagement) und Panelpflege


betrieben werden.
Panelverwaltung und Panelpflege können eine ganze Reihe qualitätssichernder
Maßnahmen beinhalten. Dazu gehören:
• Die Kontaktpflege (z.B. Beantwortung von Rückfragen der Teilnehmer) und
das Updating von Teilnehmerinformationen (Updating von Adressänderun-
gen, etc.). Dies kann z.B. dadurch geschehen, dass jeder Teilnehmer mindestens
1 x pro Jahr, z.B. im Rahmen der geplanten Umfragen kontaktiert wird;
• Dokumentation der Teilnahmegeschichte aller Panelteilnehmer, um einen Über-
blick darüber zu behalten, wer wann befragt wurde, um auf diesem Weg auch
Paneleffekte zu kontrollieren;
• Die kontinuierliche Kontrolle der statistischen Eigenschaften des Panels (Ab-
gleich der Verteilung der demografischen Merkmale mit der amtlichen Statistik
und mit anderen vergleichbaren Datensätzen), da die Panelmitglieder kontinu-
ierlichen Veränderungen in den soziodemographischen Variablen unterworfen
sind, die nicht notwendig die Dynamik in der Population widerspiegeln;
• Vergleich der Panelstichprobe mit einer Kontrollgruppe ca. 1 x pro Jahr, um
Paneleffekte abschätzen und kontrollieren zu können;
• Statistische Analysen der Teilstichprobe von Personen, die innerhalb eines Jah-
res nicht kontaktierbar waren und daher als Panelteilnehmer ausscheiden.
Innerhalb von 12 Monaten nach Etablierung des Panels sollte jeder Teilnehmer ein-
mal für eine Umfrage kontaktiert worden sein. Informationen, die bei Einzelum-
fragen über die Teilnahmebereitschaft und die Kontaktphase gesammelt werden,
werden in die Panelkontaktdatenbank aufgenommen werden, in der die Teilnahme-
geschichte dokumentiert wird. Personen, die in mehr als fünf Umfragen nicht kon-
taktierbar waren, sollten als Ausfälle gewertet und aus dem Panel ausgeschlossen
werden. Inzwischen gibt es Softwareprodukte auf dem Markt, die die Rekrutierung
und Verwaltung von Online-Access-Panels übernehmen.
Bezogen auf die Kommunikationsform kann ein Access-Panel sowohl ein Off-
line-Panel (z.B. telefonisches Panel) oder ein Online-Panel sein. Will man eine
Einteilung nach der Administrationsform vornehmen, so könnte man zwischen
Interviewer-administrierten und Selbst-administrierten Access-Panels unterschei-
den. Auch Mischformen sind denkbar (vgl. Engel et al., 2013) in Bezug auf ein
gemischtes Panel mit einem Telefonzweig und einem Onlinezweig).
Sind Schätzungen von Parametern einer Zielpopulation beabsichtigt, muss die
Rekrutierung von Teilnehmern für Online-Access-Panels auf der Basis einer wohl
definierten Auswahlgrundlage und nach dem Prinzip der Zufallsauswahl erfolgen
was in der Regel eine Offline-Rekrutierung erfordert. Oft werden insbesondere in
60 I.9 Durchführung von Umfragen auf der Basis von Access-Panels

der Marktforschung Teilnehmer über einen längeren Zeitraum im Zusammenhang


mit in diesem Zeitraum stattfindenden Umfragen rekrutiert. Obgleich die Rekru-
tierung zufällig erfolgt, erlaubt dieses Verfahren keine Feststellung mehr, aus wel-
cher Grundgesamtheit die Teilnehmer für das Access-Panel eigentlich rekrutiert
wurden. Die über ein Access-Panel rekrutierten Teilnehmer werden für bestimmte
inhaltliche Themenstellungen gezielt nach Merkmalen ausgewählt und für die Teil-
nahme honoriert (z.B. durch Bonuspunkte). Methodisch besonders problematisch
sind Teilnehmerrekrutierungen für Access-Panels via Website, da die Auswahl-
grundlage in diesem Fall unbekannt ist. In diesem Fall ist mit Effekten der Selbst-
selektion zu rechnen, die mit Hilfe nicht ganz unproblematischer Gewichtungs-
verfahren etwa durch Einbeziehung von Referenzsurveys (vgl. Teil VI)korrigiert
werden müssen. Die angesprochenen Probleme sind überwiegend theoretischer
Natur. Deren praktische Auswirkungen können aber für bestimmte Fragestellun-
gen möglicherweise in Kauf genommen werden.
Die Offline-Rekrutierung von Teilnehmern für ein Online-Access-Panel er-
folgt in der Regel mehrstufig (Frage nach Teilnahmebereitschaft, Frage ob On-
line-Zugang, Frage nach E-Mail-Adresse, Verifizierung der E-Mail-Adresse,
Einladungsmail). Auf jeder Stufe kann es Ausfälle geben. In wissenschaftlichen
Anwendungen kann die Rekrutierung von Teilnehmern in zwei Phasen zerlegt
werden, in eine Rekrutierungsphase, in der die Teilnehmer rekrutiert werden
und in eine Initialisierungsphase, in welcher von den rekrutierten Teilnehmern
zusätzliche Informationen erhoben werden. Zur Abschätzung der Panelqualität
ist eine statistische Analyse des Rekrutierungsverlaufs sowie der nachfolgen-
den Nutzungsphasen erforderlich. Ein akribisches Beispiel für solche Analysen
liefern Engel et al. (2013). Ein methodisch anspruchsvolles, hervorragend do-
kumentiertes Panel ist das LISS (Longitudinal Internet Studies for the Social
Sciences) –Panel des MESS (Advanced Multi-Disciplinary Facility for Measu-
rement and Experimentation in the Social Sciences), einer an der Universität
Tilburg angesiedelten Forschungsinfrastruktur (vgl. z.B. Das, 2012). Für Zwe-
cke der akademischen Sozialforschung steht das von GESIS betreute gemischte
GESIS-Panel, deren Teilnehmer online oder schriftlich befragt werden können
(Website: http://www.gesis.org/unser-angebot/daten-erheben/gesis-panel/). Weitere
Access Panels für die Forschung sind das German Internet Panel (GIP) des Sonder-
forschungsbereichs 884 „Politische Ökonomie von Reformen“ an der Universität
Mannheim (Website: http://reforms.uni-mannheim.de/english/internet_panel/home/)
und das französische Panel ELIPSS des L’Institut National d’Études Démogra-
phiques (INED) und des Centre National de la Recherche Scientifique (CNRS
(Website: http://www.elipss.fr/elipss/recruitment/)).
I.10 Beispiele für Umfragen 61

Die Entscheidung für den Aufbau eines Access-Panels ist strenggenommen ei-
gentlich keine Frage des Forschungsdesigns, sondern betrifft eher eine praktische
Form der zielorientierten Rekrutierung von Stichproben und hätte daher auch in
Teil V vorgestellt werden können. Für die Einbeziehung an dieser Stelle spricht,
dass ein Access Panels die Grundlage für die Realisierung unterschiedlicher For-
schungsdesigns sein kann. Stichprobentheoretisch wird mit der Auswahl von Stich-
proben für Umfragen aus einem Access-Panel ein Zweiphasendesign realisiert.

I.10 Beispiele für Umfragen

I.10.1 Nationale Umfragen (Auswahl)

Wichtige Beispiele für Bevölkerungsumfragen sind:

Allgemeine Bevölkerungsumfragen der Sozialwissenschaften (ALLBUS)


Bei den allgemeinen Bevölkerungsumfragen der Sozialwissenschaften handelt es
sich um Bevölkerungsumfragen, die seit 1980 alle zwei Jahre als Serviceleistung
für die sozialwissenschaftliche Forschung und Lehre an einem repräsentativen
Querschnitt der Bevölkerung durchgeführt werden. Sie werden von einem am
Leibniz-Institut für Sozialwissenschaften angesiedelten Forschungsdatenzentrum
„ALLBUS“ betreut. Die Daten werden interessierten Forschern und Instituten nach
Aufbereitung und Dokumentation zur Verfügung gestellt. Die einzelnen Quer-
schnitte haben unterschiedliche inhaltliche Schwerpunkte. Außerdem enthalten
sie Replikationen von Fragen, um auf diese Weise Trendanalyse zu ermöglichen.
Weitere Informationen sind über die folgende Website zu erhalten:
Website:
http://www.gesis.org/dienstleistungen/daten/umfragedaten/allbus/

Das Sozioökonomische Panel (SOEP) des Deutschen Instituts für Wirt-


schaftsforschung (DIW)
Das Sozioökonomische Panel ist eine Wiederholungsbefragung (Längsschnittde-
sign), die seit 1984 durch das SOEP-Forschungsdatenzentrum jährlich durchge-
führt wird und auf diese Weise nicht nur Trendanalysen, sondern auch Analysen
individueller Veränderungen erlaubt. Sie ermöglicht über die Befragung aller
62 I.10 Beispiele für Umfragen

Haushaltmitglieder eine Einbeziehung des Haushaltkontexts. Über die Einbezie-


hung kleinräumiger regionaler Indikatoren werden auch Analysen unter Einbe-
ziehung des regionalen Kontexts möglich. Schließlich enthält das SOEP auch eine
Ausländerstichprobe (Haushalte mit türkischen, jugoslawischen, spanischen, italie-
nischen und griechischen Haushaltsvorständen) sowie eine Zuwandererstichprobe.
Mit Hilfe des SOEP können eine Vielzahl sozial- und wirtschaftswissenschaftlicher
und verhaltenswissenschaftlicher Theorien getestet werden. Der Datensatz gibt
Auskunft über objektive Lebensbedingungen, Wertvorstellungen, Persönlichkeits-
eigenschaften, den Wandel in verschiedenen Lebensbereichen und über die Ab-
hängigkeiten, die zwischen Lebensbereichen und deren Veränderungen existieren.
Anregungen der Nutzerinnen und Nutzer für theoriegeleitete Verbesserungen der
Erhebung werden regelmäßig aufgegriffen. Weitere Informationen sind über die
folgende Website zu erhalten:
Website:
http://www.diw.de/de/diw_02.c.221178.de/ueber_uns.html

Mikrozensus
Der Mikrozensus wird vom Statistischen Bundesamt der Bundesrepublik orga-
nisatorisch und technisch betreut. Die Erhebung erfolgt durch die Statistischen
Landesämter. Der Mikrozensus erhebt seit 1957, in den neuen Bundesländern seit
1991, Daten zur Bevölkerungsstruktur, die wirtschaftliche und soziale Lage der Be-
völkerung, der Familien, Lebensgemeinschaften und Haushalte, die Erwerbstätig-
keit, Arbeitsuche, Aus- und Weiterbildung, Wohnverhältnisse und Gesundheit. Für
eine Reihe kleinerer Erhebungen der empirischen Sozial- und Meinungsforschung
sowie der amtlichen Statistik dient der Mikrozensus als Hochrechnungs-, Adjus-
tierungs- und Kontrollinstrument. Ein wichtiges Instrument für europäische und
nationale Nutzer ist daneben die in den Mikrozensus integrierte Arbeitskräftestich-
probe, die in allen EU-Mitgliedsstaaten harmonisiert ist und Vergleiche zu Fragen
der Erwerbsbeteiligung und Erwerbslosigkeit ermöglicht. Die meisten Merkmale
der Arbeitskräfteerhebung sind zugleich Merkmale des Mikrozensus. Der Mikro-
zensus beinhaltet eine Zufallsstichprobe von 1% der Bevölkerung, bei der jeder
Haushalt die gleiche Wahrscheinlichkeit besitzt, in die Stichprobe zu kommen. Die
Durchführung des Mikrozensus wird auf der Grundlage spezieller gesetzlicher Be-
stimmungen durchgeführt. Für die ausgewählten Teilnehmer besteht Auskunfts-
pflicht.
I.10 Beispiele für Umfragen 63

Website:
http://www.destatis.de/jetspeed/portal/cms/Sites/destatis/Internet/DE/Presse/
abisz/Mikrozensus,templateId=renderPrint.psml

Nationales Bildungspanel (NEPS: National Educational Panel Study


NEPS)
Das nationale Bildungspanel erhebt Daten zu zentralen Bildungsprozessen und
-verläufen über die gesamte Lebensspanne. Die Ziele dieser Studie beziehen sich
auf Fragen, wie sich Kompetenzen im Lebenslauf entfalten, wie Kompetenzen Ent-
scheidungsprozesse an verschiedenen kritischen Übergängen der Bildungskarrie-
re beeinflussen (und umgekehrt), wie und in welchem Umfang Kompetenzen von
Lerngelegenheiten in der Familie, der Gruppe Gleichaltriger und der Gestaltung
von Lehr- und Lernprozessen in Kindergarten, Schule, Hochschule und Berufsaus-
bildung sowie Weiterbildung beeinflusst werden. Zudem soll geklärt werden, wel-
che Kompetenzen für das Erreichen von Bildungsabschlüssen, welche für lebens-
langes Lernen und welche für ein erfolgreiches individuelles und gesellschaftliches
Leben maßgeblich sind. Dazu ist es notwendig, dass Kompetenzentwicklungen
nicht nur im Kindergarten oder im allgemeinbildenden Schulsystem, sondern auch
in der beruflichen Ausbildung, im Studium und nach Verlassen des Bildungssys-
tems gemessen werden. NEPS wird vom Bundesministerium für Wissenschaft und
Forschung unterstützt und von einem Leitungsteam an der Otto-Friedrich-Univer-
sität Bamberg koordiniert und geleitet.
Website:
http://www.uni-bamberg.de/neps/

pairfam – Das Beziehungs- und Familienpanel


Das Beziehungs- und Familienpanel pairfam (Panel Analysis of Intimate Relati-
onships and Family Dynamics) ist eine repräsentative, interdisziplinäre Längs-
schnittstudie zur Erforschung partnerschaftlicher und familialer Lebensformen
in der Bundesrepublik Deutschland. Erhoben werden Informationen zu Partner-
schaft, Elternschafts-Entscheidungen, intergenerationale Beziehungen, Erziehung
und kindliche Entwicklung sowie soziale Einbettung. Das auf 14 Jahre angelegte
Projekt wird von der Technischen Universität Chemnitz, der Universität Bremen,
der Ludwig-Maximilians-Universität München sowie der Universität Mannheim
koordiniert. Die Wiederholungen der Befragungen finden in jährlichem Abstand
statt. Die erste Befragung erfolgte 2008/2009.
64 I.10 Beispiele für Umfragen

Website:
http://www.pairfam.uni-bremen.de/

Einkommens- und Verbrauchsstichprobe (EVS)


Die Einkommens- und Verbrauchsstichprobe erhebt Daten zur Ausstattung von
privaten Haushalten mit Gebrauchsgütern, die Einkommens-, Vermögens- und
Schuldensituation sowie die Konsumausgaben. Die Einkommens- und Verbrauchs-
stichprobe wird auf gesetzlicher Grundlage vom Statistischen Bundesamt und den
Statistischen Landesämtern erhoben. Die organisatorische und technische Vorbe-
reitung sowie Datenaufbereitung und Ergebnisvermittlung liegen beim Statisti-
schen Bundesamt. Rekrutierung der Haushalte und Durchführung der Erhebung
liegen dagegen bei den Statistischen Landesämtern. Eine gesetzliche Verpflichtung
zur Teilnahme besteht nicht, das heißt alle Haushalte nehmen auf freiwilliger Basis
an der EVS teil. Im fünfjährigen Turnus werden rund 60.000 private Haushalte in
Deutschland im Rahmen der EVS befragt, darunter fast 13.000 Haushalte in den
neuen Ländern und Berlin-Ost. Die EVS ist damit die größte Erhebung dieser Art
innerhalb der Europäischen Union. Im früheren Bundesgebiet findet die EVS seit
1962/63 statt, in den neuen Ländern und Berlin-Ost seit 1993.
Website:
http://www.destatis.de/jetspeed/portal/cms/Sites/destatis/Internet/DE/Presse/
abisz/Einkommens__Verbrauchsstichprobe,templateId=renderPrint.psml

IAB-Betriebspanel
Das Betriebspanel des Instituts für Arbeitsmarkt- und Berufsforschung befragt jähr-
lich im Zeitraum von Juni bis Oktober eine Zufallsstichprobe aus der Betriebsdatei
der Bundesagentur für Arbeit ca. 16.000 Betriebe aller Wirtschaftszweige und Grö-
ßenklassen zu betrieblichen Merkmalen wie Bestimmungsgrößen der Beschäfti-
gungsentwicklung (Produktion, Umsatz, Arbeitszeiten, Investitionen, Auslastung),
Personalnachfrage und Beschäftigungserwartungen (Vakanzen, offene Stellen, Fluk-
tuation, betriebliche Beschäftigungspolitik), Stand und Entwicklung der Technik und
Organisation sowie deren Auswirkungen auf Arbeitsplätze, Einflussgrößen auf die
Produktivität, z.B. technische, organisatorische und betriebswirtschaftliche Faktoren,
Daten zur Biografie von Betrieben, Inanspruchnahme von Fördermaßnahmen, Akti-
vitäten in der Aus- und Weiterbildung.
Website:
http://www.iab.de/de/erhebungen/iab-betriebspanel.aspx/
I.10 Beispiele für Umfragen 65

Panel Arbeitsmarkt und Soziale Sicherheit (PASS)


Das vom IAB durchgeführte Panel Arbeitsmarkt und soziale Sicherung stellt eine
Datengrundlage bereit, mit deren Hilfe die Dynamik des Grundsicherungsbezugs
und die soziale Lage von Haushalten im Grundsicherungsbezug untersucht werden
können. Es handelt sich um eine bundesweit durchgeführte, jährliche Wiederho-
lungsbefragung. Sie umfasst insgesamt ca. 12.000 Haushalte, die zum Teil telefo-
nisch und zum Teil persönlich befragt werden. Das Panel wird vom Institut für
Arbeitsmarkt- und Berufsforschung betreut.
Website:
https://www.iab.de/de/befragungen/iab-haushaltspanel-pass.aspx

Deutscher Alterssurvey
Der Deutsche Alterssurvey (DEAS) ist eine bundesweit repräsentative Quer- und
Längsschnittbefragung von Personen, die sich in der zweiten Lebenshälfte befinden
(d.h. 40 Jahre und älter sind). Der DEAS wird aus Mitteln des Bundesministeriums
für Familie, Senioren, Frauen und Jugend (BMFSFJ) gefördert. Die umfassende
Untersuchung von Personen im mittleren und höheren Erwachsenenalter dient
dazu, Mikrodaten bereitzustellen, die sowohl für die sozial- und verhaltenswissen-
schaftliche Forschung als auch für die Sozialberichterstattung genutzt werden. Die
erste Welle wurde im Jahr 1996 durchgeführt, die zweite Welle im Jahr 2002. Die
dritte Welle fand im Jahr 2008 statt. Erneut wurden Personen umfassend zu ihrer
Lebenssituation befragt, unter anderem zu ihrem beruflichen Status oder ihrem
Leben im Ruhestand, zu gesellschaftlicher Partizipation und nachberuflichen Ak-
tivitäten, zu wirtschaftlicher Lage und Wohnsituation, zu familiären und sonstigen
sozialen Kontakten sowie zu Gesundheit, Wohlbefinden und Lebenszielen. Der
DEAS wird vom Deutschen Zentrum für Altersfragen in Berlin betreut.
Website:
http://www.dza.de/nn_11404/DE/Forschung/Alterssurvey/alterssurvey__
node.html?__nnn=true

Politbarometer
Das Politbarometer ermittelt in repräsentativen Umfragen seit 1977 regelmä-
ßig Einstellungen zu Parteien, zur politischen Agenda und zu Spitzenpolitikern.
Gleichzeitig werden Meinungen zu aktuellen politischen und gesellschaftlichen
Themen erfragt und in leicht verständlicher Form in der ZDF-Sendereihe Polit-
66 I.10 Beispiele für Umfragen

barometer präsentiert. Die Umfrage wird von der Forschungsgruppe Wahlen in


Mannheim für das Zweite Deutsche Fernsehen (ZDF) durchgeführt.
Website:
http://www.forschungsgruppewahlen.de/Umfragen_und_Publikationen/Politba-
rometer/

Gesundheitssurveys des Robert-Koch-Instituts


Das Robert-Koch-Institut (RKI) ist ein Bundesinstitut im Geschäftsbereich des
Bundesministeriums für Gesundheit. Das RKI ist die zentrale Einrichtung der
Bundesregierung auf dem Gebiet der Krankheitsüberwachung und -prävention
und damit auch die zentrale Einrichtung des Bundes auf dem Gebiet der anwen-
dungs- und maßnahmenorientierten biomedizinischen Forschung. Es führte von
1984 bis 1991 nationale Gesundheitssurveys durch, ergänzt im Jahr 1992 durch den
Gesundheitssurvey Ost. Ab Oktober 1997 erfolgten die Erhebungen des Bundesge-
sundheitssurveys. Dabei wurden 7.124 Personen im Alter zwischen 18 und 79 Jah-
ren zu gesundheitsrelevanten Themen befragt. Zugleich wurden auch medizinische
Untersuchungen durchgeführt. Seit 2003 führt das RKI jährliche telefonische Ge-
sundheitssurveys (GEDA) durch, als Ergänzungen des Bundesgesundheitssurveys.
2009/2010 fand als Wiederholung des Bundesgesundheitssurveys von 1997/1998
die erste Welle der Studie zur Gesundheit Erwachsener in Deutschland (DEGS)
statt. Ergänzt werden die Erwachsenenbefragungen durch Kinderbefragungen
(KIGGS: Studien zur Gesundheit von Kindern und Jugendlichen in Deutschland).
Website:
http://www.rki.de

I.10.2 Internationale Umfragen

European Social Survey (ESS) 


Der ESS ist eine europaweite Umfrage, die die sozialen und politischen Einstellun-
gen von Bürgern in über 30 europäischen Ländern erhebt. Sie ist als Trendstudie
angelegt, d.h. als wiederholte Querschnittsbefragung konzipiert, die alle 2 Jahre
durchgeführt wird. Die erste Befragungswelle fand 2002/2003 statt. Neben einem
Kern von Fragen, die allen Ländern gleichgestellt werden, gibt es länderspezifische
Zusatzfragen sowie unterschiedliche thematische Schwerpunkte. Der ESS wird von
I.10 Beispiele für Umfragen 67

einer internationalen Koordinationsgruppe gesteuert. Die Leitung liegt beim Cen-


tre for Comparative Social Surveys der Londoner City University. Weitere Partner
sind GESIS – Leibniz Institut für Sozialwissenschaften (Deutschland), Norwegian
Social Science Data Service (NSD) (Norwegen), Katholieke Universiteit Leuven
(Belgien), Social and Cultural Planning Office (SCP) (Niederlande), Universitat
Pompeu Fabra (Spanien) und die Universität Ljubljana (Slowenien).
Website:
http://www.europeansocialsurvey.org/ (international)
http://www.europeansocialsurvey.de/ (national)

International Social Survey Programme (ISSP)


Das ISSP ist ein fortlaufendes Umfrageprogramm auf der Basis internationaler
Kooperationen, das jährlich durchgeführt wird. Es wurde 1984 ins Leben gerufen
und erhebt Daten zu wichtigen Themen der Sozialwissenschaften. Im Jahr 2010
nahmen, über die ganze Welt verstreut, insgesamt 47 Mitgliedsstaaten an dem Pro-
gramm teil. Die Teilnahme ist freiwillig und kann von Umfrage zu Umfrage wech-
seln. Inhaltliche Entscheidungen werden von allen Ländern gemeinsam getroffen.
Jedes Land finanziert die Umfrage im eigenen Land.
Website:
http://www.issp.org/

Standard und Spezial Eurobarometer


Aufgabe des Standard und Spezial Eurobarometer ist die Dauerbeobachtung der öf-
fentlichen Meinung in der Europäischen Union. Die Umfragen werden im Auftrag
der Europäischen Kommission seit den frühen 70er Jahren mindesten zweimal pro
Jahr von international renommierten Umfrageinstituten in allen Mitgliedsstaaten
der Gemeinschaft durchgeführt. In den 90er Jahren kamen die ad-hoc Flash Euro-
barometer, die Ost-Eurobarometer und später die Kandidatenländer hinzu.
Website:
http://ec.europa.eu/public_opinion/archives/eb_special_en.htm (international)
http://www.gesis.org/dienstleistungen/daten/umfragedaten/eurobarometer-da-
ta-service/(national)
68 I.10 Beispiele für Umfragen

The Survey of Health, Ageing and Retirement in Europe (SHARE)


SHARE ist eine internationale multidisziplinäre Panbelbefragung, die Daten über
Gesundheit, sozioökonomischen Status sowie soziale und familiale Netzwerke er-
hebt und an der mehr als 45,000 Personen im Alter von 50 und darüber teilneh-
men. Die Baseline-Studie wurde 2004 unter Beteiligung von 11 Nationen durchge-
führt. Die erhobenen Daten umfassen Gesundheitsvariablen (z.B. Selbstauskünfte
zur Gesundheit, Gesundheitsstatus, physische und kognitive Funktionstüchtigkeit,
Gesundheitsverhalten, Inanspruchnahme von Vorsorgeeinrichtungen), Bio-Mar-
ker (z.B. Greifstärke, Body-Mass-Index, Peak-Flow bzw. Stärke der Ausatmung),
psychologische Variablen (z.B..subjektives Gesundheitsempfinden, Lebensqualität,
Lebenszufriedenheit), ökonomische Variablen (gegenwärtige berufliche Tätigkeit,
berufliche Merkmale, Gelegenheiten zur Arbeit im Ruhestand, Quellen und Zu-
sammensetzung des Einkommens, Reichtum und Verbrauch, Wohneigenschaften,
Bildung), und Variablen der sozialen Unterstützung (z.B. Unterstützung innerhalb
der Familie, Transfers von Einkommen und Vermögen, soziale Netzwerke, ehren-
amtliche Tätigkeiten). Das SHARE-Projekt wird von Mannheimer Forschungsins-
titut Ökonomie und Demographischer Wandel (MEA: Mannheim Research Insti-
tute for the Economics of Aging).
Website:
http://www.share-project.org/

Programme for the International Assessment of Adult Competencies


(PIAAC)
PIACC ist eine weltweite Bevölkerungsumfrage der OECD, die in 26 Ländern
durchgeführt und von einem internationalen Konsortium gesteuert wird. PIAAC
hat zum Ziel, Fähigkeiten und Fertigkeiten von Erwachsenen zu identifizieren,
die den persönlichen und gesellschaftlichen Erfolg bedingen. Es wird erfasst, in
wieweit erwachsene Personen diese Fertigkeiten und Fähigkeiten im privaten und
beruflichen Alltag nutzen. Um einen Zusammenhang zwischen den Kompeten-
zen Erwachsener und möglichen Einflussfaktoren, wie zum Beispiel Bildung oder
Lernmotivation herzustellen, werden daneben wichtige demographische Informa-
tionen der befragten Personen erhoben.
Website:
http://www.oecd.org/document/57/0,3343,en_2649_33927_34474617_
1_1_1_1,00.html (international)
http://www.gesis.org/piaac/ (national)
I.10 Beispiele für Umfragen 69

Panel Study of Income Dynamics (PSID)


Der PISD ist eine Panelbefragung, die seit 1968 in den USA durchgeführt wird.
Teilnehmer sind 7.000 repräsentativ ausgewählte US-Familien. Erhoben werden
Daten zum ökonomischen, gesundheitlichen und sozialen Verhalten sowie Bildung
sowie zur Demographie. Sie wird betreut vom Survey Research Center, Institute for
Social Research, University of Michigan.
Website:
http://psidonline.isr.umich.edu/

European Union Statistics of Income and Living Conditions (EU-SILC)


Für die Gemeinschaftsstatistik über Einkommen und Lebensbedingungen (EU-
SILC) in Europa werden Erhebungen aktueller und vergleichbarer multidimen-
sionaler Quer- und Längsschnitt-Mikrodaten über Einkommen, Armut, soziale
Ausgrenzung und Lebensbedingungen durchgeführt. Sie ist im Europäischen Sta-
tistischen System (ESS) verankert. Befragt werden in den Querschnittserhebungen
130.000 Haushalte und 270.000 Personen im Alter ab 16 Jahren. In den Längs-
schnitterhebungen werden 100.000 Haushalte und 200.000 Personen im Alter ab
16 Jahren befragt.
Website:
http://epp.eurostat.ec.europa.eu/portal/page/portal/microdata/eu_silc

Longitudinal Internet Studies for the Social sciences (LISS)


LISS ist ein Online-Access-Panel von CentERdata, einem Institut für Sozialfor-
schung der Universität Tilburg (Niederlande). Es umfasst gegenwärtig 5.000 Haus-
halte der Niederlande. Es bildet das zentrale Element des MESS-Projekts. Das Panel
ist sehr gut dokumentiert und kontrolliert. Es kann auch von Forschern außerhalb
MESS in der Forschung verwendet werden.
Website:
http://www.lissdata.nl/lissdata/
In den USA und Großbritannien gibt es weitere sehr zahlreiche staatliche Umfra-
gen wie die verschiedenen Umfragen des „US Census Bureau“ zu Wirtschaft und
Demographie, den National Health Interview Survey (NHIS) des National Center
for Health Statistics oder den National Compensation Survey (NCS) des Bureau of
70 I.10 Beispiele für Umfragen

Labors Statistics. Mit diesen Surveys sind zahlreiche Methodenstudien der Umfra-
geforschung verbunden.

I.10.3 Datenzugang

Der Zugang zu Datensätzen wird in Deutschland über sog. Forschungsdatenzent-


ren (FDZ) geregelt, die Wissenschaftler/innen faktisch anonymisierte Datensätze,
sog. Scientific Use-Files zur Verfügung stellen. Faktisch anonymisierte Daten sind
Daten, die so anonymisiert wurden, dass von den Datennutzern nur mit einem
unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft eine Verbin-
dung zu den erhobenen Untersuchungseinheiten hergestellt werden kann. Zu den
Methoden der faktischen Anonymisierung gehören die Ziehung einer Substich-
probe, das Weglassen der Identifikationsnummern der Untersuchungseinheiten,
das Weglassen von Regionalinformationen (z.B. nur Nennung des Bundeslandes),
Weglassen der Staatsangehörigkeit bei Nationalitäten, deren Anteil unter einer be-
stimmten Grenze liegt.
Gegenwärtig (Stand August 2018) existieren nach Informationen des Rats für
Sozial- und Wirtschaftsdaten RatSWD folgende Forschungsdatenzentren
(vgl. http://www.ratswd.de/dat/fdz.php).

Forschungsdatenzentrum des Forschungsdatenzentrum der


Statistischen Bundesamtes Statistischen Ämter der Länder
(FDZ-Bund) (FDZ-Länder)
Forschungsdatenzentrum der Forschungsdatenzentrum der
Bundesagentur für Arbeit (BA) Rentenversicherung Bund (FDZ-RV)
im Institut für Arbeitsmarkt- und
Berufsforschung (IAB)
(FDZ BA im IAB)
Internationales Forschungsdatenzentrum Archiv für
Forschungsdatenzentrum des Gesprochenes Deutsch am Institut
Forschungsinstituts zur Zukunft der für Deutsche Sprache (FDZ AGD)
Arbeit (IZA) (FDZ IZA, IDSC)
I.10 Beispiele für Umfragen 71

Forschungsdatenzentrum im Forschungsdatenzentrum am
Bundesinstitut für Berufsbildung Institut zur Qualitätsentwicklung im
(BIBB-FDZ) Bildungswesen (IQB)
Forschungsdatenzentrum des Forschungsdatenzentrum ALLBUS
Sozioökonomischen Panels bei GESIS (FDZ ALLBUS)
(FDZ-SOEP)
Forschungsdatenzentrum Forschungsdatenzentrum Wahlen bei
Internationale Umfrageprogramme GESIS (FDZ Wahlen)
bei GESIS (FDZ Internationale
Umfrageprogramme)
Forschungsdatenzentrum des Survey Forschungsdatenzentrum des
of Health, Ageing and Retirement in Deutschen Zentrums für Altersfragen
Europe (SHARE) (FDZ SHARE) (FDZ-DZA)
Forschungsdatenzentrum Forschungsdatenzentrum des
PsychData des Leibniz-Zentrums Beziehungs- und Familienpanels
für Psychologische Information und (FDZ-pairfam)
Dokumentation
(FDZ PsychData des ZPID)
Forschungsdatenzentrum Ruhr LMU-ifo Economics & Business Data
am RWI-Leibniz-Institut für Center (EBDC)
Wirtschaftsforschung
(FDZ Ruhr am RWI)
Forschungsdatenzentrum Forschungsdatenzentrum German
„Gesundheitsmonitoring“ am Robert Microdata Lab bei GESIS
Koch-Institut (RKI) (FDZ GML)
(FDZ Gesundheitsmonitoring am
RKI)
Internationales Datenservicezentrum Forschungsdatenzentrum Betriebs-
des Forschungsinstituts zur Zukunft und Organisations-Daten (FDZ-BO)
der Arbeit (IZA)
Forschungsdatenzentrum Bildung am Forschungsdatenzentrum der
Deutschen Institut für Internationale Bundeszentrale für gesundheitliche
Pädagogische Forschung (DIPF) Aufklärung (FDZ BZgA)
(FDZ Bildung)
72 I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien

Forschungsdatenzentrum Forschungsdatenzentrum des


Wissenschaftsstatistik des Zentrums für europäische
Stifterverbandes für die Deutsche Wirtschaftsforschung (ZEW-FDZ)
Wissenschaft
(FDZ Wissenschaftsstatistik)
Forschungsdatenzentrum PIAAC bei Forschungsdatenzentrum des
GESIS (FDZ PIAAC) Leibniz-Instituts für Bildungsverläufe
e.V. an der Otto-Friedrich-Universität
Bamberg (FDZ-LIfBi)
Forschungsdatenzentrum des
Deutschen Jugendinstituts (FDZ-DJI)
Forschungsdaten- und
Servicezentrum der Bundesbank
(FDSZ Bundesbank)

Neben der Bereitstellung von Scientific Use-Files als sog. Off-Site-Nutzung gibt es
ferner die Möglichkeit der On-Site-Nutzung über kontrollierte Datenfernverarbei-
tung oder die Nutzung von Arbeitsplätzen für Gastwissenschaftler.
2013 wurde bei GESIS eine Registrierungsagentur für Sozial- und Wirtschafts-
daten da|ra gegründet, in der Wissenschaftler einen Zugang zu ihren Daten ermög-
lichen können (Website: http://www.da-ra.de/de/home/).

I.11 Rechtliche Rahmenbedingungen und Standesrichtli-


nien

I.11.1 Rechtliche Rahmenbedingungen

Die Durchführung von Umfragen unterliegt rechtlichen Rahmenbedingungen, die


im Wesentlichen durch das Bundesdatenschutzgesetz, die EU-Datenschutz-Grund-
verordnung sowie durch einschlägige Gerichtsurteile vorgegeben sind (vgl. hierzu
auch Häder, 1990). Daneben können einschlägige Bestimmungen des Sozialgesetz-
buchs und des Grundgesetzes wirksam werden. Zudem unterliegen Unternehmen
I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien 73

der Markt- und Meinungsforschung einer Meldepflicht beim zuständigen Landes-


datenschutzbeauftragten.
Ab 25. Mai 2018 gilt das Bundesdatenschutzgesetz neu (BDSG neu), das eine An-
passung des alten Bundesdatenschutzgesetzes an die EU-Datenschutz-Grundverord-
nung (EU-DSGVO) darstellt, welche den Datenschutz in der Europäischen Union
regelt. Die EU-Datenschutz-Grundverordnung wurde am 14. April 2016 vom EU-Par-
lament verabschiedet. Sie enthält zahlreiche Öffnungsklauseln, die eine Anpassung an
nationale Datenschutzrichtlinien erlauben. Das BDSG neu wurde als Teil des Daten-
schutz-Anpassungs- und -Umsetzungsgesetzes EU (DSAnpUG-EU) beschlossen.
Da das BDSG neu an vielen Stellen auf Artikel der EU-Datenschutz-Grund-
verordnung verweist, empfiehlt es sich, diese immer mit in den Blick zu nehmen.

Anwendungsbereich des BDSG neu


In § 1 wird der Anwendungsbereich des BDSG neu beschrieben. In Absatz 1
heißt es:

Dieses Gesetz gilt für die Verarbeitung personenbezogener Daten durch


1. öffentliche Stellen des Bundes,
2. öffentliche Stellen der Länder, soweit der Datenschutz nicht durch Landes-
gesetz geregelt ist und soweit sie
a) Bundesrecht ausführen oder
b) als Organe der Rechtspflege tätig werden und es sich nicht um Verwal-
tungsangelegenheiten handelt.

Für nichtöffentliche Stellen gilt dieses Gesetz für die ganz oder teilweise automati-
sierte Verarbeitung personenbezogener Daten sowie die nichtautomatisierte Verar-
beitung personenbezogener Daten, die in einem Dateisystem gespeichert sind oder
gespeichert werden sollen, es sei denn, die Verarbeitung durch natürliche Personen
erfolgt zur Ausübung ausschließlich persönlicher oder familiärer Tätigkeiten.
Weiter unten geht es in Absatz 4 um die Anwendung des Gesetzes auf nichtöf-
fentliche Stellen, wozu auch Institute der Markt- und Sozialforschung gehören:
Auf nichtöffentliche Stellen findet es Anwendung, sofern

1. der Verantwortliche oder Auftragsverarbeiter personenbezogene Daten im


Inland verarbeitet,
74 I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien

2. die Verarbeitung personenbezogener Daten im Rahmen der Tätigkeiten ei-


ner inländischen Niederlassung des Verantwortlichen oder Auftragsverar-
beiters erfolgt oder
3. der Verantwortliche oder Auftragsverarbeiter zwar keine Niederlassung in
einem Mitgliedstaat der Europäischen Union oder in einem anderen Ver-
tragsstaat des Abkommens über den Europäischen Wirtschaftsraum hat, er
aber in den Anwendungsbereich der Verordnung (EU) 2016/679 des Eu-
ropäischen Parlaments und des Rates vom 27. April 2016 zum Schutz na-
türlicher Personen bei der Verarbeitung personenbezogener Daten, zum
freien Datenverkehr und zur Aufhebung der Richtlinie 95/46/EG (Da-
tenschutz-Grundverordnung) (ABl. L 119 vom 4.5.2016, S. 1; L 314 vom
22.11.2016, S. 72) fällt.

Verarbeitung besonderer Kategorien personenbezogener Daten


Besondere Regelungen gelten für die Verarbeitung besonderer Kategorien perso-
nenbezogener Daten. Diese Daten sind gerade solche, mit denen es die Meinungs-
forschung in der Regel zu tun hat. Zu diesen Daten gehören:

• Rassische oder ethnische Herkunft


• Politische Meinungen
• Religiöse oder weltanschauliche Überzeugungen
• Gewerkschaftszugehörigkeit
• Genetische Daten
• Biometrische Daten Gesundheitsdaten
• Sexualleben sowie sexuelle Orientierung

Für die Umfrageforschung ist §27 von besonderer Bedeutung. Dort wird die Daten-
verarbeitung zu wissenschaftlichen oder historischen Forschungszwecken und zu
statistischen Zwecken geregelt. Dort heißt es:
I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien 75

1. Abweichend von Artikel 9 Absatz 1 der Verordnung (EU) 2016/679 ist die
Verarbeitung besonderer Kategorien personenbezogener Daten im Sinne
des Artikels 9 Absatz 1 der Verordnung (EU) 2016/679 auch ohne Einwilli-
gung für wissenschaftliche oder historische Forschungszwecke oder für statisti-
sche Zwecke zulässig, wenn die Verarbeitung zu diesen Zwecken erforderlich
ist und die Interessen des Verantwortlichen an der Verarbeitung die Interes-
sen der betroffenen Person an einem Ausschluss der Verarbeitung erheblich
überwiegen. Der Verantwortliche sieht angemessene und spezifische Maß-
nahmen zur Wahrung der Interessen der betroffenen Person gemäß § 22
Absatz 2 Satz 2 vor.
2. Die in den Artikeln 15, 16, 18 und 21 der Verordnung (EU) 2016/679 vor-
gesehenen Rechte der betroffenen Person sind insoweit beschränkt, als diese
Rechte voraussichtlich die Verwirklichung der Forschungs- oder Statistik-
zwecke unmöglich machen oder ernsthaft beinträchtigen und die Beschrän-
kung für die Erfüllung der Forschungs- oder Statistikzwecke notwendig ist.
Das Recht auf Auskunft gemäß Artikel 15 der Verordnung (EU) 2016/679
besteht darüber hinaus nicht, wenn die Daten für Zwecke der wissenschaft-
lichen Forschung erforderlich sind und die Auskunftserteilung einen unver-
hältnismäßigen Aufwand erfordern würde.
3. Ergänzend zu den in § 22 Absatz 2 genannten Maßnahmen sind zu wis-
senschaftlichen oder historischen Forschungszwecken oder zu statistischen
Zwecken verarbeitete besondere Kategorien personenbezogener Daten im
Sinne des Artikels 9 Absatz 1 der Verordnung (EU) 2016/679 zu anonymi-
sieren, sobald dies nach dem Forschungs- oder Statistikzweck möglich ist,
es sei denn, berechtigte Interessen der betroffenen Person stehen dem ent-
gegen. Bis dahin sind die Merkmale gesondert zu speichern, mit denen Ein-
zelangaben über persönliche oder sachliche Verhältnisse einer bestimmten
oder bestimmbaren Person zugeordnet werden können. Sie dürfen mit den
Einzelangaben nur zusammengeführt werden, soweit der Forschungs- oder
Statistikzweck dies erfordert.
4. Der Verantwortliche darf personenbezogene Daten nur veröffentlichen,
wenn die betroffene Person eingewilligt hat oder dies für die Darstellung von
Forschungsergebnissen über Ereignisse der Zeitgeschichte unerlässlich ist.
76 I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien

Angemessene Maßnahmen zur Wahrung der Interessen der betroffenen


Person
Nach Absatz 1 sind angemessene und spezifische Maßnahmen zur Wahrung der
Interessen der betroffenen Person vorzusehen. Diese werden in §22, Absatz 2 näher
beschrieben. Dort heißt es:
In den Fällen des Absatzes 1 sind angemessene und spezifische Maßnahmen
zur Wahrung der Interessen der betroffenen Person vorzusehen. Unter Berück-
sichtigung des Stands der Technik, der Implementierungskosten und der Art, des
Umfangs, der Umstände und der Zwecke der Verarbeitung sowie der unterschied-
lichen Eintrittswahrscheinlichkeit und Schwere der mit der Verarbeitung verbun-
denen Risiken für die Rechte und Freiheiten natürlicher Personen können dazu
insbesondere gehören:

1. technisch organisatorische Maßnahmen, um sicherzustellen, dass die Verar-


beitung gemäß der Verordnung (EU) 2016/679 erfolgt,
2. Maßnahmen, die gewährleisten, dass nachträglich überprüft und festgestellt
werden kann, ob und von wem personenbezogene Daten eingegeben, verän-
dert oder entfernt worden sind,
3. Sensibilisierung der an Verarbeitungsvorgängen Beteiligten,
4. Benennung einer oder eines Datenschutzbeauftragten,
5. Beschränkung des Zugangs zu den personenbezogenen Daten innerhalb der
verantwortlichen Stelle und von Auftragsverarbeitern,
6. Pseudonymisierung personenbezogener Daten,
7. Verschlüsselung personenbezogener Daten,
8. Sicherstellung der Fähigkeit, Vertraulichkeit, Integrität, Verfügbarkeit und
Belastbarkeit der Systeme und Dienste im Zusammenhang mit der Verarbei-
tung personenbezogener Daten, einschließlich der Fähigkeit, die Verfügbar-
keit und den Zugang bei einem physischen oder technischen Zwischenfall
rasch wiederherzustellen,
9. zur Gewährleistung der Sicherheit der Verarbeitung die Einrichtung eines
Verfahrens zur regelmäßigen Überprüfung, Bewertung und Evaluierung der
Wirksamkeit der technischen und organisatorischen Maßnahmen oder
10. spezifische Verfahrensregelungen, die im Fall einer Übermittlung oder Ver-
arbeitung für andere Zwecke die Einhaltung der Vorgaben dieses Gesetzes
sowie der Verordnung (EU) 2016/679 sicherstellen.
I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien 77

Die technisch organisatorischen Sicherheitsmaßnahmen (TOM) wurden im alten


BDSG in § 9 beschrieben Danach gilt es,

1. Unbefugten den Zutritt zu Datenverarbeitungsanlagen, mit denen perso-


nenbezogene Daten verarbeitet oder genutzt werden, zu verwehren (Zu-
trittskontrolle),
2. zu verhindern, dass Datenverarbeitungssysteme von Unbefugten genutzt
werden können (Zugangskontrolle),
3. zu gewährleisten, dass die zur Benutzung eines Datenverarbeitungssystems
Berechtigten ausschließlich auf die ihrer Zugriffsberechtigung unterliegen-
den Daten zugreifen können, und dass personenbezogene Daten bei der
Verarbeitung, Nutzung und nach der Speicherung nicht unbefugt gelesen,
kopiert, verändert oder entfernt werden können (Zugriffskontrolle),
4. zu gewährleisten, dass personenbezogene Daten bei der elektronischen
Übertragung oder während ihres Transports oder ihrer Speicherung auf Da-
tenträger nicht unbefugt gelesen, kopiert, verändert oder entfernt werden
können, und dass überprüft und festgestellt werden kann, an welche Stellen
eine Übermittlung personenbezogener Daten durch Einrichtungen zur Da-
tenübertragung vorgesehen ist (Weitergabekontrolle),
5. zu gewährleisten, dass nachträglich überprüft und festgestellt werden kann,
ob und von wem personenbezogene Daten in Datenverarbeitungssysteme
eingegeben, verändert oder entfernt worden sind (Eingabekontrolle),
6. zu gewährleisten, dass personenbezogene Daten, die im Auftrag verarbei-
tet werden, nur entsprechend den Weisungen des Auftraggebers verarbeitet
werden können (Auftragskontrolle),
7. zu gewährleisten, dass personenbezogene Daten gegen zufällige Zerstörung
oder Verlust geschützt sind (Verfügbarkeitskontrolle),
8. zu gewährleisten, dass zu unterschiedlichen Zwecken erhobene Daten ge-
trennt verarbeitet werden können (Trennungskontrolle).
Eine Maßnahme nach Satz 2 Nummer 2 bis 4 ist insbesondere die Verwendung
von dem Stand der Technik entsprechenden Verschlüsselungsverfahren.

Ernennung von Datenschutzbeauftragten


Die Verpflichtung zur Ernennung von Datenschutzbeauftragten in nicht öffentli-
chen Stellen wird in §38 geregelt. Dort heißt es:
Ergänzend zu Artikel 37 Absatz 1 Buchstabe b und c der Verordnung (EU)
2016/679 benennen der Verantwortliche und der Auftragsverarbeiter eine Da-
78 I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien

tenschutzbeauftragte oder einen Datenschutzbeauftragten, soweit sie in der Regel


mindestens zehn Personen ständig mit der automatisierten Verarbeitung perso-
nenbezogener Daten beschäftigen. Nehmen der Verantwortliche oder der Auf-
tragsverarbeiter Verarbeitungen vor, die einer Datenschutz-Folgenabschätzung
nach Artikel 35 der Verordnung (EU) 2016/679 unterliegen, oder verarbeiten sie
personenbezogene Daten geschäftsmäßig zum Zweck der Übermittlung, der anony-
misierten Übermittlung oder für Zwecke der Markt- oder Meinungsforschung, haben
sie unabhängig von der Anzahl der mit der Verarbeitung beschäftigten Personen eine
Datenschutzbeauftragte oder einen Datenschutzbeauftragten zu benennen.

Datenschutz-Folgenabschätzung gemäß Artikel 35 der EU-DGVO


Unter bestimmten Bedingungen muss eine Datenschutz-Folgenabschätzung vorge-
nommen werden. Dazu die EU-Richtlinie:

1. Hat eine Form der Verarbeitung, insbesondere bei Verwendung neuer Tech-
nologien, aufgrund der Art, des Umfangs, der Umstände und der Zwecke
der Verarbeitung voraussichtlich ein hohes Risiko für die Rechte und Frei-
heiten natürlicher Personen zur Folge, so führt der Verantwortliche vorab
eine Abschätzung der Folgen der vorgesehenen Verarbeitungsvorgänge für
den Schutz personenbezogener Daten durch. Für die Untersuchung mehre-
rer ähnlicher Verarbeitungsvorgänge mit ähnlich hohen Risiken kann eine
einzige Abschätzung vorgenommen werden.
2. Der Verantwortliche holt bei der Durchführung einer Datenschutz-Folgen-
abschätzung den Rat des Datenschutzbeauftragten, sofern ein solcher be-
nannt wurde, ein.
3. Eine Datenschutz-Folgenabschätzung gemäß Absatz 1 ist insbesondere in
folgenden Fällen erforderlich:
a) systematische und umfassende Bewertung persönlicher Aspekte natür-
licher Personen, die sich auf automatisierte Verarbeitung einschließlich
Profiling gründet und die ihrerseits als Grundlage für Entscheidungen
dient, die Rechtswirkung gegenüber natürlichen Personen entfalten oder
diese in ähnlich erheblicher Weise beeinträchtigen;
b) umfangreiche Verarbeitung besonderer Kategorien von personenbezo-
genen Daten gemäß Artikel 9 Absatz 1 oder von personenbezogenen
Daten über strafrechtliche Verurteilungen und Straftaten gemäß Artikel
10 oder
I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien 79

c) systematische umfangreiche Überwachung öffentlich zugänglicher Be-


reiche;
4. Die Aufsichtsbehörde erstellt eine Liste der Verarbeitungsvorgänge, für die
gemäß Absatz 1 eine Datenschutz-Folgenabschätzung durchzuführen ist,
und veröffentlicht diese. Die Aufsichtsbehörde übermittelt diese Listen dem
in Artikel 68 genannten Ausschuss.
5. Die Aufsichtsbehörde kann des Weiteren eine Liste der Arten von Verar-
beitungsvorgängen erstellen und veröffentlichen, für die keine Daten-
schutz-Folgenabschätzung erforderlich ist. Die Aufsichtsbehörde übermit-
telt diese Listen dem Ausschuss.
6. Vor Festlegung der in den Absätzen 4 und 5 genannten Listen wendet die
zuständige Aufsichtsbehörde das Kohärenzverfahren gemäß Artikel 63 an,
wenn solche Listen Verarbeitungstätigkeiten umfassen, die mit dem An-
gebot von Waren oder Dienstleistungen für betroffene Personen oder der
Beobachtung des Verhaltens dieser Personen in mehreren Mitgliedstaaten
im Zusammenhang stehen oder die den freien Verkehr personenbezogener
Daten innerhalb der Union erheblich beeinträchtigen könnten.
7. Die Folgenabschätzung enthält zumindest Folgendes:
a) eine systematische Beschreibung der geplanten Verarbeitungsvorgänge
und der Zwecke der Verarbeitung, gegebenenfalls einschließlich der von
dem Verantwortlichen verfolgten berechtigten Interessen;
b) eine Bewertung der Notwendigkeit und Verhältnismäßigkeit der Verar-
beitungsvorgänge in Bezug auf den Zweck;
c) eine Bewertung der Risiken für die Rechte und Freiheiten der betroffe-
nen Personen gemäß Absatz 1 und
d) die zur Bewältigung der Risiken geplanten Abhilfemaßnahmen, ein-
schließlich Garantien, Sicherheitsvorkehrungen und Verfahren, durch
die der Schutz personenbezogener Daten sichergestellt und der Nach-
weis dafür erbracht wird, dass diese Verordnung eingehalten wird, wobei
den Rechten und berechtigten Interessen der betroffenen Personen und
sonstiger Betroffener Rechnung getragen wird.
8. Die Einhaltung genehmigter Verhaltensregeln gemäß Artikel 40 durch die
zuständigen Verantwortlichen oder die zuständigen Auftragsverarbeiter ist
bei der Beurteilung der Auswirkungen der von diesen durchgeführten Ver-
arbeitungsvorgänge, insbesondere für die Zwecke einer Datenschutz-Fol-
genabschätzung, gebührend zu berücksichtigen.
80 I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien

9. Der Verantwortliche holt gegebenenfalls den Standpunkt der betroffenen


Personen oder ihrer Vertreter zu der beabsichtigten Verarbeitung unbescha-
det des Schutzes gewerblicher oder öffentlicher Interessen oder der Sicher-
heit der Verarbeitungsvorgänge ein.
10. Falls die Verarbeitung gemäß Artikel 6 Absatz 1 Buchstabe c oder e auf einer
Rechtsgrundlage im Unionsrecht oder im Recht des Mitgliedstaats, dem der
Verantwortliche unterliegt, beruht und falls diese Rechtsvorschriften den
konkreten Verarbeitungsvorgang oder die konkreten Verarbeitungsvorgänge
regeln und bereits im Rahmen der allgemeinen Folgenabschätzung im Zu-
sammenhang mit dem Erlass dieser Rechtsgrundlage eine Datenschutz-Fol-
genabschätzung erfolgte, gelten die Absätze 1 bis 7 nur, wenn es nach dem
Ermessen der Mitgliedstaaten erforderlich ist, vor den betreffenden Verar-
beitungstätigkeiten eine solche Folgenabschätzung durchzuführen.
11. Erforderlichenfalls führt der Verantwortliche eine Überprüfung durch, um
zu bewerten, ob die Verarbeitung gemäß der Datenschutz-Folgenabschät-
zung durchgeführt wird; dies gilt zumindest, wenn hinsichtlich des mit den
Verarbeitungsvorgängen verbundenen Risikos Änderungen eingetreten
sind.

Zentrale Begriffsbestimmungen (§ 3 des BDSG)


In den einschlägigen Bestimmungen tauchen Begriffe auf, deren Definition für das
Verständnis der Bestimmung wichtig ist:

(1) Personenbezogene Daten sind Einzelangaben über persönliche oder sachliche


Ver- hältnisse einer bestimmten oder bestimmbaren natürlichen Person (Be-
troffener).
(2) Automatisierte Verarbeitung ist die Erhebung, Verarbeitung oder Nutzung
personenbezogener Daten unter Einsatz von Datenverarbeitungsanlagen. Eine
nicht automatisierte Datei ist jede nicht automatisierte Sammlung personenbe-
zogener Daten, die gleichartig aufgebaut ist und nach bestimmten Merkmalen
zugänglich ist und ausgewertet werden kann.
(3) Erheben ist das Beschaffen von Daten über den Betroffenen.
I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien 81

(4) Verarbeiten ist das Speichern, Verändern, Übermitteln, Sperren und Löschen
personenbezogener Daten.
Im Einzelnen ist, ungeachtet der dabei angewendeten Verfahren:
1. Speichern das Erfassen, Aufnehmen oder Aufbewahren personenbezogener
Daten auf einem Datenträger zum Zweck ihrer weiteren Verarbeitung oder
Nutzung,
2. Verändern das inhaltliche Umgestalten gespeicherter personenbezogener Daten,
3. Übermitteln das Bekanntgeben gespeicherter oder durch Datenverarbeitung
gewonnener personenbezogener Daten an einen Dritten in der Weise, dass
a) die Daten an den Dritten weitergegeben werden oder
b) der Dritte zur Einsicht oder zum Abruf bereitgehaltene Daten einsieht
oder abruft,
4. Sperren das Kennzeichnen gespeicherter personenbezogener Daten, um ihre
weitere Verarbeitung oder Nutzung einzuschränken,
5. Löschen das Unkenntlichmachen gespeicherter personenbezogener Daten.
ǻśǼȱžĵŽ—ȱist jede Verwendung personenbezogener Daten, soweit es sich nicht
um Verarbeitung handelt.
(6) Anonymisieren ist das Verändern personenbezogener Daten derart, dass die
Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder
nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Ar-
beitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet
werden können.
(6a) Pseudonymisieren ist das Ersetzen des Namens und anderer Identifikations-
merkmale durch ein Kennzeichen zu dem Zweck, die Bestimmung des Betroffe-
nen auszuschließen oder wesentlich zu erschweren.
(7) Verantwortliche Stelle ist jede Person oder Stelle, die personenbezogene Da-
ten für sich selbst erhebt, verarbeitet oder nutzt oder dies durch andere im Auf-
trag vornehmen lässt.
(8) Empfänger ist jede Person oder Stelle, die Daten erhält. Dritter ist jede Person
oder Stelle außerhalb der verantwortlichen Stelle. Dritte sind nicht der Betrof-
fene sowie Personen und Stellen, die im Inland, in einem anderen Mitgliedstaat
der Europäischen Union oder in einem anderen Vertragsstaat des Abkommens
über den Europäischen Wirtschaftsraum personenbezogene Daten im Auftrag
erheben, verarbeiten oder nutzen.
82 I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien

(9) Besondere Arten personenbezogener Daten sind Angaben über die rassische
und ethnische Herkunft, politische Meinungen, religiöse oder philosophische
Überzeugungen, Gewerkschaftszugehörigkeit, Gesundheit oder Sexualleben.
(10) Mobile personenbezogene Speicher- und Verarbeitungsmedien sind Daten-
träger,
1. die an den Betroffenen ausgegeben werden,
2. auf denen personenbezogene Daten über die Speicherung hinaus durch die
ausgebende oder eine andere Stelle automatisiert verarbeitet werden können
und
3. bei denen der Betroffene diese Verarbeitung nur durch den Gebrauch des
Mediums beeinflussen kann.
(11) Beschäftigte sind:
1. Arbeitnehmerinnen und Arbeitnehmer,
2. zu ihrer Berufsbildung Beschäftigte,
3. Teilnehmerinnen und Teilnehmer an Leistungen zur Teilhabe am Arbeitsle-
EHQVRZLHDQ$ENOlUXQJHQGHUEHUXÀLFKHQ(LJQXQJRGHU$UEHLWVHUSUREXQJ
(Rehabilitandinnen und Rehabilitanden),
4. in anerkannten Werkstätten für behinderte Menschen Beschäftigte,
5. nach dem Jugendfreiwilligendienstgesetz Beschäftigte,
6. Personen, die wegen ihrer wirtschaftlichen Unselbständigkeit als arbeitneh-
merähnliche Personen anzusehen sind; zu diesen gehören auch die in Heim-
arbeit Beschäftigten und die ihnen Gleichgestellten,

I.11.2 Richtlinien und Normen für die Durchführung von Be-


fragungen

Um die Qualitätsstandards von Umfragen zu sichern und um den Datenschutz im


Rahmen der Selbstregulierung der deutschen Markt- und Sozialforschung für die
unterschiedlichen Erhebungsarten und Anforderungen sozialwissenschaftlicher
Untersuchungen zu präzisieren, wurden von den Verbänden der deutschen Markt-
und Sozialforschung im Rahmen der Selbstregulierung der Markt- und Sozialfor-
schung (vgl. Wiegand, 2012) Standards zur Qualitätssicherung in der Markt- und
Sozialforschung sowie Standards zur Qualitätssicherung für Online-Befragungen
formuliert und verabschiedet. In der ISO-Norm 20 252 sind bestimmte Qualitäts-
I.11 Rechtliche Rahmenbedingungen und Standesrichtlinien 83

standards für die Markt- und Meinungsforschung international festgelegt worden.


Neben diesen Richtlinien für Qualitätsstandards haben diese Institutionen weitere
Richtlinien veröffentlicht (Stand August 2018):
• Richtlinie für die Aufzeichnung und Beobachtung von Gruppendiskussionen
und qualitativen Einzelinterviews
• Richtlinie für telefonische Befragungen
• Richtlinie für Befragungen von Minderjährigen
• Richtlinie für die Veröffentlichung von Ergebnissen der Wahlforschung
• Richtlinie zum Umgang mit Adressen in der Markt- und Sozialforschung
• Richtlinie für Online-Befragungen
• Richtlinie zum Umgang mit Datenbanken in der Markt- und Sozialforschung
• Richtlinie zur Abgrenzung zwischen Markt- und Sozialforschung und Direkt-
marketing
• Richtlinie für Studien im Gesundheitswesen zu Zwecken der Markt- und Sozi-
alforschung
• Richtlinie für den Einsatz von Datentreuhändern in der Markt- und Sozialfor-
schung
• Richtlinie für Untersuchungen in und mittels der Sozialen Medien
Diese Richtlinien können auf den Websites der Verbände eingesehen und/oder he-
runtergeladen werden (zu den Webadressen siehe Abschnitt 1.10.5). Bei Verstößen
gegen Qualitätsstandards werden entsprechende Sanktionen wie Ermahnung oder
veröffentlichte Rüge durch den Beschwerderat des Rats der Markt- und Sozialfor-
schung durchgeführt.
Internationale Standesrichtlinie in der Markt- und Sozialforschung ist der ICC/
ESOMAR Internationale Kodex für die Markt- und Sozialforschung zusammen mit
der Erklärung für das Gebiet der Bundesrepublik Deutschland. Ferner sind folgen-
de internationale Standardnormen entwickelt worden:
• ISO 20252: Market, opinion and social research – Vocabulary and service re-
quirements
• ISO 26362: Access Panels in market, opinion and social research – Vocabulary
and service requirements
• ISO 19731: Digital analytics and web analyses for purposes of market, opinion
and social research - Vocabulary and service requirements
Richtungweisend für die Durchführung von Umfragen sowie die Dokumentati-
on des Feldgeschehens und Methodenbericht sind die AAPOR-Standards (vgl.
AAPOR, 2011).
84 I.12 Institutionen der Sozialforschung

Website:
http://www.aapor.org/Standards-Ethics/Standard-Definitions-(1).aspx
Für die ethische Orientierung sollte der folgende Codex konsultiert werden:
WAPOR Code of professional ethics and practices
Website:
http://wapor.unl.edu/wapor-code-of-ethics/
Die Kernprobleme im Datenschutzrecht und für das Standesrecht der demoskopi-
schen Umfrageforschung sind in einer spezifischen Verlautbarung zusammenge-
fasst, die auf der Website des ADM (http://www.adm-ev.de/) abgerufen und herun-
tergeladen werden kann.
Es wird dringend empfohlen, sich mit diesen Richtlinien vertraut zu machen,
da eine Missachtung entsprechende datenschutzrechtliche und standesrechtliche
Konsequenzen nach sich ziehen kann. Wichtige Hinweise wie der Hinweis auf
die strikte Trennung von Umfrageforschung und forschungsfremden Tätigkeiten
wie Dialogmarketing, der Hinweis darauf, dass selbst bei Einwilligung der Befrag-
ten eine Weitergabe personenbezogener Daten nicht gestattet ist, etc. sind diesen
Richtlinien zu entnehmen. Die Weitergabe personenbezogener Daten sollte sich
stattdessen auf eine gesetzliche Erlaubnisnorm stützen.

I.12 Institutionen der Sozialforschung

I.12.1 Organe der Markt- Meinungs- und Sozialforschung in


Deutschland

ADM Arbeitskreis deutscher Markt- und Sozialforschungsinstitute e.V.


Der ADM vertritt als Wirtschaftsverband die Interessen die Interessen der
privatwirtschaftlichen Markt- und Sozialforschungsinstitute in Deutschland. Zu
seinen hauptsächlichen Aufgaben gehören die politische Interessenvertretung, die
Beratung und Vertretung der Mitglieder, die Bekämpfung unlauteren Wettbewerbs
und die Selbstregulierung der Markt- und Sozialforschung durch die Entwicklung
und Durchsetzung von Berufsgrundsätzen, Standesregeln und wissenschaftlichen
Qualitätsstandards.
I.12 Institutionen der Sozialforschung 85

Website:
http://www.adm-ev.de/

Arbeitsgemeinschaft Sozialwissenschaftlicher Institute e.V. (ASI)


In der Arbeitsgemeinschaft Sozialwissenschaftlicher Institute (ASI) e.V. sind ge-
meinnützige sozialwissenschaftliche Forschungseinrichtungen und Universitäts-
institute der Bundesrepublik Deutschland zusammengeschlossen. Mitglieder sind
selbstständige gemeinnützige Forschungsinstitute, Universitätsinstitute und sozi-
alwissenschaftlich arbeitende Bereiche größerer Einrichtungen. Außerdem gibt
es persönliche Mitglieder. Ziel der ASI ist die Förderung und Intensivierung der
sozialwissenschaftlichen Forschung, insbesondere in ihrer empirischen Ausrich-
tung. Sie versteht sich als Ansprechpartner für alle empirische Sozialforschung
Betreibenden und deren fachliche und berufsständige Interessen. Die Entstehungs-
geschichte reicht bis in die unmittelbare Nachkriegszeit zurück. Bis 2013 war die
ASI Herausgeberin der Zeitschrift „Soziale Welt“. Im Oktober 1949 erschien Heft 1
dieser Zeitschrift. Sie wurde damals im Namen der Arbeitsgemeinschaft Sozialwis-
senschaftlicher Institute von der Sozialforschungsstelle Dortmund herausgegeben.
Am 16. April 1953 wurde die ASI in das Vereinsregister Köln eingetragen. Die ASI
ist Herausgeberin einer Schriftenreihe beim Verlag „Springer VS“.
Website:
http://www.asi-ev.org/

Bundesverband deutscher Markt- und Sozialforscher e.V. (BVM)


Der BVM Berufsverband Deutscher Markt- und Sozialforscher e.V. vertritt die In-
teressen seiner über 1.400 Mitglieder aus Deutschland, Österreich und der Schweiz.
Er bildet somit ein Experten-Netzwerk aus betrieblichen, akademischen und Insti-
tuts-Marktforschern, selbstständigen Beratern, Feldinstituten und anderen Dienst-
leistern. Das Selbstverständnis des BVM ist es, das Ansehen von Marktforschern
und Marktforschung in der Öffentlichkeit zu erhöhen und die Qualifikation von
Forschern sowie die Qualität der Forschung zu optimieren.
Website:
http://www.bvm.org/
86 I.12 Institutionen der Sozialforschung

Deutsche Gesellschaft für Online-Forschung e.V. (DGOF)


Die DGOF vertritt die Interessen der Online-Forscher im deutschen Sprachraum.
Ihre Mitglieder sind Wissenschaftler, Anwender und Unternehmen der deutschen
und internationalen Gemeinschaft der Online-Forschung. Online-Forschung um-
fasst in erster Linie jegliche Art von Forschung, deren Mittel bzw. Gegenstand das
Internet ist. Zur Online-Forschung zählt die DGOF auch Forschung über mobile
Kommunikation. Zentrales Anliegen der DGOF ist die Förderung wissenschaftli-
cher und anwendungsbezogener Online-Forschung. Ein wichtiges Ziel ist die kri-
tische Akzeptanz, Diskussion und Weiterentwicklung der Methoden zur Erhebung
von Daten mit Hilfe des Internet als gleichberechtigte Methode im Kanon der klas-
sischen Forschungsansätze. Die DGOF ist Veranstalter der jährlichen internationa-
len Konferenzen General Online Research GOR).
Website:
http://www.dgof.de/

Rat für Sozial- und Wirtschaftsdaten (RatSWD)


Der Rat für Sozial- und Wirtschaftsdaten wurde erstmals im Sommer 2004 vom
Bundesministerium für Bildung und Forschung (BMBF) im Einvernehmen mit
allen Bundesressorts berufen. Er löste den Gründungsausschuss des Rates für Sozi-
al- und Wirtschaftsdaten ab und führt seine Arbeit inhaltlich weiter. Der RatSWD
ist ein unabhängiges Gremium von empirisch arbeitenden Wissenschaftlerinnen
und Wissenschaftlern aus Universitäten, Hochschulen und anderen Einrichtungen
unabhängiger wissenschaftlicher Forschung sowie von Vertreterinnen und Vertre-
tern wichtiger Datenproduzenten und Servicezentren. Zu den Aufgaben des Rats
gehören:
• Empfehlungen zur Sicherung und weiteren Verbesserung des Datenzugangs,
insbesondere durch Einrichtung, Standardsetzung und kontinuierliche Evalua-
tion von Forschungsdatenzentren und Datenservicezentren,
• Empfehlungen zur Verbesserung der Datennutzung durch geeignete Doku-
mentation und Bereitstellung wissenschaftlicher und statistischer Daten (For-
schungsdatenportal; Metadaten),
• Beratung der Wissenschaftsinstitutionen und -organisationen zur Infrastruktur
daten-gestützter Forschung und Lehre,
• Empfehlungen zu Forschungsthemen und -aufgaben, welche die konzeptionel-
le Weiterentwicklung der Dateninfrastrukturen auf nationaler, europäischer
und internationaler Ebene betreffen,
I.12 Institutionen der Sozialforschung 87

• Empfehlungen, wie die Produktion und Bereitstellung von forschungsrelevan-


ten Daten effizienter gestaltet werden kann,
• Beratung des für Forschung zuständigen Bundesministeriums und der Landes-
regierungen entsprechend bei der Weiterentwicklung der wissenschaftsgetrage-
nen Dateninfrastruktur,
• Beratung öffentlicher (und privater) Datenproduzenten,
• Beratung von Datenproduzenten zur Anerkennung von wissenschaftlichen
Forschungseinrichtungen (Zertifizierung), bei denen die Zugehörigkeit zur un-
abhängigen Wissenschaft nicht institutionell gegeben ist,
• Vorbereitung und Durchführung der Konferenz für Sozial- und Wirtschaftsda-
ten und ggfs. weiterer Fachkolloquien und Workshops zur Forschungsdatenin-
frastruktur.

Website:
http://www.ratswd.de/

Rat der deutschen Markt- und Sozialforschung e.V.


Der Rat der Deutschen Markt- und Sozialforschung e.V. wurde im Jahr 2001 vom
ADM Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e.V., von der
ASI Arbeitsgemeinschaft Sozialwissenschaftlicher Institute e.V. und vom BVM Be-
rufsverband Deutscher Markt- und Sozialforscher e.V. gegründet. Seit dem Jahr
2006 gehört ihm auch die DGOF Deutsche Gesellschaft für Online-Forschung e.V.
an. Ziel und Aufgabe des Rates ist es, die Einhaltung der Berufsgrundsätze und der
Standesregeln zu sichern (vgl. Wiegand, 2012). Sie sind im ICC/ESOMAR Inter-
nationalen Kodex für die Markt- und Sozialforschung, in der dem Kodex vorange-
stellten Deutschen Erklärung und in den verschiedenen Richtlinien der deutschen
Verbände festgeschrieben und gewährleisten den Schutz der Befragten, der Auf-
traggeber und der Markt- und Sozialforscher. Zum Berufsethos der Markt- und
Sozialforschung gehört untrennbar auch das Arbeiten nach anerkannten wissen-
schaftlichen Methoden. Dem Rat ist ein Beschwerderat angeschlossen, dessen Be-
schwerdekammern Verstöße gegen die Standesrichtlinien bearbeitet und ggf. Sank-
tionen bis zur veröffentlichten Rüge erteilt.

Infrastruktureinrichtung für Sozialwissenschaften


GESIS – Leibniz-Institut für Sozialwissenschaften:
Das GESIS - Leibniz-Institut für Sozialwissenschaften ist die größte deutsche Infra-
struktureinrichtung für die Sozialwissenschaften. Mit seinen über 250 Mitarbeite-
88 I.12 Institutionen der Sozialforschung

rinnen und Mitarbeiter an drei Standorten (Mannheim, Köln, Berlin) erbringt GE-


SIS grundlegende, überregional und international bedeutsame forschungsbasierte
Dienstleistungen.
Website:
http://www.gesis.org/

I.12.2 Amtliche Statistik

Statistisches Bundesamt Deutschland


Das Statistische Bundesamt ist eine selbstständige Bundesoberbehörde. Es gehört zum
Geschäftsbereich des Bundesministeriums des Innern, welches die Dienstaufsicht aus-
übt. Wichtige organisatorische, personelle und finanzielle Fragen kann das Statistische
Bundesamt nur mit Zustimmung des Bundesministeriums des Innern entscheiden.
Die Fachaufsicht führen die für die jeweiligen Statistiken zuständigen Bundesministe-
rien, welche sicherstellen müssen, dass die entsprechenden Statistiken so durchgeführt
werden, wie es der entsprechende Rechtsakt anordnet. Das statistische Bundesamt hat
den Auftrag, statistische Informationen bereitzustellen und zu verbreiten, die objek-
tiv, unabhängig und qualitativ hochwertig sind. Diese Informationen stehen allen zur
Verfügung: Politik, Regierung, Verwaltung, Wirtschaft und Bürgern. Das Bundessta-
tistikgesetz präzisiert die Aufgaben des Statistischen Bundesamtes. Entsprechend dem
föderalen Staats- und Verwaltungsaufbau der Bundesrepublik Deutschland werden
die bundesweiten amtlichen Statistiken („Bundesstatistiken“) in Zusammenarbeit
zwischen dem Statistischen Bundesamt und den Statistischen Ämtern der 16 Länder
durchgeführt. Die Bundesstatistik ist also weitgehend dezentral organisiert. Wichtigste
Aufgabe des Bundesamts ist es, dafür zu sorgen, dass die Bundesstatistiken überschnei-
dungsfrei, nach einheitlichen Methoden und termingerecht erstellt werden. Zum Auf-
gabenkatalog des Statistischen Bundesamtes gehören
• die methodische und technische Vorbereitung der einzelnen Statistiken;
• die Weiterentwicklung des Programms der Bundesstatistik;
• die Koordinierung der Statistiken untereinander;
• die Zusammenstellung und Veröffentlichung der Bundesergebnisse.
Für die Durchführung der Erhebung und die Aufbereitung bis zum Landesergebnis
sind überwiegend die Statistischen Ämter der Länder zuständig.
I.12 Institutionen der Sozialforschung 89

Website:
http://www.destatis.de/

Statistisches Amt der Europäischen Union (Eurostat)


Eurostat ist das statistische Amt der Europäischen Union mit Sitz in Luxemburg.
Es hat den Auftrag, die Union mit amtlichen europäischen Statistiken zu versorgen,
die Vergleiche zwischen Ländern und Regionen ermöglichen.
Website:
http://ec.europa.eu/

I.12.3 Wissenschaftliche Vereinigungen

Die folgenden wissenschaftlichen Vereinigungen verdienen hinsichtlich ihrer Be-


deutung für die Umfrageforschung besondere Erwähnung:
Methodensektion der Deutschen Gesellschaft für Soziologie
Website:
http://www.soziologie.de/
Akademie für Soziologie e.V.
c/o Fakultät für Sozialwissenschaften
Universität Mannheim
Website:
https://akademie-soziologie.de/
European Survey Research Association (ESRA)
Website:
http://www.europeansurveyresearch.org/
World Association of Opinion Research (WAPOR)
Website:
http://wapor.org/
American Association of Public Opinion Research (AAPOR)
Website:
http://www.aapor.org/
90 I.13 Zusammenfassung

I.13 Zusammenfassung

Die vorangegangenen Abschnitte haben gezeigt, welche Schritte während der Vor-
bereitung und Durchführung einer Umfrage durchlaufen werden müssen. Wird
eine optimale Qualität der Daten angestrebt, sollten alle Schritte gleichermaßen op-
timiert werden. Um dies zu erreichen ist ein Team von Spezialisten (Umfrageope-
ratoren) notwendig, die für die Schritte einschlägig ausgebildet sind und die über
einschlägige Erfahrungen verfügen. Der Blick auf die Optimierung aller Schritte
des Umfrageprozesses ist insbesondere für alle Umfragen von wissenschaftlichem
und/oder gesellschaftlichem Interesse notwendig, deren Daten für die gesellschafts-
wissenschaftliche Forschung und die amtliche Statistik von besonderer Bedeutung
sind und die auf eine möglichst präzise Beschreibung einer Zielpopulation auf der
Basis von Stichprobendaten abzielen.
Der beschriebene Anspruch sollte immer in den Blick genommen werden, auch
wenn er sich unter Kosten- und Ressourcengesichtspunkten nicht realisieren lässt.
Wer mit der praktischen Durchführung von Umfragen vertraut ist, weiß, dass sich
dieser Anspruch nie vollständig umsetzen lässt. Zu vielfältig sind auch die nicht
vorhersehbaren internen und externen Einflüsse. Auf der anderen Seite erlaubt nur
der Blick auf das, was optimal an Qualität erreichbar wäre, eine Beurteilung der
möglichen Einflussfaktoren auf Qualitätsdefizite der Daten.
Wir werden in den Medien immer wieder mit Ergebnissen von Umfragen un-
terschiedlicher Thematik überschüttet, von denen wir nicht wissen, nach welchen
Qualitätsmaßstäben gearbeitet wurde. Viele Umfragen dienen nur der Unterhal-
tung bzw. der Moderation von Unterhaltungsveranstaltungen. Trotzdem erfolgt
die auf ihnen basierende Berichterstattung mit einer gewissen Ernsthaftigkeit. Erst
wenn man einen Eindruck davon hat, welche methodischen Defizite zu welchen
Ergebnisverzerrungen führen können und wie unterschiedlich interpretierbar Um-
frageergebnisse sind, kann man sie mit der notwendigen Vorsicht interpretieren.
Natürlich unterscheiden sich Umfragen in ihrer Komplexität. Manchmal han-
delt es sich nur um einen einfachen Fragebogen mit einfachen Fragen oder von
Fragen, die bereits mehrfach geprüft wurden, so dass man eventuell auf umfang-
reiche Pretest-Verfahren verzichten kann. Auch können eventuell einige Nicht-
beobachtungsfehler ausgeschlossen werden, so dass eine Unterrepräsentation der
Zielpopulation in der Auswahlgrundlage ausgeschlossen werden kann. Aber schon
die Unwägbarkeiten der Teilnahmebereitschaft und der Erreichbarkeit können zu
Beeinträchtigungen der Datenqualität führen.
Können bestimmte Standards aus verschiedenen Gründen nicht erfüllt werden,
heißt dies nicht unbedingt, das die Ergebnisse unbrauchbar sind, es heißt aber, dass
die Ergebnisinterpretation mit Vorsicht vorgenommen werden muss. Eventuell
I.13 Zusammenfassung 91

empfehlen sich nur sehr grobe Trendaussagen. In der Forschung erlauben Umfra-
gedaten wegen des eher hohen Stichprobenumfangs eine präzisere Beschreibung
der statistischen Eigenschaften der Grundgesamtheit, komplexere Analysen von
Verursachungszusammenhängen und Vergleiche von Subpopulationen. Die Ein-
bettbarkeit in unterschiedliche Forschungsdesigns erlaubt eine flexible Nutzung in
unterschiedlichen Forschungsfragestellungen.
Die Durchführung von Umfragen sollte transparent und unter Berücksichti-
gung der einschlägigen Qualitätsrichtlinien erfolgen. Die Beachtung der Daten-
schutz-Grundverordnung stellt eine Selbstverständlichkeit dar.
Teil II: Kommunikationsformen (Modes) und
ihre Wirkungen

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 93
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1_2
II.1 Überblick

Der Informationsaustausch mit Kontakt- und/oder Zielpersonen im Verlauf der


Kontaktaufnahme mit potentiellen Interviewpartnern, sowohl im Rahmen des
Screenings als auch im Rahmen des eigentlichen Interviewprozesses kann unter
Anwendung unterschiedlicher Kommunikationsformen (auch: Befragungsarten,
Befragungsformen; engl.: modes) erfolgen (z.B. Kontaktaufnahme via SMS, via
E- Mail, schriftlich/ postalisch, etc.). Bezieht man die Kommunikationsform nur
auf das Interview, so wird auch von Interviewformen (engl.: interview modes) ge-
sprochen. Bezieht man die Kommunikationsform dagegen auf die Kontakt- und
Screeningphase, so spricht man von Kontaktformen oder Screening-Formen (engl.
contact modes bzw. screening modes). Unterschieden werden kann ferner zwischen
der Form, in welcher der Administrator seine Informationen kommuniziert bzw.
seine Fragen stellt und der Form, in welcher der Adressat des Administrators, also
die Kontakt- oder Zielperson, ihre Antworten kommuniziert. Beide Formen müs-
sen, zumindest, was die Kommunikationskanäle angeht, nicht unbedingt identisch
sein. So könnten etwa Zielpersonen schriftlich/postalisch eingeladen werden, an ei-
ner Befragung teilzunehmen, aber ihre Bereitschaft dazu nicht nur schriftlich, z.B.
auf einer Antwortkarte, sondern auch telefonisch oder per E-Mail kommunizieren.
Das eigentliche Interview könnte wiederum in einer anderen Form, etwa über das
Web erfolgen. Auch im Interview könnten dem Befragten die Fragen visuell auf
einem Bildschirm, z.B. auf dem Smartphone, eventuell über ein damit verbundenes
Google Glass, oder einer Smartwatch präsentiert werden, während dieser die Ant-
worten in ein Formular per Hand schriftlich einträgt.
Da im Rahmen der Kommunikation mit den Kontakt- und Zielpersonen
Sprechhandlungen wie Fragen, Bitten, Auffordern, Antworten, Instruieren und
Informieren, Beschreiben, etc. realisiert werden, lassen sich die Kommunikations-
formen auch als Ausführungsvarianten von Sprechhandlungen betrachten (vgl.
Faulbaum, Prüfer & Rexroth, 2009).
Mit der Wahl einer Kommunikationsform im Interview sind immer spezifische
Ausgestaltungen von Komponenten des Umfrageprozesses verbunden, darunter
die Art der Operationalisierung und Fragebogenkonstruktion, die Verfahren der
Stichprobenauswahl und die praktische Durchführung und Organisation der Um-
frage. Wir werden in Abschnitt II.7 die Auswirkungen auf die Vorbereitung und
Durchführung von Umfragen näher beschreiben und auf die spezifischen organi-
satorischen Maßnahmen eingehen, die mit der Entscheidung für eine bestimmte
Befragungsart verbunden sind und die das für die Planung und Durchführung der
Umfrage zuständige Team von Operatoren vor besondere Aufgaben stellen. So fal-
96 II.2 Grundlegende Dimensionen der Kommunikationsform

len Aufgaben wie das Interviewer-Training nur bei Kommunikationsformen an,


die den Einsatz von Interviewern vorsehen, der postalische Versand von Fragebö-
gen entsteht nur bei Kommunikationsformen, bei denen eine schriftliche Kommu-
nikation ohne Interviewer vorgesehen ist. Der Einsatz von menschlichen Operato-
ren in der Feldorganisation findet nur dann statt, wenn die Feldorganisation nicht
von einem Computer bewerkstelligt wird.
Die spezifischen Merkmale einer Befragungsform oder der modespezifischen
Kontaktaufnahme können sich in unterschiedlicher Weise auf die resultierenden
Daten auswirken. Diese auch als Mode-Effekte bezeichneten Wirkungen betreffen
die Merkmalsverteilungen der finalen Stichprobe durch selektive Teilnahme (sog.
Selektionseffekte) andererseits aber auch das Antwortverhalten und damit die Mes-
sung (sog. Messeffekte)

II.2 Grundlegende Dimensionen der Kommunikations-


form

II.2.1 Administrationsformen und Kommunikationskanäle

Grundsätzlich lassen sich die in Befragungen eingesetzten Kommunikationsfor-


men zwischen den Kommunikationspartnern während der Kontaktaufnahme oder
eines Interviews gemäß folgender Dimensionen differenzieren (vgl. Abbildung
II.1):

• nach der Administrationsform;


• nach den eingesetzten Informations- bzw. Kommunikationskanälen;
• nach der eingesetzten Befragungstechnologie.

Eine Kommunikationsform kann in einem Interview sowohl für einzelne Fragen


als auch für das gesamte Interview festgelegt werden, wobei es mitunter sinnvoll er-
scheinen kann, diese Festlegungen entsprechend der im Verlauf einer Umfrage ge-
machten Erfahrungen im Rahmen eines responsiven Umfragedesigns (vgl. Groves
& Heeringa, 2006) zu ändern, um eine Fehler- und Kostenreduktion zu erreichen
(vgl. Couper & Wagner, 2011).
Die Administrationsform bestimmt, wer die Fragen stellt und wer die Antworten
registriert bzw. dokumentiert. Dabei lassen sich grob zwei Klassen von Interviews
unterscheiden: Interviewer-administrierte Interviews (engl.; Interviewer-adminis-
II.2 Grundlegende Dimensionen der Kommunikationsform 97

tered interviews) und Selbst-administrierte Interviews (engl.: Self-administered in-


terviews bzw. Self-administered questionnaires; kurz SAQ; deutsch: Selbstausfüller).
Bezieht man die Administrationsform anstatt auf das vollständige Interview auf
einzelne Fragen oder Items (zur Präzisierung der Begriffe „Frage“ und „Item“ vgl.
Teil III) wird man eher von Interviewer- oder Selbst-administrierten Fragen bzw.
Items sprechen. Bei Interviewer-administrierten Interviews werden die Fragen von
einem Interviewer vorgelesen und je nach Befragungstechnologie in einen Papier-
fragebogen oder in einen auf einem Rechner abgelegten, zuvor programmierten
Fragebogen eingetragen. Handelt es sich um ein Interview von „Angesicht zu An-
gesicht“ (engl.: face-to-face) bei dem der Interviewer den Befragten unter persön-
licher Anwesenheit direkt anspricht und die Fragen an ihn adressiert, so spricht
man von einem Face-to-Face-Interview (kurz: FtF-Interview bzw. F2F-Interview).
Der Interviewer ist in diesem Fall also mit seinem visuellen Erscheinungsbild und
den Merkmalen seiner Stimme für den Befragten wahrnehmbar. Beim Telefonin-
terview, das ebenfalls zu den Interviewer-adminstrierten Interviews gehört, ist der
Interviewer dagegen nur mit seinen stimmlichen Merkmalen wahrnehmbar. Dank
fortgeschrittener Technologien, die über Web-Kameras (Skype) oder über mit dem
Smartphone verbundene Kameras auch eine visuelle Übertragung bei physischer
Nichtpräsenz ermöglichen, lassen sich Face-to-Face-Interviews auch ohne direkte
physische Anwesenheit der Kommunikationspartner realisieren.
Im Unterschied zu Interviewer-administrierten Interviews liest der Befragte bei
Selbst-administrierten Interviews die Fragen selber von einem Nachrichtenträger ab
und notiert die Antworten selber auf einem Nachrichtenträger. Eine typische Vari-
ante ist die schriftlich/postalische Interaktionsvariante von Mail-Umfragen.
Neben diesen reinen Administrationsformen sind allerdings auch Mischfor-
men denkbar. So können z.B. Interviewer-administrierte Interviews durchaus auch
Selbst-administrierte Elemente sowohl auf Seiten des Interviewers als auch auf
Seiten des Befragten enthalten. So besteht etwa die Möglichkeit, dass der Inter-
viewer die Frage vorliest, die Eingabe der Antwort auf einem Informationsträger
aber durch den Befragten selbst erfolgt. Umgekehrt könnten Fragen dem Befragten
schriftlich oder online zugeschickt werden und die Interviewer die Antwort beim
Befragten mündlich, z.B. über Telefon, abrufen. Es gibt also verschiedene Grade
und Arten der Einbeziehung des Interviewers (engl.: interviewer involvement; vgl.
Groves et al. 2009, p. 153).
98 II.2 Grundlegende Dimensionen der Kommunikationsform

Abbildung II.1: Dimensionen der Kommunikationsformen (Modes)

Mit unterschiedlichen Administrationsformen sind bestimmte Kommunikations-


bzw. Sinneskanäle sowohl auf Seiten des Interviewers als auch auf Seiten des Be-
fragten verbunden. Bei reinen Interviewer-administrierten Interviewformen ist
der bevorzugte Informationskanal der auditive Kanal; d.h. der Interviewer stellt
die Frage mündlich, der Befragte hört die Frage und antwortet mündlich. Daneben
können aber auch etwa bei Face-to-Face-Interviews unbeabsichtigtes nonverbales
Verhalten sowie sichtbare Merkmale des Interviewers über den visuellen Infor-
mationskanal mitübertragen werden. Außerdem bietet es sich aus methodischen
Gründen bei bestimmten Fragen an, im Face-to-Face-Interview vom akustischen
Kanal auf den visuellen Kanal zu wechseln. Dies wäre ein Beispiel für einen sog.
„mode switch“ im laufenden Interview (vgl. z.B. Couper & Rowe, 1996). So legt der
Interviewer etwa bei der sensitiven Frage nach dem persönlichen Nettoeinkommen
dem Befragten gelegentlich ein Blatt mit der Frage vor, in welches dieser die Ant-
wort einträgt. Das Blatt wird dann, ohne dass der Interviewer einen Blick darauf
wirft, in einen Umschlag gegeben. Ähnliches geschieht auch bei computerunter-
stützten Interviewer-administrierten Interviews. In diesem Fall wird der Befragte
II.2 Grundlegende Dimensionen der Kommunikationsform 99

gebeten, die Antwort selbst in den Computer einzugeben. Weitere Selbst-adminis-


trierte Elemente in Interviewer-administrierten Interviews sind Befragungshilfen
wie z.B. Skalenvorlagen in Form von Leitern, die dann vom Befragten über den
visuellen Informationskanal verarbeitet werden.
Selbst-administrierte Interviews verwenden bevorzugt den visuellen Informa-
tionskanal. Auch hier gibt es Mischformen wie etwa bei Audio-CASI (ACASI), bei
denen der Befragte nicht nur Fragen vom Bildschirm liest, sondern zusätzlich auch
die Fragen hört, also zusätzlich zum visuellen Kanal den auditiven Kanal nutzt.
Eine weitere Mischform stellen Administrationsformen dar, in denen die Fragen
nicht von einem während des Interviews real präsenten Interviewer gestellt wer-
den, sondern von einem System mit künstlicher oder vorher aufgenommener Stim-
me wir bei IVR bzw. T-ACASI (vgl. unten sowie Groves et al. 2009, p. 151).
Jede Administrationsform kann durch ihr spezifisches Bündel von Merkmalen
besondere Gefährdungen für die Datenqualität nach sich ziehen, was bei ihrem
Einsatz berücksichtigt werden sollte. Grundsätzlich können ganz unterschied-
liche Aufteilungen des Fragebogens zwischen Interviewer-administrierten und
Selbst-administrierten Formen sowie zwischen Formen mit und ohne Computer-
unterstützung sinnvoll sein. So kann etwa der „inhaltliche“ Teil eines Fragebogens
Selbst-administriert ohne Computerunterstützung durch Selbstausfüllen eines
Papierfragebogens bearbeitet werden, während die soziodemographischen Fragen
Interviewer-administriert und computerunterstützt (CAPI, siehe unten) adminis-
triert werden.

II.2.2 Befragungstechnologien

II.2.2.1 Allgemeines

Administrationsformen können zusammen mit Kommunikationskanälen unter


Einsatz unterschiedlicher Technologien realisiert werden. Die ursprünglich vor-
herrschende Technologie war die Paper-und-Pencil-Technologie, die in verschie-
denen Administrationsformen angewendet wird. Im Fall der Interviewer-Ad-
ministration liest der Interviewer die Fragen eines in Papierform vorliegenden
Fragebogens nacheinander vor und trägt die Antworten des Befragten in den
Fragebogen mit einem Stift in einen dafür vorgesehenen Raum (z.B. Kästchen)
ein bzw. markiert die Antworten an einer vorgegebenen Stelle. Im Fall der
Selbst-Administration liest der Befragte die Fragen von einem Papierfragebogen
ab und trägt die Antworten ein. Man bezeichnet ein in Papierform realisiertes
100 II.2 Grundlegende Dimensionen der Kommunikationsform

Interview auch als Papier-und-Bleistift-Interview (Paper-and-Pencil-Interview,


abgekürzt: PAPI bzw. P&P. Obgleich diese Bezeichnung beide Administrations-
formen, Selbst-administriert und Interviewer-administriert, einschließt, da in
beiden Formen mit Papier und Bleistift gearbeitet werden kann, wird sie in erster
Linie mit dem Face-to-Face-Modus verbunden, der vor dem verstärkten Einsatz
telefonischer Interviews dominant war. Auf Grund seiner damaligen Dominanz
ist es nicht überraschend, dass dieser Erhebungsmodus auch einfach als Um-
fragemethode (engl.: survey method) bezeichnet wurde (vgl. De Heer, De Leeuw &
Van der Zouwen 1999, p. 34). In den 1980iger Jahren wurde diese Befragungsart
zunehmend ergänzt durch telefonische und postalische Befragungen (auch: Mail-
umfragen; engl.: mail surveys). Mailumfragen stellen eine Form Selbst-administ-
rierter Interviews in Paper-und-Pencil-Technologie dar, bei der die Papierfrage-
bögen auf dem Postweg zugestellt werden. In anderen Erhebungsdesigns werden
Papierfragebögen nicht versandt, sondern z.B. als Ergänzungen im Anschluss an
einen Interviewer-administrierten Befragungsteil eingesetzt wie im ISSP vor Ein-
führung ergänzender CASI-Interviews (vgl. z.B. Kim et al., 2010) oder bei Grup-
penbefragungen im Klassenzimmer oder im Hörsaal.
Sowohl telefonische Interviews als auch postalische Interviews beinhalten
gegenüber Face-to-Face-Interviews bereits eine gewisse Liberalisierung des Be-
fragungsorts auf Seiten der Befragten, da telefonische Interviews überall dort
durchgeführt werden können, wo die Befragten es vorschlagen, und dies ist
angesichts der rapiden Zunahme der Mobilfunknutzung und der Internet-Te-
lefonie theoretisch grenzenlos in der ganzen Welt möglich. Ähnlich kann bei
postalischen Umfragen grundsätzlich der einmal zugestellte Fragebogen dort
ausgefüllt werden, wo der Befragte es vorzieht, z.B. unterwegs, zu Hause, im
Büro, etc. Auch die Postadresse kann sich ggf. den Wünschen der Befragten
anpassen.
Alle oben erwähnten Interviewformen zeichnen sich dadurch aus, dass sie
ohne Computerunterstützung arbeiten. Inzwischen gibt es zu allen oben aufge-
führten traditionellen Erhebungsmethoden verschiedene Varianten, die auf
unterschiedliche Art und Weise den Computer im Interview einsetzen bzw. ir-
gendeine Art von Befragungssoftware verwenden, wobei zahlreiche Funktionen
nicht nur des Interviewers, sondern auch der Feldorganisation auf den Compu-
ter übertragen werden können. Insgesamt hat sich durch die Erweiterung der
technologischen Möglichkeiten die Klasse der Befragungsmethoden sehr stark
erweitert, wobei diese Entwicklung noch nicht abgeschlossen ist und sich ständig
in Veränderung befindet.
Für Interviewformen, bei denen der Computer als Unterstützung eingesetzt
wird, spricht man auch von computerunterstützten Interviews. Computerunter-
II.2 Grundlegende Dimensionen der Kommunikationsform 101

stützte Interviews beinhalten im Vergleich zu ihren Entsprechungen ohne Com-


puterunterstützung keinen Wechsel des Sinneskanals, über den Informationen
ausgetauscht werden, sondern nur einen Wechsel zu einer anderen Form der tech-
nologischen Unterstützung. So handelt es sich etwa beim Wechsel von einem per-
sönlich/mündlichen Interview ohne Computerunterstützung zu einem Interview,
bei dem der Interviewer ein Notebook oder ein Tablet einsetzt, auch weiterhin
um eine Interviewer-administrierte Form der Befragung, bei der ein Interviewer
mündlich die Fragen stellt und die Antworten notiert. Entsprechendes gilt für Te-
lefonbefragungen.
Computerunterstützte Umfragen gehören wegen verschiedener methodischer
und organisatorischer Vorteile gegenwärtig zu den bevorzugten Befragungstech-
nologien und definieren zusammen mit den oben beschriebenen Administrations-
formen und Sinneskanälen spezifische Befragungsarten bzw. Modes. Sie werden
in der internationalen Forschung mit alternativen Bezeichnungen belegt wie CAI
(Computer Assisted Interviewing), CASIC (Computer Assisted Information Col-
lection) bzw. CADAC (Computer Assisted Data Collection) (vgl. De Leeuw & Ni-
cholls II, 1996; De Leeuw & Collins, 1997). Im Folgenden werden die Verfahren
mit Computerunterstützung näher beschrieben. Befragungsarten innerhalb einer
bestimmten Administrationsform lassen sich auch durch Zusätze in den Bezeich-
nungen unterscheiden, wie z.B. Web Self-Administered Questionnaires (WSAQ)
und Mail Self-Administered Questionnaires (MSAQ) (vgl. Vannieuwenhuyze &
Loosfeldt, 2013).
Ein weiteres technologisch orientiertes Einteilungsprinzip ist jenes nach dem
Grad der Mobilität der Nutzung und der Einsatzmöglichkeiten. Man spricht bei
Technologien wie z.B. Smartphones, Tablets, etc. von sog. mobilen Geräten (engl.:
mobile devices). Das Merkmal der Mobilität ändert nichts an den grundsätzlichen
Dimensionen der Kommunikation, sondern betrifft nur die Form der Nutzung.
Gelegentlich wird in diesem Zusammenhang auch von Geräteformen (engl.: de-
vice modes) gesprochen. Umfragen, die in einer Kommunikationsform, aber un-
terschiedlichen Geräten erfolgen, heißen auch „Mixed-Device-Surveys“. So können
etwa in einer Online-Umfrage etwa Smartphones, Tablets und Laptops eingesetzt
werden (vgl. z.B. Toepol & Lugtig, 2015).
102 II.2 Grundlegende Dimensionen der Kommunikationsform

II.2.2.2 Interviewer-administrierte Verfahren mit Computerun-


terstützung

Zu den Interviewer-administrierten computerunterstützten Interviewmethoden


können gerechnet werden:

CAPI (Computer Assisted Personal Interviewing)


CATI (Computer Assisted Telephone Interviewing)

CAPI
CAPI stellt die computerunterstützte Variante der Interviewer-administrierten
„Paper und Bleistift“- Methode dar. In CAPI-Interviews sucht der Interviewer die
Befragten mit einem tragbaren Computer, in der Regel einem Notebook, einem Ta-
blet oder auch einem Smartphone, (allgemein: mit einem mobilen Gerät) auf. Der
Fragebogen wird dem Interviewer auf dem Monitor präsentiert und den Befragten
vorgelesen. Die Antworten der Befragten werden vom Interviewer in den Com-
puter eingegeben. Nach Beendigung des Interviews können die Daten entweder
per E-Mail an einen zentralen Rechner geschickt oder entweder direkt über eine
sichere Verbindung per E-Mail oder ggf. auch durch Versand von Disketten bzw.
CD-ROMs an die Feldleitung geschickt werden. Interviewer-Instruktionen oder
Adressmaterial kann auf dem gleichen Weg an den Interviewer übermittelt werden.
Die Vorteile von CAPI gegenüber PAPI ergeben sich nicht zuletzt aus der Program-
mierung des Fragebogens, die die Möglichkeit eröffnet, Fehlerquellen wie unzuläs-
sige Eingaben oder Filterfehler bereits bei der Programmierung auszuschließen.
Hinzu kommt die bessere Lesbarkeit der Interviewer-Eingaben. Nachteile ergeben
sich möglicherweise bei kurzen Fragebögen durch längere Interviewzeiten (vgl.
Baker, Bradburn & Johnson, 1995). Bestimmend für die Interviewdauer sind aber
auch schlechte Beleuchtung, Schwierigkeiten, den Bildschirm zu lesen und hoher
Tipp-Aufwand. Um für Interviewer tragbar zu sein, sollte ein Notebook nicht mehr
als 7-8 Pfund wiegen (vgl. Couper & Groves, 1992). Durch die Nutzung von Tablets
und anderen mobilen Technologien spielt dieses Problem aber keine nennenswerte
Rolle mehr. Allerdings ergeben sich neue Probleme wie die des in seiner Größe ein-
geschränkten Screens, etc., welche vor dem Einsatz eine Erprobung auf die Hand-
habbarkeit (engl.: usability) des Geräts und damit auch eine entsprechende Gestal-
tung des Betriebssystems, des Browsers und der eingesetzten Software erfordert.
Neben dem Notebook können als Befragungsinstrumente auch sog. PDAs (Per-
sönliche Digitale Assistenten) zum Einsatz kommen. Bei den PDAs handelt es sich
II.2 Grundlegende Dimensionen der Kommunikationsform 103

um Taschenrechner, etwa so groß wie eine Handfläche (engl.: hand-held computer),


so dass sie bequem in einer Jacken- bzw. Hemdtasche getragen werden können (vgl.
Schneid, 2004). Ihr Einsatz ist sowohl bei Selbst-administrierten Varianten als auch
in CAPI- Varianten möglich (siehe unten).
Notebooks und Tablets sind sehr flexibel einsetzbar. Wird das Notebook etwa
an die Klimabedingungen angepasst und mit verschiedenen Zusatzoptionen wie
GPS-Empfang ausgestattet, so lassen sich CAPI-Umfragen auch in entlegenen
Gebieten wie dem Amazonas-Gebiet mit extremen Klimabedingungen, geringer
Populationsdichte und fehlenden Identifikationsmöglichkeiten von Adressen unter
Verwendung visueller Informationen mit Erfolg einsetzen (vgl. Caviglia-Harris et
al., 2012).

CATI
CATI stellt die älteste Form des computerunterstützten Interviews dar (vgl. Cou-
per & Nicholls II, 1998). Die erste CATI-Befragung wurde zu Beginn der 70er
Jahre vom Marktforschungsinstitut Chilton Research in Zusammenarbeit mit AT
&T durchgeführt. Ursprünglich wurden dabei Minicomputer-Systeme verwendet.
Heute werden Computernetzwerke eingesetzt, über welche die Interviewstationen
(Telefonplätze) miteinander verbunden sind. Alle Stationen können auf einen zen-
tralen Rechner (Server) zugreifen, auf dem die Adressdateien mit den dazugehö-
rigen Telefonnummern liegen. Die Interviewer sitzen, mit einer Sprecheinrichtung
(Headsets) versehen, an ihrem mit Telefon, Computer und Bildschirm eingerichte-
ten Telefonplatz und lesen die Fragen vom Bildschirm ab. Die Antworten der Be-
fragten werden per Tastatur in den Computer eingegeben, der diese direkt auf den
Server überträgt. Die Anwahl der Telefonnummern kann entweder über den Inter-
viewer oder über den Rechner erfolgen (sog. Autodialing, siehe unten). Die gesamte
Steuerung des Feldes wird von einer CATI-Verwaltungssoftware übernommen, die
sich auf einem Server befindet und die die Anruf-, Kontakt- und Terminverwaltung
übernimmt (siehe Abschnitt 3.1.2). Bei Terminvereinbarung mit einer Zielperson
wird die entsprechende Telefonnummer zum vereinbarten Termin auf einen freien
Interviewer- bzw. Telefonplatz gelegt. Das Verwaltungsprogramm kann so einge-
stellt werden, dass bei einem Besetztzeichen die Telefonnummer nach einem vor-
gegebenen, aber einstellbaren Zeitintervall (z.B. 40 Minuten) erneut vorgelegt wird.
Auch die Anzahl der Kontaktversuche kann vorher eingestellt werden.
In der Regel können vor Feldbeginn auch Quoten vorgegeben werden, die
durch Kombinationen mehrerer Merkmale (z.B. Alterskategorien und Geschlecht)
definiert sind. Sind die Quoten (z.B. 30 Männer im Alter zwischen 40 und 50 Jah-
104 II.2 Grundlegende Dimensionen der Kommunikationsform

ren) in einer Quotenzelle erfüllt, so werden unter dieser Quotenbedingung keine


weiteren Interviews mehr realisiert werden.
CATI-Interviews werden normalerweise in speziellen Räumlichkeiten, die
auch als Telefonstudio oder Telefonlabor bezeichnet werden, durchgeführt. Sie
können aber auch dezentralisiert vom Heimarbeitsplatz der Interviewer durch-
geführt werden (Decentralized CATI, kurz: DCATI; vgl. Bergmann et al., 1994;
Chapman & Weinstein, 1990). Durch die Koppelung mit Videoübertragungen
lassen sich die auditiven Merkmale der Befragten und Interviewer mit visuellen
Merkmalen verbinden. Allerdings muss bei Heimarbeitsplätzen eine Anbin-
dung an die CATI-Verwaltungssoftware unter Einhaltung des Datenschutzes
(z.B. sichere Datenleitung) gewährleistet sein.
Die Telefonplätze eines Telefonlabors (Abbildung II.2) sind im Rahmen eines
lokalen Computernetzes (LAN: Local Area Network) mit einem Server verbun-
den. Zum Betrieb des Netzes ist der Einsatz entsprechender Netzsoftware notwen-
dig. Wichtig ist, dass das Netz absolut zuverlässig funktioniert, um die Gefahr von
Zusammenbrüchen des Netzes und damit von rein technischen Einflüssen auf die
Umfragequalität zu reduzieren. Der Server sollte ferner mit einer Unterbrecher-
versorgung ausgestattet sein, um im Notfall, z.B. bei einem unvorhergesehenen
Stromausfall das geordnete Herunterfahren des Servers und des Abspeicherns aller
aktuellen Informationen zu ermöglichen.
Die Telefonplätze sollten den Interviewern genügend Raum zur Verfügung
stellen. Ein Telefonplatz besteht nicht nur aus einem Arbeitstisch, einem Tele-
fon, einem Rechner mit Monitor und einer Sprechgarnitur. Zusätzlich etwa sind
Ablagen für Instruktionen, etc. wünschenswert (siehe auch die Beschreibung in
Gwartney, 2007). Auf den Tischen sollten Begleitmaterialien, z.B. zu Argumen-
ten, mit denen Verweigerungsreaktionen begegnet werden kann, ausgebreitet
werden können. Die Stühle sollten gepolstert und mit einstellbarer Rückenlehne
versehen sein. Zu empfehlen ist auch eine Trennung der Plätze durch schalldäm-
mende Trennwände. Auch Decke und Wände des Telefonlabors sollten soweit
möglich mit schalldämmenden Materialien versehen sein, um den Geräuschpe-
gel gering zu halten.
II.2 Grundlegende Dimensionen der Kommunikationsform 105

Abbildung II.2: Telefonlabor

Neben dem Server und den Telefonplätzen gibt es noch einen oder mehrere Ar-
beitsplätze für die Supervisoren. Supervisoren überwachen die Durchführung der
Interviewsitzungen und können von ihrem Arbeitsplatz aus die aktuellen Daten
der Sitzung abrufen und sich gegebenenfalls nach Einholung der entsprechenden
Einwilligung in die Interviews einschalten, um sich von der ordnungsgemäßen
Durchführung der Interviews zur überzeugen, Fälschungen auszuschließen und
die Fähigkeiten der Interviewer zu überprüfen. Sie überwachen ferner den techni-
schen Ablauf und führen am Ende einer Sitzung die Datensicherung durch.
Vor allem kommerzielle Institutionen und Marktforschungsunternehmen ver-
fügen oft über geographisch auseinanderliegende regionale Zentren, die über die
Bundesrepublik, Europa oder darüber hinaus gestreut sind. Dabei werden entwe-
der getrennte regionale Umfragen durchgeführt oder eine Umfrage wird auf ver-
schiedene Niederlassungen verteilt. Dies macht vor allem die Fallverwaltung (siehe
unten) komplizierter. Man kann damit auf unterschiedliche Weise umgehen. Eine
Möglichkeit ist, die Stichprobe unter den einzelnen Zentren aufzuteilen, eine an-
dere die, den Zentren einen Online-Zugriff auf eine zentrale Datenbank zu gestat-
ten. Eine weitere Variante ist die, sich täglich Fälle und die Unterlagen über die
Tagesplanung von einem zentralen Host abzuholen und am Ende des Tages die
Ergebnisse dem Host zu übermitteln.
106 II.2 Grundlegende Dimensionen der Kommunikationsform

Voraussetzung für die Teilnahme an einer CATI-Befragung ist der Zugang zu


einem Festnetz- oder Mobilfunkanschluss. Grundsätzlich können Mobilfunk-Te-
lefone auch von Interviewern im Rahmen von Face-to-Face-Interviews eingesetzt
werden, so lange die korrekte Abwicklung der Interviews durch die Interviewer
kontrollierbar bleibt.

II.2.2.3 Selbst-administrierte Verfahren mit Computerunter-


stützung (CASI bzw. CASQ)

Selbst-administrierte Formen computerunterstützter Interviews gibt es seit den


1980er Jahren Kennzeichnend für diese Interviewmethoden ist, dass die Fragen
in der Interviewsituation nicht vom Interviewer persönlich (telefonisch oder Fa-
ce-to-Face) gestellt werden, sondern dass die Antworten von den Befragten selber
und nicht von Interviewern in den Rechner eingeben werden. Der Fragebogen wird
also nicht vom Interviewer appliziert, vielmehr wird der Interviewer durch eine
interaktive Befragungssoftware ersetzt, die den Befragten durch den Fragebogen
führt. Zu den Selbst-administrierten computerunterstützten Interviewmethoden
zählen:

CASI (Computer Assisted Self-Administered Interviewing) bzw.


CSAQ (Computerized Self-Administered Questionnaire):
• unter Anwesenheit und Anleitung eines Interviewers
• DBM (Disk By Mail)
• Inter- und intranetbasierte Umfragen:
• (06 (lectronic Mail 6XUYH\V E]Z(0DLO8PIUDJHQ
• CAWI (Computer Assisted Web Interviews) bzw.
Webumfragen (auch: Internet-Umfragen)

CASI mit auditiven Komponenten:


• $&$6, $XGLR&RPSXWHU$VVLVWHG6HOI,QWHUYLHZLQJ
• 7$&$6, 7HOHSKRQH$XGLR&RPSXWHU$VVLVWHG6HOI,QWHUYLHZLQJ

CAPAR (Computer Assisted Panel Research)

Eine weitere Variante der Selbstadministration, die insbesondere bei sensitiven


Fragen und bei Befragten mit sehr niedrigem Bildungsniveau Anwendung gefun-
den hat, ist die Nutzung von Apple iPods und MP3-Playern zur Präsentation von
Fragen (vgl. Chauchard, 2013; Galvez et al., 2009). Chauchard bezeichnet das Ver-
II.2 Grundlegende Dimensionen der Kommunikationsform 107

fahren einer Administration über einen MP3 Player als ASAQ (Audio Self-Admi-
nistered Questionnaire).
Unter den Begriffen CASI bzw. CSAQ werden alle Verfahren der computerun-
terstützten Selbstadministration zusammengefasst (vgl. De Leeuw, 2008); De Leeuw
& Collins, 1997). Durch das Voransetzen des Buchstaben „A“ werden die unter-
schiedlichen Verfahren mit auditiver Präsentation der Fragen, durch Voransetzen
des Buchstabens „T“ die Verfahren mit telefonischer Administration bezeichnet.
Da die Bezeichnungen nicht immer konsistent verwendet werden, empfiehlt es sich
immer, die Beschreibungen der Erhebungsmethode in den Veröffentlichungen ge-
nau zu studieren.
CASI-Interviews können wie SAQ-Interviews mit und ohne Anwesenheit des
Interviewers durchgeführt werden. Bei CASI-Interviews ohne Interviewer bittet
das Datenerhebungsinstitut den Befragten, den Fragebogen auf seinem eigenen
Computer zu beantworten. Dabei kann die dazu notwendige Software entweder
auf einer Diskette bzw. einer CD-ROM, die auch als Field Disk bezeichnet wird,
zugeschickt werden oder über ein LAN (Local Area Network), per E- Mail und/
oder per Zugriff auf Websites bereitgestellt werden.
Es kann sich aber auch, insbesondere bei Personen, die beruflich und privat nur
selten mit dem Computer arbeiten, empfehlen, die Befragten mit Notebooks oder
anderen passenden tragbaren Rechnern aufzusuchen, um diese in die Bedienung
des Computers und die Handhabung der Befragungssoftware einzuweisen sowie
für Rückfragen während des Interviews zur Verfügung zu stehen. Auch eine Mit-
arbeiterbefragung in einem Unternehmen oder eine Klassenzimmer-Befragung er-
fordert bei einer Selbst-administrierten Befragung an bereitgestellten Computern
in der Regel die Anwesenheit mindestens eines Interviewers, um bei Bedarf Hilfe-
stellungen zu geben. Diese Methode wird von einigen Autoren als CASIIP („CASI
Interviewer Present“) bezeichnet (Scherpenzeel & Saris, 1997, p.349), während sich
die Bezeichnung „CASI“ nur auf die Selbstapplikation hinsichtlich Lesen des Fra-
gebogens und Eintippen der Antworten bezieht.
Bei Interviews mit sensitiven Teilen kann es sinnvoll sein, CASI auch innerhalb
einer CAPI-Sitzung durchzuführen, indem der Interviewer dem Befragten den
Computer für eine kurze Zeit zur Beantwortung bestimmter Fragen überlässt (sie-
he oben). Eingesetzt wird diese Technik bei sensiblen Fragen und zur Reduktion
von Einflüssen der sozialen Erwünschtheit. Diese Form entspricht entsprechenden
Vorgehensweisen bei PAPI (siehe oben).
Bei einer CASI-Befragung mit Disketten-Versand der Befragungssoftware
spricht man von Disk-by-Mail (DBM)-Umfragen (vgl. Higgins, Dimnik & Green-
wood 1987; Schneid 1995). Nach Einlegen der Diskette rufen die Befragten zur Öff-
nung des Fragebogens eine Ausführungsdatei auf. Der Befragte geht Frage für Fra-
108 II.2 Grundlegende Dimensionen der Kommunikationsform

ge durch und gibt seinen Antworten über die Tastatur seines Computers ein. Nach
dem Ausfüllen des Fragebogens wird die Diskette wieder an das Umfrageinstitut
zurückgeschickt. Der Versand erfolgte früher vorwiegend postalisch, heute aber
in der Regel über ein Attachment zu E-Mails. Im Rahmen der Vorbereitung von
computerunterstützten Telefonumfragen können solche Field Disks zu Zwecken
der Kontrolle des programmierten Fragebogens an den Auftraggeber geschickt
werden, der die Interviewer-Tätigkeit am Computer simulieren kann, in dem er
selbst die Antworten eingibt und dabei inhaltliche Probleme, Layout-Probleme und
Probleme der Navigation aufdecken kann (vgl. auch Test programmierter Fragebö-
gen, Teil III).
Im Fall des Versands eines Fragebogens über E-Mail spricht man von EMS-Um-
fragen (Electronic Mail Surveys; auch: E-Mail-Umfragen). Bei EMS-Umfragen
werden an E-Mail-Nutzer E-Mails mit der Bitte geschickt, an einer Befragung teil-
zunehmen. Wenn sie zustimmen, wird ihnen über ein Interviewprogramm eine
Anzahl von Fragen gestellt oder sie erhalten eine elektronische Form des Fragebo-
gens, die sie später ausfüllen können.
Wie EMS-Umfragen, Informationsaustausch in Newsgroups und sozialen Netz-
werken, Internet-Relay-Chat-Kanäle (IRC) zum synchronen Austausch von Mittei-
lungen, basieren Webumfragen im Internet auf einem Informationsdienst, in diesem
Fall dem „World Wide Web“. Dieser Dienst erlaubt Zugriffe auf durch Hyperlinks
verbundene, ganz unterschiedliche Medientypen wie z.B. Texte, Grafiken, Videos
und Klänge, ähnlich wie bei CASI-Erhebungen per Notebook. Hierin liegen sowohl
Chancen als auch Risiken für die Qualität von Befragungen. Neue Anwendungen
ergeben sich aus der zunehmenden Verbreitung von internetfähigen Smartphones
mit ausreichend großen Displays, wodurch sich die Möglichkeit mobiler Webum-
fragen (engl.: mobile web surveys) ergibt (vgl. Fuchs, 2008, 2012; Fuchs & Busse,
2009; Peytchev & Hill, 2010; vgl. auch die Übersicht zur Nutzung in den Sozialwis-
senschaften von Raento, Oulasvirta & Eagle, 2009). Dabei können Wirkungen des
kleinen Bildschirms und der Tastatur auf das Antwortverhalten auftreten. Wenn
Antwortoptionen oder Fragetexte in den nicht sichtbaren Bereich des Bildschirms
fielen, wurden diese als nicht gesehen behandelt. Auch die Handhabbarkeit einer
kleinen Tastatur kann die Wahl einer Antwort beeinflussen (vgl. Peytchev & Hill,
2010).
Webumfragen gehören zur übergeordneten Klasse der Online-Umfragen. Unter
der Bezeichnung „Online-Umfragen“ werden alle Umfragen zusammengefasst, bei
denen Daten mittels eines Onlinefragebogens erhoben werden, unabhängig vom
benutzten Internetdienst (WWW, E-Mail, etc.) und unabhängig von der Rekru-
tierungsform. Zu den Online-Befragungen zählen auch Umfragen im Intranet ei-
II.2 Grundlegende Dimensionen der Kommunikationsform 109

nes Unternehmens bzw. einer Institution, etwa unter Mitarbeitern im Rahmen von
Mitarbeiterbefragungen.
Interessante Anwendungen ergeben sich durch die Nutzung der Telefonfähig-
keit von Smartphones in Verbindung mit der visuellen Darstellung von Fragen.
Diese Verbindung hat vor allem Vorteile für eine ereignis- und situationsorien-
tierte Auswahl. So wurden z.B. in einer Studie zur Belästigung durch Fluglärm
Palm-Rechner als PDAs (siehe oben) an Befragte verteilt, die zu bestimmten Ta-
geszeiten über das PDA angeläutet wurden. Zu diesen Zeitpunkten konnten die
Befragten eine tageszeitliche Einschätzung des Fluglärms („acute noise“) in das
PDA eingeben (vgl. Schreckenberg & Schümer, 2010). Bei Anwendungen dieser
Art handelt es sich um Beispiele für Erhebungen mit sog. Erfahrungsstichproben
(ESM-Verfahren), bei denen zu bestimmten Zeiten spezifische Erfahrungen von
Personen erhoben werden (vgl. Aellig, 2004; Hormuth, 1986; Pfister, Nussbaum &
Schallberger, 1999; Roduner et al., 2001; Wheeler & Reis, 1991). Erfahrungsstich-
proben können auch eingesetzt werden, um Gedanken, Gefühle und Handlungen
im Alltag der Befragten abzurufen. So kontaktierten Silvia et al. (2013) über 7 Tage
und 8x pro Tag 450 junge Erwachsene, indem sie ein Signal zu PDAs, welche den
Teilnehmern zur Verfügung gestellt wurde, sandten. Die dafür eingesetzte Software
administrierte auch den auszufüllenden Fragebogen. Der ausgefüllte Fragebogen
wurde ausgelesen oder via Mail direkt an das Institut geschickt oder Administrato-
ren übergeben. Die Autoren untersuchten in diesem Zusammenhang die Ursachen
von Nonresponse, z.B. durch die Nichtbeachtung von Signalen.
Statt PDAs lassen sich auch Smartphones einsetzen. Ein Beispiel für die Anwen-
dung von Smartphones in einer Zeitbudget-Studie geben Fernee und Scherpenzeel
(2013).
Entwicklungen wie CAMI (Computer Assisted Mobile Interviewing) versuchen
alle Komponenten zu verbinden, die Befragten zur Verfügung gestellt werden müs-
sen, wenn Fragen an beliebigen Orten über Notebook, Mobiltelefon, etc. beant-
wortet werden sollen. Grundsätzlich muss inzwischen davon ausgegangen werden,
dass alle Medien miteinander verknüpft werden können.

CASI mit auditiven Komponenten


Eine weitere CASI-Variante besteht darin, den Befragten die Fragen nicht nur visu-
ell über den Bildschirm darzubieten, sondern zusätzlich auch akustisch über digita-
lisierte Sprache oder über ein Tonband. In diesem Fall spricht man von Audio-CASI
bzw. ACASI. Eine weitere Variante, T-ACASI, stellt eigentlich eine Mischform dar,
bei der die Fragen telefonisch gestellt werden, jedoch nicht durch einen während
des Interviews anwesenden Interviewer. Stattdessen sind die Fragen entweder
110 II.2 Grundlegende Dimensionen der Kommunikationsform

vorher in akustischer Form auf Datenträger aufgenommen worden und werden


zum Zeitpunkt des Interviews vorgespielt, oder aber sie werden zum Zeitpunkt
des Interviews synthetisch erzeugt. In beiden Fällen ist der eigentliche Adminis-
trator das System. Die Befragten geben ihre Antworten durch Drücken von Tasten
ein. T-ACASI wird oft auch IVR (Interactive Voice Response) (vgl. Couper, Singer
& Tourangeau, 2004; Tourangeau, Steiger & Wilson, 2002) oder TDE (Touchtone
Data Entry; zur Arbeitsweise vgl. z.B. Jakhuh & Sauer, 2002) bezeichnet. Dabei gibt
es verschiedene Varianten in Anhängigkeit davon, ob die Befragten zunächst von
einem Interviewer kontaktiert werden und dann in ein IVR-System umgeleitet
werden („recruit and switch“-Version) oder ob die Befragten über ein Tastentelefon
eine gebührenfreie Nummer anrufen und sich direkt in das IVR-System einwählen.
Der Anruf aktiviert dann eine Interviewsitzung. Der Fragebogen liegt im System
in vorher aufgenommener Sprachversion vor und wird den Befragten vorgelesen.
Dieser gibt die numerischen Antworten durch Drücken der entsprechenden Taste
ein. Der Befragte wird über eine ID identifiziert, die mit einer Menge gespeicherter
IDs abgeglichen wird. TDE wird z.B. vom amerikanischen Bureau of Labor Stati-
stics eingesetzt. Der Vorteil ist, dass Befragte Tag und Nacht während der gesamten
Woche anrufen können. Werden die Antworten nicht durch Tastendruck, sondern
sprachlich gegeben, so spricht man von VRE (Voice Recognition Entry).
Insofern IVR, TDE und T-ACASI auf einem auditiv/telefonischen Kontakt
beruhen, lassen sich diese auch als Selbst-administrierte Varianten von CATI-In-
terviews auffassen. Mit dieser Technologie werden bestimmte Vorteile verbunden.
Dazu gehören reduzierte Stichprobenverzerrungen durch Effekte der sozialen Er-
wünschtheit (vgl. e.g. Gribble et al., 2000; Kreuter, Presser & Tourangeau, 2008;
Turner et al., 1996) sowie reduzierte Kosten in dem Fall, wo die Befragten gleich
mit dem IVR-System verbunden werden und nicht vorher von Telefoninterviewern
kontaktiert werden, ehe sie an das System überstellt werden. Tourangeau, Steiger
& Wilson (2002) machen allerdings darauf aufmerksam, dass beide Formen (mit
und ohne Rekrutierung durch Interviewer) hohe Nonresponse-Raten nicht zuletzt
durch Abbrüche haben können. Mit dem Wechsel zwischen Interviewer und Sys-
tem kann außerdem eine neue Art von Nonresponse entstehen, die darin besteht,
dass Befragte während des Wechsels den Hörer auflegen. Die Autoren überprüften
experimentell einige Effekte von IVR. Sie fanden, dass IVR-Interviews zu „ehrli-
cheren“ Antworten führen. Dagegen steigert IVR im Vergleich zu traditionellem
CATI die Tendenz, aus dem Interview auszusteigen, selbst dann wenn die Befrag-
ten vorher einem Interviewer versichert hatten, dass sie das Interview fortführen
wollen. Auch die Wartezeiten der Befragten, erhöhten die Anzahl der Abbrüche.
Eine Übersicht über verschiedene IVR-Studien bis zum Jahr 2000 geben Corkrey
und Parkinson (2002).
II.2 Grundlegende Dimensionen der Kommunikationsform 111

Der Frage, ob sich menschliche Stimme und vorher aufgenommene, eher


menschlich oder eher „maschinenhaft“ klingende Stimmen sowie synthetische
Computerstimme (erzeugt durch Text-to-Speech bzw. TTS-Systeme) in ihren
Wirkungen auf das Antwortverhalten unterscheiden, gingen Couper, Singer und
Tourangeau (2004) nach. Dabei fanden sie, dass das Geschlecht beim Einspielen der
Stimme keine Rolle spielt und bestätigten damit frühere Ergebnisse von Turner et
al. (1998), die selbst in Umfragen mit Sex-Themen keinen Einfluss des Geschlechts
der Interviewer nachweisen konnten, auch in Bezug auf Stimm-Einspielungen.
Ähnliche Ergebnisse erzielten Tourangeau, Couper und Steiger (2003) in Bezug auf
das Einspielen von Bildern, die eine unterschiedliche soziale Präsenz bei Webum-
fragen signalisieren sollten. Was den Unterschied zwischen synthetisierter Stimme
und menschlicher Stimme angeht, so fanden die Autoren, dass Interviews durch
Live-Interviewer (CATI-Interviewer) in der Tat von den Befragten qualitativ an-
ders wahrgenommen werden als IVR-Interviewer. Die verschiedenen Stimmtypen
werden zwar durchaus als unterschiedliche erkannt. Doch gab es keine Hinweise in
Hinblick auf negative Auswirkungen von „Computerstimmen“ auf das Antwortver-
halten. Negativ beeinflusst wurden weder die Bereitschaft, den Fragebogen bis zum
Ende durchzuführen, noch der Anteil von Antwortausfällen (Item-Nonresponse),
noch die Antworten selbst.
Die Eingabe komplexerer Sprachäußerungen setzt voraus, dass das System über
die Möglichkeit der automatischen Spracherkennung ASR (Automatic Speech Reco-
gnition) verfügt. ASR kann auf unterschiedliche Weise ablaufen (vgl. Blyth 1997).
Die grundlegende Methode beinhaltet das Erkennen des Musters, das durch das
Spektrogramm unterschiedlicher Worte erzeugt wird. Ein Spektrogramm reprä-
sentiert die Wellenform der Laute menschlicher Sprache im Zeitverlauf. Zunächst
wird der Computer trainiert, Muster verschiedener Worte durch Analyse wieder-
holter Aussprache zu erkennen. Anschließend werden Testworte mit einer Daten-
bank trainierter Modelle verglichen, und das Muster mit der größten Ähnlichkeit
wird identifiziert. Die Genauigkeit der Erkennung äußert sich im Prozentsatz
der Fälle, bei denen das Matching ein korrektes Ergebnis liefert. Varianten die-
ser Grundmethode entstehen in Abhängigkeit davon, ob die Sprachmodellierung
und das Training sprecherabhängig oder sprecherunabhängig gestaltet sind. Die
Einbeziehung unterschiedlicher regionaler Akzente, die geschlechterunabhängige
Erkennung, etc. erfordert eine sprecherunabhängige Sprachmodellierung. Letzte-
re ist auch Voraussetzung für die Anwendung in Umfragen. Ferner sind die Mo-
dellierungen abhängig vom Übertragungsmedium. Wird die Stimme z.B. über das
Telefon übertragen, so werden die oberen und unteren Teile des Frequenzbandes
abgeschnitten. Ein weiteres Problem stellen Hintergrundgeräusche dar. Auch die
Größe des Vokabulars stellt einen Faktor, vor allem für die Rechenkapazität, dar.
112 II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen

Eine weitere Variante computerunterstützter Selbstadministration stellt schließ-


lich CAPAR dar. Eine bekannte Variante ist das Tele-Interview (vgl. Saris, 1994,
1998). Dabei füllen die Befragten einmal in der Woche einen elektronischen Fra-
gebogen aus. Dazu bekommen ausgewählte Haushalte einen Mikrocomputer und
ein Modem zur Verfügung gestellt. In regelmäßigen Intervallen wählt das Modem
des Rechners der Befragungsperson automatisch einen entfernten Rechner (engl.:
remote computer) an und empfängt einen neuen Fragebogen. Nachdem die Fra-
gebögen mit Hilfe der Befragungssoftware ausgefüllt wurden, werden die Daten
direkt an den entfernen Rechner geschickt.

II.3 Funktionsweise der Software-Unterstützung in aus-


gewählten CAI-Anwendungen

II.3.1 Die Funktionsweise von CATI-Systemen

II.3.1.1 Allgemeine Struktur

Die zur Durchführung von computerunterstützten Telefonumfragen eingesetzte


CATI-Software enthält in der Regel zwei Komponenten:

• Softwarekomponente zur Programmierung und Testen des Fragebogens;


• Verwaltungssoftware zur Verwaltung der Telefonnummern und zur Steuerung,
Überwachung und Dokumentation der Interaktion mit den Interviewer-Ar-
beitsplätzen sowie des Feldgeschehens.

Die Möglichkeiten der Programmierung beziehen sich auf die Formulierung und
Positionierung von Fragetexten, die Wahl der Farben für Text und Hintergrund,
den Entwurf von Hilfen für die Interviewer (Hilfetasten), die Programmierung der
Filterführung in Abhängigkeit vom Ergebnis der Evaluation arithmetischer Aus-
drücke, die Spezifikation von Kriterien der Item-Rotation (z.B. zufällig), die zufälli-
ge Auswahl von Items in Abhängigkeit von bestimmten Befragtengruppen, etc. Die
Möglichkeiten der Bildschirm- und Skalengestaltung sind bei den verschiedenen
Softwareprodukten unterschiedlich flexibel, insbesondere dann, wenn Experimen-
te oder Pretests unter Einbeziehung möglicher Wirkungen unterschiedlicher Bild-
schirmgestaltung geplant sind, kann dieser Gesichtspunkt ein sinnvolles Auswahl-
II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen 113

kriterium darstellen. Die Programmierung erfolgt zumeist Menu-gestützt. Sie kann


aber auch im Fließtext erfolgen, der durch einen Interpreter interpretiert wird.
Abbildung II.3 zeigt das Beispiel eines Bildschirminhalts, den der Interviewer
im Rahmen eines Interviews vor sich sieht. Er liest die auf dem Bildschirm darge-
stellten Fragen vor und markiert die Antwortvorgaben, die der Befragten nennt.

Abbildung II.3: Beispieldarstellung eines Dialogfensters

II.3.1.2 Funktionen der CATI-Verwaltungssoftware

Die Verwaltungssoftware von CATI-Systemen erfüllt in der Regel folgende Funktionen:

A. Anrufverwaltung (engl.: call scheduling)


Der Anrufverwaltung obliegen die Planung, die Überwachung und die Steuerung
von Anrufen. Ziel der Anrufverwaltung ist die Steigerung der Effizienz, erfolg-
reiche Anrufe zu realisieren. Edwards, Suresh und Weeks haben 1998 insgesamt
achtzehn in den USA im Einsatz befindliche CATI-Systeme miteinander verglichen
114 II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen

und in diesem Zusammenhang die wichtigsten Aufgaben einer Anrufverwaltung


zusammengestellt:

• Die Buchführung der von den Interviewern getroffenen Terminvereinbarungen


und die Vorlage der Rückrufe (engl.: call backs) zu den vereinbarten Terminen;
• Die Steuerung und Kontrolle der Terminplanung unter Einbeziehung der In-
formationen über die Verfügbarkeit von Interviewern, um die vereinbarten
Termine wahrzunehmen;
• Die Verlegung von sog. cold calls, d.h. erstmaligen Anrufen oder Rückrufen
von Fällen, bei denen vorher noch kein Kontakt zustande kam, auf Zeiten, bei
denen die Wahrscheinlichkeit, einen in Frage kommenden Befragten zu errei-
chen, am größten ist;
• Die Implementierung vorher spezifizierter Wählalgorithmen für besondere
Typen von Fällen (z.B. besetzte Nummern, abgebrochene Terminvereinbarun-
gen);
• Anruf-Priorisierung, so dass die wichtigsten Nummern zuerst angerufen wer-
den;
• Zuordnung spezifischer Fälle zu passenden Typen von Interviewern (z.B. refu-
sal converters, d.h. Interviewern, die besonders geeignet sind, Verweigerer zu
Befragungsbereiten zu machen; zweisprachige Interviewer, etc.);
• Automatischer Ausschluss von Fällen oder Verweis von Fällen an den Supervi-
sor zur Nachprüfung;
• Projektierung des Bedarfs an Änderungen des Arbeitsablaufs für spätere Arbei-
ten auf der Basis der Anzahl und Typen verfügbarer Fälle;
• Erzeugung verschiedener Statusberichte wie Überblick über die Intervie-
wer-Produktivität, die Zusammensetzung der Stichprobe (vgl. Abbildung
II.4). oder einer Feldübersicht (engl.: sample report), welche einen Überblick
über die Dispositionscodes (zur Definition vgl. Teil VII) wie die Anzahl der
erfolgreichen Kontakte, Anzahl der Kontaktversuche, Anzahl der realisierten
Interviews, Anzahl der Verweigerer, etc. enthält (siehe Abbildung II.5). Die-
se Informationen können jederzeit auch als Zwischeninformation abgerufen
werden.
II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen 115

Abbildung II.4: Abruf von Stichprobeninformationen

Abbildung II.5: Beispiel eines Sample Reports


116 II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen

B. Die Verwaltung der Fälle


Connett (1998, p. 236) liefert einen Überblick über die Aufgaben eines CATI- Sys-
tems zur Verwaltung der Fälle (engl.: case management system). Case Manage-
ment-Systeme enthalten üblicherweise

• Stichprobenroutinen für die zufällige Auswahl von Stichproben oder die Ver-
wendung von Auswahllisten;
• Vorkehrungen, die es den Interviewern ermöglichen, sich über Fälle und An-
rufe Notizen zu machen;
• Automatisierte Erstellung der Anrufgeschichte, die es erlaubt, über die Zeiten
und Ereignisse im Zusammenhang mit einem Fall den Überblick zu halten;
• Pflege und Berichterstattung aller Ergebnisdaten der Anrufe;
• Verwaltung der Logins des Interviewer-Stabes, Zuordnung von Studien zu In-
terviewern bzw. Teams von Interviewern;
• Überwachungsroutinen, die es erlauben, Inhalte von Bildschirmen der Inter-
viewer auf den Rechnern der Supervisoren darzustellen und bei einigen Syste-
men dem Supervisor ermöglichen zu intervenieren;
• Mechanismen für den Falltransfer, um Teile eines Falls von einem Interviewer
auf den anderen zu legen;
• Fähigkeit, Gruppen von Interviewern und Kategorien von Anrufen zu verwal-
ten.

C. Anlage einer Datei mit den Daten der Befragten und/oder weiteren
Daten
Diese Datei ist Ausgangspunkt für die Konvertierung in eine Systemdatei eines Sta-
tistik-Programmpakets wie SPSS, SAS, STATA, STATISTICA, S-PLUS, etc. In der
Regel verfügen die CATI-Systeme über eigene einfache Auswertungsroutinen wie
z.B. Tabellenkalkulation.
Bei der Anschaffung eines CATI-Programms sollte das Augenmerk vor allem
auf die Beschränkungen gelegt werden. So kann z.B. in bestimmten Umfragen der
Zugriff auf eine umfangreiche externe Datenbank, z.B. eine ACCESS-Datenbank,
notwendig werden. Dies ist etwa dann der Fall, wenn Berechnungen in externen
Datenbanken durchgeführt werden müssen und das Ergebnis im Fragebogen ver-
wendet soll. Nehmen wir als Beispiel, dass eine Umfrage unter Zeitschriftenkäufern
in der Stadt X durchgeführt werden soll und dass in Abhängigkeit von der Entfer-
nung des Geschäfts, in dem die Zeitschrift gekauft wurde, zu einer bestimmten Fra-
ge im Fragebogen gesprungen werden muss. Dazu soll eine externe Datenbank mit
II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen 117

allen Adressen der möglichen Verkaufsstellen bereitgestellt werden. Nennt der Be-
fragte eine Verkaufsstelle, so wird deren Adresse herausgesucht und mit der Straße
verglichen, in der der Befragte wohnt. Anschließend wird nach einem Algorithmus
die Entfernung berechnet. Überschreitet die Entfernung einen bestimmten Wert,
wird zu einer bestimmten Frage verzweigt.
Ein weiterer wichtiger Gesichtspunkt bei der Anschaffung von CATI-Software
ist die Komplexität der Fragebögen, die vom System akzeptiert werden. Diese Be-
schränkungen verbergen sich z.T. hinter der Anzahl der zugelassenen Filter und
Schleifen.

D. Autodialing
Nahezu alle CATI-Systeme bieten ferner die Möglichkeit des sog. Autodialing in
der einen oder anderen Form. Autodialing-Einrichtungen können weiter unterteilt
werden in:

• Einfaches Autodialing
• Autodetecting
• Predictive Autodialing

Beim einfachen Autodialing wählt nicht der Interviewer, sondern eine Wähleinrich-
tung (z.B. ein Modem) im Server auf Anweisung des Interviewers eine Telefon-
nummer. Dadurch werden Fehler beim Anwählen vermieden. Ein weiterer Vorteil
ist ein schnellerer Wählvorgang als im Falle des manuellen Anwählens.
Beim Autodetecting erkennt eine Hardwarekomponente der telefonischen Sig-
nalverarbeitung gewisse Eigenschaften der Empfängersignale wie Besetztzeichen,
Modems, Fax-Anschlüsse und ungültige Nummern. Der Interviewer hört hier
zwar den Wählvorgang, tritt aber erst in Aktion, wenn er eine Stimme hört. Führt
der Wählvorgang zu keinem Ergebnis, so wird dies direkt dem System zu Num-
mernverwaltung mitgeteilt.
Beim prädiktiven Autodialing (engl.: predictive autodialing) wählt das System die
Nummern automatisch und überträgt die Anrufe an den Interviewer, sobald der
Anruf angenommen wurde. Der Interviewer hat hier auf den Wählvorgang keinen
Einfluss. Im einfachsten Fall führt der prädiktive Dialer dabei die gleichen Aufga-
ben aus wie das Autodetecting. Einige intelligentere Systeme bieten darüber hinaus
die Möglichkeit, reale Stimmen von Anrufbeantwortern zu unterscheiden.
Prädiktive Systeme verwenden Algorithmen, welche die Anzahl der auf einen
Kontakt wartenden Interviewer, die durchschnittliche Länge des Interviews und
die Gesamtzahl der Anrufversuche einbeziehen, um die Verfügbarkeit der Inter-
118 II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen

viewer einzuschätzen, den Anruf zu übernehmen (vgl. Edward, Suresh & Weeks,
1998, p.290). Ist ein Interviewer nicht verfügbar, wird der Anruf abgebrochen und
der Hörer aufgelegt. Dabei besteht die Möglichkeit, die Aufgaberate so festzule-
gen und das System an das Wähltempo so anzupassen, dass es im Rahmen der
Aufgaberate bleibt. Im Allgemeinen kann eine große Anzahl potentieller Inter-
viewer eine schnelle Anwählrate bei gleichzeitiger Minimierung der Aufgaberate
aufrechterhalten. Ein großer Pool mit Interviewern erhöht die Wahrscheinlichkeit,
dass wenigstens ein Interviewer verfügbar ist, wenn der prädiktive Dialer eine reale
Stimme entdeckt hat.
Prädiktive Autodialer finden bevorzugt bei Random-Digit-Dialing-Verfahren
Anwendung, wo Telefonnummern zufällig erzeugt werden, von denen eine große
Teilmenge nicht gültig ist. Sie werden entweder als getrennte Einzelprodukte oder
als integrative Komponenten in Verbindung mit der übrigen CATI-Software auf
dem Markt angeboten. Nachteilig bei prädiktiven Autodialern ist, dass erfolgreiche
Anrufe aufgegeben werden müssen, wenn kein Interviewer zur Verfügung steht.
Auch vergeht bei dieser Technologie Antwortzeit bis sich der Interviewer beim An-
gerufenen meldet, mit der Konsequenz, dass die Antwortraten negativ beeinflusst
werden. Blyth (1998) berichtet ein Anwachsen der Interviewer-Produktivität um
70% bei großen Stichproben und bei kurzen Interviews von fünf Minuten und we-
niger nach Einführung des prädiktiven Dialers. Beim Einsatz muss aber auch der
zusätzliche Stress und der Effekt auf das Selbstverständnis des Interviewers bedacht
werden, der sich in einer solchen Situation bemüßigt fühlt, Interviews möglichst
rasch zu realisieren.
Nicht selten wird diese Art von Dialern verwendet, um aus einer Menge zufällig
erzeugter Nummern vor Start der Umfrage die Teilmenge der gültigen Nummern
herauszufiltern, so dass bei der Durchführung der Umfragen nur noch mit der Teil-
menge der gültigen Nummern gearbeitet werden kann.

II.3.2 Funktionsweise internet-basierter Befragungstechnologien

II.3.2.1 Internetdienste und Typen internetbasierter Befragun-


gen

Aus Kostengründen wie etwa der Einsparung von Interviewer- und Organisations-
kosten und wegen der Möglichkeit, über den WWW-Dienst auf unterschiedliche,
miteinander durch Hyperlinks verbundene Medientypen wie Texte, Grafiken, Vi-
deos und akustische Informationen zuzugreifen (vgl. Bandilla et al. 1999; Bandilla
II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen 119

& Bosnjak 2000; Birnbaum 2004; Bosnjak 1997), haben sich Webumfragen inzwi-
schen zu einem Standardinstrumentarium der Umfrageforschung entwickelt. Auch
gewisse Vorteile, die z.T. aus der Eigenschaft der Selbstadministration folgen wie
geringere Ausfälle bei sensitiven Fragen habe zu dieser Entwicklung beigetragen.
Über die mit dieser Kommunikationsform verbundenen Mode-Effekte wird später
zu sprechen sein.
Auch wenn die Verwendung des Internets in Umfragen inzwischen keinerlei
Originalität mehr in sich birgt, sollte man doch zumindest grob wissen, welche
Form von Softwareunterstützung man zu erwarten hat. Moderne Software-Systeme
sind in der Lage, wie auch im Fall der CATI-Software die gesamte Feldorganisation
zu übernehmen und relativ rasch Fragen und Antwortskalen zu generieren, so dass
ein Fragebogen einschließlich Layout in Standardanwendungen problemlos erstellt
werden kann. Beispiele für die Umsetzung von bestimmten Fragetypen finden sich
in Teil III. Die Ergebnisse des Feldverlaufs und die Anteile verschiedener Arten von
Ausfällen werden von der Verwaltungssoftware berechnet und zusammengestellt.
Dies gilt auch für die komplexe Verwaltung eines Online-Panels.

II.3.2.2 Software-Komponenten zur Realisation internetbasier-


ter Umfragen

Obwohl der Fragebogen für eine einfache internetbasierte Umfrage vom Anwender
selber, z.B. in HTML programmiert werden kann, setzt die eigenständige Program-
mierung von Komponenten der automatischen Feldsteuerung doch Kompetenzen
voraus, die in der Regel bei normalen Anwendern nicht vorhanden sind. Inzwi-
schen gibt es zahlreiche Softwarelösungen für internetbasierte Umfragen. Wie bei
computerunterstützten Telefonumfragen enthält eine typische Software sowohl eine
Komponente zur Programmierung des Fragebogens und einen Verwaltungsteil für
die Feldsteuerung einschließlich einer Dokumentation des Feldverlaufs.
Zur Umsetzung von Online-Umfragen stellt der Markt zahlreiche Software-Sys-
teme zur Verfügung, die dem Benutzer die eigene HTML-Programmierung der
Fragebögen sowie die Schaffung der client- und serverseitigen Voraussetzungen
in unterschiedlichem Ausmaß ersparen und die gesamte Verwaltung der Umfrage
übernehmen. Auch im Bereich von Online-Umfragen gibt es Software, die zumin-
dest in einer Basisversion als Freeware im Internet kostenlos verfügbar ist. Beispiele
sind SurveyMonkey (siehe https://www.surveymonkey.com), Qset oder SurveyWiz
(vgl. Birnbaum, 2000). Die Arbeitsgruppe NEON (Network Online Research) des
Berufsverbandes Deutscher Markt- und Sozialforscher (BVM) hat die Anforderun-
120 II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen

gen, die an eine Online-Befragungssoftware zu stellen sind, zusammengefasst (vgl.


NEON, 2003). Dabei wurden folgende Merkmalstypen unterschieden:
• Technische Anforderungen an den Online-Fragebogen;
• Merkmale zur Unterstützung der Programmierung;
• Merkmale zur Gestaltung des Fragebogens;
• Merkmale zur Steuerung des Fragebogens (Navigation);
• Sicherheit und Stabilität, zusätzliche Merkmale.
Die untenstehende Darstellung lehnt sich an die Darstellung von NEON an. In Be-
zug auf jede Merkmalsklasse führen wir eine Klassifikation nach Basisanforderun-
gen, Leistungsanforderungen und gehobenen Anforderungen ein. Die Auflistung
dieser Anforderungen gibt einen Eindruck der Möglichkeiten, die Software für
Internetumfragen anzubieten in der Lage ist. Die meisten Anforderungen gehören
inzwischen zum Standardangebot der professionellen Softwareprodukte.

Basisanforderungen

A. Technische Basisanforderungen
Technische Basisanforderungen betreffen die Kompatibilität des Online-Fragebogens mit
den üblichen Browsertypen und Browserversionen, die Erfassung jedes Kontakts bei Inter-
zept-Umfragen zur Berechnung der Rücklaufquoten und der Ausschluss von Mehrfachaus-
füllern (z.B. durch Login-Funktion, optionale Setzung eines Cookies, Protokollierung der
IP-Nummern).

B. Basisanforderungen in Hinblick auf die Unterstützung der Programmierung


Zu den Basisanforderungen in Hinblick auf die Unterstützung der Programmierung gehören
(1) flexible Möglichkeiten des Layouts wie variable Zeichen- und Textdarstellung bezüg-
lich Schriftart, Farben, Fettdruck, Textgliederung (z.B. durch Absätze), (2) eine ausgereifte
Benutzeroberfläche mit geringer Lernzeit für die Programmierung und Edition sowie Ver-
schiebbarkeit von Fragen- und Reihenfolge der Items, (3) eine WYSIWYG (What You See Is
What You Get) - Funktion, die den Fragebogen und auch die Fragen vorab am Bildschirm
so anzeigt, wie sie den Befragten später auf dem Bildschirm erscheinen sowie (4) die Ein-
bindung von Multimedia-Elementen wie Logos, verschiedene Graphiken, Ton- und Video-
dokumenten.

C. Basisanforderungen hinsichtlich der Fragebogengestaltung


Basisanforderungen hinsichtlich der Fragebogengestaltung sind (1) die Möglichkeit einer
flexiblen Fragebogengestaltung bzw. Verteilung der Fragen auf HTML-Seiten (z.B. mehrere
Fragen/Items auf eine Seite oder für Fragen jeweils getrennte Seiten), (2) Variabilität der
II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen 121

Fragetypen und Antwortvorgaben wie Einfachauswahl bzw. -antworten, (3) Mehrfachant-


worten mit der Möglichkeit der Begrenzung der Anzahl wählbarer Alternativen auf einen
bestimmten Wert, (4) Matrixabfragen mit den Möglichkeiten Fragen und Antwortkategori-
en in Form von beschrifteten Zeilen und Spalten sowie der Möglichkeit, für Items zwei Ma-
trizen vorzusehen, z.B. eine für die Wichtigkeit und eine für die Zufriedenheit, (5) Darstell-
barkeit von semantischen Differentialen (auch: Polaritätsprofilen), d.h. einer Matrixabfragen
mit gegensätzlichen Merkmalsausprägungen, (6) Realisierbarkeit offener Fragen mit Textfel-
dern für die Texteingabe und Realisierbarkeit von Hybridfragen (auch: halboffene Fragen),
d.h. Fragen mit vorgegebenen Antwortalternativen und einer weiteren Kategorie „Sonstiges“
und schließlich (7) Zwischenseiten für Anweisungen und Kommentare, Möglichkeiten der
Randomisierung, d.h. der zufallsgesteuerten Präsentation von Antwortalternativen und die
korrekte Darstellung von Skalen in dem Sinne, dass z.B. die Abstände zwischen der Skalen-
punkten immer gleich sind. Auch eine Statusanzeige, die den Teilnehmern eine kontinu-
ierliche Einschätzung des restlichen Bearbeitungsaufwandes, etwa durch Angabe der noch
zu erwartenden Anzahl von Seiten oder Fragen, gestattet. Nachträgliches Einfügen oder
Herausnehmen sowie die Veränderung von Fragen in laufenden Umfragen sollte ebenfalls
möglich sein.

D. Basisanforderungen in Bezug auf die Steuerung des Fragebogens


Zu den Basisanforderungen in Bezug auf die Steuerung des Fragebogens gehören (1) eine
einfache adaptive Filterführung mit der Möglichkeit beliebiger Sprünge und Verzweigungen
auf der Basis von Antworten und Möglichkeit zur Filterführung auf der Basis sog. Stamm-
daten, d.h. von Daten (z.B. Alter, Geschlecht) bereits registrierter Teilnehmer. Weitere Ba-
sismerkmale sollten sein (2) die Möglichkeit zur Randomisierung der Abfolge von Fragen/
Items, wobei in Abhängigkeit von zufällig ausgewählten Fragen auch die Setzung eines
Filters möglich ist sowie die Durchführung einfacher Plausibilitäts-Checks nach erfolgter
Eingabe auf Art der Eingabe (Text oder Zahl) sowie auf Einhaltung von Intervallgrenzen
bei Zahlenangaben. (3) Auch die Alternative, die Befragten entweder zu einer Antwort zu
zwingen oder ihnen die Möglichkeit zum Überspringen der Frage einzuräumen, sollte für
jede Frage einstellbar sein. Schließlich sollten (4) auch Fehlermeldungen bei nicht korrekten
Eingaben möglich sein, wobei die Fehlermeldung nicht zum vollständigen Neuausfüllen der
Seite führen sollte.

E. Basisanforderungen hinsichtlich Sicherheit und Stabilität


Basisanforderungen zu Sicherheit und Stabilität sind der Einsatz geeigneter Firewall-Soft-
ware und ausschließliche Freigabe der notwendigen Ports, Möglichkeiten der SSL-Ver-
schlüsselung1, Backup-System, Zugangskontrollen zum Server, Feuersicherung, stabiles
Laufverhalten.

1 SSL (Secure Sockets Layer) ist ein Protokoll zur Verschlüsselung von Datenübertragungen
122 II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen

F. Basisanforderungen Anforderungen hinsichtlich weiterer Merkmale


Basisanforderungen zusätzlicher Merkmale betreffen den Datenimport und Datenexport.
Dazu gehören die Erzeugung von Ergebnisdateien in den Formaten der verbreiteten Aus-
wertungssoftware mit der Möglichkeit, alle Labels zu übernehmen und einer freien Wähl-
barkeit der Variablenlabels. Längere Item-Listen sollten aus Word oder Excel eingelesen
werden können.

Leistungsanforderungen

A. Technische Leistungsanforderungen
Zu den technischen Leistungsanforderungen an eine Online-Software können gezählt
werden: (1) die Browser-Kompatibilität, d.h. das stabile Abfangen veralteter Browser, (2)
Aufrechterhaltung der Grundfunktionen ohne Javaskript, bei Verwendung von Javaskript
sichere Kontrollierbarkeit der Einstellung vor dem Start der Befragung und (3) das Abfan-
gen einer nachträglichen Einstellungsveränderung sowie (4) die Möglichkeit, das Fragebo-
genskript zu editieren und zu modifizieren.

B. Leistungsanforderungen in Bezug auf die Unterstützung der Programmierung


Leistungsanforderungen in Bezug auf die Unterstützung der Programmierung sind (1) Ein-
steiger- und Profilfunktionen mit der Möglichkeit, auf fertige Templates zuzugreifen und
eigene Fragetypen zu generieren. Dabei sollten möglichst viele Bearbeitungsschritte automa-
tisiert sein, aber dennoch die Möglichkeit einer individuellen Modifikation der Funktionen
bestehen. Standardeinstellungen sollten gewährleisten, dass bereits ein komplett funktio-
naler Online-Fragebogen erstellt wird. Weitere Leistungsanforderungen sind (2) die Mög-
lichkeit zur Einrichtung von Fragebibliotheken zur Ablage vorformatierter Fragen, z.B. zur
Standarddemographie, die abgerufen und in Fragebögen integriert werden können und zur
Einrichtung von graphischen Bibliotheken, in denen bestimmte Buttons oder Buttonserien
abgelegt werden können. Leistungsanforderungen in Bezug auf die Unterstützung der Pro-
grammierung sind auch (3) die Gestaltung eigener Fragetypen und Styles wie die Erstellung
individueller Templates und (4) die Integrierbarkeit von CSS-Dateien2 und (5) eine Import-
funktion für Fragtexte, Antwortkategorien und in Word oder Excel erstellten Antwortlisten.

C. Leistungsanforderungen in Bezug auf die Gestaltung von Fragebögen


Leistungsanforderungen in Bezug auf die Gestaltung von Fragebögen sind (1) die Mög-
lichkeit zu einer stärkeren Elaboration von Fragetypen mit der Bildung von: Rangordnung
vorgegebener Antwortalternativen; (2) Spezifikation numerischer Fragen, bei denen nur

2 CSS (Cascading Style Sheets): Sprache für strukturierte Dokumente in Zusammenhang


mit HTML und XML. Sie gestattet eine Anpassung an unterschiedliche Ausgabemedien,
die Festlegung von Hintergrundbildern, etc.
II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen 123

Zahlen eines bestimmten Typs eingegeben werden, wobei in Abhängigkeit vom Zahlenwert
verzweigt werden kann oder bei denen der Abgleich dieser Zahl mit dem Wert einer nu-
merischen Funktion erfolgen kann, die auf der Basis der numerischen Angaben bei einer
anderen Frage berechnet wurde; die Möglichkeit von „Constant Sum Scales“, bei denen eine
vorgegebene Anzahl von Punkten auf mehrere Antwortalternativen erfolgen kann, so dass
die Summe der numerischen Angaben einer festen Summe entspricht; die Möglichkeit zu
Online-Conjoint, d.h. einer automatischen Einstellung von Conjoint-Designs. Weitere Leis-
tungsanforderungen sind die (3) Möglichkeit zur Ausrückung der Kategorie „weiß nicht/
keine Angabe“, (4) die Möglichkeit zur Randomisierung auf Zeilen- und Spaltenebene sowie
die Behandlung von Filtern in der Statusanzeige.

D. Leistungsanforderungen in Bezug auf die Navigation


Leistungsanforderungen in Bezug auf die Navigation beinhalten (1) die Möglichkeit zur
komplexen Sprungbefehlen mit mehreren in sich verschachtelten Filtern und (2) der Mög-
lichkeit zu Schleifenbefehlen mit Laufvariablen, elaborierte Filterführung im Sinne einer
Anzeige von Fragen nach z.B. Zeitpunkt der Umfrage, Subgruppen oder nach bestimmten
Metadaten, (3) die Einrichtung eines optionalen Passwortschutzes (Schutz des Fragebogens
durch ein Login vor Zugriffen nicht autorisierter Nutzer, (4) die Einrichtung einer Wie-
deraufnahmefunktion mit der Möglichkeit bei einer Unterbrechung des Interviews an der
Abbruchstelle die Befragung wieder aufzunehmen, (5) Durchführbarkeit von Konsistenz-
prüfungen und Ausschlüssen von bestimmten Antwortalternativen bei Mehrfachantworten,
wenn diese mit den bereits gewählten Alternativen nicht vereinbar sind, (6) Möglichkeit zu
kombinierten Plausibilitätschecks über mehrere Fragen, (7) Randomisierbarkeit von Fra-
geblöcken, (8) Importierbarkeit externer Parameter wie die Möglichkeit, über Parameter der
URL externe Daten an den Fragebogen zu übergeben und in die Befragung einzubinden
(z.B. ID’s für verschiedene Gruppen von Befragten oder für unterschiedliche Versuchsbe-
dingungen, Cookie-Inhalte oder technische Parameter wie Browser), (9) Übernahme ausge-
wählter Alternativen in Folgefragen wie z.B. die Übernahme von in einer Frage ausgewählter
Antwortalternativen in eine Folgefrage, bei der es um die Bewertung dieser Alternativen
geht oder die Anzeige eines Items in einer Folgefrage, wenn bestimmte Skalenpunkte in der
vorangehenden Frage angeklickt wurden, (10) die Übernahme von Vorantworten in die Fol-
gefrage wie „Sie haben ja „Text“ ausgewählt, (11) Möglichkeit zur unterschiedlichen Codie-
rung von nicht vorgelegten Fragen und nicht beantworteten vorgelegten Fragen, (12) die
Belegbarkeit einer identischen Variablen für mehrere Fragen wie das Gesamturteil verschie-
dener Beurteilungen der Arbeitsweise verschiedener Organisationen, (13) die Möglichkeit
zur Löschung nicht mehr aktueller Filterstränge, (14) Einfügbarkeit von „Zurück“-Buttons,
um unabhängig vom „Zurück“ des Browsers im Fragebogen zurückzublättern zu können,
damit so Korrekturen vorher gegebener Antworten vorgenommen werden können (dort, wo
124 II.3 Funktionsweise der Software-Unterstützung in CAI-Anwendungen

es sinnvoll erscheint), (15) Möglichkeit zur Unterdrückung von Rücksprüngen innerhalb des
Fragebogens, damit keine Filter umgangen werden können.

E. Leistungsanforderungen in Bezug auf Sicherheit und Stabilität


Leistungsanforderungen in Bezug auf Sicherheit und Stabilität wären ein externes Sicher-
heits-Monitoring im Sinne einer regelmäßigen, professionellen und nachvollziehbaren
Überprüfung auf Schwachstellen der Infrastruktur, redundante Festplattensysteme, eine re-
dundante Internetanbindung und die schnelle Verfügbarkeit von Ersatzsystemen.

Gehobene Anforderungen

A. Gehobene technischen Anforderungen


Eine gehobene technische Anforderung wäre die Mausunabhängigkeit, d.h. zumindest bei
einfachen Interviews sollte die Eingabe auch allein über die Tastatur erfolgen können.

B. Gehobene Anforderungen in Bezug auf die Unterstützung bei der Programmierung


Gehobene Anforderungen in Bezug auf die Unterstützung bei der Programmierung wären
(1) ein Angebot editierbarer Texte zur Integration in den Fragebogen wie z.B. Texte zum
Datenschutz, vorformulierte Einladungs- oder Erinnerungs-E-Mails oder Standardtexte für
Pop-up-Fenster nach der Methode des n-ten Besuchs und (2) das Angebot automatischer
Syntax-Checks.

C. Gehobene Anforderungen in Bezug auf die Navigation


Gehobene Anforderungen in Bezug auf die Navigation wären (1) die automatische Führung
durch den Fragebogen, d.h. die automatische Weiterführung durch einen Click ohne „Wei-
ter-Button“ oder die Option eines „Reset-Buttons“, der die aktuelle Fragebogenseite in den
ursprünglichen Zustand versetzt.

D. Gehobene Anforderungen in Bezug auf Sicherheit und Stabilität


Gehobene Anforderungen in Bezug auf Sicherheit und Stabilität sind ein IDS-System (Int-
rusion Detection-System) zur Ermittlung und Verfolgung von Angriffen sowie eine redun-
dante Systemauslegung.

E. Gehobene Anforderungen in Bezug auf weitere Merkmale


Zusätzliche gehobene Anforderungen wären ein elaboriertes Online-Reporting-Systems,
z.B. Kreuztabellierung und Subgruppenanalyse sowie Angebote von Skripten und standar-
disierten Banner-Layouts.
II.4 Zusammenfassung der Vor- und Nachteile computerunterstützter Interviews 125

II.4 Zusammenfassung der Vor- und Nachteile computer-


unterstützter Interviews

II.4.1 Vorteile computerunterstützter Interviews

Gegenüber anderen Technologien wie Papier- und Bleistiftmethoden weist der Ein-
satz des Computers unabhängig von der Administrationsform und unabhängig
vom Übertragungskanal in Befragungen eine Reihe von Vorteilen auf. Dazu gehö-
ren:

• Minimierung von Filterfehlern (engl.: routing errors; vgl. hierzu Bethlehem


1999, 2000) auf Grund der Computersteuerung mit der Konsequenz einer Ent-
lastung der Interviewer (bei Interviewer-administrierten Interviews) bzw. des
Befragten (bei Selbst-administrierten Interviews);
• Sofortige Überprüfbarkeit der eingegebenen Daten durch interne Validitäts-
prüfungen. Dazu gehören Bereichsüberprüfungen (engl.: range checks), bei de-
nen geprüft wird, ob die eingegebenen Antworten im zulässigen Bereich liegen,
Inter-Item-Überprüfungen von Inkonsistenzen zwischen zwei oder mehr Ant-
worten sowie alphanumerische Überprüfungen bei inkorrektem Antwortfor-
mat;
• Möglichkeit, Online-Befragungshilfen für Begriffsklärungen, etc. vorzusehen
(vgl. Schober & Conrad 1997);
• Keine getrennte Dateneingabe durch Codierer, dadurch Vermeidung von Feh-
lern bei der Dateneingabe;
• Schnelle Verfügbarkeit der Daten, da die eingegebenen Daten sofort in eine
elektronische Datei eingetragen werden können;
• Ein kontinuierlicher, sofort abrufbarer Überblick über bestimmte Qualitäts-
merkmale der Erhebung wie Ausschöpfung, Interviewer-Produktivität, sozio-
demografische Zusammensetzung der Stichprobe, etc.;
• Zumindest teilweise Automatisierung der Feldsteuerung, weniger Fehler, die
auf mangelnde Feldorganisation zurückgehen, z.B. bei der Verwaltung der Te-
lefonnummern und ihrer zeitlichen Streuung über die gesamte Feldzeit; auto-
matisierte Panelverwaltung bei Panelerhebungen;
• Zusätzliche Möglichkeiten der nicht-reaktiven Beobachtung des Bedienungs-
verhaltens durch sog. Keystroke-Analysen, Zeitmessungen;
• Größere Objektivität und Standardisierungsmöglichkeit.
126 II.4 Zusammenfassung der Vor- und Nachteile computerunterstützter Interviews

Spezifische Vorteile ergeben sich für computerunterstützte Selbst-administrierte


Interviews. Dazu gehören:

• Reduktion von Ausfällen bei sensitiven Fragen (vgl. z.B. Tourangeau & Smith
1998; Tourangeau & Yan, 2007) sowie von sozial erwünschter Antworten;
• Nutzung aller Möglichkeiten des Computers zur Darstellung von Instruktio-
nen, Fragen- und Antwortformaten sowie zur Gestaltung des Layouts;
• Erweiterte Möglichkeiten der Skalendarstellung und der Auswahl von Ant-
wortkategorien bei Selbst-administrierten Befragungen;
• Einbindung von Bildern, Videos und akustischen Dokumenten in das Erhe-
bungsinstrument.

Internet-basierte Umfragen haben darüber hinaus für den Organisator der Um-
frage den Vorteil des geringen organisatorischen Aufwands, der geringen Kosten
und der globalen, weltweiten Erreichbarkeit der Zielpersonen. Für die Zielperso-
nen ergibt sich der Vorteil der zeitlichen Unabhängigkeit und der Ortsunabhängig-
keit in Bezug auf die Durchführung der Interviews. Letztere können überall dort
geführt werden, wo auch immer ein Zugang zum Internet verfügbar ist. Die ver-
breitete Nutzung mobiler Geräte wie Tablets und Smartphones mit Internetzugang
verstärkt die zeitliche und örtliche Unabhängigkeit erheblich, da keine festinstal-
lierten, stationären Geräte mehr aufgesucht werden müssen, um einen Zugang zu
erhalten.

II.4.2 Besondere Anforderungen und Qualitätsgefährdungen

Planung und Durchführung computerunterstützter Befragungen stellen aber auch


besondere Anforderungen, deren Nichteinhaltung Gefährdungen für die Umfrage-
qualität darstellen können. Zu den besonderen Anforderungen gehören:
bei allen CAI-Verfahren:
• Geschultes Personal für die Programmierung der Fragebögen und die Bedie-
nung der Verwaltungskomponenten der eingesetzten Software (z.B. Abruf von
statistischen Informationen während der Umfrage, etc.);
• besondere Anforderungen an die Zuverlässigkeit der eingesetzten Technologie.

bei Interviewer-administrierten CAI-Befragungen:


• technologische Schulung der Interviewer.
II.4 Zusammenfassung der Vor- und Nachteile computerunterstützter Interviews 127

bei Selbst-administrierten CAI-Befragungen:

• technologische Schulung der Befragten bzw. Voraussetzung von Bedienungs-


kompetenz bei den Befragten;
• Einbindung von Navigationshilfen, die es den Befragten ermöglichen, ohne
Schwierigkeiten den Weg durch das Erhebungsinstrument zu finden.

Qualitätsgefährdungen können entstehen durch:

• das Auftreten zusätzlicher Probleme der Handhabbarkeit mit der Folge fehler-
hafter Dateneingabe, zeitlicher Dehnung des Interviews, etc.;
• das mögliche Auftreten technologischer Fehler mit Auswirkungen auf den
Messfehler und Nonresponse, z.B. durch verschiedene Störungen des Systems
wie zu lange Wartezeiten auf die Systemreaktion, mangelnde Verständlichkeit
sprachlicher Informationen durch Störungen des Übertragungskanals, z.B. bei
CATI-Interviews, fehlerhaften Berechnungen, etc.;
• zusätzliche Arten von Nonresponse wie etwa das „Lurking“ bei Online-Inter-
views vgl. (Teil VII) oder Anrufbeantworter bei Telefonumfragen;
• fehlende oder unvollständige Auswahlgrundlagen für Bevölkerungsstichpro-
ben; Probleme der Selbstselektion bei nicht wahrscheinlichkeits-basierten We-
bumfragen (Lösung: Offline-Rekrutierung, z.B. per CATI mit zufälliger Stich-
probenziehung);
• Probleme der Authentifizierung bei internet-basierten Umfragen;
• niedrige Teilnahmebereitschaft (vgl. z.B. Kim et al., 2010 im Vergleich SAQ/
CASI); Manfreda et al., 2008 in Bezug auf reine Webumfragen)
• mangelndes Vertrauen in das Internet (vgl. z.B. Deutschmann & Faulbaum,
2001);
• zusätzliche Arten systematischer Auswahleffekte bei Selbst-administrierten
Befragungen durch Abhängigkeiten vom Vorhandensein und von der Art der
Hard- und Softwareausstattung;
• Gefahr zusätzlicher Einflüsse auf den Messfehler durch das Layout und die ge-
forderte Form der Antworteingabe; unterschiedliche Wirkungen des Layouts
können durch unterschiedliche Browser und unterschiedliche Bildschirmkon-
figurationen entstehen. Die Darstellung des Fragebogens auf dem Monitor des
Designers kann dabei maßgeblich von der Darstellung auf dem Monitor des
Befragten abweichen; bei Papierfragebögen ist das Layout des Fragebogens für
Designer und Befragten identisch.
128 II.5 Umfragen mit mehreren Kommunikationsformen (Mixed-Mode-Surveys)

II.5 Umfragen mit mehreren Kommunikationsformen


(Mixed-Mode-Surveys)

Umfragen unter Verwendung mehrerer Kommunikationsformen, z.B. Verbindung


von Face-to-Face-Befragungen mit telefonischen Befragungen oder postalischen
Befragungen gehören traditionell zum Erhebungsrepertoire der Umfragefor-
schung. Die Erweiterung der technologischen Möglichkeiten in der Datenerhe-
bung hat auch zu erweiterten Möglichkeiten geführt, unterschiedliche Kommuni-
kationsformen miteinander zu kombinieren (vgl. z.B. Buskirk & Andrus, 2014).
Prinzipiell lassen sich alle Kommunikationsformen mit unterschiedlichen Geräten
(Computer, Smartphones, etc.) miteinander verbinden. Weitere technologische In-
novationen werden voraussichtlich auch in Zukunft die Varianten von Mixed-Mo-
de-Befragungen bereichern. Einen Überblick über die verschiedenen Möglichkei-
ten von Mixed-Survey-Erhebungsdesigns geben De Leeuw (2005) sowie Dillman
und Messer (2010). Einen Einblick in Designgesichtspunkte geben Dillman, Smyth
und Christian (2014).
Unter der Bezeichnung „Mixed-Mode-Befragung“ werden unterschiedliche
Anwendungen zusammengefasst:

• In einer bestimmten Kommunikationsform (z.B. telefonisch) rekrutierten Per-


sonen wird angeboten, das Interview in einer anderen, alternativen Kommuni-
kationsform zu führen.
• Im Rahmen eines Interviews wird bei bestimmten Fragen zu einem anderen
Mode übergegangen (z.B. von der Interviewer-Administration zur Selbstadmi-
nistration bei sensitiven Fragen; siehe oben).
• Unterschiedliche Teilmengen von Personen werden unter Einsatz unterschied-
licher Technologien befragt. Die Zuordnung erfolgt oft in der Rekrutierungs-
phase entweder durch Zuordnung der Kommunikationsform zu Teilgruppen
mit spezifischen Merkmalen (z.B. Zugang zum Internet) oder durch zufällige
Zuordnung zu verschiedenen Kommunikationsformen.
• Befragte werden nach dem Interview um das Ausfüllen eines Ergänzungsfrage-
bogens (engl. supplementary interview bzw. supplementary questionnaire) gebe-
ten, der in einem anderen Mode ausgeführt werden kann als der im Hauptin-
terview verwendete.
• Ein innerhalb einer Befragungstechnologie (z.B. CATI) unvollständig ausge-
füllter Fragebogen wird in einer anderen Befragungstechnologie (z.B. CAPI)
vervollständigt.
II.5 Umfragen mit mehreren Kommunikationsformen (Mixed-Mode-Surveys) 129

• In einer Panelstudie werden die Daten in späteren Wellen mit einer anderen
Technologie erhoben werden als die davorliegenden Wellen.

Das übergeordnete Ziel eines Mixed-Mode-Designs besteht in der Regel darin, die
verschiedenen Schwächen einzelner Befragungsarten durch Kombination zu mini-
mieren. So dienen Mixed-Mode-Designs etwa dazu, eine optimale Ausschöpfung
der Stichprobe und eine Erhöhung der Teilnahmebereitschaft in der Kontakt- und
Rekrutierungsphase einer Umfrage dadurch zu erreichen, dass die Bevorzugungen
bestimmter Befragungsarten durch die Befragten respektiert werden (vgl. hierzu
Olson, Smyth & Wood, 2012; Shih & Fan, 2002). Durch einen Wechsel der Ad-
ministrationsform kann ferner versucht werden, Item-bezogene Nichtantworten
(Item Nonresponse) bei heiklen Fragen und damit den Einfluss der Sensitivität auf
den Messfehler zu vermindern. Erwartet wird von Mixed-Mode-Designs oft auch
eine Kostenoptimierung. Ferner lassen sich Probleme der Ausstattung minimieren,
indem z.B. jene Personen, die das Internet intensiver nutzen, über das Web befragt
werden, während Befragte, bei denen dies nicht der Fall ist, in einem anderen Mode
befragt werden. Der Übergang von einem Mode zum anderen ist wesentlicher Be-
standteil von responsiven Designs (vgl. Groves & Heeringa, 2006), wo es um die
Verbesserung von Parameterschätzungen sowie der Kostenstruktur durch Mode-
wechsel geht.
Die Verknüpfung verschiedener Kommunikationsformen kann grundsätz-
lich entweder sequentiell oder gleichzeitig erfolgen. Im Rahmen eines sequenti-
ellen Einsatzes unterschiedlicher Kommunikationsformen wird den potentiellen
Befragten zunächst nur eine Kommunikationsform für das Interview, d.h. ein
bestimmter Interviewmode angeboten. Erst, wenn die Befragten sehr lange mit
Ihrer Antwort auf die Bitte um Teilnahme zögern oder verweigern, wird ihnen
eine weitere Kommunikationsform angeboten. Der zuerst angebotene Mode wird
auch als primärer Mode bezeichnet, der danach angebotene Mode als sekundärer
Mode. Prinzipiell könnten danach noch weitere Mode-Angebote folgen. Die se-
quentielle Verknüpfung von Angeboten verschiedener Kommunikationsformen
in der Kontaktphase kann dabei zu einer erhöhten Responserate führen (vgl. Dill-
man et al., 2009).
Bei einer gleichzeitigen Verknüpfung werden den Befragten mehrere, zumeist
zwei, Kommunikationsformen gleichzeitig angeboten, zwischen denen sie wäh-
len können. Die gleichzeitige Verknüpfung besteht oft darin, dass die Befragung
in einem bestimmten Mode durchgeführt wird und ein weiterer Mode als Zu-
satzoption angeboten wird. Ein Beispiel wäre etwa, wenn in einem Mailsurvey
als Zusatzoption angeboten würde, den Fragebogen auch online im Web auszu-
füllen. Eine solche Option kann als Folge eine Reduktion der Responserate im
130 II.5 Umfragen mit mehreren Kommunikationsformen (Mixed-Mode-Surveys)

Hauptmode nach sich ziehen. So fanden z.B. Medway & Fulton (2012), dass das
Angebot einer zusätzlichen Weboption die Responserate des Mailsurveys redu-
ziert. Bei einer Verbindung verschiedener Kommunikationsformen sollte immer
überlegt werden, welche Kosten das Angebot einer Kommunikationsform für
den Befragten beinhalten würde.
Für die Teilnahmebereitschaft ist das Zusammenspiel zwischen der Kommu-
nikationsform während Kontaktaufnahme/Rekrutierung (Kontaktmode), in de-
ren Rahmen die Anfrage zur Teilnahme (survey request) vorgetragen wird und
dem Interviewmode von Bedeutung. Wird der Befragte z.B. postalisch kontak-
tiert und ihm ein Interview via Web angeboten, muss bedacht werden, dass der
Befragte z.B. erst den Computer anschalten muss, die Website aufrufen muss,
etc., während er bei einer schriftlichen Bearbeitung des Fragebogens, im gleichen
Mode verbleiben kann. Dadurch kann z.B. zumindest teilweise erklärt werden,
warum die Antwortraten bei schriftlicher Bearbeitung höher sind als bei der Be-
arbeitung von Webfragebögen. Varianten der Verbindung von Web-Befragung
und postalischer Befragung haben Milar und Dillman (2011) experimentell un-
tersucht. Dabei setzten sie verschiedene Möglichkeiten der Übermittlung der Bit-
te um Teilnahme in Verbindung mit dem Angebot, das Interview über das Web
oder schriftlich auszuführen. Sie fanden heraus, dass bei einer Verbindung von
einer postalischen Anfrage gekoppelt mit gleichzeitigen Kontaktaufnahmen via
E-Mail, die Antwortrate der Teilnehmer an der Webumfrage vergleichbar war
mit der Antwortrate per Mail, während die Antwortrate bei einer Webumfrage
darunterlag, wenn nur postalisch kontaktiert wurde. Sie fanden außerdem, dass
das gleichzeitige Angebot der beiden Modes „schriftlich“ und „Web“ zu keiner
höheren Responserate führt als das Angebot „schriftlich“ allein. Dagegen führt
eine vorgetragene Bitte, an einer Webumfrage teilzunehmen zu einer Erhöhung
der finalen Responserate, wenn den Nichtteilnehmern der Wechsel zum Mode
„schriftlich“ angeboten wird. Allerdings wurde das Experiments mit Studieren-
den durchgeführt. Die Frage ist, ob diese Ergebnisse auf allgemeine Bevölke-
rungsumfragen übertragbar sind.
Allgemein ist eine Verbindung von Kommunikationsformen dann besser als
eine andere, wenn sie zu geringeren Kosten führt ohne die Responserate negativ zu
beeinflussen oder wenn sie zu höheren Responseraten führt. Einige Studien fanden
keine Unterschiede in den Responseraten bei verschiedenen Modeverknüpfungen
(vgl. Rodriguez et al., 2006; McMorris, 2009; Dillman et al., 2009). Andere Stu-
di-en berichten in Bezug auf die Reihenfolge „Telefon-Mail“ vs. „Mail-Telefon“ (vgl.
McHorney et al., 1994; Harris et al. 1997) und in Bezug auf „Mail-Web“ vs. „Web-
Mail“ (vgl. Beebe, 2007; Smyth, 2010) unterschiedliche Response-Raten. Vieles
spricht dafür, dass die Folge „Mail-Web“ höhere Responseraten produziert als die
II.5 Umfragen mit mehreren Kommunikationsformen (Mixed-Mode-Surveys) 131

Folge „Web-Mail“. Wagner et al. (2014) untersuchten die Reihenfolge „Face-to-Face


vs. Mail-Face-to-Face“ und konnten zeigen, dass die Reihenfolge der Modes für
Screening und Hauptinterview („in-depth interview“) die Kosten reduzieren kann,
ohne die Response-Rate negativ zu beeinflussen. Dass die konkrete Sequenz der
Modes für die finale Teilnahmequote von Bedeutung sein kann, fanden auch Amaya
et al. (2015) in einer Untersuchung der Reihenfolge „Telefon-Mail vs. Mail-Telefon“.
Ihre Ergebnisse zeigen, dass das „Mail-first Design“ dem „Phone-first Design“ hin-
sichtlich der Responserate überlegen war, insbesondere dann, wenn der Anteil der
auswählbaren (eligible; zum Begriff vgl. Teil IV)) Fälle in der Auswahlgesamtheit
sehr hoch war.
Eine Erklärung für die höhere Teilnahmequote bei bestimmten Modekombi-
nationen gegen über anderen kann darin bestehen, dass die Form der sequenti-
ellen Verbindung verschiedener Modes unterschiedliche Gruppen von Befragten
ansprechen kann (vgl. Fleming et al., 2013).
Eine Einschätzung des Effekts der Kommunikationsform (Mode-Effekt) kann
im Rahmen eines in die Umfrage eingebetteten Experiments erfolgen, bei dem
die Teilnehmer den Modegruppen nach Zufall zugeordnet werden (Randomi-
sierung), um den Einfluss von konfundierenden Variablen, die außer den Mo-
des auch noch für Unterschiede verantwortlich sein könnten, zu kontrollieren
(Kontrolle von Störvariablen). Ein typisches Beispiel ist eine Umfrage, bei der
die Befragten telefonisch rekrutiert werden und jene mit einem Internetzugang
und einer E-Mail-Adresse nach Zufall auf eine zwei Gruppen verteilt werden,
eine Gruppe, der ein Telefoninterview angeboten wird und eine Gruppe, der ein
Web-Interview angeboten wird.
Es liegt nahe, Interviews mit sensitiven Fragen/Items wegen der empirisch
immer wieder bestätigten niedrigeren Verweigerungsraten Selbst-administriert
durchzuführen. Dabei kann es sinnvoll sein, wegen der Möglichkeit einer wahr-
scheinlichkeits-basierten Auswahl die Rekrutierung offline per CATI durchführen.
Wechselt man von CATI in das IVR-System oder in das Web muss mit einer erhöh-
ten Anzahl von Verweigerungen durch Auflegen des Telefonhörers (bei Übergang
zu IVR; vgl. Tourangeau et al., 2002; Couper, Singer & Tourangeau, 2004) oder mit
nicht eingehaltenen Zusagen, den Webfragebogen auszufüllen, gerechnet werden
(vgl. Fricker et al., 2005; Kreuter, Presser & Tourangeau, 2008).
Ein Wechsel der Kommunikationsform steht zur Diskussion, wenn neben ei-
nem Hauptfragebogen noch ein Ergänzungsfragebogen ausgefüllt werden soll.
Ein Beispiel ist das Ausfüllen des ISSP-Fragebogens nach dem ALLBUS-Interview
(zum ISSP vgl. Teil I, Abschnitt 10.2). Kim et al. (2010) untersuchten das Auftreten
von Ausfällen von Befragten, wenn nach einem Interviewer-administrierten PAPI-
oder CAPI-Interview zu SAQ (im Anschluss an PAPI) und CASI (im Anschluss an
132 II.6 Modeeffekte

CAPI) übergegangen wird. Die Autoren fanden, dass der Übergang von CAPI zu
CASI die Bereitschaft, den Ergänzungsfragebogen zu beantworten, im Vergleich
zum Übergang von PAPI zu SAQ verringert, wobei allerdings angemerkt werden
muss, dass es sich bei der Untersuchung um keine experimentelle Studie handelt
und nicht eingeschätzt werden konnte, wie die Wirkungen von PAPI und CAPI
auf die nachfolgende Nonresponse beim Ergänzungsinterview aussieht. Couper &
Rowe (1996) vermuten, dass die Bereitschaft, an einem CASI-Ergänzungsinterview
teilzunehmen, vor allem durch Lese- und Schreibfähigkeit sowie die Vertrautheit
mit dem Rechner beeinflusst wird.

II.6 Modeeffekte

II.6.1 Allgemeines

Die Wahl der Kommunikationsform kann einen Einfluss auf verschiedene As-
pekte der Umfragequalität und die Komponenten des totalen Umfragefehlers
(vgl. Teil I, Abschnitt 4.2) haben, wobei sowohl Beobachtungsfehler als auch
Nicht-Beobachtungsfehler betroffen sein können. Wie in Abschnitt 5 bereits er-
wähnt, erwartet man sich positive Effekte in Bezug auf eine präzisere Repräsenta-
tion der Zielpopulation und in Bezug auf die Kostenstruktur der Erhebung. Auf
der anderen Seite kann es prinzipiell auch Einflüsse auf die Messung geben, wel-
che eine einheitliche Interpretation der Ergebnisse über die Modes hinweg ge-
fährden.
Die drei wichtigsten Einflüsse von Modes auf Umfrageergebnisse sind:

• Einflüsse auf die Zusammensetzung der Stichprobe (Selektionseffekt; engl.:


selection effect);
• Einflüsse auf das Antwortverhalten (engl.: response effects) und auf den Mess-
fehler (Messeffekt; engl.: measurement effect) und die Antwortqualität;
• Einflüsse auf die Datenqualität, die durch die Qualität von Schritten der Um-
frageorganisation vermittelt sind, wie z.B. durch die Qualität der eingesetzten
Interviewer und der Interviewer-Schulung bei Interviewer-administrierten In-
terviews, die bei Selbst-administrierten Interviews entfällt.

Da jede Kommunikationsform durch ein Bündel von Merkmalen charakterisiert


werden kann, von denen einige der Administrationsform, andere dem Übertra-
II.6 Modeeffekte 133

gungskanal und wieder andere der Technologie zugeordnet werden können, muss
bei den Wirkungen der Kommunikationsform stets auch nach den Merkmalen
gefragt werden, die für diese Wirkungen konkret verantwortlich sind. Zu den
Merkmalen der Administrationsform gehören insbesondere Merkmale der Admi-
nistratoren. Im Fall von Face-to-Face-Umfragen gehören alle sprachlich/akustisch/
stimmlichen Merkmale (z.B. Tonhöhe und -stärke, Redefluss und Sprechgeschwin-
digkeit, Ausdrucksweise und Wortwahl, etc.) sowie alle visuellen äußeren Merk-
male des Interviewers einschließlich aller wahrnehmbaren Verhaltens- und Hand-
lungsmerkmale (z.B. Mimik, Gestik, Kleidung, Haar- und Hautfarbe, Körpergröße,
Body-Mass-Index, etc.). Diese wahrnehmbaren Merkmale ermöglichen es den
Befragten, Zuschreibungen wie „Höflichkeit“, „Hilfsbereitschaft“, „Zuwendung“,
„physische Attraktivität“, etc. zu konstruieren. Grundsätzlich können die wahr-
nehmbaren Merkmale Grundlage sein für die Bildung von Hypothesen über die
Person des Interviewers und seine soziodemographischen Merkmale einschließlich
seines sozialen Status sowie seine Einstellungen und charakterlichen Merkmale.
Verantwortlich sind hier psychologische Prozesse der Eindrucksbildung (engl.: im-
pression formation), zu deren Modellierung wiederum Theorien der Urteilsbildung
und der sozialen Kognition herangezogen werden können. Bei CATI-Umfragen
sind dagegen allein sprachlich/akustische/stimmliche Merkmale wahrnehmbar, so
dass die Befragten ihre Hypothesen über den Interviewer ausschließlich aus diesen
Merkmalen ableiten können.
Relative Effekte der Kommunikationsform auf die Aspekte „Selektion“ und
„Messung“ lassen sich durch einen Vergleich unterschiedlicher Kommunikations-
formen (Modevergleiche; engl.: mode comparisons) identifizieren und quantifizieren
(vgl. z.B. Fleming et al., 2013, Fricker et al., 2005; Yeager et al., 2011 in Bezug auf
Vergleiche Web vs. Telefon; Aquilino & Losciuto, 1990; Holbrook, Green & Kros-
nick, 2003, Gordoni, Schmidt & Gordoni, 2012 in Bezug auf Vergleiche Telefon
vs. Face-to-Face; Ye, Fulton & Tourangeau, 2011 in Bezug auf Telefon vs. andere
Modes; Fowler, Roman & Di, 1998, Denscombe, 2006, Heerwegh & Loosfeldt, 2011
in Bezug auf Telefon vs. Mail; Börkan, 2010; Barrios et al., 2011, Shin, Johnson
& Rao, 2012 in Bezug auf Web vs. Mail; Krysan et al., 1994 in Bezug auf Mail vs.
Face-to-Face; Wright, Aquilino & Supple, 1998 in Bezug auf computerunterstützt
vs. PAPI; Epstein, Barker & Kroutil, 2001 in Bezug auf ACASI vs. Face-to-Face;
McDonald & Thornburg in Bezug auf Telefon vs. Exit Poll; Klausch, Hox & Schou-
ten, 2013 in Bezug auf Face-to-Face, schriftlich, Web und Telefon; Gravlee et al.,
2013 in Bezug auf Face-to-Face vs. Web; De Bruijne & Wijnant, 2013 in Bezug auf
computer-assisted web survey vs. mobile web survey; Heerwegh, 2009; Revilla &
Saris, 2013 in Bezug auf Face-to-Face vs. Web; Kreuter, Presser & Tourangeau, 2008
in Bezug auf CATI vs. IVR vs. Web; Presser & Stinson, 1998 in Bezug auf Intervie-
134 II.6 Modeeffekte

wer-administriert vs. Selbst-administriert). Vergleichende Studien unterscheiden


sich in Bezug auf das Design (experimentell vs. nicht-experimentell, Mixed Mode
innerhalb einer Erhebung vs. Modes über unterschiedliche Erhebungen) und in
Bezug die untersuchte abhängige Variable (z.B. Datenqualität, Antwortverhalten,
Nonresponse et al.). Die Ergebnisse dieser Vergleiche sind immer spezifisch für die
miteinander verglichenen Modes.
Bei Modevergleichen kann es durchaus zu vermeintlich kontraintuitiven Er-
gebnissen kommen. Ein Beispiel stellen Modeunterschiede zwischen telefoni-
schen und Face-to-Face-Befragungen dar. Eigentlich sollte man bei telefonischen
Befragungen auf Grund der größeren sozialen Distanz zwischen Interviewer und
Befragten einen reduzierten Effekt der sozialen Erwünschtheit erwarten. Empiri-
sche Analysen scheinen aber eher das Gegenteil zu signalisieren (vgl. Aquilino &
LoSciuto, 1990; Holbrook, Green & Krosnick, 2003). Dieser Effekt wird auf von
einigen Forschern darauf zurückgeführt, dass Face-to-Face-Interviewer überzeu-
gender in der Vermittlung von Vertrauen sind (vgl. Holbrook, Green & Krosnick,
op. cit.)
Wir werden die Wirkungen verschiedener Kommunikationsformen später dort
thematisieren, wo von den spezifischen Phänomenen die Rede ist, die von ihnen
beeinflusst werden, also z.B. Wirkungen auf die Antwortqualität und die Messun-
gen dort, wo das Antwortverhalten und die Antwortqualität behandelt wird (Teil
III), die Wirkungen auf die Nonresponse dort, wo die Nonresponse behandelt wird
(Teil VII).

Statistische Identifikation und Kontrolle von Mode-Effekten


Im Rahmen von Mixed-Mode-Befragungen lassen sich die für die globalen Unter-
schiede zwischen den Modegruppen verantwortlichen Variablen durch statistische
Verfahren für die optimale Diskrimination zwischen Gruppen identifizieren. Ein
Beispiel für ein solches Verfahren stellt die Diskriminanzanalyse dar, bei der Li-
nearkombinationen beobachteter Variablen berechnet werden, die zwischen den
Gruppen optimal trennen. Je höher das Gewicht ist, mit denen eine Variable in die-
se Linearkombination eingeht, desto höher ist ihr Beitrag zur Gruppentrennung.
Bei multivariaten Verfahren lässt sich der allgemeine Mode-Effekt, der sich aus ei-
nem Selektionseffekt und einem Messeffekt zusammensetzt, durch die Integration
der Modevariablen in das statistische Modell kontrollieren (vgl. z.B. Kolenikov &
Kennedy, 2014). Sei Y eine Zielvariable, z.B. die Einstufung eines Items auf einer
quasimetrischen 5stufigen Rating-Skala. Sei M die Mode-Variable, die als Werte
zwei oder mehr verschiedene Modes annehmen kann. Seien X unabhängige Zielva-
II.6 Modeeffekte 135

riablen. Dann wäre der Einfluss von M auf Y im Rahmen der Analyse der linearen
Gleichung

Y = β0 + β M M + β Z X + ε

kontrollierbar.
Werden Modes sequentiell zur Optimierung der Responserate eingesetzt, also
etwa dann, wenn nach einer Face-to-Face-Umfrage als primärem Mode den Ver-
weigerern noch einmal die Möglichkeit einer telefonischen Teilnahme eröffnet
wird, lassen sich die Werte des sekundären Modes auch als fehlende Werte behan-
deln, die imputiert werden können (vgl. Kolenikov & Kennedy, 2014).

II.6.2 Selektionseffekte

II.6.2.1 Begriffliche Präzisierung

Merkmale von Kommunikationsformen können infolge der mit ihnen verbun-


denen unterschiedlichen Zugangsmöglichkeiten zu Befragungstechnologien,
unterschiedlichen Kompetenzanforderungen, Bevorzugungen bestimmter Be-
fragungsformen, etc., die über verschiedene Subgruppen der Bevölkerung un-
terschiedlich ausgeprägt sein können, zu einer Über- oder Unterrepräsentation
bestimmter Teilpopulationen der Gesamtpopulation in der finalen Stichprobe
(Nettostichprobe) führen. Der Effekt, der darin besteht, dass allein auf Grund der
Kommunikationsform bestimmte Teilgruppen abweichend von ihren Anteilen in
der Population in der finalen Nettostichprobe vertreten sind, stellt einen Selek-
tionseffekt dar (vgl. Voogt & Saris, 2005). Selektionseffekte können in der Regel
nur in Bezug auf Variablen festgestellt werden, deren Verteilungen sowohl in der
Stichprobe als auch in der Grundgesamtheit bekannt sind. Dies sind in der Regel
die soziodemographischen Hilfsvariablen. Aber auch wenn sich modespezifische
Verteilungsunterschiede zwischen theoretischen Verteilungen in der Zielpopula-
tion und empirischen Verteilungen in der finalen Nettostichprobe der Respon-
denten nur hinsichtlich jener Variablen überprüfen lassen, für die Informationen
sowohl in der Stichprobe als auch in der Auswahlgesamtheit vorliegen, können
Selektionseffekte prinzipiell natürlich auch die inhaltlich relevanten Zielvariablen
betreffen, für die nur die empirischen Verteilungen in der Stichprobe bekannt
sind. Oft sind Einflüsse der Modes auf Zielvariablen über den Zusammenhang
136 II.6 Modeeffekte

mit den demographischen Hilfsvariablen wie Alter, Geschlecht, Bildung, etc. ver-
mittelt. Wenn es einen Selektionseffekt in Bezug auf soziodemographische Varia-
blen gibt und diese mit bestimmten Zielvariablen zusammenhängen, ist auch ein
Selektionseffekt in Bezug auf diese Zielvariablen zu erwarten (siehe unten). So
weiß man z.B., dass es immer noch altersspezifische, geschlechtsspezifische und
bildungsspezifische Einflüsse auf die Teilnahme an Webumfragen gibt und dass
dementsprechend die Merkmalsverteilungen dieser soziodemographischen Va-
riablen in der mode-spezifischen Stichprobe der Webteilnehmer von den Vertei-
lungen der Grundgesamtheit abweichen. Es darf angenommen werden, dass dies
auch für jene Zielvariablen gilt, die mit diesen soziodemographischen Variablen
statistisch zusammenhängen können.
Stellen wir bei einer Single-Mode-Umfrage, bei der für die Durchführung der
Interviews nur ein einziger Mode zugelassen ist, Abweichungen von den Vertei-
lungen in der Grundgesamtheit fest, so ist ein eventuell bestehender Modeeffekt
nicht ohne weiteres isolierbar, da andere Ursachen für diese Abweichungen im
verwendeten Mode in Frage kommen (z.B. Sponsorship-Effekte, Effekte des Inter-
esses am Thema, et.). Nur wenn alternative Ursachen durch statistische Kontrolle
ausgeschlossen werden können, wäre ein Selektionseffekt durch den Mode nach-
weisbar. Dieser Nachweis kann auf Grund der Einmaligkeit der Randbedingun-
gen einer Umfrage nicht empirisch/statistisch geführt werden. Lediglich ein rein
theoretisch begründeter Ausschluss anderer Einflüsse auf die Teilnahme könnte
einen Rückschluss auf die Wirksamkeit des eingesetzten Modes ermöglichen. Die
Abschätzung eines Mode-spezifischen Selektionseffekts wäre nur im Rahmen spe-
zieller Umfragedesigns möglich. Wenn es z.B. gelingen würde, die Umfrage mit
den rein zufällig ausgewählten Respondenten unter sonst gleichen Bedingungen
noch einmal zu wiederholen, könnte man bei identischen Abweichungen von den
Merkmalsverteilungen in der Population auf einen Selektionseffekt schließen, der
auf den eingesetzten, spezifischen Mode zurückgeht.
Es gibt vor allem drei wichtige Typen von Ursachen für Selektionseffekte in Be-
zug auf eine wohldefinierte Population U:
Selektionseffekte auf Grund merkmalsabhängiger Verteilungen der Nutzungsvoraus-
setzungen in der Population U:
Diese Situation wäre dann gegeben, wenn die Ausstattungen mit Telefon (beim Te-
lefonmode) oder Zugang zum Internet (bei Webumfragen) in der Gesamtbevölke-
rung in verschiedenen soziodemographischen Teilpopulationen (z.B. Geschlecht-
ergruppen, Bildungsgruppen, Altersgruppen, etc.) unterschiedlich häufig vertreten
sind.
II.6 Modeeffekte 137

Merkmalsabhängige Kontaktierbarkeit:
Unterschiedliche Modes können in ihrer Funktion als Kontakt-Modes zu einer
unterschiedlichen Erreichbarkeit und damit Kontaktierbarkeit führen. Soll eine
Umfrage etwa telefonisch über das Festnetz durchgeführt werden, ist die Kontak-
tierbarkeit abhängig vom Muster der häuslichen Anwesenheit, von Urlaubszeiten,
etc. Grundsätzlich könnte der Fall eintreten, dass mobile Personen, die oft beruflich
unterwegs sind oder Personen, die im Schichtdienst arbeiten, schlechter erreichbar
sind. Ist dieses Merkmal auch noch von bestimmten soziodemographischen Varia-
blen abhängig, überträgt sich die Abhängigkeit auf weitere Merkmale. Dies würde
z.B. gelten, wenn männliche Arbeitnehmer mobiler sind als weibliche Arbeitneh-
merinnen. Natürlich hängt der finale Kontakterfolg auch von situativen Variablen
wie Jahreszeit, Tageszeit, etc. sowie verschiedenen Arten von Paradaten wie etwa
der Anzahl der Kontaktversuche ab.
Merkmalsabhängige Ablehnung oder Bevorzugung des in der Umfrage vorgesehenen
Interview-Modes:
Wenn kontaktierte Befragte bestimmte Modes als Interview-Modes bevorzugen
oder ablehnen, so kann dies zu einer selektiven Teilnahmebereitschaft führen.
Mitbestimmend für die Teilnahmeentscheidung ist in diesem Fall eine latente Prä-
ferenzordnung der Modes (siehe unten). Diese Bevorzugungen sind nicht unab-
hängig von den Nutzungsvoraussetzungen zu sehen, da davon auszugehen ist, dass
jener Mode eher bevorzugt wird, wenn man ihn auch bedienen kann.
Aus Sicht der statistischen Modellierung entstehen Selektionseffekte auf die Teil-
nahmeentscheidung nach erfolgreichem Kontakt dadurch, dass bestimmte, mit
Personen verbundene Merkmale (Individuen-spezifische Variablen), wozu z.B.
auch das soziale Umfeld, die Haushaltsgröße, Einstellungen gehören können, mit
einer Modevariablen, die unterschiedliche Modes als Ausprägungen annehmen
kann, in Wechselwirkung treten und diese Wechselwirkung einen signifikanten Ef-
fekt auf die Teilnahmeentscheidung hat, wenn also z.B. das Geschlecht mit den Mo-
des interagiert, indem Männer an Webumfragen eher teilnehmen als Frauen. Ur-
sache dafür, dass unterschiedliche Personengruppen bei bestimmten Modes eher
teilnehmen als bei anderen, ist also letztlich gleichbedeutend mit dem Effekt einer
Interaktion zwischen einer Menge I von Individuen-spezifischen Variablen und ei-
ner Modevariablen M (z.B. telefonisch, online) auf die Teilnahmeentscheidung. Sei
T eine dichotome abhängige Variable der Teilnahmeentscheidung mit den Werten
T = 1, falls eine Person x teilnimmt und T = 0, falls x nicht teilnimmt, so ergibt sich
die in Abbildung II.6 dargestellte Beziehung.
138 II.6 Modeeffekte

Da die abhängige Variable eine dichotome Variable darstellt, wird als statisti-
sches Modell eine verallgemeinerte lineare Regression (z.B. logistisches Modell,
Probitmodell, etc.) angenommen werden müssen.

Abbildung II.6: Darstellung des Selektionseffekts

Eine empirische Evaluation des beschriebenen Modells ist allerdings nur möglich,
wenn (1) Zielpersonen die Wahl zwischen der gleichen Menge von Modes haben
und wenn (2) die Individuen-spezifischen Variablen sowohl für Respondenten als
auch für die Nichtrespondenten gemessen werden konnten. Die zuletzt genannte
Voraussetzung ist in der Regel nicht gegeben. Sie kann allerdings zumindest dann
teilweise erfüllt werden, wenn die Ausprägungen dieser Variablen für jedes Stich-
probenelement in der Auswahlgrundlage enthalten sind, wenn die Daten also durch
entsprechende administrative Zusatzinformationen ergänzt werden können oder
wenn es gelingt, diesbezügliche Informationen in der Umfrage selbst, z.B. während
der Kontakt- und Screening-Phase etwa durch Einsatz eines Nonresponder-Frage-
bogens oder durch ein gekürztes Instrument zu erheben (vgl. Teil VII). Eine Alter-
native zur Formulierung eines Modells, bei dem alle Zielpersonen zwischen Modes
wählen können, wäre der Vergleich zwischen unabhängigen Zufallsstichproben,
die unterschiedlichen Modes zugeordnet werden (vgl. Abbildung II.7).
II.6 Modeeffekte 139

Abbildung II.7: Überprüfung des Selektionseffekts durch Modellvergleiche zwischen Modes

Das oben dargestellte Modell vernachlässigt allerdings die entscheidungstheoreti-


sche Perspektive, die den Nutzen der Teilnahmeentscheidung in den Blick nimmt.
Es ist nämlich davon auszugehen, dass der Mode wie andere Merkmale auch einen
Einfluss auf den mit den Alternativen der Teilnahmeentscheidung verbundenen
Nutzen hat, in dem etwa ein Mode für eine Zielperson einfacher zu bedienen ist
als ein anderer Mode. Geht man davon aus, dass eine Teilnahmeentscheidung nach
dem Modell der rationalen Wahl getroffen wird, so muss angenommen werden,
dass die Teilnahmeentscheidung auf Basis des Gesamtnutzens erfolgt, der mit den
Alternativen „Teilnahme“ und „Nichtteilnahme“ verbunden ist (zum Modell der
rationalen Wahl bei Teilnahmeentscheidungen vgl. Schnell, 1997 sowie Teil VI).
Selektionseffekte treten bei Teilnahmeentscheidungen immer dann auf, wenn
jene Variablen, welche die Teilnahmeentscheidung beeinflussen, auch die Vertei-
lungen der Zielvariablen beeinflussen (siehe unten). Dies ist der Fall, wenn es eine
gemeinsame Ursache für die über die Modepräferenz vermittelte Teilnahmeent-
scheidung und die Antwort auf eine Frage gibt (vgl. Abbildung II.8). So könnten
etwa einerseits die mit dem Alter verbundenen Merkmale die Teilnahmeentschei-
dung bei einer Webumfrage beeinflussen, andererseits aber auch die Antwort auf
140 II.6 Modeeffekte

die Frage nach der „Parteineigung“. Die Konsequenz wäre möglicherweise eine
Überrepräsentation des Alters in der Stichprobe und eine stärkere Bevorzugung
konservativer Parteien als in der Grundgesamtheit zu erwarten gewesen wäre.

Abbildung II.8: Gemeinsame Ursache für Kommunikationsform und Zielvariablen

Die gemeinsame Ursache stellt eine konfundierende Variable dar.


Neben den absoluten Selektionseffekten, die sich in Abweichungen der finalen
Stichprobe von der Auswahlgesamtheit äußern, kann es bei Befragungen, in de-
nen mehrere Interview-Modes angeboten werden, dank der mit demographischen
Hilfsvariablen und/oder Zielvariablen korrelierten Modebevorzugungen auch zu
unterschiedlichen Zusammensetzungen der mode-spezifischen Teilstichproben
kommen.
Solche relativen Effekte, die darin bestehen, dass eine Stichprobe in einem Mode
sich von einer Stichprobe in einem anderen Mode unterscheidet, lassen sich im
Rahmen von Modevergleichen (siehe oben) untersuchen. Dabei muss aber bedacht
werden, dass Verteilungsunterschiede zwischen mode-spezifischen Stichproben
auch durch den Einfluss von Modes auf die Messung entstehen können.
Eine Trennung des Mode-bedingten Selektionseffekts vom Mode-bedingten
Messeffekt erfordert besondere Überlegungen, auf die unten näher eingegangen
wird.
II.6 Modeeffekte 141

II.6.2.2 Modepräferenzen und ihre möglichen Ursachen

Selektionseffekte ergeben sich u.a. durch Bevorzugungen bestimmter Modes ge-


genüber anderen Modes, d.h. dadurch, dass Teilpopulationen, die sich durch be-
stimmte Merkmale auszeichnen, bestimmte Modes eher akzeptieren oder ablehnen
als andere. Beobachten lassen sich Bevorzugungen nur dann, wenn Personen die
Gelegenheit gegeben wird zwischen zwei oder mehr Modes zu wählen. Bei Sing-
le-Mode-Befragungen lässt sich dagegen nicht feststellen, welchen Stellenwert der
Mode in der unbekannten latenten Bevorzugungsordnung des Befragten hat, auch
wenn seine Teilnahme indiziert, dass die Stellung des angebotenen Modes in der
Präferenzordnung nicht zu einer Verweigerung geführt hat. Ferner kann die Ab-
lehnung von Modes auch dadurch bedingt sein kann, dass die kontaktierte Person
über die zur Durchführung notwendige Ausstattung nicht verfügt, weil ihm die
Realisierung des Modes zu umständlich ist und damit die Regel des maßgeschnei-
derten Designs (Dillmann, Smyth & Christian, 2014) verletzt ist. Im Folgenden
werden ohne Anspruch auf Vollständigkeit einige mögliche Gründe dafür, dass
bestimmte Modes anderen gegenüber bevorzugt werden, beschrieben. Mögliche
Gründe für Modebevorzugungen können sein:

A. Unterschiede in der technologischen Ausstattung (Mode-spezifische


Ausstattung)
Ein wichtiger Grund, einen angebotenen Mode zurückzuweisen und andere Mo-
des zu bevorzugen, besteht in dessen fehlender Verfügbarkeit. Dieser Grund lässt
sich im Rahmen eines Screenings der Ausstattung während der Kontaktaufnah-
me ausschließen. Die Anwendung computerunterstützter Befragungstechnologien
setzt stets den Zugang der Zielpopulation zu einer entsprechenden technischen
Ausstattung sowie außerdem deren tatsächliche Nutzung voraus. Unabhängig von
der Computerunterstützung ist etwa bei Telefonumfragen der Zugang zu einem
Telefonanschluss (Festnetz oder Mobilfunk) erforderlich. Für Selbst-administrierte
computerunterstützte Umfragen ist je nach Typ der Umfragetechnologie die Aus-
stattung mit einem Computer oder die Möglichkeit, E-Mails über eine E-Mail-Ad-
resse zu empfangen und abzuschicken, Voraussetzung. Bei Internetumfragen ist
der Zugang zum Internet-Dienst, oft auch eine E-Mail-Adresse notwendig. Die
technologischen Voraussetzungen betreffen dabei sowohl die Hard- also auch Soft-
warekonfiguration. Zur Softwareausstattung gehört z.B. auch die Ausstattung mit
geeigneten Browsern. Bei ACASI müssen z.B. Lautsprecher vorhanden sein, bei
T-ACASI und TDE Tastentelefone. Bei Face-to-Face-Umfragen über Skype ist eine
entsprechende Ausstattung mit einer Videokamera notwendige Voraussetzung.
142 II.6 Modeeffekte

Wichtig ist in diesem Zusammenhang die Kenntnis der Verbreitungsdichte der


Nutzungsvoraussetzungen in der Zielpopulation. Werden Erhebungstechnologien
verwendet, die in der Zielpopulation nur eine geringe Verbreitungsdichte haben,
besteht nicht nur die Gefahr von Selektionseffekten schon bei der Stichprobenaus-
wahl durch systematische Unterdeckung der Zielpopulation, sondern auch durch
systematischen Einfluss auf das Bevorzugungsverhalten und damit auf die Teilnah-
meentscheidung. Dies führt dann zu systematischen Verzerrungen der Ergebnisse,
wenn die Ursachen für die unterschiedliche Verbreitung mit den Zielvariablen zu-
sammenhängen. Nehmen wir als krasses Beispiel den Fall, dass in einer Erhebung
von Einstellungen zu technologischen Innovationen in der Allgemeinbevölkerung
eine Webumfrage als Kommunikationsform gewählt wird. Da die Einstellungen zu
technologischen Innovationen mit dem Vorhandensein/Fehlen der Ausstattung
(Internetzugang, Vorhandensein einer E-Mail-Adresse) korreliert sein kann, be-
steht in diesem Fall die Gefahr von Ergebnisverzerrungen, wenn die Ergebnisse
auf die Allgemeinbevölkerung übertragen werden sollen. Es stünde zu erwarten,
dass in der finalen Stichprobe vor allem Personen mit einer positiven Einstellung
vertreten sind. Da die Einstellungen zu technologischen Innovationen auch von
weiteren soziodemographischen Variablen wie Alter, Geschlecht, Bildung und eth-
nischer Zugehörigkeit abhängen können, besteht auch die Gefahr einer Verzerrung
hinsichtlich dieser Merkmale.
Sind die technologischen Voraussetzungen bei den befragten Personen bzw. in
den befragten Haushalten nicht vorhanden, kann die Unterdeckung dadurch ver-
mieden werden, dass den Befragten entweder die technologische Ausstattung zur
Verfügung gestellt wird, wie dies z.B. im LISS-Panel (vgl. Das, 2012) geschieht oder
dass den Befragten im Rahmen eines Mixed-Mode-Ansatzes alternative Kommu-
nikationsformen wie z.B. schriftlich/postalisch zur Durchführung der Interviews
eröffnet werden wie z.B. beim GESIS-Panel.
Einige Selektionseffekte werden sich mit weiter zunehmender Verbreitung
weiterer Varianten der Kommunikations- und Computertechnologie, der Erwei-
terung des in Befragungen einsetzbaren Gerätespektrums (vgl. die Beiträge in
Toepoel & Lugtig) und der zunehmenden Erfahrung in der Bedienung von Hard-
und Software in der Bevölkerung kontinuierlich weiter entschärfen. Immerhin lag
die Schätzung der Internetnutzung im Jahr 2016 bereits bei ca. 84%, 28% sind täg-
lich im Internet unterwegs (Quelle: Onlinestudie von ARD und ZDF: http://www.
ard-zdf-onlinestudie.de). Diese Anforderungen bilden gewisse Voraussetzungen
für deren Anwendung. Es ist anzunehmen, dass die Ausstattungsunterschiede kurz
nach Einführung einer neuen Befragungstechnologie am Größten sind.
II.6 Modeeffekte 143

B. Unterschiedlich ausgeprägte Kompetenzen für die Nutzung der ein-


gesetzten Technologien
Voraussetzung für die Durchführbarkeit computerunterstützter Umfragen ist nicht
nur das Vorhandensein der notwendigen technologischen Ausstattung, sondern
darüber hinaus das Vorhandensein entsprechender Nutzungskompetenzen. Diese
Kompetenzen reichen von der Kompetenz zur Bedienung der Tastatur und des
Betriebssystems bis zur Fähigkeit, die visuelle Darstellung auf dem Bildschirm er-
kennen und lesen zu können. Bei Interviewer-administrierten Interviews müssen
diese Kompetenzen bei den Interviewerinnen und Interviewern vorhanden sein,
bei Selbst-administrierten Interviews bei den Befragten.
Sind die notwendigen Kompetenzen nicht oder nur unzureichend vorhanden,
so ergibt sich die Notwendigkeit, die Nutzer zu schulen und in die Bedienung
einzuweisen. Bei Interviewer-administrierten Umfragen bedeutet dies eine Schu-
lung der Interviewer in Bezug auf die technische Handhabung. Im Fall Selbst-ad-
ministrierter Umfragen bedeutet dies die technische Schulung der Befragten. Oft
werden – etwa bei Online-Umfragen - diese Kompetenzen vorausgesetzt oder im
Rahmen der Befragung selbst vermittelt (z.B. durch Informationen über die Navi-
gation des Fragebogens). Insbesondere bei selbstselektiven Webumfragen könnten
unterschiedliche Kompetenzen sowie die Nutzungsgewohnheiten die Zusammen-
setzung der Stichprobe beeinflussen. So muss damit gerechnet werden, dass Per-
sonen, die sich den Umgang mit der Befragungstechnologie nicht zutrauen und
die vorher nicht entsprechend geschult werden, diese Technologie ablehnen und
eine andere bevorzugen. Angenommen, eine Zufallsstichprobe von Befragten wür-
de telefonisch kontaktiert und gebeten, einen Webfragebogen auszufüllen. Dann
ist in diesem Fall damit zu rechnen, dass auch Personen, welche die notwendige
Ausstattung besitzen, dann eher nicht teilnehmen, wenn ihnen die Teilnahme zu
umständlich ist, oder wenn sie einfach noch nicht geübt genug sind, die erforderli-
che Handhabung zu gewährleisten.
Ist die Vermittlung der zur Durchführung der Interviews notwendigen Kompe-
tenzen in der Zielpopulation nicht zu leisten, sollte die Umfrage zur Vermeidung
von Selektionseffekten mit der vorgesehenen technologischen Ausstattung in der
Zielpopulation nicht durchgeführt werden, da sich auch hier die Gefahr systema-
tischer Effekte auf die Datenqualität ergibt. Um diesen Effekten zu entgehen, kann
es sich anbieten, auf Kommunikationsformen auszuweichen, in denen das Vor-
handensein und die Nutzung technologischer Ausstattungen vorausgesetzt werden
kann, z.B. Einsatz von schriftlichen Fragebögen bei jenen Personen, die nicht kom-
petent genug sind, das Web zu nutzen.
144 II.6 Modeeffekte

C. Problemlose Anwendbarkeit
Manche Modes erfordern in der Anwendung einen besonderen Aufwand. So müs-
sen bei Webumfragen erst ein Gerät angeschaltet sowie Browser und die Website
aufgerufen werden. Schließlich ist in der Regel auch noch die Eingabe eines Zu-
gangscodes erforderlich. Der Ansatz des maßgeschneiderten Designs von Dillman
(vgl. Dillman, 2000; Dillman, Smyth & Christian, 2014) empfiehlt, zur Verbesse-
rung der Teilnahmebereitschaft den Aufwand für den Befragten zu reduzieren.
Dieser Aspekt spielt ins besonderen auch bei Modewechseln, insbesondere auch
vom Kontaktmode in den Interviewmode eine Rolle. So ist etwa der Wechsel von
einem primären Telefon-Mode in einen Online-Mode mit mehr Aufwand verbun-
den als der Wechsel vom schriftlich/postalischen Mode zum Online-Mode (vgl.
hierzu auch Millar & Dillman, 2011). Der Aufwand dürfte auch mit der Gewohn-
heit und der Nutzungshäufigkeit zu tun haben. Der Wechsel von einem häufig ge-
nutzten Mode in einen seltener benutzten Mode wird mit einem zumindest sub-
jektiv höheren Aufwand verbunden sein. Dies ist aber durchaus abhängig von den
alltäglichen Verhaltensweisen des Befragten. Die Problemlosigkeit der Anwendung
muss als möglicher Faktor bei der Nutzenbewertung der Teilnahmeentscheidung
in Betracht gezogen werden.

D. Mode-spezifische Voraussetzungen der physischen Ausstattung der


Befragten
Jede Kommunikationsform setzt eine bestimmte physische und mentale Ausstat-
tung der Befragten voraus. Beispiele für physische Voraussetzungen sind die Hörfä-
higkeit bei Interviewer-administrierten Interviews oder die Seh- bzw. Lesefähigkeit
bei Selbst-administrierten Interviews. Neben der Sehfähigkeit muss in der Regel
auch die Schreibfähigkeit vorausgesetzt werden. Unterschiede dieser Art können
z.B. neben der altersmäßigen Zusammensetzung auch die unterschiedliche ethno-
logische Zusammensetzung von Stichproben beeinflussen. Ferner müssen die kog-
nitiven Voraussetzungen gegeben sein, um die Fragen/Items zu verstehen, sei es das
Verständnis gesprochener Sprache, sei es das Verständnis geschriebener Sprache.

E. Ängste und Bedenken der Befragten


Auch Ängste und Bedenken der Befragten betreffen Kommunikationsformen in
unterschiedlichem Ausmaß, z.B. fehlendes Vertrauen in die Technologie wie z.B.
fehlendes Vertrauen in die Anonymität des Internet. Furcht vor Datendiebstahl
(Kriminalitätsfurcht).
II.6 Modeeffekte 145

Alle aufgeführten Beispiele können dazu führen, dass in Mixed-Mode-Umfra-


gen, in denen Wahlmöglichkeiten zwischen unterschiedlichen Kommunikations-
formen eröffnet werden, bestimmte Formen gegenüber anderen bevorzugt werden.
Empirische Studien sprechen dafür, dass mit einer höheren Teilnahmebereitschaft
gerechnet werden kann, wenn der Mode, in dem die Interviews durchgeführt wer-
den, der von den Teilnehmern bevorzugte Mode ist (vgl. Groves & Kahn, 1979;
Olson, Smyth & Wood, 2012).

F. Bevorzugungsrelationen zwischen Modes


Der aus unterschiedlichen Ursachen resultierende Selektionseffekt, der sich letzt-
lich aus den unterschiedlichen individuellen Wahrscheinlichkeiten der Akzeptanz
von Modes ergibt, kann theoretisch für jede Kommunikationsform unterschiedlich
sein. Nehmen wir etwa das Beispiel von Web, CATI und Mail. Möge xi ‫ ؼ‬yi be-
deuten, dass Mode x dem Mode y von Individuum i vorgezogen wird, dann sind
grundsätzlich folgende Bevorzugungsmuster zwischen den genannten Modes für
irgendein i denkbar:
CATI ‫ ؼ‬Web ‫ ؼ‬Mail
CATI ‫ ؼ‬Mail ‫ ؼ‬Web
Web ‫ ؼ‬CATI ‫ ؼ‬Mail
Web ‫ ؼ‬Mail ‫ ؼ‬CATI
Mail ‫ ؼ‬CATI ‫ ؼ‬Web
Mail ‫ ؼ‬Web ‫ ؼ‬CATI
In einer konkreten Umfrage haben wir kein Wissen darüber, durch welcher Be-
vorzugungsrelation ein Befragter folgt. In der Praxis ist die Kommunikationsform
aber nur eine der möglichen und nicht einmal die wichtigste Determinante der
Teilnahmeentscheidung.

II.6.2.3 Mode-abhängige Selektion der Antwortqualität

Selektionseffekte können neben Auswirkungen auf die Verteilung der Hilfsvariab-


len auch Auswirkungen auf die Verteilung von Indikatoren der Antwortqualität von
Zielvariablen haben. Dies ist etwa dann der Fall, wenn die Ursachen der Selektion
durch Modes auch Ursachen der Antwortqualität sind. Wenn das Alter einerseits
über die Modepräferenz die Teilnahmeentscheidung, andererseits aber auch die
Antwortqualität beeinflusst, weil ältere Befragte z.B. eine verminderte Ausprägung
bestimmter kognitiver Fähigkeiten oder der Schreib- und Lesefähigkeit haben, also
146 II.6 Modeeffekte

gerade jener Fähigkeiten, die zur korrekten Beantwortung der Fragen benötigt wer-
den, können auch Auswirkungen auf die Antwortqualität in Sinne eines verstärkten
Auftretens von „Fehlklassifikationen“, „don’t know-Antworten“, „Item-Nonrespon-
se“, etc. nicht ausgeschlossen werden (vgl. Abbildung II.9). Defizite in der Leis-
tungsfähigkeit können wiederum von psychophysischer Belastbarkeit, Konzentra-
tionsfähigkeit, Ermüdbarkeit und verstärkter Neigung zum Satisficing abhängen.

Abbildung II.9: Kommunikationsform und Antwortqualität

Gemeinsame Ursachen müssen nicht immer beobachtbar sein. Vielmehr kann die
Menge der die Selektion beeinflussenden Variablen auch unbeobachtete Variablen
enthalten. Ein Beispiel sind die latenten Konstruktvariablen „Selbstenthüllungs-
tendenz“ und „Soziale Erwünschtheit“, die zu einer Bevorzugung Selbst-admi-
nistrierter Kommunikationsformen führen können. Eine empirische Analyse der
Auswirkungen latenter Konstruktvariablen erfordert die vorherige Identifikation
empirischer Indikatoren für diese Variablen.
II.6 Modeeffekte 147

II.6.3 Effekte auf Messung und Antwortqualität

II.6.3.1 Messeffekte

A. Auswirkungen auf die Verteilung der beobachteten Variablen


Die Evaluation von Messeffekten setzt voraus, dass alle übrigen Einflüsse auf die
Messung außer den Modes sowie der Selektionseffekt kontrolliert werden. Ein ge-
eignetes Untersuchungsdesign zur Untersuchung von Messeffekten ist ein experi-
mentelles Design mit Messwiederholung („within subjects design“; vgl. z.B. Kirk,
1995; Winer, Brown & Michels, 1991), bei dem eine identische Zufallsstichprobe
von Personen unter unterschiedlichen Modes ohne systematische Nonresponse
hinsichtlich der gleichen Variablen gemessen wird. Verteilungsunterschiede zwi-
schen den Messungen unter den verschiedenen Modes sind in diesem Fall nur auf
die Modes zurückzuführen, weil alle übrigen Einflussgrößen durch Konstanthal-
tung kontrolliert sind und daher Konfundierungen ausgeschlossen sind. In einem
solchen Design können die Verteilungsunterschiede auch nicht durch eine unter-
schiedliche Selektion erklärt werden, so das der verbleibende Effekt nur noch ein
Effekt auf die Messung sein kann.
Es ist also folgerichtig, wenn Vannieuwenhuyze & Loosfeldt (2013) zur forma-
len Präzisierung des Messeffekts die folgende Definition eines marginalen Mess-
effekts M (f(x)) vorschlagen. Gegeben sei eine dichotomen Mode-Variable A mit
dem Wertebereich A = a und A = b sowie eine Wahrscheinlichkeitsverteilung f(X)
der Variablen X. Dann ist der marginale Effekt definiert als

M ( f ( X ) ) = P ( X|A = a ) − P ( X|A = b ) .

Der marginale Messeffekt ist also definiert als Differenz zwischen der Wahrschein-
lichkeit von X unter Mode a und der Wahrscheinlichkeit von X unter Mode b.
Die statistische Evaluation des Messeffekts kann im Rahmen eines Designs mit
Messwiederholung durch Überprüfung der Hypothese erfolgen, dass beide Stich-
proben aus derselben Zielpopulation stammen. Dazu eignen sich der t-Test für ab-
hängige Stichproben (bei metrischen Variablen) oder ein vergleichbares nichtpara-
metrisches Verfahren (z.B. Mann-Whitney). Ein signifikanter Unterschied spricht
dann für einen Messeffekt.
148 II.6 Modeeffekte

B. Auswirkungen auf die Validität einer Messung


Auswirkungen der Modes auf die Validität von Messungen bestehen darin, dass
in unterschiedlichen Modes mit der gleichen Messung unterschiedliches gemes-
sen wird. Ein Beispiel wäre dann gegeben, wenn in einem Mode mit Intervie-
wer-Administration statt der beabsichtigten Einstellung das Konstrukt „Soziale
Erwünschtheit“ gemessen wird, während in einem Mode mit Selbstadministration
die beabsichtigte Einstellung gemessen wird. Eine mögliche Erklärung wäre etwa
die größere soziale Distanz in Modes mit Selbstadministration, z.B. in Webum-
fragen im Vergleich mit solchen mit Interviewer-Administration wie z.B. in Fa-
ce-to-Face-Umfragen (vgl. Heerwegh, 2009). Auch die bei selbstadministrierten
Befragungen vermutete größere Aufrichtigkeit, mit der Antworten gegeben wer-
den, kann nicht nur die Reliabilität, sondern auch die Validität der Angaben positiv
beeinflussen. Modeeffekte auf Inhalte der Messungen können z.B. durch Vergleiche
zwischen Modegruppen hinsichtlich der Faktorstruktur der Messungen untersucht
werden (vgl. Heerwegh & Loosveldt, 2011). Auswirkungen auf die Validität beein-
trächtigen die inhaltliche Interpretation der Daten.

C. Auswirkungen auf die Reliabilität einer Messung


Auswirkungen von Modes auf die Reliabilität bestehen in den Wirkungen auf die
Höhe des Messfehlers. Während die Messung soziodemographischer Variablen in
der Regel als messfehlerfrei betrachtet wird, ist bei den eigentlichen Zielvariablen,
bei denen oft Ratingskalen verwendet werden, neben einem Selektionseffekt auch
ein Effekt der Kommunikationsform auf den Messfehler denkbar, der sich in einer
mode-bedingten Änderung der Messwerte äußert und daher wie die Selektion die
Verteilung der Zielvariablen beeinflussen kann. Der Messfehler betrifft die Genau-
igkeit, mit der eine zu messende theoretische Variable in eine beobachtete Ant-
wortvariable überführt bzw. transformiert wird (vgl. Voogt & Saris, 2005). Er kann
für Messungen der gleichen Variablen in zwei unterschiedlichen Kommunikations-
formen unterschiedlich groß sein. Nehmen wir in Übereinstimmung mit den An-
nahmen der klassischen Messtheorie an, dass sich eine Messung additiv aus einem
wahren Wert der Messung und dem Messfehler zusammensetzt (vgl. Teil IV), so
erhalten wir für die Messungen in zwei unterschiedlichen Kommunikationsformen
Mod1 und Mod2:
xMod1 = τ + εMod1,
xMod2 = τ + εMod2.
II.6 Modeeffekte 149

τ bezeichnet in diesen Formeln die wahre Messung. εMod1 und εMod2 bezeichnen die
Messfehler unter den beiden Modalitäten Mod1 und Mod2 (vgl. auch Abbildung
II.10). Die beobachteten Messungen xMod1 und Mod2 sind identisch, wenn die Mess-
fehler gleich sind.

Abbildung II.10: Zusammensetzung der Messung unter verschiedenen Modes

Wichtige Gründe für Modeeffekte auf Validität, Reliabilität und Antwortqualität


können sein:
• Zusammenhang zwischen mode-spezifischen Merkmalen (z.B. Administrati-
onsform) und der sensitiven Wirkung von Fragen; so können bestimmte Mo-
des die sensitiven Wirkungen von Fragen und Items reduzieren oder verstärken
(vgl. Teil IV);
• Die eingeräumte Bearbeitungszeit und der subjektiv empfundene Zeitdruck;
• Förderung bestimmter Arten und Ausmaße des Satisficing, z.B. durch besonde-
re Belastungen der Befragten;
• Wirkungen spezifischer Sinneskanäle (Art der visuellen Präsentation und Lay-
out von Items und Skalen);
• Erfordernisse besonderer Kompetenzen (z.B. Schreib- und Lesefähigkeit).
Wie der Selektionseffekt kann sich auch der Messeffekt auf die Parameterschätzung
auswirken. Nehmen wir z.B. an, eine Einstellungsfrage mit einem sozial erwünsch-
ten Inhalt würde in einem Mode zu höheren Bewertungen auf einer Rating-Skala
führen als in einem anderen Mode. Dann wären die Messungen systematisch ver-
150 II.6 Modeeffekte

schoben und auch der Mittelwertschätzer würde ebenfalls entsprechend verscho-


ben sein.

II.6.3.2 Wirkungen auf die Antwortqualität

Wir haben in Abschnitt 7.2.2 gesehen, dass die Antwortqualität in verschiedenen


Teilgruppen auf Grund von Selektionseffekten unterschiedlich stark repräsentiert
sein kann. Unabhängig von diesen Effekten kann es aber auch modespezifische
Wirkungen auf die Antwortqualität geben. Betroffen sein können z.B. die Anzahl
der Weiß nicht – Antworten (z.B. eine höhere Anzahl bei Webumfragen im Ver-
gleich zu Face-to-Face-Umfragen; vgl. z.B. DeRouvray & Couper, 2002; Heerwegh,
2009), die Anzahl der fehlenden Werte, die Genauigkeit der Angaben. Dabei sind
möglicherweise Eigenschaften des Layouts bei Selbst-administrierten Erhebungs-
instrumenten für Wirkungen auf die Antwortqualität mitverantwortlich. Ein Bei-
spiel hierfür ist, dass bei Webfragebögen die Anordnung der Items in Form von
Gittern zu einer mangelnden Differenzierung der Antworten führen kann (vgl.
Tourangeau, Couper, & Conrad, 2004).

II.6.4 Beziehungen zwischen Selektionseffekt und Messeffekt

Bei einer Single-Mode-Befragung sind bei Zielvariablen Messeffekt und Selekti-


onseffekt untrennbar miteinander vermengt, da die empirische Verteilung einer
Zielvariablen sowohl durch die Messung als auch durch die Selektion beeinflusst
sein kann. Bei soziodemographischen Hilfsvariablen ist eine solche Konfundierung
nicht zu erwarten, wenn man davon ausgeht, dass die Messung soziodemographi-
scher Variablen wie Alter oder Geschlecht mode-unabhängig möglich ist. Der
Versuch einer Trennung beider Einflüsse erfordert ein Mixed-Mode-Designs mit
der Möglichkeit eines Modevergleichs (vgl. hierzu Vannieuwenhuyze & Loosfeldt,
2013; Vannieuwenhuyze, Loosveldt, & Molenberghs, 2010).
Eine Trennung zwischen beiden Effekten erfordert die statistische Kontrolle des
jeweils anderen Effekts. Dafür bieten sich eine Reihe von Techniken an:
II.6 Modeeffekte 151

Kalibrierung bzw. Matching


Nehmen wir an, die Variable „Alter“ würde optimal zwischen den Modegruppen
trennen, mit der Konsequenz, dass in einer Modegruppe auf Grund einer Konfun-
dierung von Alter und Mode bestimmte Altersgruppen mehr oder weniger stark
vertreten sind als in der anderen Gruppe. Dann könnten wir den Effekt der al-
tersbezogenen Selektion ausschalten, indem wir die Befragten in Bezug auf die Al-
tersgruppen matchen. Statt von Matching wird auch von Mixed-Mode-Kalibrierung
(engl.: MM-calibration) gesprochen (vgl. Fricker, 2005; Lugtig et al., 2011; Vannieu-
wenhuyze & Loosfeldt, 2013).
Eine Kontrolle der Selektion durch Matching könnte allerdings sehr aufwändig
werden. Wird der Selektionseffekt durch mehrere Variablen bestimmt, so würde
ein Matching nach den Ausprägungen aller Variablen die Berücksichtigung einer
sehr großen Anzahl von Kombinationen der Selektionsvariablen führen. Rosen-
baum und Rubin (vgl. z.B. Rosenbaum & Rubin, 1983, 1984; Rubin, 1997) schlagen
daher vor, statt eines Matching durch direkte Subklassifikation nach den Ausprä-
gungskombinationen der Selektionsvariablen eine Subklassifikation nach Propensi-
ty Scores durchzuführen (siehe Abschnitt I.7.1). Dabei wird die Zugehörigkeit zu
einer von zwei Modegruppen A und B durch eine dichotome Variable Z angezeigt,
mit Z = 1 für Modegruppe A und Z = 0 für Modegruppe B. Im Rahmen einer
binären logistischen Regression mit den Selektionsvariablen als Kovariaten wird
dann die Wahrscheinlichkeit an der Stelle einer Ausprägung der unabhängigen
Variablen (Propensity Score) bestimmt, also die Wahrscheinlichkeit, mit der ein
Fall mit dieser Ausprägung zu dieser Modegruppe gehört unter der Bedingung der
Ausprägungen der Selektionsvariablen. Unter der Bedingung eines bestimmten
Propensity Scores sind die statistischen Verteilungen der Kovariaten für beide Mo-
degruppen identisch (vgl. Rosenbaum & Rubin, 1983, S. 42.), so dass statistische
Unterschiede zwischen den Gruppen nicht mehr auf die Selektion zurückgeführt
werden können. Anschließend werden eine Kategorisierung der Propensity Scores
und ein Matching auf Basis dieser Kategorisierung vorgenommen. Statt des logisti-
schen Modells kann im Rahmen eines verallgemeinerten logistischen Modells auch
eine andere Linkfunktion (z.B. Probit) verwendet werden.
Diese Methode zur Kontrolle des Selektionseffekts kann bei unterschiedlichen
Arten des Mixed-Mode-Designs angewandt werden, zum einen in dem Fall, wo
zwei Modes in einer Entscheidungssituation zur Wahl gestellt werden, zum ande-
ren auch bei einer zufälligen Zuteilung der Zielpersonen zu unterschiedlichen Mo-
des. Letzteres kann im Rahmen eines experimentellen Designs dadurch geschehen,
dass teilnahmebereite Personen, welche die Voraussetzungen für die Applikation
der Modes (Ausstattung, Nutzungskompetenz, etc.) verfügen, im Rahmen einer
152 II.6 Modeeffekte

Randomisierung nach Zufall auf die Modes verteilt werden. Experimentelle De-
signs können auch in Umfragen, d.h. in Beobachtungsstudien integriert werden,
indem die Befragten nach einer Kontakt- und Screeningphase nach Zufall verschie-
denen Modes zugeordnet werden, wobei allerdings nicht garantiert werden kann,
dass die Befragten nach erfolgter Zuordnung immer noch zum Interview bereit
sind, so dass mit einer selektiven Nonresponse gerechnet werden muss. Um diese
Nonresponse-Effekte abzuschätzen, sollte man versuchen, von allen Personen be-
reits in der Screeningphase möglichst viele Informationen zu erheben.
Die Anwendung der oben erwähnten Methoden zur Kontrolle von Selektions-
effekten kann bei einer vom Administrator vorgenommenen zufälligen Zuordnung
der Modes dadurch geschehen, dass beide Zufallsstichproben gepoolt werden und
die gepoolte Stichprobe entsprechend dem oben beschriebenen Vorgehen analy-
siert wird.
Vannieuwenhuyze, Loosfeldt & Molenberghs (2010) zeigen wie Mess- und
Selektionseffekt berechnet werden können, wenn eine Referenzstichprobe aller
Elemente in einem Referenzmode a zur Verfügung steht (erweiterter Mixed-Mo-
de-Vergleich).

Ausschaltung aller mode-bedingten Effekte in der statistischen Analyse


Hat man ein statistisches Model mit einer abhängigen Zielvariablen formuliert, so
kann eine Kontrolle aller mode-bedingten Effekte dadurch geschehen, dass die di-
chotome Variable „Mode“ als Kovariate in das Modell integriert wird (siehe oben).
Durch die Modekontrolle sollten dann alle Modeeffekte auf die Zielvariablen her-
auspartialisiert sein.
II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen 153

II.7 Einflüsse der Kommunikationsform auf die Organisa-


tion von Erhebungen

II.7.1 Besonderheiten Interviewer-administrierter Umfragen

II.7.1.1 Allgemeines

Die grundlegenden Schritte in Planung und Durchführung von Umfragen sollten


in allen Befragungsarten im Einklang mit dem in Abschnitt I 1.3 beschriebenen
Umfrageprozess stehen. Allerdings unterscheiden sich die verschiedenen Kommu-
nikationsformen in bestimmten Anforderungen an Organisation und Ablauf, die
Administratoren, die Nutzung der Technologie und die Eigenschaften des Übertra-
gungskanals. Auch in ihren Auswirkungen auf die Umfragequalität können sich die
verschiedenen Befragungsarten mit ihren spezifischen Besonderheiten unterschei-
den. In diesem Abschnitt und den folgenden Abschnitten geht es um die Besonder-
heiten der Befragungsarten und nicht um die von allen Befragungsarten gemein-
sam geteilten Aspekte des Umfrageprozesses.
Der Einfluss der Interviewer-Administration auf die Organisation einer Erhe-
bung unterscheidet sich von der Organisation Selbst-administrierter Erhebungen
durch alle Merkmale, die auf dem Einsatz von Interviewern beruhen. Dazu gehö-
ren:
Interviewer-bezogene organisatorischen Maßnahmen in der Vorbereitung und
Durchführung der Umfrage: Interviewer-Rekrutierung, Interviewer-Einsatzpla-
nung, Steuerung und Kontrolle des Interviewer-Verhaltens im Feld sowie Über-
prüfung der Interviewer-Leistung.
Maßnahmen zur Abschwächung und Kontrolle negativer Auswirkungen von In-
terviewer-Merkmalen und Interviewer-Verhalten: Zu solchen Maßnahmen gehören
Interviewer-Schulungen, Bereitstellung von Unterlagen für die Interviewer, Einbin-
dung von Interviewer-Instruktionen in den Fragebogen. Durch diese Maßnahmen
kann die Qualität der Leistungen des Interviewers und damit der Datenqualität
erhöht werden.
154 II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen

II.7.1.2 Interviewer-Einsatz und Umfrageorganisation in PAPI-


und CAPI-Umfragen

PAPI- und CAPI-Umfragen sind im Unterschied zu CATI-Umfragen dadurch ge-


kennzeichnet, dass die Interviewer zur Kontaktaufnahme und zur Durchführung
von Interviews in ein Erhebungsgebiet geschickt werden, in dem potentielle Be-
fragte aufgesucht, gesucht und kontaktiert werden. Für diesen Raum möglicher
Untersuchungseinheiten hat sich die Bezeichnung Feld (engl.: field) eingebürgert.
Die praktische Durchführung einer Umfrage mit allen dazu notwendigen Aktivi-
täten der Interviewer wird dementsprechend auch als Feldarbeit (engl.: fieldwork)
bezeichnet. Die Organisation der Durchführungsmodalitäten heißt auch Feldor-
ganisation. Ein Institut, dessen das sich ausschließlich auf die Feldarbeit und die
Feldorganisation konzentriert, wird auch als Feldinstitut bezeichnet.
Die organisatorischen Besonderheiten von PAPI- und CAPI-Umfragen ergeben
sich aus dem Einsatz von Interviewern im Feld. Dazu gehören:

Rekrutierung von Interviewern und Pflege der Interviewer-Datenbank


Die Rekrutierung von Interviewern ist eine notwendige Aktivität, die alle Intervie-
wer-administrierten Umfragen gemeinsam haben. Sie ist Voraussetzung für den
Einsatz von Interviewern im Feld. Die Rekrutierung verläuft entweder als Neure-
krutierung über verschiedene Kanäle (z.B. Presse, Empfehlungen, soziale Medien,
Jobbörsen und Job-Plattformen) oder als Rekrutierung aus einer bestehenden In-
terviewer-Datei/Datenbank bereits früher rekrutierter oder eingesetzter Intervie-
wer.
Die Neurekrutierung erfordert Neueinträge von Interviewern in eine bereits
existierende Datei/Datenbank oder die Einrichtung einer neuen Datei/Datenbank.
Die Interviewer-Datei/Datenbank sollte wichtige soziodemographische Daten der
Interviewer wie Geschlecht, Alter, Schulbildung, berufliche Tätigkeit, Berufsbe-
zeichnung) sowie bevorzugte Einsatzzeiten enthalten, um den Interviewer-Einsatz
an die Erfordernisse verschiedener Umfragedesigns und Zielpopulationen anzupas-
sen. Außerdem empfiehlt es sich, für jede Umfrage die Anzahl der durchgeführten
Interviews, die durchschnittliche Länge der Interviews und die Ausschöpfungsquo-
ten pro Interviewer festzuhalten. Diese Angaben dienen der Qualitätskontrolle der
Interviewer sowie der Kontrolle von Interviewer-Merkmalen in der statistischen
Analyse. Insbesondere wissenschaftliche Umfragen erfordern oft die Integration
von Interviewer-Merkmalen in den Datensatz, um Interviewer-Effekte auf die Zu-
sammensetzung der Stichprobe, die Messung und die Antwortqualität bestimmen
II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen 155

zu können. Interviewer-Effekte auf die Messung lassen sich u.a. durch Berechnung
der von den Interviewern verursachten Designeffekte (vgl. Teil VI) abschätzen.
So weit möglich sollten in einer Umfrage erfahrene Interviewer und Interviewer
mit einem positiven Selbstbild und einem Selbstvertrauen in die eigenen Fähig-
keiten eingesetzt werden. Beide Merkmale tragen zusammen mit der Einstellung
zu den Inhalten der Umfrage Erhöhung der Kooperationsbereitschaft bei (vgl.
Durrant et al., 2010; Groves & Couper, 1998; De Leeuw et al., 1998; Hox & De
Leeuw, 2002) Allerdings lässt sich dies nicht immer garantieren, da Neurekrutie-
rungen auf Grund von Fluktuationen unerlässlich sind.
Für die Festlegung der Anzahl der Interviewer für die Feldarbeit in einer kon-
kreten Umfrage sind in erster Linie folgende Gesichtspunkte relevant:

• die Minimierung von Interviewer-Effekten bei gleichzeitiger Sicherstellung, die


während der Erhebung gesammelten Erfahrungen zu nutzen;
• der Rekrutierungsaufwand;
• wachsende Rekrutierungsschwierigkeit bei sinkender Gesamtentlohnung pro
Interviewer;
• die den Interviewern zur Verfügung stehenden Zeitfenster für Kontaktaufnah-
me und Interview. Dieser Punkt betrifft vor allem die nebenberuflich tätigen
Interviewer.

Festlegung der Aufgaben der Interviewer


Während die Durchführung von Interviews zu den Standardaufgaben der Inter-
viewer gehört, die in jeder Umfrage unabhängig vom Design erfüllt werden müs-
sen, können sich andere Aufgaben je nach Stichprobendesign voneinander unter-
scheiden. Im Fall einer Zufallsziehung von Adressen von Privatpersonen, z.B. über
Meldeämter, werden dem Interviewer in der Regel, aber nicht immer, sowohl die
Kontaktaufnahme mit dem Haushalt als auch die Durchführung der Interviews
überlassen. Welche Aufgaben dem Interviewer obliegen, hängt ebenfalls davon ab,
ob die Kontaktaufnahme telefonisch oder schriftlich über das Institut erfolgt und
ob in Kontaktphase und Interviewphase dieselben oder unterschiedliche Inter-
viewer eingesetzt werden sollen. Bei der Kontaktaufnahme durch die Interviewer
muss der Kontaktmode festgelegt werden. So muss etwa entschieden werden, ob
die Kontaktaufnahme telefonisch, durch Aufsuchen der Adresse oder durch beide
Modi in einem bestimmten Zahlenverhältnis (z.B. 2 x Aufsuchen, 3 x telefonisch)
oder in einer bestimmten Sequenz (z.B. erste Kontaktaufnahme durch Aufsuchen)
erfolgen soll. Da der Kontaktmode erste Selektionseffekte beinhalten kann, ist diese
156 II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen

Festlegung, die in Abhängigkeit von der Zielgruppe getroffen werden muss, von
gewisser Bedeutung. Auch die Anzahl der Kontaktversuche in einer bestimmten
Kommunikationsform sollte vorher festgelegt werden.
Wieder andere Aufgaben nimmt der Interviewer wahr, wenn ein Random-Rou-
te-Verfahren (vgl. Abschnitt VI) als Methode der Stichprobenauswahl gewählt
wird. In diesem Fall gehört zu den Aufgaben des Interviewers eine Adressauswahl,
indem in einem wohldefinierten Gebiet, einem sog. Sampling Point, Adressen nach
bestimmten Begehungsvorschriften (Zufallsauswahl der Wege, festgelegter Schritt-
weite, wohldefiniertes Verhalten in Mehrfamilienhäusern) aufgesucht werden. Bei
Random-Route mit vorheriger Auflistung von Adressen, müssen die Adressen vom
Interviewer vor der Interviewphase an das Institut geschickt werden, das dann eine
Auswahl der Adressen vornimmt.
Im Fall einer Quotenstichprobe (vgl. Abschnitt VI) wird der Interviewer ange-
wiesen, eine bestimmte Anzahl von Personen nach vorgeschriebenen Merkmalen
zu befragen. Für die Art der Kontaktaufnahme können bestimmte zusätzliche For-
derungen gestellt werden (z.B. bitte nicht innerhalb des Verwandten- oder Bekann-
tenkreises suchen).

Interviewer-Einsatzplanung und Kontrolle der Feldarbeit


Die mit dem Einsatz von Interviewern im Feld zusammenhängenden Institutsak-
tivitäten umfassen:

• Prüfung der Verfügbarkeit von Geräten (bei CAPI-Umfragen);


• Bereitstellung von Kontaktprotokollen zur Aufnahme der Ausfallgründe für
jeden Kontaktversuch;
• Festlegung des Feldbeginns;
• Entscheidung darüber, wie viele Interviews pro Interviewer aus methodischen
Erwägungen angesetzt werden können,
• Erstellung einer Übersicht von Informationen darüber, wie viele Interviews je-
der einzelne Interviewer überhaupt durchzuführen bereit ist sowie die von den
Interviewern wahrnehmbaren Interviewtermine;
• organisatorische Vorkehrungen für die Substitution von Interviewern durch
Ersatzinterviewer bei Ausfällen von Interviewern aus verschiedenen Gründen
wie Krankheit und andere private Gründe;
• Organisation der Supervision/Betreuung der Interviewer während der Feldar-
beit durch Einrichtung einer Interviewer-Hotline bzw. Ansprechpartner für die
Interviewer;
II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen 157

• Entscheidung darüber, wann die Interviewer ausgefüllte Fragebögen an das


Institut zurückschicken sollen; dies kann bei CAPI-Umfragen ohne Probleme
sogar sofort nach dem Interview geschehen;
• Organisation der Überprüfung eingehender Erhebungsinstrumente (Eingangs-
kontrolle) auf Vollständigkeit;
• Organisation der Supervision des Stands der Feldarbeit und des Datenbestands:
Grundsätzlich sollte sichergestellt sein, dass der Auftraggeber nach Absprache
der Zeitpunkte während der Feldarbeit einen Überblick über deren Stand er-
hält. Zu diesem Überblick gehört nicht nur die Anzahl der durchführten In-
terviews, sondern auch ein Überblick über die noch ausstehenden, aber fest
vereinbarten Interviewtermine, auf Wunsch des Auftraggebers auch eine Aus-
falldiagnostik mit den wichtigsten Ausfallgründen auf der Basis der eingegan-
genen Kontaktprotokolle, die bei CAPI-Umfragen auch elektronisch geführt
werden können und genauso wie die Interviewdaten rasch an das Institut auf
elektronischem Weg geschickt werden können (elektronische Kontaktproto-
koll). Bereits während der Feldarbeit sollten die Daten in eine Systemdatei ver-
fügbarer Statistik-Softwarepakete aufgenommen werden, um rasch statistische
Zwischenanalysen durchführen zu können. Dies ist bei computerunterstützten
Befragungen kein Problem, da in diesem Fall die Daten bereits während des
Interviews zumindest in der Befragungssoftware als Datei angelegt werden, die
dann rasch in eine Systemdatei übertragen werden kann;
• ggf. Festlegung von Art der Incentives und Organisation der Bereitstellung und
Verteilung von Incentives.

Alle Aktivitäten einschließlich der Abrechnungen für die Interviewer können


durch einschlägige Software-Systeme unterstützt werden. Die Feldorganisation
mit den oben dargestellten Maßnahmen liegt oft in den Händen einer gesonderten
Feldabteilung bzw. in den Händen einiger geschulter Personen mit entsprechenden
Kompetenzen.

II.7.1.3 Interviewer-Einsatz und Umfrageorganisation in


CATI-Umfragen

CATI-Umfragen unterscheiden sich von PAPI- und CAPI-Umfragen vor allem da-
durch, dass die Interviews in der Regel in Räumlichkeiten und Telefonplätzen des
Instituts erfolgen. Allerdings sind heute die technischen Möglichkeiten vorhanden,
die Interviews auch durch Interviewer zuhause durchführen zu lassen. Wird der
zuletzt genannte Weg beschritten, muss die Kontrolle der Interviewer nicht nur in
158 II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen

Bezug auf die Verifikation der Durchführung, sondern auch in Bezug auf Qualität,
Korrektheit und Datenschutz (sichere Verbindung zum Datenaustauch zwischen
dem Gerät des Interviewers und dem CATI-Server) sichergestellt sein. Der Vorteil
einer Durchführung der CATI-Interviews in den Institutsräumen liegt in den Mög-
lichkeiten einer intensiveren Supervision der Arbeitsweise der Interviewer und der
Funktionstüchtigkeit der Technik, die vor Ort und kontinuierlich erfolgen kann.
Es sollte sichergestellt sein, dass zumindest zwei Supervisoren anwesend sind, die
für die Beantwortung von Fragen und Problemen der Interviewer zur Verfügung
stehen, den Betrieb des CATI-Systems überwachen und für den Abruf relevanter
Systeminformationen sorgen. Ob in einer Umfrage nicht nur im Pretest, sondern
auch in Teilen der Hauptbefragung ein Hineinhören in die Interviews gestattet sein
sollte, hängt von methodischen Erwägungen und Erwägungen zum Datenschutz
ab. Die Wirkungen auf die Befragten sind durchaus nicht klar. Bei sensitiven Fragen
spricht einiges gegen ein solches Vorgehen. Ein Hineinhören ist ohne Zustimmung
der Interviewer und der Befragten nicht gestattet.

II.7.1.4 Interviewer-Schulung

Mit dem Einsatz von Face-to-Face-Umfragen in der sozialwissenschaftlichen For-


schung setzten schon sehr frühzeitig Betrachtungen darüber ein, wie sich Merk-
male der Interviewer auf verschiedene Arten des Befragten-Verhaltens auswirken
können (vgl. hierzu auch Abschnitte III.3.4 und VII.8.5). Dabei ging es zunächst
um die sichtbaren Merkmale der Erscheinung des Interviewers wie Geschlecht,
Hautfarbe, geschätztes Alter, stimmliche Merkmale, Kleidung, wahrgenommene
soziokulturelle Herkunft, dann auch um auf verschiedenen Sinneskanäle bezogene
Verhaltensmerkmale wie Art des Auftretens, verbales Verhalten, etc. und schließ-
lich um Einstellungen des Interviewers zu den erfragten Themen, zu den Befragten
und zu sich selbst als Ursachen des Interviewer-Verhaltens und damit indirekt des
Befragten-Verhaltens.
Zu den durch Interviewer-Merkmale beeinflussbaren Aspekten der Umfrage-
qualität gehören:

• das Kontakt- und -Teilnahmeverhalten (Kontakterfolg, Teilnahmeentschei-


dung, Teilnahmebereitschaft, Teilnahmewahrscheinlichkeit) bzw. die Teilnah-
meverweigerung;
• die Antwortverweigerung auf bestimmte Fragen (Item-Nonresponse);
• die Sorgfalt der Fragebeantwortung und die Antwortqualität.
II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen 159

Zwischen diesen Variablen kann es noch wechselseitige Einflüsse geben. So gibt


es etwa Hinweise, das Befragte, die bei der Teilnahmeentscheidung eher zögerlich
sind, eine geringere Antwortqualität aufweisen (vgl. Teil VI).
Alle Formen Interviewer-administrierter Interviews erfordern eine Schulung
der Interviewer, deren Ziel darin besteht, die erwähnten negativen Auswirkungen
des Interviewer-Verhaltens auf die Umfragequalität zu reduzieren oder ganz zu
vermeiden, wobei sich die Intensität der Schulung auch von der Fragestellung, dem
Umfang des Erhebungsinstruments, möglichen Problemen von Fragen im Feld,
den bereits bestehenden Erfahrungen der Interviewer allgemein und speziell in
Bezug auf das Themengebiet der Umfrage sowie von den soziodemographischen,
die Zielpopulation definierenden Merkmalen (z.B. eine bestimmte Altersgruppe)
abhängt. Zahlreiche Untersuchungen bestätigen Zusammenhänge zwischen Da-
tenqualität und Interviewer-Verhalten.
In Tests verschiedener Training-Schemata konnten positive Wirkungen des
Trainings nachgewiesen werden (vgl. Billiet & Loosfeldt, 1988; Groves & Gonagle,
2001).
Eine Interviewer-Schulung besteht aus mindestens zwei, bei computerunter-
stützen Interviews aus drei Stufen:

Schulungsstufe 1
Neu eingestellte Interviewer/innen sollten einen mehrstufigen Schulungsprozess
durchlaufen, im Rahmen dessen zunächst in einer mündlichen und schriftlichen
Schulung die Regeln des standardisierten Interviews vermittelt werden. Im Rah-
men dieser Schulung sollten auch die Techniken neutralen Klärens bei Nachfragen
des Befragten und des neutralen Nachfragens durch den Interviewer bei unkla-
ren Antworten des Befragten vermittelt werden. Als Schulungsunterlagen können
die GESIS-Richtlinien zur Durchführung standardisierter Interviews zugrunde
gelegt werden (vgl. Stiegler & Prüfer, 2002). Schon auf dieser Stufe sollten Pro-
beinterviews mit einem Beispielfragebogen durchgeführt werden. Interviewpart-
ner können dabei andere Interviewer und/oder fremde Personen sein. Im Fall von
Telefonumfragen kann leicht eine kleine Stichprobe von Telefonnummern gezogen
werden, mit denen telefonische Trainingsinterviews durchgeführt werden. Auch
ein zusätzliches Training zur Optimierung der Kontaktaufnahme und zur Erhö-
hung der Teilnahmebereitschaft sollte auf dieser ersten Stufe erfolgen, wozu als
wichtige Komponente ein Verweigerungstraining gehört, in dem der argumentative
Umgang mit Verweigerungsäußerungen trainiert wird. Um die Teilnahmebereit-
schaft zu steigern, haben sich bestimmte Strategien als hilfreich erwiesen. Groves
und Gonagle (2001) heben die kombinierte Anwendung von zwei Strategietypen
160 II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen

hervor: die Aufrechterhaltung der Interaktion mit der Kontaktperson (maintaining


interaction) und das Maßschneidern (tailoring) des Interviewer-Verhaltens. Die
Aufrechterhaltung der Interaktion ist eine Strategie, die sich förderlich auf die Zu-
stimmung auswirken kann. Das Maßschneidern des Verhaltens betrifft die durch
eigene Beobachtung des Interviewers gesteuerte Optimierung seines Verhalten, bei
der es nicht so sehr darum geht, die Wahrscheinlichkeit eines „Ja“ zur Teilnahme zu
erhöhen, sondern die Wahrscheinlichkeit eines „Neins“ zu reduzieren. Wichtig ist
dabei vor allem, die Bitte um Teilnahme nicht vorschnell vorzutragen. Es gibt Hin-
weise darauf, dass Interviewer mit schriftlichen Verhaltensvorgaben weniger er-
folgreich sind als Interviewer ohne solche Vorgaben (vgl. Morton-Williams, 1991).
Um die genannten Strategien zu bei Interviewern zu etablieren, schlagen Groves
und McGonagle (2001) folgendes Vorgehen vor:
1) Auflistung der Bedenken der Kontaktperson in Bezug auf die Bitte um Teilnah-
me (z.B. „Ich bin zu sehr beschäftigt“);
2) Entwicklung alternativer Entgegnungen, die für diese Argumente von Bedeu-
tung sind (z.B. „Es dauert nur wenige Minuten“);
3) Schulung der Interviewer, um die Äußerungen der Kontaktperson in Kategori-
en einzuordnen wie z.B. „zu starke Belastung“;
4) Schulung der Interviewer dahingehend, eine schnelle und in der Wortwahl pas-
sende Antworten auf die Bedenken der Kontaktperson zu geben wie z.B. „Was
wäre ein besserer Zeitpunkt für Sie?“
Um dieses Verhalten bei Interviewern zu etablieren, haben die Autoren einen Trai-
nings-Workshop als Teilnahmebereitschaftsmodul mit folgenden Lernzielen vorge-
schlagen:
• Lernen der Themen, die in den Bedenken der Kontaktperson angesprochen
werden;
• Lernen, die Äußerungen der Kontaktperson in diese Themen einzuordnen (Di-
agnose-Stufe);
• Lernen wünschenswerter Verhaltensweisen, um den Bedenken zu begegnen;
• Lernen, der Person eine Menge von Sätzen zu übermitteln, die relevant für die
Bedenken der Person sind und mit der Wortwahl der Person kompatibel sind;
• Erhöhung der Geschwindigkeit der Reaktion des Interviewers.
Beispiele dafür, wie Kontaktpersonen ihre Bedenken artikulieren, lassen sich in
Fokusgruppen mit erfahrenen Interviewern sammeln. Moderatoren dieser Fokus-
gruppen sollen versuchen, die Anzahl der vorgetragenen Beispiele zu maximieren.
Hat man eine solche umfassende Aufstellung solcher Beispiele, lassen sich diese
thematisch ordnen.
II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen 161

In einem Experiment fanden Groves und Gonagle, dass ein Training der be-
schriebenen Art am effektivsten bei Interviewern ist, die eine geringe Performance
haben.

Schulungsstufe 2 (technische Schulung bei CATI- und CAPI-Umfragen)


Im Fall von CATI- und CAPI-Umfragen muss eine intensive technische Einwei-
sung in den Umgang mit Geräten und Software (Handhabbarkeit) sowie eine Schu-
lung in der praktischen Durchführung computerunterstützter Interviews erfolgen.
Auch hier sollten sich Probeinterviews anschließen, um den Schulungserfolg zu
evaluieren.

Schulungsstufe 3 (inhaltlich/thematische Schulung)


Die dritte Schulungsstufe betrifft die konkrete, fragespezifische Einführung in das
Erhebungsinstrument und eventuelle Besonderheiten des Interviews und der In-
terviewsituation. Auf dieser Schulungsstufe geht es auch um die Motivation der
Interviewer für die konkrete Umfrage. Daher ist es von Vorteil, dass die mit den
inhaltlichen Themen der Umfrage vertrauten Mitarbeiter des Auftraggebers auf
dieser Stufe anwesend sind und den Interviewern Ziel und Zweck der Umfrage
verdeutlichen können.

Zusätzlich (empfohlen): Verhaltensoptimierung während der Feldarbeit


Um das Verhalten von Interviewern, insbesondere bei schwierigen Umfragen, zu
verbessern, empfiehlt es sich, einen regelmäßigen Erfahrungsaustausch unter den
Interviewern einzurichten. Dabei können erfolgreiche Interviewer Ihre Strategien
den weniger erfolgreichen vermitteln und mit ihnen besprechen. Dieses kann ins-
besondere in Bezug auf die Strategien der Kontaktaufnahme hilfreich sein.
Ob und in welchem Umfang Trainingsmaßnahmen durchgeführt werden,
hängt ab von den Ansprüchen, die von einem Institut an die Umfragequalität ge-
stellt werden sowie von der Bedeutung, die der Datenqualität eingeräumt wird.
Trainingseinheiten wie die, welche von Gonagle und Groves empfohlenen Einhei-
ten erfordern fest eingestellte, hauptamtliche Interviewer. Oft sind Interviewer in
Umfrageeinrichtungen aber freiberuflich tätig mit der Folge einer mehr oder weni-
ger hohen Fluktuation.
162 II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen

II.7.2 Besonderheiten Selbst-administrierter Umfragen

II.7.2.1 Allgemeines

Bei Selbst-administrierten Befragungen (Mail-Befragungen, CASI-Befragungen,


internetbasierten Befragungen) hängen viele Determinanten der Datenqualität
und des totalen Umfragefehlers stärker als bei Interviewer-administrierten Um-
fragen von den Befragten selber ab, ihrer Motivation, ihrer physischen Ausstattung
(z.B. Seh- und Hörvermögen), ihrem Leseverhalten, ihrer Beeinflussbarkeit durch
die Form des Layouts.
Darüber hinaus müssen ihnen die Kompetenzen zur erfolgreichen Bewältigung
des Selbst-administrierten Interviews oft in Form von schriftlichen Anweisungen
oder sogar im Rahmen Interviewer-administrierten Schulungen vermittelt wer-
den. Um die Qualität speziell Selbst-administrierter Umfragen zu optimieren, hat
Dillmann zunächst im Rahmen der Total-Design-Methode (engl.: total design me-
thod) (vgl. Dillmann, 1978; Hippler, 1985) später des bereits mehrfach erwähnten
maßgeschneiderten Designs (engl.: tailored design) hat Dillman (vgl. Dillman, 2000;
Dillman, Smyth & Christian, 2014) eine Menge von Verfahren und Prinzipien zu-
sammengefasst, die bei selbst-administrierten Umfragen wie z.B. internetbasierten
Umfragen zu einer erhöhten Datenqualität und zur erhöhten Antwortraten führen
sollen. Wichtige Teilmenge dieser Verfahren betreffen den Entwurf von Erhebungs-
instrumenten, die Erhöhung der Teilnahmebereitschaft, die Reduktion der Anzahl
fehlender Werte, insbesondere bei heiklen Fragen, etc. Die wichtigen Eckpunkte
des Ansatzes wie Etablierung von Vertrauen, Erhöhung der Gegenleistung und der
Reduktion sozialer Kosten wurden in Abschnitt I.4.4 bereits vorgestellt.

II.7.2.2 Organisation und Ablauf von Mailumfragen

Organisation und Ablauf Selbst-administrierter Umfragen erläutern wir in zent-


ralen Aspekten am Beispiel postalischer Umfragen. Die Organisationsprinzipien
übertragen sich analog auch auf computerunterstützte Verfahren (CASI).
Eine postalische Umfrage (engl. mail survey) zeichnet sich dadurch aus, dass
den Personen der Bruttostichprobe die Befragungsunterlagen per Post zugstellt
werden, vom Befragten nach der Zustellung ausgefüllt und anschließend, in der
Regel per Post, an die Institution zurückgeschickt werden, welche die Umfrage or-
ganisatorisch betreut. Die Durchführung der Umfrage folgt im Normalfall der in
Abbildung II.11 dargestellten Ablaufstruktur. Nach einer optionalen Kontaktphase,
die in einer vorherigen Ankündigung in einem geeigneten Mode, z.B. postalisch,
II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen 163

telefonisch, per E-Mail, bestehen kann, erfolgt der Versand der Befragungsunter-
lagen. Nach dem Versand erfolgt eine Kontrolle des sog. Rücklaufs. Der Rücklauf
betrifft den Prozess des Eintreffens der von den Befragten zurückgeschickten Fra-
gebögen. Bei ungenügendem Rücklauf können sog. Nachfassaktionen durchgeführt
werden. Diese bestehen in Erinnerungen an das Ausfüllen des Fragebogens. Neben
einfachen Erinnerungen in verschiedenen Modes, können sie auch die Form eines
wiederholten Versands der Befragungsunterlagen bestehen. Schließlich müssen die
in den Fragebögen erhobenen Informationen mit Hilfe geeigneter Software in den
Computer eingegeben und ein analysefähiger Datensatz erstellt werden.

Abbildung II.11: Allgemeiner Ablauf einer postalischen Befragung


164 II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen

Porst (2001) hat die notwendigen Bestandteile eines Versands der Befragungsun-
terlagen zusammengestellt. Sie bestehen im Normalfall aus den folgenden Kompo-
nenten:

• Fragebogen;
• Kuvert für alle Unterlagen;
• Anschreiben;
• weitere Begleitmaterialien wie Referenzen, Datenschutzblatt/Beschreibung der
Maßnahmen zum Datenschutz;
• Publikationen, die über die Umfragen informieren (nicht obligatorisch);
• eventuell Informationen über Incentives (z.B. Informationen über die Teilnah-
me an einem Preisausschreiben, oder direkte Incentives wie Gutscheine, etc.).

Das Versandkuvert sollte

• einen seriösen Eindruck vermitteln und sich von den Werbematerialien, die
täglich im Briefkasten zu finden sind, unterscheiden;
• ein Logo oder Absender enthalten; die absendende Institution sollte eindeutig
identifizierbar sein;
• ein DIN-A4-Format aufweisen,
• nach Möglichkeit mit Briefmarke; ein Postwertstempel ist weniger günstig;
• bei Briefmarke, nach Möglichkeit Sonderbriefmarke:
• mit einer vollständigen und korrekten Anschrift versehen und möglichst
persönlich adressiert; falls Zielperson nicht bekannt: Name des Haushalts
mit persönlicher Anrede besser als „Familie…“ oder „An den Haushalt“.

Die Form des Anschreibens sollte beinhalten:

• einen „seriösen“ Briefkopf;


• eine in den Text integrierte Anschrift und persönliche Anrede („Liebe Frau…“
oder „Sehr geehrter Herr…“)
• Erläuterung der Untersuchungsziele und Informationen über die Institution,
die mit der Durchführung beauftragt ist;
• Zusicherung der Anonymität unter Vermeidung einer Dramatisierung;
• Name und Telefonnr. eines Ansprechpartners, Angabe der Bürozeiten, eventu-
ell Fax-Nr.;
• handgeschriebene Unterschrift(en) (kann auch eingescannt werden);
• Eine Länge von nicht mehr als einer Seite, um den Leseaufwand zu reduzieren;
• Für weitere Informationen weiteres farbiges Blatt.
II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen 165

Der Inhalt des Anschreibens sollte eine überzeugende Begründung der Untersu-
chung und der Umfrage enthalten, wobei Wichtigkeit und Sinnhaftigkeit einer Teil-
nahme herausgestellt werden sollten. Der Befragte sollte den Eindruck gewinnen,
dass eine Teilnahme an der Befragung für ihn selbst von Bedeutung ist. Sofern es
später auch wirklich umgesetzt werden kann, erscheint es günstig, den Versand von
Ergebnissen in Kurzform anzukündigen.
Das anzustrebende Format ist das DIN-A4-Format. Dabei sind A3-Bögen, die
man falten und in der Mitte heften kann. Nach Porst (2001) sollte Anzahl der Seiten
nicht über 16 liegen, eher darunter.
Was die Gestaltung des Anschreibens angeht, so sollten Schriftgröße und Schrift-
typ gut lesbar sein. Alle Bestandteile (Fragetexte, Antwortskalen und- vorgaben,
Hinweise) sollten in der gleichen Art und Weise gegeben werden (Standardisie-
rung). Sinnvolle und logische Anordnung der Fragen, Abfolge muss einsehbar sein.
Thematisch zusammenhängende Fragen sollten zu Blöcken zusammengefasst wer-
den.
Die im Fragebogen gestellten Fragen sollten nach Möglichkeit geschlossen
sein. Offene Fragen setzen eine angemessene sprachliche Kompetenz sowie eine
Schreibkompetenz voraus. Wird diese Voraussetzung nicht beachtet, muss mit
Nichtantwort wegen mangelnder Kompetenz gerechnet werden. Auch auf Filterfra-
gen sollten verzichtet werden. Sie stellen eine große Fehlerquelle dar und erwecken
den Anschein, als wären die dazwischenliegenden Fragen nicht so wichtig.
Während man im Fragebogen selbst ablenkende Informationen vermeiden
sollte, kann die Titelseite bzw. das Deckblatt durchaus eine „werbewirksame“ Auf-
machung haben. Die Titelseite sollte umfassen: die durchführende Institution mit
Adresse und Kontaktmöglichkeiten, eventuell Bild auf der Titelseite; auf der In-
nenseite: Hinweise zum Ausfüllen des Fragebogens (Wann darf ich nur ein Kreuz
machen, wo mehrere Kreuze, Hinweise zur angemessenen Verwendung der Skalen,
Funktion der Filtersprünge).
Am Ende des Fragebogens sollte Raum für eigene Bemerkungen zur Befragung
gelassen werden mit einem Hinweis wie (Vorschlag von Porst 2001):
„Falls Sie noch Anmerkungen zur unserer Umfrage haben, oder falls Sie uns noch
etwas mitteilen möchten, können Sie das hier tun. Nehmen Sie kein Blatt vor den
Mund!“
Schließlich bedarf auch noch das Datenschutzblatt einer gesonderten Betrach-
tung. Das Datenschutzblatt kann den Charakter einer Datenschutzerklärung bzw.
eines Datenschutzkonzepts haben. Es besteht eine Verpflichtung zur Beilage des
Datenschutzblatts, wenn mit der Auswertung der Daten zeitlich vor Vernichtung
der Deanonymisierungsmerkmale wie z.B. der Adressen begonnen wird.
166 II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen

Im Datenschutzblatt wird mitgeteilt,

• wie die Daten verarbeitet werden: Trennung von Adresse und Inhalt, elektroni-
sche Auswertung in anonymer Form und in Gruppen zusammengefasst;
• welche Sicherheitsvorkehrungen getroffen werden: Anonymität, keine Weiter-
gabe an Dritte
• wer für die Einhaltung der Sicherheitsmaßnahmen zuständig ist (z.B. der Insti-
tutsdirektor, der/die Datenschutzbeauftragte)
• Termin für die Löschung der personenbezogenen Informationen (Löschda-
tum).

Um die Rücklaufquote zu erhöhen, empfiehlt sich, sofern die finanziellen Mittel


dafür vorhanden sind, die Durchführung von Nachfassaktionen, die nicht notwen-
dig postalisch, sondern auch in alternativen Kommunikationsformen (telefonisch,
per E-Mail) erfolgen können. Der Anteil, um den sich die Rücklaufquote bei je-
der Nachfassaktion erhöht, lässt sich wie folgt abschätzen: Sei n die Anzahl der
verschickten Fragebögen zum ersten Zeitpunkt (erste Befragungswelle) und k die
Anzahl der von den angeschriebenen Personen zurückgeschickten, ausgefüllten
Fragebögen. Die Rücklaufquote wäre dann (in Prozent):

k
u100.
n

Diese Rücklaufquote wäre dann auch in Bezug auf die Säumigen späterer Nachfass-
aktionen zu erwarten Obige Formel lässt sich rekursiv immer wieder auf die neu
entstandenen Rücklaufquoten der Säumigen anwenden. Nach der i-ten Nachfass-
aktion wäre zum Zeitpunkt i + 1 eine Rücklaufquote von

ki
i −1
× 100.
n − ∑ l =1kl

zu erwarten, wobei ki die Anzahl der Personen, die den Fragebogen in Nachfassak-
tion i zurückgeschickt haben. n – ∑i-1
l=1kl ist der Bestand an Säumigen zum Zeitpunkt
der Nachfassaktion i.
In den Erinnerungsschreiben sollte verdeutlicht werden, dass die Nichtteilnah-
me den Wert der Ergebnisse (Aussagefähigkeit) in Frage stellt. Die Dringlichkeit
sollte für die Befragten spürbar gemacht werden. Die Anzahl der Nachfassaktionen
hängt von Zeit und Geld ab. Von weiteren Nachfassaktionen sollte abgesehen wer-
II.7 Einflüsse der Kommunikationsform auf die Organisation von Erhebungen 167

den, wenn der zu erwartende Rücklauf in keinem Verhältnis mehr zu den Kosten
steht. Voraussetzung für die Berechnung der Rücklaufquote und die Durchführung
von Nachfassaktionen sind eine vollständige Liste der Adressen und die Ausstat-
tung der Fragebögen mit einer Paginiernummer. Nur wenn die Nummern mit den
Adressen abgeglichen werden können, können Nachfassaktionen realisiert werden.
Abbildung II.12 enthält den Ablauf der Nachfassaktionen einschließlich der emp-
fohlenen Zeiträume zwischen den Aktionen.

Abbildung II.12: Ablauf von Nachfassaktionen

Der Ablauf Internet-basierter Befragungen erfolgt analog zum Ablauf postalischer


Umfragen. Der Zusendung von Fragebögen in postalischen Umfragen entspricht
der Versand von Einladungsmails mit einer Mitteilung, wo der Fragebogen zu fin-
den ist, z.B. über einen Link zu einer Website sowie einen Zugangscode (engl.: access
code). Einladungsmails werden bei Feldstart versendet. Ihnen gehen selbstverständ-
lich Rekrutierung und Kontaktaufnahme voraus, die auch in einem alternativen
Mode, d.h. nicht per Mail, erfolgen kann. Den Nachfassaktionen bei postalischen
Umfragen entsprechen bei Internet-basierten Umfragen die Erinnerungsmails.
Allerdings ist der organisatorische Aufwand bei Versand, Rücklaufkontrolle und
Nachfassaktionen nun erheblich reduziert ist. Auch die Kosten sind auf Grund des
Wegfalls von Druck- und Versandkosten, der Dateneingabe und der Reduktion des
erforderlichen Personals unvergleichlich geringer. Die Rücklaufkontrolle und der
Versand von Erinnerungsmails werden in der Regel von der Online-Software ge-
168 II.8 Zusammenfassung

steuert. Auch die Kommunikationsform bei Erinnerungen muss nicht notwendig


ausschließlich online erfolgen. Zusätzlich können z.B. Interviewer-administrierte
Erinnerungen wie telefonische Erinnerungen erfolgen.

II.8 Zusammenfassung

Eine Umfrage ohne Kommunikationsform gibt es nicht. Die Durchführung einer


Umfrage ist stets mit einer Entscheidung für einen bestimmten Mode verbunden,
wobei diese Entscheidung durch methodische Überlegungen zur Zielgruppe, zu
den möglichen Formen der Stichprobenrekrutierung, zu den Frageinhalten und zu
möglichen Modeeffekten begleitet sein sollte. In einer Single-Mode-Umfrage lassen
sich Modeeffekte weder kontrollieren noch in ihrem Ausmaß bestimmen. Dies
kann nur im Rahmen bestimmter Umfragedesigns, die Modevergleiche erlauben,
geschehen. Jede Kommunikationsform stellt besondere Ansprüche an die Kompe-
tenzen und die physische Ausstattung der Befragten, die bei der Entscheidung für
die eine oder andere Form berücksichtigt werden müssen. Bei jeder Kommunikati-
onsform muss mit Mess- und Selektionseffekten gerechnet werden. Die sollten
durch geeignete Maßnahmen minimiert oder kontrolliert werden.
Durch die Erweiterung der zur Verfügung stehenden, vor allem mobilen Gerä-
te hat sich der Anwendungsbereich verschiedener Kommunikationsformen stark
erweitert. So hat sich insbesondere durch das mobile Internet grundsätzlich die
Möglichkeit eröffnet, dass Befragten an einen Fragebogen an jedem Aufenthaltsort
den Fragebogen ausfüllen können. Allerdings sind auf Grund des erweiterten Ge-
rätespektrums technische Probleme wahrscheinlicher und Prüfungen der Hand-
habbarkeit dringlicher geworden.
Kommunikationsformen beeinflussen aber nicht nur die Datenqualität, son-
dern auch die gesamte Umfrageorganisation und damit auch die Struktur von
Feldinstituten. Die fachliche Zusammensetzung der Operatoren-Teams, welche
die Planung und die Durchführung von Umfragen betreuen, wird durch die Kom-
munikationsformen wesentlich mitbestimmt. Institute, die sich ausschließlich auf
Online-Umfragen spezialisiert haben, haben eine andere Organisationsstruktur als
Institute, die sich auf Face-to-Face-Umfragen spezialisiert haben. Bei institutionel-
len Mischformen sind mehrere Teams zur Betreuung der unterschiedlichen Kom-
munikationsformen notwendig.
Teil III: Fragen und Antworten

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 169
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1_3
III.1 Fragen und ihre Bestandteile

III.1.1 Der Aufbau von Fragen

Fragen sind nicht nur wichtige Bestandteile der Alltagskommunikation, sondern


stellen zentrale Instrumente des Umfrageforschers im standardisierten Interview
dar. In der Definition einer Frage folgen wir den Ausführungen von Faulbaum,
Prüfer und Rexroth (2009). Die Autoren summieren unter dem Begriff der Frage
alle sprachlichen Ausdrücke, die der Beschaffung von Informationen (Auskünfte,
Selbstauskünfte) mit Hilfe der sprachlichen Kommunikation dienen. Dazu gehören
nicht nur Fragen im engeren Sinne wie „In welchem Jahr sind Sie geboren?“, son-
dern auch Aufforderungen wie „Sagen Sie mir bitte, in welchem Jahr Sie geboren
sind“ oder Wünsche wie „Ich hätte nun gerne von Ihnen gewusst, in welchem Jahr
Sie geboren sind“. Alle angeführten Ausdrücke dienen dem gleichen Ziel, nämlich
der Beschaffung der Information über das Geburtsjahr. Grundsätzlich können sich
Fragen auf alle Aspekte vergangener, gegenwärtiger und zukünftiger innerer und
äußerer Realität des Befragten beziehen. Sehr oft wird eine Frage ausschließlich
mit einer konkreten Äußerung identifiziert. Dass eine Frage mehr ist als nur eine
bestimmte sprachliche Äußerung wird sofort deutlich, wenn man sich die unter-
schiedlichen Äußerungsformen verdeutlicht, welche unter der gleichen Frage sub-
summiert werden können.
Unter dem Aspekt, dass mit Hilfe einer Frage schließlich numerisch codier-
te Antworten erzeugt werden können, kann eine Frage auch als Messinstrument
aufgefasst werden, durch dessen Anwendung in Interaktion mit den Befragten eine
Antwort und nach der Regel-gesteuerten Zuordnung (Codierung) von Zahlen eine
Messung erzeugt wird (vgl. Teil IV). Wir vertreten also die Auffassung, dass eine
Messung an numerische Zuordnungen geknüpft ist. Alternativ können wir auch
die Auffassung vertreten, dass bereits die verbalen Äußerungen selbst ohne nume-
rische Abbildung Messungen darstellen. Insofern Antworten auf Fragen zugleich
Daten über Befragte darstellen, handelt es sich bei Fragen auch um Instrumente zur
Erhebung von Daten. Fragen sind gewöhnlich Bestandteile eines umfassenderen Er-
hebungsinstruments, das generalisierend auch als Fragebogen bezeichnet wird und
zur Steuerung bzw. Navigation des standardisierten Interviews eingesetzt wird. Da-
rüber hinaus gibt es aber eine ganze Reihe anderer Aspekte von Fragen, die jeweils
unterschiedliche Merkmale thematisieren. So handelt es sich etwa aus linguistischer
Sicht bei einer Frage um eine Sprechhandlung. Eine Sprechhandlung ist nicht not-
wendig an eine bestimmte sprachliche Ausdrucksform gebunden. So kann etwa
die Frage „Ist es nicht kalt hier? in einem bestimmten Kontext eine Aufforderung
172 III.1 Fragen und ihre Bestandteile

bedeuten, das Fenster zu schließen; d.h. eine Frage wird in diesem Fall als eine
Aufforderungshandlung verstanden. Sie wurde vollzogen durch eine Frage, die mit
einem bestimmten Ziel in einer bestimmten Situation verbunden war. Ebenso kann
mit einer Aufforderung oder einer Bitte die Sprechhandlung einer Frage vollzogen
werden. Einige Autoren ziehen es vor, statt von Fragen (engl.: questions) eher von
Aufforderungen bzw. Bitten um Antworten (engl.: requests) zu sprechen (vgl. z.B.
Saris & Gallhofer, 2014).
Im Fall eines persönlich-mündlichen Interviews wird diese Handlung im Rah-
men einer nach eindeutig festgelegten Regeln verlaufenden Konversation vollzo-
gen. Nach Austin (1962) besteht ein wesentliches Merkmal einer Sprechhandlung
darin, dass eine gewisse Kraft auf den Hörer ausgeübt wird. Er spricht in diesem
Zusammenhang von einer illokutionären Kraft. Mit der Sprechhandlung wird ein
illokutionärer Akt mit bestimmten konventionellen Wirkungen vollzogen wie etwa
die Erzeugung einer Antwort auf eine Frage. Daneben kann es auch nicht-konven-
tionelle Wirkungen geben wie z.B. demütigen, erschrecken, provozieren. Austin
spricht in diesem Zusammenhang von perlokutionären Akten. Wirkungen dieser
Art stellen in einem Interview in der Regel vom Forscher nicht intendierte Ne-
beneffekte dar, die es zu kontrollieren oder sogar zu vermeiden gilt.
Von der Frage als einer Handlung des Forschers/Administrators ist die konkrete
Ausführung der Handlung zu unterscheiden, die in der Übertragung der zur Erzeu-
gung einer Antwort durch den Befragten notwendigen Informationen (Nachricht)
über einen bestimmten Kommunikationskanal besteht. Diese Übertragung kann
z.B. durch das Verhalten von Interviewern (Sprechverhalten) auf akustischem Weg
übertragen werden, oder auf über den visuellen Kanal durch Präsentation auf einem
Bildschirm. In diesem Sinn sind Fragen immer mit bestimmten Befragungsarten
(Modes) verbunden (vgl. Teil II). Die an den Befragten übertragenen Informatio-
nen, die Realisationen von sprachlichen Ausdrücken auf einem Nachrichtenträger
darstellen, müssen mit den Konventionen des Sprachsystems vereinbar sein, d.h. sie
müssen den syntaktischen und semantischen Konventionen genügen. Dazu gehört
nicht nur die grammatikalische Korrektheit, sondern auch die logische Korrektheit
in dem Sinne, dass logisch-falsche Aussagen bzw. Widersprüche vermieden werden.
Auch logisch-wahre Aussagen (Tautologien) sollten nach Möglichkeit aus den über-
mittelten Informationen verbannt werden, da sie keinen Informationsgehalt besitzen.
Eine Frage bzw. Aufforderung erfordert vom Befragten stets die Lösung einer Auf-
gabe wie z.B. das Erinnern eines Ereignisses und damit die Erbringung einer Leistung.
Die Frage ist dann vollständig, wenn sie alle zur Lösung der Aufgabe notwendigen In-
formationen enthält. Dazu gehört auch die Beschreibung der Art und Weise, in welcher
Form der Befragte antworten soll, welche Antwortkategorien er verwenden soll, welche
Vorlagen, z.B. graphische Vorlagen, er zur Mitteilung seiner Antwort verwenden soll.
III.1 Fragen und ihre Bestandteile 173

Es empfiehlt sich, die auf die Antworten bezogenen Informationen von den übrigen
Informationen, die sich auf den Gegenstand der Aufgabe beziehen, zu trennen, so dass
sich die in Abbildung III.1 dargestellte grobe Struktur einer Frage ergibt.

Abbildung III.1: Grobstruktur einer Frage

Rechnet man zu den Bausteinen eines Fragebogens nicht nur die Fragen, sondern
auch mögliche Anweisungen zu den konkreten Ausführungsformen an die Inter-
viewer (z.B. „Bitte langsam vorlesen“); Sprung- bzw. Navigationsanweisungen: (z.B.
„bei Antwort „ja“ bitte zu Frage Y übergehen“) oder – bei Selbst-administrierten
Interviews – an die Befragten selbst (z.B. „Lesen Sie die Frage genau durch“), so bie-
tet sich zur Bezeichnung dieser umfassenden Beschreibung eines Fragebogen-Bau-
steins die Bezeichnung „Survey-Item“ an, den einige Autoren verwenden (vgl.
Andrews, 1984; Saris & Gallhofer, 2014, p. 32 und pp. 60; Schnell, 2012). Anwei-
sungen an die Interviewer werden auch als Interviewer-Instruktionen bezeichnet.
Im Fall von programmierten Fragebögen werden Instruktionen an die Interviewer
durch Instruktionen an den Interpreter des Software-Programms ersetzt. Fragen,
die Sprunganweisungen beinhalten, werden oft als Filterfragen bezeichnet.
Wie bereits erwähnt, kann die Aufgabenbeschreibung einer Anforderung weite-
re Elemente enthalten. Dazu gehören:
Szenarios oder Situationsbeschreibungen, auf die sich die Antworten des Befragten
beziehen sollen. Ein Beispiel sind standardisierte Situations- oder Personenbe-
schreibungen, die auch als Vignetten bezeichnet werden und in faktoriellen Surveys
verwendet werden;
174 III.1 Fragen und ihre Bestandteile

Orientierende Ausdrücke wie „Wenn Sie einmal an… denken“. Sie dienen zur kognitiven
und emotionalen Orientierung sowie zur Einstimmung des Befragten und sollen einen
bestimmten kognitiven und/oder emotionalen Zustand im Befragten erzeugen;
Ausdrücke, welche über eventuelle Hilfmittel zur Beantwortung (Befragungshilfen)
informieren wie, „Hier habe ich einige Kärtchen, auf denen Sätze stehen. Bitte….“
oder: „Ich lege Ihnen jetzt eine Liste vor, auf der verschiedene Berufe stehen. Bitte
sagen Sie mir…“. Davon wird vor allem bei Face-to-Face-Interviews ohne Compu-
terunterstützung Gebrauch gemacht.
Definitionen, Erläuterungen und Klärungen durch den Interviewer (bei
Interviewer-administrierten Interviews), in denen die Bedeutung von im Fragetext
verwendeten sprachlichen Ausdrücken präzisiert wird,
Bilder, Videos:
Bei Selbst-administrierten Interviews, insbesondere bei Webinterviews besteht die
Möglichkeit, in die Fragen visuelle Informationen in Form von Bildern oder Videos
einzubetten (vgl. Couper, Tourangeau & Kenyon, 2004; Peytchev & Hill, 2010).
Im Fall des Dependent Interviewing (DI; vgl. Jäckle, 2008, 2009; Lynn et al., 2006,
2012; Mathiowetz & McGonagle, 2000): Bitten an den Befragten sich an Antwor-
ten, die er an früherer Stelle des Interviews oder früher in einem anderen Interview
gegeben hat, zu erinnern, um die Validität der Antworten z.B. durch Vermeidung
von Fehlklassifikationen, insbesondere in Panelerhebungen (z.B. Erinnern an Be-
rufsangaben) in vorangegangenen Wellen) zu erhöhen.
Saris und Gallhofer (2014, pp. 115) fassen die Funktionen möglicher Bestand-
teile von Survey-Items wie folgt zusammen:
• Einführung;
• Motivation;
• Inhaltsinformation;
• Information bezüglich einer Definition;
• Instruktion des Befragten;
• Interviewer-Instruktion;
• Anforderung zur Antwort (engl.: requests);
• Antworten: Kategorien und Antwortskalen.
Einige dieser Elemente sind optional und werden nicht in jeder Administrations-
form benötigt. So sind etwa Instruktionen der Interviewer nur bei Interviewer-ad-
ministrierten Interviews notwendig. Die Anforderungen werden von den Autoren
nach ihrer linguistischen Struktur weiter subklassifiziert.
III.1 Fragen und ihre Bestandteile 175

Von der Frage als Handlung muss der aus sprachlichen Ausdrücken bestehen-
de Fragetext unterschieden werden. Er beinhaltet die an den Befragten über einen
Übertragungskanal übermittelte, strukturierte Nachricht im Sinne konkreter Fra-
geformulierungen (engl. question wording).

III.1.2 Items

In der Aufgabenbeschreibung einer Frage werden oft Leistungen des Befragten


verlangt, die sich auf die Bewertung oder Klassifikation von Aussagen beziehen.
Wir wollen für diese Aussagen den Begriff „Item“ verwenden, der vom Begriff des
Survey-Items strikt zu trennen ist. Unter dem Begriff des Items, der nicht selten
in der Bedeutung der kleinsten Einheit eines Fragebogens verwendet wird, wollen
wir sprachliche Formulierungen/Beschreibungen von Eigenschaften, Situationen,
Verhaltensweisen, Sachverhalten, etc. verstehen, die als Teil der in der Frage formu-
lierten Aufgabe auf einer Antwortdimension bewertet werden sollen. Die zu bewer-
tenden Aussagen sind entweder vollständig oder in abgekürzter Form wiedergege-
ben. Ein Beispiel für eine abgekürzte Form ist etwa dann gegeben wenn statt „Ich
halte Pflichtbewusstsein für wünschenswert“ nur „Pflichtbewusstsein“ steht, wäh-
rend die Antwortdimension „wünschenswert“ im Fragetext erscheint (z.B. Für wie
wünschenswert halten Sie…). Ein Beispiel für die Aufgabe einer Itembewertung ist
in Abbildung III.2 zu sehen. In diesem Fall nimmt die Frage Bezug auf insgesamt
sechs Items, die auf einer Antwortskala (vgl. Abschnitt III.1.4) eingestuft werden
sollen. In diesem Sinne wird der Begriff traditionell in der psychometrischen Lite-
ratur verwendet (vgl. z.B. Guilford, 1954).
176 III.1 Fragen und ihre Bestandteile

Abbildung III.2: Beispiele für Items

Items zum gleichen Thema und gleichen Bewertungsdimensionen lassen sich in


Itemlisten bzw. Itembatterien zusammenfassen. Die inhaltlichen Dimensionen
solcher Itembatterien lassen sich mit Hilfe von Techniken der explorativen Fak-
torenanalyse identifizieren (vgl. zur explorativen Faktorenanalyse Abschnitt IV).
Abbildung III.3 enthält das bekannte Beispiel einer Liste der sog, Berufswerte bzw.
beruflichen Orientierungen.

Abbildung III.3: Itembatterie der Berufswerte


III.1 Fragen und ihre Bestandteile 177

Itembatterien werden oft gezielt entwickelt, um ein oder mehrere Konstrukte wie
Rechtsextremismus, Einstellung zu in Deutschland lebenden Ausländern, Politik-
verdrossenheit, etc. zu messen. Einzelitems haben die Bedeutung von Indikato-
ren für die zu messenden Konstrukte. Ein bekanntes Beispiel ist die Messung der
als „Big Five“ bezeichneten Persönlichkeitsfaktoren (vgl. John, Naumann & Soto,
2008), für die es eine Kurzfrom gibt, die in Bevölkerungsumfragen zur Bestim-
mung der menschlichen Ressourcen eingesetzt werden kann (vgl. z.B. Rammstedt,
2004; Rammstedt & John; 2007).

Zu den Skalenbeispielen von Bedeutung für die Methodik der Umfrageforschung


gehören Skalen zur Erfassung der sozialen Erwünschtheit wie die MC-SDS-Skala
von Marlowe und Crowne (Crowne & Marlowe, 1964) oder die Edwards SDS-Ska-
la (Edwards, 1957).
Itemlisten können aber auch einfach dazu dienen, unter einem inhaltlichen
Dach zusammengefasste Informationen wie z.B. gesundheitliche Beschwerden zu
erheben. Dazu gibt es zahlreiche Beispiele in der Psychologie und der Medizin. Ein
einfaches Beispiel zur Erhebung von Beschwerden ist die folgende Frage des Bun-
desgesundheitssurveys 1998:
Wie stark leiden Sie unter den folgenden Beschwerden?:
Kloßgefühl, enge oder Würgen im Hals
Kurzatmigkeit
Schwächegefühl
Schluckbeschwerden
178 III.1 Fragen und ihre Bestandteile

Stiche, Schmerzen oder Ziehen in der Brust


(Antwortkategorien: stark, mäßig, kaum, gar nicht)
Aus den Bewertungen der Einzelitems lassen sich nach bestimmten Regeln (z.B.
durch Summation der Einzelwerte) Gesamtscores bilden, die Bewertungen auf ei-
nem quantativ abgestuften Konstrukt bzw. einer latenten theoretischen Variablen
darstellen. Insofern eine Itembatterie konzipiert wurde, um bestimmte theoretische
Variablen zu messen, handelt es sich um eine Skala (zum psychometrischen Begriff
der Skala vgl. Abschnitt IV.).

III.1.3 Grundlegende Typen von Fragen

Fragen lassen sich nach unterschiedlichen Gesichtspunkten kategorisieren. Ein


weit verbreitetes Einteilungsprinzip stellt die Einteilung nach Antwortformaten
dar. Antwortformate sind standardisierte, mündlich oder schriftlich vorgetragene
Vorgaben, welche die Form festlegen, in der die Befragten ihre Antworten kom-
munizieren sollen.
Je nach Antwortformat lassen sich Fragen grob einteilen in:

• Geschlossene Fragen (engl: closed-ended questions):


Alle Antwortmöglichkeiten sind durch Antwortvorgaben abgedeckt.
Anwendungsvoraussetzung: Universum der Antwortalternativen ist bekannt.
• Offene Fragen (engl.: open-ended questions):
Fragen ohne Antwortvorgaben.
• Hybridfragen (auch: halboffene Fragen):
Feste Antwortvorgaben mit der Möglichkeit, zusätzliche, in den Antwortkategori-
en nicht vorgesehene Antworten zu geben (Beispiel: Sonstiges, und zwar…).
Anwendungsvoraussetzung: Universum der Antwortalternativen ist nicht voll-
ständig bekannt.

Andere Einteilungsprinzipien von Fragen basieren auf dem Inhalt der Frage bzw.
auf der Art der in der Frage gewünschten Information. Sehr populät ist eine Eintei-
lung nach folgenden Frageinhalten:
III.1 Fragen und ihre Bestandteile 179

• Faktfragen (engl.: factual questions):


Fragen nach gegenwärtigen oder vergangenen Fakten, wobei sich diese Fakten
auf Ereignisse oder das Verhalten des Befragten beziehen können (vgl. Touran-
geau, Rips & Rasinski 2000).
Beispiel:
Haben Sie im letzten Monat persönlich einen Arzt aufgesucht? (Ja/Nein)
Beziehen sich Faktfragen auf das Verhalten des Befragten, wird gelegentlich
von Verhaltensfragen gesprochen.
• Wissensfragen (knowledge questions):
Wissensfragen beziehen sich auf Kenntnisse des Befragten, z.B. die Bekanntheit
einer Produktmarke, einer Institution, einer Person, etwa eines Politikers.
• Einstellungs- und Meinungsfragen:
Fragen, die von den Befragten Beurteilungen bzw. Bewertungen von bestimm-
ten Aussagen (Items) auf verschiedenen Antwortdimensionen erheben sollen.
Beispiel (Einstellung zum Beruf): Für wie wichtig halten Sie die folgenden Merk-
male für Ihren Beruf und ihre berufliche Arbeit? (sehr wichtig/eher wichtig/
eher unwichtig/sehr unwichtig)
• Überzeugungsfragen:
Fragen nach Überzeugungen, Einschätzungen gegenwärtiger, vergangener oder
vermuteter zukünftiger Ereignisse und Zustände.
Beispiel: Was glauben Sie: Gewinnt Politiker X die bevorstehende Bundestags-
wahl? (Ja/Nein)

Einteilungen dieser Art sind nicht unproblematisch, weil eine Typentrennung nicht
immer ohne Willkür möglich ist. So würde eine Faktfrage nach einem vergangenen
Ereignis unter der Bedingung, dass der Befragte meint, ein Ereignis hätte stattge-
funden, obwohl es niemals stattgefunden hat, eher einer Frage nach einer Überzeu-
gung entsprechen. Der Befragte ist in diesem Fall mehr oder weniger stark davon
überzeugt, dass das Ereignis stattgefunden hat. Auch erfordern Faktfragen oft die
Durchführung kognitiver Operationen wie z.B. Summenbildung wie z.B. bei Fra-
gen nach der Anzahl der Stunden, die ein Befragter in seiner beruflichen Funktion
wöchentlich tätig ist. Es erscheint daher sinnvoller, die vom Befragten geforderten
kognitiven Leistungen in die Kategorisierung der Fragetypen einzubeziehen. So
erörtern Tourangeau, Rips & Rasinski (2000) Faktfragen im Zusammenhang mit
verschiedenen Arten der Urteilsbildung. Die Autoren unterscheiden dabei folgen-
de Arten von Urteilsprozessen, die bei der Beantwortung von Faktfragen eine Rolle
spielen:
• Urteile bezüglich der Vollständigkeit oder Genauigkeit des Gedächtnisabrufs;
• auf dem Gedächtnisabruf basierende Schlussfolgerungen;
180 III.1 Fragen und ihre Bestandteile

• Schlussfolgerungen, welche die Erinnerungslücken füllen;


• Integration der Ergebnisse des Gedächtnisabrufs in ein Gesamturteil;
• Schätzungen, welche die Auslassungen im Gedächtnisabruf adjustieren.
Es ist also bei Faktfragen keinesfalls vom Modell eines einfachen, zuverlässigen Ge-
dächtnisabrufs auszugehen.
Ein weiteres Einteilungsprinzip auf Basis der linguistischen Struktur und der
Formulierung von Fragen haben Saris und Gallhofer vorgeschlagen (vgl. Saris &
Gallhofer, 2014).

III.1.4 Antwortformate und Antwortskalen

Mit einer Frage sind in standardisierten Interviews stets auch bestimmte Antwort-
vorgaben verbunden, in welche die Befragten die von ihnen gewünschten Infor-
mationen einpassen müssen. Im Grenzfall kann eine Frage in einem freien Format
auch offen gestellt werden. Grundsätzlich erfordern bestimmte Fragen konventi-
onell, d.h. nach den in der Gesellschaft gelernten Konversationsregeln spezifische
Arten von Antworten. Einige Fragen können z.B. angemessen nur mit „Ja“ oder
„Nein“ beantwortet werden. Es ist wichtig, dass bei der Konstruktion von Frage-
texten und Antwortkategorien die Sprachkonventionen im Hinblick auf das Ver-
hältnis von Frage und Antwort beachtet werden. Bei geschlossenen Fragen wer-
den den Befragten verschiedene Antwortalternativen (auch: Antwortkategorien,
Antwortvorgaben; engl.: response alternatives) präsentiert, die manchmal eher den
Anforderungen des Forschers an die Qualität der Messung als den Konventionen
der Alltagskommunikation folgen. Stellen Antwortalternativen Abstufungen auf
einer gemeinsamen Dimension bzw. Merkmals wie z.B. „Zufriedenheit“ dar, so
spricht man auch von einer Antwortskala (engl.: response scale). Durch Zuordnung
von Zahlen zu den Antwortkategorien nach bestimmten Regeln entstehen aus den
Merkmalen mit ihren Ausprägungen numerische Variablen mit ihren Werten, die
dann als Messungen einer statistischen Analyse unterzogen werden können. Oft
werden von den Befragten auch direkte numerische Angaben verlangt, so dass sich
eine numerische Codierung erübrigt.
Vom Begriff der Anwortskala ist der messtheoretische Begriff der Skala zu un-
terscheiden (vgl. z.B. Orth, 1976; Suppes & Zinnes, 1963; vgl. Abschnitt IV). Ob
Antworten auf einer Antwortskala eine Skala im messtheoretischen Sinn bilden,
kann nur auf Basis messtheoretischer Analysen entschieden werden.
III.1 Fragen und ihre Bestandteile 181

Antwortskalen, auf denen Urteile abgestuft werden können, heißen auch Ra-
ting-Skalen (engl.: rating scales). In den meisten Fällen handelt es sich um Ab-
stufungen in Form diskreter Kategorien. In diesem Fall spricht man auch von
Kategorialskalen (engl.: category scales). Kategorialen Einstufungen können kon-
tinuierliche latente Bewertungen des Befragten auf einer Dimension zugrunde lie-
gen, die der Befragte in kategoriale Formate übertragen bzw. einfügen muss. In
diesem Fall übersetzt der Befragte seine subjektive Bewertung auf einer latenten
Antwortskala in beobachtbare diskrete Kategorien (zu den Details vgl. Abschnitt
III.1.5). Im Grenzfall kann eine Antwortskala auch dichotom sein wie etwa eine
„Ja/Nein“-Skala.
Werden die Abstufungen auf einer Antwortskala numerisch dargestellt bzw.
benannt und nur die Endpunkte verbalisiert, so spricht man auch von einer nume-
rischen Skala (engl.: numerival scale) Sind alle Abstufungen verbalisiert, so heißt
die Skala Verbalskala oder verbalisierte Skala (engl.: verbal scale). Beispiele für Ant-
wortdimensionen, auf denen Urteile abgestuft werden können, sind:

• Grad der Zustimmung (Zustimmungsskalen)


• Wichtigkeit (Wichtigkeitsskalen)
• Zufriedenheit (Zufriedenheitsskalen)
• Häufigkeit (Häufigkeitsskalen)
• Intensität (Intensitätsskalen; Grad der Stärke)
• Ausmaß, in dem eine Aussage auf einen Sachverhalt zutrifft („Trifft zu“-Skalen)
• Wahrscheinlichkeit (Wahrscheinlichkeitsskalen)
• Sympathie (Sympathieskalen)
• Interesse (Interessenskalen)

Antwortdimensionen stellen quantitativ oder qualitativ abstufbare Urteile und Be-


wertungen in Bezug auf Eigenschaften der zu beurteilenden Gegenstände wie z.B.
„wichtig“, „zufrieden“, etc. oder abstufbare Arten des eigenen Urteilsverhaltens (z.B.
Zustimmungsverhalten, Bewertungsverhalten, Schätzverhalten) dar. Eigenschaften
werden dabei durch Adjektive oder Adverbien bezeichnet, das Urteilverhalten dage-
gen durch Verhaltensbezeichnungen (z.B. „zustimmen“). Die Abstufungen erfolgen
durch Adverbien oder linguistische Partikel wie „sehr“, „kaum“, etc. Sie werden auch
als adverbiale Modifikatoren (adverbial modifiers, intensifiers, qualifiers) bezeichnet.
Im Fall quantitativer Graduierungen wurde zwischen den unmodifizierten Adjekti-
ven und den durch Modifikatoren modifizierten Adjektiven gelegentlich ein linearer
Zusammenhang empirisch nachgewiesen (Cliffsches Gesetz; vgl. Cliff 1959; Kristoff
1966). Bei der Einführung adverbialer Modifikatoren sollte stets bedacht werden,
dass diese ebenfalls Träger von Bedeutungen sind, die prinzipiell bei unterschiedli-
182 III.1 Fragen und ihre Bestandteile

chen soziokulturellen Teilgruppen der Stichproben zu einem unterschiedlichen Ver-


ständnis führen können (vgl. Kristoff, op. cit.; Wegener, Faulbaum & Maag 1982).
Abbildung III.4 zeigt den Aufbau einer 7stufigen numerischen Antwortskala mit Bei-
spielen verschiedener Antwortdimensionen, bei der nur die Endpunke benannt sind
und die adverbialen Modifikatoren die jeweils extremen Bewertungen kennzeichnen.
Die gezogene Linie dient wie auch in den übrigen Abbildungen nur der graphischen
Illustration. Die Antwortkategorien können selbstverständlich auch in anderen For-
maten, z.B. in Form einer Liste, dargeboten werden.
Numerische Antwortskalen können graphisch unterstützt werden, etwa
durch unterteilte Linien oder durch Leitern. Diese können den Respondenten in
Face-to-Face-Interviews als Befragungshilfen visuell vorgelegt werden. Im Fal-
le unterteilter Linien spricht man gelegentlich auch von graphischen Skalen (vgl.
Guilford, 1954, p. 265).

Abbildung III.4: Aufbau einer 7-stufigen unipolaren numerischen Antwortskala

Bei mündlichem Vortrag wie z.B. in Telefoninterviews werden den Befragten ent-
sprechende Instruktionen gegeben wie etwa in folgendem Beispiel einer Zustim-
mungsskala:
„Ich nenne Ihnen nun einige Aussagen, den man mehr oder weniger stark zustimmen
kann. Bitte sagen Sie mir auf einer Skala von 1 bis 5, wie stark Sie den Aussagen zu-
stimmen. 1 bedeutet „stimmte überhaupt nicht zu“ und 5 bedeutet „stimme voll und
ganz zu“. Mit den Zahlen dazwischen können Sie Ihr Urteil abstufen.“
III.1 Fragen und ihre Bestandteile 183

Ein bekanntes Beispiel für eine Verbalskala stellt jener Typ einer 5stufigen Ant-
wortskala dar, die von Likert (1932) in seiner Methode der summierten Ratings ver-
wendet wurde (vgl. Abbildung III.5).

Abbildung III.5: Antwortskala vom Likert-Typ

Gelegentlich wird auch eine Antwortskala, welche die „Trifft-zu“-Dimension ver-


wendet, als Likert-Skala bezeichnet (vgl. Bortz & Döring, 2006). Prinzipiell lassen
sich Verbalisierungen auch bei mehr als fünf Abstufungen vornehmen. Abbildung
III.6 zeigt eine 7-stufige Verbalskala, deren Benennungen (labels) nach einer Un-
tersuchung von Rohrmann (1978) als gleichabständig angesehen werden konnten
(vgl. Faulbaum, 1984).

Abbildung III.6: Beispiel für eine 7-stufige Verbalskala

Auch zur Präsentation von Verbalskalen werden in Face-to-Face-Interviews in der


Regel Befragungshilfen verwendet, bei denen die verbalen Abstufungen noch ein-
mal aufgeführt sind. In Telefoninterviews wird man eine solche Skala nicht ver-
wenden, da die Befragten die Abstufungen im Kurzzeitgedächtnis speichern müs-
sen und mit Recency-Effekten zu rechnen ist. Eine getrennte Abfrage der einzelnen
Abstufungen ist nicht sinnvoll. Bei Selbst-administrierten Interviews kann zum
besseren Verständnis der Skala eine graphische Unterstützung erfolgen. Obwohl
eher nicht zu empfehlen, ist es prinzipiell auch möglich, die Verbalisierungen le-
diglich in einer Liste von Alternativen aufzuführen und die zutreffende Alternative
ankreuzen zu lassen wie z.B.
184 III.1 Fragen und ihre Bestandteile

☐ überhaupt nicht wichtig


☐ wenig wichtig
☐ etwas wichtig
☐ eingermaßen wichtig
☐ ziemlich wichtig
☐ überwiegend wichtig
☐ sehr wichtig
Unter messtheoretischen Gesichtspunkten entsteht eine Skala aus Antwortvorga-
ben erst dann, wenn den Vorgaben numerische Werte zugeordnet worden sind.
Antwortvorgaben wie „immer“, „oft“, „manchmal“, „selten“, „nie“, die den Befrag-
ten ohne numerische Werte präsentiert werden, werden zu einer Skala im messthe-
oretischen Sinn als numerische Repräsentation also erst, nachdem der Forscher
oder der Befragte selbst den Kategorien Zahlen zugeordnet hat. Bei Schätzungen
und Berechnungen haben die Befragten oft zwar konkrete Zahlen wie Anzahl der
Arztbesuche im Kopf, müssen diese aber in bestimmte Antwortformate übertra-
gen. Dabei kann es dann zu Informationsverlusten kommen: Der Befragte hat etwa
eine Schätzung auf einer kontinuierlichen Skala im Kopf und der Forscher transfor-
miert diesen Wert durch die Art seiner Antwortvorgaben in einen Wert auf einer
Ordinalskala.
Skalen können unipolar oder bipolar sein. Ein Beispiel für eine bipolare 7-stufi-
ge numerische Skala ist in Abbildung III.7 wiedergegeben:

Abbildung III.7: Beispiel für eine bipolare numerische Skala

Auch bei einer bipolaren Skala können die Abstufungen benannt sein wie z.B bei
einer 5-stufigen Wichtigkeitsskala mit den Abstufungen „sehr wichtig“, „eher wich-
tig“, „eher unwichtig“, „sehr unwichtig“.
Statt in irgendeiner Weise Abstufungen zu benennen, können letztere auch rein
visuell, z.B. durch Grautöne signalisiert werden (vgl. Abbildung III.8).
III.1 Fragen und ihre Bestandteile 185

Abbildung III.8: Abstufungen einer Antwortskala durch Grautöne

Natürlich könnten auch hier wieder zusätzlich Benennungen, entweder nur an den
Endpunkten oder bei jedem Grauton eingeführt werden. Statt Grautönen wären
prinzipiell auch Farbtöne als Abstufungen einsetzbar. Das Problem bei der Einfüh-
rung solcher Typen von Visualisierungen ist, dass ein eigenständiger Effekt auf das
Antwortverhalten wegen möglicher Farbbevorzugungen nicht ausgeschlossen wer-
den kann. Auch bei unterschiedlich starker Grautönung besteht die Gefahr, dass
Befragte dunkle Abschnitte meiden.
Vielfache Anwendungen, insbesondere bei Imageerhebungen, Erhebungen
von Stereotypen, Erhebungen von Anmutungsqualitäten sowie von konnotativen
Bedeutungen finden Skalen, in denen die Skalenendpunkte durch gegensätzliche
Adjektive gekennzeichnet sind, wobei die Urteile auf einer mehrstufigen Ska-
la abgestuft werden. Eine Zusammenstellung solcher Gegensatzpaare wird auch
als semantisches Differential oder Polaritätsprofil bezeichnet (vgl. Osgood, Suci &
Tannenbaum, 1957; Hofstätter & Lübbert, 1958). Abbildung III.9 enthält den Aus-
schnitt eines Beispiels von Hofstätter (1963, S. 259).

Abbildung III.9: Ausschnitt eines Beispiels für ein Polaritätsprofil

Antwortskalen beziehen sich immer auf Items, in denen Fakten, Überzeugungen,


Meinungen und Einstellungen sowie Verhaltensweisen beschrieben werden. Im
Rahmen einer Frage wie z.B. „Für wie wichtig halten Sie…“ bzw. einer Bitte wie z.B.
186 III.1 Fragen und ihre Bestandteile

„Bitte sagen Sie mir, wie stark Sie der Aussage zustimmen“, werden die Befragten
um die Bewertung der Items auf der Skala gebeten. Insbesondere in Webfragebö-
gen wird auf die numerischen Bezeichnungen der Abstufungen oft verzichtet. Ab-
bildung III.10 zeigt ein Beispiel aus einem Webfragebogen, wo nur die Endpunkte
verbalisiert sind und die Abstufungen durch sog. Radioknöpfe (radio buttons) dar-
gestellt sind.

Abbildung III.10: Darstellung der Abstufungen durch Radioknöpfe

Neben Ordinalskalen, die ab ca. fünf Abstufungen statistisch wie metrische Skalen
behandelt werden können (pseudometrische Skalen; vgl. Bentler & Chou 1985),
gibt es auch die Möglichkeit, kontinuierliche Urteile mit Hilfe von visuellen Ana-
logskalen zu erfassen (vgl. Couper, Tourangeau & Conrad 2007). Bei einer visuellen
Analogskala (VAS) werden kontinuierliche Abstufungen durch Markierungen auf
einer Linie vorgenommen (vgl. Abbildung III.11).
III.1 Fragen und ihre Bestandteile 187

Abbildung III.11: Visuelle Analogskala

Die Ausprägung kann dann direkt gemessen werden. Visuelle Analogskalen sind
auch als Online-Tool verfügbar (vgl. Reips & Funke 2008). Eine ähnliche Skala
stellt die Schiebereglerskala dar, die auch in vielen CAPI- und CASI-Programmen
verwendet wird:

Auch sog. psychophysische Skalen (Magnitudeskalen) können zur metrischen Ska-


lierung von Urteilen verwendet werden. Bei der Magnitudemessung werden die
Befragten gebeten, das relative Verhältnis ihrer subjektiven Einschätzungen (z.B.
Einschätzungen der Intensität der Bevorzugung bestimmter politischer Parteien),
Einschätzungen des sozialen Ansehens von Berufen, Einschätzungen der Wich-
tigkeit verschiedener beruflicher Merkmale) in mindestens einer Antwort- bzw.
Reaktionsmodalität vorzunehmen (in Bezug auf die Anwendung in den Sozialwis-
senschaften vgl. Lodge 1981; Saris 1988; Wegener 1982, Wegener 1983; Faulbaum
& Maag 1982). Modalitäten können Zahlen, Tonstärken, Gewichte, etc. sein. Ab-
bildung III.12 gibt ein Beispiel für eine Magnitudemessung in der Modalität „Lini-
en“. In dem abgebildeten Beispiel wird darum gebeten, zunächst eine Vergleichlinie
und anschließend Linien im Verhältnis zu dieser Vergleichslinie zu ziehen, die die
Stärke ihrer Urteile der übrigen Stimuli im Verhältnis zur Stärke des Urteils in Be-
zug auf die Vergleichslinie wiedergeben.
188 III.1 Fragen und ihre Bestandteile

Für wie wichtig halten Sie die folgenden Merkmale für die berufliche Arbeit und
den Beruf?

Hohes Einkommen

VERGLEICHSLINIE

Eine Tätigkeit, bei der man selbständig arbeiten kann

ANTWORTLINIE

Gibt mir das Gefühl, etwas Sinvolles zu tun

ANTWORTLINIE

Ein Beruf, bei den man anderen helfen kann

ANTWORTLINIE

Abbildung III.12: Beispiel für Magnitudemessung in der Modalität “Linien“

Funktionale Beziehungen zwischen den Einstufungen in verschiedenen Antwort-


modalitäten lassen sich im Rahmen des sog. „cross-modality matching“ (vgl. Lodge,
1981; Stevens, 1959; Stevens & Marks, 1980) als Potenzbeziehungen formulieren
(indirektes cross-modality matching Funktionen bzw. ICMM-Funktionen; vgl. We-
gener, 1978, S. 11) formulieren:

M1 = aM 2β2 / β1 .

In diesem Ausdruck sind M1 und M2 die auf den Modalitäten 1 und 2 abgegeben
Bewertungen. E1 und E2 sind die Exponenten der Funktionen, welche nach Stevens
(1946) die psychophysischen Beziehungen zwischen physikalischen Reizintensitä-
ten und den numerischen Reaktionen kennzeichnen. Diese Exponenten sehen je
III.1 Fragen und ihre Bestandteile 189

nach physikalischer Modalität unterschiedlich aus. Die Skalenwert für ein Item I
ergibt sich durch geometrische Mittelung:

( )
1/2
Si = M1βi1 M 2βi2 .

Auf der Magnitude-Skalierung und der ICMM-Beziehung basiert die Magnitu-


de-Prestige-Skala (MPS) der Berufe von Wegener (vgl. Wegener, 1978, 1982, 1983;
Frietsch & Wirth, 2001).
Neben den bereits erwähnten Antwortformaten gibt es zahlreiche weitere Ant-
wortformate mit unterschiedlichen Folgen für die zu erwartende Datenqualität in
Fragen wie z.B. die Auswahl mehrerer Alternativen aus einer vorgegebenen Menge
von Antworten, die eine Bedingung erfüllen, z.B. die Menge kultureller Einrichtun-
gen einer Stadt, von denen man Kenntnis besitzt (sog. „check-all-that-apply“-Fra-
gen), oder auch Fragen, bei denen Antwortalternativen hinsichtlich ihrer Intensität
in eine Rangordnung gebracht werden sollen.
Durch den Einsatz von Computern als Administratoren haben sich die Möglich-
keiten der Skalendarstellung bei selbst-administrierten Interviews stark erweitert
(vgl. Couper 2008; Dillman, Smyth & Christian, 2014; Tourangeau, Conrad & Cou-
per, 2013). So zeigt Abbildung III.13 ein Beispiel für eine sog. „drop-down“-Box.

Abbildung III.13 „drop-down“-Box


190 III.1 Fragen und ihre Bestandteile

Bei der Skalenkonstruktion müssen stets die besonderen Eigenschaften der gewähl-
ten Kommunikationsform (siehe Teil II) bedacht werden. Bei Telefonumfragen ist
bei der Nennung von Antwortalternativen zu bedenken, dass Befragte nur wenige
Alternativen im Gedächtnis speichern können (in der Regel nur maximal vier), an-
dernfalls unterliegen die Antworten mit höherer Wahrscheinlichkeit Recency,- und
Primacy-Effekten. Nach Miller (1956) können zwar 7 +/- 2 Alternativen im Kurz-
zeitgedächtnis gespeichert werden. Unter dem subjektiv eher empfundenen Zeit-
druck der telefonischen Fragebeantwortung sollte die Anzahl eher darunter liegen.

III.1.5 Empirische und latente Antwortvariablen

Grundsätzlich kann nicht davon ausgegangen werden, das die subjektiven Infor-
mationen (Ergebnisse von Urteilen, Gedächtnisinhalte, allgemein: Ergebnisse von
mentalen Operationen) im gleichen Format vorliegen, wie die vom Fragendesig-
ner vorgegebenen Formate. So kann etwa eine subjektive Wichtigkeitseinstufung
Werte auf einer kontinuierlichen Wichtigkeitsdimension repräsentieren, während
die vom Befragten verlangte Antwort nur die beiden Kategorien „eher wichtig“ vs.
„eher unwichtig“ zulässt. Die Konsequenz aus dieser Überlegung ist, dass zwischen
einer subjektiven Antwort des Befragten und der formatierten Antwort unterschie-
den werden muss. Die Antworten im vom Fragedesigner vorgegebenen Format bil-
den Abstufungen einer beobachtbaren, empirischen Antwortvariablen. Die subjekti-
ve Antwort, die der Befragte durch die formatierte Antwort ausdrücken soll, stellt
dagegen eine unbeobachtete bzw. latente Antwortvariable (engl.: latent response va-
riable) dar. Sie stellt strenggenommen, ähnlich wie die später (vgl. Teil IV) latente
Konstruktvariable eine theoretische Variable im Modell des Forschers dar. Sie ist
aber mit den theoretischen Konstruktvariablen nicht zu verwechseln.
Latente Antwortvariablen (vgl. Maddala, 1983; Muthén, 1979, 1983) sind the-
oretische subjektive Bewertungsdimensionen, von denen angenommen wird, dass
die Befragten auf ihnen ihre Antworten abstufen, ehe sie die beobachteten Ant-
worten geben. Dabei wird angenommen, dass die Erzeugung der beobachteten
Antwort in Abhängigkeit von Schwellenwerte auf der latenten Antwortvariablen
erfolgt. Latente Antwortvariablen werden ebenso wie beobachtete Antwortvaria-
blen in mathematischen Modellen numerisch dargestellt. Prinzipiell können diese
Variablen als stetig im Sinne der Menge der reellen Zahlen oder aber als kategorial
angenommen werden.
In Abbildung III.14 ist am Beispiel einer 3stufigen Zustimmungsskala das Ver-
hältnis zwischen einer stetigen latenten Zustimmungskala und den beobachteten,
III.1 Fragen und ihre Bestandteile 191

im Antwortformat vorgegebenen verbalen Zustimmungskategorien dargestellt.


Es wird angenommen, dass die beobachteten Antworten in Abhängigkeit von be-
stimmten Schwellenwerten (engl.: thresholds) erfolgt. Die numerische Zuordnung
erfolgt so, dass die Werte der beobachteten Antwortvariablen die durch die Schwel-
lenwerte definierten Intervallen wiederspiegeln.

Abbildung III.14: Latente Antworvariable y* und beobachtete Antwortvariable y.

⎧1, wenn y * ≤ k1 ⎫
⎪ ⎪
2, wenn k 1 > y* ≤ k2
⎪ ⎪
⎪⎪# ⎪⎪
y=⎨ ⎬
⎪i, wenn ki − 1 > y * ≤ ki ⎪
⎪# ⎪
⎪ ⎪
⎪⎩k, wenn y * > kk − 1 ⎪⎭
In Bezug auf die statistischen Verteilungen der latenten Antwortvariablen y* kön-
nen unterschiedliche Annahmen getroffen werden. In der Regel wird eine Normal-
verteilung der latenten Antwortvariablen angenommen. Die Beziehung zwischen
den Schwellenwerten latenter Antwortvariablen und k beobachteten Antwortkate-
gorien lässt sich folgendermaßen zusammenfassen:
Latente Antwortvariablen können aus theoretischen Überlegungen auch als ka-
tegorial angenommen werden. Ein Beispiel für eine kategoriale latente Antwortva-
riable wäre z.B. die Antwort auf die Frage nach dem höchste allgemeinbildenden
Schulabschluss, wobei die latente Antwort z.B. „Hauptschule“ lauten könnte und
die empirische, vom Befragten geäußerte Antwort ebenfalls „Hauptschule“. In die-
sem Fall wird zwischen den latenten Antworten und der beobachteten Antwort
192 III.1 Fragen und ihre Bestandteile

in der Regel eine deterministische Beziehung angenommen; d.h. es wird erwartet,


dass der Befragte mit Wahrscheinlichkeit 1 „Hauptschule“ sagt, wenn er „Haupt-
schule“ denkt. Man könnte auch die Annahme machen, dass der Befragte nur mit
einer gewissen Wahrscheinlichkeit „Hauptschule“ äußert, um die Möglichkeit
zuzulassen, dass er mit einer gewissen Wahrscheinlichkeit im Sinne sozialer Er-
wünschtheit statt des tatsächlichen Abschlusses einen höheren Abschluss angibt.
Von den latenten Antwortvariablen sind die latenten Konstruktvariablen zu
unterscheiden, die in Teil IV näher behandelt werden. In unserem Schulbeispiel
wäre die Schulbildung eine Konstruktvariable, die wir über die Frage nach dem
allgemeinbildenden Schulabschluss als Indikator messen wollen. Die Beziehung
zwischen einer latenten Antwortvariablen und einer beobachteten Antwortvari-
able sollte nicht verwechselt werden mit den Beziehungen zwischen einem quan-
titativen Konstrukt, etwa einer Fähigkeit, und der Wahrscheinlichkeit einer dis-
kreten Antwort, etwa der Lösung einer Aufgabe mit den Ausprägungen „gelöst“
vs. „nicht gelöst“, auch wenn die statistischen Modelle der Analyse dieser Zusam-
menhänge sich weitgehend entsprechen. Eine quantitativ abgestufte Fähigkeit ist
ein quantitatives Konstrukt und keine latente Antwortvariable.

III.1.6 Die Bedeutung von Fragetexten und Antwortvorgaben

Äußerungen im Interview, seien es Äußerungen von Fragen oder Äußerungen


von Antworten, erhalten ihre kommunikative Funktion erst durch ihre Rolle als
Zeichen. Unter semiotischer (zeichentheoretischer) Perspektive (vgl. Morris 1946)
stellen Äußerungen im Interview Zeichen dar, die auf einem Zeichenträger wie Pa-
pier oder wie einem Bildschirm realisiert sind und die durch drei Bezüge charak-
tersierbar sind: einen syntaktischen, einen semantischen und einen pragmatischen
Bezug (vgl. Abbildung III.15).
III.1 Fragen und ihre Bestandteile 193

Abbildung III.15: Zeichentheoretische Bezüge von Fragetexten

Der syntaktische Bezug besteht darin, dass Zeichen nach bestimmten grammati-
kalischen Regeln erzeugt sind und insofern wohlgeformte sprachliche Ausdrücke
darstellen. Einen semantischen Bezug haben Zeichen insofern, als sie etwas bedeu-
ten, wobei zwischen der designativen, extensionalen Bedeutung (dem bezeichneten
Gegenstand) und der detonativen, intensionalen Bedeutung (Sinn) unterschieden
wird (vgl. Frege 1892; Morris 1938). Frege verdeutlicht den Unterschied zwischen
diesen beiden Bedeutungsbegriffen in seinem berühmten Beispiel des Planeten Ve-
nus (vgl. Abbildung III.16). Die Worte „Morgenstern“ und „Abendstern“ bezeich-
nen beide den Planeten Venus. Dennoch haben beide Worte eine unterschiedliche
intensionale Bedeutung. Je nachdem, ob dieser Planet situationsabhängig am Mor-
gen oder am Abende betrachtet wird, wird er mit einer unterschiedlichen konnota-
tiven Bedeutung verbunden.
194 III.1 Fragen und ihre Bestandteile

Abbildung III.16: Extensionale und intensionale Bedeutung

Für die Anwendung auf Fragen und Items bedeutet dies, dass in den Texten ver-
wendete Begriffe in unterschiedlichen soziokulturellen und psychologischem Kon-
texten eine unterschiedliche Bedeutung aufweisen können.
Der pragmatische Bezug thematisiert die Beziehung zwischen den Zeichen und
ihren Nutzern. Er besteht darin, dass Zeichen in bestimmter Weise verwendet wer-
den, etwa um bestimmte Ziele zu verfolgen bzw. bestimmte Wirkungen zu erzielen.
Betrachten wir Fragetexte in einem Fragebogen als Zeichen, so stehen diese eben-
falls in einem syntaktischen, semantischen und pragmatischen Bezug. Der syntak-
tische Aspekt bezieht sich also auf den grammatikalischen Aufbau des Textes, der
zweite auf die Bedeutung des Textes und der dritte Aspekt auf die Verwendung der
Frage und die Wirkung der Frage auf den Befragten.
Von besonderer praktischer Bedeutung sind der semantische und der pragma-
tische Bezug von Fragen und Antwortvorgaben. Es ist wichtig, sich immer wieder
klar zu machen, dass die Befragten nicht auf den Fragetext reagieren, sondern auf
die Bedeutungen, die sie dem Fragetext und den Bestandteilen der Antwortformate
geben. Die Bedeutungen können bei Fragetexten mehr oder weniger komplex sein.
Wenn z.B. in einem Item eine Episode beschrieben wird, besteht die designative
Bedeutung in einer mehr oder weniger komplexen episodischen Struktur. Durch
Worte bezeichnete Begriffe können in eine mehr oder weniger komplexe Struktur
von Begriffen eingebettet sein (vgl. z.B. Collins & Quillian, 1970; Quillian, 1968).
Um die Wirkung sprachlicher Äußerungen zu verstehen, sollte nicht nur die de-
signative Bedeutung ins Kalkül gezogen werden. Vielmehr wird die sprachliche
Bedeutung in semantische Strukturen und Wissensstrukturen integriert. Darüber
hinaus können durch sie auch vergangene Erfahrungen, Ängste, Bilder, etc. ange-
sprochen werden. Dabei steht die Komplexität der semantischen Struktur nicht
unbedingt in direktem Zusammenhang mit der Komplexität der syntaktischen
III.1 Fragen und ihre Bestandteile 195

Struktur. Schon einzelne Worte wie „Behörde“, „Regierung“, „Familie“ müssen als
in umfassendere Wissensstrukturen eingebettet betrachtet werden.
Nicht nur Fragetexte, sondern auch vorgegebene Antwortformate mit den oben
beschriebenen Antwortalternativen und Antwortkategorien einschließlich der
adverbialen Modifikatoren unterliegen der Interpretation. Nicht die sprachlichen
Ausdrücke selbst, sondern die von den Befragten zugeordneten qualitativen oder
quantitativen Interpretationen sind die Basis für die Wahl der Antwortalternati-
ven oder die Wahl einer kategorialen Ausprägung. Die Bedeutungswahrnehmung
adverbialer Modifikatoren kann die Messung wesentlich beeinflussen (vgl. z.B.
Hippler et al., 1991; Moxey & Sanford, 1991, Rohrmann, 1978, 2007; Schwarz et
al., 1993).
Schon sehr früh hat sich die Psychologie mit der Wirkungsstärke, d.h. mit den
quantativen Bedeutungen von adverbialen Modifikatoren beschäftigt. Berühmt ge-
worden ist das oben erwähnte sog. Cliffsche Gesetz (vgl. Cliff, 1959), welches Adver-
bien als auf Multiplikatoren auffasst und die folgende lineare Beziehung postuliert:
Qij (MA) = wMj Qi (A) + K,
wobei

Qij (MA) : Skalenwert des i-ten Adjektivs in Kombination mit dem j-ten Mo-
difikator;
wMj : Multiplikationskoeffizient für den j-ten Modifikator;
Qi (A) : psychologischer Skalenwert des i-ten Adjektivs;
K : Differenz zwischen dem beliebigen Nullpunkt der Skalenwerte und
ihrem psychologischen Nullpunkt.

Die Ableitung der Beziehung erfolgte aggregiert auf der Basis der Methode der suk-
zessiven Intervalle (vgl. z.B. Guilford, 1954). Wegener, Faulbaum und Maag (1982a,
1982b) konnten unter Anwendung der Magnitude-Skalierung zur Abschätzung der
quantitativen Bedeutung von adverbialen Modifikatoren auf Ebene der Individuen
für die ausgewählten Adjektive „wichtig“ und „sicher“ folgende Potenzbeziehung
nachweisen:
Ql (MA) = k Ql (A)wM
bzw.
logQl(MA) = wMlogQl(A) + logk.
Die betrachteten Modifikatoren waren „außerordentlich“, „sehr“, „ziemlich“, „über-
wiegend“, „halbwegs“, „einigermaßen“, „teilweise“, „etwas“, „wenig“. Die Untersuchung
ergab nicht nur die obige Potenzbeziehung, sondern ergab auch Hinweise dafür, dass
196 III.1 Fragen und ihre Bestandteile

die Wirkungsstärke von dem betrachteten Adjektiv abhängt. Tabelle III.1 gibt einen
Überblick über die Wirkungsstärken der Modifikatoren für die Adjektive „sicher“ und
„wichtig“. Man sieht, dass die Wirkungsstärken für das Adjektiv „wichtig“ durchweg
höher sind als für das Adjektiv „sicher“. Die Tabelle enthält außerdem die Korrelatio-
nen (R) zwischen den Einstufungen des Adjektivs und den Einstufungen des Modi-
fikators.

Tabelle III.1: Wirkungsstärken von adverbialen Modifikatoren

sicher wichtig
wM R wM R
außerordentlich .904 .823 1.063 .882
sehr .837 .846 .944 .887
ziemlich .785 .857 .900 .874
überwiegend .801 .855 .871 .853
halbwegs .693 .849 .739 .817
einigermaßen .681 .823 .665 .789
teilweise .641 .789 .640 .753
etwas .388 .672 .429 .649
wenig .361 .618 .361 .495

Mittelwerte .677 .792 .735 .778

Die Autoren fanden, dass sich die Wirkung eines Modifikators zur Wirkung des
nächst stärkeren Modifikators proportional verhält. Mit ähnlichen Methoden der
Magnitude-Schätzung untersuchten Hofmans et al., (2007) im Rahmen von Ex-
perimenten den Einfluss des Kontextes, in dem ein Modifikator steht, auf die mit
ihm verbundene quantitative Bedeutung. Sie fanden Hinweise dafür, dass bei Zu-
stimmungsskalen die Intensität der Modifikatoren nicht von der Orientierung der
Skala („aufsteigend“ vs. „absteigend“) abhängt. Zahlreiche frühe Studien befassen
sich mit der Bedeutung von Worten, die Quantitäten ausdrücken sollen wie z.B.
Häufigkeitsabstufungen (vgl. Griffin, 2013; Hakel, 1968; Hammerton, 1976; Howe,
1962; Lilly, 1968a, 1968b; Schaeffer, 1991). Rohrmann (1978) untersuchte die quan-
titativen Abstände von Modifikatoren und fand, dass folgende Adverbien ungefähr
gleichabständig sind:
III.1 Fragen und ihre Bestandteile 197

Nicht
Wenig
Etwas
Einigermaßen
Ziemlich
Überwiegend
Sehr
In einem weiteren Projekt untersuchte Rohrmann die besten verbalen Benen-
nungen in Bezug auf Gleichabständigkeit, linguistischer Unterscheidbarkeit und
Verständnis bei Skalen mit zwischen 5 und 9 Abstufungen (vgl. Rohrmann, 2007).
Eines der Resultate war, dass die Benennungen „strongly-disagree/disagree/neit-
her-agree-nor-disagrsee/agree/strongly-agree“ der bekannten Zustimmungsskala
nicht gleichabständig sind. So lange die Frage der Gleichabständigkeit nicht geklärt
ist sollten man die Skalen in der Analyse nur ordinal interpretieren (zum Begriff
der Ordinalskala siehe Teil IV).
Grundsätzlich sollte der Forscher davon ausgehen, dass Bedeutungszuordnun-
gen zu Fragetexten und adverbialen Modifikatoren zwischen den Befragten variie-
ren und sich auch von den Bedeutungen unterscheiden können, die der Forscher
mit den sprachlichen Ausdrücken verbindet (vgl. Abbildung III.17). Angestrebt
werden sollte eine Bedeutungsinvarianz zwischen Forscher und Respondenten so-
wie zwischen den Respondenten.
Die Wahl einer Antwortalternative bzw. eines Skalenpunkts ist Ergebnis einer
Urteilsbildung, die im Rahmen einer Frage von Befragten gefordert wird. Im Rah-
men der Urteilsbildung können die in Fragetexten und Skalenbenennungen darge-
botenen Informationen in umfassendere Metaphern eingebunden werden (vgl. z.B.
Lee & Schwarz, 2012; Zhang & Schwarz, 2014). Ein Beispiel ist der Zusammenhang
zwischen der räumlichen Anordnung von Beschreibungen und der zeitlichen Aus-
richtung. So scheinen Vergangenheit und Zukunft mit den Richtungen „links“ und
„rechts“ verbunden zu sein (vgl. Zhang & Schwarz, 2014). Personen wählten zur
Selbstbeschreibung und zur Beschreibung ihres Landes in der Vergangenheit eher
Beschreibungen, die bei einer horizontalen Darbietung eher links lokalisiert waren.
In der Regel wird die Bedeutung von Fragen nicht hinterfragt. Stattdessen legt
der Forscher oft uneingestanden seine eigene Bedeutungswahrnehmung zugrunde
und vergisst, dass die Befragten unterschiedliche Alltagsinterpretationen mit ih-
nen verbinden könnten, die von der von ihmr unterstellten Bedeutung abweichen.
Verantwortlich für unterschiedliche Interpretationen von Fragetexten sind nicht
zuletzt soziodemographische und soziokulturelle Unterschiede.
198 III.1 Fragen und ihre Bestandteile

Abbildung III.17: Bedeutungsvariation von Fragetexten zwischen Befragten

Interpretative Unterschiede zwischen Begriffsbezeichnungen wurden vor allem in


den Arbeiten von Conrad und Schober (Conrad & Schober 2000; Conrad, Schober
& Coiner 2007; Schober & Conrad 1997, Schober, Conrad & Fricker 2004; Suess-
brick, Schober & Conrad 2000, 2001; Peytchev et al., 2010; Redline, 2013; Touran-
geau et al., 2006). untersucht. Im Mittelpunkt steht dabei der Begriff der Klärung
(engl.: clarification). Unter Klärung wird dabei die Instantiierung bzw. Konkreti-
sierung von Begriffen und Konstrukten verstanden. Instantiierung bezeichnet die
Fixierung der semantischen Bedeutung, wobei es sich um konkrete Ausprägungen
des Begriffs oder um Beschreibungen handeln kann. So untersuchten Tourangeau
et al. (2006) die Fehlzuordnungen („malalignments“) von Begriffen und die man-
gelnde Übereinstimmung zwischen Begriff und Instanz in Bezug auf Alltagsbegriffe
wie „Aufenthaltsort“(„residence“)“ und „Unfähigkeit“ („disability“) mit Hilfe von
Vignetten als Träger für die semantische Definitionen. Ross and Murphy (1999)
untersuchten die Instantiierungen von Nahrungsbegriffen (“food terms”). Schober
und Conrad schlagen die Integration von Klärungen in das Interview vor und wei-
chen damit bewusst von den strengen Regeln des standardisierten Interviews ab.
III.1 Fragen und ihre Bestandteile 199

Angesichts zunehmender Globalisierung und kultureller Heterogenität in Um-


fragen ist damit zu rechnen, dass sich in allgemeinen Bevölkerungsumfragen kultu-
relle Unterschiede in den Bezeichnungen und den Konnotationen von Worten und
sprachlichen Ausdrücken verstärkt niederschlagen können. Worte mit quantitati-
ven Ausprägungen wie Häufigkeitsangaben können in Kombination mit Worten
wie z.B. „Kriminalität“ durchaus mit unterschiedlichen subjektiven quantitativen
Ausprägungen verbunden sein. Ausdrücke wie „zahlreiche Verbrechen“ können
für jemand, der in einer Gegend aufgewachsen ist, in der es kaum Kriminalität gab
etwas anderes bedeuten als für jemand, der in einem sozialen Brennpunkt aufge-
wachsen ist. Smith (2003, 2004) verglich die unterschiedlichen Stärken von adver-
bialen Modifikatoren zwischen verschiedenen Ländern. Schon eine frühe Studie
von Kristof aus den 60iger Jahren (vgl. Kristof, 1966) über den Vergleich der Modi-
fikatorstärken verschiedener adverbialer Modifikatoren zwischen Deutschland und
den USA konnte starke Unterschiede in den quantiativen Bedeutungen der Mo-
difikatoren nachweisen (vgl. Abbildung III.18). So ist z.B. das amerikanische Ad-
verb „slightly“ mit einer höheren Stärke versehen als das deutsche Adverb „etwas“.
Faulbaum, Wegener und Maag (1982a, 1982b) fanden Hinweise für Unterschiede
in den Stärken zwischen Alters- und Geschlechtergruppen.

Abbildung III.18: Modifikatorstärken deutscher Adverbien und ihrer englischen Übersetzungen


200 III.1 Fragen und ihre Bestandteile

Oyserman und Lee (2008) untersuchten die Auswirkungen kultureller Un-


terschiede auf den Denkprozess und die Informationsverarbeitung. Schwarz,
Oyserman und Peytcheva (2010) fanden Unterschiede im Antwortprozess
zwischen kollektivistischen und individualistischen Kulturen, d.h. zwischen
Kulturen, in denen die Einbettung von Individuen in soziale Gefüge und der
Zusammenhang zwischen Gruppenmitgliedern betont wird wie in asiatischen
Gesellschaften und Kulturen, in denen eher die Unabhängigkeit des Selbst
betont wird wie in westlichen Gesellschaften. Einige Befunde stützen die un-
terschiedliche Betonung von Bescheidenheit, Ehre und Steigerung des Selbst-
wertgefühls zwischen diesen Kulturen (vgl. Uskul, Oyserman & Schwarz, 2010).
Schon frühe Untersuchungen ergaben Unterschiede in den Interpretationen
von Begriffen zwischen Nationen. So berichtete Hofstätter bereits 1957 (vgl.
auch Hofstätter, 1963, S. 264) über Unterschiede in den Konnotationen zwi-
schen dem deutschen Begriff „Einsamkeit“ und dem englischen Begriff „lone-
liness“ in den USA. So wird die Bedeutung des Begriffs „loneliness“ in den USA
am besten durch den deutschen Begriff „Angst“ beschrieben. Ein weiteres Bei-
spiel ist der Begriff „Vertrauen“, der in unterschiedlichen kulturellen Kontexten
unterschiedlich verstanden wird (vgl. Freitag & Bauer, 2013). Auch Messungen
der nationalen Identität scheinen über Nationen hinweg nicht mit der gleichen
Bedeutung verbunden zu sein (vgl. Heath, Martin & Spreckelsen, 2009). Die
Beispiele deuten bereits an, vor welchen Schwierigkeiten die Entwicklung eines
international vergleichbaren Fragebogens steht.
Nicht immer müssen Begriffe in Fragtexten hinsichtlich ihrer Bedeutung prob-
lematisiert und hinterfragt werden. Jedoch können sich hinter Begriffen mit schein-
bar unproblematischer einheitlicher Alltagsbedeutung dennoch unterschiedliche
Bedeutungen verbergen. Wie weit reicht z.B. die Ausdehnung des Begriffs „Nach-
bar“; was verstehen die Menschen unter „Haushalt“, unter „Familie“ oder unter
„Ausländer“? Für Untersuchungen der Bedeutung von Begriffen in Fragetexten
bieten sich bestimmte Pretest-Verfahren wie z.B. kognitiven Interviews an, von de-
nen in Abschnitt… noch die Rede sein wird.
Die empirische Bedeutung eines Fragetextes ergibt sich auch aus seiner Rolle als
Indikator für ein theoretisches Konstrukt, die ihm im Rahmen der Operationali-
sierung (vgl. Teil III.1.7) zugewiesen wurde. Ob sich seine Bedeutung erschöpfend
in den empirischen Indikatoren widerspiegelt, ist in der Regel eher zweifelhaft, da
einerseits nicht auszuschließen ist, dass es noch weitere Indikatoren gegen könnte,
die weitere Bedeutungsdimensionen erschließen, andererseits überhaupt unklar
ist, ob sich theoretische Begriffe vollständig durch empirische Begriffe ersetzen las-
sen und ob es nicht doch so etwas gibt wie einen Bedeutungsrest, der empirisch
nicht aufgelöst werden kann (sog. „surplus meaning“). Diese Frage ist jedenfalls
III.1 Fragen und ihre Bestandteile 201

eine wissenschaftstheoretische Frage, die in unterschiedlicher Weise je nach wis-


senschaftsphilosophischer Grundeinstellung beantwortet werden kann (vgl. z.B.
Carnap, 1956; Beiträge in Suppe, 1977).

III.1.7 Fragen und Antworten als Indikatoren: Operationalisie-


rungen

Unabhängig von der Kommunikationsform spielen Fragen und Items immer die
Rolle von Indikatoren für die Inhalte, über die der Forscher etwas erfahren möch-
te. Bei diesen Inhalten handelt es sich nicht immer um solche, die durch direkt
messbare Begriffe beschrieben werden können wie z.B. das Einkommen oder das
Alter, sondern um unbeobachtete, theoretische (auch: latente) Konstrukte. Die Zu-
ordnung von empirischen Variablen zu Inhalten, die nicht der direkten äußeren
Beobachtung zugänglich sind, heißt auch Operationalisierung. Voraussetzung für
eine gelungene Operationalisierung ist eine Präzisierung der Inhalte und ihrer zen-
tralen Dimensionen im Rahmen einer Konzeptspezfikation (vgl. Abbildung III.19).
Werden empirische Informationen wie z.B. die Höhe des Einkommens durch Fra-
gen erhoben, so sind selbstverständlich auch diese Informationen für den Forscher
nicht direkt beobachtbar, weil diese Informationen in der Regel aus dem Gedächt-
nis des Befragten abgerufen werden müssen, es sei denn, objektive Informationen
wie Kontoauszüge oder Arbeitsverträge und ähnliche Materialien werden bei der
Beantwortung hinzugezogen. Obgleich es sich beim Einkommen um eine nicht
direkt beobachtbare Variable handelt, ist es dennoch prinzipiell beobachtbar. Die
Antwort auf eine direkte Frage nach dem Einkommens ist ein Indikator für die
Höhe des Einkommens. Letzteres hätte aber auch durch einen anderen Indikator
erhoben werden können, wie z.B. die Aufforderung, sich in Einkommenskategori-
en einzuordnen.
202 III.1 Fragen und ihre Bestandteile

Abbildung III.19: Konzeptspezifikation und Operationalisierung

Im Unterschied zum Einkommen gibt es Typen von Variablen, die nicht-empi-


rischer, rein theoretischer Natur sind und den theoretischen Begriffen der ana-
lytischen Wissenschaftstheorie entsprechen, die in Bezug auf Theoriensprachen
zwischen theoretischen Begriffen der theoretischen Sprache und Beobachtungsbe-
griffen der Beobachtungssprache unterscheidet. Beide sind durch sog. Korrespon-
denzregeln miteinander verbunden. Auf die damit verbundenen Probleme muss an
dieser Stelle nicht eingegangen werden (vgl. hierzu z.B. Stegmüller, 1984; Suppe,
1977).
Formal besteht der Vorgang der Operationalisierung in der Angabe einer oder
mehrerer theoretischer Konstruktvariablen und einer Menge von Indikatoren für
diese Variablen. Letztere stellen Messungen dar, die mutmaßlich von dieser Kons-
truktvariablen direkt beeinflusst werden. Im Fall einer Umfrage bestehen die Indi-
katoren in unter Verwendung von Fragen oder Items erhobenen Messungen (vgl.
Abbildung III.20). Die Indikatoren werden auch als empirische oder manifeste Va-
riablen bezeichnet.
III.1 Fragen und ihre Bestandteile 203

Abbildung III.20: Operationalisierung

Die Operationalisierung erfordert eine Entscheidung des Forschers darüber, wel-


che Fragen/Items als Indikatoren verwendet werden sollen. Das Ergebnis dieser
Entscheidung stellt zunächst nur ein Modell dar, das im Rahmen statistischer Ver-
fahren hinsichtlich seiner Eignung noch überprüft werden muss. Abbildung III.21
zeigt eine mögliche Operationalisierung der latenten Konstruktvariablen „Einstel-
lung zu Ausländern“.

Abbildung III.21: Operationalisierung „Einstellung zu Ausländern“


204 III.1 Fragen und ihre Bestandteile

Die Items wurden wiederholt in der Allgemeinen Bevölkerungsumfrage der Sozi-


alwissenschaften (ALLBUS) verwendet (zur ausführlichen Analyse dieser Items in
einer methodischen Zusatzstudie zum ALLBUS 1984 vgl. Bohrnstedt, Mohler &
Müller, 1987).
Ein weiteres Beispiel für eine Operationalisierung ist die Operationalisierung
des Konstrukts „Extrinsische Berufsorientierung“ durch Berufsmerkmale, die auf
einer Wichtigkeitsskala eingestuft werden sollten (vgl. z.B. Faulbaum, 1983, 1984,
1990; Abbildung III.22.).

Abbildung III.22: Operationalisierung „Extrinsische Berufsorientierung“

Wir kommen in Teil IV auf die Überprüfung von Operationalisierungen zurück.


Sie bilden sog. Messmodelle, die sich statistisch analysieren lassen.
III.1 Fragen und ihre Bestandteile 205

III.1.8 Von Fragen zum standardisierten Fragebogen

III.1.8.1 Allgemeine Charakterisierung

In standardisierten Interviews, die auf einer asymmetrischen Rollenverteilung von


Fragesteller und Respondenten basieren, dergestalt, dass ein Administrator nach-
einander Fragen stellt und der Befragte auf jede Frage antwortet, ohne dass der
Administrator mit dem Befragten in einen Dialog eintritt, werden die Fragen in
linearer Reihenfolge in einem Fragebogen schriftlich auf Papier oder auf einem
Bildschirm fixiert. Die Normalform eines Fragebogens in Paperform kann folgen-
dermaßen beschrieben werden:

Fragebogen = Deckblatt + Einleitung + Fragen + Instruktionen


Lässt man Deckblatt und Einleitung weg und beschränkt den Begriff des Fragebo-
gens auf Fragen und Instruktionen, so kann ein Fragebogen folgendermaßen cha-
rakterisiert werden:

Fragebogen = Fragen + Navigationsanweisungen.


Der Administrator eines Fragebogens kann ein menschlicher Administrator (der
Befragte selbst oder ein Interviewer) oder eine Befragungssoftware sein. Die Fi-
xierung der Fragenfolge bedeutet nicht, dass die Ausführung des Fragebogens im
Interview in der gleichen Reihenfolge erfolgt. Vielmehr können Filterfragen bzw.
Navigationsanweisungen dazu führen, dass die Reihenfolge mehr oder weniger
stark verändert wird. In diesem Sinn stellt der Fragebogen ein Programm dar, das
auch mit Filteranweisungen versehen sein kann und das schließlich von einem
Intepretierer der Anweisungen ausgeführt wird. Mehrere Filterfragen können zu
einer großen Menge möglicher Ablaufstrukturen (engl.: routing structures) des In-
terviews führen (vgl. Bethlehem, 1999; 2000, 2004).
Nachdem die Menge der in einer Umfrage zu stellenden Fragen festgelegt wor-
den ist, müssen folgende Entscheidungen getroffen werden:
• Einleitungstext: Wie soll der Befragten in das Interview eingeführt werden?
• Interviewer- und/oder Befragten-Instruktionen: Welche Informationen braucht
der Interviewer (bei Interviewer-administrierten Interviews ) oder der Befragte
(bei Selbst-administrierten Umfragen), um die Fragen zu bearbeiten? Welche
motivierenden Aussagen sollten einbezogen werden?
206 III.1 Fragen und ihre Bestandteile

• Festlegung der Fragensukzession: In welcher Reihenfolge sollen die Fragen ge-


stellt werden? Von den Antworten welcher Fragen soll die Präsentation der
nächsten Frage abhängen? Soll der Interviewer/Befragte die Möglichkeit ha-
ben, im Verlauf des Interviews auf früher gestellte Fragen zurückzukommen
(Zulassung des Zurückblätterns z.B. bei Webinterviews)?
• Deckblatt: Wie soll das Deckblatt bzw. die Eröffnungs- bzw. Startseite gestal-
tet sein? Welche Informationen sollen dort eingetragen werden (z.B. Befrag-
ten-Identifikationsnummer (Id), Interviewer-Id, Datum, Befragungsort bzw.
-region, Anfangs- und Endzeitpunkt des Interviews, Angaben zur Auswahl der
Person im Haushalt)?
Der erste Punkt betrifft die Frage, wie eine informative und gleichzeitig motivieren-
de Einleitung aussehen kann. Stellt die Einleitung gleichzeitig die Kontaktaufnah-
me dar, sollte sie auf eine Erhöhung der Teilnahmewahrscheinlichkeit ausgerichtet
sein und weitere grundlegenden Informationen über die Freiwilligkeit der Teilnah-
me und zum Datenschutz enthalten. Auch in dem Fall, wo die zuletzt genannten
Informationen bereits im Rahmen einer vorherigen Kontaktaufnahme gegeben
wurden, sollten die ensprechenden Aussagen zumindest in Kurzform noch einmal
wiederholt werden.
Der zweite Punkt bezieht sich auf die Instruktionen, die der Befragte und/oder
der Interviewer braucht, um korrekt mit den Antwortformaten umzugehen und
z.B. Skalenwerte korrekt zu platzieren, etc..
Der dritte Punkt bezieht sich auf die konkrete Reihenfolge der Fragen und auf
die Navigation durch das Interview. Zahlreiche Studien zeigen, dass die Sukzes-
sion der Fragen über Kontexteffekte Auswirkungen nicht nur Auswirkungen auf
die Datenqualität haben kann, sondern auch auf die Korrektheit der Interpretation
statistischer Ergebnisse. So zeigt, z.B. Bartels (2002) am Beispiel abnehmenden öf-
fentlichen Vertrauens in Wahlen, dass die Verlaufsformen in Trendstudien durch
Änderungen in der Fragesukzession erklärt werden können.
Der vierte Punkt bezieht sich auf die notwendigen Informationen zur Einfü-
gung des Falls in den Datensatz. Abbildung III.23 enthält ein Beispiel für die Ge-
staltung eines Deckblatts für einen Papierfragebogen einer Face-to-Face-Umfrage
ohne Computerunterstützung. Die Information auf dem Deckblatt zur Beteiligung
an einer Nachbefragung ist optional und dem Studiendesign geschuldet.
III.1 Fragen und ihre Bestandteile 207

Abbildung III.23: Beispiel für ein Deckblatt


208 III.1 Fragen und ihre Bestandteile

Ein Fragebogen wird im klassischen Fall Interviewer-administrierter Interviews


ohne Computeruntersützung als Papierfragebogen realisiert, der vom Intervie-
wer mündlich vorgetragen wird. Er hat in seiner „Normalform“ die in Abbildung
III.24 dargestellte Grobstruktur. Im Fall computerunterstützter Interviewer-admi-
nistrierter Interviews werden die Fragen auf dem Bildschirm in einer Reihenfolge
präsentiert, die von der Software in Abhängigkeit von den Antworten der Befragten
gesteuert wird. Die konkrete Festlegung der Fragereihenfolge sollte auf der Basis
verschiedener Überlegungen erfolgen. Der wichtigste Gesichtspunkt betrifft die
Vermeidung von Effekten der Fragereihenfolge auf das Antwortverhalten.

Abbildung III.24: Grobstruktur eines Fragebogens bei Face-to-Face-Umfragen ohne Com-


puterunterstützung (Papierfragebogen)
III.2 Von Fragen zu Antworten 209

III.2 Von Fragen zu Antworten

III.2.1 Frage-Antwortbeziehungen

Wird eine Frage gestellt, erhält man immer eine Reaktion, insofern man „keine
Reaktion“ zu den prinzipiell möglichen Reaktionen zählt. Nicht jede Reaktion ist
allerdings eine Antwort auf die Frage. Die Reaktionen der Befragten sind dabei
nicht durch den Fragetext allein bestimmt, sondern hängen vielmehr davon ab,
was die Befragten mit dem Fragetext anfangen. Unter einer rein funktionalen Be-
trachtungsweise wird die funktionale Beziehung zwischen Fragetext und Antwort
moderiert durch die körperlichen und psychischen Zustände der Befragten sowie
Vorgänge, die in den Befragten ablaufen (vgl. Abbildung III.25).

Abbildung III.25: Frage-Antwort-Beziehung

Diese Zustände können mehr oder weniger stabile oder auch veränderliche Eigen-
schaften der Befragten sein. Sie definieren z.T. auch, wie etwa im Fall der kognitiven
Fähigkeit, welche interne internen Vorgänge überhaupt möglich sind sowie die Art
und Weise ihrer Ausführung. Nicht immer spiegeln sich Zustände und Vorgänge
in äußerlich wahrnehmbaren Zeichen wie Aussehen, Mimik, Antwortzeiten, etc.,
so dass von zuverlässigen manifesten empirischen Indikatoren für dies Zustände
ausgegangen werden könnte.
Unterstellt man, dass der Fragetext im Sinne des Forschers interpretiert wurde
und die im Fragetext beschriebene Aufgabe verstanden wurde, so hängt die Reakti-
on nicht mehr von interpretativen Prozessen ab, so dass statt nach dem Zusammen-
210 III.2 Von Fragen zu Antworten

hang zwischen Fragetext und Reaktion nach dem Zusammenhang zwischen inter-
pretierten Fragetext bzw. der Aufgabe und der Reaktion gefragt werden kann. Trotz
aufrichtigen Bemühens der Befragungsteilnehmer um eine ernsthafte Lösung der
Aufgabe kann es hier bei bestimmten Aufgaben zu Verzerrungen von Antworten
kommen, die durch immer wieder empirisch bewährte Verhaltensregelmäßigkei-
ten und „Naturkonstanten“ bedingt sind. Beispiele für solche Aufgaben sind Häu-
figkeits- und Wahrscheinlichkeitsschätzungen.
Ein frühes Beispiel stellen die Ergebnisse einer Studie von Preston und Baratta
(1948) dar. Die Forscher fanden heraus, dass objektive Wahrscheinlichkeiten unter
0,05 überschätzt wurden, objektive Wahrscheinlichkeiten über 0.25 aber unter-
schätzt wurden. Zu ähnlichen Ergebnissen kamen auch andere Autoren wie Att-
neave (1953). Ein weiteres Beispiel für systematische Über- und Unterschätzungen
von Größen, ist die Überschätzung von Ereignisdauern durch Frauen (vgl. Loftus
et al., 1987). Diese Ergebnisse bedeuten, dass z.B. Antworten auf Fragen nach der
Wahrscheinlichkeit oder nach Ereignisdauern die objektiven Daten in der einen
oder anderen Richtung verzerrt wiedergeben.
Bei in Fragen gestellten Aufgaben, die objektive Intensitäten mit subjektiven In-
tensitäten verbinden, muss davon ausgegangen werden, dass die Antworten der Be-
fragten das psychophysische Gesetz von Fechner (1889) respektieren. Danach gilt:
R = ClogS.
In dieser Formel sind R eine quantitative Reaktion (z.B. ein quantitatives Urteil), C
eine Konstante und S ein quantitativer Reiz.
Gesetzmäßigkeiten dieser Art muss bei der Ergebnisinterpretation Rechnung
getragen werden. Sie sind durch besondere Maßnahmen wie Anpassungen der Fra-
geformulierungen nicht zu beeinflussen. Dagegen gibt es andere Verhaltensregel-
mäßigkeiten, denen durch Anpassung des Frage- und Antwortformats Rechnung
getragen werden kann wie z.B. Telescoping-Effekten oder Antworttendenzen wie
„Primacy“ oder „Recency“-Effekten (siehe unten).

III.2.2 Intervenierende Prozesse und Handlungen

Fragen und Antworten stehen wie im Alltag so auch im Interview in einer Verbin-
dung, die durch intervenierende Prozesse und Handlungen charakterisiert ist. Ant-
worten entstehen im Interview dadurch, dass eine Person in Übereinstimmung mit
den Regeln des standardisierten Interviews und den Konversationsregeln mit einem
Fragetext konfrontiert wird, in der eine Aufgabe beschrieben wird, die vom Befragten
III.2 Von Fragen zu Antworten 211

gelöst werden muss und als deren Ergebnis eine Selbstauskunft über einen subjektiv
wahrgenommenen und interpretierten Zustand in einem in der Frage vorgegebenen
Antwortformat erwartet wird, der in der Befragungssituation von den Befragten
möglicherweise erst konstruiert wird. Solche Zustände können sein: „Gedächtnisin-
halte“, „Erwartungen“, „Wahrnehmungen von Teilen der Außenwelt“, „Intensitäten
des Glaubens an das Eintreffen von Ereignissen“, „Schätzungen“ etc. Auch auf objekti-
ve Ereignisse und mutmaßliche Fakten bezogene Antworten sind als Indikatoren für
subjektive Zustände zu bewerten, da sie sich auf interne Repräsentationen beziehen,
wobei schon äußere Wahrnehmungen Repräsentationen darstellen.
Insofern sich zwischen Wahrnehmung des Fragetextes und Antwort interne
Handlungen und Prozesse im Befragten vollziehen, stellen Antworten Ergebnis-
se von Handlungen und Prozessen dar, die durch Fragetexte angestoßen wurden
(vgl. Abbildung III.26). Die intervenierenden Prozesse sind mit Ausnahme gewis-
ser nonverbaler Indikatoren (z.B. Minenspiel), nicht extern beobachtbar, sondern
höchstens der internen Selbstbeobachtung des Befragten zugänglich. Extern be-
obachtbar sind in der Regel nur der in einem spezfischen Mode realisierte Fra-
getext und die in einem spezfischen Mode erzeugten Antworten. Was sich zwi-
schen Fragetext und Antwort im Befragten ereignet, stellt aus Sicht des externen
Beobachters/Forschers eine Black Box dar, die durch hyothetische Annahmen über
Inhalt und Struktur aufgefüllt werden kann. Diese Annahmen haben in der Regel
die Form psychologischer Hypothesen über Prozesse, die in der Regel weitere psy-
chologische Theorien wie z.B. Gedächtnistheorien und Theorien der Informations-
verabeitung heranziehen (siehe unten).
Welche Art von Prozessen, kognitive oder emotionale, unbewusste oder be-
wusste, involviert sind, hängt u.a davon ab, wie die Frage verstanden wird, d.h. wie
der Befragte den Fragetext interpretiert (zur Frage, inwieweit bewusste Gedanken
Verhalten beeinflussen können, vgl. Baumeister, Masicampo & Vohs, 2011). Er-
zeugt die Frage im Sinne von Austin’s perlokutionären Akten emotionale Reaktio-
nen wie Angst, Wut, etc. sind emotionale Erregungsprozesse zumindest Bestandteil
des Prozesses der Antworterzeugung.
Auch unter der Bedingung, dass der Fragetext im Fokus der Aufmerksamkeit
des Befragten steht, muss davon ausgegangen werden, dass durch die Bitte um
Beantwortung einer Frage interne Prozesse im Befragten angestoßen werden, in
denen auch Informationen verarbeitet werden, die nicht allein den Fragetext be-
treffen sondern weitere situative Informationen wie Informationen über Inter-
viewermerkmale und Interviewerverhalten, Interviewsituation, etc. und deren
Bewertungen durch den Befragten. Eingabeinformationen können weiterhin das
eigene Antwortverhalten bei vorangegangenen Fragen sein sowie Veränderungen
aller Art, die sich im Verlauf des Interviewprozesses ergeben haben. Es muss also
212 III.2 Von Fragen zu Antworten

damit gerechnet werden, dass die Eingabeinformationen zum Zeitpunkt des Stel-
lens einer Frage nicht nur extern beobachtete Merkmale umfassen, sondern intern
gespeicherte Informationen über den bisherigen Verlauf des Interviewprozesses
sowie möglicher Veränderungen der Interviewsituation. Erst unter diesen Annah-
men werden bestimmte Effekte wie Effekte des Kontextes der Fragebeantwortung
erklärbar.

Abbildung III.26: Erzeugung einer Frage-induzierten Antwort

Voraussetzung für eine Antwort des Befragten auf den Inhalt einer Frage und
die Bewältigung der im Fragetext formulierten Aufgabe (z.B. Erinnerung eines ver-
gangenen Ereignisses, Bildung einer Meinung, etc.) ist, dass der Fragetext wahrge-
nommen und inhaltlich interpretiert wurde. Schon die Interpretationsleistung, d.h.
die Entschlüsselung der Bedeutung des Fragetextes und nicht nur die Lösung der
Aufgabe, erfordert mannigfaltige mentale Operationen. Aus Sicht des Forschers ist
relevant, dass das Ergebnis der Interpretationsleistung, d.h. das Frageverständnis,
mit dem Verständnis des Forschers übereinstimmt, bzw. dass die im Fragetext be-
schriebene und vom Forscher vorgesehene Leistung auf der Basis des Textverständ-
nisses vom Befragten identifiziert werden kann und keine vom Verständnis des
Forschers abweichende Interpretation erfolgt. Im Anschluss an die Interpretation
des Fragetextes durch den Befragten, können Reaktionen des Befragten erfolgen,
die aus Sicht des Forschers unerwünschte Nebeneffekte darstellen. Zu diesen Wir-
kungen gehören etwa die Verweigerung einer Antwort oder Verschiebungen der
III.2 Von Fragen zu Antworten 213

Antwort aus verschiedenen Ängsten, Bedenken, etc. wie Angst for Sanktionierung,
Angst vor Selbstenthüllung, Angst vor negativer Beurteilung, etc. In diesen Fällen
wird der Prozess der Beantwortung u.U. gar nicht erst initialisiert und eine Ant-
wort erzeugt, die keine Lösung der gestellten Aufgabe darstellt. Solche Wirkun-
gen werden eventuell durch bestimmte Merkmale der Kommunikationsform wie
z.B. Anwesenheit des Interviewers oder Frageformulierungen verstärkt oder abge-
schwächt; d.h. sie können durch die mit der Frage verbundenen Kommunikations-
form und den Ausprägungen ihrer Dimensionen „Übertragungskanal“, „Adminis-
trationsform“ und „Technologie“ in positiver oder negativer Richtung moderiert
werden.
Das Bestreben muss selbstverständlich sein, alle Einflüsse, die nichts mit der In-
tention der Frage zu tun haben, zu minimieren bzw. auszuschalten und die mögli-
chen Einflüsse auf die vom Befragten erzeugte Antwort auf den Fragetext und seine
Bedeutung zu beschränken, da für die Beantwortung der Forschungsfragestellung
allein die Operationalisierung von Konstrukten durch Fragen/Items und ihren Be-
deutungen relevant sein sollte. Dennoch empfiehlt es sich, das Design der Umfrage
so zu gestalten, dass eine Kontrolle von Nebeneffekten möglich wird. Wenn z.B.
eine sensitive Faktfrage zur Häufigkeit sexueller Aktivitäten gestellt wird, so muss
der Forscher daran interessiert sein, eine Häufigkeitsangabe zu erhalten, die nicht in
Richtung eines sozial erwünschten Verhaltens verschoben ist. Für eine Forschungs-
fragestellung, welche die soziale Erwünschtheit nicht explizit zum Forschungsthe-
ma macht, sind sensitive Wirkungen, die zu Antwortverschiebungen und damit
zu Erhöhungen des Messfehlers führen, Nebeneffekte, die es zu minimieren oder
auszuschalten gilt. Um dies zu erreichen, können bestimmte Maßnahmen ergriffen
werden wie die Desensitivierung des Fragetextes oder die Wahl einer geeigneten
Kommunikationsform (siehe Teil II).
Durch Zuordnung von Zahlen zu den Antworten des Befragten nach bestimm-
ten Regeln werden aus den Antworten Messungen unterschiedlicher Qualität (zu
den Details siehe Abschnitt IV). Diese Zahlen können entweder direkt im Ant-
wortformat vorgesehen sein und daher direkt vom Befragen geäußert werden oder
erst nach gegebener Antwort nachträglich zugeordnet werden. Da die Antworten
von Prozessen im Befragten abhängen, kann davon ausgegangen werden, dass die
Art und Weise, wie diese Prozesse durchlaufen werden, nicht nur einen Einfluss
auf die Antwort, sondern auch auf die durch Zahlen repräsentierte Messung hat.
Aus der Tatsache, dass die im Befragten ablaufenden Prozesse auch vom physi-
schen Zustand des Befragten abhängen, wird klar, dass die physische Verfassung
des Befragten ebenfalls einen Einfluss auf die Messung haben kann. Die internen
Prozesse des Befragten stellen insofern wichtige Determinanten des Messfehlers
(siehe Abschnitt IV) dar.
214 III.2 Von Fragen zu Antworten

III.2.3 Der Antwortprozess

Die während der Beantwortung einer Frage im Befragten ablaufenden menta-


len Prozesse werden oft in dem in Abbildung III.27 dargestellten Modell des Ant-
wortprozesses zusammengefasst (vgl. Tourangeau 1984, 1987; Tourangeau, Rips &
Rasinski 2000). Der Antwortprozess stellt eine der zahlreichen Möglichkeiten dar,
die Blackbox zwischen Fragetext und geäußerter Antwort durch kognitonspsycho-
logische Hypothesen auszufüllen. Um eine Frage beantworten zu können, muss die
Frage zunächst wahrgenommen werden. Dabei stellt die akustische oder visuelle
Wahrnehmung eines Fragetextes eine Leistung des Befragten dar, die nicht immer
ohne geeignete Bewegungen des Körpers und die Funktionsfähigkeit jenes Wahr-
nehmungsorgans erbracht werden kann, das den Übertragungskanal kennzeichnet,
über den die Frage kommuniziert wird. So erfordert die visuelle Wahrnehmung
eines Textes bei selbst-administrierten Fragen die Fähigkeit zu lesen und dafür
bestimmte Blickbewegungen auszuführen (vgl. hierzu Jenkins & Dillman 1997).
Das Hören einer Frage am Telefon erfordert, dass das Telefon an das Ohr gehalten
werden kann, dass das Telefon in der durch die Klingeldauer vorgegebenen Zeit
erreicht werden kann etc. Diese Beispiele zeigen, dass die Leistung eventuell nicht
von allen Befragten erbracht werden kann, sofern nicht vorher eine Anpassung der
Kommunikationsform an die Leistungsfähigkeit der Befragten erfolgt ist.
An der Erzeugung einer Antwort sind neben den zur Erbringung der Interpre-
tationsleistung notwendigen kognitiven Prozessen des Sprachverstehens inkl. des
Abrufs syntaktischen (grammatikalischen), semantischen und pragmatischen Wis-
sens und des Aufbaus semantischer Repräsentationen weitere Prozesse beteiligt.
Dazu gehören (1) Prozesse der Informationsgewinnung einschließlich des Abrufs
von Erfahrungen und Erinnerungen, etc. sowie Prozesse der Ereignisdatierung,
(2) Prozesse der Urteilsbildung einschließlich der Auswahl von Entscheidungsal-
ternativen und Prozesse der Informationsintegration sowie (3) die Schätzung ein-
schließlich eventuell geforderter Berechnungen. Schließlich muss die Antwort for-
matiert und die formatierte Antwort geäußert werden. Ob die gefundene Lösung
(Antwort) tatsächlich geäußert wird oder nicht, muss als bewusste Entscheidung
des Befragten angesehen werden, der diese Entscheidung noch einmal auf dem
Hintergrund möglicher Nachteile für sich selbst überprüft, wozu insbesondere die
Konsequenzen für sein Selbstkonzept (vgl. den Überblick über Selbst und Identi-
tät von Leary, 2007) gehören. Das dargestellte Modell kann in mehrerer Hinsicht
weiter detailliert, modifiziert werden. So ist davon auszugehen, dass für die Lösung
der im Fragetext erforderlichen Aufgabe weitere spezifische mentale Prozesse wie
z.B. Schlussfolgerungsprozesse, oder auch beobachtbare Handlungen wie z.B. das
Heraussuchen einer Rechnung bei Fragen zum Stromverbrauch oder eines Vertrags
III.2 Von Fragen zu Antworten 215

bei Fragen zur gesundheitlichen Absicherung, etc. erforderlich sein können. Ferner
ist in der Spezifikation der Bestandteile des Antwortprozesses noch nicht festge-
legt, wie die dargestellten Prozesse ausgeführt werden (z.B. parallel oder sequenti-
ell) und wie die Abläufe aufeinander bezogen sind. Im Rahmen der „dual proces-
sing“-Ansätze (vgl. Kahnemann & Frederick 2002; Stanovich 1999; Evans 2008)
wird etwa zwischen automatisch ablaufenden und bewusst ablaufenden Prozessen
unterschieden. Eine solche Unterscheidung hätte z.B. Konsequenzen für Annah-
men über die Fähigkeit der Befragten, mentale Prozesse bewusst abzubrechen.
Die in der Beschreibung des Antwortprozesses zur Anwendung kommenden
kognitionspsychologischen Modellvorstellungen basieren auf dem Paradigma der
Informationsverarbeitung, das sich, nicht zuletzt befördert durch Entwicklungen in
der Linguistik, Informatik und in der kognitiven Psychologie durchgesetzt hat und
auch in der Umfrageforschung zur Erklärung des Befragtenverhaltens herangezo-
gen wird (vgl. Hippler, Schwarz & Sudman 1987; Schwarz 1997, 2007; Tourangeau
1984, Tourangeau et al. 2000). Gigerenzer (1991) hat die Bildung dieses Paradigmas
als Weg von Werkzeugen zu Theorien charakterisiert. Fortschritte im Bereich der
neurophysiologischen Forschung und des Neuroimaging legen außerdem neuro-
physiologische Beschreibungen des Antwortprozesses nahe (vgl. z.B. Crites et al.,
1995). Grundsätzlich kämen statt kognitionspsychologischer Erklärungen des Ant-
wortverhaltens auch andere Erklärungsparadigmen, etwa neobehavioristische Pa-
radigmen in Betracht.
Unter dem Informationsverarbeitungsparadigma wird vermutet, dass die er-
folgreiche Beantwortung einer Frage die Realisierung aller aller Abbildung III.22
dargestellten Schritte voraussetzt. Es kann allerdings davon ausgegangen werden,
dass, obwohl eigentlich notwendig, nicht immer und nicht unter allen Bedingun-
gen alle Schritte durchlaufen werden. Beispiele sind spontane Antworten ohne wei-
tere Überlegungen, z.B. als Konsequenz von inhaltsunabhängigen Antworttenden-
zen bzw. Antwortstilen wie etwa der Jasagetendenz oder der inhaltsunabhängigen
Wahl der Mittelkategorie (vgl. z.B. Vaerenbergh & Thomas, 2013). Auch zufällige
willkürliche Antworten sind ein Beispiel. Ob eine Frage ernsthaft beantwortet wird
und die zur Beantwortung erforderlichen Prozesse durchlaufen werden, ist leider
nicht eindeutig durch Beobachtung prüfbar und kann auch nicht aus den Kon-
versationsregeln und einer impliziten oder expliziten Kooperationsvereinbarung
zwischen Interviewern und Befragten abgeleitet werden, sondern wird vom For-
scher vielmehr nicht selten auf Grund vermuteter Umstände wie z.B. Nachlassen
der Konzentration am Ende eines längeren Interviews oder mangelnder Motivation
einfach unterstellt, wenn datenanalytische Befunde Hinweise darauf ergeben.
216 III.2 Von Fragen zu Antworten

Abbildung III.27: Modell des Antwortprozesses

Voraussetzung für das Durchlaufen des Antwortprozesses ist, dass der Versuch
unternommen wird, die Frage ernsthaft zu beantworten. Ob dies der Fall ist, lässt
sich an der Antwort auch dann nicht erkennen, wenn sie zulässig bzw. adäquat ist.
Die Zulässigkeit bzw. Adäquatheit einer Antwort, d.h. die beobachtete Überein-
stimmung der Antworten mit dem vorgegebenen Format ist zwar ein notwendiger,
aber nicht hinreichender Indikator für die Ernsthaftigkeit der Fragebeantwortung.
Hinreichend ist sie darum nicht, weil der Befragte eine adäquate Antwort geben
könnte, ohne dass ein erfolgreicher Lösungsversuch der im Fragetext beschriebe-
nen Aufgabe vorliegt und die in der Frage geforderte Leistung erbracht wurde (vgl.
Krosnick 1991; Krosnick & Alwin 1987).
Verschiedene Analysen des Problems der sog. Nonattitudes (vgl. Converse 1964)
zeigen, dass Befragte in Einstellungsfragen eine Meinung äußern, also eine adäqua-
III.3 Einflüsse auf das Antwortverhalten 217

te Antwort geben, auch wenn sie gar keine Meinung haben (vgl. auch Bishop, Ol-
dendick & Tuchfarber 1980; Krosnick et al. 2002). Auch andere Arten adäquater
Antworten werden eventuell nur deshalb gegeben, weil z.B. Nichtwissen verschlei-
ert werden soll. Andererseits zeigen Studien, dass die Wahl von in den Antwortvor-
gaben vorgesehenen „weiß-nicht“-Kategorien kein wirkliches Nichtwissen wider-
spiegelt, sondern auch dann erfolgt, wenn der Antwortprozess unvollständig oder
gar nicht durchlaufen wurde (weak oder strong satisficing, vgl. Abschnitt III.3.1.1).
Die formale Schematisierung des zwischen Frage und Antwort intervenieren-
den Antwortprozesses sollte nicht darüber hinwegtäuschen, dass das Stellen einer
Frage den Eintritt in die soziokulturell geprägte Lebenswelt des Befragten bedeutet,
und dass die Art und Weise ihres möglichen Einflusses auf den Antwortprozess
noch nicht voll verstanden ist.

III.3 Einflüsse auf das Antwortverhalten

III.3.1 Aspekte der Antwortqualität

III.3.1.1 Die Adäquatheit von Antworten

Antworten auf eine Frage können sich in ihrer Qualität unterscheiden. Eine Mi-
nimalvoraussetzung für eine gute Antwortqualität ist die, dass die verbale Reak-
tion des Befragten auf die Präsentation des Fragetextes einer der zulässigen Ant-
wortalternativen entspricht. Wir wollen die Reaktion in diesem Fall eine adäquate
Antwort nennen (zum Begriff der Adäquatheit vgl. auch Sykes & Collins, 1992).
Dagegen stellt die Reaktion eines Befragten eine nicht-adäquate Antwort dar, wenn
sie nicht zu den zulässigen Antwortalternativen gehört. Zu den nicht-adäquaten
Antworten können gerechnet werden:
218 III.3 Einflüsse auf das Antwortverhalten

• Fehlende Antworten durch Überlesen/Überhören von Fragen;


• Antwortverweigerungen;
• Nicht zu den zugelassenen Antwortalternativen gehörende Antworten wie
„weiß nicht (engl.: don’t know; kurz: DK)“, „keine Meinung (engl.; no opinion
bzw. „non attitude)“ oder „trifft nicht zu“;
• Ungenaue oder unvollständige Antworten (z.B. „prima“ statt „sehr gut“, vage
Antworten wie „ungefähr 10 Tage“), Rundungsfehler bei numerischen Anga-
ben;
• Spontane Kommentare statt einer Antwort (z.B. „Das ist aber eine schwierige
Frage“, „Die Frage verstehe ich nicht“, „Es ist unverschämt, mir eine solche Fra-
ge zu stellen“, etc.);
• Voreilige Antworten (Antworten, die sich nicht auf den vollständigen Fragetext
beziehen können, da der Befragte ihn gar nicht vollständig wahrgenommen
hat).

Bei einigen nicht-adäquaten Antworten wie z.B. ungenauen Angaben kann


durch den Einsatz neutraler Nachfragetechniken versucht werden, den Befragten
schließlich zu einer adäquaten Antwort zu bewegen und somit eine Korrektur der
Nicht-Adäquatheit zu erreichen (vgl. Prüfer & Stiegler, 2002). Die oben aufgeführ-
ten Arten nicht-adäquater Antworten beziehen sich nur auf geschlossene Fragen.
Bei offenen Fragen sollten die Angaben in einem sinnvollen Zusammenhang mit
der Frage stehen.
„Weiß nicht“-Alternativen beziehen sich auf Faktfragen. Bei ihnen wie auch
bei „keine Meinung“-Antworten ergibt sich die Frage, ob man sie explizit zulas-
sen soll, indem man eine entsprechende Kategorie als Antwortalternative ein-
führt oder nicht. Wird keine „Weiß nicht“-Kategorie vorgesehen, können solche
„weiß nicht“-Antworten nur spontan außerhalb der zulässigen Antwortalternati-
ven geäußert werden. Es gibt Hinweise, dass bei fehlender Aufnahme in die Men-
ge der zulässigen Antwortalternativen die Zahl der substantiellen Antworten bei
Fakt-Fragen steigt (vgl. Poe et al., 1988). Es gibt auch empirische Hinweise dafür,
dass die explizite Zulassung von „weiß nicht“-Antworten die Validität der Mes-
sungen reduziert und den Messfehler erhöht (vgl. Rodgers, Andrews & Herzog,
1992). DK-Antworten sind nicht nur von der Frage, sondern auch vom Befragten
abhängig. So haben Analysen gezeigt, dass Befragte, die DK-Antworten geben, eher
weiblich, weniger gebildet und eher älter sind sowie den niedrigeren Einkommens-
gruppen angehören (vgl. die Übersicht in Feick,1989). Feick (op. cit.) zeigt, dass die
Nichtberücksichtigung von DK-Antworten in statistischen Modellen zu inhaltli-
chen Fehlinterpretationen führen kann. Besondere Aspekte ergeben sich bei We-
bumfragen. Dort kann man entweder explizit eine DK-Option vorsehen oder aber
III.3 Einflüsse auf das Antwortverhalten 219

die DK-Alternative implizit durch eine „prompt“-Option realisieren, d.h. durch


einen eingestreuten Hinweis auf das Interesse an einer Antwort des Befragten und
die Möglichkeit, zur nächsten Frage überzugehen, wenn er keine Antwort geben
will und auf die vorherige Frage zurückzugehen, wenn er doch antworten will. Es
gibt empirische Hinweise dafür, dass man vollständigere Fragebögen erhält, wenn
man die „prompt“-Option wählt (vgl. DeRouvray & Couper, 2002).
„Weiß nicht“-Antworten bei Faktfragen entsprechen den „Keine Meinung“-Ant-
worten bei Einstellungsfragen. Bei „keine Meinung“-Antworten ist nicht immer
klar, was sie bedeuten. Genauso, wie es Befragte geben kann, die eine Meinung
äußern, ob wohl sie keine haben (engl.: non-attitude; vgl. Converse, 1964, 1970; für
empirische Nachweise vgl. Bishop et al., 1980; Schuman & Presser, 1981), ist auch
mit dem Gegenteil, d.h. mit falsch negativen Antworten zu rechnen; d.h. Befragte,
die keine Meinung äußern, haben doch eine Meinung (vgl. Gilljam & Granberg,
1993). Es gibt empirische Hinweise dafür, dass „keine Meinung“-Antworten über
die Zeit hinweg nicht stabil sind und daher eventuell bedeuten, dass die Meinung
unsicher ist (vgl. Duncan & Stenbeck (1988). Mit einer expliziten Vorgabe einer
„keine Meinung“-Option soll eigentlich verhindert werden, dass Befragte, die kei-
ne Meinung haben, sich weniger unter Druck fühlen, dennoch eine Meinung zu
äußern. Damit verbunden ist die Erwartung, dass eine Erhöhung der Validität der
Antworten erreicht wird. Wird eine solche Option angeboten, so scheint der Anteil
der „keine Meinung“-Antworten höher zu sein als der Anteil der freiwillig geäu-
ßerten Angabe „keine Meinung“ (vgl. z.B. Bishop, Oldendick & Tuchfarber, 1983).
Krosnick et al. (2002) haben die Wirkungen von unterschiedlichen Versionen
expliziter „keine Meinung“-Optionen experimentell unter dem Gesichtspunkt un-
tersucht, dass sie Befragte auch dazu einladen könnten, die zur Beantwortung der
Frage notwendigen kognitiven Prozesse abzukürzen oder gar nicht erst zu durch-
laufen. Sie fanden höhere Anteile von „keine Meinung“-Angaben bei Befragten mit
geringeren kognitiven Fähigkeiten, bei Befragten, die ihre Meinung nicht münd-
lich, sondern Selbst-administriert geben, bei Fragen, die erst spät im Interview
gestellt werden oder bei geringer Motivation. Diese Befunde sprechen dafür, dass
„keine-Meinung“-Äußerungen durch Satisficing und die Vermeidung von An-
strengung bei der Fragebeantwortung erklärt werden können und viele Befragte
dennoch eine Meinung haben. Die Befunde von Bishop, Oldendick & Tuchfarber
(1986) in Bezug auf fiktive Items, bei denen klar ist, dass es keine vorgefasste Mei-
nung geben kann, zeigen, dass ein bedeutender Anteil von Befragten eine Meinung
äußert, obwohl er objektiv keine Meinung haben kann.
Erklärungen für das Auftreten nicht-adäquater Antworten wie DKs können den
Einsatz nicht-statistischer, eher explorativer Methoden des kognitiven Interviews
220 III.3 Einflüsse auf das Antwortverhalten

erfordern wie spezifische Probing (Nachfrage)-Verfahren, mit denen untersucht


wird, wie der Respondent zu seiner Antwort gekommen ist (vgl. Alwin, 2014).

III.3.1.2 Messtheoretische Qualität der Antwort

Zentral für die Qualitätsbeurteilung einer Antwort auf eine Frage bzw. der Einstu-
fung eines Items sind die Gütekriterien der auf einer adäquaten Antwort beruhenden
Messung (zum Begriff der Messung und ihrer Gütekriterien der Validität und Reli-
abilität vgl. Teil IV; vgl. auch Alwin, 2007, 2011, 2014). Die Gütekriterien betreffen
vor allem die Rolle der Frage-Antwort-Dyaden als Indikatoren für die zu messen-
den Konstrukte. Grundsätzlich können aber auch nicht-adäquate Antworten eine
Validität und eine Reliabilität aufweisen. Nur messen sie in der Regel nicht die vom
Forscher intendierten Konstrukte. So können etwa Antwortverweigerungen Indi-
katoren für unterschiedliche Konstrukte der Sensitivität, das Konstrukt der sozi-
alen Erwünschtheit, die physische Konstitution, die Konzentrationsfähigkeit, etc.
messen, oder auch das Ausmaß des Vorbehalts bzw. der Widerwilligkeit gegen die
Inhalte der Studie insgesamt. Ähnliches gilt für die übrigen Typen nicht-adäquater
Antworten. Voreilige Antworten können auf bestimmte habitualisierte Verhaltens-
weisen hindeuten, die auch in anderen kommunikativen Situationen des Alltags
beobachtbar wären und somit eher Indikatoren für Persönlichkeitsmerkmale wä-
ren.
Optimale Reliabilität hätte eine Antwort auf eine Frage dann, wenn sie als beob-
achtete Messung nicht vom wahren Wert abweicht, also in Bezug auf den wahren
Wert keine Verzerrung beinhaltet. Beispiele für Messfehler bei kategorialen Mes-
sungen und kategorialen wahren Werten sind Fehlklassifikationen (engl.: misclassi-
fications) bzw. falsche Einordnungen von Antworten in Kategorien (z.B. Fehler bei
der Einordnung des Nettoeinkommens in vorgegebene Einkommenskategorien).
Bei metrischen Skalen besteht der Messfehler in quantitativen Abweichungen vom
wahren Wert auf einer Antwortdimension wie Verschiebungen von Zufrieden-
heitsurteilen, Zustimmungsurteilen, etc. Eine mögliche negative Folge des Mess-
fehlers besteht in einer Gefährdung der Umfragequalität durch seinen Einfluss auf
die Parameterschätzungen (vgl. z.B. Sakshaug, Yan & Tourangeau, 2010).
Ist eine Antwort adäquat, so lässt sich ihre messtheoretische Qualität in der Re-
gel für den einzelnen Fall nicht beurteilen. Erst in der statistischen Analyse des
Datensatzes kann sich eventuell ergeben, dass adäquate Antworten auf eine Fra-
ge eine mangelnde Reliabilität und Validität aufweisen. Werden die Axiome der
klassischen Mess- bzw. Testtheorie unterstellt (vgl. Teil IV), so lässt sich der Mit-
telwert der beobachteten Werte in der Stichprobe als Schätzer für den Mittelwert
III.3 Einflüsse auf das Antwortverhalten 221

der wahren Werte in der Population verwenden. Im Rahmen eines entsprechenden


Auswertungsdesigns kann der Mittelwert einer beobachteten Variablen als „grand
mean“ betrachtet werden, von denen Gruppenmittelwerte wie z.B. Interviewer-spe-
zifische Mittelwerte, d.h. Mittelwerte der Messungen innerhalb eines Interviewers,
mehr oder weniger stark abweichen können. Solche Analysen können eingesetzt
werden, um Effekte von Einflussfaktoren wie Interviewern auf den Mittelwert der
wahren Messungen zu untersuchen.
Eine wichtige Voraussetzung für die messtheoretische Qualität ist neben dem
Vorliegen einer adäquaten Antwort die, dass die Antwort die beobachtete Konse-
quenz eines ernsthaften Versuchs ist, die im Fragetext formulierte Aufgabe zu lösen
und zu kommunizieren. Dies ist die Voraussetzung dafür, dass die Antwort aus
Sicht des Befragten die bestmögliche Antwort, eventuell sogar eine wahre Antwort
darstellt.
Ob dies der Fall ist, lässt sich nicht allein auf Basis des Merkmals der Adäquatheit
oder statistischer Analysen der Gütekriterien beurteilen. Zwar stellen nicht-ad-
äquate Antworten wie z.B. Antwortverweigerungen offensichtliche Beeinträchti-
gungen der Qualität dar. Jedoch kann sich hinter mancher adäquaten Antwort wie
z.B. einer Meinungsäußerung oder der Nennung eines Faktums statt einer vorhan-
denen Meinung oder vorhandenen Wissens Meinungslosigkeit, Nichtwissen, etc.
verbergen, die der Befragte nicht zugeben will. In diesem Fall mag der Befragte sich
weigern, die wahre Antwort mitzuteilen, obwohl sie möglich gewesen wäre.
Das Problem der Qualitätsbewertung einer Antwort ist eben nicht so sehr die
offen erkennbare Nicht-Adäquatheit, sondern eher scheinbar zulässige, aber den-
noch fehlerhafte Angaben. Ein Beispiel hierfür sind Rundungsfehler (engl.: rounding
errors) bei Schätzungen (vgl. Huttenlocher, Hedges & Bradburn, 1990), die zwar
zulässige Werte darstellen, aber dennoch verzerrt sind. Weitere Beispiele sind die
oben bereits erwähnten Antworten als Ausdruck von Verhaltensregelmäßigkeiten
und Verhaltensgesetzmäßigkeiten. Beispiele sind neben den oben erwähnten Bei-
spielen auch sog. Telescoping-Effekte, die bei Erinnerungsaufgaben auftreten kön-
nen (vgl. Neter & Waksberg 1964) So können Ereignisse als näher am Datum des
Interviews liegend (engl.: forward telescoping) oder ferner als am Datum des Inter-
views liegend (backward telescoping) erinnert werden. Ereignisse können irrtüm-
licherweise außerhalb einer Referenzperiode liegend (engl.: external telescoping)
oder innerhalb einer Referenzperiode liegend (engl.: internal telescoping) datiert
werden. Diese Fehler werden umso größer, je weiter ein Ereignis zurückliegt. In
jedem Fall werden die Genauigkeit und auch die Zuverlässigkeit der gelieferten
Information beeinträchtigt.
222 III.3 Einflüsse auf das Antwortverhalten

III.3.2 Leistungsanforderungen, Leistungsvermögen und Leis-


tungsbereitschaft

Das Antwortverhalten und die Qualität einer Antwort werden maßgeblich durch
die Aspekte „Leistungsanforderungen“, „Leistungsfähigkeit“ und „Leistungsbereit-
schaft“ (auch: „Leistungsmotivation“) sowie die mit ihnen zusammenhängende in-
dividuelle Arbeitsbelastung mitbestimmt. Wie bereits an früherer Stelle mehrfach
erwähnt, beschreibt jeder Fragetext eine Aufgabe, die vom Befragten bewältigt
und einer Lösung zugeführt werden muss. In einem dem Paradigma der Infor-
mationsverarbeitung folgenden Modell des Antwortprozesses werden die dafür er-
forderlichen mentalen Teilleistungen spezifiziert, die je nach Aufgabe und je nach
Befragtem unterschiedlich ausgeführt werden, indem unterschiedliche Informati-
onen, z.B. unterschiedliche Gedächtnisinhalte, abgerufen werden, unterschiedliche
Bewertungen vorgenommen werden und unterschiedliche Urteile gebildet werden.
Jede Frage stellt für die Befragten eine Aufforderung zur Erbringung einer Leis-
tung dar, die zu einer Antwort aus der Menge der Antwortalternativen führt und in
deren Ernsthaftigkeit der Forscher Vertrauen investiert. Je nach Komplexität der zu
erfüllenden Aufgabe stellt eine Frage mehr oder weniger hohe Anforderungen an
die zu erbringende Leistung. Die Art der im Fragetext beschriebenen Leistung be-
stimmt auch, ob die vom Forscher intendierte Leistung überhaupt erbracht werden
kann. So darf angenommen werden, dass die Antwortqualität auch eine Funktion
der Diskrepanz zwischen den Leistungsanforderungen der Frage und den Leis-
tungen ist, die der Befragte tatsächlich erbringt bzw. überhaupt erbringen kann.
Welcher Leistungsanteil an den Leistungsanforderungen realisiert wird, hängt ei-
nerseits vom grundsätzlichen Leistungsvermögen, andererseits von der Leistungs-
bereitschaft ab, d.h. von der Bereitwilligkeit und Motivation, die erforderlichen
Leistungen, soweit es das grundsätzliche Leistungsvermögen zulässt, zu realisieren.
Die für die Beantwortung einer Frage zu erbringenden Leistungen lassen sich in
drei Leistungsarten zerlegen:

• die Interpretationsleistung, d.h. das Verstehen der im Fragetext formulierten


Aufgabe;
• die zur Lösung der im Fragetext beschriebenen Aufgabe zu erbringenden Leistung;
• die zur Formatierung und Äußerung der Antwort zu erbringenden Leistungen
(z.B. verbale Fähigkeit, Handhabung des Antwortformats).

Diese Leistungen können entsprechend der Stufen des Antwortprozesses (vgl.


Abbildung III.22) noch einmal ausdifferenziert werden. Jede Frage stellt beson-
dere Anforderungen an die Interpretationsleistung, die zur Lösung der Aufgabe
III.3 Einflüsse auf das Antwortverhalten 223

erforderlichen Leistungen und die zur Formatierung und Äußerung der Antwort
notwendigen Leistungen. Sie trifft zu einem bestimmten Befragungszeitpunkt an
einer wohl definierten Stelle im Interview auf einen Befragten, der sich in einem
in der Regel dem Forscher nicht bekannten physischen, psychischen und sozio-
kulturellen Zustand befindet. Dieser bestimmt die Leistungsfähigkeit sowie die
Leistungsbereitschaft zu diesem Zeitpunkt. In Bezug auf jede für die Erfüllung der
Interpretationsleistung und der für die Lösung der im Fragetext beschriebenen
Aufgabe geforderten Teilleistungen kann das Leistungsvermögen auf Grund orga-
nischer, psychischer und/oder sozialer Bedingungen beeinträchtigt sein, die durch
Veranlagung, Krankheit. altersbedingten organischen Abbau und Sozialisation
einschließlich der sozialen und kulturellen Lernprozesse verursacht sein können.
Aber auch die Anstrengungen durch jenen Teil des Interviews, der vor einer Fra-
ge liegt könnten die Leistungsfähigkeit zu diesem Zeitpunkt beeinträchtigen. Geht
man von einer gewissen Verbreitung leicht oder schwer dementer Personen in der
Bevölkerung aus, die noch selbstständig zuhause leben, wird man stets auch einen
Anteil solcher Personen als Befragte in einer allgemeinen Bevölkerungsumfrage
wiederfinden.
Betroffen sein können die zum Verstehen notwendige Fähigkeit, semantisches
und syntaktisches Wissen aus dem Gedächtnis abzurufen, Fähigkeiten zur Zwi-
schenspeicherung von Informationen im Kurzzeitgedächtnis, der Abruf von Daten
aus dem autobiographischen Gedächtnis (siehe Schwarz & Sudman 1993; Park &
Schwarz 2000). Solche Fähigkeiten können durch verschiedene Faktoren wie Al-
ter und durch den Forscher und die Administratoren nicht feststellbare Demenz,
Krankheit, etc. eingeschränkt sein (zu den möglichen neurophysiologischen Ein-
schränkungen im Alter vgl. die entsprechenden Beiträge in Park & Schwarz ebda).
Nachlassende kognitive Fähigkeiten können dazu führen, dass vorgegebene Ant-
wortkategorien nicht im Gedächtnis gespeichert werden können, mit der Folge von
„Primacy“- und „Recency“-Effekten (siehe unten).
Grundsätzlich kann es zum Zeitpunkt des Stellens einer Frage zu einem Missver-
hältnis zwischen den Leistungsanforderungen der Frage und der tatsächlich erbrach-
ten Leistung kommen. Dieses Missverhältnis kann entweder dadurch entstehen,
dass die Leistungsanforderungen der Frage im Verhältnis zum Leistungsvermögen
des Befragten zum Zeitpunkt der Frage zu hoch sind oder dass die erbrachte Leis-
tung nicht ausreichend ist. Sind die Leistungsanforderungen der Frage hoch, so
können Überforderung und Belastung (engl.: work load) mit der Folge nachlassender
Konzentration des Befragten die Folge sein. Auch wenn die Leistungsanforderun-
gen erfüllbar wären, kann es auf Grund mangelnder Leistungsmotivation zu einem
nachlässigen Antwortverhalten kommen. Motivationsdefizite können u.a. durch
mangelndes Interesse am Inhalt der Frage oder am Thema der Umfrage bedingt
224 III.3 Einflüsse auf das Antwortverhalten

sein. Aber auch die Widerwilligkeit der Befragten, überhaupt am Interview teilzu-
nehmen, lässt, wie Analysen der Antwortqualität bei Befragten zeigen, die nur mit
großem Aufwand zur Teilnahme überredet werden konnten, Motivationsdefizite
erwarten, die zu nachlässigem Antwortverhalten führen und die Antwortqualität
reduzieren (vgl. z.B. Fricker & Tourangeau, 2010; Olson, 2013). Die Auswirkungen
der Widerwilligkeit (engl.: reluctance) werden im Abschnitt über Maßnahmen zur
Reduktion von Unit-Nonresponse detaillierter besprochen (siehe Teil VII).
Bei Ermüdung durch Belastungen, nachlassende Konzentration, mangelnde
Motivation, oder aber auch auf Grund von habitualisierten Verhaltensweisen, be-
steht die Gefahr, dass Befragte zu bestimmten Antwortstrategien (auch: Antwortsti-
le, Antworttendenzen; engl.: response strategies oder response styles) übergehen (vgl.
z.B. Vaerenbergh & Thomas, 2013; Kieruj & Moors, 2010). Beispiele sind:

• Inhaltsunabhängige Zustimmungstendenz (Akquieszenz; engl.: acquiescence);


• Ratetendenz, d.h. zufällige Auswahl einer Antwort;
• Bevorzugung bestimmter Kategorien (Extremkategorien, Mittelkategorie);
• Bevorzugung von Geschwindigkeit vor Genauigkeit (vgl. z.B. kürzere Antwort-
zeiten bei Jüngeren in Web Surveys, vgl. Zhang & Conrad, 2013)
• Primacy- und Recency-Effekte (Nennung der ersten oder letzten Antwortal-
ternative);
• Straightlining: Ankreuzen der immer gleichen Antwort.

Auch andere Strategien wie regelmäßiger Wechsel zwischen verschiedenen Ska-


lenwerten („Nun habe ich zwei Mal eine 1 gewählt, also wähle ich zur Abwechs-
lung mal eine 2) sind möglich. Mit nachlassender Motivation, Konzentration oder
Ermüdung auf Grund von Belastungen durch zahlreiche vorangegangene Fragen
kann die Durchführung der geforderten Leistungen bzw. der zur Erfüllung der Auf-
gabe notwendigen mentalen Aktivitäten ganz oder teilweise unterbleiben. Krosnick
(1991, 1999) hat für diesen Effekt den Ausdruck satisficing eingeführt. Darunter ist
die Neigung der Befragten zu verstehen, zur Beantwortung der Frage notwendige
kognitive Prozesse abzukürzen oder ganz einzustellen. Von schwachem satisficing
(weak satisficing) kann gesprochen werden, wenn Befragte einen Teilprozess des
Antwortprozesses abkürzen, von starkem satsificing (strong satisficing), wenn ein
Teilprozess (z.B. retrieval) vollständig übersprungen wird. Satisficing tritt vor allem
bei geringer Motivation oder Motivationsverlust, bei Ermüdung, bei schwierigen
Fragen und Aufgaben oder, damit zusammenhängend, bei mangelnder Fähigkeit
auf. Ein Grund kann z.B. ein sehr langes Interview sein, in dessen Verlauf die Per-
sonen auf Grund der Belastung zunehmend ermüden und die Motivation verlieren.
III.3 Einflüsse auf das Antwortverhalten 225

Ein Verlust der Leistungsmotivation (engl.: achievement motivation) kann zu einer


Leistungsminderung oder sogar zu einer Leistungsverweigerung führen.
Eine allgemeine Bevölkerungsumfrage, die alle Alters- und Bildungsgruppen
einbezieht, muss mit alters- und bildungsbezogenen physischen und kognitiven
Leistungsminderungen rechnen. Das Nachlassen kognitiver Fähigkeiten wie die
frühzeitig nachlassende Funktionsfähigkeit des Kurzzeitgedächtnisses und der
Rückgang der Fähigkeit, komplexe Sachverhalte zu verstehen sind Phänomene, mit
denen in einer allgemeinen Bevölkerungsumfrage gerechnet werden muss, wobei
diese Phänomene in ihren Auswirkungen durch verschiedene Faktoren wie Kom-
munikationsformen und situative Bedingungen moderiert sein können. Analysen
von Krosnick et al. (2002) zeigen, dass mangelnde kognitive Fähigkeiten bei Be-
fragten, die anonym statt dem Interviewer gegenüber mit Stimme antworten, zu
einer Steigerung der „no opinion“-Antworten führen und dass dies eher der Fall ist,
wenn die Fragen später im Interview gestellt werden und wenn die Befragten sich
weniger anstrengen, die Frage zu beantworten. Analysen von Holbrook, Green &
Krosnick (2003) ergaben ein höheres Ausmaß an Satisficing bei Telefonumfragen,
dokumentiert durch eine stärkere Jasage-Tendenz. Auch ein weniger starkes En-
gagement der Befragten bei Telefonumfragen war in der Studie zu beobachten. Als
eines ihrer zentralen Ergebnisse halten die Autoren fest, dass Satisficing bei Telefo-
ninterviews, besonders bei weniger Gebildeten, stärker auftritt als bei Face-To-Fa-
ce-Interviews. Auch wenn die Effekte eher gering ausfielen, schienen Telefon-Be-
fragte argwöhnischer, weniger kooperativ und weniger an der Umfrage interessiert.
Auch mangelndes Interesse kann sich im Verlauf des Interviews steigern und zu
einer verminderten Datenqualität bis zum Abbruch führen, wie Galesic (2006) bei
Webinterviews herausfand.
Da das Leistungsvermögen mit steigendem Alter im Durchschnitt der Bevölke-
rung abnimmt und auf Grund des demographischen Wandels mit einer Zunahme
des Anteils älterer Personen zu rechnen ist, wird der Anteil von Befragten mit ent-
sprechenden kognitiven und physischen Einbußen weiter ansteigen.
Die unterschiedlichen Ausprägungen möglicher Leistungsunterschiede in der
Bevölkerung müssen als eine der zahlreichen möglichen Ursachen unbeobachteter
Heterogenität betrachtet werden. Dazu gehören auch unterschiedlich ausgeprägte
Fähigkeiten. Es ist davon auszugehen, dass dieses Vermögen in Teilgruppen der
Gesellschaft unterschiedlich ausgeprägt und über Beobachtung nicht feststellbar
ist. Dessen Einfluss wird wiederum moderiert durch Merkmale der Kommunika-
tionsform, in der die Frage gestellt wird. So hängt die Beantwortung von Fragen in
Selbst-administrierte Befragungsarten mehr oder weniger von der Schreib- und
Lesefähigkeit ab, die in allen Bevölkerungsgruppen ähnlich stark ausgeprägt ist.
Ähnliches gilt für andere Merkmale der Sprachkompetenz wie die Fähigkeit, die
226 III.3 Einflüsse auf das Antwortverhalten

Bedeutung von Worten zu erkennen. So könnte eine Frage Begriffe enthalten, die
nur im Rahmen einer Gymnasialausbildung gelernt werden können oder nur in
Familien mit einem entsprechenden soziokulturellen Kontext.
Grundsätzlich ließe sich das Ausmaß der durch unterschiedliche Leistungsfä-
higkeit bedingten unbeobachteten Heterogenität wie bei anderen Merkmalen auch,
im Rahmen von Mischverteilungsmodellen statistisch analysieren und schätzen
(zur Anwendung von Mischverteilungsmodellen vgl. z.B. Arminger & Stein, 1997;
Faulbaum & Stein, 2000).

III.3.3 Sensitive Wirkungen von Fragetexten

III.3.3.1 Formen sensitiver Wirkungen

In Abschnitt III.1 hatten wir Fragen als Sprechhandlungen definiert, die auf unter-
schiedliche Weise ausgeführt werden können. Jede konkrete Realisation einer Fra-
ge ist untrennbar mit einer bestimmten Formulierung (question wording), einem
bestimmten Mode, d.h. einer bestimmten Administrationsform, einem bestimm-
ten Übertragungskanal und einer bestimmten Technologie sowie deren Merkma-
len verbunden. Außerdem ist eine konkrete Ausführung nicht unabhängig von der
konkreten Ausgestaltung der Äußerungen von Fragen zu sehen, die im Fall der
Interviewer-Administration stimmlich gestaltet sind und im Fall der Selbst-Admi-
nistration mit einem bestimmten Layout verbunden ist.
Es gibt in der einen oder anderen Kommunikationsform vorgetragene Frage-
oder Itemtexte, die mitunter sensitive Wirkungen im Befragten erzeugen und damit
das Antwortverhalten in bestimmter Weise beeinflussen. Fragen, die oft sensitive
Wirkungen erzeugen können, werden auch als sensitive Fragen/Items bezeichnet. Es
gibt ferner spezifische Zielpopulationen, bei denen von vornhinein angenommen
werden muss, dass sie auf bestimmte Fragen sensitiv reagieren. Ein Beispiel hierfür
sind Opfer- bzw. Viktimisierungsstudien (vgl. Lynch, 1993; Skogan, 1986). Ein Bei-
spiel für einen Viktmisierungssurvey ist der National Crime Victimization Survey
(NCVS) des amerikanischen Bureau of Justice Statistics (www.bjs.gov/).
Sensitive Fragen sind nicht nur in der Lage, die Antwortqualität in Form
nicht-adäquater Antworten, sondern auch den Messfehler und die inhaltliche
Validität beeinflussen (vgl. den Überblick von Tourangeau & Yan, 2007). Linguis-
tisch betrachtet, stellt eine sensitive Frage einen perlokutionären Akt dar, d.h. eine
Sprechhandlung mit mehr oder weniger starken nicht-konventionellen Wirkungen
wie „erschrecken“, „demütigen“, „bedrohen“ etc. Mitentscheidend für die sensitive
III.3 Einflüsse auf das Antwortverhalten 227

Wirkung ist, dass der Befragte dem Fragetext eine sensitive Deutung gibt. Schon auf
Grund der unterschiedlichen Bedeutungswahrnehmung kann eine Frage auf Be-
fragte in unterschiedlichem Ausmaß sensitiv wirken. Obgleich verbindliche Indi-
katoren für die Sensitivität einer Frage schwer zu präzisieren sind, können folgende
Arten von Fragen als sensitiv angesehen werden:

• Fragen, die zu sozial erwünschten (engl.: socially desirable) Antworten führen;


• Fragen, welche die Privatheit (engl.: privacy) der Befragten bedrohen;
• Fragen, die ein Risiko zur Enthüllung (engl.: disclosure) gegenüber Dritten bein-
halten (vgl. hierzu Tourangeau, Rips & Rasinski 2000).

Eine Antwort auf eine Frage ist dann sozial erwünscht, wenn sie vom Befragten
unter Berücksichtigung der Normen seiner Bezugsgruppe gegeben wird (zur De-
finition der sozialen Erwünschtheit vgl. DeMaio 1984; Edwards 1957; Hartmann
1991, Krebs 1987). Eine der im Zusammenhang mit der sozialen Erwünschtheit
viel diskutierte Frage ist die, ob die Tendenz, sozial erwünscht zu antworten, eine
stabile Persönlichkeitseigenschaft, also eher einen „Trait“ darstellt (vgl. Crowne &
Marlowe, 1964), oder ob sie eine item-spezifische, eher temporäre Reaktion be-
stimmter Respondenten auf bestimmte Fragen darstellt, also eher eine Strategie,
mit den Inhalten der Frage umzugehen. Paulhus (2002) unterscheidet zwischen
Antwortstilen im Sinne eines über Fragebögen und Zeiten hinweg konsistenten
Antwortverhaltens und einer temporären, aus der augenblicklichen Motivation
entstandenen Antworttendenz (engl.: response set). Detailliertere Analysen haben
Hinweise auf eine differenziertere Zusammensetzung des Konstrukts der sozialen
Erwünschtheit ergeben wie z.B. die Neigung, eigene Fehler zuzugeben, oder „mo-
ralistischen Bias“ in Sinne eines übertriebenen Gefühls für die eigenen moralischen
Qualitäten (vgl. Paulhus, 2002).
Beispiele für Fragen, welche die Privatheit bedrohen sind Fragen wie z.B. die
Frage nach dem Einkommen oder die Frage, welche Partei man wählen würde,
wenn am nächsten Sonntag Wahl wäre (Sonntagsfrage). Das Risiko zur Enthüllung
gegenüber Dritten ist gegeben, wenn Befragte die Gefahr sehen, dass ihre Antwort
an Dritte weitergeben wird. Der Dritte kann der Interviewer sein, anwesende dritte
Personen oder Organisationen (z.B. bei Mitarbeiterbefragungen).
Es gibt zahlreiche Hinweise für sensitive Wirkungen von Fragen, insbesondere
von Fragen nach dem Einkommen, Alkohol und illegalem Drogengebrauch oder
nach der Sexualität auf das Ausmaß an Item Nonresponse (vgl. Tourangeau et al.
1997). Auch bewusst falsche Angaben sind bei sensitiven Fragen zu erwarten (vgl.
Jobe et al. 1997). Dies belegen auch Studien zum „Overreporting“ und „Under-
reporting“ von Ereignissen, bei denen absichtlich falsche Tatsachenbehauptungen
228 III.3 Einflüsse auf das Antwortverhalten

vorliegen. Das Phänomen des „Overreporting“ betrifft den Sachverhalt, dass Per-
sonen Ereignisse und Verhaltensweisen berichten, die nicht stattgefunden haben.
Man findet dieses Verhalten verstärkt bei Nichtwählern in Bezug auf die Fragen
nach der Teilnahme an politischen Wahlen. So besteht bei Nichtwählern offen-
sichtlich die Tendenz, statt ihrer tatsächlichen Nichtteilnahme eine Teilnahme zu
berichten (vgl. Belli et al., 1999; Bernstein, Chadha & Montjoy, 2001). Als Ursachen
werden „soziale Erwünschtheit“ und der Versuch, das Gesicht zu wahren, genannt.
Dies Verhalten tritt scheinbar eher bei gebildeteren und religiöseren Personen auf.
„Overreporting“ stellt eine Gefährdung der Reliabilität dar, weil es zu einer Ab-
weichung der beobachteten Antwort vom wahren Wert führt. Es kann aber die
intendierte Validität betreffen, weil es dazu führt, dass andere als die vom Forscher
intendierten Konstrukte gemessen werden. So intendiert der Forscher die Messung
der Bereitschaft zur Teilnahme an Wahlen, de facto misst er aber die soziale Er-
wünschtheit.
Holbrook und Krosnick (2010) kommen in ihrer Analyse des „Overreportings“
bei Nichwählern ebenfalls zu dem Schluss, dass es sich dabei um sozial erwünschte
Antworten handelt, indem sie eine Fragetechnik anwendeten, die es den Befragten
erlaubte, ihre Antworten anonym zu geben. Die Anwendung dieser Technik, der
sog. „Item-Response“-Technik (siehe unten) führte zur Feststellung einer gerin-
geren Wahlbeteiligung im Vergleich zu einer Wahlbeteiligung, die durch direkte
Fragen erhoben wurde. Zu ähnlichen Ergebnissen kommen auch Comşa und Pos-
telnicu (2013).
Auch das Gegenteil von „Overreporting“, das „Underreporting“, stellt ein Beispiel
für mangelnde Reliabilität und Validität dar. Ein Beispiel ist das „Underreporting“
von Abtreibungen (vgl. Peytchev, Peytcheva & Groves, 2010). Erklärt werden könn-
te das Verhalten durch Angst vor sozialer Stigmatisierung. Peytchev, Peytcheva und
Groves fanden Hinweise dafür, dass „Underreporting“ mit der Teilnahmebereit-
schaft zusammenhängen könnte. Personen mit geringerer Teilnahmebereitschaft
berichteten weniger Abtreibungen. Ein Beispiel für die Interaktion von Befragten
und dem Kontext der Befragung kann in dem Befund der Autoren gesehen wer-
den, dass nach Beseitigung der Befragten-Interviewer-Interaktion die Anzahl der
berichteten Abtreibungen anstieg.
Einige Studien belegen den Einfluss von Persönlichkeitsmerkmalen auf die Nei-
gung, sozial erwünscht zu antworten. So fand z.B. Stocké in seiner Analyse (vgl.
Stocké, 2004), dass sozial erwünschte Antworten vor allem dann zu erwarten ist,
wenn ein Bedürfnis nach Anerkennung vorliegt und der Befragte auf Grund der
Wahrnehmung der Inhalte seiner Antworten Sanktionen befürchten muss. Saks-
haug, Yan und Tourangeau (2010) fanden in einer Umfrage unter Alumni mit Fra-
gen zur akademischen Leistung, dass der Nonresponse-Fehler (zum Begriff "Non-
III.3 Einflüsse auf das Antwortverhalten 229

response-Fehler" vgl. Teil VII) eher Items mit sozial erwünschten Inhalten betraf,
während Items mit unerwünschten Inhalten eher vom Messfehler betroffen waren.
Letzterer machte dort den größten Anteil am gesamten Schätzfehler aus (vgl. Saks-
haug, Yan & Tourangeau, 2010, p. 931). Eine Abschätzung des Messfehlers war in
dieser Studie möglich, weil auf die wahren Angaben zugegriffen werden konnte.
Die Schätzung des totalen Nonresponse-Bias basierte auf dem Vergleich zwischen
der Ausgangsstichprobe und den von Item zu Item variierenden Substichproben,
die auf die Fragen geantwortet hatten. Der Effekt, dass der Anteil des Nonrespon-
se-Fehlers bei neutralen und sozial erwünschten Fragen den Beitrag des Messfeh-
lers überstieg, kann eventuell darauf zurückgeführt werden, dass Personen, die zur
sozial erwünschten Gruppe gehören, eher geantwortet haben.
Die beschriebenen sensitiven Effekte stellen in Bezug auf die Forschungsfrage-
stellung in der Regel unerwünschte und manchmal nicht intendierte Nebeneffekte
dar. Sie führen zu einer Gefährdung der inhaltlichen Validität. Reagieren Befrag-
te auf bestimmte Fragen sensitiv, so besteht die Gefahr, dass mit der Frage nicht
das vom Forscher intendierte Konstrukt, sondern ausschließlich oder zusätzlich
ein anderes Konstrukt wie z.B. „Soziale Erwünschtheit“ gemessen wird bzw. dass
die ursprünglich für die Messung eines bestimmten Konstrukts vorgesehenen In-
dikatoren auch oder ausschließlich Indikatoren eines anderen Konstrukts sind. Nur
in einem entsprechend geplanten Umfragedesign lassen sich Effekte der beiden
Konstrukte auf die beobachteten Indikatoren voneinander getrennt schätzen, so
dass man das Ausmaß beurteilen kann, indem das Konstrukt der „Sozialen Er-
wünschtheit“ die Fragen/Items beeinflusst. So kann etwa eine Skala der „Sozialen
Erwünschtheit“ explizit in den Fragebogen aufgenommen werden, so dass diese als
Kontrollvariable in statistische Modelle eingeführt werden kann.
Ob es zu einer sensitiven Wirkung kommt, hängt nicht allein am sensitiven In-
halt einer Frage, sondern auch davon ab, welche Kommunikationsform gewählt
wird (vgl. Abschnitt III.3.4) und ob sich Befragte auf die Anonymität verlassen
können (vgl. Himmelfarb & Lickteig, 1982; Paulhus, 1984; Warner, 1965). Die Be-
fragten sollten auch sicher sein, dass sich die Forscher nicht auf anderem Wege
Zugang zu privaten Informationen verschaffen (vgl. Evans, Hansen & Mittlemark,
1977). Sensitive Wirkungen können auch durch die Aufmerksamkeit steigernde
Bemerkungen (eng. warnings) wie z.B. „Ihre Antworten sind anonym“ oder „Wir
akzeptieren nur Teilnehmer, die den Text aufmerksam gelesen haben“ verstärkt
werden (vgl. Clifford & Jerit, 2015).
230 III.3 Einflüsse auf das Antwortverhalten

III.3.3.2 Instrumente zur Reduktion sensitiver Wirkungen

Die vom Befragten im Standardverlauf eines Interviews geforderten Aufgaben be-


stehen in der der Beantwortung von Fragen. Es kann aber durchaus Gründe ge-
ben, von diesem Vorgehen abzuweichen und andere Formen der Aufgabenstellung
zu wählen, um eine Verbesserung der Parameterschätzungen zu erhalten, die auf
Grund von zu erwartenden Antworttendenzen durch Verzerrungen grundsätzlich
bedroht sind. Solche Verzerrungen sind z.B. bei der Erhebung sensitiver Informati-
onen zu erwarten. Um Verzerrungen dieser Art, die durch Antwortverweigerungen
oder auch durch Tendenzen entstehen können, Antworten in Richtung auf die Ein-
haltung sozialer Normen zu verschieben, zu reduzieren, gibt es einerseits die Mög-
lichkeit, die Frageformulierungen anzupassen. Andererseits aber kann man sich
überlegen, ob es nicht andere Aufgaben geben kann, die vom Befragten als weniger
sensitiv wahrgenommen werden und die auf Grund statistischer Überlegungen zu
weniger verzerrten Schätzern der Parameter führen können. Zu den alternativen
Techniken, sensitive Wirkungen durch spezielle Erhebungstechniken abzuschwä-
chen, sollen hier angesprochen werden:

• Randomized Response Technique (RRT) mit den Varianten:


Trianguläres Modell (engl.: triangular model),
Kreuzweises Modell (engl.: crosswise model),
• die Itemzähltechnik (engl.: item count technique).

Randomized Response Technique


Eine wichtige Determinante der Bereitschaft, eine sensitive Frage zu beantworten,
ist die Befürchtung, heikle Informationen über sich selbst preiszugeben. Um die
auf die Selbstdarstellung bezogenen Ängste zu reduzieren und den Eindruck der
Anonymität insbesondere bei heiklen Fragen auf Seiten des Befragten zu verstär-
ken, wurde die Randomized Response-Technik eingeführt (RRT; Blair, Imai & Zhou,
2015; Chaudhuri, 2010; Fox & Tracy, 1986; Mangat & Singh, 1990; Tracy & Mangat,
1996; Warner 1965; vgl. auch Särndal, Swensson & Wretman 1992, ferner die Er-
gebnisse der Metaanalyse von Lensvelt-Mulders et al., 2005). Bei der Urform der
RRT soll der Befragte unter zwei alternativen Items, einem sensitiven und einem
nicht-sensitiven Item, mit Hilfe eines Zufallsmechanismus, z.B. eines Würfels oder
einer Münze, ein Item auswählen und angeben, ob es zutrifft oder nicht. Die Wahr-
scheinlichkeit p, ein Item auszuwählen, sei bekannt. Das Experiment muss so reali-
siert sein, dass nur der Befragte weiß, welches Item er beantwortet, der Interviewer
III.3 Einflüsse auf das Antwortverhalten 231

dagegen nicht. Auf diese Weise erfährt der Interviewer nicht, ob das sensitive oder
das nicht-sensitive Item beantwortet wurde, so dass die Antwort anonym bleibt.
Sei yk = 1, wenn Individuum k in einer endlichen Population des Umfangs N
die sensitive Eigenschaft besitzt und 0, wenn dies nicht der Fall ist. Sei T = ∑Uyk /N
der unbekannte Anteil der Befragten in der Population U, für welche yk = 1 gilt.
Gelte ferner xk = 1, wenn Individuum k dem sensitiven Item x zustimmt und 0 an-
dernfalls. Würde der Zufallsmechanismus zur Vorlage der Antwortalternativen auf
jedes Individuum angewendet, so wäre der Anteil der Individuen mit xk = 1, in der
Population, der durch den Zufallsmechanismus erzeugt würde:

P ( x k = 1) = θ p + (1 − θ ) (1 − p ) = 1 − p + ( 2 p − 1)θ .

Lösen wir die Gleichung nach T auf, so ergibt sich:

P ( x k = 1) + p − 1
θ=
2p −1

Der Anteil T der Personen mit der sensitiven Eigenschaft kann aus den Stichpro-
bendaten geschätzt werden, da gilt:

¦x s
k
 p 1
Tˆ n ,
2p 1

wobei ¦sxk die Summe der Befragten in der Stichprobe s mit xk = 1 und n den Stich-
probenumfang bezeichnet. Dieser Schätzer wird gelegentlich auch Warner-Schätzer
bezeichnet. Das zugrunde gelegte Modell heißt Warner-Modell.
Die RRT ist vielfach mit dem Ziel modifiziert worden, die Praktikabilität und
die Schätzeigenschaften des Modells in Umfragen zu verbessern (vgl. Diekmann,
2012; Greenberg, et al., 1971; Sihm, Chhabra & Gupta, 2016; Singh & Tarray, 2014).
Dabei wurde auch versucht, die Technik mit direkten Fragen zu verbinden (vgl.
Kim & Warde, 2005). Eine vielfach verwendete Variante ist die FRR (Forced Rando-
mized Response)-Technik (vgl. Boruch, 1971). Auch bei dieser Variante werden die
Befragten aufgefordert, einen Zufallsmechanismus (z.B. einen Würfel, zwei Mün-
zen oder Spielkarten) zu bedienen, dessen Ergebnis nur dem Befragten bekannt
ist. In Abhängigkeit vom Ergebnis wird der Befragte gebeten, entweder eine vorge-
gebene Antwort zu geben oder wahrheitsgemäß zu antworten. Auf der Grundlage
der bekannten Wahrscheinlichkeiten der Ereignisse des Zufallsmechanismus ist es
232 III.3 Einflüsse auf das Antwortverhalten

auch hier möglich, den Anteil der Befragten mit der sensitiven Eigenschaft erwar-
tungstreu zu schätzen. Diekmann (2012) schlägt vor, die Wahrscheinlichkeit für
das Stellen der sensitiven Frage auf der Grundlage von Benford's Law (vgl. Benford,
1938) zu bestimmen. Gemäß dieses Gesetzes folgt die Wahrscheinlichkeit für die
erste Ziffer einer Hausnummer einer logarithmischen Verteilung. Die kann prak-
tisch genutzt werden, indem Befragte gebeten werden, sich die Hausnummer eines
Freundes vorzustellen. Wenn die erste Ziffer im Bereich 1-4 liegt bekommt er die
sensitive Frage gestellt, liegt sie zwischen 5 und 9 die zufällige Alternativfrage. Das
Verhältnis ist 0,7 zu 0,3.
Die Anwendung der RRT stellt besondere Anforderungen an das Verständnis
der Aufgabe. Auch sind die Ergebnisse bezüglich der Erhöhung des Anteils auf-
richtiger Antworten nicht eindeutig (zur Bewertung der Ergebnisse vgl. Wolter &
Preisendorfer, 2013). Zudem gehen die verschiedenen Varianten des RRT davon
aus, dass die Befragten überhaupt antworten und die Antworten korrekt sind.

Trianguläres und kreuzweises Modell


Sowohl das trianguläre Modell als auch das kreuzweise Modell versuchen ausge-
hend vom klassischen RRT-Modelle ohne einen von den Befragten zu bedienenden
Zufallsmechanismus auszukommen und so eine praktikablere Nutzung in Umfra-
gen zu erreichen. (vgl. Jann, Jerke & Krumpal, 2012; Yu, Tian & Tang, 2008). Die
Idee ist, statt eines Zufallsmechanismus eine nicht-sensitive Frage Y zu stellen, bei
der die Wahrscheinlichkeitsverteilung der Antworten bekannt ist z.B. die Frage
nach einer Altersgruppe, der man angehört (Y = 1) oder nicht angehört (Y = 0).
Neben der nicht-sensitiven Frage wird eine sensitive Frage X, danach gestellt, ob
ein sensitives Ereignis wie etwa das Nichtbestehens eines Examens, zutrifft oder
nicht. Die Wahrscheinlichkeitsverteilung der Antworten auf Frage X ist unbekannt.
Die Aufgabe der Befragten besteht darin, beide Fragen gemeinsam zu beantworten.
Im Fall des triangulären Modells werden die Befragten gebeten, zwischen zwei
Optionen A und B zu wählen, wobei die Option A gewählt werden soll, wenn bei-
de Antworten verneint werden, d.h., wenn gilt: X = 0 und Y = 0. Die Option B
soll dagegen gewählt werden, wenn mindestens eine Antwort zutrifft. Da bei der
Wahl von Option B nicht klar ist, ob das sensitive Ereignis zutrifft oder nicht, wird
erwartet, dass die Befragten eher wahrheitsgemäß antworten. Als Maximum-Like-
lihood-Schätzer π̂ der Wahrscheinlichkeitπ = Pr (X = 1), zur sensitiven Gruppe zu
gehören, erhält man bei einer Zufallsstichprobe mit Zurücklegen von n Personen
(vgl. Yu, Tian & Tang, 2008, p. 255):
π̂ = 1 – T̂ /(1 – p),
III.3 Einflüsse auf das Antwortverhalten 233

wobei p = Pr (Y = 1) und T̂ = nA/n. nA ist die Anzahl der Personen, die Alternative
A gewählt haben.
Das Problem bei der triangulären Methode ist, dass sich die Befragten prinzipi-
ell defensiv verhalten könnten, indem sie Option A wählen, wo eindeutig klar ist,
dass sie nicht mit dem sensitiven Sachverhalt identifiziert werden können.
Das kreuzweise Modell versucht die Nachteile der triangulären Methode da-
durch zu mildern, dass nur noch nicht-sensitive Optionen zugelassen werden. Die
Option A soll in diesem Fall dann gewählt werden, wenn die Antworten auf X und
Y gleich sind. Die Option B soll dann gewählt werden, wenn sich die Antworten
voneinander unterscheiden. Als Maximum-Likelihood-Schätzer für π̂ der Wahr-
scheinlichkeit π = Pr (X = 1) erhält man in diesem Fall:
π̂ = (Ô + p – 1)/(2p – 1),
wobei Ô = nA/n. nA ist wieder die Anzahl der Personen, die Alternative A gewählt
haben. Zu den Varianzen der Schätzer vgl. Yu, Tian & Tang, 2008).

Item Count Technik


Die Item Count Technik dient der Erhebung unerwünschten Verhaltens und wird
seit vielen Jahren angewendet (vgl. Dalton, Wimbush & Daily, 1994; Dalton, Daily
& Wimbush, 1997; Droitcour, 2001; Holbrook & Krosnick, 2010). Die Technik er-
fordert die Zerlegung der Stichprobe in zwei gleichgroße zufällige Teilstichproben.
Die Befragten der ersten Gruppe bekommen eine Liste von Verhaltensweisen vor-
gelegt, die einem Kriterium genügen und werden gefragt, wie viele der in der Liste
aufgeführten Verhaltensweisen sie schon einmal durchgeführt haben. Die zweite
Stichprobe bekommt die gleiche Liste mit einer Zusatzfrage. Auch ihr wird die Fra-
ge nach der Anzahl der Verhaltensweisen gestellt, die sie schon einmal realisiert
hat. Zieht man die durchschnittliche Zahl der zugegebenen Verhaltensweisen in
der Stichprobe mit der längeren Liste von der durchschnittlichen Zahl der zuge-
gebenen Verhaltensweisen in der Stichprobe mit der Liste ohne Zusatzfrage ab, so
erhält man eine Schätzung des Anteils der Befragten in der Stichprobe mit der län-
geren Liste, die das Verhalten in der Zusatzfrage bejaht haben.
234 III.3 Einflüsse auf das Antwortverhalten

III.3.4 Einflüsse der Kommunikationsform

Die Wirkungen der Kommunikationsform können nicht ohne ihre Wechselwir-


kungen mit den Merkmalen der Befragten, den Interviewer und den Fragen/Items
beurteilt werden. Ihr Nachweis erfolgt durch Modevergleiche. Sie sind auch nicht
unabhängig vom Selektionseffekt zu sehen. So ergaben einige Studien z.B., dass sich
Telefonbefragte durch höhere Bildung und ein höheres Einkommen auszeichnen.
Außerdem waren sie eher männlich und älter (vgl. Gfroerer & Hughes, 1991; Gro-
ves & Kahn, 1979; Weeks et al, 1983). Ergebnisse dieser Art bedürfen aber wegen
des gesellschaftlichen Wandels stets weiterer Überprüfung.

Effekte der Interviewer-Administration


Zahlreiche Befunde sprechen dafür, dass sich die Anwesenheit/Abwesenheit von
Interviewern auf die Anzahl der Antwortverweigerungen bei sensitiven Fragen
auswirken kann. So führt der selbst-administrierte Modus zu weniger Antwort-
verweigerungen unabhängig davon, ob es sich um Mail-Befragungen, IVR oder
Web-Befragungen handelt (vgl. den Überblick von Tourangeau & Yan, 2007; Kreu-
ter, Presser & Tourangeau, 2008). Die Interviewer-administrierte Form kann bei
Fragen mit sozial erwünschten Inhalten zu einer Erhöhung von Antworten in der
sozial erwünschten Richtung führen (vgl. hierzu auch De Maio, 1984, p. 284). Al-
lerdings ist zweifelhaft, ob auch die Ja-Sage-Tendenz durch die Anwesenheit des
Interviewers beeinflusst wird (Ayidiya & McClendon, 1990; Schuman & Presser,
1981).
Interviewer können offensichtlich das Antwortverhalten systematisch beein-
flussen. Dies zeigt sich bei einem Vergleich der Varianz von Messungen innerhalb
der Interviewer mit der Varianz zwischen den Interviewern. Ist die Varianz inner-
halb der Interviewer kleiner als die Varianz zwischen den Interviewern, so spricht
dies dafür, dass Interviewer für eine größere Homogenität der Messwerte sorgen
und dass es einen Interviewer-Einfluss auf die Antworten gibt. Empirische Hin-
weise hierfür fanden z.B. West & Olson (2010). Ihre Ergebnisse zeigen, dass die
Messfehlervarianz der Interviewer bei einigen Fragen die Hauptquelle der Intervie-
wer-Varianz (vgl. West & Olson, 2010 ist und dass die Varianz innerhalb der Inter-
viewer geringer war als die Varianz zwischen den Interviewern (vgl. dazu auch z.B.
Groves & Magilavy, 1986; O’Muirtchairtaigh & Campanelli, 1998). Dies schlägt sich
entsprechend in einem signifikanten Designeffekt nieder (vgl. Schnell & Kreuter,
2005; zum Begriff des Designeffekts siehe Abschnitt VI). Auch der Messfehler ist
durch Interviewer beeinflussbar. Der Anteil der Varianz der Antworten am Mess-
fehler, der auf die Interviewer zurückgeht, ist bei Interviewern, die viele Fehler ma-
III.3 Einflüsse auf das Antwortverhalten 235

chen, höher als bei solchen, die weniger Fehler machen. Das Ausmaß variiert von
Item zu Item. Es gibt außerdem größere Varianzen bei männlichen Interviewern
(vgl. Freeman & Butler, 1976)
Der Grund für Interviewer-Effekte dieser Art muss vor allem in Eigenschaften
und Verhaltensweisen der Interviewer im Interview gesucht werden. Das Verhalten
betrifft die Art des Vorlesens einer Frage (Lautstärke, Tonhöhe, Sprechgeschwin-
digkeit) sowie die Souveränität in der Handhabung des Fragebogens, und damit
auch die effektive Interviewlänge mit entsprechenden Konsequenzen in Form eines
Satisficing. Befunde deuten darauf hin, dass Face-to-Face-Interviews im Durch-
schnitt länger dauern als Telefoninterviews (vgl. Holbrook, Green & Krosnick,
2003). Interviewer sprechen in Telefoninterviews in der Regel zu schnell, Pausen
können sich unbehaglich auswirken, so dass Interviewer das Interview aus Angst
vor Abbruch hinter sich bringen möchten.
Verantwortlich für Interviewer-Effekte können neben den erwähnten Unter-
schieden in der Präsentation der Fragen auch Unterschiede im Ausmaß sein, in
dem klärende Nachfragen gestellt werden, um eine adäquate Antwort zu erhalten
(vgl. Mangione, Fowler & Louis, 1992).
Auch nonverbale Verhaltensaspekte könnten eine Rolle spielen. Erfahrene In-
terviewer führen ihr Interview schneller durch als neu rekrutierte Interviewer (vgl.
z.B. Olson & Petchev, 2007). Eine kürzere Interviewdauer kann entweder darauf
zurückgeführt werden, dass die Fragen schneller gelesen werden oder dass sich
die Interviewer stärker an den gedruckten Fragebogen halten, Veränderungen, die
sich positiv oder negativ auswirken können. Telefoninterviews führen scheinbar
zu einer stärkeren Orientierung am Fragetext, vermutlich verursacht durch eine
stärkere Supervision. Kürzere Fragen unterstützen nicht nur das Frageverständnis,
sondern auch die Performanz der Interviewer (vgl. Presser & Zhao, 1992).
Die Interaktion zwischen Befragten und Interviewer ändert sich mit einer
wachsenden Anzahl von Interviews: In späteren Interviews lassen sich Interviewer
nicht mehr so leicht in Gespräche verwickeln lassen, die nicht mit dem Inhalt des
Interviews zu tun haben. Oder sie stellen die Fragen schneller, so dass den Befrag-
ten weniger Zeit bleibt, die notwendigen kognitiven Leistungen zu erbringen, was
wiederum negative Auswirkungen auf die Datenqualität hat.

Einflüsse der Bearbeitungsform


Unterschiedliche Modes gestatten den Befragten, den Fragebogen auf unterschied-
liche Weise zu bearbeiten. Da Selbst-administrierte Formen der Beantwortung
mehr Zeit einräumen, kommt es hier verstärkt zu genaueren Angaben. So fanden
z.B. Visser et al. (1996), dass Mailumfragen das Wahlergebnis besser vorhersagen.
236 III.3 Einflüsse auf das Antwortverhalten

Selbst-administrierte Befragungen ermöglichen Befragten auch eine Kontrolle


über Ausfülltermin und Zeitaufwand. Im Unterschied zu Telefonumfragen können
Befragte bei Selbst-administrierten Interviews die Zeit selbst bestimmen, die sie
zur Beantwortung einer Frage brauchen. Entsprechende Hinweise finden sich auch
bei Vergleichen Interviewer-administrierter Interviews mit Webinterviews.
Oft gestatten Selbst-administrierte Kommunikationsformen das Vor- und
Zurückblättern im Fragebogen, so dass alle Fragen prinzipiell wiederholt gelesen
werden können und auch die Antwortkategorien in beliebiger Reihenfolge gele-
sen werden können, wodurch die Effekte der Reihenfolge von Fragen und Ant-
worten reduziert oder sogar eliminiert werden (vgl. Bishop et al., 1988; Hippler &
Schwarz, 1987). Bestimmte Effekte scheinen allerdings bestehen zu bleiben wie der
Primacy-Effekt. Hinsichtlich des Effekts von No-Opinion-Filtern, also Fragen nach
der Existenz einer Meinung und der Beschränkung der Anschlussfrage auf jene,
die behaupten, eine Meinung haben, Existenz der Mittelkategorie oder „Stimme
zu/Stimme nicht“- Skalen wurden keine Unterschiede zwischen Telefoninterviews
und Mail-Interviews gefunden (vgl. Ayidiya & McClendon, 1990; Bishop et al.,
1988).
Selbst-administrierte Interviews erlauben den Befragten, sich die Zeit zur Be-
antwortung zu nehmen, die sie für die Beantwortung brauchen. In diesem Sinne
könnte das Ergebnis von Fricker et al. (2005) interpretiert werden. Die Autoren
fanden in einem Vergleich zwischen Telefonbefragten und Web-Teilnehmern,
dass letztere mehr Zeit für die Beantwortung von Wissensfragen brauchten, ins-
besondere dann, wenn sie offen waren. Auch das weitere Ergebnis der Autoren,
dass Telefonbefragte eher die Antwortalternative „keine Meinung“-nutzen, deutet
ebenso in diese Richtung wie der Befund, dass der Anteil von Item Nonresponse
bei Webteilnehmern geringer war. Während immer wieder Einflüsse der Adminis-
trationsform auf Datenqualität und Messungen festgestellt wurden, konnten solche
Unterschiede zwischen verschiedenen Formen Selbst-administrierter Interviews,
also zwischen Mail-Interviews und Web-Interviews, nicht beobachtet werden. So
fand Börkan (2010) weder Unterschiede in der psychometrischen Qualität noch in
Bezug auf die Antwortqualität in Form von Item-Nonresponse. Allerdings konnte
dieses Ergebnis in der Analyse eines U.S.-Panelsurveys durch Shin, Johnson und
Rao (2012) nicht bestätigt werden. Die Autoren fanden bei Webinterviews einen
geringeren Anteil von Item-Nonresponse und von Don’t know-Antworten, also
insgesamt eine höhere Datenqualität. Dagegen war bei Mailsurveys die Unit-Non-
response geringer.
III.3 Einflüsse auf das Antwortverhalten 237

Besondere Einflüsse des Telefon-Modes


Der Telefonmode zeichnet sich durch einige Merkmale aus, die sich negativ auf die
Datenqualität auswirken können. Dazu gehören etwa der subjektiv empfundene Zeit-
druck, sowohl auf der Seite der Befragten als auch auf Seite der Interviewer, aber auch
die Nichtanwendbarkeit von Befragungshilfen. Wenn letzteres nicht beim Entwurf
eines telefonischen Interviews berücksichtigt wird, müssen Befragte möglicherweise
zu viele Antwortalternativen im Kurzzeitgedächtnis speichern, so dass nur die letzte
behalten und adäquat kognitiv bearbeitet werden kann (vgl. Galesic et al., 2008). Je-
denfalls können Recency-Effekte in diesem Fall nicht ausgeschlossen werden.
Ye, Fulton und Tourangeau (2011) haben in ihrer Metaanalyse Telefonum-
fragen mit Umfragen in anderen Kommunikationsformen, Web, Mail, IVR und
Face-to-Face, verglichen. Als Ergebnis stellen sie fest, dass Telefonbefragte unter
den Antwortalternativen häufiger die extrem positive Antwortalternative wählen
als Teilnehmer an Web-, Mail,- oder IVR-Umfragen, aber nicht häufiger als Fa-
ce-to-Face-Befragte. Dagegen gibt es keine häufigeren Wahlen extrem negativer
Antwortalternativen. Die Autoren bieten für diesen Befund drei mögliche Er-
klärungen an. Nach Ausschluss der Informationslast und der Jasage-Tendenz als
Erklärungen des Befunds bieten sie als Erklärung den sog, MUM-Effekt (Mum
about Undesirable Messages; dt. Übersetzung von „Mum“: „halt den Mund“) an,
der darin besteht, dass Befragte zögern, dem Interviewer negative Nachrichten zu
kommunizieren (vgl. auch Tourangeau, Steiger & Wilson, 2002). Konsequenz des
MUM-Effekts ist der Positivitätsbias, d.h. die Tendenz, eher positive Antworten zu
geben. Der MUM-Effekt ist umso größer, je stärker der Empfänger der Nachricht,
in diesem Fall der Interviewer, als Fremder wahrgenommen wird. Dies kann aber
im Fall von Telefoninterviews und Face-to-Face-Interviews angenommen werden.

Wirkungen des Layouts bei Selbst-administrierten Interviews


Selbst-administrierte Interviews unterscheiden sich auch dadurch, dass die zur
Steuerung des Interviews notwendigen Informationen in den Rahmen eines be-
stimmten Layouts eingepasst werden müssen. Da Informationen bei Selbst-admi-
nistrierten Interviews über den visuellen Übertragungskanal kommuniziert wer-
den, liegt die Vermutung nahe, dass Einflüsse der Kommunikationsform, durch
den Übertragungskanal damit durch die Form der Darstellung von Informationen
verursacht sein könnten.
238 III.3 Einflüsse auf das Antwortverhalten

III.3.5 Die Position der Frage im Interview: Wirkungen der Fra-


gereihenfolge

Jede Frage steht an einer bestimmten Position der Fragesequenz im Interview.


Vorangegangen waren in jedem Fall die Bitte um Teilnahme am Interview, in der
bereits das Thema kurz vorgestellt wurde, und, sofern es sich nicht um die erste
Frage handelt, weitere Fragen. Schon bei der Konzeption des Fragebogens muss
berücksichtigt werden, dass Fragen eine kognitive und emotionale Wirkung entfal-
ten können, die noch während der Beantwortung der Folgefragen anhalten kann.
Schon die Erwähnung des Auftraggebers sowie des Themas in der Einleitung kann
bei bestimmten Fragen einen Effekt darauf haben, in welcher Richtung die Frage
beantwortet wird.
Die Reihenfolge der Frage kann einen maßgeblichen Einfluss auf das Antwort-
verhalten der Befragten ausüben (vgl. Schuman & Presser 1981). Wichtige Effekte
sind Teil/Ganzes-Effekte (engl.: part-whole effects) und Effekte des Bezugsrahmens.
Zu den Teil/Ganzes-Effekten gehören die Konsistenzeffekte bzw. Assimilationseffekte
einerseits und die Kontrasteffekte andererseits. Assimilationseffekte beinhalten Ver-
schiebungen des Urteils in Richtung auf den durch den Kontext definierten Stan-
dard, Kontrasteffekte betreffen dagegen eine Verschiebung des Urteils weg von den
Werten der den Kontext bildenden Reize (vgl. Wedell, 1994, p. 1007). Aufeinander
folgende Fragen, die einen Konsistenzeffekt erzeugen können, wären z.B.:

Die Gewerkschaften sollten stärker auf die wirtschaftliche Lage der Unternehmen
Rücksicht nehmen.
☐ 6WLPPH]X
☐ 6WLPPHQLFKW]X
Anschließend die Frage:
Es war gut, dass VERDI im letzten Arbeitskampf keine Kompromisse eingegangen
ist.
☐ 6WLPPH]X
☐ 6WLPPHQLFKW]X
In diesem Fall könnte der Effekt eintreten, dass die Befragten ihre Antworten auf
die zweite spezifische Frage konsistent mit der allgemeineren ersten Frage zu be-
antworten versuchen.
III.3 Einflüsse auf das Antwortverhalten 239

Ein Beispiel für einen Kontrasteffekt wäre:


Meinen Sie, dass einer schwangeren Frau eine legale Abtreibung ermöglicht werden
sollte, wenn sie verheiratet ist und keine weiteren Kinder wünscht?
☐ Ja
☐ Nein
Meinen Sie, dass einer schwangeren Frau eine legale Abtreibung ermöglicht werden
sollte, wenn ihr Kind mit großer Wahrscheinlichkeit mit einem ernsthaften körper-
lichen Schaden geboren wird?
☐ Ja
☐ Nein

Wird die erste Frage zuerst gestellt, erhält sie einen höheren Anteil von Ja-Antwor-
ten (vgl. Schuman & Presser 1981). Es gibt Hinweise dafür, dass Assimilations- oder
Kontrasteffekte auch durch die Art der Präsentation der zu bewertenden Objekte
entstehen können. So fanden Wedell, Parducci und Geiselman (1987) Anhalts-
punkte für die Entstehung von Assimilationseffekten bei gleichzeitiger Darbietung
von Stimuli im Vergleich zu Kontrasteffekten bei der sequentiellen Darbietung.
Allerdings bezogen sich die Effekte auf sequentiell oder gleichzeitig dargebotene
Photographien.
Assimilationseffekte werden auch durch die Verfügbarkeit (engl.: accessibility)
von Wissen vermittelt und treten verstärkt bei mehrdeutigen Fragen auf (vgl. To-
dorov 2000 in Bezug auf Fragen zu den Bedingungen verschiedener Formen von
Behinderungen). Neben der Verfügbarkeit im Sinne einer Aktivierung des Wissens
durch eine vorherige Frage muss zusätzlich die Anwendbarkeit (engl.: applicabili-
ty) berücksichtigt werden. Dieser Aspekt beschreibt, wie stark die vorangegangene
Frage und die nachfolgende Frage inhaltlich zusammenhängen.
Effekte des Bezugsrahmens sind insbesondere für die Entscheidung bedeutsam,
welche Frage an den Anfang eines Fragebogens gestellt wird. Beispiele wären eine
Anfangsfrage zur Arbeitslosigkeit in einer Umfrage zur Lebensqualität oder eine
Frage zum wirtschaftlichen Erfolg eines Unternehmens am Anfang einer Mitarbei-
terbefragung zur Unternehmensführung
Grundsätzlich gibt es Unterschiede zwischen komparativen und nicht-kompara-
tiven Bewertungen. Als z.B. die Vertrauenswürdigkeit von Bill Clinton gegenüber
Al Gore in einem nicht-komparativen Kontext getrennt werden sollte, stuften 50%
Clinton und 68% Gore als vertrauenswürdig ein. Dieses Ergebnis änderte sich,
wenn erst Clinton und dann Gore eingestuft wurden. In diesem Fall lag Clinton in
der Vertrauenswürdigkeit 7 Prozentpunkte höher als im nicht-komparativen Kon-
240 III.3 Einflüsse auf das Antwortverhalten

text und Gore 8 Prozentpunkte niedriger, wodurch sich der Unterschied von 18 auf
3 Prozentpunkte zugunsten von Gore verringerte (vgl. Moore, 2002).
Effekte können auch von der Reihenfolge von Filterfragen ausgehen. Werden
mehrere Filterfragen hintereinander geschaltet, stellt sich die Frage, ob nach ei-
ner Filterfrage gleich die für die ausgewählten Befragten relevanten Fragen gestellt
werden (engl.: interleafed version), oder ob erst die Filter durchlaufen werden und
anschließend die Fragen (engl.: grouped version) gestellt werden. Empirische Ergeb-
nisse scheinen zu bestätigen, dass Filterfragen ein eher positives Antwortverhalten
in der gruppierten Version (Kreuter et al., 2011; Eckman et al., 2014) zur Folge
haben. Der Grund für dieses Verhalten könnte darin liegen, dass die Respondenten
im gruppierten Fall lernen, durch positive Antworten die nachfolgende Filterfragen
zu vermeiden, die bei einer negativen Antwort gestellt worden wären. Dieser Effekt
scheint unabhängig von der Sensitivität zu sein. Diese Wirkung wird mit zuneh-
mender Zahl von Filterfragen stärker, wenn die Anzahl der Filterfragen zunimmt.
Dies gilt aber nur innerhalb inhaltlicher Frageblöcke. Eventuell lernen Befragte,
dass Fragen nachfolgen.

III.3.6 Die Wirkung von Frageformulierungen, Antwortvorga-


ben und Antwortskalen

III.3.6.1 Die Wirkung von Frageformulierungen und ihren Be-


deutungen

Obgleich empirische Ergebnisse dafürsprechen, dass die zu messenden Konstruk-


te den Hauptanteil der Kovarianzen zwischen beobachteten Variablen aufklären,
wird der zweitgrößte Anteil der Kovarianz durch die Eigenschaften von Fragetex-
ten und Antwortskalen aufgeklärt (vgl. Rodgers, Andrews & Herzog, 1992, p. 269
auf Grund einer MMTM-Analyse; zum Begriff „MTMM“ vgl. Abschnitt IV). Dies
bedeutet, dass Ähnlichkeiten in Eigenschaften der Fragen das Antwortverhalten
bestimmen. Einen informativen Überblick über den Einfluss von Frageformulie-
rungen auf das Antwortverhalten geben Krosnick und Presser (2010).
Fragetexte stellen stets bestimmte Anforderungen an die Interpretationsleistung
des Befragten. Nicht selten kann der gleiche Inhalt der Frage auch durch unter-
schiedliche, Frageformulierungen ausgedrückt werden und damit für den Forscher
die Möglichkeit eröffnet werden, unter verschiedenen bedeutungsäquivalenten
Formulierungen diejenige zu nehmen, die für den Befragten den geringsten Ar-
III.3 Einflüsse auf das Antwortverhalten 241

beitsaufwand beinhaltet, so dass Effekte durch Satisficing und mangelnde Motiva-


tion reduziert werden. Suggestive Frageformulierungen, welche der Interpretation
durch die Befragten bereits eine bestimmte Richtung geben (z.B. „Sie haben doch
wie viele andere auch schon einmal eine Obdachlosenzeitung gekauft?“) sollten
beim Entwurf eines Fragetextes vermieden werden.
Um ein Verständnis des Fragetextes zu ermöglichen und nicht-adäquate Re-
aktionen, z.B. durch Nachfragen, zu vermeiden, sollten zunächst die sprachlichen
Konventionen der Zielsprache (deutsch, Dialekt, Fremdsprache) eingehalten werden.
Voraussetzung dafür, dass Befragte einen Fragetext problemlos bearbeiten können,
sind die grammatikalische Korrektheit sowie die Vermeidung logisch falscher bzw.
widersprüchlicher Ausdrücke. Grammatikalische Korrektheit bedeutet, dass der
Text die Regeln der Grammatik der verwendeten Sprache respektiert. Abweichun-
gen von diesen Regeln könnten den Befragten zu Überlegungen darüber veran-
lassen, wie die Frage wohl korrekt gelautet hätte, womit Spielräume des Fragever-
ständnisses eröffnet würden.
Schließlich kann auch die Komplexität eines Fragetextes ein Problem für die
Antwortqualität darstellen, wenn man bedenkt, dass mit der Komplexität des Tex-
tes oft eine entsprechende Komplexität der kognitiven Leistung einhergeht, die er-
bracht werden muss, um den Text zu verstehen. Dies ist etwa dann der Fall, wenn
ein Ereignis beurteilt werden soll, das den Aufbau einer komplexen semantischen
Repräsentation erfordert. Die Komplexität des Textes für den Befragten ergibt sich
aus der Komplexität des notwendigen Verarbeitungsprozesses (Gedächtnisoperati-
onen, Schlussfolgerungsprozesse, Auflösung von impliziten Voraussetzungen und
semantischen Präsuppositionen, etc.). Die Kürze eines Fragetextes bedeutet nicht
notwendig eine geringe semantische Komplexität, da ein kurzer Text Begriffe ent-
halten kann, die eine komplexe semantische Struktur haben.
Die linguistische Struktur der Frage kann Auswirkungen auf die Antwortqualität
haben. So fanden z.B. Holbrook et al. (2007) Hinweise, dass die sprachliche Struk-
tur von Fragen vorzeitige Antworten erzeugen kann (zur linguistischen Struktur
von Fragen vgl. Graesser et al. 1996; Saris & Gallhofer, 2014). Werden in einem
Fragetext Ereignisse oder Handlungen von Menschen beschrieben, so sollte geprüft
werden, ob wichtige Merkmale der Handlungslogik verletzt sind, so dass das be-
schriebene Ereignis oder der beschriebene Handlungszusammenhang unverständ-
lich erscheint. Auch sollten Frageformulierungen in Bezug auf die zu erwartenden
unerwünschten Nebeneffekte wie z.B. Sensitivität der Wortwahl beim Entwurf von
Fragen in Betracht gezogen werden. Die Wirkungen von Frageformulierungen und
Wortwahl auf das Antwortverhalten gehören zu den klassischen Untersuchungs-
themen der Umfrageforschung. Bekannt sind die Studien von Schuman & Presser
242 III.3 Einflüsse auf das Antwortverhalten

(1981) über die unterschiedlichen Wirkungen der Formulierungen „erlauben“ und


„nicht verbieten“ in Einstellungsfragen.
Eine besondere Bedrohung der inhaltlichen Validität erwächst daraus, dass Be-
fragte mit Begriffen unterschiedliche Bedeutungen verbinden können. Dabei spie-
len vor allem zwei Varianten eine Rolle:
Unklare/unpräzise Formulierungen
Unterschiedliche Interpretationen eindeutiger Formulierungen
Tauchen unklare Begriffe auf, so kann eine präzise Definition die Antwortvertei-
lungen signifikant ändern (vgl. Fowler, 1992). Sprachliche Ausdrücke, bei denen
das, was sie bezeichnen, unklar ist, bewirken, dass die Initiative zur Präzisierung
dem Befragten überlassen wird, mit der Konsequenz, dass sich verstärkt Eigen-
schaften des Befragten auf das Verständnis auswirken können und die Bedeutung
möglicherweise nicht mehr mit der intendierten Bedeutung des Forschers über-
einstimmt. Tourangeau, Rips und Rasinski (2000) führen als Beispiel den Begriff
„Kinder“ an, bei dem unklar ist, durch welche Altersgruppe dieser Begriff definiert
ist (vgl. ebda, p. 44). Viele weitere Beispiele ließen sich anführen. In einer Frage wie
„Haben Sie ein Auto?“ ist z.B. nicht klar, was unter „haben“ zu verstehen ist: Soll
„haben“ den Zustand des Besitzens bezeichnen oder den Zustand der Verfügbar-
keit.
Auch vage adverbiale Modifikatoren oder Häufigkeitsangaben wie „sehr oft“,
„manchmal“, etc. können für Befragte unterschiedliche Häufigkeiten bezeichnen
(vgl. Schaeffer, 1991; Bradburn & Miles, 1979). Sie bezeichnen statt einzelner Ska-
lenwerte eher Bereiche von Skalenwerten, was wiederum dazu führen kann, dass
sich bei mehreren Antwortvorgaben die bezeichneten Wertebereiche überschnei-
den können (vgl. Moxey & Sanford, 1993) Dies hat wiederum zur Folge, dass eine
eindeutige Interpretation der Antworten nicht mehr möglich ist. Schließlich kann
auch der Fall auftreten, dass ein Begriff für Befragte überhaupt nicht interpretierbar
ist, weil er unbekannt ist, was z.B. bei Fachausdrücken der Fall ist, deren Bedeutung
der Befragte nicht kennt. Die von vagen Formulierungen ausgehenden Gefährdun-
gen der Antwortqualität können dazu führen, dass Fragen/Items nicht für alle Be-
fragen das Gleiche messen (Bedrohung der inhaltlichen Validität der erhobenen
Daten) und dass die Güte der Messung nicht bestimmt werden kann, da der tat-
sächliche Messwert nicht bekannt ist.
Ein weiterer Typ von Unklarheit tritt insbesondere bei Fragen auf, die mehre-
re implizite Fragen beinhalten (engl.: double-barreled questions). Willis & Lessler
(1999) geben folgendes Beispiel:
III.3 Einflüsse auf das Antwortverhalten 243

„Glauben Sie, dass Minister, Politiker und andere kommunale Führungspersonen sich
gegen das Rauchen aussprechen sollten?"
Diese Frage besteht im Grunde aus drei impliziten Fragen, eine für jede der in der
Frage angesprochenen Personengruppe. Die gemeinsame Vereinigung in einer Fra-
ge führt zu einem Interpretationsproblem.
Unklarheiten in der Frageformulierung lassen sich auch als schwer erfüllbare
oder sogar unerfüllbare Anforderungen an die Interpretationsleistung auffassen.
Auch Formulierungen, die aus Sicht des Forschers eindeutig erscheinen, kön-
nen unterschiedliche Interpretationen erzeugen. Unterschiedliche Interpretationen
scheinbar eindeutiger Formulierungen durch Befragte liegen dann vor, wenn ver-
schiedene Befragte auf Grund unterschiedlicher Begriffsverwendung mit einem
sprachlichen Ausdruck zwar eine eindeutige Interpretation verbinden, diese Inter-
pretationen sich aber zwischen den Befragten unterscheiden. Ein Begriff wie „Fa-
milie“ mag für verschiedene soziale und kulturelle Gruppierungen der Gesellschaft
eine unterschiedliche, aber dennoch eindeutige Interpretation besitzen, die von der
des Forschers abweicht. Insofern kann hier nicht von einem genuin vagen oder un-
präzisen Begriff gesprochen werden. Tritt dieses Phänomen auf, besteht die Gefahr,
dass fälschlicherweise eine Bedeutungsäquivalenz der Frage und der Antwortvor-
gaben über alle Befragten hinweg unterstellt wird. In diesem Fall wird eine Homo-
genität der Zielpopulation in Hinblick auf die Interpretationsleistung unterstellt.
Beispiele sind die Unterstellung, dass adverbiale Modifikatoren gleiche Intensitäten
darstellen oder dass Begriffe wie „politische Betätigung“ unabhängig vom sozialen
und kulturellen Hintergrund in gleicher Weise verstanden werden. Hier ergeben
sich ähnliche Probleme der Sicherung der Bedeutungsäquivalenz wie in der in-
terkulturell und international vergleichenden Umfrageforschung (vgl. Przeworski
& Teune, 1968; Faulbaum, 1990; Johnson, 2003; Beiträge in: Harkness et al., 2003;
Smith, 2003; Harkness, Penell & Schoua-Glucksberg, 2004; Hambleton, Merenda &
Spielberger, 2005). Zur Feststellung der mit den Fragen verbundenen Interpretati-
onen erweisen sich allgemein Verfahren zur Kalibrierung der Fragebedeutung und
die Anwendung kognitiver Pretest-Verfahren mit einer entsprechenden Repräsen-
tanz der relevanten Teilgruppen sowie systematische Begleituntersuchungen zur
Fragebedeutung als hilfreich.

III.3.6.2 Wirkungen von Skaleneigenschaften

Die Gestaltung von Antwortskalen kann über unterschiedliche Merkmale die Güte
einer Messung beeinflussen. Einen guten Überblick geben über diese Effekte geben
auch Krosnick und Fabrigar (1997) sowie Krosnick und Presser, (2010).
244 III.3 Einflüsse auf das Antwortverhalten

Anzahl der Abstufungen und Messqualität


Ein wichtiges Merkmal, das die Antwortqualität beeinflussen kann, ist die Anzahl
der Abstufungen In Studien findet man Anzahlen von 2-101 Skalenpunkten (vgl.
die Zusammenfassung von Krosnick & Presser, 2010, pp. 268).
Krosnick und Fabrigar (1997) führen verschiedene Gründe dafür an, dass Ska-
len eher eine höhere Anzahl von Skalenpunkten enthalten sollten. Dafür spricht,
dass die Wahrnehmungen der Befragten in Bezug auf ihre Einstellungen auf einem
Kontinuum von extrem positiv zu extrem negativ variieren. Um dieses Kontinuum
auf einer Kategorial-Skala abzubilden und sog. Ceiling-Effekte oder Floor-Effekte
zu vermeiden, muss die Anzahl der Punkte das gesamte Kontinuum abbilden. Cei-
ling-Effekte oder Floor-Effekte treten auf, wenn das obere und/oder das untere Ende
der Skala das Antwortkontinuum so begrenzt ist, dass sich alle Befragten, die gerne
extremer geantwortet hätten, am unteren oder oberen Ende der Skala häufen mit
der Folge, dass gestutzte (engl.: truncated) bzw. links oder rechts zensierte Antwort-
verteilungen entstehen.
Je feiner die Skala desto feiner können die Befragten ihre Einstellungen gegen-
über verschiedenen Objekten differenzieren. Auf der anderen Seite kann durch zu
viele Skalenpunkte die Klarheit der Bedeutungen der Antwortalternativen redu-
ziert werden (vgl. Krosnick 1991). Beim Entwurf einer Skala sollte jedenfalls be-
rücksichtigt werden, dass die Befragten in der Lage sein müssen, ein internes Urteil
in eine Entscheidung für einen Skalenpunkt zu übertragen. Diese Entscheidung
kann schwieriger werden, wenn der Befragte z.B. bei einem Angebot von zu vielen
Abstufungen eine solche Entscheidung treffen soll (vgl. Ostrom & Gannon, 1996).
Zahlreiche Untersuchungen zum Zusammenhang zwischen Anzahl der Abstu-
fungen und der Reliabilität bei Rating-Skalen führten zu teilweise unterschiedli-
chen Ergebnissen. Zahlreiche Befunde stützen die Annahme, dass die Reliabilität
mit einer wachsenden Zahl von Abstufungen steigt, dass sich dieser Anstieg aber
nicht beliebig fortsetzt. So fand Masters (1974), dass die Reliabilität bis zu vier
Punkten anstieg und dann auf dem gleichen Niveau blieb. Birkett (1986) verglich
2-, 6-, und 14-Punkt-Skalen und fand, dass unter diesen Skalen 6-Punkt-Skalen die
höchste Reliabilität aufwiesen. Ebenso fanden Komorita und Graham (1965), dass
6-Punkt-Skalen zuverlässiger als 2-Punkt-Skalen waren. Die Studien von Alwin
und Krosnick (1991) kamen zu dem Ergebnis, dass 7-9-Punkt-Skalen zuverlässiger
sind als Skalen mit weniger Abstufungen.
Bei Querschnittsuntersuchungen der Reliabilität unipolarer Skalen zeigte sich
in Experimenten, dass die optimale Anzahl der Skalenpunkte bei 5 (vgl. Conklin,
1923; McKelvie, 1978) und 7 (vgl. Symonds, 1924) liegt. Bei bipolaren Skalen emp-
fiehlt Conklin (op. cit.) 9 Skalenpunkte. Die Anzahl der Skalenpunkte muss sicher-
III.3 Einflüsse auf das Antwortverhalten 245

lich an die Antwortdimension und die Leistungsfähigkeit der Zielgruppe angepasst


werden. Auch die Frage, eine wie feine Information eigentlich benötigt wird, muss
bedacht werden. So gibt es durchaus Ergebnisse psychologischer Experimente, die
bis zu 21 Skalenpunkte empfehlen, wenn die Beurteiler vorher trainiert wurden
(vgl. Champney & Marshall, 1939). Letzteres ist in Umfragen aber nicht der Fall.
Hier muss von einem naiven Beurteiler ohne besondere Schulung ausgegangen
werden.
Was die Validität angeht, so zeigen Simulationsstudien, dass Verzerrungen in
den Daten mit zunehmender Anzahl von Skalenpunkten abnehmen (vgl. Krosnick
1997). Die Verbesserung erscheint relativ bescheiden bei mehr als 5-7 Skalenpunk-
ten.
Zusammenfassend dürfte für Rating-Skalen die optimale Anzahl der Abstufun-
gen bei 5-7 liegen (vgl. auch Groves et al., 2009). Bei der Entscheidung für eine be-
stimmte Anzahl von Skalenpunkten spielen aber auch Auswertungsgesichtspunkte
und damit auch das beabsichtigte Messniveau eine Rolle (vgl. Teil IV). Skalen mit
5 Abstufungen und mehr können in der statistischen Datenanalyse als sog. pseu-
dometrische Skalen wie metrische Skalen behandelt werden. Allerdings zeigen Stu-
dien auch, dass Faktorladungen mit weniger Abstufungen genau geschätzt werden
können (vgl. Rhemtulla, Brosseau-Liard & Savalei, 2012). Mit zunehmender An-
zahl von Abstufungen nähern sich die Produktmomentkorrelationen zunehmend
der in der Simulation vorgegebenen wahren Korrelation.
Bei Skalen mit weniger Skalenpunkten müssen statistische Modelle für katego-
riale Variablen verwendet werden (vgl. z.B. Tutz, 2000).

Wirkung von Kontextinformationen


Prinzipiell ist davon auszugehen, dass Befragte alle aus einer Skala ableitbaren In-
formationen als Kontext für ihre Urteilbildung und die Überführung ihres Urteils
in einen Skalenwert nutzen. Dazu gehören Informationen über den Bereich, die
Richtung und die Polarität einer Skala.
Die Wirkung des Wertebereichs (engl.: range) einer Skala steht im Mittelpunkt
des Urteilbildungsmodells von Parducci. Dieses bezieht nicht nur den beobacht-
baren Bereich des vorgegebenen Skalenformats, sondern auch auf den subjektiven
Bewertungsbereich (z.B. zwischen der wirtschaftlichen Lage, mit der man am we-
nigsten zufrieden ist und der wirtschaftlichen Lage, mit der man am meisten zu-
frieden ist) als relevanten Kontext der Bewertung in die Erklärung der Wahl eines
Skalenwertes mit ein.
Nach Parducci’s „range-frequency“-Modell (vgl. Parducci, 1965, 1983) reflek-
tieren Urteile zwei Prinzipien: das Bereichsprinzip (engl.: range principle) und das
246 III.3 Einflüsse auf das Antwortverhalten

Häufigkeitsprinzip (engl.: frequency principle). Nach dem Bereichsprinzip reflektie-


ren Beurteilungen bzw. Bewertungen von Reizen die Stellung (Lokation) relativ zu
den Extremwerten, die den relevanten Kontext definieren. Der Bereichswert (engl.:
range value) Ric eines Stimulus i im Kontext c ist der Anteil des Kontextbereichs, der
unter ihm liegt:
Ric = (Si – Smin)/(Smax – Smin),
wobei Si der subjektive Wert des Stimulus, Smin und Smax sind der minimale und
maximale Stimulus-Wert im Kontext c. Ein Beispiel wäre eine Person, die in der
Beliebtheit in der Mitte zwischen der beliebtesten und der am wenigsten beliebten
Person liegt. Der Bereichswert wäre in diesem Fall 0.5.
Der Häufigkeitswert (engl.: frequency value) eines Stimulus wird bestimmt
durch die Gesamtzahl aller Kontextreize, die auf der Antwortdimension unterhalb
von ihm liegen:
Fic = (ric – 1)/(Nc – 1).
In dieser Formel sind Fic der Häufigkeitswert des Reizes i im Kontext c, ric ist der
Rang des Reizes i im Kontext c, Nc der Rang (Prozentrang) des am höchsten bewer-
ten Reizes und 1 des am niedrigsten bewerteten Reizes. So würde eine Person, die
beliebter als 90% der Personen im Kontext einen Häufigkeitswert von 0.9 haben
(vgl. Wedell, 1990).
Die Beurteilung Jic eines Stimulus i im Kontext c ergibt sich als gewichteter Mit-
telwert
Jic = wRic + (1 – w)Fic.
Das interne Urteil Jic wird nach der folgenden Beziehung in die Wahl einer ka-
tegorialen Abstufung übersetzt:
Cic = bJic + a,
wobei Cic ein numerisches Urteil (Rating), b der Bereich der Kategorien (z.B. 5 bei
einer 6er Skala) und a die unterste Kategorie.
Parducci’s Modell bezieht sich auf Fälle, bei denen es um die Bewertung von
Objekten wie der wirtschaftlichen Situation, eines Staates, von Personen und Per-
sonengruppen, etc. auf einer Antwortdimension geht. In die Bewertung gehen der
subjektive Bewertungsbereich des Objekts (maximale subjektiver Wert vs. mini-
male subjektiver Wert) sowie der Rangplatz der Bewertung relativ zum gesamten
Bewertungsbereich. Die Umsetzung dieses subjektiven Urteils in die beobachtbare
Wahl Kategorie erfolgt unter Einbeziehung der oben genannten Eigenschaften der
Rating-Skala. Sie ist auch abhängig von dem Antwortbereich (Maximum und Mi-
III.3 Einflüsse auf das Antwortverhalten 247

nimum), der den Befragten zur Formatierung ihrer Antwort zur Verfügung gestellt
wird.
Wie sich der Skalenbereich auf die Bewertung alltäglicher (engl.: mundane)
Aktivitäten auswirkt, haben Schwarz et al. (1985) in Bezug auf die Häufigkeit des
täglichen Fernsehkonsums untersucht. Befragte wurden gebeten, die Häufigkeit
ihres Fernsehkonsums auf einer Skala anzugeben, die entweder in halbstündigen
Abständen von „bis zu ½ Stunde“ bis zu „mehr als 2 ½ Stunden“ reichte oder auf ei-
ner Skala von „bis zu 2 ½ Stunden“ bis zu „mehr als 4 ½ Stunden“ reichte. Es stellte
sich heraus, dass die Befragten in der ersten Variante eher die mittlere Kategorie, in
der zweiten Variante aber die unterste Kategorie wählten. Die Befunde bestätigten
den Einfluss des Wertebereichs der Antwortvorgaben auf die Wahl der Antwort-
kategorie. Dieser Einfluss konnte auch in Bezug auf eine Skala der Zufriedenheit
mit Freizeitdauern festgestellt werden. Die Autoren interpretieren ihre Ergebnisse
dahingehend, dass die Bereichsinformationen Hinweise über das Wissen und die
Erwartungen des Forschers in Bezug auf die Alltagswelt geben. Befragte nutzen den
Skalenbereich als Bezugsrahmen und vermeiden Angaben, die in der Bevölkerung
unüblich sind.
Bei der Gestaltung von Antwortskalen für Items, die zusammen eine Item-Liste
bilden, ist auch das eventuelle Auftreten von Kontexteffekten zwischen den Bewer-
tungen der Items zu berücksichtigen. So fanden Wedell & Parducci (1988) sowie
Wedell et al. (1990), dass kontextuelle Kontrasteffekte zwischen den Items desto
geringer ausfallen, je höher die Anzahl der kategorialen Abstufungen ist. Mehr Ska-
lenpunkte übertragen mehr nützliche Information bei bis zu 7-9 Skalenpunkten.
Dagegen sinkt der Informationsgehalt jenseits von 12 Skalenpunkten.

Polarität und Richtung einer Skala


Neben Informationen über den Bereich einer Skala nutzen Befragte auch Informa-
tionen über Richtung und Polarität von Skalen. In mehreren Studien ergab sich der
Befund, dass Befragte negative Urteile vermeiden, so dass sich die Einstufungen
auf Antwortskalen eher auf der positiven Hälfte der Skala häufen (engl.: positivity
bias; vgl. Landy & Farr, 1980; Sears, 1983). Schwarz et al. (1985) bestätigten nicht
nur, dass der den Befragten angebotene Bereich der numerischen Werte einer Skala
einen Effekt auf das Antwortverhalten hat. Sie fanden auch, dass sich die Befragten
auf Skalen, bei denen negative numerische Skalenwerte vorgesehen sind (-5 -4 -3
-2 -1 0 +1 +2 +3 +4 +5) im Vergleich zu einer Skala von 0 bis 10 noch stärker auf
der positiven Hälfte einstufen. Dies gilt sowohl, wenn die beiden Enden der Skala
nicht klar gegensätzlich benannt sind als auch, wenn die beiden Pole gegensätzlich
248 III.3 Einflüsse auf das Antwortverhalten

benannt sind (vgl. Schaeffer & Barker 1995). Es gibt auch Hinweise darauf, dass
Befragte Extremkategorien vermeiden.
Zahlreiche Studien befassen sich seit den frühen Analysen von Belson (1966)
mit dem Effekt der Skalenrichtung, d.h. mit dem möglichen Effekt auf das Ant-
wortverhalten, der darin besteht, dass die Reihenfolge der Skalenpunkte umgedreht
wird, wenn also z.B. statt einer Reihenfolge von 1 bis 7 die Reihenfolge von 7 bis 1
gewählt wird. Mögliche Effekte dieser Art sind sicherlich nicht unabhängig vom
Skalentyp (z.B. bipolar vs. unipolar), von der Antwortdimension und vom Inhalt
der Items. Beispiele für einen solchen Effekt ergaben die Analysen von Yan und
Keusch (2015). Die Autoren haben die einschlägige Literatur gesichtet und eige-
ne Analysen auf der Basis eines Telefonsurveys vorgenommen. Die Autoren ver-
glichen eine 0-10-Skala mit einer 10-0-Skala. Beurteilt werden sollten Länder auf
einer Skala von 0: „am wenigsten entwickelt“ bis 10: „am meisten entwickelt“. Die
Autoren fanden, dass Länder, die nach dem Human Development Index (HDI) der
UN als höher entwickelt eingestuft wurden, niedrigere Werte bei der 0-10-Version
als in der 10-0-Version erhielten. Die Analysen ergaben keine Anhaltspunkte dafür,
dass es sich um einen Satisficing-Effekt in dem Sinne handelte, dass die Befragten
gar nicht die gesamte Skala berücksichtigten.

Anordnung der Antwortalternativen


Auch die Anordnung der Antwortkategorien kann eine Wirkung auf deren Wahl
haben (vgl. die Experimente von Schwarz et al., 1985; vgl. auch Stern, Dillman &
Smyth, 2007). Krosnick & Alwin (1987) betonen, dass es für Befragte schwierig
sein kann, sich mit allen vorgesehenen Antwortalternativen ernsthaft zu beschäfti-
gen und dass in diesem Fall mit dem Effekt des Satisficing gerechnet werden muss.
Auch muss bei vielen Antwortalternativen, die im Gedächtnis zwischengespeichert
werden müssten, mit Recency- und Primacy-Effekten gerechnet werden, also mit
der Bevorzugung der letzten oder ersten Antwortkategorie. Recency-Effekte treten
verstärkt bei oral vorgetragenen Antwortlisten sowie bei schwierigen Fragen und
Antwortkategorien auf (vgl. z.B. Bishop & Smith, 2001; Holbrook et al., 2007).

Mittelkategorie und Extremkategorien


Ein immer noch kontroverses Thema ist die Einbeziehung neutraler Antwortka-
tegorien wie z.B. „weder/noch“ oder „teils/teils“ in eine Antwortskala. Die Mittel-
kategorie stellt eine Antwortalternative dar, deren Wahl im Vergleich zu anderen
Alternativen den geringsten Aufwand erfordert (vgl. Krosnick, 1991). So mag die
Einbeziehung einer neutralen Antwortkategorie bzw. eines Skalenmittelpunkts für
III.3 Einflüsse auf das Antwortverhalten 249

gering motivierte Befragte und solche mit einer eher schwach ausgeprägten ko-
gnitiven Fähigkeit eine Einladung darstellen, diese Kategorie zu wählen, weil die
Neigung besteht, die Dinge eher so zu lassen wie sie sind (vgl. Krosnick & Presser,
2010, p. 271). Trotz des Einflusses der Bildung auf zahlreiche Aspekte des Satis-
ficing konnte ein Zusammenhang zwischen Bildung und Wahl der Mittelkatego-
rie allerdings empirisch nicht nachgewiesen werden (vgl. z.B. Schuman & Presser,
1981; Narayan & Krosnick, 1996). Die Attraktivität der Mittelkategorie scheint mit
abnehmender subjektiver Wichtigkeit des Frageinhalts, mit abnehmender Einstel-
lungsstärke (vgl. Krosnick & Schuman, 1988; Bishop, 1990) und abnehmendem
Interesse am Inhalt der Frage (vgl. O’Muircheartaigh, Krosnick & Helic, 1999)
zuzunehmen. Für Krosnick (1991) ist die Verwendung neutraler Kategorien eine
Einladung für Befragte, die keine Meinung haben, diese Kategorie zu wählen. Auch
Payne (1951) sieht in der Einführung einer Mittelkategorie vor allem eine Möglich-
keit, jene Befragten auszusortieren, die keine Meinung haben.
Die neutrale Kategorie kann unterschiedliche Konnotationen für die Befragten
haben. So spricht Einiges dafür, dass sie für einige Befragte eine Kategorie der Un-
entschiedenheit darstellt (vgl. Zaller 1992, zit. nach Krosnick & Fabrigar, 1997, p.
164).
Trotz der nachgewiesenen Einflüsse durch verschiedene Merkmale des Satisfi-
cing muss bedacht werden, dass bei Weglassen der Mittelkategorie die Gefahr be-
steht, dass Befragte ihre reale Bewertung nicht ausdrücken können und die nächst
niedrigere oder höhere Kategorie wählen, was zu einer ungenauen Messung und zu
einem Reliabilitätsverlust führt (vgl. O’Muircheartaigh, Krosnick & Helic, 1999).
In ähnliche Richtung weisen die Befunde von Stern, Dillman & Smyth (2007). Die
Autoren stellten in ihrer Analyse fest, dass der Zwang, in der einen oder anderen
Richtung zu antworten, zur Erhöhung des Messfehlers beitragen kann. Es sollte
ferner bedacht werden, dass die Wahl neutraler Kategorien von den Erwartungen
der Befragten und der Anordnung der Alternativen abhängen können. So fanden
die Autoren ebenfalls, dass die neutrale Kategorie häufiger gewählt wird, wenn die
für das Beurteilungsobjekt günstigen Alternativen in der Reihenfolge der Antwort-
vorgaben zuerst aufgeführt werden. Unter Berücksichtigung der Befunde über die
optimale Anzahl der Skalenpunkte sprechen die Befunde für 5stufige oder 7stufi-
ge Antwortskalen. Um die Reliabilität zu erhöhen sollte vermieden werden, dass
sich Ursachen des Satisficing wie mangelndes Interesse, etc. auswirken können. Für
diese Empfehlung sprechen auch Analysen, die sich mit den Auswirkungen der
Skalenpunkte auf die Wahl der Mittelkategorie beschäftigen.
Es gibt empirische Hinweise dafür, dass die Anzahl der Skalenpunkte die Nei-
gung verstärkt, Extremkategorien und Mittelkategorien zu wählen. Je höher die
Anzahl der Skalenpunkte, desto stärker dieser Effekt, wobei dieser Effekt im Ver-
250 III.3 Einflüsse auf das Antwortverhalten

gleich zur Wahl von Extremkategorien bei der Wahl der Mittelkategorie geringer
ausfällt (vgl. Kieruj & Moors, 2010). Dieser Effekt spricht möglicherweise dafür,
dass die Befragten mit der Bewältigung von Skalen mit vielen Skalenpunkten
(z.B. 9, 10 und 11 Kategorien) überfordert sind und ein Satisficing-Effekt einsetzt.
Grundsätzlich besteht die Gefahr eines Bias, wenn die Tendenz zur Mittelkategorie
oder zu Extremkategorien ignoriert wird. Tutz und Berger (2016) zeigen, wie dieser
Bias im Rahmen von simultanen Modellen korrigiert werden kann, die den inhalts-
bezogenen Effekt vom Effekt des Antwortstils trennen, so dass der inhaltsbezogene
Effekt ohne Einfluss des Antwortstils geschätzt werden kann.
Bei der Verwendung von Skalen und Antwortvorgaben in unterschiedlichen
kulturellen Zielgruppen muss die Kulturabhängigkeit der Tendenz, Extremkatego-
rien zu wählen, in Betracht gezogen werden.

Verbalisierung der Skalenpunkte bei Rating-Skalen


Die Beschränkung der Verbalisierung auf die Skalenendpunkte hat nach Krosnick
(1997) verschiedene Vorteile. Der erste Vorteil besteht darin, dass numerische Wer-
te präziser sind als verbale Benennungen, da letztere eine mehr oder weniger vage
Bedeutung mit sich tragen. Zweitens aber sind numerische Skalenwerte leichter im
Gedächtnis zu behalten, eine Eigenschaft, die insbesondere bei Telefoninterviews
von Wichtigkeit ist.
Es gibt aber auch gute Gründe für die Annahme, dass die verbalen Benennun-
gen aller Skalenpunkte die Datenqualität verbessert. Da im Alltag Bedeutungen
selten durch Zahlen ausgedrückt werden, erscheinen verbale Benennungen natür-
licher. Die Vergabe von Namen für alle Skalenpunkte kann daher dazu beitragen,
die Bedeutung der Skalenpunkte zu klären und damit die Leichtigkeit zu erhöhen,
mit der Personen antworten können.
Einige Studien zeigen, dass die in Querschnittserhebungen ermittelte Reliabi-
lität durch verbale Benennungen gar nicht oder kaum beeinflusst wird (vgl. Finn,
1972; Madden & Bourdon, 1964, Faulbaum, 1984b). Die längsschnittbezogene Re-
liabilität (Test-Retest-Reliabilität) scheint sich durch verbale Benennungen sogar
zu erhöhen. (Alwin & Krosnick, 1991; Krosnick & Berent, 1993; Zaller, 1988). Die
Steigerungen sind am deutlichsten bei Befragten mit niedrigerem bis mäßigem Bil-
dungsniveau, also gerade bei dem Personenkreis, der durch die Benennungen am
meisten profitiert.
Verbale Benennungen erhöhen nach einigen Studien auch die Validität (Kros-
nick & Berent 1993; Dickinson & Zellinger, 1980). Sie führen außerdem zu einer
größeren Varianz der wahren Werte (vgl. Alwin & Krosnick, 1991). Rating-Skalen
sind weniger anfällig gegenüber Kontexteffekten, wenn die Skalenpunkte benannt
III.3 Einflüsse auf das Antwortverhalten 251

sind. Faulbaum (1984b) fand eine hohe Konstruktinvarianz in Bezug auf 7-stufige
numerische und verbalisierte Skalen, d.h. die numerischen und verbalisierten Ska-
len maßen offensichtlich das gleiche Konstrukt.
Die Auswahl der Benennungen ist eine schwierige Aufgabe, wenn die Anzahl
der Skalenpunkte hoch ist und eine metrische Skalenqualität verlangt wird. Sollen
die verbalisierten Skalenwerte metrisch interpretiert werden, muss die Gleichab-
ständigkeit der adverbialen Modifikatoren gesichert sein (vgl. Rohrmann 1978; zu
einer gleichabständigen 7-stufigen Verbalskala siehe Abbildung III.6). Einen Effekt
können insbesondere die Verbalisierungen der oberen und unteren Grenzen auf
den Skalenmittelpunkt haben (vgl. Schwarz & Hippler 1987).
Wie bereits in Abschnitt III.1.6 ausgeführt, kann die Interpretation für unter-
schiedliche soziale Gruppen unterschiedlich sein (vgl. Wegener, Faulbaum & Maag
1982; Schaeffer 1991). Unterschiedliche Bedeutungszuordnungen sind insbeson-
dere bei interkulturellen Umfragen zu erwarten (vgl. Kristof, 1966; Smith, 2003,
2004). Ein Beispiel stellen vage Häufigkeitsabstufungen bzw. vage Quantifikatoren
wie „oft“, „ziemlich häufig dar“, die an Stelle präziser Zahlenvorgaben verwendet
werden und bei denen gezeigt werden kann, dass sie von der Häufigkeit abhängen,
mit der das zu beurteilende Objekt in der Zielpopulation vorkommt (vgl. Pepper
& Prytulak, 1974) oder auch durch das Thema und die wahrgenommene Referenz-
population, über welche die Umfrage Aussagen machen soll (vgl. Wänke, 2002).
Bei der Interpretation solcher vagen Abstufungen scheint eine Anpassung an die
soziale Referenzgruppe stattzufinden, was die nachweisbare Abhängigkeit von Bil-
dung und Alter erklärt (vgl. Schaeffer, 1991). Wright, Gaskell und O’Muirchearta-
igh (1994) fanden, dass vage Quantifikatoren, welche die Fernsehhäufigkeit in der
letzten Woche abstufen sollten, bei Personen mit höherem Sozialstatus auf kleinere
Zahlenangaben abgebildet werden als bei den übrige Statusgruppen.
Die Entscheidung für oder gegen die Anwendung voll verbalisierter Ra-
tings-Skalen sollte neben möglicher Abhängigkeiten der Urteile von der Interpreta-
tion der Verbalisierungen auch die Praktikabilität berücksichtigen (vgl. Krosnick &
Fabrigar, 1997). Bei Telefonbefragungen ist diese Praktikabilität z.B. nicht gegeben.
Die Abfrage verbalisierter Antwortalternativen sollte in diesem Fall nicht über drei
bis vier liegen. Andernfalls können Recency-Effekten nicht ausgeschlossen werden,
da die Befragten nicht alle verbalen Benennungen im Kurzzeitgedächtnis speichern
können, gerade, wenn ein hoher Zeitdruck wie bei Telefoninterviews empfunden
wird.
252 III.3 Einflüsse auf das Antwortverhalten

Verzerrungen bei Zustimmungsskalen


Bei Zustimmungsskalen wie sie etwa Skalen vom Likert-Typ darstellen, muss ver-
stärkt mit einer inhaltsunabhängigen Zustimmungstendenz (engl.: acquiescence)
gerechnet werden, die durch Faktoren wie „Höflichkeit“, „Fügsamkeit gegenüber
Personen mit einem höheren Sozialstatus“ oder Satisficing bewirkt sein könnte.
Die Zustimmungstendenz kann von zahlreichen Faktoren abhängen. Nachgewie-
sen sind positive Auswirkungen durch „niedrigen Sozialstatus“, „geringere Schul-
bildung“, „geringe Intelligenz“, „geringere kognitive Energie“, „“geringere Freude
am Denken“, „geringeres Bestreben, einen guten Eindruck zu vermitteln“, „Müdig-
keit“ (vgl. die Zusammenfassung von Krosnick & Presser, 2010, pp. 276 und die
dort zitierte Literatur). Bei Telefoninterviews ist scheinbar mit einer höheren Zu-
stimmungstendenz als bei Face-to-Face-Umfragen zu rechnen (vgl. z.B. Holbrook,
Green & Krosnick, 2003). Auch mit kulturellen Einflüssen muss gerechnet werden.
In einigen Kulturen ist man eher zögerlich mit Ablehnungen (vgl. z.B. Faulbaum,
1988).
Die Zustimmungstendenz erstreckt sich auch auf entsprechende dichotome Ver-
balisierungen wie „stimme zu“ vs. „stimme nicht zu“ oder auch auf Ja/Nein-Fakt-
fragen. In Bezug auf letztere wurde wiederholt gefunden, dass die Antwort „Ja“ eher
gewählt wird, wenn die Antwort korrekt ist, als wenn sie es nicht ist. (vgl. Krosnick
& Presser, 2010, p. 276).
Zur Vermeidung von Effekten der Zustimmungstendenz bei Zustimmungsska-
len ist zu empfehlen, die relevante Beurteilungsdimension direkt abzufragen, also
statt
Ich bin mit meinen monatlichen Nettoeinkommen zufrieden
„Stimme voll und ganz zu“, „stimme zu“, „weder/noch“, „stimme nicht zu“, „stimme
überhaupt nicht zu“
besser:
Wie zufrieden sind Sie mit Ihrem monatlichen Nettoeinkommen?
Sehr zufrieden, zufrieden, weder/noch nicht zufrieden, überhaupt nicht zufrieden
Um eine Abhängigkeit von der Interpretation verbaler Nennungen zu umgehen,
empfiehlt sich eher eine numerische Skala, bei der nur die Endpunkte genannt sind.
Dies ist auch bei Telefonumfragen bei mehr als drei Abstufungen eine geeignete
Alternative.
III.3 Einflüsse auf das Antwortverhalten 253

Zusammenfassung der Verzerrungsarten bei Ratingskalen


Tourangeau, Rips & Rasinski (2000, p. 248) unterscheiden zusammenfassend fol-
gende Arten von Verzerrungen bei Rating-Skalen:
• Positivity bias (Tendenz, die negative Seite von Skalen zu meiden);
• Scale label effects (negative Zahlen werden so interpretiert, dass sie extremere
Urteile implizieren als positive);
• Response contraction bias (Befragte vermeiden extreme Antwortkategorien);
• Reference point effects (bestimmte Zahlen übertragen spezifische Bedeutungen,
die Befragte ermutigen oder entmutigen, eine Antwortalternative zu wählen
bzw. Bevorzugung oder Vermeidung prototypischer Begriffe und Zahlen (vgl.
Rosch, 1975; Kubovy & Psotka, 1976);
• Scale range effects (der Skalenbereich ändert die Überzeugungen über das zu
beurteilende Objekt).

Visuelle Analogskalen
Antwortdimensionen lassen sich auch mit Hilfe von visuellen Analogskalen präsen-
tieren. Tourangeau, Couper & Conrad (2007) untersuchten Unterschiede zwischen
visuellen Analogskalen und anderen Skalen, darunter graphische Ratingskalen, bei
denen eine Antwortlinie verbal abgestuft wurde, Skalen mit numerischen Abstu-
fungen und Skalen mit Radioknöpfen. Sie fanden, dass visuelle Analogskalen die
höchste Anzahl fehlender Werte und die längsten Bearbeitungszeiten aufwiesen.

III.3.6.3 Wirkung von Interviewer-Merkmalen

Studien zu den Wirkungen von Eigenschaften der Interviewer auf das Antwort-
verhalten der Befragten wurden sehr frühzeitig stimuliert durch amerikanische
Untersuchungen zu den Wirkungen afroamerikanischer und weißer Interviewer
auf afroamerikanische oder weiße Befragte. In der Frühzeit wurden dunkelhäu-
tige Interviewer vor allem eingesetzt, um dunkelhäutige Befragte zu interviewen,
da frühe Studien zeigten, dass Reaktionen von schwarzen Befragten auf weiße In-
terviewer durch Angst vor physischer Verletzung geprägt sein konnten und dass
schwarze Befragte vor unbekannten weißen Interviewern Angst hatten (vgl. Hy-
man, 1954). Auf der anderen Seit verlangte es damals weißen Kontaktpersonen
Mut ab, schwarzhäutigen Interviewern mit Vertrauen zu begegnen (vgl. Schuman
& Converse, 1968).
254 III.3 Einflüsse auf das Antwortverhalten

Analysen zu den Effekten der Rasse (engl.: race) auf das Antwortverhalten zeig-
ten u.a. auch, dass bei Abweichungen der Rasse zwischen Interviewern und Befrag-
ten, Antworten vermieden wurden, die die andere Rasse hätten beleidigen können
(vgl. Hatchett & Schuman, 1975). Die Ergebnisse dieser frühen Studien beleuchten
jedenfalls die Rolle der sozialen, insbesondere der ethnischen Interaktion zwischen
Interviewern und Befragten auf das Antwortverhalten. Die Studien basierten al-
lerdings auf Face-to-Face-Umfragen, bei denen Interviewer physisch präsent wa-
ren. Die Frage ist, ob ein solcher Einfluss auch existiert, wenn der Interviewer nur
virtuell präsent ist. Ergebnisse eines Experiments von Krysan und Couper (2003)
ergaben, dass weiße Befragte in Bezug auf die Rasse konservativere Antworten ga-
ben, wenn die Fragen von schwarzen Interviewern in einem Video gestellt wurden
als wenn sie von weißen Interviewern gestellt wurden. Die Interpretation dieses
Befunds, dass negative Vorurteile gegenüber schwarzen Interviewern in der vir-
tuellen Situation der bloßen Präsenz verstärkt werden, in der sozialen Präsenz der
physischen Anwesenheit aber eher einer Zensur unterliegen, konnte in einem spä-
teren Webumfrage-Experiment teilweise bestätigt werden (vgl. Krysan & Couper,
2006). Die Studien über die Interaktion zwischen weißen/schwarzen Interviewern
und weißen/schwarzen Befragten geben über die spezifischen Eigenschaften der
Interviewpartner hinaus einen Einblick in die möglichen Effekte der ethnischen
Zusammensetzung der Interviewpartner.
Nicht nur in Bezug auf die ethnische Herkunft, sondern auch in Bezug auf das
Geschlecht kann es bei spezifischen Themen zu sozialen Interaktionen zwischen
Interviewern und Befragten kommen. So wird etwa der Messfehler bei bestimm-
ten Fragen offensichtlich auch durch das Geschlecht der Interviewer beeinflusst. So
fanden z.B. Liu und Stainback (2013) empirische Hinweise dafür, dass weibliche
Interviewer bei Items, die für eine Heirat sprechen, positivere Antworten gaben als
männliche Interviewer.
Einer der bereits erwähnten möglichen Einflüsse der Interviewer auf die Mes-
sung besteht in der Erzeugung Interviewer-spezifischer Homogenität. Auch diese
kann bei bestimmten Themen durchaus von spezifischen Konstellationen der In-
terviewpartner abhängen. So äußern sich etwa männliche Respondenten je nach
Geschlecht der Interviewer unterschiedlich. In einer Studie gaben männliche Res-
pondenten gegenüber weiblichen Interviewern bei Fragen, die sich auf Geschlech-
ter-Ungleichheit bezogen, eher gleichheits-orientierte Antworten. Eine Erklärung
wäre die, dass männliche Interviewer möglicherweise versuchen, gegenüber weib-
lichen Interviewern höflicher zu sein. Weibliche Respondenten unterschieden sich
in ihren Antworten gegenüber Interviewern unterschiedlichen Geschlechts bei
Fragen, die sich auf Gruppeninteressen und Handlungsorientierungen beziehen
(vgl. Kane & Macaulay, 1993). Auch Zukunftsvorstellungen der Befragten könn-
III.3 Einflüsse auf das Antwortverhalten 255

ten vom Geschlecht der Interviewer beeinflusst sein. So fanden Groves und Fultz
(1985) empirische Anhaltspunkte dafür, dass männliche Interviewer von ihren Be-
fragten optimistischere Einschätzungen ihrer ökonomischen Aussichten erhielten.
Ein wichtiger Mediator des Geschlechtereinflusses auf das Antwortverhalten kann
die Stimme sein. So fanden Dykema et a. (2012) in einer Analyse von ACASI-Ant-
worten auf sensitive Fragen, dass die weibliche Stimme bei männlichen Befrag-
ten ein genaueres Antwortverhalten zur Folge hat. Männliche Befragte zeigten ein
stärkeres Engagement bei der Beantwortung von Fragen und gaben konsistentere
Antworten, wenn die Fragen durch eine weibliche Stimme vorgetragen wurden.
Negativ auf die Datenqualität können sich persönliche Beziehungen zwischen In-
terviewern und Befragen auswirken, die sich im Verlauf des Interviewprozesses ent-
wickeln (vgl. Beatty, 1995; Dijkstra, 1987), eine Qualitätsgefährdung, die vor allem
bei freier geführten Interviews entstehen kann. Es spricht ferner einiges für einen
Zusammenhang zwischen dem Erfolg von Interviewern, einen Kontakt oder eine
Kooperation herzustellen und der Höhe des Messfehlers.
Die Befunde zeigen, dass bei der Beurteilung der Validität der Antworten im-
mer auch eine mögliche Interviewer-Befragten-Interaktion in Betracht gezogen
werden muss.

III.3.6.4 Einflüsse des Layouts bei Selbstadministrierten Inter-


views

Bei Selbst-administrierten Interviews spielt zusätzlich zu Formulierungen und In-


halten der Frage die Form eine Rolle, in der die Fragen/Items visuell dargestellt
wird; d.h. das Layout von Fragen kann bewirken, dass Befragte nunmehr nicht mehr
nur auf den Inhalt einer Frage reagieren, sondern auf Merkmale der Darstellungs-
form wie stilistische Elemente, graphische Darstellungen, etc., die grundsätzlich ein
Einfallstor für Antwortverzerrungen eröffnen können. Bei selbst-administrierten
Befragungen werden die Materialien visuell vorgelegt und müssen vom Bildschirm
oder vom Papierfragebogen abgelesen werden. Dies bedeutet, dass nunmehr für die
optimale Gestaltung von Fragebögen auch Erkenntnisse der Wahrnehmungspsy-
chologie und der Leseforschung relevant werden. Hat ein Befragter die Informa-
tion visuell wahrgenommen, muss er auch das Layout der Information verstehen.
Darüber hinaus wird von den Befragten verlangt, das einführende Material und
die Instruktionen, deren Beachtung erst eine erfolgreiche Navigation durch den
Fragebogen ermöglicht, zu verstehen.
Im Vergleich zum Papierfragebogen kommen bei Onlinefragebögen Soft- und
Hardwarevoraussetzungen in der Ausstattung der Befragten hinzu. Eine ungüns-
256 III.3 Einflüsse auf das Antwortverhalten

tige Schriftart und Schriftgröße, eine ungünstige Aufteilung des Bildschirms, etc.
können unerwünschte und unvorhergesehene Effekte auf die Bereitschaft zum
Ausfüllen oder zum Abbruch des Interviews führen. Nicht nur die Darstellung der
Fragetexte, sondern auch die optische Darstellung von Antwortskalen erfordern
hier besondere Überlegungen, da Layout und Design Einflüsse auf das Antwortver-
halten ausüben können (vgl. Jenkins & Dillman 1997; Sless 1994).
Das Layout entsteht durch die Bindung eines Fragetextes an einen Zeichenträger
bzw. Übertragungskanal und ist mitbestimmend nicht nur für die Lesbarkeit bzw.
Wahrnehmbarkeit des Textes, sondern auch für die Interpretierbarkeit des Frage-
textes. Die Größe der Buchstaben, die Hervorhebung von Textpassagen und Wor-
ten, die Platzierung der Fragen und Items auf dem Bildschirm, die Gestaltung des
Hintergrunds, die Darstellung der Skalenpunkte auf dem Bildschirm, die Verwen-
dung von besonderen Symbolen und Bildern etc. stellen mögliche Determinanten
des Frageverständnisses und damit der Fragenqualität dar. Selbst-administrierte
computerunterstützte Interviews bieten zahlreiche Möglichkeiten der Einbindung
graphischer Elemente sowie von Bildern und der Platzierung von Textinformati-
onen. Insbesondere Webfragebögen bieten dafür besondere Möglichkeiten (vgl.
Couper, Tourangeau & Kenyon 2004).
Schon die Wahl der Antwortalternativen durch Radio-Knöpfe oder Drop-
Down-Boxen (siehe oben) sollte sorgfältig getroffen werden, um zu verhindern,
dass Befragte vorzeitig aus der Bearbeitung des Fragebogens aussteigen. So fanden
z.B. Heerwegh & Loosveldt (2002) gewisse Hinweise dafür, dass Drop-Down-Bo-
xen mehr Zeit brauchen und zu einer höheren Drop-out-Rate führen als Radi-
oknöpfe. Allerdings war der Effekt relativ gering.
Auch das Format der Antwortboxen, in die numerische Angaben eingetragen
werden sollen, kann einen Einfluss auf die Antwortverteilungen haben. So fanden
Couper, Traugott & Lamias (2001) in Bezug auf Webfragebögen, dass eine Verlän-
gerung der Antwortboxen (Kästchen, in die man die Antworten eintragen muss)
bei sonst gleichen Fragen, die Antwortverteilungen verändert. Christian & Dillman
(2004) fanden in Bezug auf schriftliche Fragebögen folgende Einflüsse:
• Lineare und nichtlineare Darstellungen (Platzierung der Kategorien nebenein-
ander in mehreren Spalten) von Antwortskalen hatten ebenfalls einen Einfluss.
Befragte wählten in der nichtlinearen Darstellung eher Kategorien der obersten
Zeile.
• Gleichheit oder Ungleichheit von Abständen zwischen den Antwortkategorien
kann ebenfalls einen Effekt auf die Wahl der Antwortkategorien haben.
• Die Größe des für Antworten auf offene Fragen zur Verfügung gestellten Raums
beeinflusst sowohl die Anzahl der Themen, die in den Antworten angesprochen
werden als auch die Anzahl der Worte.
III.3 Einflüsse auf das Antwortverhalten 257

• Die Verwendung von Linien für die Einträge von Antworten verringert nicht
die Anzahl der angesprochenen Themen und die Anzahl der verwendeten Wor-
te.
• Richtungspfeile auf untergeordnete Fragen erhöhen signifikant den Anteil der
Befragten, welche die untergeordneten Fragen beantworten sollen.
• Ein Vergleich von polaren Antwortskalen, bei denen nur die Endpunkte ver-
balisiert wurden, mit Abstufungen in Form von Antwortboxen, in welche die
Befragten den numerischen Skalenwert eintragen konnten, ergab, dass die
Skalenmittelwerte bei den Boxen erheblich höher lagen. Auf der Suche nach
Erklärungen führten die Autoren weitere Experimente durch, bei denen sich
herausstellte, dass das Weglassen graphischer Informationen einen Effekt auf
das Skalenverständnis hat.
Auch Christian, Dillman & Smyth (2007; vgl. auch Stern, Dillman & Smyth 2007)
fanden Einflüsse des Layouts der Antwortboxen auf das Befragten-Verhalten bei
Webfragebögen. Sie studierten die Einflüsse unterschiedlicher Größen von Boxen
für Zeitangaben in Jahren und Monaten, Einflüsse der Verwendung von symboli-
schen Informationen statt verbaler Benennungen, Einflüsse der Gruppierung der
Zeitangaben um die Boxen, der Verbalisierung (z.B. Wann vs. In welchem Jahr und
Monat) sowie Einflüsse des Zwischenraums zwischen der Präsentation von Jahr
und Monat. Dabei konnten sie z.B. zeigen, dass eine kleinere Monatsbox zusam-
men mit einer größeren Jahresbox dazu führt, dass Befragte eher eine vierstelli-
ge Jahresangabe machen. Die Verwendung von Symbolen (MM,YYYY) statt von
Worten (Monat, Jahr) erhöht den Prozentsatz der korrekten Angaben. Ähnliche
Ergebnisse fand Fuchs (2009) bei Mailumfragen.

Einflüsse der Anordnung der Antwortkategorien und Items


Nach Analysen von Tourangeau, Couper & Conrad (2004) hat die Anordnung der
Antwortkategorien und der Items einen Effekt auf die Geschwindigkeit, mit der
Befragte antworten. Waren die Antwortkategorien in einer logischen Reihenfolge
von unten nach oben dargestellt, wurden die Antworten schneller gegeben. Weite-
re Ergebnisse betreffen mögliche Positionseffekte von ungewohnten Items in einer
Menge von ähnlichen Items und die Verteilung von Items über verschiedene Seiten.
Ungewohnte Items wie z.B. ungewohnte Autotypen werden, wenn sie hinsichtlich
des Preises eingeschätzt werden sollen, so eingeschätzt wie es ihrer Position in ei-
ner Reihe ähnlicher Automodelle entspricht, sofern die Automodelle hinsichtlich
einer Dimension wie z.B. des Preisgefälles logisch angeordnet sind. Sind die Items
aber nicht logisch angeordnet, so tritt ein Kontrasteffekt auf, indem das Item mit
den Nachbaritems kontrastiert wird. In Bezug auf die Verteilung von Items über
258 III.3 Einflüsse auf das Antwortverhalten

verschiedene Seiten untersuchten die Autoren auch die Unterschiede zwischen der
Präsentation auf einer Seite, auf zwei Seiten und in der Form der Präsentation jedes
Items auf einer getrennten Seite. Die Interkorrelation der Items war am höchsten,
wenn alle Items auf einer Seite dargestellt wurden. Die Befragten leiten aus der
räumlichen Nähe offensichtlich eine Ähnlichkeit der Items ab.

Anzahl der Items auf dem Bildschirm


Einige Befunde sprechen dafür, dass die Präsentation mehrerer Fragen auf dem
Bildschirm die Interitem-Korrelationen erhöht (vgl. Fuchs, 2001, Tourangeau et al.,
2004). Peytchev (2007) führt dies auf Fehlerkorrelationen zwischen den Items zu-
rück (zit. nach Peytchev & Hill, 2010, p. 326). Toepoel, Das und Van Soest (2009)
untersuchten die Wirkung der Anzahl der Items, die auf dem Bildschirm gleichzei-
tig präsentiert werden. Die Autoren fanden Hinweise dafür, dass die Erhöhung der
Anzahl der Items die Anzahl der Nichtantworten erhöht, die Bearbeitungszeit des
Fragebogens vermindert und die Zufriedenheit mit der Umfrage reduziert. Der Ef-
fekt tritt vor allem auf, wenn ein Scrolling erforderlich ist. Die Autoren empfehlen,
4 bis 10 Items auf dem Bildschirm zu platzieren, um ein Scrolling zu vermeiden.

Einflüsse auf die Beachtung von Instruktionen


Die Lage der Instruktionen relativ zum Fragetext hat einen Einfluss darauf, ob die
Instruktionen beachtet werden (vgl. Christian & Dillman 2004).

Einflüsse des Layouts auf den Anteil nicht-adäquater Antworten


Nach Couper, Traugott & Lamias (2001) führen Antwortboxen im Vergleich zu
Radio Buttons bei Webfragebögen zu einem höheren Prozentsatz von Item Non-
response. Ferner werden die Antwortzeiten und die Anzahl fehlender Antworten
reduziert, wenn mehrere Items auf einer Bildschirmseite dargestellt werden. Die
Präsentation mehrerer Items auf einer Bildschirmseite erzeugt dabei keine höhere
Korrelation zwischen den Items als in dem Fall, wo jedes Item auf einer einzigen
Bildschirmseite platziert wird. Allerdings dürfte es dabei darauf ankommen, wie
stark die Items thematisch zusammenhängen. Die Darstellung mehrerer Items auf
einer Bildschirm-Seite führte auch zu einer geringeren Anzahl von „Weiß nicht“
und „will ich lieber nicht sagen“-Antworten.
III.3 Einflüsse auf das Antwortverhalten 259

Einflüsse des Layouts von Fragen


Smyth et al., (2006) untersuchten in einer Studie die Gewohnheit von Umfrage-
forschern, in Webumfragen „check-all“ – Fragen, in telefonischen Umfragen aber
„forced choice“-Fragen zu stellen. Bei „check all“-Fragen werden die Befragten ge-
beten, alle Items auszuwählen, denen sie zustimmen („check all that apply“ bzw.
„Bitte alles Zutreffende ankreuzen“). Unter „forced-choice“-Fragen werden Fra-
gen verstanden, bei denen jedem Item nacheinander getrennt zugestimmt wer-
den muss. Die Ergebnisse ihrer Experimente zeigen, dass „forced-choice“-Fragen
„check-all“-Fragen vorzuziehen sind, weil die Befragten bei letzteren mehr Items
zustimmen bzw. mit „Ja“ beantworten. Die Befragten verwendeten außerdem mehr
Zeit für die Beantwortung der „forced choice“-Frage im Vergleich mit den „check-
all“-Fragen, was darauf hindeuten könnte, dass „forced-choice“-Fragen sorgfältiger
beantwortet werden.

Die Wirkung von Fortschrittsanzeigen (engl. progress indicators)


Yan et al. (2010) studierten den Einfluss der Interaktion zwischen Fortschrittsan-
zeige, der eingangs gegebenen Informationen über die Dauer des Interviews, der
tatsächlichen Fragebogenlänge und dem Sachverhalt, ob der Fortschritt angezeigt
wird oder nicht. Im Mittelpunkt der Analyse stand die Frage, wann und unter wel-
chen Bedingungen die Befragten das Interview abbrechen. Die Ergebnisse zeigen,
dass das Abbruchverhalten ein komplexes Phänomen ist. Die Befunde zeigten:
• Grundsätzlich beeinflusst die Präsentation einer Fortschrittsanzeige nicht die
Entscheidung der Befragten, das Webinterview bis zum Ende fortzuführen.
• Die Präsentation einer Fortschrittsanzeige führt bei kurzen Interviews zu weni-
ger Abbrüchen als bei längeren Interview.
• Die Präsentation einer Fortschrittsanzeige führt zu weniger Abbrüchen, wenn
die eingangs abgegebene Schätzung der Interviewdauer kürzer ist als wenn sie
länger ist.
• Die Präsentation einer Fortschrittsanzeige führt zu weniger Abbrüchen, wenn
die Fragebogenlänge bei Ankündigung eines kurzen Fragebogens tatsächlich
kurz ist. Bei längeren Fragbögen kamen die Abbrüche außerdem früher. Es ist
also von Bedeutung, ob die Fortschrittsanzeige zum Fortführen des Interviews
ermutigt statt entmutigt.
Als Ergebnis konnte festgehalten werden, dass Fortschrittsanzeigen bei langen In-
terviews eher nicht verwendet werden sollten. In der Studie nicht geklärt werden
konnte allerdings die Rolle des Engagements (commitment) von Befragten.
260 III.3 Einflüsse auf das Antwortverhalten

Mobiles Web
Zunächst muss mit den gleichen Effekten gerechnet werden wie beim festinstal-
lierten Rechner. Allerdings kann es je nach Ausstattung des mobilen Geräts Effekte
der Bildschirmgröße, etc. geben (vgl. Peytchev & Hill, 2010). Es empfiehlt sich in
jedem Fall einem mobilen Survey einen extensiven Pretest inkl. Usability-Test vo-
ranzustellen.

Wirkung von Bildinformationen


Selbst-administrierte Interviews, insbesondere Webinterviews, bieten die Mög-
lichkeit der Einbindung visueller Informationen. Zahlreiche Studien beschäftigen
sich mit der Wirkung von Bildinformationen u (vgl. Couper, Conrad & Touran-
geau, 2007; Couper, Tourangeau & Kenyon, 2004; Knobloch et al., 2003; Toepoel
& Couper, 2011; Witte et al., 2004). Bilder können in Webfragebögen ganz unter-
schiedliche Funktionen erfüllen. Zunächst bieten Bildinformationen den direkten
Zugang zu Phänomenen und Ereignissen der visuell wahrnehmbaren Außenwelt.
So könnte man die visuelle Erscheinung eines PKW auch verbal beschreiben, ein
Bild stellt aber eine Form der Präsentation dar, die der Wahrnehmung im Alltag
entspricht. Weitere Funktionen von Bildern können sein die Funktion zusätzlicher
Erläuterungen oder motivierende Funktionen (vgl. z.B. Knobloch in Bezug auf die
Motivation zum Lesen von Zeitschriftenartikeln durch die Präsentation von Über-
schriften). Manchmal haben Bildinformationen auch nur stilistischen Charakter. Je
nach Einbettung in die Frage können sie Antworten der Befragten in der Intensität
der Urteile beeinflussen. Bilder können Assimilations- und Kontrasteffekte auslö-
sen. Kontrasteffekte entstehen, wenn die Bildinformation den eigenen Zustand ne-
gativer oder positiver erscheinen lässt. So fanden Couper, Conrad und Tourangeau
(2007), dass das Zeigen einer Frau, die eine große Fitness ausstrahlt, dazu führte,
dass die eigene Gesundheit schlechter eingestuft wurde als wenn eine kranke Frau
dargestellt wurde. Bei einem Assimilationseffekt bewirkt das Bild ein gleichartiges
Verhalten. So zeigen die Untersuchungen von Couper, Tourangeau und Kenyon
(2004), dass Bilder, die ein häufiges Ereignis darstellten, auch zu einer erhöhten
Anzahl berichteter Ereignisse führten. Toepoel und Couper (2011) untersuchten
zusätzlich die Wechselwirkungen von Bildinformation und verbaler Information.
Sie kombinierten Bilder von unterschiedlich häufigen Ereignissen mit verbalen In-
struktionen, unterschiedlich häufige Ereignisse aufzuzählen z.B. "Bitte zählen Sie
alle Einkäufe, vom Lebensmittelgeschäft bis zum Kaufhaus" vs. "Bitte zählen Sie nur
die Einkäufe im Kaufhaus"). Ihre Ergebnisse bestätigten einerseits die Ergebnisse
von Couper, Tourangeau und Kenyon. Andererseits konnten sie zeigen, dass die
III.3 Einflüsse auf das Antwortverhalten 261

Effekte der verbalen Instruktionen aber stärker waren. Die Autoren fanden auch,
dass restriktive Instruktionen wie „Zählen Sie nur die Ereignisse mit einer geringen
Häufigkeit“ den Effekt der Bilder reduzierten.

Layout und interpretative Heuristiken


Gegenüber Interviewer-administrierten Interviews können bei selbst-adminis-
trierten Interviews auch Effekte durch Wechselwirkungen zwischen Layout und
Frageverständnis auftreten. Couper, Tourangeau und Conrad (2004, 2007) unter-
schieden zwischen aufgabenbezogenen und stilistischen Elementen des Fragebo-
gens. Aufgabenbezogene Elemente sind jene, die zur Bearbeitung des Fragebogens
notwendig sind wie z.B. Frageformulierungen, Antwortoptionen, Instruktionen für
die Navigation, etc. Zu den stilistischen Elementen wurden solche gezählt, die das
Aussehen und die Präsentation des Fragebogens wie z.B. Logos, Hintergrundfarben
und Fonts betreffen. Dabei besteht durchaus die Gefahr, dass von den Befragten
stilistische Elemente als aufgabenbezogene Elemente betrachtet werden. In diesem
Zusammenhang unterscheiden die Autoren folgende fünf Heuristiken:
• „mittel“ bedeutete „typisch“: Die Befragten sahen die mittlere Antwortoption in
einer Anordnung von Antwortalternativen als typisch an.
• „links“ und „oben“ bedeutet „zuerst“: Das am weitesten links obenstehende
Item wird auch als das erste Item im konzeptuellen Sinn angesehen. Befragte
erwarten, dass das so platzierte Item die stärkste Ausprägung hat (z.B. stimme
voll und ganz zu) und erwarten in logischer Abfolge die nächst schwächeren
Ausprägungen. Ist dies nicht der Fall, sind sie verwirrt.
• „nahe“ bedeutet „verwandt“: Befragte erwarten, dass physikalisch nebeneinan-
derliegende Items, auch konzeptuell ähnlich sind.
• „oben“ bedeutet „gut“: Das oberste Item in einer Liste wird auch als das am
meisten wünschenswerte Item angesehen.
• „ähnlich“ (in der Erscheinung) bedeutet „ähnlich“ (in der Bedeutung):
• Items, die im Erscheinungsbild ähnlich sind, werden auch als konzeptuell ähn-
lich angesehen.
Die Autoren fanden empirische Evidenz für alle genannten Heuristiken.
Aus den Befunden über die Wirkungen des Layouts lassen sich Gestaltungs-
prinzipien ableiten, die später im Zusammenhang mit der Evaluation von Erhe-
bungsinstrumenten dargestellt werden.
262 III.4 Zusammenfassung

III.4 Zusammenfassung

Für die Auswahl und Gestaltung von Survey-Items steht eine große Menge al-
ternativer Gestaltungsmöglichkeiten zur Verfügung, die durch eigene Vorschlä-
ge erweitert werden kann. Die konkreten Entscheidungen hängen nicht nur von
inhaltlich/thematischen Überlegungen, sondern auch von den Eigenschaften der
Grundgesamtheit, den Kommunikationsformen sowie von den Wirkungen kon-
kreter Realisierungen der Bestandteile der Survey-Items ab. Zu berücksichtigen
sind die zahlreichen Befunde zu den Wirkungen auf das Antwortverhalten. Aller-
dings sind diese inzwischen für den normalen Anwender nahezu unübersehbar
und daher nur schwer in die konkrete Arbeit zu integrieren. Auch sind die Be-
funde gelegentlich widersprüchlich und von den spezifischen Bedingungen und
Designs der einzelnen Studien abhängig. Dennoch gibt es einige Befunde, denen
Erkenntnischarakter zugebilligt werden kann. Dazu gehören z.B. Gefährdungen
der Datenqualität durch Satisficing auf Grund einer zu großen Arbeitsbelastung
und mangelnder Leistungsmotivation der Befragten und der positive Effekt der
Selbstadministration bei sensitiven Fragen, die Folgen der Selbstadministration für
die Bearbeitung von Fragen, Wirkungen des Interviewer-Verhaltens, etc. Wichtig
erscheint in diesem Zusammenhang die Dokumentation der eigenen Erfahrungen
mit unterschiedlichen methodischen Randbedingungen.
Besondere Aufmerksamkeit muss der Semantik und Pragmatik sprachlicher
Äußerungen gewidmet werden. Angestrebt werden sollte eine über Forscher und
Befragte invariante Bedeutungswahrnehmung. Erkenntnisse darüber lassen sich
eigentlich nur über die in Teil V dargestellten Pretest-Verfahren gewinnen. Die
Konsequenzen des Frageentwurfs für die Zuverlässigkeit und Gültigkeit der inten-
dierten Messung lassen sich nur über entsprechende Verfahren der statistischen
Analyse gewinnen (vgl. Teil IV).
Grundsätzlich erscheint es notwendig, dass im Bereich der Einflüsse auf das
Antwortverhalten wiederholte Studien zu gleichen Themen unter weiteren Rand-
bedingungen durchgeführt werden sollten.
Teil IV: Fragen und Antworten als
Messungen

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 263
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1_4
IV.1 Was ist Messen?

Das Messen gehört zur normalen Alltagspraxis des menschlichen Lebens. Wir
messen das Fieber, den Blutdruck, die Raumtemperatur, die Geschwindigkeit, die
Anzahl der Quadratmeter einer Wohnung. In jedem Fall wird durch ein Gerät, das
mit einem Messfühler ausgestattet ist, die Ausprägung einer Eigenschaft bestimmt
und als Zahl verschlüsselt an uns weitergeben. Die gemeinsame Eigenschaft der
genannten Beispiele für das Messen im Alltag besteht darin, dass durch den Mess-
fühler aufgespürte Ausprägungen der Eigenschaft eines Objekts Zahlen zugeordnet
werden, z.B. Zahlen für die Höhe der Temperatur, des Blutdrucks, etc.
Allerdings wird von einem solchen Gerät erwartet, dass die Zuordnung der
Zahlen nicht beliebig erfolgt, sondern so, dass sich unterschiedliche Ausprägun-
gen der gemessenen Eigenschaft in den zugeordneten Zahlen widerspiegeln, d.h.,
dass die Zahlen die Sensitivität des Messfühlers respektieren. So sollten also un-
terschiedliche Wärmezustände eines Raums zumindest durch unterschiedliche,
als Quantitäten interpretierte Zahlen repräsentiert werden. Darüber hinaus wäre
vielleicht auch zu fordern, dass sich wärmere Zustände durch höhere Zahlen als
niedrigere auszeichnen, oder dass sich sogar quantitative Abstände zwischen den
Zuständen in entsprechenden Zahlenverhältnissen widerspiegeln. D.h. wir fordern
eventuell sogar, dass die zugeordneten Zahlen die Beziehungen zwischen den an
den Objekten festgestellten Merkmalsausprägungen respektieren.
Ehe wir die Beziehungen zwischen Merkmalsausprägungen und Zahlen formal
charakterisieren, sollen die Besonderheiten der Messung durch Antworten auf Fra-
gen näher betrachtet werden. Was in Umfragen gemessen wird, sind in der Regel
subjektive Eigenschaften von intern repräsentierten Objekten im weitesten Sinn.
Selbst bei sog, Fakt-Fragen gibt es die „Fakten“ in der Regel nur in der zeitlichen
Modalität der Vergangenheit als subjektive Repräsentationen im Befragten. Weder
der Forscher noch die Administratoren haben in der Regel das Faktum unabhän-
gig vom Befragten beobachtet. Selbst die Existenz dieses Faktums ist fraglich und
wird oft vorausgesetzt. Die Gegenstände, die nach der Bitte um Selbstauskunft vom
Befragten auf Antwortdimensionen bewertet und durch Angabe von Skalenwerten
oder Antwortalternativen geäußert werden, sind ohne Ausnahme subjektiv. Dies
bedeutet, dass im Vergleich zu den „objektiven“ Messungen der äußeren Umge-
bung im Fall sozialwissenschaftlicher Messungen die Messapparatur vollständig im
Befragten, d.h. der inneren Umgebung des Befragten, situiert ist. Registriert wird
vom Forscher nur die beobachtbare, vom Befragten geäußerte Antwort. Sowohl die
zu messende, schon vorhandene oder erst im Antwortprozess erzeugte subjektive
Repräsentation als auch der Messfühler, der diese Repräsentation auf einer subjek-
266 IV.1 Was ist Messen?

tiven Skala beurteilt, ist der Befragte selbst. Insofern lässt der Forscher durch das
Stellen einer Frage den Befragten die Messung intern ausführen und beobachtet das,
was ihm mitgeteilt wird. Aus der geäußerten Mitteilung des Befragten interpretiert
er in einer zum Befragten inversen Abfolge die Äußerung. Der gesamte Messpro-
zess ist dem Forscher verborgen, so dass er die Korrektheit der Messung bei einem
konkreten Befragten nur vermuten kann (vgl. Abbildung IV.1).
Erst im Aggregat, d.h. bei der Ausführung der Messung in einer größeren Stich-
probe von Fällen können unter bestimmten Modellannahmen Rückschlüsse auf
Reliabilität und Validität gezogen werden. Eine Übertragung auf den einzelnen Fall
kann nur über die Annahme einer stochastischen Identität aller Individuen vorge-
nommen werden, so dass also die statistische Verteilung in der Population auch die
Wahrscheinlichkeitsverteilung des einzelnen Individuums wiederspiegelt.

Abbildung IV.1: Übertragung der Messinformation vom Respondenten zum Forscher


IV.1 Was ist Messen? 267

IV.1.2 Formale Präzisierung des Begriffs „Messen“

Der formale Begriff des Messens als Zuordnung von Zahlen zu Eigenschaften von
Objekten, die dann bezüglich quantitativer Ausprägungen untereinander in eine
Ordnung gebracht werden können, wurde ursprünglich für die Messung beobacht-
barer, empirischer Eigenschaften wie z.B. Länge, Wärme, etc. entwickelt. Im Fall
der Messung subjektiver Eigenschaften wie „Zufriedenheit“, „Wichtigkeit“ von Si-
tuationen, Ereignissen, Zuständen, etc. sind nur die beobachteten Äußerungen des
Befragten empirisch. Nur durch den in Abbildung IV.1 dargestellten Rückschluss
des Forschers von der Äußerung auf die subjektive Antwortdimension lassen sich
Ausprägungen in Äußerungen auf subjektive Urteile rückbeziehen.
Man kann die klassische Beschränkung des Messbegriffs auf die Zuordnung von
Zahlen zu empirischen Eigenschaften und Objekten übernehmen und zunächst auf
die Zuordnung von Zahlen zu Werten der Antwortskala beziehen. Individuen sind
dann durch Werte auf einer empirischen und nicht auf einer latenten Antwortdi-
mension unterschieden. Erst im Rahmen eines Modells, das die beobachteten Ant-
worten (Äußerungen) mit den Werten auf der subjektiven latenten Antwortskala
im Sinne von Abschnitt 1.5 verbindet, lassen sich formal die beobachteten Werte
und damit auch die diesen zugeordneten Zahlen auf latente Werte beziehen. In der
Praxis geschieht der Rückschluss in der Regel ohne bewusste Entscheidung für ein
Modell. Stattdessen werden die von den Befragten geäußerten Werte auf der be-
trachteten Antwortdimension mit den subjektiven Urteilen identifiziert. Will man
diese Identifikation nicht, so führt dies zwangsläufig zu Messmodellen mit latenten
Variablen (siehe unten).
Der Begriff „Messen“ empirischer Eigenschaften wird in der Theorie des Mes-
sens im Begriff der Skala gebündelt (vgl. hierzu z.B. Krantz et al., 1971, 1974; Orth,
1974; Stevens, 1957; Suppes & Zinnes, 1963). Eine Skala wird formal als struktur-
treue Abbildung (Funktion, Zuordnung) präzisiert; d.h. eine Skala ordnet Objekten
Zahlen in der Weise zu, dass die zwischen den Objekten bestehenden empirischen
Beziehungen sich in der Beziehung zwischen Zahlen widerspiegeln. Strukturtreue
Abbildungen werden in der Mathematik als Homomorphismen bezeichnet. Box
III.1 enthält ein Beispiel für die strukturtreue Abbildung einer Ordnungsbeziehung.
Eine Menge von Objekten, in der empirische Beziehungen zwischen Objekten
wie z.B. „größer als“ oder „Wert auf einer Antwortskala größer als“ bestehen, wird
in der Messtheorie als empirisches Relativ bezeichnet. Mathematisch handelt es sich
um eine algebraische Struktur. Die Menge der Zahlen, in welche die Objekte des
empirischen Relativs abgebildet werden, heißt numerisches Relativ.
268 IV.1 Was ist Messen?

Eine Skala ist nunmehr definierbar als eine strukturtreue (d.h. homomorphe)
Abbildung eines empirischen Relativs ! in ein numerisches Relativ " . Eine Skala
S ist also durch die folgenden drei Bestandteile definiert:
1) ein empirisches Relativ ! = < A, R >, das in einer Menge A und einer in ihr
GH¿QLHUWHQ5HODWLRQR besteht;
2) ein numerisches Relativ " = < B, S >, das in einer Menge B von Zahlen und
HLQHULQLKUGH¿QLHUWHQ5HODWLRQS besteht;
3) einen Homomorphismus ϕ : A → B des empirischen Relativs in das numeri-
sche Relativ mit φ[R(a, b] = S[φ(a), φ(b)].
R(a, b) wird gelesen als a steht zu b in der Relation R. S(a, b) wird gelesen als die
Zahl a steht zur Zahl b in der Relation S. Prinzipiell kann in den Mengen A und B
natürlich mehr als eine Relation definiert sein.
Eine Skala lässt sich formal kennzeichnen durch Tripel
S = < A, B, φ >.

Box IV.1: Beispiel Strukturtreue Abbildung einer Ordnungsbeziehung


Angenommen, φ wäre die Messung der Körpergröße und a, b, c, d seien Perso-
nen und a ‫ غ‬b bedeute „die Körpergröße von a übertrifft die Körpergröße von
b oder die Körpergrößen sind gleich“. Dann bildet die Menge A={a,b,c,d} von
Personen zusammen mit der Relation ့ ein empirisches Relativ. In der Menge
B der Zahlen des numerischen Relativs der Zahlen betrachten wir die Relation
≥ (größer oder gleich als). Die folgende Zuordnung ist dann ein Homomorphis-
mus, d.h. eine strukturtreue Abbildung:

Empirisches Relativ Numerisches Relativ


a့b φ(a) = 3 ≥ φ(b) = 3
a့c φ(a) = 3 ≥ φ(c) = 2
a့d φ(a) = 3 ≥ φ(d) = 1
b့c φ(b) = 3 ≥ φ(c) = 2
b့d φ(b) = 3 ≥ φ(d) = 1
c့d φ(c) = 2 ≥ φ(d) = 1

Eine wichtige Frage ist, ob es für ein vorgegebenes empirisches Relativ einen Ho-
momorphismus gibt bzw. ob eine Skala existiert (Repräsentationsproblem).
Durch Einführung von Axiomen, die im empirischen Relativ als gültig ange-
nommen werden, lassen sich mehr oder weniger komplexe sog. Messstrukturen
definieren. Im einfachsten Fall wäre nur eine Äquivalenzrelation im empirischen
IV.1 Was ist Messen? 269

Relativ als gültig angenommen, in komplexeren Fällen eine Ordnungs-Messstruk-


tur oder oder sogar eine Intervall-Messtruktur (vgl. Orth, 1974: 42 ff). Der ein-
fachste Fall einer Messtruktur ist gegeben, wenn im empirischen Relativ nur eine
Äquivalenzrelation definiert ist. Eine Äquivalenzrelation ≈ ist mathematisch durch
die folgenden Axiome gekennzeichnet:
1) a ≈ a (Reflexivität)
2) a ≈ b o b ≈ a 6\PPHWULH
3) a ≈ b und b ≈ c o a ≈ c (Transitivität)
Ein Beispiel für eine solche Relation wäre z.B. „a und b gehören zur gleichen po-
litischen Partei“. Eine Äquivalenzrelation führt im empirischen Relativ zu einer
Klasseneinteilung. Ein Homomorphismus in ein numerisches Relativ, der eine
Äquivalenzrelation respktiert, heißt auch Nominalskala. Eine Nominalskala ist also
definiert durch folgenden Homomorphismus definiert:
a ‫ ؠ‬b oφ(a) = φ(b)
a ‫ ء‬b oφ(a) ≠ φ(b).
In diesem Fall werden Elementen des empirischen Relativs, die zur gleichen Klas-
se gehören die gleichen Zahlen zugeordnet. In dem oben genannten Beispielfall
der Relation „gehören zur gleichen Partei“ wird Personen, die zur gleichen Par-
tei gehören, die gleichen Zahlen zugeordnet. Die bereits erwähnten komplexeren
Messtrukturen wie Ordnungs- und Intervallstrukturen führen zu weiteren Skalen-
typen, von denen die wichtigsten die Ordinalskala (respektiert die Ordnung der
Elemente des empirischen Relativs) und die Intervallskala (respektiert die Diffe-
renzenstruktur des empirischen Relativs).
Aus der obigen Darstellung geht hervor, dass Skalen durch Messstrukturen de-
finiert sind. In Abschnitt 4.3 wird dargestellt, dass sie sich auch durch die Art der
zulässigen numerischen Transformationen charakterisieren lassen. Methoden zur
Herstellung einer Skala heißen auch Skalierungsverfahren (vgl. Borg & Staufenbiel,
2007; Guilford, 1954; Orth, 1976). Letztere können auf verschiedenen Arten von
Verhaltensdaten beruhen wie z.B. Paarvergleiche, psychophysische Skalierung wie
Einschätzungen physikalischer Größen wie Lautstärke, Tonhöhe, Objektgrößen,
Häufigeiten des Auftretens von Objekten etc. Eine Skalierung kann auch in mehre-
ren Dimensionen simultan erfolgen. In diesem Fall spricht man mehr- oder multidi-
mensionaler Skalierung (vgl. Borg, 1981; Borg & Groenen, 2010).
Einstufungen auf Antwortskalen erlauben nicht notwendig die Zuordnung zu
einer Skala mit bestimmten Eigenschaften im messtheoretischen Sinn. Die Mess-
struktur einer Variablen kann wegen des erhebungstechnischen und auswertungs-
technischen Aufwand weder in der Umfrage selbst, noch in einem vorangehenden
270 IV.1 Was ist Messen?

Pretest validiert werden. Annahmen über Messtrukturen basieren in der Regel


auf Intuition und Festlegungen. Um z.B. zu überprüfen, ob die vorgegebenen An-
worten auf die Frage nach dem höchsten allgemein bildenden Schulabschluss eine
Ordinalskala oder sogar eine Intervallskala des Merkmals „Bildung“ darstellen,
müssten streng genommen zunächst geeignete Skalierungsverfahren angewendet
werden. Durch Paarvergleiche der Antwortalternativen in Hinblick auf das Merk-
mal „Bildung“ könnte etwa die Ordinalität der Skala überprüft werden. Durch
Paarvergleiche zwischen Differenzen der Alternativen hinsichtlich Bildung könnte
auch die Intervalleigenschaft validiert werden. Ein seltenes Beispiel für den auf-
wändigen Nachweis der Intervalleigenschaft einer Skalen liefert Wegener (1982) im
Rahmen der Zusatzstudie „Skalenvergleich“ zur Allgemeinen Bevölkerungsumfra-
ge der Sozialwissenschaften 1982 (vgl. auch die Zusammenfassung der Studie von
Faulbaum, 1984). Die von Wegener u.a. analysierte Frage war, ob die im ALLBUS
wiederholt erhobenen Items der beruflichen Merkmale „Sichere Berufsstellung“,
„Hohes Einkommen“, „Ein Beruf, der anerkannt und geachtet wird“, „Ein Beruf,
der einem viel Freizeit lässt“, „Interessante Tätigkeit“, „Eine Tätigkeit, bei der man
selbstständig arbeiten kann“, „Ein Beruf, der viel Verantwortungsbewusstsein er-
fordert“, „Viel Kontakt zu anderen Menschen“, „Ein Beruf, bei denen man anderen
helfen kann“, „Ein Beruf, der für die Gesellschaft nützlich ist“, „Gibt mir das Gefühl,
etwas Sinnvolles zu tun“, „Sichere und gesunde Arbeitsbedingungen“ eine Interva-
llskala der Berufswerte hinsichtlich der Antwortdimension „Wichtigkeit“ darstel-
len. Dazu wurden an einer Stichprobe von Probanden Paarvergleiche zwischen den
Wichtigkeitsdifferenzen zwischen je zwei Berufsmerkmalen vorgenommen, um die
einer Intervallskala zugrundeliegenden Axiome zu überprüfen. Solche aufwändi-
gen Überprüfungen der axiomatischen Eigenschaften und damit der Bestimmung
des Skalentyps lassen sich nur in getrennten Studien durchführen. Sie wären aber
wenigstens für immer wieder verwendete Antwortalternativen wünschenswert.

IV.1.3 Skalenniveaus: Charakterisierung von Skalen durch


zulässige numerische Transformationen

Wie oben dargestellt, müsste zur Typisierung von Skalen eigentlich überprüft wer-
den, welche Messtrukturen der Messung zugrundeliegen, was gleichbedeutend mit
einer Validierung der die Messstruktur definierenden Axiome wäre. Dies lässt sich
aber in der Regel aber nur in experimentellen Kontexten durchführen. Berühmt
sind in den Verhaltenswissenschaften die verschiedenen Überprüfungen von Ei-
genschaften der Nutzenskala und der Skala der subjektiven Wahrscheinlichkeiten
IV.1 Was ist Messen? 271

auf der Basis der Axiome, die Savage (1954) in seinem berühmten Werk „Founda-
tions of Statistics“ aufgestellt hat. Auch für die Überprüfung der Intervallskalen-
qualität von Skalen wurde gibt es Beispiele (vgl. z.B. Wegener, 1982). In der Praxis
werden Annahmen über die Skalenqualität aber, vor allem von Rating-Skalen, oft
einfach vorausgesetzt.
Skalen, die durch bestimmte Messstrukturen und diese respektierende Homo-
morphismen definiert sind, lassen sich auch durch numerische Transformationen
typisieren, die für eine Skala zugelassen sind (vgl. Stevens, 1946). Dabei lassen sich
folgende Typen unterscheiden, die auch als Mess- oder Skalenniveaus bezeichnet
werden:

Nominalskalen
Nominalskalen sind eindeutig bis auf ein ein-eindeutige Transformation, d.h. alle
ein-eindeutige (auch: injektive) Abbildungen einer der Nominalskala ergeben wie-
der Nominalskalen. Nehmen wir das oben genannte Beispiel der Parteizugehörig-
keit. Dann sind alle in Tabelle IV.1 dargestellten drei Zuordnungen von Zahlen glei-
chermaßen zulässige Nominalskalen. Jede Zuordnung entsteht aus einer anderen
durch eine ein-eindeutige von Zahlen in Zahlen.

Tabelle IV.1: Zulässige Nominalskalen des Merkmals “Parteizugehörigkeit”

Merkmal „Parteizugehörigkeit“ Skala 1 Skala 2 Skala 3

CDU/CSU 1 7 3
SPD 2 20 12
FDP 3 1 25
Bündnis90/Die Grünen 4 300
Piraten 5 2 26
NPD 6 8 19
sonstige 7 6 5

Wie bereits in Abschnitt IV.1.2 erwähnt, respektiert eine Nominalskala nur die
Einteilung in Klassen. Die Klasse aller Personen, die einer der genannten Parteien
angehören, sind durch den gleichen Zahlenwert gekennzeichnet. Die Zahlen haben
hier nur die Funktion von Namen.
272 IV.1 Was ist Messen?

Ordinalskalen
Ordinalskalen respektieren die Ordnungsrelation im empirischen Relativ. Sie sind
eindeutig bis auf eine monoton steigende Transformation; d.h. durch eine mono-
ton steigende Transformation erhält man wieder eine zulässige Ordinalskala. Eine
monoton steigende Transformation φ ist definiert durch
x > y oφ(x) > φ(y),
wobei x, y, φ(x) und φ(y) Zahlen darstellen. In Box IV.2 ist ein Beispiel für eine
Ordinalskala dargestellt.

Box IV.2: Beispiel für eine Ordinalskala (Interesse an Fernsehsendungen):

Ich habe hier verschiedene Kärtchen, auf denen verschiedene Fernsehsendun-


gen stehen.
Bitte sagen Sie mir jeweils, wie stark Sie sich für solche Sendungen interessieren:
sehr stark, stark, mittel, wenig oder überhaupt nicht?
Fernsehshows, Quizsendungen
Sehr stark
stark
mittel
wenig
Überhaupt nicht
Die Antworten auf diese Frage ergeben eine Rangordnung der Befragten nach
der Intensität ihres Interesses an Fernsehshows und Quizsendungen.

In Tabelle IV.2 werden mögliche zulässige monotone Transformationen dargestellt.


Wie man sieht, sind auch sehr unterschiedliche und inhaltlich nicht mehr nachvoll-
ziehbare numerische Zuordnungen noch mit der formalen Definition einer Ordi-
nalskala vereinbar.
IV.1 Was ist Messen? 273

Merkmal „Interesse an Fernsehsendungen“ Skala 1 Skala 2 Skala 3

sehr stark 1 4 5
stark 2 7 7
mittel 3 9 9
wenig 4 20 12
überhaupt nicht 5 30 15

Intervallskalen
Die Klasse der zulässigen Transformationen bei Intervallskalen sind die positiv li-
nearen (affinen) Abbildungen. Affine Transformationen lassen die Verhältnisse zwi-
schen Intervallen konstant. Sei φ eine Intervallskala. Dann ist auch
ψ(x) = υφ(x) + ν
eine Intervallskala. υ ist eine freiwählbare Skaleneinheit (z.B. Euro oder Cent) und
ν eine willkürliche Verschiebung des Nullpunkts. In Box IV.3 wird die Intervall-
skala anhand der Termperaturskala erläutert.

Box IV.3: Beispiel einer Transformation zwischen zwei Temperaturskalen

Nehmen wir an, in London sei am 04.11.93 eine Temperatur von 50° F (Fahren-
heit) gemessen worden. Dann können wir diesen Wert durch Multiplizieren mit
5
9
und Addieren von 160 9
in den Messwert 10 der Celsius-Skala umrechnen,
so dass wir ebenfalls behaupten können, die Temperatur hätte am 04.11.93 10°
Celsius betragen. Die Gleichung für die lineare Transformation von x° F in y° C
lautet:
5 90
y= x− ,
9 9

so dass sich für einen Wert von 50° Fahrenheit ein Wert von

5
9
50 −
160
9
=
1
9
( 250 − 160 ) = 909 = 10
ergibt.
274 IV.1 Was ist Messen?

Für die Umrechnung von Celsius in Fahrenheit ergibt sich die Gleichung
x = 1, 8 y + 32.

Für y = 0 ergibt sich


x = 32
d.h. der dem Nullpunkt der Celsius-Skala entsprechende Wert der Fahren-
heit-Skala ist 32.

Durch einfache arithmetische Umformungen lässt sich zeigen, dass das Verhältnis
zwischen den Messwert-Differenzen auf zwei Intervallskalen immer einen über alle
Messwerte konstanten Wert ergibt (vgl. Box IV.4).

Box IV.4: Verhältnis der Skalendifferenzen bei Intervallskalen

Seien φ und ψ zwei Intervallskalen und x1 und x2 Messwerte. Dann ergibt sich
für die Differenz der Skalenwerte ψ(x1) und ψ(x2):

ψ ( x1 ) −ψ ( x 2 ) = (υ ⋅ ϕ ( x1 ) +ν ) − (υ ⋅ ϕ ( x 2 ) +ν ) = υ ⋅ ϕ ( x1 ) − υ ⋅ ϕ ( x 2 )
= υ (ϕ ( x 1 ) − ϕ ( x 2 ) ) .

Es ergibt sich also:


ψ ( x1 ) − ψ ( x 2 )
υ= .
ϕ ( x1 ) − ϕ ( x 2 )

Dies bedeutet, dass für beliebige zwei Messwerte das Verhältnis zwischen den
Differenzen auf den beiden Skalen immer den gleichen Wert υ hat.

In den Sozialwissenschaften wird oft vorausgesetzt, dass numerische oder verbale


Ratingskalen mit mehr als 5 Abstufungen Skalen Intervallqualität haben (Quasime-
trik). Tabelle IV.4 zeigt ein Beispiel zulässiger Transformationen einer als 7stufigen
numerischen Ratingskala, der eine Intervallqualität unterstellt wird. Das konstante
Verhältnis der Differenzen ist in diesem Beispiel 0.5.
IV.1 Was ist Messen? 275

Tabelle IV.4: Zulässige Transformationen einer Intervallskala

Messwerte Skala 1 Skala 2 (υ = 2; ν = 3)


φ (x)= 1,5x + 0,5 (ψ (x) = 2(φ(x) + 3
= 2(1,5x + 0,5) + 3 =
3x+ 1 + 3 = 3x + 4
1 2.0 7
2 3.5 10
3 5.0 13
4 6.5 16
5 8.0 19
6 9.5 22
7 11.0 25

Verhältnis-bzw. Ratioskalen und absolute Skalen


Als Spezialfälle von Intervallskalen ergeben sich die Verhältnisskala oder Ratioska-
la und die absolute Skala. Eine Verhältnisskala zeichnet sich durch einen absoluten
Nullpunkt aus. Die Gleichung für die zulässigen Transformationen lautet:
ψ(x) = υφ(x).
Die additive Konstante der Gleichung hat in diesem Fall den Wert 0.
Ein Beispiel im sozialwissenschaftlichen Kontext wäre z.B. das Netto-Haus-
haltseinkommen mit Nulleinkommen als Nullpunkt.
Die Gleichung für die zulässigen Transformationen bei absoluten Skalen lautet:
ψ(x) = φ(x).
In diesem Fall ist die einzig zulässige Transformation die Identitätstransformation.
Beispiele sind Zählskalen, Häufigkeitsskalen und Wahrscheinlichkeitsskalen.
Intervallskalen, Verhältnisskalen und absolute Skalen werden auch als metri-
sche Skalen bezeichnet (vgl. Abbildung IV.2).
276 IV.1 Was ist Messen?

Abbildung IV.2: Metrische Skalen

IV.1.4 Skalenniveaus und zulässige statistische Verfahren für


univariate Analysen

Nicht alle aritmetischen Operationen sind gleichermaßen auf alle Skalenniveaus


durchführbar. Tabelle IV.5 gibt einen Überblick über die zulässigen Maße der zen-
tralen Tendenz (Lageparamter) und die Streuungsmaße.

Tabelle IV.5: Skalenniveaus und Maße der zentralen Tendenz und Streuungsmaße

Skalentyp Maße der zentralen Tendenz Streuungsmaße


Nominalskala Modus Informationsgehalt
Ordinalskal Median Quantile
Intervallskala Arithmetisches Mittel Varianz, Standardabweichung
Verhältnisskala Geometrisches Mittel, Variationskoeffizient
harmonisches Mittel

Tabelle IV.6 gibt einen Überblick über wichtige Korrelationsmaße und Signifikanz-
tests.
IV.2 Die Messung latenter Variablen 277

Tabelle IV.6: Skalenniveaus: Korrelationsmaße und Signifikanztests

Skalentyp Korrelationsmaße Signifikanztests (Beispiele)


Nominalskala χ2-basierte Maße: χ2-Test, Cochran Q-Test,
Kontingenzkoeffizient McNemar-Test
Tetrachorischer Koeffizient
Phi-Koeffizient
Ordinalskala Rangkorrelation nach Spearman Vorzeichentest,
(Spearmans ρ) Mann-Whitney-U-Test,
Kendalls τ-Koeffizienten Kolmogoroff-Smirnow-Test,
Konkordanzkoeffizient W Rangvarianzanalyse von
Polychorische und Polyseriale Friedman,
Korrelationskoeffizienten Test von Kruskal & Wallis
(vgl. Jöreskog, 1994; Olsson,
Drasgow & Dorans, 1982 sowie
die Darstellung in Reinecke, 2015)
Intervallskala Produkt-Moment-Korrelationsko- t-Test,
effizient r, F-Test
Regressionskoeffizient

IV.2 Die Messung latenter Variablen

IV.2.1 Einführende Bemerkungen

Viele Variablen, die wir messen wollen, sind nicht direkt beobachtbar. In Abschnitt
III.1.7 hatten wir die latenten Konstruktvariablen bereits als ein Beispiel für latente
Variablen kennengelernt. Latente Variablen sind grundsätzlich nur „auf dem Um-
weg“ über beobachtbare Variablen messbar. Zu den latenten Variablen sind aber
keineswegs nur die Konstruktvariablen zu rechnen. Beispiele für latente Variab-
len, die keine Konstruktvariablen sind, sind die in Abschnitt III.1.5 eingeführten
latenten Antwortvariablen. Grundsätzlich können auch alle Variablen, die nur bis
auf einen Fehler genau gemessen werden können, als latente Variablen betrachtet
werden, da ein Messfehler stets Anlass für eine Zelegung der gemessenen Variablen
in eine latente „wahre“ Variable und eine Fehlervariable ist. Diese Messfehlerzer-
legung ist Grundlage für den Begriff der Reliabilität (siehe Abschnitt III.1.7). Wir
278 IV.2 Die Messung latenter Variablen

werden uns zunächst den latenten Konstruktvariablen zuwenden, um uns dann


später mit der Fehlertheorie der Messungen und der Reliabilität zu beschäftigen.
Auch Variablen mit empirischer Bedeutung, etwa Faktvariablen (z.B. Monat des
Arztbesuchs) müssen in Befragungen als latente Variablen betrachtet werden, da ihre
Werte (Fakten) zum Zeitpunkt des Interviews im Befragten gespeicherte mutmaßliche
Fakten darstellen, die vom Administrator/Forscher nicht direkt beobachtet werden
können und die, bezogen auf das Faktum, systematisch oder zufällig verzerrt sein
können. Stattdessen muss sich der Forscher auf die Antwort verlassen, deren Korrekt-
heit eventuell mit mehr oder weniger großem Aufwand überprüft werden könnte.

IV.2.2 Messmodelle

IV.2.2.1 Beziehungsformen zwischen Konstruktvariablen und


Indikatoren

Modelle für Beziehungen zwischen Konstruktvariablen und ihren Indikatoren


können je nach den unterstellten Messniveaus der zugrundeliegenden latenten
Konstruktvariablen und der beobachteten bzw. manifesten Indikatoren unter-
schiedliche Formen annehmen:

Latente Variablen Manifeste Variablen Statistische Modelle


stetig stetig Quantitative Mess- bzw. Test-
modelle (Klassische Testtheorie)
stetig ordinal Latent-Trait-Modelle (Item-Res-
ponse-Modelle)
kategorial kategorial Latent-Class-Modelle

In quantitativen Messmodellen wird angenommen, dass die Indikatoren von den


latenten Konstruktuvariablen, z.B. von Fähigkeitsvariablen, Einstellungsvariablen,
etc. bis auf einen Messfehler genau beeinflusst werden. Dieser Ansatz wird auch
den im nächsten Abschnitt behandelten Modellen zugrundegelegt.
Bei Latent-Trait-Modellen werden je nach Verteilungsannahmen unterschied-
liche funktionale Beziehungen zwischen einer stetigen latenten Variablen T und
den Wahrscheinlichkeiten einer der beiden Antwortalternativen einer dichotomen
Antwortvariablen angenommen. Seien θ etwa die latente Konstruktvariable „Fä-
higkeit“ und y eine Aufgabe, die gelöst werden muss und die als Indikator für die
IV.2 Die Messung latenter Variablen 279

Fähigkeit ausgewählt wurde. Seien mit y = 1 und y = 0 die beiden Alternativen


„gelöst“ und „nicht gelöst“ bezeichnet. Dann ist die Wahrscheinlichkeit für das
Auftreten der Alternative „y = 1“, π(y = 1), von den Ausprägungen der latenten
Fähigkeitsvariablen abhängig. Wichtige Beispiele für Modelle des funktionalen
Zusammenhangs sind das Probitmodell und das logistische Modell. Die latente
Variable kann wiederum von einer Menge von unabhängigen Variablen (z.B. Alter,
Bildung, etc.) abhängen (vgl. Abbildung IV.3).

Abbildung IV.3: Einflüsse unabhängiger Variablen auf die latente Variable

Beim Probit-Modell werden die Antwortwahrscheinlichkeiten der Alternative y = 1


einer dichotomen Antwortvariablen y, π(y = 1), durch eine latente Variablen θ auf
Grundlage der Verteilungsfunktion der Standardnormalverteilung Φ vohergesagt:
π(y = 1) = Φ(θβ),
wobei β den Vektor der Regressionskoeffizienten der unabhängigen Variablen be-
zeichnet von denen θ abhängt.
Im Fall des logistischen Modells wird die dichotome Antwortwahrscheinlichkeit
durch die latente Variable auf der Basis der logistischen Verteilungsfunktion vor-
hergesagt:

exp T β
S y 1 .
1  exp T β
280 IV.2 Die Messung latenter Variablen

Abbildung IV.4: enthält Beispiele für verschiedene logistische Funktionen

Abbildung IV.4: Verschiedene logistische Funktionen

Für den Fall, dass der Regressionsparameter β gleich 1.0 ist, ergibt sich das sog.
Raschmodell:

exp (θ )
π ( y = 1) = .
1 + exp (θ )

Die exakte Form der Beziehung hängt von den Personenparametern (Ausprägun-
gen von θ) sowie Itemparametern ab. Ein wichtiger Itemparameter ist die Schwierig-
keit eines dichotomen Items. Unter der Schwierigkeit eines Items versteht man jene
Ausprägung einer latenten Variablen, für welche die Antwortwahrscheinlichkeit
0.5 beträgt.
In Latent-Class-Modellen (vgl. Hagenaars & McCutcheon, 2002; Lazarsfeld &
Henry, 1968; McCutcheon, 1987; Van de Pol & de Leeuw, 1986), werden alle Vari-
ablen, latente wie beobachtete, als diskret vorausgesetzt, Der Zusammenhang zwi-
schen latenten Variablen und beobachteten Variablen wird durch bedingte Wahr-
scheinlichkeiten modelliert (vgl. z.B. Van de Pol & de Leeuw, 1986) Sei ξ eine latente
IV.2 Die Messung latenter Variablen 281

Variable mit c latenten Kategorien bzw. Klassen. Sei x der Indikator für ξ mit der
gleichen Anzahl c manifester Klassen. Dann ergibt sich die Wahrscheinlichkeits-
verteilung p(x) der diskreten manifesten Variablen x als Produkt der Wahrschein-
lichkeitsverteilung ν(ξ) der latenten Variablen ξ und der Matrix Q der Übergangs-
wahrscheinlichkeiten der latenten Klassen in die manifesten Klassen:
p(x) = ν(ξ)Q.
Die Elemente qjk von Q sind die bedingten Wahrscheinlichkeiten für das Auftreten
der manifesten Klasse ak gegeben die latente Klasse aj . Dieser Ansatz lässt sich auf
mehr als eine latente Variable und mehr als einen Indikator verallgemeinern.

IV.2.2.2 Messmodelle mit mehreren Indikatoren

Operationalisierungen lassen sich durch geeignete statistische Verfahren über-


prüfen, indem man sie in sog. Messmodellen abbildet. Ein Messmodell ist defi-
niert duch eine Menge von latenten Konstruktvariablen und eine Menge manifes-
ter Variablen, die mutmaßlich durch die Konstruktvariablen beeinflusst werden.
Die Konstruktvariablen werden auch als Faktorvariablen, Faktoren oder einfach
als theoretische Variablen bezeichnet. Es handelt sich bei Messmodellen also um
Hypothesen, in denen einerseits die Existenz bestimmter Konstruktvariablen
und andererseits bestimmte Beziehungen zwischen den Konstruktvariablen und
den manifesten Indikatoren behauptet werden. Da die vermuteten Einflüsse der
Konstruktvariablen auf die manifesten Variablen in der Regel nicht perfekt sind,
sondern nur bis auf einen Fehler genau, enthält ein Messmodell zusätzlich Feh-
ler- bzw. Residualvariablen. In Messmodellen sind die Konstruktvariablen und
die Fehlervariablen die unabhängigen Variablen und die manifesten Variablen
die abhängigen Variablen. Box IV.5 beschreibt die allgemeine Modellstruktur
eines Messmodells mit nur einem Konstrukt. Die Beziehungen zwischen der la-
tenten Konstruktvariablen und den manifesten Variablen werden mathematisch
durch lineare Gleichungen dargestellt. Die Koeffizienten, welche die Höhe des
Einflusses der unabhängigen Variablen auf die manifesten Variablen beschreiben,
heißen in diesem Fall Ladungen.
282 IV.2 Die Messung latenter Variablen

Box IV.5: Allgemeine Struktur eines Messmodells mit nur einem Konstrukt
(Ein-Konstruktmodell)

Abbildung IV.5 zeigt ein Beispiel für ein Messmodell für die bereits in
Abschnitt III.1.7 erwähnte Konstruktvariable „Extrinsische Berufsorientierung“,
mnemotechnisch symbolisiert durch „EXT“. Das Beispiel enthält bereits durch die
im Rahmen einer statistischen Analyse geschätzten Ladungen.
IV.2 Die Messung latenter Variablen 283

Abbildung IV.5 Beispiel Messmodell mit multiplen Indikatoren

Die Spezifikation von Messmodellen ist nicht auf Modelle mit nur einem Konstrukt
beschränkt. Vielmehr können Messmodelle auch aus mehreren Konstruktvariablen
bestehen, die mit einander korreliert sein können. Box IV.6 enthält die Spezifikati-
on eines Messmodells mit zwei Konstrukten.

Box IV.6: Allgemeine Struktur eines Messmodells mit zwei Konstrukten

geschätzt
auf 0 gesetzt
284 IV.2 Die Messung latenter Variablen

Modellgleichungen Matrixnotation
§ x1 · § λ11 λ12 · § δ1 ·
x1 = λ11ξ1 + λ12ξ2 + δ1 ¨ ¸ ¨ ¸ ¨ ¸
x2 = λ21ξ1 + λ22ξ2 + δ2 ¨ x 2 ¸ ¨ λ21 λ22 ¸
§
δ2
ξ1 · ¨ ¸
x3 = λ31ξ1 + λ32ξ2 + δ3 ¨ x 3 ¸ = ¨ λ31 λ32 ¸ ¨ ¸ + ¨ δ 3 ¸ = Λx ξ + δ
¨ ¸ ¨ ¸ ζ2 ¨ ¸
x4 = λ41ξ1 + λ42ξ2 + δ4 ¨ x 4 ¸ ¨ λ41 λ42 ¸ © ¹ ¨ δ 4 ¸
x5 = λ51ξ1 + λ52ξ2 + δ5 ¨ x 5 ¸ ¨ λ51 λ52 ¸¹ ¨δ5 ¸
© ¹ © © ¹

In Abbildung IV.6 ist ein Beispiel für ein Modell mit zwei Konstrukten dargestellt.
Mit diesem Modell wurde u.a. überprüft, ob das Konstrukt der extrinsischen Be-
rufsorientierung (EXT) vom Konstrukt der intrinsischen Orientierung (INT)
unabhängig ist. Die Items, welche als Indikatoren ausgewählt wurden, sind in der
Abbildung aufgeführt. Die Bewertungsskala ist wiederum eine 7stufige numerische
Wichtigkeitsskala. Wie man aus der Abbildung erkennen kann sind die Konstrukt-
variablen noch miteinander korreliert. Die Korrelation beträgt immerhin noch
0.37 und ist signifikant.
In Messmodellen kann es durchaus vorkommen, dass ein Indikator nicht nur
Indikator für ein einziges Konstrukt ist, sondern Indikator für mehrere Konstrukte.
Im dem Fall, bei dem alle Indikatoren nur Indkatoren eines einzigen Konstrukts
sind, spricht man auch von reinen Messmodellen (engl.: pure measurement models).
Wird ein Indikator durch mehr als ein Konstrukt beeinflusst, so ist dies ein Hinweis
auf dessen Mehrdimensionalität.
Ein weiteres Merkmal von Messmodellen kann das Auftreten von Messfeh-
ler-Korrelationen sein. Korrelationen zwischen Messfehlern treten insbesondere
auf, wenn die Fehlerkomponenten durch gleiche, vom Modell nicht explizit erfass-
te latente Ursachen beeinflusst werden. Beispiele für Ursachen sind gemeinsame
Merkmale von Items, die unmittelbare Nachbarschaft von Indikatoren im Frage-
bogen, etc.
Messmodelle sind der Regel Bestandteile umfassenderer statistischer Modelle
für gerichtete und ungerichtete Zusammenhänge zwischen beobachteten und/oder
unbeobachteten Variablen. Solche Modelle werden auch als Strukturgleichungsmo-
delle bezeichnet. In Abbildung IV.7 ist ein Beispiel für eine komplexe Abhängig-
keitsstruktur zu sehen, in der insgesamt vier Messmodelle eingebettet sind (siehe
Faulbaum & Kaase, 1993).
IV.2 Die Messung latenter Variablen 285

Abbildung IV.6: Beispiel Modell mit zwei Konstrukten

Die in das vollständige Modell integrierten Messmodelle sind:


• Ein Messmodell der Wertorientierungen mit den drei Konstruktvariablen
„Leistungsorientierung (W-LEIST)“, „Liberale Orientierung (W-LIB)“ und
„Egozentrierte Orientierung (W-EGO)“;
• ein Messmodell der Ansprüche an den Staat mit den Konstruktvariablen „Ma-
terielle Ansprüche (A-Mat)“, „Absprüche an die Infrastruktur (A-INFRA)“ und
„Nichtmaterielle Ansprüche (A-NONMAT)“;
• ein Messmodell für die Akzeptanz (Legitimität) mit den Konstruktvariablen
„Akzeptanz der regierung (L-REG)“ und „Akzeptanz der demokratischen Ord-
nung (L-DEMO);
• ein nur aus einem Indkator bestehendes Konstrukt der Verantwortungszu-
schreibungen an den Staat (Z-STAAT).
286 IV.2 Die Messung latenter Variablen

Abbildung IV.7: Beispiel eines Strukturgleichungsmodells mit vier Messmodellen (Faulbaum


& Kaase, 1993)

Die Messmodelle sind durch Umrahmungen gekennzeichnet. Die gerichteten


Pfeile zwischen den Messmodellen stehen für die Menge aller möglichen Bezie-
hungen zwischen allen latenten Variablen des eines Messmodells und allen laten-
ten Variablen des anderen Messmodells. Die Wirkungen latenter Variablen auf
latente Variablen werden in einem sog. Strukturmodell spezifiziert. Fällt eine la-
tente Variable bei Annahme eines Messfehlers von 0 mit ihrem Indikator zusam-
men, so können natürlich auch gemessene Variablen Teil des Strukturmodells
sein. In Bezug auf die Ableitung von Aussagen aus einem optimal an die Daten
angepassten Modell ist aber Vorsicht geboten, da es zu einem Modell unendlich
viele gleich gut angepasste Modelle geben kann. So sind alle drei, in ihrer Struk-
tur vollkommen unterschiedlichen Modelle in Abbildung IV.8 gleich gut an die
Daten angepasst (vgl. Stelzl, 1986; Lee & Hershberger, 1990).
IV.2 Die Messung latenter Variablen 287

Abbildung IV.8: Empirisch äquivalente Modelle

IV.2.2.3 Die Integration von latenten Antwortvariablen in Mess-


modelle

Muthén (1984) hat darauf hingewiesen, dass die Annahme latenter Antwortvaria-
blen eine Erweiterung von Messmodellen erfordert. In diesem Fall muss nämlich
angenommen werden, dass die latenten Konstruktvariablen nicht direkt auf die be-
obachteten Indikatoren y wirken, sondern zunächst auf die latenten Antwortvaria-
blen y*, aus denen dann auf der Basis eines Zufallsmechanismus die beobachteten
Antworten erzeugt werden (vgl. Abbildung IV.9).
288 IV.2 Die Messung latenter Variablen

Abbildung IV.9: Integration von latenten Antwortvariablen in Messmodelle

IV.2.3 Werkzeuge zur Identifikation und Überprüfung von


Messmodellen

IV.2.3.1 Vorbemerkung

Oft ergeben sich die Konstrukte aus der Fragestellung des Forschungsvorhabens. Es
ist aber auch denkbar, dass die hinter empirischen Variablen stehenden Konstruktva-
riablen erst im Rahmen einer statististischen Analyse gesucht und identifiziert wer-
den müssen. In jedem Fall bleibt die Identifikation geeigneter Indikatoren für die
gewählten Konstrukte einer Suche vorbehalten, die auf theoretischer Ebene unter
Abstimmung mit der empirischen Ebene erfolgen kann. Grundsätzlich können sich
in Bezug auf die Spezifikation von Messmodellen folgende Situationen ergeben:
• Die Konstrukte ergeben sich aus der Forschungsfragestellung, gesucht werden
geeignete Indikatoren;
• es liegt bereits eine Menge von gemessenen Variablen vor, gesucht werden Kon-
strukte, die zusammen mit Teilmengen dieser Variablen Messmodelle bilden,
die an die Daten optimal angepasst sind.
Ergeben sich die Konstrukte aus der Forschungsfragestellung, so sollte zunächst in
der Forschungsliteratur nach Indikatoren gesucht werden, die sich bereits bewährt
haben und über deren Reliabilität und Validität (zu den Begriffen vgl. Abschnitt IV.3)
bereits Untersuchungen existieren. Diese Angaben sollten eigentlich Bestandteil der
Metadaten von Datenbanken sein, in denen Umfragen zugänglich gemacht werden.
IV.2 Die Messung latenter Variablen 289

Für die Identifikation von Konstrukten auf der Basis einer existierenden Aus-
wahl empirischer Variablen bietet sich die explorative Faktorenanalyse an. Zur
Überprüfung von Messmodellen und ihrer Eigenschaften sowie zur Beurteilung
der Güte der Anpassung von Messmodellen an empirische Daten (engl.: goodness
of fit) bietet sich die konfirmatorische Faktorenanalyse an. Beide Verfahren werden
wegen ihrer Bedeutung kurz beschrieben.

IV.2.3.2 Einsatz der explorativen Faktorenanalyse zur Identifi-


kation von Messmodellen

A. Analyseziel
Ziel der explorativen Faktorenanalyse (engl.: Exploratory Factor Analysis; kurz:
EFA) im Zusammenhang mit der Identifikation von Messmodellen ist die Suche
nach den Faktorvariablen, welche eine Menge von gemessenen Variablen beein-
flussen. Die Identifikation der latenten Faktorvariablen wird auch als Extraktion
bezeichnet. Abbildung IV.10 stellt den Fall dar, wo aus acht beobachteten Variablen
y1,…,y8 vier Faktoren F1,…,F4 extrahiert wurden.

Abbildung IV.10: Grundsituation der explorativen Faktorenanalyse


290 IV.2 Die Messung latenter Variablen

B. Ausgangsdaten der Analyse


Ausgangspunkt der explorativen Faktorenanalyse ist in der Regel die Korrelations-
matrix (Matrix der Korrelationen zwischen allen Paaren von beobachteten Variab-
len). Zur Erinnerung: Die Korrelationsmatrix ist die Kovarianzmatrix der standar-
disierten (z-transformierten) Variablen. Die empirischen Korrelationen bilden die
empirischen Daten, an die das faktorenanalytische Modell angepasst wird.

C. Variablen
Alle Variablen, die beobachteten Variablen genau so wie die Faktorvariablen, sind
in den üblichen Verfahren der explorativen Faktorenanalyse standardisiert, d.h. sie
besitzen einen Mittelwert von 0 und eine Standardabweichung von 1.0.

D. Modell
Jede beobachtete Variable wird als lineare Funktion aller noch unbekannten Fak-
torvariablen aufgefasst. Die Koeffizienten in dieser Funktion heißen Ladungen. Die
Ladungen sind also wie im Rahmen der Definition von Messmodellen bereits be-
merkt, die Einflussgrößen, mit denen die Faktoren auf die beobachteten Variablen
wirken. Da alle Variablen standardisiert sind, stellen die Ladungen die Korrelatio-
nen zwischen den Faktoren und den beobachteten Variablen dar.

E. Anpassungsalgorithmus
Der als Extraktion bezeichnete, in der Regel rein algebraische Algorithmus be-
stimmt iterativ nacheinander die Faktoren und vergleicht die aus den Faktoren
rückgerechnete Korrelationsmatrix mit der vorliegenden empirischen Korrelati-
onsmatrix. Er stoppt, wenn die empirische Korrelationsmatrix reproduziert wurde.
Entscheidend hierfür ist, dass die Korrelationen der empirischen Variablen mit sich
selbst, d.h. die Varianzen der Variablen reproduziert werden.

F. Faktormodelle
Man kann zwischen verschiedenen (Faktor)modellen unterscheiden. Die beiden
wichtigsten Arten von Modellen sind:
Modelle mit gemeinsamen Faktoren (engl.: common factor models):
In diesem Fall gibt es eine Unterscheidung zwischen spezifischen Faktoren, die je-
weils nur eine Variable beeinflussen und gemeinsamen Faktoren, die sich auf meh-
IV.2 Die Messung latenter Variablen 291

rere beobachtete Variablen auswirken. Die Extraktion der Faktoren wird in diesem
Fall so lange fortgesetzt bis die sog. Kommunalitäten reproduziert sind. Kommuna-
litäten sind die Varianzanteile einer Variablen, die auf die gemeinsamen Faktoren
zurückgehen. Eine Faktorenanalyse auf der Basis dieser Annahmen wird in der
Regel als Hauptachsenmethode (engl.: principal axis method) bezeichnet. Diese Me-
thode bedingt eine Kommunalitätenschätzung.
Volles Komponentenmodell:
In diesem Fall wird keine Unterscheidung zwischen spezifischen Faktoren und
gemeinsamen Faktoren getroffen. Es werden so viele Faktoren extrahiert bis die
Varianzen der Variablen und nicht nur die Kommunalitäten aus den geschätzten
Modellgleichungen reproduziert sind. Dies bedeutet zugleich, dass die Anzahl der
extrahierten Faktoren mit der Anzahl der beobachteten Variablen übereinstimmt.
Das auf dem vollen Komponentenmodell beruhende Verfahren wird als Haupt-
komponentenanalyse (engl.: principal components) bezeichnet.

G. Abgeleitete Lösung (Rotation)


Die Extraktion von Faktoren liefert zunächst eine Menge von unabhängigen, d.h.
unkorrelierten Faktoren. Durch eine Rotation genannte lineare Transformation der
Faktoren kann eine abgeleitete Lösung erstellt werden, die besser interpretierbar ist.
Dabei lassen sich orthogonale (rechtwinklinge) und oblique (schiefwinklige) Ro-
tationen unterscheiden. Bei einer orthogonalen Rotation bleiben die Faktoren der
abgeleiteten Lösung unkorreliert. Im Fall einer obliquen Rotation sind bei der abge-
leiteten Lösung korrelierte Faktoren zugelassen. Die wichtigste orthogonale Rotati-
on ist die VARIMAX-Rotation (entspricht dem Prinzip der Einfachstruktur). Die
wichtigsten obliquen Rotationen sind OBLIMIN und PROMAX).

H. Faktorwerte
Die Werte der Individuen auf den Faktorvariablen heißen Faktorwerte. Sie stellen
lineare Funktionen der durch Ladungen gewichteten beobachteten Variablen dar.
Faktorvariablen können in den üblichen Statistik-Paketen nach Wunsch dem Da-
tensatz zugespielt werden und wie alle anderen Variablen weiterverarbeitet werden.

G. Eigenwert eines Faktors


Der Begriff Eigenwert ist ein Begriff der linearen Algebra. In der Faktorenanalyse ist
er gleichbedeutend mit der Varianz, die ein Faktor in Bezug auf alle beobachteten
Variablen erklärt.
292 IV.2 Die Messung latenter Variablen

H. Extraktionskriterien
Extraktionskriterien entscheiden darüber, welche Faktoren als bedeutsam anzuse-
hen sind. Wichtige Kriterien sind:
Eigenwertkriterium (auch: Kaiser-Kriterium):
Es werden diejenigen Faktoren als bedeutsam angesehen, die einen Eigenwert grö-
ßer oder gleich 1.0 haben.
Scree-Plot:
Der Scree-Plot ist eine graphische Darstellung, bei der auf der x-Achse die Faktoren
geordnet nach den Eigenwerte aufgetragen sind und auf der y-Achse die Größe der
Eigenwerte. Nach diesem Kriterium sind alle Faktoren als bedeutsam einzustufen,
die vor einen „Knick“ liegen.

I. Ladungsmatrix (auch: Komponentenmatrix) als Basis für die inhaltliche


Interpretation
Die Ladungsmatrix ist eine Matrix, in der die Faktorvariablen die Spalten darstellen
und die beobachteten Variablen die Zeilen. Eine Zelle in dieser Matrix stellt die
Ladung der betreffenden beobachteten Variablen auf dem entsprechenden Faktor
dar. Die Ladungsmatrix ist die Grundlage für die inhaltliche Interpretation der Fak-
toren. Sie kann sowohl für die unrotierte Lösung (Anfangslösung) und die rotierte
Lösung erstellt werden.

J. Beispiel
Als Beispiel nehmen wir wieder die Berufswerte aus der Allgemeinen Bvölkerungs-
umfrage der Sozialwissenschaften 1982 (ALLBUS 1982). Hier noch einmal Frage
und Items.
Für wie wichtig halten Sie persönlich diese Merkmale für den Beruf und die beruf-
liche Arbeit?
Sichere Berufsstellung
Hohes Einkommen
Gute Aufstiegsmöglichkeiten
Ein Beruf, der anerkannt und geachtet ist
Ein Beruf, der einem viel Freizeit lässt
Interessante Tätigkeit
Eine Tätigkeit, bei der man selbständig arbeiten kann
Aufgaben, die viel Verantwortungsbewusstsein erfordern
IV.2 Die Messung latenter Variablen 293

Viel Kontakt zu anderen Menschen


Ein Beruf, bei dem man anderen helfen kann
Ein Beruf, der für die Gesellschaft nützlich ist
Gibt einem das Gefühl, etwas Sinnvolles zu tun
Sichere und gesunde Arbeitsbedingungen
Die Wichtigkeitseinstufungen erfolgten auf einer numerischen Skala von „1: un-
wichtig“ bis „7: sehr wichtig“.
Unterzieht man die Wichtigkeitseinstufungen dieser Items einer Faktoren-
analyse mit Hilfe des Statistik-Programmpakets SPSS, so erhält man zunächst die
Ergebnisse der Modellanpassung, die in Tabelle IV.7 zusammengestellt sind. Wir
sehen, dass nur die ersten beiden Faktoren einen Eigenwert größer oder gleich 1.0
besitzen, so dass nach dem Eigenwertkriterium nur zwei Faktoren bedeutsam sind.

Tabelle IV.7: Anpassung eines Modells der explorativen Faktorenanalyse

Graphischen Einblick in die Bedeutsamkeit liefert auch der Scree-Plot (vgl. Abbil-
dung IV.11).
294 IV.2 Die Messung latenter Variablen

Abbildung IV.11: Scree-Plot

Tabelle IV.8 enthält die nach VARIMAX rotierte Komponentenmatrix einer


Analyse der Berufsorientierungen in der Version des ALLBUS 2010. Da die La-
dungen Korrelationen zwischen den Faktoren und den gemessenen Variablen
darstellen, sind die Items mit den höchsten Ladungen die Items mit den vier
höchsten Korrelationen mit den Faktoren. Auf Basis dieser Informationen kann
versucht werden, den Faktoren eine inhaltliche Bedeutung zu geben. So könnte
der erste Faktor schwerpunktmäßig als „Extrinsische Berufsorientierung“ iden-
tifiziert werden. Der zweite Faktor könnte vielleicht als „Soziale Orientierung“
identifiziert werden. Mit der Identifikation der Faktoren und der Items mit den
höchsten Ladungen hat man bereits zwei Messmodelle identifiziert, die nun-
mehr noch einmal einer konfirmatorischen Faktorenanalyse unterzogen wer-
den können.
IV.2 Die Messung latenter Variablen 295

Tabelle IV.8: Komponentenmatrix der Berufsorientierungen

Komponente
1 2 3
SICHERE BERUFSTELLUNG ,019 ,216 ,630
BERUF MIT HOHEM EINKOMMEN ,181 -,060 ,780
GUTE AUFSTIEGSCHANCEN IM BERUF ,406 ,034 ,636
ANERKANNTER BERUF ,220 ,410 ,490
BERUF MIT VIEL FREIZEIT -,016 ,192 ,515
INTERESSANTE TAETIGKEIT ,689 ,211 ,119
SELBSTAENDIGE TAETIGKEIT ,798 ,134 ,094
VERANTWORTUNGSVOLLE TAETIGK. ,733 ,276 ,143
BERUF M.VIEL MENSCHL. KONTAKT ,348 ,583 ,148
CARITATIV HELFENDER BERUF ,156 ,829 ,149
SOZIAL NUETZLICHER BERUF ,188 ,782 ,121

IV.2.3.3 Kurzbeschreibung der konfirmatorischen Faktorenana-


lyse zur Überprüfung von Messmodellen

A. Analyseziel
Die konfirmatorische Faktorenanalyse (engl.: Confirmatory Factor Analysis, kurz:
CFA) erlaubt die gezielte Überprüfung von Hypothesen über:

• Anzahl der Faktoren;


• Lineare und/oder nicht-lineare Beziehungen zwischen Faktorenladungen und
zwischen den Kovarianzen der Konstruktvariablen;
• Höhe von Ladungen, Kovarianzen zwischen den Konstruktvariablen, Varian-
zen der Konstruktvariablen, Varianzen und Kovarianzen der Fehler;
• Gleichheit von Fehlervarianzen und -kovarianzen sowie von Konstruktvarian-
zen
• Signifikanz einzelner Fehlervarianzen und -kovarianzen;
• Signifikanz der Modellanpassung (Anpassung an die empirischen Daten).

Im Rahmen der konfirmatorischen Faktorenanalyse lassen sich also insbesondere


Annahmen über die Struktur von Messmodellen (z.B. Ladungsgleichheit) überprü-
fen.
296 IV.2 Die Messung latenter Variablen

Im Unterschied zu den algebraischen Verfahren der explorativen Faktorenana-


lyse stellen die Variablen im Fall der konfirmatorischen Faktorenanalyse Zufallsva-
riablen dar, die eine multivariate Wahrscheinlichkeitsverteilung der einen oder an-
deren Form (z.b. Normalverteiung) besitzen. Grundsätzlich beinhaltet die Analyse
eines Messmodells die folgenden Schritte
Modellspezifikation:
Mathematisch/statistische Spezifikation der postulierten Zusammenhänge;
Parameterschätzung:
Schätzung der unbekannten Einflussgrößen, Varianzen und Kovarianzen.
Anpassungsbeurteilung :
Zentrale Frage der Anpassungsbeurteilung sind: Wie gut passt das Modell auf die
Daten? Muss die Hypothese, dass das Modell in der Population gilt, auf Basis der
Anpassungsgüte (goodness-of-fit) für die Stichprobe zurückgewiesen werden?

B. Modell
Die empirischen Kovarianzen (die Kovarianzen zwischen den gemessenen Variab-
len bzw. Indikatoren) werden in der konfirmatorischen Faktorenanalyse als Funk-
tionen der zugrundeliegenden Modellparameter (e.g. Ladungen, Fehlervarianzen,
Varianzen der latenten Variablen, etc.) dargestellt :
σij = fij(θ)
wobei σij die Populationskovarianz zwischen zwei empirischen Variablen xi und xj
darstellt und θ den Vektor aller Modellparameter. Man spricht wegen der Darstel-
lung der empirischen Kovarianzen als Funktionen der Modellparameter auch von
Kovarianzstrukturanalyse (engl.: covariance structure analysis). Box IV.7 zeigt ein
Beispiel für die Darstellung der empirischen Kovarianz als Funktion der zugrun-
deliegenden Modellparameter. Für die Ableitung braucht man eigentlich nur die
Regeln für das Rechnen mit Kovarianzen zu kennen.
IV.2 Die Messung latenter Variablen 297

Box IV.7: Beispiel für die Parameterdarstellung einer empirischen Kovarianz

Dargestellt werden soll die Kovarianz σij zwischen zwei Indikatoren xi und xj
für eine latente Variable ξ in einem Messmodell mit vier Indikatoren. Für die
Kovarianz zwischen zwei Zufallsvariablen X1 und X2 schreibt man oft auch
Cov(X1, X2). Sei c eine Konstante. Dann gelten für Kovarianzen die folgenden
Rechenregeln:
(1)Cov (c, X1 ) = 0;
(2)Cov (cX1 , X 2 ) = cCov ( X1 , X 2 );
(3)Cov ( X1 + X 2 , X 3 ) = Cov ( X1 , X 3 ) + Cov ( X 2 , X 3 );
Wie wir bereits in Abschnitt IV.2.2.2 über die Struktur von Messmodellen gese-
hen haben, gilt für xj:
x i = λiξ + δ i ,

wobei λi die Ladung von xi und δi die Residual- bzw. Fehlervariable. Entspre-
chend gilt für xj :
x j = λ jξ + δ j .

Als Funktion der Parameter gilt:

V ij Cov x1 , x 2 Cov Oi[  G i , O j[  G j .

Durch Anwendung der Regeln für das Rechnen mit Kovarianzen ergibt sich
unter Berücksichtigung, dass die latente Variable mit der Fehlervariablen nicht
korreliert sein darf:

σ ij = λi λ jCov (ξ , ξ ) + λiCov (ξ , δ j ) + λ jCov (ξ , δ i ) + Cov (δ i , δ j )

= λi λ jσ ξ2 + Cov (δ i , δ j ) .

Damit kann nunmehr die empirische Kovarianz σij durch die Parameterdarstel-
lung
λi λ jσ ξ2 + Cov (δ i , δ j )
298 IV.2 Die Messung latenter Variablen

ersetzt werden. Sind die Fehlervariablen unkorreliert, so ergibt sich

σ ij = λi λ jσ ξ2 .

Ist i = j, so ergibt sich:

σ i2 ≡ Var ( x i ) ≡ Cov ( x i , x i ) = λi2σ ξ2 + Var (δ i ) .

Ähnliche Ableitungen lassen sich für alle empirischen Kovarianzen durchfüh-


ren.

Parameterdarstellungen lassen sich für alle Kovarianzen der allgemein mit ∑bezeich-
neten Populationskovarianzmatrix ableiten. Die Populationskovarianzmatrix, in der
alle Kovarianzen durch ihre Parameterdarstellungen ersetzt sind, heißt auch theore-
tische bzw. modellimplizierte Kovarianzmatrix, da in ihr die theoretischen Annah-
men über die Parameterstruktur enthalten sind. Die theoretische Kovarianzmatrix
stellt also die Populationskovarianzmatrix als Funktion der Parameter dar:
∑ = ∑(θ)
Die theoretische Kovarianzmatrix wird als wahre Populationsmatrix unterstellt.
Abbildung III.37 stellt noch eimal die theoretische Kovarianzmatrix dar.

Abbildung IV.12: Theoretische Kovarianzmatrix


IV.2 Die Messung latenter Variablen 299

In Modellen der konfirmatorischen Faktorenanalyse hat die theoretische Kovari-


anzmatrix die Form (in Matrixdarstellung).
∑(θ) = ΛxΦΛʹx + Θδ,
wobei Λx ist die Matrix der Faktorladungen ist, Φ die Matrix der Kovarianzen zwi-
schen den Faktoren und Θδ die Matrix der Kovarianzen zwischen allen Fehlerva-
riablen.

C. Form der Anpassungsfunktion


Alle Anpassungsfunktionen lassen sich auf die folgende allgemeine quadratische
Form bringen:
FQD ( S, Σ (θ ) ) = (s − σ (θ ))’W −1 (s − σ (θ ) .

Die Gewichtsmatrix steuert im Wesentlichen die Verteilungsbedingungen, unter


denen geschätzt wird. Dabei können folgende Funktionen unterschieden werden:

FLS : Least-Squares-Schätzung (Gewichtsmatrix ist die Einheitsmatrix I unter


Normalverteilungsbedingungen;
FGLS : Generalized Least Squares (Gewichtsmatrix ist S) unter der Bedingung,
dass die empirischen Kovarianzen normalverteilt sind;
FML : Maximum Likelihood unter Normalverteilungsbedingungen
FE : Schätzung unter elliptischen Verteilungen (allgemeine Klasse symmetri-
scher Verteilungen, die sich durch die mulitvariate Kurtosis unterscheiden);
FADF : Asymptotisch verteilungsfreie Schätzung (Schätzung unter beliebigen
Verteilungsbedingungen; Elemente der Gewichtsmatrix sind vierten
Momente einer multivariaten Verteilung).

D. Parameterschätzung
Die Schätzung der Modellparameter erfolgt durch Minimierung einer Anpassungs-
funktion, die eine Funktion der Diskrepanz zwischen der theoretischen Kovarianz-
matix ∑(θ) und der empirischen Kovarianzmatrix S ist. Die empirische Kovarianz-
matrix besteht aus den empirischen Kovarianzen des Datensatzes.
Die Parameter werden also so geschätzt, dass eine Anpassungsfunktion

F = F ( S,Σ
Σ (θ ) )
300 IV.2 Die Messung latenter Variablen

ein Minimum ergibt. Auf der Basis der geschätzten Parameter θ̂ und der Parame-
terdarstellung der Kovarianzen lässt sich die geschätzte Kovarianzmatrix


6ˆ Tˆ

berechnen. Wenn die Differenzen zwischen allen empirischen und geschätzten em-
pirischen Kovarianzen 0 sind, so nimmt auch die Anpassungsfunktion F den Wert
0 an. In diesem Fall stimmt die Stichprobenkovarianzmatrix mit der geschätzten
Kovarianzmatrix überein.

E. Statistische Beurteilung der Modellanpassung


Es lässt sich zeigen, dass unter der Nullhypothese, dass das analysierte Modell und
damit die Parameterdarstellung der empirischen Populationskovarianzen korrekt
ist, die Größe
( N − 1) min F
mit df = 1/2p(p – 1) – t Freiheitsgraden χ2-verteilt ist, wobei:

N : Stichprobenumfang;
p : Anzahl der gemessenen Variablen;
t : Anzahl der unabhängig, d.h. ohne Einschränkungen geschätzten
Parameter.

Bei der Signifikanzbeurteilung wird die Überschreitungswahrscheinlichkeit be-


trachtet, den beobachteten oder einen höheren χ2-Wert zu erhalten. In der Regel
werden zur Signifikanzbeurteilung die üblichen Signifikanzniveaus von 0.05 bzw.
0.01 herangezogen. Wichtig ist, dass man versteht, dass es bei der Modelbeurteilung
darum geht, eine möglichst hohe Überschreitungswahrscheinlichkeit zu erhalten
und ein möglichst geringes χ2, da χ2 die Diskrepanz zwischen den Stichprobenvari-
anzen und den theoretischen Kovarianzen des analysiserten Modells widerspiegelt.
Wegen verschiedener Nachteile von χ2 wie z.B. die Abhängigkeit vom Stichpro-
benumfang und von der Modellkomplexität sowie anderer Überlegungen wie z.B.
die Orientierung der Anpassung an einem vorher festgelegten Basismodell (sog.
Nullmodell) wurden verschiedene alternative Anpassungsindizes (Indizes der An-
passungsgüte; eng.: goodness-of-fit indices) entwickelt. Dabei unterscheidet man
grundsätzich zwischen absoluten Indizes und inkrementellen Indizes.
IV.2 Die Messung latenter Variablen 301

Inkrementelle Indizes basieren auf Modellvergleichen. Dabei wird das analy-


sierte Modell in der Regel mit dem sog. Unabhängigkeitsmodell (auch: Nullmodell)
verglichen. Das Unabhängigkeitsmodell ist das Modell, bei dem alle Variablen un-
tereinander nicht korreliert sind. Es ist das am stärksten eingeschränkte Modell,
da alle Kovarianzen auf Null gesetzt sind. Es ist damit auch das am schlechtesten
an die Daten angepasste Modell und weist den höchsten χ2-Wert auf. Je schlechter
die Anpassung des analysierten Modells, desto mehr nähert es sich der Anpassung
des Unabhängigkeitsmodells. Inkrementelle Indizes sollten immer sehr hoch sein
(über .9). Ein leicht verständlicher inkrementeller Index ist der genormte Index von
Bentler und Bonett (1980):
Fk
NFI = 1 − .
Fi

In dieser Formel ist FK das Minimum der Anpassungsfunktion des zu schätzenden


Modells und Fi das Minimum der Anpassungsfunktion des Unabhängigkeitmodell,
also des am stärksten eingeschränkten Modells mit der geringsten Anpassung an
die Daten. Ein weiterer bekannter Index mit guten statistischen Eigenschaften ist
der CFI (Comparative Fit Index) von Bentler (1988). Er hat die Form:

τk
CFI = 1 − .
τi

Die χ2-Statistik setzt voraus, dass das analysierte Modell das wahre Populations-
modell darstellt. Der sog. Zentralitätsparameter τk betrifft den Betrag, um den die
χ2-Verteilung verschoben ist, wenn diese Annahme nicht zutrifft. τi ist der Zentra-
litätsparameter des Unabhängigkeitsmodells.
Im Unterschied zu den inkrementellen Indizes basieren die absoluten Indizes
nicht auf Modellvergleichen. Wichtig für die Beurteilung der Modellanpassung ist
immer die Inspektion der Differenzen zwischen angepasster Kovarianzmatrix (Ma-
trix der geschätzten Kovarianzen) und der Stichprobenkovarianzmatrix, d.h. zwi-
schen den geschätzten Kovarianzen und den Stichprobenkovarianzen. Auf solchen
Vergleichen beruhende Indizes sollten immer berückischtigt werden. Eine detail-
lierte Erörterung der Anpassungsindizes und ihrer Vor- und Nachteile finden sich
in der einschlägigen Literatur (vgl. z.B. Reinecke, 2014).
Bei Abweichungen von der Bedingung der Normalverteilung lässt sich auch die
sog. Satorra-Bentler-Statistik anwenden. Diese Statistik ist robust gegenüber Ab-
weichungen von der Normalverteilung, erfordert aber sehr große Stichprobenum-
302 IV.2 Die Messung latenter Variablen

fänge. Sie gewichtet die ML-Schätzung unter Normalverteilungsbedingungen und


korrigiert die Standardfehler.

F. Logik der Analyse


In Bezug auf die Analyse der Modelle lassen sich folgende Vorgehensweisen unter-
scheiden:
Streng konfirmatorisches Vorgehen:
Der Forscher spezifiziert ein Modell für einen Datensatz und überprüft das Modell,
indem er versucht, es an die Daten anzupassen.
Exploratives Vorgehen:
Der Forscher spezifiziert verschiedene Anfangsmodelle und wählt ein Modell an
Hand eines Datensatzes aus.
Modellsuche (model search, specification search):
Der Forscher startet mit einem Anfangsmodell und sucht das theoretisch und sta-
tistisch am besten angepasste Modell, in dem er das Anfangsmodell sukzessive auf
der Basis der Anpassungsergebnisse modifiziert (Prozess der Modellmodifikation).
Abbildung IV.13 illiustriert das Vorgehen bei der Modellsuche.

Abbildung IV.13: Ablauf einer Modellsuche


IV.2 Die Messung latenter Variablen 303

Bei der Modellsuche sollte immer darauf geachtet werden, dass die Enscheidung
über Freisetzung oder Einschränkung von Parametern nicht allein aus statistischen
Gründen, sondern auch theoretisch begründet werden können.
Die Logik der Modellmodifikation eines Anfangsmodells basiert auf dem Sach-
verhalt, dass das analysierte Modell Mk an einer bestimmten Position einer Folge
von Modellen steht, die durch sukzessive Setzungen oder Aufhebungen von Para-
meterrestriktionen auseinander hervorgehen. Das eingeschränkteste Modell ist das
oben erwähnte Unabhängigkeitsmodell, bei dem keine Zusammenhänge zwischen
Variablen angenommen werden, d.h. in dem alle Zusammenhänge zwischen Va-
riablen auf 0 fixiert sind. Es wird zumeist mit Mi oder auch M0 bezeichnet. Am
anderen Ende steht das perfekt angepasste Modell, das sog. saturierte Modell Ms:

Mi Ž " Ž M k " Ž M s .

Ein Modell Mk, das durch Einschränkungen aus einem Modell Mj hervorgegangen
ist, heißt in Mi geschachtelt (eng.: nested). Eine Modellmodifikation mit dem Ziel
einer verbesserten Anpassung besteht immer darin, mit Hilfe des Vergleichs der
Anpassungs-χ2-Werte und durch Tests wie dem univariaten (Modifikationsindizes)
oder dem multivariaten Langrange-Muliplier-Test zu prüfen, ob die Freisetzung
von Einschränkungen zu einer signifikant besseren Modellanpassung führt oder ob
sich durch die Setzung von Einschränkungen die Modellanpassung signifikant ver-
schlechtert. Letzteres kann ebenfalls durch die Signifikanzbeurteilung der χ2-Dif-
ferenz der Anpassungswerte oder durch den multivariaten Wald-Test überprüfen.

G. Messmodelle als Teil von Strukturgleichungsmodellen


Betrachtet man ein volles Strukturgleichungsmodell, in das Messmodelle einge-
bettet sind, so lassen sich neben den unter A. aufgeführten Hypothesen zusätzlich
Hypothesen über die Einflussgrößen (Strukturkoeffizienten) der gerichteter Wir-
kungsbeziehungen der latenten Variablen verschiedener Messmodelle unterein-
ander sowie über die latenten Residualvariablen prüfen. Die oben beschriebenen
Verfahren der Modellspezifikation und Schätzung gelten insbesondere für das volle
Strukturgleichungsmodell.
Die theoretische Kovarianzmatrix hat nunmehr eine etwas komplexere Gestalt,
die vom gewählten Modellansatz abhängt. Hier gibt es zwei unterschiedliche An-
sätze: den LISREL-Ansatz von Jöreskog (vgl. z.B. Jöreskog, 1973) und den Ansatz
von Bentler & Weeks (vgl. Bentler & Weeks, 1980). In der einfacheren Formulie-
rung von Bentler & Weeks, die nur zwischen unabhängigen Variablen ξ und abhän-
304 IV.2 Die Messung latenter Variablen

gigen Variablen η unterscheidet, unabhänig davon, ob sie latent sind oder nicht,
lautet die Gleichung für die theoretische Kovarianzmatrix:

Σ (θ ) = G ( I - B ) ΓΦΓ ′ ( I - B ) G’ ,
-1 -1’

wobei:

G : Selektionsmatrizen, welche aus den im Modell spezifizierten ξ-Variablen


und η-Variablen die gemessenen Variablen herausfiltern;
B : Matrix der Struktur- bzw. Regressionskoeffizienten für die Einflüsse der
abhängigen Variablen auf die abhängigen Variablen;
Γ : Matrix der Struktur- bzw. Regressionskoeffizienten der unabhängigen Va-
riablen auf die abhängigen Variablen;
Ф : Matrix der Kovarianzen zwischen den unabhängigen Variablen.

Da der LISREL-Ansatz zwischen Messmodellen für die unabhängigen latenten


Variablen und Messmodellen für die abhängigen latenten Variablen unterscheidet
(vgl. z.B. Jöreskog, 1978), sind in der Kovarianzmatrix mehr Matrizen wie getrenn-
te Ladungsmatrizen für die unabhängigen und abhängigen latenten Variaben, Ma-
trizen der Fehler im Messmodell für die unabhängigen latenten Variablen und die
abhängigen latenten Variablen involviert (vgl. hierzu z.B. Bollen, 1989; Reinecke,
2014).

H. Identifizierbarkeit
Um ein Modell statistisch analysieren zu können, muss es die Bedingung der Iden-
tifizierbarkeit erfüllen. Ein Modell ist nicht identifizierbar, wenn die Anzahl der
Datenpunkte, im Falle der Kovarianzstrukturanalyse die Anzahl der empirischen
Varianzen und Kovarianzen, geringer ist als die Anzahl der unabhängig zu schät-
zenden (freien) Parameter. Box III.8 enthält dafür ein Beispiel. Unabdingbar ist die
Definition der Skalen der latenten Konstruktvariablen. Dies kann grundsätzlich auf
zwei unterschiedlichen Arten geschehen:

• Identifikation der Skala der latenten Variablen mit der einer gemessenen Varia-
blen durch Fixierung einer Ladung auf den Wert 1.0.
• Standardisierung der latenten Variablen durch Fixierung der Varianz der laten-
ten Variablen auf den Wert 1.0.
IV.2 Die Messung latenter Variablen 305

Box IV.8: Beispiel für Nichtidentifizierbarkeit: Messmodell mit einem Kon-


strukt und zwei Indikatoren

ξ
λ1 λ2

x1 x2

δ1 δ1

Als Datenpunkte stehen nur eine empirische Kovarianz und zwei empirische
Varianzen, d.h. insgesamt drei empirische Kovarianzen zur Verfügung:

Cov ( x1 , x 2 ) ,Var ( x1 ) ,Var ( x 2 ) .

Geschätzt werden müssen aber die Parameter:

λ1 , λ2 ,Var (δ 1 ) ,Var (δ 2 ) ,Var (ξ ) , Cov (δ 1 , δ 2 ) .

Drei Datenpunkten stehen also sechs frei zu schätzende Parameter gegenüber.


Ausweg:
Einführung von Restriktionen, die zu einer Verminderung der unabhängig zu
schätzenden Parameter führt.

I. Software
Für die Analyse von Modellen der konfirmatorischen Faktorenanalyse und von
vollen Strukturgleichungsmodellen kann die folgende Software eingesetzt werden
(in alphabetischer Reihenfolge):
AMOS (Arbuckle, 2011, Modul in SPSS)
EQS (Bentler,2006; Multivariate Software Inc.) und REQS (EQS Integration in R,
vgl. Mair, Wu & Bentler 2010)
lavaan (Strukturgleichungspaket in R; vgl. Rosseel, 2012)
306 IV.3 Fehlertheorie der Messungen

LISREL (Jöreskog & Sörbom, 2015; Scientific Software Inc.)


Mplus (Muthén & Muthén, 2015)
OpenMx (in R; vgl. Neale et al., 2016)
PROC CALIS (Hatcher, 1998; SAS)
SEPATH (entwickelt von Steiger, 1993, 1995; Modul in STATISTICA 9)
Praktische Einführungen in die Anwendungen von Strukturgleichsmodellen geben
die Bücher von Byrne (1998, 2006, 2010, 2012).

IV.3 Fehlertheorie der Messungen

IV.3.1 Beobachtete Variablen, wahre Variablen und Messfeh-


ler

Geht man davon aus, dass die Ausprägungen der beobachteten bzw. manifesten
Indikatoren nicht mit den wahren Ausprägungen der Indkatoren zusammenfallen,
so führt man damit zwangsläufig eine Unterscheidung zwischen dem beobachteten
bzw. gemessenen Wert der Ausprägung einer Variablen und ihrer wahren Ausprä-
gung ein. Die Betrachtung der Differenz zwischen beiden Ausprägungen führt zur
Konzeption des Messfehlers, der sich wiederum aus verschiedenen Komponenten
zusammensetzen kann, die auf unterschiedliche Quellen zurückgeführt werden
kann (je nach Art Befragungsart). Als Komponenten kommen alle Einflüsse in Fra-
ge, welche den Messwert beeinflussen könnten wie:
• Sichtbare und unsichtbare Merkmale der Interviewer
• Befragungssituation (z.B. Anwesenheit Dritter)
• Frageformulierung
• Fragebogengestaltung
• Befragungsart
• Mentaler Zustand des Befragten
Da jedem Messwert ein wahrer Wert und ein Messfehler entspricht, kann man auf
der Ebene von Variablen zwischen einer gemessenen Variablen x, einer latenten
wahren Variablen (eng.: true variable bzw. true-score-variable) τ und einer Fehler-
variablen ε unterscheiden.
Elaboriert wird diese Konzeption in der klassischen Testtheorie (vgl. Gulliksen,
1950; Lord & Novick, 1968; vgl. auch die Zusammenfassung von Bohrnstedt, 1983,
1993 sowie die Darstellung in Zeller & Carmines, 1980). Die klassische Testtheorie
IV.3 Fehlertheorie der Messungen 307

geht von einer additiven Zerlegung des beobachteten Werts einer Variablen xi in
einen wahren Wert (engl.: true score) τi und einen Messfehler (engl.: measurement
error) εi aus:

xi = τ i + ε i .

Eine beobachtete Variable x wird also als Summe einer wahren Variablen und einer
Fehlervariablen betrachtet:

x =τ + ε.

Der Fehler ist gemäß dieser Zerlegung definiert als Differenz zwischen dem gemes-
senen Wert und dem wahren Wert:
ε i = x i − τ i bzw. ε = x − τ .
Diese Zerlegung einer beobachteten Messung in eine wahre Messung und einen
Fehler bildet die Basis für die statistische Analyse fehlerbehafteter stetiger Variab-
len und den Reliabilitätsbegriff der klassischen Testheorie, der in Abschnitt IV.3.5
dargestellt wird.
In ihrer Definition des wahren Werts vertritt die klassische Testtheorie eine ope-
rationalistische Auffasung. Der wahre Wert ist gemäß dieser Auffassung definiert
als Erwartungswert (Mittelwert) E(xi) der individuellen Wahrscheinlichkeitsver-
teilung (Propensity) der gemessenen Zufallsvariablen xi. Da nach den Axiomen der
klassischen Testtheorie (siehe unten) der Erwartungswert der Fehlervariablen 0 ist,
ergibt sich:

τ i = E ( x i ) = μi .

Somit ergibt sich für die additive Zerlegung des Messwerts:

x i = μi + ε i .

Da aus den Axiomen der klassischen Testtheorie folgt:

E ( x ) = E (τ ) + E ( ε ) ,
308 IV.3 Fehlertheorie der Messungen

so gilt:

E ( x ) = E (τ ) + 0 = E (τ ) .

Der Mittelwert aller Messwerte ist also gleich dem Mittelwert aller wahren Werte.
Die Axiome der klassischen Testtheorie sind:
Axiome der klassischen Testtheorie (vgl: Lord & Novick, 1968, p. 36):

1) E(ε) = 0
(der Mittelwert der Fehlervariablen ist bei einer unendlichen Zahl von Wie-
derholungen der Messung 0);
2) ρ(x, τ) = 0
(die Korrelation zwischen der wahren Variablen und der Fehlervariablen ist
0);
3) ρ(εg, τh) = 0
(Die Korrelation zwischen der Fehlervariablen einer Messung g und der
wahren Variablen einer Messung h ist 0);
4) ρ(εg, εh) = 0
(Die Korrelation der Fehlervariablen zweier unterschiedlicher Messungen g
und h ist 0).

Ein gelegentlich verwendete alternative Formulierung ist:

1) E(x) = E(τ) = μx
(Der Mittelwert der gemessenen Variablen ist gleich dem Mittelwert der
wahren Variablen);
2) E(x1τ2) = E(τ1τ2)
(Die Kovarianz zwischen einer gemessenen Variablen x1 und der wahren
Variablen einer gemessenen Variablen x2 ist gleich der Kovarianz der beiden
wahren Variablen);
3) E(x1x2) = (x1τ2)
(Die Kovarianz zwischen zwei gemessenen Variablen ist gleich der Kovari-
anz zwischen einer der gemessenen Variablen und der wahren Variablen der
zweiten gemessenen Variablen).

Die operationalistische Auffassung des wahren Werts ist für sozialwissenschaftliche


Messungen nicht immer sinnvoll. Dies ist z.B. dann der Fall, wenn die wahren Wer-
te als Werte auf separaten Konstruktvariablen wie z.B. einer Einstellungsvariablen
lokalisiert werden.
IV.3 Fehlertheorie der Messungen 309

Lord und Novick (1968, p. 28) unterscheiden neben der operationalistischen


Definition des wahren Werts als Erwartungswert einer gemessenen Variablen zwei
weitere Konzepte des wahren Werts:
1) Wahrer Wert im Sinne eines individuellen konstanten wahren Werts, den jedes In-
GLYLGXXPLQ%H]XJDXIHLQHLQGLYLGXHOOH0HVVXQJGHUJOHLFKHQ(LJHQVFKDIWKDW
Dieses Konzept des wahren Werts lässt sich am Beispiel der Lichtgeschwindig-
keit erläutern. Im Fall der Lichtgeschwindigkeit wird angenommen, dass es eine
konstante wahre Lichtgeschwindigkeit gibt (theoretisch ableitbar), deren Mes-
sungen aber unterschiedlich ausfallen. Nehmen wir in der Umfrageforschung
eine Faktfrage, z.B. nach der Anzahl der Arztbesuche im letzten Monat. Dann
gibt es sicherlich eine konstante wahre Anzahl von Arztbesuchen, die aber je
nach Frageformulierung, Gedächtnis, etc. unterschiedliche ausfallen kann. Diese
Auffassung wird als platonische Auffassung des wahren Werts bezeichnet (vgl.
6XWFOLIIH 1DWUOLFKNDQQGLHVH.RQ]HSWLRQDXFKIUDQGHUH9DULDEOHQZLH
(LQVWHOOXQJVYDULDEOHQYHUWUHWHQZHUGHQLQVRIHUQPDQDXVWKHRUHWLVFKHQ*UQGHQ
EHUHLWLVWDQ]XQHKPHQGDVVHVVRHWZDVZLHHLQHZDKUH(LQVWHOOXQJJLEW
2) Wahrer Wert als Grenzwert des Durchschnitts der Messungen in einer wach-
senden Anzahl von Messwiederholungen unter den gleichen Bedingungen. In
diesem Fall wird also angenommen, dass sich der Durchschnitt der Messungen
immer weiter dem wahren Wert annähert.
Immerhin gilt, dass sich, solange die Definitionen der klassischen Testtheorie er-
füllt sind, sich alle Theoreme der klassischen Testtheorie auch auf alternative Auf-
fassungen des wahren Werts übertragen lassen.

IV.3.2 Ähnlichkeiten zwischen Messungen

Auf der Grundlage der klassischen Testtheorie lassen sich die Ähnlichkeiten zwi-
schen Messungen bezüglich des Ausmaßes, in dem sie die wahren Werte widerspie-
geln, präzise beschreiben. So können Messungen sich etwa insofern ähnlich sein,
als die ihnen korrepondierenden wahren Variablen perfekt, d.h. mit dem Wert 1.0
miteinander korrelieren. Ist dies der Fall, so heißen die Messungen kongenerisch,
d.h.:

q Messungen x1, x2,… xq heißen kongenerisch genau dann, wenn für jedes Paar von
Messungen xk xl gilt, dass die wahren Variablen τk,τl zu 1.0 korrelieren.
310 IV.3 Fehlertheorie der Messungen

Die Eigenschaft der kongenerischen Ähnlichkeit besagt bereits, dass sich die wah-
ren Variablen aus den wahren Variablen anderer Variablen durch Anwendung ei-
ner linearen Transformation fehlerfrei vorhersagen lassen.
Die nächste Steigerung der Ähnlichkeit zwischen Messungen ergibt sich, wenn
die beobachteten Variablen die gleichen wahren Werte besitzen. Präzisiert wird
dieser Sachverhalt durch den Begriff der τ-Äquivalenz:

q Messungen x1, x2,… xq heißen τ-äquivalent genau dann, wenn gilt:


Wx1 = Wx2 = … = Wxq.

Die Ähnlichkeit kann noch weiter durch die Annahme verschärft werden, dass die
Messungen gleiche Fehlervarianzen besitzen. Diese Bedingung definiert die Eigen-
schaft der Parallelität zwischen Messungen:

q τ-äquivalente Messungen x1, x2,… xq heißen parallel, wenn gilt:


V ε21 = V ε22 = … = V ε2q .

Gilt diese Gleichheit nur bis auf die Addition einer Konstanten, so spricht man
auch hier von essentieller Parallelität.

IV.3.3 „True-Score“-Modelle und Messmodelle

Jöreskog (1971) hat sich im Zusammenhang mit Modellen der konfirmatorischen


Faktorenanalyse mit der Bedeutung der kongenerischen Messeigenschaft für Mess-
modelle befasst. Liegt eine Menge von q kongenerische Messungen x1, x2,…, xi,…,xq
vor, so folgt für diese Menge, dass es eine Zufallsvariable τ und eine Konstante μi
geben muss, so dass
τi = μi + λiτ (vgl. Jöreskog, 1971, p.111).
τ heißt auch generische wahre Variable (engl.: generic true-score variable).
Da xi = τi + εi gilt, folgt, dass

x i = μi + λτ
i + εi.

Wenn wir die latente wahre Variable τ standardisieren mit


E(τ) = 0 und Var(τ) = 1
IV.3 Fehlertheorie der Messungen 311

so sieht man, dass die Konstante μi der Mittelwert von xi ist. Diese folgt aus den
Rechenregeln für Erwartungswerte. Danach wäre
E ( x i ) = μi + λi E (τ ) + E ( ε ) = μi + λi 0 + 0 = μi .

Außerdem gilt
λi ist gleich der Kovarianz zwischen τ und xi, da

Cov (τ , x i ) = Cov (τ , μi + λτ
i + ε i ) = Cov (τ , μ i ) + Cov (τ , λτ
i )

+ Cov (τ , ε ) = Cov (τ , λτ
i ) = λiCov (τ ,τ ) = λiVar (τ ) = λi 1 = λi .

und
λ2i ist gleich der Varianz der wahren Variablen τi von xi, da

Var (τ i ) = Cov (τ i ,τ i ) = Cov ( μi + λτ i ) = Cov ( μ i , μ i )


i , μ i + λτ

+ Cov ( μi , λτ
i ) + Cov ( λτ
i , μ i ) + Cov ( λτ i ) = Cov ( λτ
i , λτ i )
i , λτ

= λi2Var (τ ) = λi21 = λi2 .

Ein Ein-Faktor-Modell der konfirmatorischen Faktorenanalyse, in dem die latente


Variable eine generische True-Score-Variable ist und im übrigen die Axiome der
klassischen Testtheorie gelten (siehe oben) heißt auch „True-Score“-Modell (siehe
Abbildung IV.14).
Wie verhalten sich nun Messmodelle zur Messung einer Konstruktvariablen ξ
wie z.B. einer Einstellungsvariablen zu kongenerischen „True-Score“-Modellen mit
einer generischen True-Score-Variablen τ?
312 IV.3 Fehlertheorie der Messungen

Abbildung IV.14: True-score-Modell mit vier Indikatoren

In einem Modell mit einer latenten Konstruktvariablen ξ würde ξ zunächst auf die
mit den beobachteten Indikatoren x1, x2,…, xi,…,xq assoziieren wahren Variablen τ1,
τ2,…, τi,…,τq wirken. Für ein Messmodell mit vier Indikatoren würden die Modellglei-
chungen lauten:

τ1 = λ1ξ
τ2 = λ2ξ
τ3 = λ3ξ
τ4 = λ4ξ

Für die gemessenen Variablen gilt nach der klassischen Testtheorie:

x1 = τ1 + ε1
x2 = τ2 + ε2
x3 = τ3 + ε3
x4 = τ4 + ε4
IV.3 Fehlertheorie der Messungen 313

Durch Einsetzen erhält man schließlich:

x1 = λ1ξ + ε1
x2 = λ2ξ + ε2
x3 = λ3ξ + ε3
x4 = λ4ξ + ε4

Wie man sieht, übertragen sich die Einflussgrößen der latenten Variablen ξ von den
wahren Variablen auf die gemessenen Variablen. Außerdem gilt, dass unter der Be-
dingung, dass die Axiome der klassischen Testtheorie erfüllt sind, die gemessenen
Variablen kongenerisch sind, weil es eine generische Variable ξ mit

τi = λiξ ( i = 1,…, q )

gibt. Aus den vorangegangenen Überlegungen ergibt sich, dass sich Ein-Konst-
rukt-Modelle und kongenerische Messmodelle in der Modellanpassung an die Da-
ten nicht unterscheiden (vgl. auch Alwin & Jackson, 1980).
Man bezeichnet daher ein Messmodell, dass die Axiome der klassischen Test-
theorie erfüllt, als kongenerisches Messmodell. Es hat die Form eines Ein-Konstrukt-
Modells (siehe Box IV.5). Als Spezialfall des kongenerischen Messmodells ergibt
sich das Modell mit τ-äquivalenten Messungen. Man sieht leicht, dass in einem
kongenerischen Messmodell die q Indikatoren x1, x2,…,xq genau dann τ-äquivalent
sind, wenn ihre Ladungen auf der latenten Variablen ξ gleich sind, d.h., wenn gilt:

λ1 = λ2 = " = λq .

Sind die q Messungen parallel, so gilt:

σ ε21 = σ ε22 = " = σ ε2q .

Durch Anwendung der konfirmatorischen Faktorenanalyse lassen sich die Messei-


genschaften überprüfen. Ein kongenerisches Messmodell lässt sich durch Anpas-
sung eines Ein-Konstruktmodells mit unkorrelierten Fehlern und standardisierten
latenten Varianzen an die Daten überprüfen. Die Eigenschaft der τ-Äquivalenz
überprüft man, in dem man die Modellanpassung des durch Gleichsetzung der
Ladungen eingeschränkteren τ-äquivalenten Messmodells mit der Anpassung des
kongenerischen Messmodells ohne Einschränkungen vergleicht. Unterscheidet
314 IV.3 Fehlertheorie der Messungen

sich die Anpassungsstatistik nicht signifikant, so kann die Eigenschaft nicht wi-
derlegt werden. Die Eigenschaft der Parallelität lässt sich überprüfen, indem man
zusätzlich eine Gleichheit der Fehlervarianzen in des Modell einführt. Dieses noch
stärker eingeschränkte Messmodell vergleicht man hinsichtlich der Anpassung mit
der des τ-äquivalenten Modells. Die Eigenschaft der τ-Äquivalenz muss sich aber
vorher bewährt haben.

IV.3.4 Mehrstichprobenvergleiche von Messmodellen

Bestimmte Fragestellungen erfordern den Vergleich von Gruppen hinsichtlich der


Messeigenschaften von Variablen. Dabei geht es nicht nur um den Vergleich von
Verteilungsgesichtspunkten der gemessenen Variablen, sondern auch um Verglei-
che von Eigenschaften der verwendeten Messmodelle. Als Methoden bieten sich
die Verfahren der exporativen und konfirmatorischen Faktorenanalyse in beson-
derer Weise an. Mit der explorativen Faktorenanalyse und assozierten Verfahren
lassen sich Faktorenstrukturen vergleichen und die faktorelle Invarianz überprüfen
(vgl. z.B. Ahmavaara, 1954a, 1954b; vgl. die Anwendung in Faulbaum, 1984a). Die
konfirmatorische Faktorenanalyse erlaubt im Rahmen der Mehrstichprobenanaly-
se (engl. multisample analysis) bzw. des multiplen Gruppenvergleichs (engl. mul-
tigroup comparisons) die Überprüfung von Hypothesen über die Gleichheit von
Parametern über unterschiedliche Stichproben (Gruppen) hinweg, indem Gleich-
heitsrestriktionen (engl.: equality constraints) der Parameter zwischen den Grup-
pen vorgenommen werden, die im Rahmen von Modellvergleichen mit und ohne
eingeschränkte Beziehungen zwischen Parametern überprüft werden können (vgl.
Abbildung IV.15. Dazu gehören:
• die Gleichheit von Faktorenladungen;
• die Gleichheit von Fehlervarianzen und -kovarianzen;
• die Gleichheit von Faktorvarianzen und -kovarianzen;
• die Gleichheit von latenten Residualvarianzen und -kovarianzen;
• die Gleichheit aller Parameter eines Modells;
• die Gleichheit von Kovarianz- und Korrelationsmatrizen.
IV.3 Fehlertheorie der Messungen 315

Abbildung IV.15: Vergleich zwischen zwei Gruppen

Mit Hilfe des Tests von Gleichheitsrestriktionen lassen sich wichtige Eigeschaften
von Messmodellen überprüfen. Geht man davon aus, dass die Bedeutung von Kon-
strukten vornehmlich durch die Ladungen der Indikatoren bestimmt wird, so lässt
sich mit dem Verfahren des multiplen Gruppenvergleichs die Hypothese der em-
pirischen Bedeutungsgleichheit wie auch die Gleichheit bezüglich der Messfehler
prüfen.
Das Verfahren des multiplen Gruppenvergleichs wurde ursprünglich von Jö-
reskog (1971) entwickelt und hat sich seitdem zu einem Standardverfahren für
den Vergleich von Modellen der konfirmatorischen Faktorenanalyse und Struktur-
gleichungsmodellen zwischen unterschiedlichen Gruppen entwickelt (vgl. z.B. die
Darstellungen in Bollen, 1989, pp. 355; Reinecke, 2014, S. 69 ff.) Anwendungsbe-
reiche beziehen sich auf Vergleiche soziodemographischer Gruppen (vgl. z.B. Faul-
baum, 1987; Porst, Schmidt & Zeifang, 1987), auf den Vergleich zwischen Natio-
nen/Kulturen (vgl. Billiet, 2003; Faulbaum, 1990; Davidov et al., 2012; Davidov et
al., 2014; Gordoni & Smith, 2010) oder auf den Vergleich zwischen Modegruppen
(vgl. z.B. Gordoni, Schmidt & Gordoni, 2012; Hox, De Leeuw & Zijlmans, 2016).
Durch die gezielte Setzung oder Freisetzung von Parametern zwischen Gruppen
lassen sich die Unterschiede und Gleichheiten präzise lokalisieren. So kann man
z.B. feststellen, welche Gruppen sich in welchen Ladungen unterscheiden und in
welchen nicht.
316 IV.3 Fehlertheorie der Messungen

Die Methode des multiplen Gruppenvergleichs setzt allerdings bekannte Grup-


pen voraus. Will man Gruppen erst suchen, die sich durch Messmodelle unter-
scheiden, so bedarf es des Einsatzes von Mischverteilungsmodellen. Sucht man mit
Hilfe von Mischverteilungsmodellen nach Gruppen, die sich durch kausale Struk-
turen mit latenten Variablen unterscheiden, so ergeben sich eventuell erhebliche
Unterschiede in den Strukturen der Messmodelle (vgl. z.B. Faulbaum & Stein, 2000;
Faulbaum, Kelleter & Stein, 2001).
Neben den erwähnten Methoden der konfirmatorischen Faktorenanalyse gibt
es zahlreiche andere Verfahren des Strukturvergleichs zwischen Messungen. Ein
Beispiel wäre die Anwendung von Verfahren der multidimensionalen Skalierung
(vgl. Borg & Groenen, 2010; vgl. auch die Analysen mit PINDIS in Faulbaum,
1984a).

IV.3.5 Der Begriff der Reliabilität

Die Zerlegung einer gemessenen Variablen in eine wahre Variable und eine Feh-
lervariable führt auf ganz natürliche Weise zum Begriff der Zuverlässigkeit bzw. Re-
liabilität von Messungen. Es scheint plausibel, eine perfekte Zuverlässigkeit dann
anzunehmen, wenn es keinen Messfehler gibt, d.h., wenn der Messfehler den Wert
0 annimmt und die beobachteten Messungen mit den wahren Werten übereinstim-
men. Die Definition der Reliabilität in der klassischen Testtheorie basiert auf der
Varianzzerlegung der beobachteten Variablen. Ist die Fehlervariable wie von der
klassischen Testtheorie postuliert von der wahren Variablen statistisch unabhängig,
so kann man die Varianz σx2 der beobachteten Variablen x in der folgenden Weise
zerlegen:

σ x2 = σ τ2 + σ ε2 .

In dieser Formel ist στ2 die Varianz der wahren Variablen (auch : wahre Varianz) und
σε2 die Varianz der Fehlervariablen (auch: Fehlervarianz). Die Reliabilität wird dann
definiert als Verhältnis der wahren Varianz zur Varianz der beobachteten Variablen
(auch: beobachtete Varianz) σx2:

σ τ2 σ x2 − σ ε2 σ ε2
ρx = = =1− 2 .
σx 2
σx2
σx
IV.3 Fehlertheorie der Messungen 317

Wir sehen, dass die Reliabilität den maximalen Wert von 1.0 und den minimalen
Wert von 0 annehmen kann. Die Reliabilität ist 1.0, wenn die beobachtete Varianz
gleich der wahren Varianz ist bzw. wenn die Fehlervarianz 0 ist.
Hat man ein kongenerisches Messmodell spezifiziert, das gut an die Daten an-
gepasst ist, so lässt gilt für die Varianz eines Indikators xi (vgl. Box IV.7):

Var ( x i ) = λi2σ ξ2 + Var (δ i ) .

Daraus ergibt sich:

Var ( x i ) − Var (δ i ) = λi2σ ξ2 .

Der nicht auf den Messfehler zurückgehende wahre Varianzanteil des Indikators ist
λi2 σξ2.
Die Reliabilität eines einzelnen Indikators kann man in diesem Fall definieren
als:
λi2σ ξ2 λi2σ ξ2
ρi = = 2 2 .
Var ( x i ) λi σ ξ + Var (δ i )

Unter der Bedingung, dass wir die Variable τ standardisieren, indem wir ihre Vari-
anz auf 1.0 fixieren und damit τ in Einheiten von Standardabweichungen messen,
ergibt sich als Varianz von xi:

Var ( x i ) = λi2 + Var (δ i ) .

In diesem Fall ergibt sich als Maß für die Reliabilität also

λi2σ ξ2 λi2
ρi = = 2 .
Var ( x i ) λi + Var (δ i )

Standardisieren wir außer der latenten Faktorvariablen auch noch den beobachte-
ten Indikator selbst, so ergibt sich

λi2
ρi = = λi2 .
1
318 IV.3 Fehlertheorie der Messungen

In einem kongenerischen Messmodell, in dem alle Variablen standardisiert sind,


ergibt sich die Reliabilität als Quadrat der Faktorenladung.
Die Wurzel aus der Reliabilität wird auch als theoretische Validität bezeichnet.
Die theoretische Validität ist gleich der Faktorenladung λ und damit gleich der Kor-
relation zwischen der latenten Faktorvariablen ξ und dem Indikator xi.
Man kann weiterhin zeigen, dass die Reliabilität gleich der Korrelation zwischen
zwei parallelen Messungen x und x´ ist, denn es gilt:

Cov ( x , x′ ) Cov (τ + ‹ ,τ + ‹ ′ )
ρ xx ′ = =
σ xσ x ′ σ xσ x ′
Cov (τ ,τ ) + Cov (τ , ε ) + Cov (τ , ε ′ ) + Cov ( ε , ε ′ )
=
σ xσ x ′
Cov (τ ,τ ) σ τ2 σ τ2
= = = 2 = ρx .
σ xσ x ′ σ xσ x ′ σ x

In der Ableitung wurde ausgenutzt, dass die Korrelationen zwischen den wahren
und den beobachteten Variablen 0 sowie zwischen den Fehlervariablen 0 sind und
dass die Varianzen paralleler Messungen gleich sind.

IV.3.6 Praktische Verfahren der Reliabilitätsbestimmung

Alle praktischen Methoden der Reliabilitätsbestimmung beruhen auf der Annah-


me paralleler Messungen oder Annahmen über die Gleichheit wahrer Werte. Wir
haben im letzten Abschnitt gesehen, dass die Reliabilität einer Messung gleich der
Korrelation mit einer parallelen Messung ist. Also bedarf es nur der Entwicklung
einer parallelen Messung, um über die Korrelation die Reliabilität zu bestimmen.
Um dies zu erreichen, haben sich vor allem drei Ansätze etabliert:

A. Test-Retest-Methode
Bei der Test-Retest-Methode werden die gleichen Untersuchungseinheiten zu 2 ver-
schiedenen Zeitpunkten t1 und t2 gemessen. Die Reliabilität wird dann durch die
Korrelation zwischen Messung und Wiederholungsmessung bestimmt. Vorausset-
zung ist, dass Messung und Wiederholungsmessung parallele Messungen darstel-
len. Dies ist aber nur dann der Fall, wenn die wahren Variablen perfekt korreliert
sind (siehe unten).
IV.3 Fehlertheorie der Messungen 319

B. Testhalbierungsmethode
Bei der Testhalbierungsmethode (engl. split-halves-Methode) wird versucht, aus ei-
nem vorgegebenen Test zwei parallele Testhälften bzw. Hälften einer Skala zu ge-
winnen. Dies kann dadurch geschehen, dass die Items nach Zufall auf zwei Hälften
verteilt werden, oder besser dadurch, dass Paare von Items mit gleichen Mittelwer-
ten und Standardabweichungen gebildet werden und anschließend ein Item jedes
Paares einer der beiden Testhälften zugeordnet wird. Sind beide Hälften parallel, so
ergibt die Korrelation zwischen den Testhälften die Reliabilität des halbierten Tests.
Durch die Anwendung einer speziellen Formel, der Formel von Spearman-Brown
(siehe unten), kann die Reliabilität der Testhälfte auf den Gesamttest hochgerech-
net werden.

C. Methode der Parallelformen (Paralleltestmethode)


Bei dieser Methode wird versucht, zwei Formen des Tests bzw. einer Skala zu ent-
wickeln, die zu zwei parallelen Messungen führen sollen. Die Korrelation zwischen
beiden Messungen ist dann die Reliabilität.

IV.3.7 Reliabilität und Stabilität

Mangelnde Reliabilität von Messungen führt dazu, dass die beobachtete Korrela-
tion, d.h. die Korrelation zwischen zwei beobachteten Variablen, von der wahren
Korrelation, d.h. der Korrelation zwischen den assoziierten wahren Variablen ab-
weicht. Dies ergibt sich aus der sog. Verdünnungsformel (engl.: formula of attenuati-
on). Die aus den Definitionen der Reliabilität und der Definition einer Korrelation
leicht abeitbaren Verdünnungsformel hat die Gestalt:

ρ ( x, y )
ρ (τ x ,τ y ) =
ρx ρ y

In dieser Formel sind:

ρ(τx, τy) : Korrelation zwischen den wahren Variablen der Messungen x und y
ρ(x, y) : Beobachtete Korrelation zwischen x und y
ρx, ρy : Reliabilitäten von x und y
320 IV.3 Fehlertheorie der Messungen

Aus der Formel erkennt man, dass die beobachtete Korrelation nur dann gleich
der wahren Korrelation ist, wenn beide Messungen eine perfekte Reliabilität von
1.0 aufweisen. Ist dies nicht der Fall, so unterschätzt die beobachtete Korrelation die
wahre Korrelation, und zwar um so mehr, je geringer die Reliabilitäten sind.
Aus der Verdünnungsformel ergeben sich wichtige Konsequenzen für das Ver-
hältnis von Reliabilität und Stabilität einer Messung. Seien x1 und x2 Messungen zu
zwei Messzeitpunkten t1 und t2. Dann ist ρ(τx1, τx2) die Korrelation zwischen den
wahren Messungen der beiden Messzeitpunkte. Diese Korrelation wird auch als
Stabilität bezeichnet. Die Anwendung der Verdünnungsformel auf die Messungen
zu den beiden Messzeitpunkten ergibt für die Stabilität:

ρ ( x1 , x 2 )
ρ (τ x1 ,τ x2 ) = .
ρ x1 ρ x2

Durch Umformung ergibt sich:

ρ (τ x1 ,τ x2 ) ρ x1 ρ x2 = ρ ( x1 , x 2 ) .

Wenn wir annehmen, dass die Reliabilität eine Eigenschaft der Messung ist, die
über die Messzeitpunkte konstant ist, erhalten wir:

ρ (τ x1 ,τ x2 ) ρ x = ρ ( x1 , x 2 ) .

Man erkennt sofort, dass es sich um eine Gleichung handelt, in der nur die beob-
achtete Korrelation bekannt ist. Stabiltät und Reliabilität sind Größen, die man aus
der empirischen Korrelation schätzen müsste. Da es sich um eine Gleichung mit
zwei Unbekannten handelt, lässt sich eine der beiden Größen nur berechnen, wenn
die jeweils andere bekannt ist. Würde man z.B. annehmen, dass die Stabilität 1.0 ist,
wäre die Reliabilität gleich der der beobachteten Korrelation. Dies wäre der klassi-
sche Fall der Berechnung der Test-Restest-Korrelation als Maß für die Reliabilität.
Man kann sich nun die Frage stellen, wie viele Messzeitpunkte notwendig sind,
um Reliabilität und die Stabilität unabhängig schätzen zu können. Heise hat in ei-
nem 1969 erschienenen Aufsatz die Antwort darauf gegeben: Benötigt werden drei
Messzeitpunkte. Bei drei Messzeitpunkten stehen insgesamt drei empirische Kor-
relationen zur Verfügung: die Korrelation ρ(x1, x2) zwischen dem ersten und dem
zweiten Messzeitpunkt, die Korrelation ρ(x2, x3) zwischen dem zweiten und dem
IV.3 Fehlertheorie der Messungen 321

dritten Messzeitpunkt und die Korrelation ρ(x1, x3) ziwschen dem ersten und dem
dritten Messzeitpunkt. Es gelten also die folgenden Beziehungen:

ρ (τ x1 ,τ x2 ) ρ x = ρ ( x1 , x 2 ) ;
ρ (τ x2 ,τ x3 ) ρ x = ρ ( x 2 , x 3 ) ;
ρ (τ x1 ,τ x3 ) ρ x = ρ ( x1 , x 3 ) .

Unter der Bedingung, dass

ρ (τ x1 ,τ x3 ) = ρ (τ x1 ,τ x2 ) ρ (τ x2 ,τ x3 ) ,

ergibt sich

ρ ( x1 , x 3 ) ρ ( x1 , x 3 ) ρ ( x1 , x 3 )
ρx = = = .
ρ (τ x1 ,τ x2 ) ρ (τ x2 ,τ x3 ) ρ ( x1 , x 2 ) ρ ( x 2 , x 3 ) ρ ( x1 , x 2 ) ρ ( x 2 , x 3 )
ρx ρx ρ x2

Hieraus ergibt sich wiederum:

ρ x2 ρ ( x1 , x 3 )
ρx = .
ρ ( x1 , x 2 ) ρ ( x 2 , x 3 )

Daraus folgt:

1 ρ ( x1 , x 3 ) ρ ( x1 , x 2 ) ρ ( x 2 , x 3 )
= bzw. ρ x = .
ρ x ρ ( x1 , x 2 ) ρ ( x 2 , x 3 ) ρ ( x1 , x 3 )

Bei drei Messzeitpunkten lassen sich also die Reliabilitäten aus den beobachteten
Korrelationen ableiten. Wie die folgende Ableitung zeigt, lassen sich auch die Stabi-
litäten aus den beobachteten Korrelationen berechnen.

ρ ( x1 , x 2 ) ρ ( x1 , x 2 ) ρ ( x1 , x 2 ) ρ ( x1 , x 3 ) ρ ( x1 , x 3 )
ρ (τ x1 ,τ x3 ) = = = = .
ρx ρ ( x1 , x 2 ) ρ ( x 2 , x 3 ) ρ ( x1 , x 2 ) ρ ( x 2 , x 3 ) ρ ( x 2 , x 3 )
ρ ( x1 , x 3 )
322 IV.3 Fehlertheorie der Messungen

ρ ( x2 , x3 ) ρ ( x2 , x3 ) ρ ( x 2 , x 3 ) ρ ( x1 , x 3 ) ρ ( x1 , x 3 )
ρ (τ x2 ,τ x3 ) = = = = .
ρx ρ ( x1 , x 2 ) ρ ( x 2 , x 3 ) ρ ( x1 , x 2 ) ρ ( x 2 , x 3 ) ρ ( x1 , x 2 )
ρ ( x1 , x 3 )

ρ ( x1 , x 3 ) ρ ( x1 , x 3 ) ρ ( x1 , x 3 )
2

ρ (τ x1 ,τ x3 ) = ρ (τ x1 ,τ x2 ) ρ (τ x2 ,τ x3 ) = = .
ρ ( x 2 , x 3 ) ρ ( x1 , x 2 ) ρ ( x 2 , x 3 ) ρ ( x1 , x 2 )

Wir sehen also, dass sich die Stabilitäten unabhängig von der Reliabilität aus den
beobachteten Korrelationen schätzen lassen. Als Messmodell formuliert, ergibt sich
das in Abbildung IV.16 dargestellte Heise-Modell, einem Modell mit nur einem Indi-
kator (engl.: single indicator model) (vgl. auch Jagodzinski & Kühnel, 1987).

Abbildung IV.16: Heise-Modell

In einem Heise-Modell sind alle Variablen standardisiert. In Abbildung sind η1,


η2 und η3 die wahren Variablen zu den drei Messzeitpunkten. λ ist die Reliabilität
und ε1, ε2 und ε3 sind die Messfehler zu den drei Zeitpunkten. Die Stabilitäten
sind in Übereinstimmung mit den Konventionen bei der Spezifikation von Struk-
turgleichungsmodellen mit β bezeichnet. Die Stabilitäten sind mit gerichteten
Pfeilen gekennzeichnet und entsprechen den Korrelationen (zur Erinnerung: Bei
standardisierten Variablen entsprechen die Regressionskoeffizienten den Korre-
lationen).
Ein Beispiel für die Analyse eines Heise-Modells geben Jagodzinski und Kühnel
(1987). Die Autoren untersuchten an Hand von Daten der Zusatzstudie zur All-
IV.3 Fehlertheorie der Messungen 323

gemeinen Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) 1984 an drei


Messzeitpunkten wiederholte Messungen der in Abschnitt I.8 bereits dargestellten
Einstellung zu Ausländern (damals: Gastarbeiter) jeweils getrennt für die folgen-
den Items, die auf einer 7-stufigen Zustimmungsskala einzustufen waren (verwen-
det werden von der Darstellung in I.8 abweichenden Abkürzungen des englischen
Originalbeitrags):
• In Deutschland lebende Ausländer sollten ihren Lebensstil ein bisschen besser
an den der Deutschen anpassen (GST LIFESTYLE).
• Wenn Arbeitsplätze knapp werden, sollte man die in Deutschland lebende Aus-
länder in ihre Heimat zurückschicken (GST REPATRIATION).
• Man sollte in Deutschland lebenden Ausländern jede politische Bestätigung in
Deutschland untersagen (GST POLIPART).
• In Deutschland lebende Ausländer sollten ihre Ehepartner unter ihren Lands-
leuten auswählen (GST INTRAMARRY).
Der Stichprobenumfang der Zusatzstudie umfasste 152 Befragte. Die Stabilitäten
und Reliabilitäten sind in Tabelle IV.9 aufgeführt. Werden die Variablen nicht stan-
dardisiert, so ergibt sich das sog. Wiley & Wiley-Modell (vgl. Wiley & Wiley, 1970).
Wir sehen in Tabelle IV.9 den für Panelerhebungen typischen Fall, dass die Sta-
bilitäten zwischen den ersten beiden Messzeitpunkten niedriger sind als die zwi-
schen späteren Messzeitpunkten und dass die Reliabilität des Items „GST INTRA-
MARRY“ am höchsten ist.

Tabelle IV.9: Reliabilitäten und Stabilitäten in Heise-Modellen (Jagodzinski & Kühnel, 1987)

Items Reliabilitäten Stabilität zwischen Stabilität zwischen


t1 und t2 t2 und t3
GST LIFESTYLE .771 .837 .934
GST REPATRIATION .895 .782 .906
GST POLIPART .754 .774 .988
GST INTRAMARRY .955 .695 .848
324 IV.3 Fehlertheorie der Messungen

IV.3.8 Reliabilitätmaße für zusammengesetzte Messungen

Zusammengesetzte Messungen (engl.: composed measurements bzw. composite sco-


res) ergeben sich, wenn Einzelmessungen mittels arithmetischer Operationen zu
einer Gesamtmessung verbunden werden. Ein Beispiel ist die Addition von Einzel-
messungen zu einem Summenwert. Bei der Berechnung von Gesamtscores muss
immer bedacht werden, welche Gewichtungsfaktoren impliziert sind. So ist bei der
Berechnung eines Summenscores klar, dass alle Items das gleiche Gewicht von 1.0
haben; d.h. unabhängig davon, wie stark sich das zu messende latente Merkmal in
den Items ausdrückt, wird jedes Item in Bezug auf die Repräsentation der latenten
Eigenschaft als gleich behandelt. Andere Möglichkeiten, die auf einer Gewichtung
der Items nach der Höhe ihrer Korrelation mit der latenten Variablen beruhen,
bieten die Verfahren der Faktorenanalyse, die eine Gewichtung der Items nach der
Höhe der Ladungen erlaubt.

Reliabilität einer Summe ungewichteter paralleler Items


Zunächst ist festzuhalten, dass bei Vorliegen von n parallelen Messungen die Reli-
abilitäten aller Messungen identisch sind. Nach der Formel von Spearman-Brown
lässt sich die Reliabilität eines ungewichteten Summenscores von n Messungen
y1,…,yn nach der folgenden Formel berechnen:

nρ xx ’
ρx = .
1 + (n − 1)ρ xx ’

In dieser Formel ist ρxx΄ die Reliabilität der Einzelmessungen. Berechnen wir die
Reliablität für eine aus zwei parallelen Messungen, z.B. zwei Testhälften, zusam-
mengesetzte Messung, so muss von der Reliabilität einer Testhälfte auf die Reliabi-
lität des gesamten Tests hochgerechnet werden, so ist n = 2 anzusetzen, so dass sich
obige Formel auf die folgende Form reduziert:
2 ρ xx ’
ρx = .
1 + ρ xx ’

In dieser Formel bezeichnet ρxx΄ die Reliabilität der Testhälften.


IV.3 Fehlertheorie der Messungen 325

Reliabilität einer Summe gewichteter Items


Zur Berechnung der Reliablität einer Summe gewichteter Items hat Mosier (1943)
folgende Formel für die Summe gewichteter Messungen vorgeschlagen:

∑ w 2j σ i2 − ∑ j =1w 2j σ i2rjj
n n
j =1
ρx = .
∑ w 2j σ i2 + 2∑ j =1w jw kσ jσ krjk
n n
j =1

In dieser Formel sind:

ρx : Reliabilität des gewichteten Summenscores x


wj, wk : Gewicht der Komponenten xj und xk
σj, σk : Standardabweichungen der Komponenten xj und xk
rjj : Reliabilität der Komponente xj
rjk : Interkorrelation zwischen den Komponenten xj und xk

Jöreskog (1971) schlägt für die Indikatoren eines kongenerischen Messmodells ei-
nen gewichteten Score

y = w′x = w′ ( μ + λτ + ε ) = w′μ + w′ ( λτ ) + w′λ

vor. In dieser Formel ist w' eine Zeilenvektor von Gewichten, μ, λ und ε sind Spal-
tenvektoren der Mittelwerte, der Ladungen und der Fehler. Die Bestimmung der
Varianz von und die Anwendung der Definition der Reliabilität führt zu folgen-
dem Ausdruck für die Reliablität:

(¦ w λ )
2
m
( w'λ )
2
i i
i =1
ρ= = .
( w'λ ) + w'Θ w ( ¦ w λ ) + ¦ w λ Var (ε )
2 2 2
m m
i i i i 1
i =1 i =1

In diesem Ausdruck ist Θ2 ist die quadrierte Kovarianzmatrix der Fehler. Man kann
zeigen, dass die Reliabilität ein Maximum annimmt, wenn für die Gewichte der
Komponenten gilt:

λi
wi =
Var (‹ )
326 IV.3 Fehlertheorie der Messungen

Nehmen wir als Beispiel das kongerische Messmodell der extrinsischen Berufsori-
entierung mit den folgenden Ladungen und Fehlervarianzen:
Items λi
λi Var(ε) wi =
Var (‹ )
Sichere Berufsstellung 1.053 1.600 0.658
Hohes Einkommen 1.259 1.332 0.945
Gute Aufstiegsmöglichkeiten 1.276 0.468 2.726
Ein Beruf, der anerkannt und
geachtet wird 1.093 1.750 0.625

Zur Berechnung der Reliabilität der aus den Items gebildeten zusammengesetzten
Messung berechnen wir zunächst die Bestandtteile

2
⎛ m ⎞
⎜ ∑wi λi ⎟ = ⎡⎣(1.053 × .658 ) + (1.253 × .945 ) + (1.276 × 2.726 ) + (1.093 × .625 ) ⎤⎦
2

⎝ i =1 ⎠
= ( .693 + 1.184 + 3.478 + .658 ) = 6.0132 = 36.156
2

∑w λ Var (ε ) = (.693 × 1.600 ) + (1.184 × 1.332 ) + ( 3.478 × .468 ) + . ( 658 × 1.750 )


i =1
i i 1

= 1.108 + 1.577 + 1.628 + 1.151 = 5.941

Damit ergibt sich für die Reliabilität ρ des zusammengesetzten Scores:

36.156 36.156
ρ= = = .858.
36.156 + 5.941 42.097

Bentler (1972), Bentler & Woodward (1980) und Shapiro (1982), leiten untere und
obere Grenzen für die Reliabilität multivariat verteilter Indikatoren in Modellen
der Faktorenanalyse ab.

Cronbachs α:
Man kann zeigen, dass für zusammengesetzte Messung x = y1 + y2 + ∙∙∙ + yn gilt,
dass
n ⎡⎢ ∑ i =1Var ( y i ) ⎥⎤
n

ρ x ≡ ρ ( x ,τ ) ≥ α =
2
1− .
n −1 ⎢ Var ( x ) ⎥
⎣ ⎦
IV.3 Fehlertheorie der Messungen 327

Der in der Formel auftauchende Koeffizient Į wird auch als Cronbachs Į bezeichnet
(vgl. Cronbach, 1951). Cronbachs Į ist gleich der Reliabilität, wenn die Messungen
wenigstens τ-äquivalent sind, d.h. die gleichen wahren Werte besitzen. Man kann Į
auch über die Kovarianzen zwischen unterschiedlichen Items definieren:

n ∑ i ≠ jCov ( y i , y j )
α= .
n −1 Var ( x )

In dieser Formel steigt Į mit steigenden Kovarianzen zwischen den Items relativ
zur Varianz des Gesamtscores. Dies zeigt, dass die Reliabilität maßgeblich über die
interne Konsistenz der Items bestimmt ist: Je stärker die Items zusammenhängen,
desto höher die Reliabilität.
Die Spearman-Brown-Formel (siehe oben) ergibt sich als Folgerung aus Cron-
bachs Į (vgl. Lord & Novick, 1968, p. 90). Sind die Items dichotom, so erhält man
als Spezialfälle die sog. Kuder-Richardson-Formeln.:
Seien pi und qi = 1 − pi die Antwortwahrscheinlichkeiten der Einzelmessungen
yi. Dann nimmt die Form der sog. Kuder-Richardson-Formel 20 an:

n ⎛⎜ ∑ i =1piqi ⎞⎟
n

α 20 = 1− .
n −1⎜ Var ( x ) ⎟
⎝ ⎠

Haben alle Messungen die gleichen Antwortwahrscheinlichkeiten, so ergibt sich


die Kuder-Richardson-Formel 21:

n ⎛ npq ⎞
α 21 = ⎜1 − ⎟,
n − 1 ⎜⎝ Var ( x ) ⎟⎠

wobei:

n
pi
p= i =1

n
und

n
qi
q= i =1
.
n
328 IV.4 Die Validität von Messungen

Shapiro (1985; vgl. auch Bentler & Woodward, 1983) leiten die asymptotische Ver-
teilung der größten unteren Schranke der Reliabilität ab und ermöglichen damit
einen statistischen Test der Reliabilität.

IV.4 Die Validität von Messungen

Das Wort Validität bezeichnet den Grad bzw. das Ausmaß, mit dem ein Instrument
(z.B. Test, Fragebogen, Item) das zu untersuchende Konstrukt misst. Anders ausge-
drückt, bezeichnet das Wort Validität das Ausmaß, in dem ein Messinstrument das
misst, was es messen soll. Voraussetzung für die Anwendung statistischer Verfah-
ren der Validitätsberechnung ist, dass das Frageverständnis gesichert wurde, was
nur mit den in Teil V erläuterten Verfahren erreichbar ist.
Wir haben in Abschnitt IV.3.5 den Begriff der theoretischen Validität als Qua-
dratwurzel aus der Reliabilität bzw. als Korrelation zwischen Indikator und Kons-
truktvariablen definiert. Die theoretische Validität eines Indikators ist also um so
höher, je höher die Korrelation zwischen Indikator und Konstrukt ist. Von größerer
Bedeutung in der differentiellen und diagnostischen Psychologie, aber weniger in
der Umfrageforschung ist der Begriff der empirischen Valdidität. Im Unterschied
zur theoretischen Validität bezieht sich die empirische Validität auf die Korrelation
zwischen einer Messung und einem unabhängigen beobachtbaren Kriterium. Man
spricht daher auch von Kriteriumsvalidität oder kriteriumsbezogener Validität, wo-
bei man unterscheidet zwischen:

A. Vorhersagevalidität (engl.: predictive validity)


Kriteriumsvalidität, bezogen auf ein zukünftiges Kriterium.
Beispiele:
Ein Test zur polizeilichen Eignung korreliert mit dem zukünftigen Verhalten als
Polizist; ein Test zur Studieneignung korreliert mit dem späteren Studienerfolg.

B. Gleichzeitige Validität (eng.: concurrent validity)


Korrelation zwischen gleichzeitig erhobenen Test- und Kriteriumsmessungen. Dies
kann z.B. den Zusammenhang zwischen Messungen und Gruppenzugehörigkeit
betreffen (sog. Methode der bekannten Gruppen).
IV.4 Die Validität von Messungen 329

Beispiel:
Es wird überprüft, ob der mittlere Testwert eines Tests zur polizeilichen Eignung
für die Gruppe der erfolgreichen Polizisten signifikant höher ist als für die Gruppe
der nicht erfolgreichen Polizisten.
Für die Sammlung von Fragen/Items ist zentral, dass inhaltlich valide Fragen/Items
gefunden werden, d.h. Items, die als gute Indikatoren für ein Konstrukt gelten
könnten. Die Inhaltsvalidität (engl.: content validity) betrifft das Ausmaß, in dem
eine Menge von Items einen bestimmten inhaltlichen Bereich abdeckt; repräsen-
tieren die ausgewählten Items den vollen inhaltlichen Bereich, heißen sie inhaltlich
valide. Der Begriff der inhaltlichen Validität bezieht sich also auf die Qualität der
Operationalisierung sowie der Konzeptspezifikation. So wäre vielleicht ein Item zur
Messung zur Messung der politischen Partizipation nicht unbedingt inhaltlich vali-
de für die Messung ethnischer Vorurteile. Die Messung arithmetischer Fähigkeiten
muss alle Fähigkeiten abdecken und z.B. nicht nur Addition und Subtraktion.
Wenn man in der Lage ist, die geeigneten Daten zu erheben, lassen sich wichtige
Erkenntnisse über den Einfluss von Methoden und theoretischen Konstrukten auf
Valdität und Reliabilität von Messungen durch Inspektion sog. Multitrait-Multi-
method-Matrizen (kurz MTMM-Matrizen) erlangen (vg. Campbell & Fiske, 1959).
Die Inspektion von Multitrait-Multimethod-Matrizen dient der Überprüfung der
konvergenten (engl. convergent) und diskriminanten (engl.: discriminant) Validität.
Konvergente Validität liegt für ein Konstrukt dann vor, wenn unterschiedli-
che Operationalisierungen des Konstrukts, d.h. verschiedene Methoden seiner
Messung, zu ähnlichen Ergebnissen führen. Diskriminante Validität liegt für eine
Messung vor, wenn sich empirisch zeigen lässt, dass die Messung zwischen ver-
schiedenen Konstrukten differenzieren kann. Dies wäre dann der Fall, wenn eine
neu eingeführte Messung nicht zu hoch mit den Messungen anderer Konstrukte
korreliert.
In der klassischen Form erfordert die Aufstellung von MTMM-Matrizen, dass
alle Befragten unter allen methodischen Bedingungen und unter allen Konstrukten
gemessen wurden. Ist dies der Fall, so lassen sich die Korrelationen zwischen Mes-
sungen in Form einer MTMM-Matrix zusammenstellen, welche die in Abbildung
IV.17 dargestellt Form hat. In der Abbildung ist ein fiktives Beispiel dargestellt, in
dem extrinsische Berufsorientierung, die intrinsische Berufsorientierung und die
soziale Orientierung unter den Bedingungen der computeruntersützten Telefon-
befragung (CATI), der Face-to-Face-Befragung (FtF) und der Online-Befragung
über spezifische Indikatoren gemessen wurden. In die Beispielmatrix sind in der
Hauptdiagonalen die Reliabilitäten eingefügt, die mit Hilfe der in Abschnitt *5.5
oder über die Faktorenaladungen geschätzt werden können.
330 IV.4 Die Validität von Messungen

Abbildung IV.17: Fiktives Beispiel einer MTMM-Matrix

Wie aus Abbildung IV.13 zu entnehmen ist, kann man verschiedene Teile einer
MTMM-Matrix unterscheiden:
Korrelationen zwischen Konstrukten, die mit einer Methode gemessen wurden,
bilden sog. Heterotrait-Monomethod-Dreiecke. Die Heterotrat-Heteromethod-Drei-
ecke werden durch die Korrelationen zwischen Messungen unterschiedlicher Me-
thoden und Konstrukte gebildet. Die Validitätsdiagonalen enthalten die Korre-
lationen zwischen Messungen des gleichen Konstrukts unter den verschiedenen
Methoden. Validitätsdiagnonale und Heterotrait-Heteromethod-Dreicke bilden
einen Heteromethodenblock. Die Korrelationen innerhalb einer Methode bilden ei-
nen Monomethodenblock.
Konvergente Validität wird durch Inspektion der Korrelationen in der Validi-
tätsdiagonalen festgestellt. Diese sollten hoch sein. Diskriminante Validität liegt
vor, wenn die Werte der Heterotrait-Heteromethod-Dreiecke nicht so hoch sind
wie die in der Validitätsdiagonalen und wenn die Werte in den Heterotrait-Mono-
method-Dreiecken nicht so hoch wie die Reliabilitäten der Messungen sind.
Wenn wir die Methoden und Konstrukte als latente Variablen in ein Modell der
konfirmatorischen Faktorenanalyse zusammen mit den Messungen als Indikato-
ren aufnehmen, lassen sich die Effekte der Methoden und der Konstrukte auf die
Messungen bestimmen. In Abbildung IV.18 ist die Struktur eines Modells mit den
IV.4 Die Validität von Messungen 331

Variablen der MTMM-Matrix von Abbildung IV.14 dargestellt, wobei die Fehler-
variablen der Einfachheit der Darstellung halber nicht mit eingezeichnet und hin-
zugedacht werden müssen. Mit Hilfe der konfirmatorischen Faktorenanalyse lassen
sich die Einflüsse von Methoden und Konstrukten auf die Messungen schätzen.
Außerdem lassen sich mögliche Zusammenhänge zwischen den Methodenvari-
ablen und zwischen den Konstruktvariablen prüfen. Dank der Möglichkeit, Ein-
schränkungen der Parameter, etwa durch die Postulierung von Ladungsgleicheiten,
einzuführen, lassen sich detailliertere Modellstrukturen prüfen.

Abbildung IV.18: Faktorenanalytische Formulierung eines Modells für eine MTMM-Matrix

Unter der Annahme, dass die Methodenfaktoren mit den Konstruktfaktoren nicht
korreliert sind, lässt sich die Korrelation zwischen zwei beobachteten Variablen für
eine konstante Methode Mj in der folgenden Weise zerlegen (vgl. Saris & Gallhofer,
2014; Oberski, Saris & Hagenaars, 2010):

ρ ( y ij , y kj ) = ρ (ξ i , ξ k ) λij λkj + mijmkj ,


332 IV.4 Die Validität von Messungen

wobei:

yij, ykj : Messungen unter einer Methode Mj und


Konstrukten ξi bzw. ξk
σ(yij, ykj) : Beobachtete Korrelation zwischen den Variablen yij
und ykj.
σ(ξi, ξk) : Korrelation zwischen den Konstruktvariablen ξi und ξk
λij, λkj : Faktorladungen der Messungen yij und ykj auf
den Konstrukten ξi und ξk unter einer
Methode Mj
mij, mkj : Ladungen von yij und ykj auf dem
Methodenfaktor Mj

Die obige Zerlegung lässt sich unter Anwendung der Regeln für das Rechnen mit
Kovarianzen (siehe Box III.7) leicht ableiten, denn es gilt:

ρ ( y ij , y ik ) = ρ ( λijξ i + mij M j , λkjξ k + mkj M j )


= ρ ( λijξ i , λkjξ k ) + ρ ( mij M j , λkjξ k ) + ρ ( λijξ i , mkj M j ) + ρ ( mij M j , mkj M j ) .

Da die Methodenfaktoren von den Konstruktvariablen als unabhängig vorausge-


setzt worden sind, ergibt sich:

ρ ( y ij , y ik ) = ρ (ξ i , ξ k ) λij λkj + mijmkj ρ ( M j , M j ) = ρ (ξ i , ξ k ) λij λkj + mijmkj ρ ( M j , M j )


= ρ (ξ i , ξ k ) λij λkj + mijmkj .

λij und λkj sind die Quadratwurzeln aus den Reliabilitäten bzw. die theoretischen
Validitäten. Die Anwendung auf die Verdünnungsformel (siehe Abschnitt IV.3.7)
ergibt:
ρ ( y ij , y ik ) − mijmkj
ρ (ξ i , ξ k ) = .
λij λkj

Der Methodeneffekt auf die Variablen yij und ykj erhöht bzw. bereinigt also die Kor-
relation zwischen den latenten Konstrukten.
Als Methodenfaktoren können neben unterschiedlichen Kommunikationsfor-
men wie „telefonisch“, „Face-to-Face“ und „online“ unterschiedliche Aspekte von
Erhebungsinstrumenten eingeführt werden. So lassen sich etwa die Effekte unter-
schiedlicher Skalentypen studieren, wie z.B. Ratingskalen mit einer unterschied-
lichen Anzahl von Abstufungen oder unterschiedlichen Verbalisierungen. Auch
IV.5 Zusammenfassung 333

lassen sich die Effekte von Kategorialskalen genauer untersuchen, wenn man zu-
sätzlich latente Antwortvariablen in die Modellierung der MTMM-Matrix einbe-
zieht. So untersuchten Oberski, Saris und Hagenaars (2010) Kategorisierungsfeh-
ler, indem sie die latenten Schwellenwerte schätzten.
Modifikationen des MTMM-Ansatzes ergeben sich, wenn man zulässt, dass
nicht alle Befragten alle Items vorgelegt bekommen, sondern stattdessen eine zufäl-
lige Teilstichprobe eine Form der Items beantwortet und die andere Teilstichprobe
die andere Form der Items. Man spricht in diesem Fall von einem split-ballot-MT-
MM (vgl. Oberski, Saris und Hagenaars, 2010).

IV.5 Zusammenfassung

Das Ziel ernsthaft gemeinter Umfragen besteht immer in der Messung von Eigen-
schaften der Grundgesamtheit (siehe Teil I). Diese Messungen stellen Schätzun-
gen der statistischen Parameter bzw. der „wahren“ statistischen Eigenschaften der
Grundgesamtheit dar. Mitentscheidend für die Genauigkeit dieser Schätzungen
sind die zu den Nichtstichprobenfehlern gehörenden Messfehler sowie die Gül-
tigkeit der Messungen. Werden mit einer Messung Inhalte/Konstrukte gemessen,
die sich von den Inhalten, über die für eine Population Aussagen getroffen werden
sollen, unterscheiden, so führt dies zu einer Fehlinterpretation der statistischen
Ergebnisse. Eine mangelnde Reliabilität führt zu einer Einschränkung der Ausage-
kraft in dem Sinne, dass das Ergebnis in einer Erhebung unter den gleichen Bedin-
gungen anders aussehen würde.
Welche Verfahren zur Analyse von Reliabilität und Validität anwendbar sind,
richtet sich nicht zuletzt nach der gewählten Operationalisierung, der Anzahl der
Indikatoren, etc. Der gesamte Apparat der in diesem Teil vorgestellten Verfahren
wird von einem einzelnen Institut für eine einzelne Erhebung aus Kosten- und
Gründen der personellen Ausstattung nicht immer zu nutzen sein. Allerdings emp-
fiehlt sich die Nutzung bei Umfragen von besonderer nationaler, wissenschaftlicher
oder gesellschaftlicher Bedeutung, allgemein jedenfalls dort, wo auf der Basis von
Umfragedaten wichtige generalisierbare Erkenntnisse gewonnen werden sollen,
aus denen wissenschaftliche Konsequenzen gezogen werden sollen oder die der
politischen Entscheidungsvorbereitung dienen. Gelegentlich wird man an Stelle
eigener Analysen bereits bewährte Survey-Items nutzen können. Dabei kann auf
Datenbanken wie Mikrodaten-Informationssysten (kurz: Missy) oder den Daten-
bestandskatalog von GESIS zurückgegriffen werden.
Teil V: Entwurf und Evaluation von Fragen

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 335
F. Faulbaum, Methodische Grundlagen der Umfrageforschung,
https://doi.org/10.1007/978-3-531-93278-1_5
V.1 Überblick

Der Entwurf eines Fragebogens sollte mit einer Überlegung darüber beginnen,
welche Informationen durch Selbstauskünfte des Befragten erhoben werden sollen.
Diese Überlegungen müssen die Forschungsfragestellung und die zu erhebenden
Konstrukte in den Blick nehmen, für welche die Fragen angemessene Operatio-
nalisierungen darstellen sollen. Der Entwurf eines Fragebogens ist ein mehr oder
weniger langer Prozess, der mit der Ausarbeitung der Inhalte, ggf. unter Einbe-
ziehung von Expertisen oder Ergebnissen vorgeschalteter Gruppendiskussionen
und ersten Entwürfen von Survey-Items und ihren Bestandteilen beginnt. Dabei
geht es sowohl um die Texte von Fragen und Items als auch um die Konzeption
geeigneter Antwortvorgaben und Skalen. Es steht außer Zweifel, dass die Phase des
Erstentwurfs eine der schwierigsten Phasen der Fragebogenentwicklung darstellt,
insbesondere dann, wenn an der Entwicklung ein nationales oder internationales
Team beteiligt ist, was in er Regel wiederholte Abstimmungen und Diskussionen
der Entwürfe erfordert.
Der Entwurf einer Frage erfordert Entwürfe aller Bestandteile einer Frage. Wird
im Fragetext die Bewertung von Items verlangt, stellen die Items in der Regel Ope-
rationalisierungen der zugrundeliegenden Konstrukte dar. Für jedes Item ist ein
Textentwurf, die Festlegung der Antwortdimension (z.B. Wichtigkeit, Zufrieden-
heit, etc.) sowie die Auswahl des Antwortformats einschließlich möglicher Verba-
lisierungen erforderlich.
Es liegt nahe, noch vor einem eigenen Entwurf zu prüfen, ob es bereits Fragen/
Items aus anderen Erhebungen gibt, die als Operationalisierung in Frage kommen.
Dazu ist es erforderlich, in einschlägigen Dokumentationssystemen nachzusehen,
die Auskunft nicht nur über die Datensätze, sondern auch über die mit den Er-
hebungen verbundenen Metadaten geben, zu denen auch Fragen und Fragebögen
gezählt werden können. Ehe schlechte Fragen mit der Begründung der Aufrecht-
erhaltung der Vergleichbarkeit mit den Ergebnissen anderer Erhebungen nicht im-
mer perpetuiert werden, sollte geprüft werden, ob für die Fragen/Items Angaben
über Gütekriterien vorliegen. Auch aus anderen Erhebungen übernommene Fra-
gen sollten wie die eigenen Erstentwürfe auf mögliche Probleme abgeklopft wer-
den, wobei auch Fragebewertungssysteme eingesetzt werden können (siehe unten).
Nicht alle Fragen, auf die ein Designer in der Vergangenheit stolz war, sollten auch
eine Zukunft haben, wenn sie Probleme beinhalten.
Besonders bei seit langem etablierten Item-Skalen, die bestimmte Dimensionen
messen, wie etwa Beschwerdeskalen in der Gesundheitsforschung oder psychologi-
sche Skalen wie z.B. Extraversion kommt man um deren Verwendung oft nicht he-
338 V.1 Überblick

rum. Oft liegen für diese Skalen aber auch Angaben über Gütekriterien vor, wenn
nicht in Datenbanken, dann in der einschlägigen Literatur.
Wie bereits mehrfach in Teil III immer wieder ausgeführt, stellt eine Frage eine
Aufforderung dar, eine im Fragetext beschriebene Aufgabe zu lösen. Diese Aufgabe
besteht möglicherweise nicht nur im einfachen Abruf einer Antwort, sondern kann
z.B. Entscheidungen wie in Wahlexperimenten oder in der Randomized-Respon-
se-Technik (siehe Teil III) beinhalten. Auch nonverbales Verhalten kann Teil der
Aufgabe sein. So kann eine Frage nach dem Energieverbrauch eine Bitte um das
Heraussuchen der letzten Stromrechnung erfordern; eine Frage nach dem Gewicht
kann eine Gewichtsmessung beinhalten, etc. Die erfolgreiche Lösung der Aufgabe
wird dann durch die Antwort dokumentiert.
Liegt ein erster Frageentwurf vor, lässt sich dieser Entwurf noch einmal mit
Hilfe eines Fragebewertungssystems (siehe unten) hinsichtlich seiner Qualität
überprüfen, um Quellen von Gefährdungen des Frage- und damit des Aufgaben-
verständnisses sowie mögliche Probleme des Befragten mit der Erfüllung Aufgabe
bzw. der Leistungserbringung schon vor Einsatz eines empirischen Prüfungsver-
fahrens identifizieren zu können. Der nach erfolgten Prüfungen resultierende Fra-
geentwurf stellt dann einen optimierten Anwärter auf die finale Frageformulierung
dar. Dieser sollte aber in jedem Fall noch einmal einem empirischen Prüfungs-
verfahren unterworfen werden, um noch existierende Probleme, die Befragten
mit den Frageentwürfen und dem Fragebogenentwurf haben, zu erkennen und
die Entwürfe entsprechend modifizieren zu können. Besondere Aufmerksamkeit
sollte dem Frageverständnis gewidmet sein. Der Forscher bzw. der oder die Fra-
gebogendesigner entwerfen die Fragen in der Regel unter Zugrundelegung des
eigenen Verständnisses, d.h. sie verleihen einem Text die eigene Bedeutung. Wie
bereits in Teil III ausgeführt wurde, kann sich diese von den Bedeutungen, die be-
stimmte Subgruppen der Population dem Fragetext geben, unterscheiden. Für die
Interpretation der späteren Daten und als Voraussetzung für die Beurteilung der
Validität ist ein Überblick darüber, wie Befragte den Fragetext verstehen, außeror-
dentlich wünschenswert. Der Forscher bekommt dann Hinweise, in welcher Form
er den Text ändern muss, um das von ihm intendierte Verständnis zu erzeugen.
Es versteht sich, dass der z.T. hohe Zeit- und Kostenaufwand für die Ermittlung
des Frageverständnisses nur bei solchen Fragen erfolgen sollte, bei denen ein vom
Verständnis des Forschers unterschiedenes Verständnis auf Seiten der Befragten
vermutet werden kann.
Zur Überprüfung der Frageentwürfe stehen aber nicht nur auf die Prüfung des
Frageverständnisses abzielende Verfahren zur Verfügung, sondern vielmehr eine
ganze Palette weiterer Verfahren mit unterschiedlichen Schwerpunkten. Das Fra-
geverständnis und die Qualität von Fragetexten ist zwar ein zentrales Anliegen der
V.2 Der Erstentwurf einer Frage 339

Evaluation von Fragen. Es geht aber auch um kostenrelevante Merkmale wie die
Zeit, die es braucht, um eine Frage oder einen Fragebogen zu bearbeiten, Gesamt-
beurteilungen des Erhebungsinstruments aus Sicht der Befragten und der Inter-
viewer.

V.2 Der Erstentwurf einer Frage

V.2.1 Allgemeine Empfehlungen und Richtlinien

Schon der erste Entwurf einer Frage, ob er nun in Teamarbeit erstellt wurde oder
nicht, sollte von vornhinein darauf gerichtet sein, die Qualität der Antwort zu op-
timieren, soweit sie durch die Wahl des Frageinhalts und des Fragetextes kontrol-
liert werden kann. Dabei sollten nach Möglichkeit die Untersuchungsergebnisse
über die Wechselwirkungen von Fragetexten, Personen und Kommunikationsform
beachtet werden. Den Überblick darüber können eigentlich nur auf die Umfrage-
forschung spezialisierte Teams haben. Notwendig sind solche Teams der Qualitäts-
sicherung besonders an Einrichtungen, die Umfragen mit hohem wissenschaftli-
chem Anspruch und großer Bedeutung für die akademische Forschung oder für
die Sammlung von Erkenntnissen von nationaler oder internationaler Bedeutung
über Wirtschaft und Gesellschaft selber durchführen oder durch Institute betreuen
lassen.
In der Vergangenheit gewonne Ergebnisse der Umfrageforschung zur Optimie-
rung von Fragen und Fragebögen, ergänzt durch „Common Sense“ schlagen sich
in zahlreichen Empfehlungen und Richtlinien nieder, die beim Entwurf von Fragen
beachtet werden können. Manche dieser Empfehlungen sind gut gemeint, lassen
sich aber oft in der Praxis nur teilweise oder überhaupt nicht realisieren, weil For-
schungsthema und andere Vorgaben, etwa der Kommunikationsform dies nicht
erlauben.
Einige Empfehlungen ergeben sich schon aus dem Ansatz des maßgeschneider-
ten Designs von Dillman (zum Begriff des maßgeschneiderten Designs siehe I.4.4).
Auf die Konstruktion von Erhebungsinstrumenten beziehen sich die folgenden
Vorschläge (vgl. Dillman, 1997):
• Konstruktion eines interessanten Fragebogens;
• Vermeidung einer herablassenden Sprache bzw. Befehlsformen;
• Vermeidung von Verlegenheit oder Verwirrung der Befragten;
• Vermeidung von Unannehmlichkeit bzw. Unbequemlichkeit;
340 V.2 Der Erstentwurf einer Frage

• Entwurf eines kurzen und leichten Fragebogens (gilt besonders für Selbst-ad-
ministrierte Interviews);
• Reduzierung von Forderungen nach persönlichen Informationen, die die Be-
fragten nicht gerne weitergeben;
• Verwendung untereinander konsistenter Fragen.
In Bezug auf den Entwurf von Fragebögen und Fragen ergibt sich aus dem Ansatz
vor allem die Konsequenz, die Belastungen des Befragten, seien es kognitive, emo-
tionale Belastungen oder Belastungen durch schlechte Benutzerfreundlichkeit des
Fragebogens, gering zu halten.
Sofern Erkenntnisse zu Auswirkungen physischer, psychologischer und sozi-
aler Merkmale der Befragten auf die Beantwortung von Fragen vorliegen, sollten
diese soweit wie möglich schon beim Entwurf von Fragebögen und Fragen Berück-
sichtigung finden. Zur Kontrolle der emotionalen und kognitiven Ressourcen gibt
es Bestrebungen, kurze Skalen zu Messung dieser Ressourcen in den Fragebogen
einzuführen Ein Beispiel ist der Versuch, die sog. „big five“ (die Persönlichkeitsfak-
toren Extraversion, soziale Verträglichkeit, Gewissenhaftigkeit, Neurotizismus, Of-
fenheit/Intellekt) durch Kurzskalen in Fragebögen zu integrieren (vgl. Rammstedt
2004; Rammstedt & John 2007).
Bei allen Bemühungen ergibt sich schon aus der zu erwartenden Heterogeni-
tät der Population, dass es bei allgemeinen Bevölkerungsumfragen Fragen geben
kann, die nicht für alle Teilgruppen der Stichprobe optimal sind.
Allgemeine Empfehlungen für den Entwurf von Fragen sind wegen der Abhän-
gigkeit von den Besonderheiten der Studie sowie der Abhängigkeit von den De-
tails der Ausführungsbedingungen einer Frage immer mit einer gewissen Vorsicht
zu behandeln. Hinzu kommt, dass die Ergebnisse empirischer Studien und deren
Empfehlungen nicht immer verallgemeinert werden können, da diese oft nur ein-
mal und unter besonderen methodischen Randbedingungen erhoben wurden und
Replikationen fehlen. Groves et al. (2009) greifen in ihren Empfehlungen Anregun-
gen von Sudman & Bradburn (1982) auf und entwickeln auf dieser Basis eine Reihe
von Empfehlungen, von denen jede empirisch begründet wird. Die Empfehlungen
sind auf die Optimierung der Antwortqualität ausgerichtet und aufgeschlüsselt
nach nichtsensitiven Verhaltensfragen, sensitiven Verhaltensfragen, Einstellungs-
fragen und selbst-administrierten Fragen, wobei nicht nur die Frageformen, son-
dern auch Aspekte der Leistungsfähigkeit des Befragten, der Antwortprozess und
Kommunikationsformen berücksichtigt werden. Sie ersetzen in Teilen bereits be-
stimmte Aspekte von Fragebewertungssystemen:
V.2 Der Erstentwurf einer Frage 341

Nichtsensitive Fragen:

• Geben Sie bei geschlossenen Fragen alle sinnvollen Antwortmöglichkeiten als


Antwortalternativen explizit vor.
• Formulieren Sie den Fragetext so spezifisch wie möglich, um die Möglichkeiten
unterschiedlicher Interpretationen durch verschiedene Befragte zu reduzieren.
• Verwenden Sie Worte, die alle Befragte in nahezu gleicher Weise verstehen.
• Reichern Sie den Fragetext mit Gedächtnishilfen an, um die Erinnerungsleis-
tung zu verbessern. Eine Möglichkeit besteht in der Anwendung von Kalenda-
rien zur Erfassung von Ereignissen und Ereignisdauern, mit denen eine Ver-
besserung der Qualität retrospektiver Berichte erreicht werden kann (vgl. Belli,
Shay & Stafford 2001), wobei der Erfolg aber vom Interviewer- und Befragten-
verhalten abhängt (vgl. Belli, Bilgen & Baghal, 2013).
• Sollte die Vermutung naheliegen, dass die gewünschte Information vergessen
wurde, verwenden Sie einen gestützten Abruf (engl.: aided recall) der Informati-
on. „Gestützter Abruf der Information“ bedeutet, dass separate Fragen zu jeder
Unterkategorie einer Kategorie gestellt werden. Eine Frage wie: „Wann waren
Sie zuletzt Einkaufen?“ könnte aufgeschlüsselt werden in „Wann haben Sie zu-
letzt Lebensmittel eingekauft?“, „Wann haben Sie zuletzt Kleidung eingekauft“,
etc.
• Wenn interessierende Ereignisse häufig auftreten, aber nicht sehr kompliziert
sind, lassen Sie die Befragten ein Tagebuch führen.
• Wenn lange Erinnerungsperioden verwendet werden müssen, verwenden Sie
einen Kalender für die Datierung von Lebensereignissen.
• Um „telescoping“-Effekte zu vermeiden, bitten Sie die Befragten, Haushalts-
unterlagen wie z.B. Rechnungen, Kalender, Versicherungspolicen, etc. heran-
zuziehen.
• Sollten Kostenüberlegungen eine Rolle spielen, überlegen Sie, welche Proxies
die gewünschte Information liefern könnten.

Sensitive Verhaltensfragen:

• Verwenden Sie eher offene als geschlossene Fragen, um die Häufigkeit sensibler
Ereignisse zu erfragen.
• Verwenden Sie eher lange als kurze Fragen.
• Verwenden Sie vertraute Worte, um sensitive Verhaltensweisen zu beschreiben.
• Versuchen Sie die Frage als „Einladung“ zu einer sozial nicht akzeptablen Ant-
wort zu formulieren, indem Sie Formulierungen wählen wie den „Jeder-tut-
es-Ansatz (everybody-does-it-approach)“ (z.B. „Selbst die ruhigsten Eltern
342 V.2 Der Erstentwurf einer Frage

werden ärgerlich, wenn…“), den „assume-the-behavior-approach“ (z.B. „Wie


oft taten Ihre Kinder in der letzten Woche etwas, das Sie geärgert hat?“), den
„Autoritäten-empfehlen-es-Ansatz (authorites-recommend-it-approach)“ (z.B.
„Viele Psychologen glauben, dass es für Eltern wichtig ist, ihre aufgestauten
Frustrationen auszudrücken. Taten Ihre Kinder in der letzten Woche irgend-
etwas, das Sie geärgert hat?“) oder den „reasons-for-doing-it“-Ansatz (z.B.
„Eltern werden ärgerlich, weil sie müde sind oder zerstreut sind, oder wenn
ihre Kinder ungewöhnlich frech sind. Taten Ihre Kinder in der letzten Woche
irgendetwas, das Sie geärgert hat?“)
• Stellen Sie die Fragen, die sich auf längere Zeitperioden (z.B. die gesamte Le-
benszeit) oder auf die entfernte Vergangenheit beziehen, zuerst.
• Betten Sie die sensitiven Fragen zwischen andere sensitive Fragen.
• Verwenden Sie Selbstadministrierte Administrationsformen.
• Ziehen Sie die Sammlung von Daten in Form von Tagebüchern in Betracht.
• Stellen Sie am Schluss des Interviews Fragen, die erkennen lassen, wie sensitiv
der Befragte die Schlüsselfragen empfunden hat.
• Sammeln Sie Daten zur Validierung.

Einstellungsfragen:

• Spezifizieren Sie klar und eindeutig das Einstellungsobjekt.


• Vermeiden Sie Fragen, die sich auf zwei Einstellungen zugleich beziehen („dou-
ble-barreled“ questions).
• Verwenden Sie bei der Messung der Einstellungsstärke mehrere unabhängige
Items, sofern dies möglich ist.
• Verwenden Sie bipolare Items außer in dem Fall, wo sie keine Schlüsselinforma-
tion enthalten. Unter bipolaren Items werden solche Items verstanden, wo so-
wohl die positive als auch die negative Alternative im Text genannt wird. Diese
Empfehlung bezieht sich also auf den Itemtext und nicht auf die Antwortskala.
• Überlegen Sie genau, welche Alternativen Sie im Text erwähnen, da diese einen
großen Einfluss auf die Antworten haben.
• Verwenden Sie bei Wiederholungsmessungen die gleiche Frage.
• Sollten allgemeine und spezifische Fragen zu einem Thema gestellt werden,
stellen Sie die allgemeine Frage zuerst.
• Wenn Sie mehrere parallele Fragen zu einem Thema stellen, die unterschiedlich
populär sind, beginnen Sie mit der am wenigsten populären Frage.
• Verwenden Sie zur Messung von Einstellungen geschlossene Fragen.
• Verwenden Sie 5- bis 7-stufige Skalen, bei denen jeder Skalenpunkt benannt
ist. Diese Empfehlung ist allerdings angesichts der möglichen Interpretations-
V.2 Der Erstentwurf einer Frage 343

unterschiede der Adverbien unter den Befragten mit einer gewissen Vorsicht
zu behandeln.
• Beginnen Sie mit der Antwortalternative, die am wenigsten üblich ist.
• Verwenden Sie Analoginstrumente wie z.B. Thermometer, um detailliertere
Skaleninformationen zu erhalten.
• Lassen Sie Items nur dann in eine Rangordnung bringen, wenn die Befragten
alle Alternativen sehen. Ist dies nicht der Fall, lassen Sie lieber Paarvergleiche
durchführen.
• Lassen Sie jedes Item bewerten und verwenden Sie keine „check-all-that-ap-
ply“-Items

Selbst-administrierte Fragen:

• Verwenden Sie visuelle Elemente in einer konsistenten Weise, um den Weg


durch den Fragebogen zu definieren.
• Wenn die Konventionen für die Navigation durch den Fragebogen geändert
werden, sollten auffällige visuelle Zeichen den Befragten auf die Änderung hin-
weisen.
• Setzen Sie Hinweise dort, wo sie benötigt werden und wo sie gesehen werden.
• Präsentieren Sie Informationen, die zusammen genutzt werden müssen, an der-
selben Stelle.
• Verbinden Sie nicht mehrere Fragen zu einer Frage.

Einige dieser Empfehlungen wie das Sammeln von Daten zur Validierung von In-
formationen erfordern einen besonderen Aufwand und werden nur in finanziell
entsprechend ausgestatteten Umfrageprojekten realisiert werden können. Insbe-
sondere die Verfügbarkeit von Informationen spielt hier eine zentrale Rolle. Auch
die obigen Empfehlungen bedürfen immer wieder der Überprüfung.
Voraussehbare Mängel im Zusammenhang mit traditionellen Frageformen
können auch dadurch gelöst werden, dass zusätzliche Befragungshilfen oder Inter-
aktionsmöglichkeiten mit dem Interviewer geschaffen werden (vgl. Schober 1999).
344 V.2 Der Erstentwurf einer Frage

V.2.2 Empfehlungen zum Layout in CASI-Interviews

Dillman (2000), Dillman, Smyth & Christian (2014) und Couper (2008) leiten auf
der Basis empirischer Befunde eine Reihe von Empfehlungen ab, die bei der Gestal-
tung des Layouts bei Webumfragen beachtet werden sollten und die an dieser Stelle
zusammengefasst werden:
Gesamtaufteilung des Bildschirms:
• Der Bildschirm sollte klar strukturiert sein Er sollte trennscharf aufgeteilt sein
in den Kopfteil (engl.: header), den inhaltlichen Teil (Befragungsteil) und den
Navigationsteil.
Typographie:
• Wähle eine Schriftart und benutze sie konsistent;
• Widerstehe der Versuchung, in der Verwendung von Schriftarten kreativ zu
sein;
• Wähle keinen festen Schriftgrad, sondern überlasse die Kontrolle über den
Schriftgrad den Befragten;
• Ein festgelegter Schriftgrad sollte nicht unter dem Default-Wert des vom Be-
fragten verwendeten Browsers liegen;
• Verwende eine Kombination von Zeilenlänge und Zeilenabstand, um die Les-
barkeit zu erhöhen;
• Verwende unterschiedliche Schriftarten und Schriftmerkmale um zwischen
unterschiedlichen Textarten (Fragen, Antwortalternativen, Instruktionen, etc.)
zu unterscheiden;
• Vermische nicht unterschiedliche typographische Eigenschaften in der Darstel-
lung eines sprachlichen Ausdrucks (z.B. gleichzeitige Verwendung der Eigen-
schaften „fett“, „Großbuchstaben“ und „Unterstreichung“.
Außerdem sollte man vorsichtig bei der Verwendung von Heraushebungen bzw.
Betonungen sein.
Farbgestaltung:
Farben können auf drei Dimensionen unterschieden werden:
• Farbton (engl.: hue);
• Farbsättigung (Grad der Reinheit der Farbe) (engl.: colour saturation)
• Farbhelligkeit (Anteil von „schwarz“ und „weiß“ in der Farbe) (engl.: bright-
ness)
V.2 Der Erstentwurf einer Frage 345

Bedacht werden sollte, dass


• einige Befragte farbblind sind und nicht zwischen unterschiedlichen Farben
unterscheiden können, 8% der Männer und 0.04% der Frauen leiden unter ei-
ner Einbuße der Farbwahrnehmung (vgl. Ridgon, 1999; zit. nach Couper, 2008,
S. 163);
• die Farbwahl Kontrast und Lesbarkeit beeinflussen kann;
• Farben eine Bedeutung haben, welche das Antwortverhalten der Befragten be-
einflussen können.
Die Farbgestaltung muss mit großer Vorsicht gehandhabt werden. So sollten Farben
nicht der Hauptträger der Information sein. Farben sollten eher nicht verwendet
werden und nur als Mittel der Betonung eingesetzt werden. Dunkle Farben sollten
als Hintergrund nicht verwendet werden. Ähnliches gilt für stark gesättigte Farben.
Zu diesen Farben zählen „grün“, „rot“ und „blau“. Gesättigte Farben ermüden und
sollten verwendet werden für Teile der Site, die unmittelbare Aufmerksamkeit er-
fordern. Als Hintergrundfarben empfehlen sich eher Pastelltöne (vgl. Lynch & Hor-
ton, 1997, zit. nach Couper, 2008, p. 167). Der für die Lesbarkeit notwendige Kon-
trast zwischen Hintergrund und Schrift sollte in jedem Fall nicht gefährdet sein.
Farben können ganz unterschiedliche Konnotationen haben. So wird etwa die
Farbe „gelb“ im Westen eher negativ gesehen. Dort signalisiert sie „Feigheit“, in
Japan dagegen „Vornehmheit“. „Rot“ bedeutet in der westlichen Welt „Gefahr“ und
signalisiert „Warnung“. In China wird „rot“ mit Leben und positivem Schicksal ge-
sehen, „grün“ wird dort dagegen mit „Tod“ verbunden. Diese Befunde deuten dar-
auf hin, dass die kulturell bestimmte emotionale Wirkung nicht nur bei nationalen,
sondern insbesondere auch bei interkulturellen Umfragen bedacht werden muss.
Präsentation und Anordnung der Items:
Es gibt empirische Hinweise dafür, dass die gemeinsame Darstellung mehrerer
Items auf einer Seite die Interkorrelationen zwischen den Items erhöht (vgl. z.B.
Couper, Traugott & Lamias, 2001; Tourangeau, Couper & Conrad, 2004; Yan, 2005),
insbesondere dann, wenn die Items in Form einer Matrix angeordnet sind. Eine
Anordnung in Form einer Matrix bedeutet, dass Items und Antwortalternativen
Spalten einer Matrix darstellen. Die Matrix enthält so viele Zeilen wie Items. Die
erste Spalte besteht enthält die Items. Die übrigen Spalten sind durch die Antwor-
talternativen definiert, wobei für jede Antwortalternative eine Spalte vorgesehen
ist. Die Werte der betreffenden Spalte bestehen in Feldern für die Bewertungen,
die von den Befragten für die Items vorgenommen werden sollen. Die Spalten der
Antwortalternativen enthalten nach der Bearbeitung für jedes Item nur einen Wert.
Der Effekt ist allerdings nicht besonders hoch.
346 V.2 Der Erstentwurf einer Frage

Für den Entwurf einer Matrix gibt Couper (op. cit.) die folgenden Empfehlun-
gen:
• Meide horizontales „Scrolling“; sorge dafür, dass alle Spalten (Antwortalterna-
tiven) sichtbar sind;
• Sorge dafür, dass die Spaltenüberschriften sichtbar sind, wenn vertikal gescrollt
wird.
• Erlaube, dass sich die Tabelle der Größe des Browsers anpasst;
• Sorge dafür, dass Spalten für skalare Antwortalternativen von gleicher Breite
sind;
• Verwende Schattierung und Abstand so, dass sie Augen und Maus auf die Ant-
wortalternativen lenken.
• Vermeide visuelles Durcheinander; minimiere das Ausmaß externer Informa-
tion in der Tabelle;
• Teile das Gitter, falls es zu komplex ist, in kleinere Teile auf.
Dillman (2007) hat auf der Basis seiner Konzeption eines maßgeschneiderten Designs
zur Optimierung der Datenqualität eine Reihe von Prinzipien entwickelt, die man spe-
ziell bei der Gestaltung des Layouts in computerunterstützten selbst-administrierten
Befragungen wie E-Mail-Befragungen oder Befragungen im Internet beachten sollte.
Die auf die Fragengestaltung von Webumfragen bezogenen Prinzipien sind:
• Präsentiere jede Frage in einem konventionellen Format ähnlich wie das bei
Papierfragebögen
• Gebrauche Farben so, dass die Figur/Hintergrund-Konsistenz und die Lesbar-
keit erhalten bleiben, der Fluss der Navigation nicht behindert wird und die
Messqualitäten des Fragebogens nicht gefährdet werden
• Vermeide, dass aus unterschiedlichen Bildschirmkonfigurationen, Betriebssys-
temen, Browsern, Beschränkungen des Displays und ungewollten Textumbrü-
chen Unterschiede im visuellen Erscheinungsbild entstehen.
• Verwende spezifische Anweisungen, wie man jede notwendige Aktivität am
Computer durchführt, die für die Beantwortung der Fragen notwendig ist; füh-
re weitere Anweisungen an dem Punkt ein, wo sie benötigt werden
• Verwende „Drop-down-Boxen“ nur sehr sparsam (mögliche Effekte der Befra-
gungsart z.B. bei multiplen Antwortvorgaben)
• Gestalte Sprunganweisungen so, dass diese zur Markierung der Antworten er-
mutigen und zum Anklicken der nächsten anwendbaren Frage führen.
• Konstruiere Web-Fragebögen so, dass sie von Frage zu Frage scrollen, voraus-
gesetzt es sind keine Reihenfolgeeffekte zu vermuten
V.3 Vom Erstentwurf zur finalen Frage: Instrumente des Evaluationsprozesses 347

• Wenn die Zahl der Antwortvorgaben die Zahl übersteigt, die auf einen Bild-
schirm oder einer Spalte darstellbar ist, ziehe eine doppelte Anordnung („dou-
ble banking“) in Betracht
• Verwende graphische Symbole oder Worte, um den Befragten darüber zu in-
formieren, an welcher Stelle der Bearbeitung er sich befindet (Statusanzeige).
Vermeide solche, die den Rechner zusätzlich belasten.
• Übe Zurückhaltung in der Verwendung von Fragestrukturen, die schon be-
kannte Messprobleme bei schriftlichen Fragebögen verursachen wie offene Fra-
gen oder Auswahl mehrerer Items aus einer Liste
Bei der Gestaltung des Layouts sollten stets auch laufend empirische Befunde über
mögliche Wirkungen in den Entwurf einbezogen werden.

V.3 Vom Erstentwurf zur finalen Frage: Instrumente des


Evaluationsprozesses

Entwürfe von Fragen und Fragebögen bedürfen zur Optimierung ihrer Qualität und
zur Abschätzung ihrer Wirkungen auf die Befragten stets der nachfolgenden Evalua-
tion. Die Optimierung der Qualität erfordert zunächst die Identifikation möglicher
Qualitätsbeeinträchtigungen bzw. Schwächen des Erhebungsinstruments. Auf der
Basis dieser Diagnose können dann Verbesserungen des Entwurfs erfolgen, wobei
diese Verbesserungen zwecks weiterer Optimierung wieder in den Diagnoseprozess
zurückgespielt werden können. Die Schwächenanalyse sollte sich auf alle Aspekte ei-
nes Erhebungsinstruments beziehen, um möglichst alle negativen Wirkungen auf die
Befragten im Interview zu reduzieren oder sogar auszuschließen. Zu diesen Aspekten
gehören neben den Fragetexten das Layout der Fragen (bei Selbst-administrierten
Interviews) und die Interviewer-Instruktionen (bei Interviewer-administrierten In-
terviews) auch die Navigation durch den Fragebogen. Einige dieser Aspekte wie z.B.
das Verständnis von Fragetexten können von anderen Aspekten wie etwa dem Layout
und dem Navigationsverhalten getrennt evaluiert werden.
Zur Evaluation von Erhebungsinstrumenten kann ein Repertoire unterschied-
licher Verfahren zur Diagnose von Schwächen bzw. Qualitätsbeeinträchtigungen
herangezogen werden. Dazu gehören:

• Fragebewertungssysteme (engl.: question appraisal systems);


• Expertenrunden, eventuell unter Einbeziehung von Fragebewertungssystemen;
• Gruppendiskussionen;
348 V.3 Vom Erstentwurf zur finalen Frage: Instrumente des Evaluationsprozesses

• Empirische Pretestverfahren einschließlich der statistischen Analyse der Antwort-


verteilungen und der statistischen Überprüfung der Gütekriterien der Messung;
• Verfahren zur Überprüfung der Benutzerfreundlichkeit (engl.: usability) von
Layout und Navigation bei CASI-Umfragen unter Einsatz spezifischer Vorrich-
tungen wie Eye-Tracking zur Analyse von Blickbewegungen sowie spezifischer
Hard- und Softwaretechnologien;
• Simulationsverfahren zur Funktionsprüfung programmierter Fragebögen.

Der Einsatz von Fragebewertungssystemen erlaubt bereits vor dem Einsatz empi-
rischer Evaluationsverfahren eine vorläufige Diagnose der Qualitätsbeeinträch-
tigungen von Fragen und ihren Komponenten. Grundlage solcher Systeme sind
Klassifikationen von Problemen, die bei Fragen/Items auftreten können. Der Ein-
satz dieser Diagnoseinstrumente gestattet eine Konzentration der empirischen
Verfahren auf eine reduzierte Menge noch verbleibender Probleme. Damit wird
insbesondere vermieden, dass mit dem empirischen Pretest Probleme mit Fragen
entdeckt werden, die bereits am „grünen Tisch“ hätten beseitigt werden können.
Mit dem Einsatz von Fragebewertungssystemen werden bereits im Vorfeld Reakti-
onen der Befragten ausgeschlossen, die sich auf offensichtliche Mängel der Fragen
beziehen. Allerdings können Fragebewertungssystem oft nur mögliche Gefährdun-
gen der Qualität aufzeigen. So muss etwa für einen konkreten Befragten eine über
das Bewertungssystem als sensitiv eingestufte Frage nicht unbedingt sensitiv sein.
Hieraus ergibt sich zweifellos die Empfehlung, bei der Verwendung von Fragebe-
wertungssystemen immer die Zielgruppe im Auge zu behalten.
Expertenrunden dienen in der Entwurfsphase dazu, einen Erstentwurf weiter
durch den gemeinsamen Austausch von Argumenten zu verbessern und Qualitäts-
mängel aufzudecken. Im Kern geht es um die Verbesserung der Operationalisie-
rung, indem z.B. geprüft wird, ob es angemessenere Inhalte für den Erstentwurf
gibt, die das Konstrukt besser repräsentieren.
Gruppendiskussionen über Entwürfe von Fragen können dazu beitragen, Unter-
schiede im Frageverständnis zu entdecken.
Empirische Pretest-Verfahren erlauben die Entdeckung von Problemen, welche
Befragte mit Fragen haben und die Untersuchung des Frageverständnisses;
Verfahren zur Evaluation der Benutzerfreundlichkeit bzw. Handhabbarkeit kön-
nen zur Untersuchung der Wirkung des Layouts und der Funktionalität program-
mierter Erhebungsinstrumente eingesetzt werden wobei zahlreiche technische
Hilfsmittel zur Verfügung stehen wie z.B. Eye-Tracking-Verfahren oder Videoauf-
zeichnungen. Insbesondere zur Entdeckung von Navigationsproblemen und Prob-
lemen der Filterführung, also zur Funktionsprüfung programmierten Fragebogen
können auch Simulationen durchgeführt werden, indem der Fragebogen unter al-
V.3 Vom Erstentwurf zur finalen Frage: Instrumente des Evaluationsprozesses 349

len Besetzungen der Werte von Filtervariablen geprüft wird. Insbesondere Fehler in
der Fragebogenprogrammierung lassen sich hiermit identifizieren.
Die Evaluation von Fragebögen und Fragen ist oft kein einfacher linearer Prozess.
Nicht selten muss das evaluierte Instrument nach der Beseitigung von Mängeln noch
einmal in die Evaluation, um die verbesserten Entwürfe noch einmal zu prüfen. Für
die Entwicklung von Fragetexten würde dies bedeuten, dass nach Fertigstellung des
Anfangsentwurfs des Fragetextes, der bereits unter Einbeziehung der in Abschnitt
2.2 erwähnten allgemeinen Empfehlungen erfolgt sein sollte, eine Evaluation des
Entwurfs stattfindet, wobei sich eine gewisse Reihenfolge der Evaluationsschritte
anbietet. Ein sinnvoller Ablauf der Optimierung von Fragetexten ist in Abbildung
V.1 dargestellt. Die Modifikation des Fragetextes auf der Basis der Pretest-Befunde
sollte so lange fortgesetzt werden bis weder die Evaluation mit Hilfe eines Fragebe-
wertungssystems noch empirische Pretest-Verfahren keine Beanstandungen ergeben.

Abbildung V.1: Beispiel für die Optimierung des Textentwurfs einer Frage
350 V.4 Fragebewertungssysteme

Um das tatsächliche Verständnis von Fragen und Begriffen zu prüfen, sind, zumin-
dest bei Fragen, die Begriffe enthalten, deren Verständnis in der Zielpopulation mut-
maßlich unklar oder heterogen ist, spezifische Pretest-Verfahren, sog. kognitive Inter-
views, zur Überprüfung des Frageverständnisses empfehlenswert (siehe unten).
Neben den erwähnten Verfahren lassen sich bei ausreichend großer Pre-
test-Stichprobe und geeignetem Umfragedesign (z.B. Paneldesign, Integration von
latenten Variablen mit multiplen Indikatoren) statistische Analysen der Reliabilität
und Validität entsprechend der Definitionen in Teil IV durchführen. Diese Ana-
lysen können unter entsprechenden Designvoraussetzungen (Test-Retest-Design,
multiple Indikatoren) auch mit den Daten der Haupterhebung durchgeführt wer-
den. Allerdings entfällt in diesem Fall der Einsatz des auf Basis dieser Analysen
modifizierbaren Instruments in der laufenden Studie. Die Ergebnisse können zur
Optimierung zukünftiger Erhebungsinstrumente berücksichtigt werden.

V.4 Fragebewertungssysteme

V.4.1 Einführende Bemerkungen

Fragebewertungssysteme (engl.: question appraisal systems) erlauben eine Identifikation


möglicher Qualitätsbeeinträchtigungen von Fragetexten bereits „on desk“, d.h. vor dem
Einsatz empirischer Evaluationsverfahren. Sie bestehen in einem Katalog von Proble-
men, die in Survey-Items auftreten können. Ihre Anwendung besteht darin, dass alle
Fragen des Fragebogens nacheinander in Bezug auf alle Probleme des Problemkatalogs
überprüft werden. Ein Bewertungssystem prüft nacheinander n Fragen in Bezug auf
das Auftreten von insgesamt k Problemen. Sind alle k Probleme abgearbeitet, wieder-
holt sich der Vorgang für die Folgefrage, etc. (vgl. Abbildung V.2).
Ist jede Frage bewertet, lassen sich Summenwerte für das gesamte Erhebungs-
instrument bezüglich der einzelnen Problemkategorien berechnen, woraus wiede-
rum ein Gesamtwert über alle Probleme abgeleitet werden kann.
Die Bewertungen der Frageentwürfe hinsichtlich der mit ihnen verbundenen
Probleme sollten möglichst von mehreren Beurteilern vorgenommen werden, um
das Ausmaß an Subjektivität zu reduzieren. Unterschiede zwischen den Bewertun-
gen bieten die Möglichkeit, den Frageentwurf noch einmal kritisch zu diskutieren.
Eine wichtige Funktion von Fragebewertungssystemen besteht darin, den Frage-
designer für bestimmte Arten von Problemen mit Fragen zu sensibilisieren und da-
ran zu erinnern, ob er wirklich alle Arten von Problemen auch bedacht hat. Sie stel-
len zugleich eine gute Grundlage für Diskussionen von Entwurfsalternativen dar.
V.4 Fragebewertungssysteme 351

Abbildung V.2: Ablaufstruktur eines Fragebewertungssystems

Beispiele für Fragebewertungssysteme sind das Fragebewertungssystem (QAS) von


Willis und Lessler (vgl. Forsyth, Lessler und Hubbard, 1992; Lessler und Forsyth,
1996; Willis und Lessler, 1999; Rothgeb, Willis & Forsyth, 2007) und das darauf auf-
bauende, verfeinerte System von Faulbaum, Prüfer und Rexroth (2009). Die zuletzt
genannten Autoren erläutern die Probleme an über 100 Beispielen aus bekannten
Bevölkerungsumfragen. Wir stellen im Folgenden die Kategorisierung von Proble-
men mit Fragen im System von Lessler mit Beispielen vor. Für das System FBS von
Faulbaum, Prüfer und Rexroth wird nur ein Überblick gegeben. Linguistisch orien-
tierte Bewertungssysteme sind nur beschränkt geeignet, da sich die Bedeutung von
Texten nicht vollständig auf die grammatikalische Struktur zurückführen lässt (vgl.
hierzu z.B. Fillmore, 1968; Lakoff, 1971).

V.4.2 Das Fragebewertungssystem von Willis und Lessler


(QAS 99)

Das Fragebewertungssystem von Willis und Lessler basiert auf einer Einteilung,
die sich sehr eng an den Stufen des Antwortprozesses orientiert. Es unterscheidet
folgende Problemklassen:
352 V.4 Fragebewertungssysteme

Interviewer-bezogene Probleme (bei Interviewer-administrierten Interviews):


• Interviewer weiß nicht, welchen Teil der Frage er vorlesen soll
• Fehlende Informationen (Interviewer fehlen die Informationen, um die Fra-
ge angemessen zu stellen)
• Frage ist schwer zu lesen (z.B. nicht voll ausgeschrieben)
Befragten-bezogene Probleme:
• Probleme mit Einleitungen, Anweisungen oder Erklärungen aus Sicht der Be-
fragten (z.B. ungenaue oder widersprüchliche Anweisungen, komplizierte
Anweisungen)
• Unklare Bedeutung oder Absicht der Frage
• Probleme, die sich auf die Formulierung beziehen (z.B. Frage zu lang, zu
komplizierte Wortwahl, grammatikalisch nicht korrekt)
• Fachausdrücke
• Ungenauigkeit bzw. Mehrdeutigkeit
• Probleme, die sich auf die Definition der Zeiträume beziehen: Zeiträume
sind ungenau, widersprüchlich oder gar nicht definiert
• Probleme, die mit Annahmen über die Befragten zusammenhängen
• Unangemessene Annahmen über den Befragten
• Irrtümliche Annahmen einer Verhaltenskonstanz oder Konstanz von Er-
fahrungen, obwohl diese Konstanz nicht existiert
• Ambivalenz: Die Frage beinhaltet mehr als nur eine Aussage
• Fehlendes Wissen/Erinnerungsvermögen
• Fehlendes Wissen: Es ist unwahrscheinlich, dass der Befragte über das
zur Beantwortung der Frage notwendige Wissen verfügt
• Erinnerung: Der Befragte ist nicht in der Lage, die Information aus dem
Gedächtnis abzurufen
• Berechnung: Um die Frage zu beantworten, müssen aufwändigere Be-
rechnungen angestellt werden.
• Einstellung: Es ist unwahrscheinlich, dass der Befragte über die zu erhe-
bende Einstellung verfügt
• Sensitivität/Beeinflussung
• Sensitive Inhalte: Die Frage spricht peinliche oder private Themen an.
• Sensitive Wortwahl
• Soziale Akzeptanz: Der Befragte beantwortet die Frage entsprechend der
sozialen Erwünschtheit.
V.4 Fragebewertungssysteme 353

• Antwortkategorien
• Offene Fragen
• Fehlende Übereinstimmung von Fragetext und Antwortkategorien: Die
Antwortkategorien passen nicht zu den Fragen
• Fachausdrücke sind undefiniert, unklar oder zu komplex (z.B. bei Che-
mikalien und Medikamenten)
• Ungenauigkeit: Ungenau formulierte Antwortkategorien lassen mehrere
Interpretationsmöglichkeiten zu.
• Überschneidungen: Es existieren Antwortkategorien, die sich über-
schneiden
• Fehlende Antwortkategorien: Es fehlen zu möglichen Antworten die
Antwortkategorien
• Unlogische Anordnung

Beispiele

Beispiele für Interviewer-bezogene Probleme (bei Interviewer-administrierten Inter-


views):
354 V.4 Fragebewertungssysteme

Beispiele für Befragten-bezogene Probleme:


• Probleme mit Einleitungen, Anweisungen oder Erklärungen aus Sicht der Befrag-
ten (z.B. ungenaue oder widersprüchliche Anweisungen, komplizierte Anwei-
sungen)

Beispiel für eine komplizierte Anweisung:


V.4 Fragebewertungssysteme 355

• Unklare Bedeutung oder Absicht der Frage

• Probleme, die mit Annahmen über die Befragten zusammenhängen


356 V.4 Fragebewertungssysteme

• Fehlendes Wissen/Erinnerungsvermögen
V.4 Fragebewertungssysteme 357

• Sensitivität/Beeinflussung
358 V.4 Fragebewertungssysteme

Antwortkategorien
V.4 Fragebewertungssysteme 359

Beispiel für fehlende Antwortkategorien:


360 V.4 Fragebewertungssysteme

V.4.3 Das Fragebewertungssystem von Faulbaum, Prüfer und


Rexroth (2009)

Faulbaum, Prüfer und Rexroth (2009) haben das System von Willis und Lessler
erweitert und mit deutschen Beispielen versehen. Es hat die in Übersicht V.1 dar-
gestellte Einteilung.

Übersicht V.1: Das Kategoriensystem des FBS von Faulbaum, Prüfer und Rexroth

Bereich A : Probleme mit Worten/Texten


A1 Der Fragetext enthält Worte/Formulierungen mit vager/unklarer Bedeu-
tung:
Unpräzise Worte/Formulierungen
Ungenaue Bezeichnungen von Zeiträumen oder Zeitpunkten.
Ungenaue Häufigkeitsbezeichnungen
Ungenaue Intensitätsbezeichnungen
Ungenaue Mengenbezeichnungen
A2 In der Frage werden mehrere inhaltlich unterschiedliche Sachverhalte an-
gesprochen.
A3 Der inhaltliche Fokus des Einleitungstextes entspricht nicht dem der Frage/
Aussage.
A4 Die Frage ist hypothetisch formuliert.
A5 Der sprachliche Ausdruck kann vereinfacht werden.
A6 Es werden Fremdworte oder Fachausdrücke verwendet, die für Befragte
vielleicht unbekannt sind.
A7 Es werden Abkürzungen/seltene Symbole verwendet, von denen man an-
nehmen muss, dass sie nicht allen Befragten bekannt sind.

Bereich B: Unzutreffende Annahmen über Befragte


B1 Die Frage geht von Annahmen über Merkmale/ Verhaltensweisen von Be-
fragten aus, die unter Umständen nicht zutreffen.

Bereich C: Erinnerungsvermögen
C1 Eine Erinnerungsleistung ist schwer oder gar nicht zu erbringen.

Bereich D: Berechnung/Schätzung
D1 Es wird eine schwierige Berechnung/Schätzung verlangt.
V.4 Fragebewertungssysteme 361

Bereich E: Komplexität der mentalen Leistung


E1 Eine mentale Leistung ist schwer zu erbringen.

Bereich F: Nicht intendierte Nebeneffekte


F1 Es besteht die Gefahr, dass die Frage gar nicht oder nicht ehrlich beantwor-
tet wird.
F2 Es besteht die Gefahr suggestiver Nebeneffekte
F3 Es besteht die Gefahr von Antworteffekten, wenn in einer Alternativfrage
nicht beide Alternativen explizit formuliert sind.

Bereich G: „Weiß-nicht“-Kategorie bei Einstellungsfragen


G1 Probleme mit der expliziten Vorgabe einer „weiß-nicht“-Kategorie bei Ein-
stellungsfragen.

Bereich H: Kontext der Frage/Fragensukzession


H1 Es besteht die Gefahr, dass die Frage auf Grund vorangegangener Fragen
nicht in der intendierten Weise interpretiert wird.
H2 Es besteht die Gefahr, dass die Beantwortung der Frage von der Beantwor-
tung vorangegangener Fragen beeinflusst wird.
Bereich J: Antwortvorgaben/Antwortskalen
J1 Die Antwortvorgaben passen nicht zur Frage.
J2 Antwortvorgaben überschneiden sich.
J3 Der Befragte soll alle Antwortvorgaben nennen/ankreuzen, die auf ihn zu-
treffen („Check-all-that-apply“-Fragen).
J4 Antwortvorgaben fehlen.
J5 Antwortvorgaben sind unlogisch/unsystematisch angeordnet.
J6 Wenn mehrere Antwortvorgaben vorgelesen werden, besteht die Gefahr,
dass ihr Wortlaut von den Befragten nicht behalten wird.
J7 Die Abstände zwischen Skalenpunkten sind nicht gleich/die Skala ist nicht
ausbalanciert.
J8 Eine negativ formulierte Aussage soll mittels einer bipolaren Antwortskala
bewertet werden.
J9 Es besteht die Gefahr der Antwortverzerrung durch Antwortvorgaben/Ant-
wortskalen.
362 V.4 Fragebewertungssysteme

Bereich K: Offene Fragen


K1 Es besteht die Gefahr, dass die Bedeutung der offenen Frage nicht klar wird,
weil der Bezugsrahmen nicht eindeutig vorgegeben ist.
K2 Es besteht die Gefahr von Zuordnungsfehlern, wenn der Interviewer die
Antwort auf eine offene Frage während des Interviews verschlüsseln muss
(Feldverschlüsselung).

Bereich L: Instruktionen bei Interviewer-administrierten Fragen


L1 Der Interviewer hat Probleme zu entscheiden, ob vorhandene Zusatztexte
vorzulesen sind.
L2 Dem Interviewer fehlen Anweisungen zur technischen Vorgehensweise/
Anweisungen stehen an der falschen Stelle.
L3 Der Interviewer muss wichtige Zusatzinformationen, die für das Stellen der
Frage wichtig sind, informell ermitteln.
L4 Inhalte/Informationen, die für die Beantwortung der Frage relevant sind,
stehen nur in der Anweisung und nicht im Fragetext.

Bereich M: Probleme im Zusammenhang mit der Aufgabenbeschreibung in


Selbst-administrierten Fragen
M1 Es fehlen Anweisungen zur technischen Vorgehensweise.
M2 Mehrere Fragen müssen vom Befragten in einem komplizierten Antwort-
schema beantwortet werden.
M3 Wichtige Zusatzinformationen sind nicht im Fragetext integriert, sondern
getrennt aufgeführt.
M4 Der Fragetext ist unvollständig.
V.5 Empirische Evaluationsverfahren (Pretest-Verfahren) 363

V.5 Empirische Evaluationsverfahren (Pretest-Verfahren)

V.5.1 Überblick

Zu den empirischen Evaluationsverfahren zählen alle Verfahren, die Mängel von


Fragen und Fragebögen auf der Basis empirischer Informationen über den Befrag-
ten und sein Verhalten identifizieren. Geschieht dies über eine gesonderte empiri-
sche Erhebung spricht man von Pretest-Verfahren bzw. von Pretests. Die Umfänge
von Stichproben für konventionelle Pretests bewegen sich in der Regel zwischen
20 und 50 (vgl. Presser et al., 2004b), für kognitive Interviews zwischen 10 und
20 Fällen. Es konnte aber gezeigt werden, dass bei kognitiven Interviews selbst ab
Stichprobenumfängen über 50 immer noch unentdeckte Probleme auftauchen (vgl.
Blair et al. 2006). Schon eine geringe Erhöhung der Fälle führt zur Entdeckung
weiterer Probleme (vgl. Blair & Conrad, 2011). Blair und Conrad (2011) gehen in
ihrer Analyse der folgenden Frage nach: Angenommen, man führt n kognitive In-
terviews durch und ein Problem f taucht mit der Prävalenz π auf, wie hoch ist die
Wahrscheinlichkeit Pf , dass es in den n Interviews mindestens einmal beobachtet
wird. Wenn das Problem in der Zeit, in der es auftritt zu df % entdeckt wird, ist die
Wahrscheinlichkeit Pf

Pf = 1 − (1 − d f π f )
n

Für den Stichprobenumfang n ergibt sich:

log (1 − Pf )
n= .
log (1 − d f π f )

Blair und Conrad beobachteten eine Zunahme von Problemen bis zu einem Stich-
probenumfang von n=90 (vgl. Blair & Conrad, 2011, p. 650).
Abbildung V.3 gibt einen Überblick über unterschiedliche Pretest-Verfahren,
die vor allem bei Fragen und Fragebögen für Interviewer-administrierte Interviews
Anwendung finden, von denen sich aber einige einzeln oder in Kombination auch
bei Pretests für Selbst-administrierte Erhebungsinstrumente wiederfinden. Bei
Selbst-administrierten Erhebungsinstrumenten kommen zusätzlich spezifische
Verfahren zum Test der Handhabbarkeit (engl.: usability) dazu.
364 V.5 Empirische Evaluationsverfahren (Pretest-Verfahren)

Abbildung V.3: Pretest-Verfahren für Interviewer-administrierte Verfahren im Überblick

Von ganz besonderer Bedeutung ist bei empirischen Pretest-Verfahren die Zusam-
mensetzung der Pretest-Stichprobe. Probleme, die Zielpersonen mit Fragen haben
können, lassen sich nur erkennen, wenn die Pretest-Stichprobe Personenmerkma-
le abdeckt, die für das Verstehen von Fragen von Bedeutung sind. Bei allgemei-
nen Bevölkerungsumfragen sollte in jedem Fall darauf geachtet werden, dass die
Breite der soziodemographischen Merkmale „Alter“, „Geschlecht“ und „Bildung“
vertreten ist. Um dies zu garantieren, kann unabhängig davon, ob es sich um ein
kognitives Interview oder einen Feld-Pretest handelt, auf jeden Fall eine Quotie-
rung vorgenommen werden. Tabelle V.1 zeigt das Beispiel eines Quotenplans. Bei
Feldpretests, welche die Befragungssituation in der Haupterhebung widerspiegeln
sollen, kann die Pretest-Stichprobe wie in der Haupterhebung vorgesehen zufällig
gezogen werden. Allerdings besteht bei geringen Stichprobenumfängen die Gefahr,
dass wichtige soziodemographische Subgruppen in der Pretest-Stichprobe nicht
ausreichend oder gar nicht repräsentiert sind.
V.5 Empirische Evaluationsverfahren (Pretest-Verfahren) 365

Tabelle V.: Beispiel für einen Quotenplan für eine Pretest-Stichprobe

Die in Abbildung V.3 abgebildeten Verfahren werden in den folgenden Abschnitten


genauer beschrieben.

V.5.2 Kognitive Interviews

V.5.2.1 Überblick

Kognitive Interviews (vgl. Miller, 2011, 2014; Prüfer & Rexroth 2005; Willis 2004,
2005, 2015) sind ein Werkzeug zur Evaluation des Frageverständnisses und sollen
einen Einblick in die kognitiven Prozesse vermitteln, die bei der Beantwortung von
Fragen ablaufen. Wie bereits mehrfach erwähnt, sollte ein Forscher grundsätzlich
nicht davon ausgehen, dass sein eigenes Begriffsverständnis mit dem der Befragten
übereinstimmt. Viele Forscher wären vermutlich überrascht, vielleicht sogar entsetzt,
wenn sie zur Kenntnis nehmen müssten, wie weit das Verständnis der Befragten von
ihrem eigenen entfernt ist. Die Gefahr erscheint durchaus nicht abwegig, dass pub-
lizierte Ergebnisse auf Grund einer Fehleinschätzung des Frageverständnisses in der
Vergangenheit fehlinterpretiert worden sind. Es ist sogar damit zu rechnen, dass die
Problematik einer Fehleinschätzung des Frageverständnisses auf Grund der zuneh-
366 V.5 Empirische Evaluationsverfahren (Pretest-Verfahren)

menden Heterogenität der Bevölkerung im Zusammenhang mit der Zunahme des


Anteils von Personengruppen unterschiedlichen Migrationshintergrunds eher weiter
zunehmen wird. Nicht nur die kulturelle Heterogenität innerhalb einer Nation, son-
dern auch die zwischen Nationen bedürfen einer interkulturellen Erweiterung der
kognitiven Techniken (vgl. z.B. Willis & Miller, 2011). Hier ist die Einbeziehung von
Experten zu empfehlen, die sich in der jeweiligen Kultur gut auskennen. Meitinger
(2017) zeigt, wie die Ergebnisse kognitiver Prettests bei Modellvergleichen zwischen
Nationen die Interpretation verbessern können.
Die folgende Darstellung der Verfahren ist eng angelehnt an die sehr realitäts-
nahen Ausführungen von Prüfer und Rexroth (2005). Konkret sollen mit den Tech-
niken eines kognitiven Interviews die folgenden Fragen beantwortet werden:

• Wie kommen die Antworten zustande?


• Was denken Befragte bei der Beantwortung einer Frage?
• Wie verstehen Befragte Fragen oder Begriffe?
• Verstehen Befragte Fragen so, wie vom Forscher intendiert?

Um diese Fragen zu beantworten, können folgende Techniken eingesetzt werden:

• Nachfragetechniken (engl.: Probing)


• Paraphrasieren (engl.: Paraphrasing)
• Bewertung der Verlässlichkeit der Antwort (engl.: Confidence Rating)
• Sortiertechniken (engl.: Card Sorting)
• Technik des lauten Denkens (engl.: Thinking Aloud)

Alternative Einteilungsprinzipien rechnen das Paraphrasieren zu den Nachfrage-


techniken (vgl. Willis & Miller, 2011, p. 334).
Im Vergleich zu den Pretest-Verfahren im Feld, bei denen sich der Testintervie-
wer passiv verhält, handelt es sich bei den kognitiven Techniken um aktive Tech-
niken. Bei der Anwendung dieser Techniken kann man offen oder standardisiert
vorgehen. Im Fall eines offenen Vorgehens sind die Techniken und Nachfragen vor
dem kognitiven Interview nicht festgelegt. Bei der standardisierten Vorgehensweise
werden die Techniken bzw. Nachfragen vor dem Interview festgelegt und sind dem
Testleiter fest vorgegeben. Antworten des Befragten sollten vom Testleiter auch
dann hinterfragt werden, wenn sie formal korrekt sind und das Verhalten des Pro-
banden auf keine Probleme schließen lässt.
Kognitive Interviews werden in der Regel persönlich-mündlich durchgeführt.
Denkbar sind aber auch Selbst-administrierte kognitive Interviews, z.B. über das
Web. Behr et al. (2012) und Meitinger (2017) zeigen dies für Probing-Techniken.
V.5 Empirische Evaluationsverfahren (Pretest-Verfahren) 367

Auch lassen sich in Online-Interviews problemlos Kommentarzeilen einfügen, in


welche die Befragten Kommentare zu den Fragen/Items eingeben können. Für die
praktische Durchführung von kognitiven Interviews im Modus Face-to-Face lassen
sich die folgenden Empfehlungen geben:

Anzahl der kognitiven Interviews:


zwischen 7 und 30 Interviews;
Interviewdauer:
maximal 90 Minuten;
Testpersonenrekrutierung:
Rekrutierung gezielt nach den für die Studie relevanten Merkmalen;
Information der Befragten:
Aufklärung über die Testsituation und Aufzeichnung;
Durchführungsort:
Kognitives Labor, normaler Büroraum. Wenn es die Räumlichkeiten erlauben,
können kognitive Interviews auch in der Wohnung der Probanden durchgeführt
werden.

V.5.2.2 Nachfragetechniken (Probing)

Mit Nachfragetechniken werden mittels einer oder mehrerer Nachfragen Fragetex-


te, Begriffe oder Antworten hinterfragt, immer mit dem Ziel, über das Verständnis
der Frage mehr Information zu erhalten. Dabei können folgende Arten der Nach-
frage unterschieden werden:

• Nachfragen zum Verständnis (engl.: comprehension probing)


• Nachfragen zur Wahl der Antwortkategorie (engl.: category selection pro-
bing)
• Nachfragen zur Erinnerungsfähigkeit und zu vorhandenem Wissen (engl.:
information retrieval probing bzw. recall probing)

Werden Nachfragen auf Begriffe in der Antwort des Befragten bezogen, so spricht
man auch von bedingten Nachfragen (engl.: conditional probing). Beziehen sich
Nachfragen auf keinen spezifischen Aspekt der Frage, so spricht man von einer
unspezifischen Nachfrage. Die Auswahl der Fragen, bei denen Nachfragen gestellt
werden, kann auch unsystematisch per Zufall erfolgen (engl.: random probe).
368 V.5 Empirische Evaluationsverfahren (Pretest-Verfahren)

A. Beispiel für eine Nachfrage zum Verständnis

B. Beispiel für eine Nachfrage zur Wahl eines Skalenwerts


V.5 Empirische Evaluationsverfahren (Pretest-Verfahren) 369

C. Beispiel für eine Nachfrage nach vorhandenem Wissen

D. Beispiel für eine Nachfrage nach der Erinnerungsfähigkeit

E. Beispiele für unspezifische Nachfragen


Gibt es etwas, was Sie bei der Frage nicht verstanden haben?
Gibt es noch andere Probleme, die wir bis jetzt bei der Frage noch nicht angespro-
chen haben?
Unspezifische Nachfragen sind nur effektiv, wenn sie im Anschluss an spezfische
Nachfragen gestellt werden.
370 V.5 Empirische Evaluationsverfahren (Pretest-Verfahren)

Grundsätzlich gilt:
Je präziser ein Proband auf den zu klärenden Inhalt angesprochen wird, desto grö-
ßer ist die Chance, Verständnisprobleme aufzudecken!

V.5.2.3 Paraphrasieren

Bei der Paraphrasierungstechnik sollen Probanden nach der Beantwortung der


Frage den Fragetext in eigenen Worten wiederholen (Beispiel: Würden Sie bitte
die Frage, die Sie eben beantwortet haben, in Ihren eigenen Worten wiederholen?)
Bei der Paraphrasierung sollten folgende Gesichtspunkte beachtet werden:

• Die Technik eignet sich nicht für kurze Faktfragen. (Beispiel: „Wie lange
wohnen Sie schon in dieser Stadt?)
• Die Testperson soll nicht versuchen, den Text wörtlich zu erinnern.
• Die Technik liefert erste Hinweise für den Forscher, ob die Frage überhaupt
verstanden wurde.
• Die Technik deckt nicht zuverlässig spezielle Aspekte hinsichtlich des Ver-
ständnisses einer Frage auf.

Beispiel für die Paraphrasierungstechnik:


V.5 Empirische Evaluationsverfahren (Pretest-Verfahren) 371

Das folgende Beispiel zeigt, wie sich Paraphrasierungtechnik und Nachfragetech-


nik ergänzen lassen:

Grundätzlich gilt, dass die Technik nicht unbedingt verlässliche Informationen


liefert (vgl. Prüfer & Rexroth, 2005). Trotz korrekter Durchführung können Ver-
ständnisprobleme oder Unsicherheiten weiterhin unentdeckt bleiben. Dringend
zu empfehlen ist, beim Paraprasieren immer mit zusätzlichen Nachfassfragen zu
arbeiten.

V.5.2.4 Bewertung der Verlässlichkeit der Antwort (engl.: Confi-


dence Rating)

Im Fall des Confidence Ratings werden die Probanden gebeten, nach der Beantwor-
tung der Frage den Grad der Verlässlichkeit ihrer Antwort zu bewerten. Eingesetzt
werden können verschiedene Varianten. Die folgenden beiden Varianten wurden
in der Praxis öfter eingesetzt:
Variante 1:
Was würden Sie sagen, wie genau ist Ihre Angabe? Wählen Sie bitte den Wert auf
dieser Skala.
Skala: 1: sehr genau bis 7: grob geschätzt
372 V.5 Empirische Evaluationsverfahren (Pretest-Verfahren)

Variante 2:
Wie sicher waren Sie sich beim Beantworten der Frage?
Beurteilung auf einer Skala von 1: sehr sicher bis 5: sehr unsicher oder auf einer
Skala von 1: sehr sicher bis 5: überhaupt nicht sicher.
Beispiel:

V.5.2.5 Sortier- bzw. Vignettentechnik

Die Sortier- bzw. Vignettentechnik dient zur Exploration der Art und Weise, wie
Befragte Begriffe definieren. Dazu müssen im Vorfeld von den Experten zunächst
Situationen/Aussagen konstruiert/formuliert werden. Im Face-to-Face-Modus wird
jede eine Situation beschreibende Aussage auf eine Karte geschrieben. Die Proban-
den werden gebeten, die Karten so wie diese ihrer Meinung nach hinsichtlich des
zu untersuchenden Begriffs oder Sachverhalts zusammengehören, zu sortieren. In
Bezug auf die Anwendung dieser Techniken lassen sich aber auch Online-Reali-
sierungen vorstellen, indem die Aussagen auf dem Bildschirm dargeboten werden
und jene Aussagen angekreuzt werden, die nach Meinung der Probanden eine Ins-
tanz des Begriffs darstellen.
V.5 Empirische Evaluationsverfahren (Pretest-Verfahren) 373

Beispiel (Definition des Begriffs „Verkehrsunfall“):

Auf diesen Kärtchen sind verschiedene Situationen beschrieben, die sich auf ei-
ner Straße abspielen. Bitte sortieren Sie die Karten danach, ob Sie die beschrie-
bene Situation als „Verkehrsunfall“ bezeichnen würden oder nicht.

Zwei Autos stoßen auf einer Kreuzung zusammen.


Ein Radfahrer gerät ohne Fremdverschulden mit seinem Fahrrad in eine Stra-
ßenbahnschiene und stürzt.
Ein Bus-Fahrgast stürzt beim Aussteigen und bricht sich ein Bein.
Ein Fußgänger rutscht auf dem Gehweg auf einer Bananenschale aus und ver-
letzt sich.

V.5.2.6 Technik des lauten Denkens

Absicht der Technik des lauten Denkens ist, den Antwortprozess sichtbar machen,
mit dem Ziel, Verständnisprobleme zu erkennen und auf der Grundlage dieser Er-
kenntnis die Frage zu verbessern.
Vorgehensweise:

• Der Testleiter liest die zu überprüfende Frage vor.


• Er bittet die Testperson alle Überlegungen, die zur Beantwortung der Frage
führen, zu formulieren.
• Die Äußerungen werden aufgezeichnet.
• Das laute Denken muss geübt werden.

Merkmale dieser Technik sind:

• Hoher Schwierigkeitsgrad für die Testperson. (für Testpersonen am ehesten


leistbar für Erinnerungsprozesse)
• Technik liefert brauchbare Informationen nicht verlässlich. (produziert irrele-
vantes Material), daher Auswertung zeitintensiv.
Methode kann Artefakte produzieren (künstliche Reaktionen, unrealistische
Äußerungen).
374 V.5 Empirische Evaluationsverfahren (Pretest-Verfahren)

Im Folgenden sind zwei Beispiele für das Nichtfunktionieren und die Erzeugung
irrelevanter Informationen aufgeführt.
Beispiel (Nichtfunktionieren der Technik):

Beispiel für die Erzeugung irrelevanter Informationen:


V.5 Empirische Evaluationsverfahren (Pretest-Verfahren) 375

V.5.3 Feld-Pretest

V.5.3.1 Funktionsweise

Unter einem Feld-Pretest (auch: Standard-Pretest, konventioneller Pretest, klassi-


scher Pretest, Beobachtungs-Pretest) versteht man eine vom Stichprobenumfang her
stark verkleinerte Testerhebung eines Fragebogens am Ende der Fragebogenent-
wicklung unter möglichst realistischen Bedingungen der Haupterhebung. Streng
genommen stellt er eine Simulation der Hauptstudie dar, was bedeutet, dass er in
derselben Befragungsart durchgeführt werden sollte, die auch in der Haupterhe-
bung zum Einsatz kommt. Der klassische Fel