Sie sind auf Seite 1von 6

Ingrid A. Schmid: Validitt/Reliabilitt empirischer Untersuchungen. Unverffent. Skript.

, Ilmenau 1999

Reliabilitt oder: Wie zuverlssig mit das Meinstrument? Bei Fragen: theoretisch: 1 Person beantwortet dieselben Fragen mehrmals (z.B. zeitlich versetzt). Je mehr die Ergbebnisse bzw. die Antworten dabei bereinstimmen, desto zuverlssiger ist die Messung (nicht die Person!) (Nur mglich bei im Zeitverlauf stabilen Variablen.) Wie kann es dazu kommen, wenn Fragen jedesmal anders beantwortet werden? z. B. bei zu langen Fragebatterien, die zur Ermdung fhren z. B. wenn fr einen Fragebogen zu wenig Zeit vorgesehen ist und dann unter Zeitdruck ausgefllt wird. z. B. bei zu schwer bzw. nicht zu beantwortenden oder (scheinbar) unsinnigen Fragen Mithin also immer dann, wenn die befragte P. die Angaben "aufs Geratewohl", sozusagen "zufllig" macht, weil sie die Antwort eigentlich nicht wei sich keine Mhe mehr macht, die tatschlichen Antworten durch berlegen zu ermitteln Man mu hinsichtlich der Reliabilitt von Befragungsinstrumenten also sicherstellen: Ist (m)eine Frage so gestellt / formuliert, da zuflliges Antworten vermieden wird? RELIABILITT Bezeichnet man das interessierende Merkmal z.B. einer Frage nach Holm (1975) als Zieldimension, als Vektor, auf der der wahre Wert" liegt, so zeigt sich mangelnde Reliabilitt insofern, da die Antworten rund um die angestrebt Zieldimension stark streuen:

Zieldimension mit wahren Werten

Ingrid Schmid

Ingrid A. Schmid: Validitt/Reliabilitt empirischer Untersuchungen. Unverffent. Skript., Ilmenau 1999

VALIDITT (= GLTIGKEIT) hingegen betrifft die Frage: Was mit der (u.U. hchst zuverlssig) gemessene Wert eigentlich? Bildet er tatschlich das Kriterium ab, das eigentlich lt. Theorie gemessen werden sollte? Mangelnde Validitt kann man so verstehen, da mehr oder weniger systematisch an der Zieldimension vorbeigeschossen wird.

Zieldimension mit wahren Werten

DER PRETEST Der Pretest soll genau auf die oben referierten Probleme hinweisen. Mit dem Pretest soll herausgefunden werden, ob das Instrument reliabel und valide mit. Es sollten sich folgende Fragen beantworten lassen: Sind fr Befragte / Codierern / Beobachter die Meanweisungen einleuchtend (Verstndnisschwierigkeiten)? Mute bei einzelnen Fragen nachgefragt oder die Frage wiederholt werden? Gab es Fehlinterpretationen? Reagierte der Befragte auf einzelne Fragen bse, gereizt etc.? Htten die Befragten an manchen Stellen gern noch mehr gesagt? Bei welchen Fragen sind die Befragten wie aufmerksam, wie interessiert? (Langeweile, Ermdung, Gereiztheit) Werden bei den Fragen auch tatschlich unterschiedliche Antworten gegeben? Ist die Befragung evtl. zu lang, die Beobachtung zu kompliziert, die Codierung zu anspruchsvoll? Kann u.U. auch noch genauer codiert / Beobachtet werden? An welcher Stelle, bei welcher Variable streut die Codierung / Beobachtung am meisten? Pretests sollten unter den Bedingungen des "Ernstfalls" durchgefhrt werden. Umfang des Pretests Minimalanforderung laut Literatur: 20-30 Befragungen! Optimal: 150 200 Befragungen in der Split-Ballot-Technik!

Ingrid Schmid

Ingrid A. Schmid: Validitt/Reliabilitt empirischer Untersuchungen. Unverffent. Skript., Ilmenau 1999

Systematische Fehler bei Fragen Bei Befragungen kann mangelnde Validitt, neben einer nicht der Forschungsfrage adquaten Operationalisierung, auch durch eine Reihe von Fehlern in der Frageformulierung ergeben. Nach Holm (1975) knnen neben der Zieldimension einer Frage auch sogenannte Fremddimensionen, also ein durch die Frage bzw. durch Frageanordnungen zustzlich angesprochener Aspekt des Befragten aktiviert werden. Die empirische Antwort auf die Frage setzt sich dann nach Holm aus den Positionen des Befragten auf den Fremd- und Zieldimensionen zusammen:
sozial erwnschte Werte

Zieldimension mit wahren Werten empirisches Ergebnis Fremddimension

Das kann passieren durch Ausstrahlung von vorherigen Fragen = "HALO"-Effekt Wie sehr stimmen Sie folgenden Aussagen zu? Damit eine Demokratie funktioniert, mu sich jeder Brger informieren. stimme nicht zu stimme voll zu O O O O O O O .... Wie oft sehen Sie die Nachrichten im Fernsehen? nie 1x im Monat 1x die Woche 3-4x die Woche tglich O O O O O Aktivierung von sozialen / kulturellen Verhaltensnormen ("sozial erwnschte" Antworten, bei denen der Befragte sich gefllig zeigt oder sich positiv prsentieren will.

Wir haben unsere Studiodekoration gendert. Wenn sie das bemerkt haben was halten Sie davon? O gefllt mir besser O gleich geblieben O gefllt mir weniger

Suggestive, da einseitige Formulierungen

Heutzutage ist es sehr wichtig, ber die Ereignisse der Welt Bescheid zu wissen. Glauben Sie, da Sie durch die Nachrichten im Fernsehen ausreichend informiert werden? O JA
3

O NEIN
Ingrid Schmid

Ingrid A. Schmid: Validitt/Reliabilitt empirischer Untersuchungen. Unverffent. Skript., Ilmenau 1999

Verwendung von starken "Reizwrtern"

Wie oft Sehen Sie im allgemeinen fern? Ich meine dabei auch Nachrichtensendungen? Abfragen von zwei verschiedenen Dimensionen in einer Frage (Entscheidungsproblem fr den Befragten, Grenzfall zur Reliabilit!)

Wie sehr stimmen Sie den folgenden Aussagen zu? Illegaler Waffenbesitz und Drogenkonsum mssen viel hrter bestraft werden. stimme nicht zu O O stimme voll zu O O

Einseitige Verwendung von Zustimmungsitems "Ja-Sager-Tendenz"

Ingrid Schmid

Gruppe 1:

Gruppe 2:

Grnde fr Frageeffekte: Frage:


Wrter und ihre Bedeutung Satzbau/Anordnung dieser Wrter

Fragebogen Version A
fffffffffff

Fragebogen Version B
fffffffffff

Wie Eindeutig ist die Fragestellung? Wie klar wird das Ziel der Frage? Wie deutlich wird, was der Befragte tun soll? Wie ausgewogen / neutral ist die Formulierung?

Fragebogen

CCCC XXXXX eeeeeeee cccccccc BBBBBB


AAAAA

CCCC XXXXX eeeeeeee cccccccc BBBBBB


AAAAA

Antwort:
Anzahl der Antwortmglichkeiten Art der Antwortmglichkeiten Wortbedeutung / Satzbau (s.o.)
Wie viele Antwortmglichkeiten sinnvoll / mglich? Wie sind die Antworten angeordnet? Welche Skala / welche Art von Skalierung? Wie erschpfend, wie realistisch sind die vorgegebenen Antworten? Wie ausgewogen ist das dargestellte Antwortuniversum? ...

Annahme: Wenn die Ergebnissse bei f, C, X, e, c, B, A in beiden Gruppen gleich ist, kann man davon ausgehen, dass auch die beiden Gruppen gleich sind. Wenn dann die Ergebnisse bei und unterschiedlich sind, ist dies auf einen Effekt der Fragestellung zurckzufhren.

Anordnung:
Lnge, bersicht, Komfort Ausstrahlungseffekte / Abbruch

Bereich Antwortvorgaben

schriftlich nur Listen mglich

telefonisch nur kurze Listen, wenig Auswahl, v.a. Einzelfragen 20 min mglich Interviewereffekte

online Listen mglich, ebenso Zufallsortierung 10 20 min leicht programmierbar

mndlich keine Einschrnkungen

maximale Dauer Filterfhrung heikle Themen

40 60 min nur sehr begrenzt mglich Anonymitt von Vorteil

auch lnger Interviews mglich alle Mglichkeiten

Feldzugang / Stichprobe Formulierungen

Stichprobenziehung schwierig (Adressenliste) mssen unbedingt selbsterklrend sein Portokosten, Papier, Dateneingabe i.d.R. sehr niedrig; durch Nachfassen und Geschenke verbesserbar keine bzw. wenig Kontrolle ber Ausfllsituation

Random digit dialing; nur Telefonbesitzer mssen kurz und knapp sein Telefongebhren, Interviewer, evtl. Dateneingabe nachtrgliche Vergrerung der Stichprobe mglich gute berwachungsmglichkeiten

Anonymitt Gefahr sozial Vertrauenssache; sozial erwnschter Antworten; erwnschte Antworten evtl. schriftliche Teilbefragung Selbstselektion, keine Zufallswege; zufallsauswahl Quotenstichprobe mssen unbedingt selbsterklrend sein Programmierkosten auch komplexe Fragestellungen mglich Interviewer, Papier, Technik hohe Kontrolle, hoher Rcklauf/Ausschpfung hohe Kontrolle, Betrug durch Interviewer mglich, technische Lsungen

Kosten

Rcklauf

Sicherheit

keine Kontrolle des Rcklaufs mglich, da Selbstselektion geringe Kontrolle ber Situation, aber kein Zurckblttern