Sie sind auf Seite 1von 84

SITZUNG 1

Ablauf einer (quantitativen) empirischen Studie


• Fragestellung
 Theorie („Grand“ T., T. mittlerer Reichweite)
 Hypothesen
 Variablen
 Operationalisierung der Variablen in
 Indikatoren (Frage der Reliabilität und Validität) Mess instrument
 Entwicklung eines Erhebungsinstruments, wie ein FB
 Stichprobenziehung (Klumpen- / Personenstichprobe)
 Pretest des Instruments: test wie es funktioniert
 Feldarbeit
 Datenaufbereitung (Umcodierungen, Indexbildungen usw.)
 Datenauswertung (deskriptive Statistik, Inferenzstatistik)
 Aufbereitung und Interpretation der Ergebnisse
 Verfassen eines Berichts und Aussage, welche Hypothesen falsifiziert werden müssen.

Course of a (quantitative) empirical study


• Questions
 Theory (“Grand” T., T. middle range)
 Hypotheses
 Variables
 Operationalization of the variables in
 Indicators (question of reliability and validity) Measuring instrument
 Development of a survey tool, such as a FB
 Sampling (cluster/person sample)
 Instrument pre-test: test how it works
 Field work
 Data processing (recoding, indexing, etc.)
 Data analysis (descriptive statistics, inferential statistics)
 Preparation and interpretation of the results
 Write a report and state which hypotheses need to be falsified.

Warum quantitative Methoden?


• Das Programm des Kritischen Rationalismus
• Theorien, Aussagen, Hypothesen(-test)
• Operationalisierungen, Indikatoren, Indizes
• Stichprobentheorie
• Auswahlverfahren: Zufallsstichprobe, Quotaund Klumpenstichprobe
• The program of critical rationalism
• Theories, statements, hypotheses (test)
• Operationalizations, indicators, indices
• sampling theory
• Sampling procedure: random sample, quota and cluster sample

• Datenerhebung I: Wieso nehmen Menschen an einer Studie teil?


• Datenerhebung II: Die mündliche Befragung als soziale Situation
• Datenerhebung III: Theorie der Fragen und des Fragebogens
• Das Experiment in den Sozialwissenschaften
• Data collection I: Why do people take part in a study?
• Data collection II: The oral questioning as a social situation
• Data Collection III: Theory of Questions and Questionnaire
• The experiment in the social sciences

• Sonderformen der Befragung: Randomized Response Techniques, Vignetten


• Aggregatdatenanalyse/Sekundärdatenanalyse
• Special forms of survey: Randomized Response Techniques, vignettes
• Aggregate data analysis/secondary data analysis

BASIC ASSUMPTIONS
QL: People act by meanings that people attach to things and symbols that are built in
interaction and rebuilt
QN: All social phenomena can be explained as cause-effect relationships, Will. Every
event has a cause.
OBJECTIVE
QL: Reconstruction of the meaning / of "meaning"(social context determines meaning)
Generation of hypotheses/theories
QN: Discovering social laws (complexity reduction). Test of hypotheses/theories

Qualitative Methoden:
• „Qualitative Forschung hat ihren Ausgangspunkt im Versuch eines vorrangig deutenden
und sinnverstehenden Zugangs zu der interaktiv „hergestellt“ und in sprachlichen
wie nicht-sprachlichen Symbolen repräsentiert gedachten sozialen Wirklichkeit. Sie
bemüht sich dabei, ein möglichst detailliertes Bild der zu erschließenden
Wirklichkeitsausschnitte zu liefern. Dabei vermeidet sie so weit wie möglich, bereits
durch rein methodische Vorentscheidungen den Bereich möglicher Erfahrung
einzuschränken oder rationalistisch zu „halbieren“. Die bewusste Wahrnehmung und
Einbeziehung des Forschers und der Kommunikation mit den „Beforschten“ als
konstitutives Element des Erkenntnisprozesses ist eine zusätzliche, allen qualitativen
Ansätzen gemeinsame Eigenschaft: Die Interaktion des Forschers mit seinen
„Gegenständen“ wird systematisch als Moment der „Herstellung“ des
„Gegenstandes“ selbst reflektiert“ (v. Kardorff 1995: 4, Hervorhebungen GM)

Qualitative methods:
• “Qualitative research has its starting point to gain a primarily interpretative and
meaningful approach to the social reality that is intended to be “produced” interactively and
represented in linguistic and non-linguistic symbols. It strives to provide as detailed a
picture as possible of the sections of reality to be developed. In doing so, it avoids as far
as possible restricting the range of possible experience or rationalistically "cutting it in half"
by making preliminary methodological decisions. The conscious perception and inclusion
of the researcher and the communication with the "researched" as a constitutive element
of the cognitive process is an additional property common to all qualitative approaches: the
interaction of the researcher with his "objects" is systematically considered as a moment of
"production" of the "object “self-reflective” (v. Kardorff 1995: 4, emphasis GM)

Quantitative Methoden
• 1) Die Gewinnung von Informationen für die Theoriebildung, Explanationsprobleme (Ziel
1):
• „Diese Problemart liegt dann vor, wenn sowohl das Wissen eines Sachverhaltes als auch
die daraus abzuleitenden Schlussfolgerungen unklar sind und deshalb beide mithilfe
entsprechender Studien erforscht werden sollen. […] Ein Beispiel mag die internationale
PISA-Studie zu den Leistungen von Schülern sein. Obwohl vielleicht zunächst erwartet
worden war, dass Deutschland über ein gutes Bildungswesen verfügt, wurde deutlich,
dass davon im Ergebnis der Untersuchung nicht (mehr) die Rede sein kann. Nun begann
in Deutschland eine Diskussion, um diese nachteiligen Befunde zu erklären, um
Maßnahmen zu finden, den aufgetretenen Mangel zu beheben“ (Häder 2015: 25)

Quantitative methods
• 1) Obtaining information for theory formation, explanatory problems (goal 1):
• “This type of problem occurs when both the knowledge of a fact and the conclusions to
be derived from it are unclear and both should therefore be researched with the help of
appropriate studies. […] An example might be the international PISA study on student
performance. Although it was perhaps initially expected that Germany would have a good
education system, it became clear that the result of the study was no longer the case. Now
a discussion began in Germany to explain these disadvantageous findings, to find
measures to remedy the deficiency that had occurred” (Häder 2015: 25).

2) Die Gewinnung von Daten zur Überprüfung von Theorien, Erkenntnisprobleme (Ziel 2):
• „Unter Beachtung der jeweils gegebenen Möglichkeiten und unter Nutzung von
Inspirationen können im Rahmen von Forschungsprojekten beispielsweise Kontroversen
in der Fachliteratur aufgegriffen werden, es kann darum gehen (neue) Theorien zu testen
oder vorliegende Studien zu replizieren. Weiterhin stellt es einen besonders
lohnenswerten Versuch dar, die Erklärungskraft verschiedener Theorien anhand
empirischer Daten zu vergleichen“ (Häder 2015: 26).
2) Obtaining data to test theories, cognition problems (Goal 2):
• “By considering the given possibilities and using inspirations, controversies in the
specialist literature can be taken up within the framework of research projects, it can be a
matter of testing (new) theories or replicating existing studies. Furthermore, it is a
particularly worthwhile attempt to compare the explanatory power of different theories
using empirical data” (Häder 2015: 26).

• Literaturgrundlage:
• Gerhard Lenski 1988: Rethinking Macrosociological Theory. American Sociological
Review 53(2): 163-171.
• Norman Braun 2008: Theorie in der Soziologie. Soziale Welt 59: 373-395.

• Beobachtung: Es gibt in den Gesellschaftswissenschaften (anders als in den


Naturwissenschaften, wie der Physik) kein dominierendes Paradigma, damit keine
Einigkeit darüber, wie Theoriebildung erfolgen soll und nach welchen Kriterien eine
Theorie als „wahr“ angenommen werden kann.
• Observation: In the social sciences (unlike in the natural sciences, such as physics) there
is no dominant paradigm, so there is no agreement on how theory formation should take
place and according to which criteria a theory can be accepted as "true".

• Hintergrund: Anders als in der Naturwissenschaften können in den


Gesellschaftswissenschaften Erkenntnisse über Wirkungszusammenhänge nicht ohne
weiteres aus einfachen Beobachtungen abgeleitet werden und zudem sind ForscherInnen
im Paradigma ihrer Zeit und Lebenswelt „gefangen“.
• Background: Unlike in the natural sciences, in the social sciences insights into cause-
and-effect relationships cannot simply be derived from simple observations, and
researchers are also "trapped" in the paradigm of their time and living environment.

• Problem: Da ForscherInnen mit unterschiedlichen Paradigmen arbeiten und


unterschiedliche Ausschnitte der Wirklichkeit beobachten gibt es für dasselbe soziale
Phänomen höchst unterschiedliche und sich teilweise widersprechende Erklärungen.
• Problem: Since researchers work with different paradigms and observe different sections
of reality, there are very different and sometimes contradictory explanations for the same
social phenomenon.

• Lösung: die Gesellschaftswissenschaften sollen sich bei der Theoriebildung an den


Naturwissenschaften (Physik, klassisch A. Comte) orientieren und jede Theorie muss
empirisch überprüft werden.
• Solution: the social sciences should orientate themselves towards the natural sciences
(physics, classic A. Comte) when developing theories, and each theory must be empirically
tested.

• Die Besonderheit der Gesellschaftwissenschaften: Untersuchungsgegenstand ist letztlich


das (soziale) Handeln von Menschen mit freiem Willen. Ferner ist das Handeln stark in
Kultur und Traditionen eingebunden  menschliches Verhalten / das Prozessieren sozialer
Systeme ist zu komplex, als das man es nur durch Beobachtungen untersuchen könne.
• The special feature of the social sciences: the object of investigation is ultimately the
(social) actions of people with free will. Furthermore, action is strongly embedded in
culture and traditions  human behavior / the processing of social systems is too complex
to be examined solely through observation.
• Daraus entwickelte sich in einigen Paradigmen die Ansicht, dass naturwissenschaftliche
methodologische Standards und Heuristiken nicht in den Gesellschaftwissenschaften
angewendet werden könnten und die Theoriebildung entfernte sich von der Logik der
Beobachtung, des Experimentes und empirischer Tests
• From this, in some paradigms, the view developed that scientific methodological
standards and heuristics could not be applied in the social sciences and theory building
moved away from the logic of observation, experiment and empirical testing

• Lenski und Braun zufolge führte dies dazu, dass es heute in den
Gesellschaftswissenschaften keine einheitlichen methodologischen Standards gibt und
damit auch keine allgemein anerkannte Möglichkeit, die formelle und inhaltliche Qualität
einer Theorie zu beurteilen.
• According to Lenski and Braun, this has led to the fact that there are no uniform
methodological standards in the social sciences today and therefore no generally
recognized way of assessing the formal and content-related quality of a theory.

• Ferner führte dies dazu, dass sich die verschiedenen Denkschulen wegen des Fehlens
einheitlicher Standards voneinander entfernten und die Arbeiten der jeweils anderen
ignorieren („Elfenbeinturm“).
• Furthermore, this led to the fact that the various schools of thought distanced themselves
from each other due to the lack of uniform standards and ignored the work of each other
(“ivory tower”)

• Formelle und „Performance“-Kriterien („Minimalstandards“), die nach Meinung von Lenski


und Braun gegeben sein müssen, damit eine Theorie wissenschaftlichen Anforderungen
genügt:
• Formal and “performance” criteria (“minimum standards”) that Lenski and Braun believe
must be met for a theory to meet scientific requirements:

Formelle Kriterien:
• Theorien sollen Erklärungen beinhalten, nicht lediglich Definitionen oder Klassifikationen.
• Erklärungen sollen Ursache-WirkungsZusammenhänge benennen ( jedes Phänomen
hat eine Ursache, Kausalität).
• Kausalaussagen sind deduktiv-nomologische Sätze (aus einem allgemeinen Gesetz und
spezifischen Randbedingungen werden Einzelfälle erklärt).
• Es gibt Grand Theories („die Systemtheorie“, „die Rational Choice-Theorie“) und daraus
abgeleitete Theorien mittlerer Reichweite („die Theorie kriminellen Handelns“)  nur
Theorien mittlerer Reichweite liefern tatsächliche Erklärungen.
• Theorien mittlerer Reichweite sind abstrakte Modelle der Wirklichkeit und sollen
Prognosen liefern (in Situation x1 wird ein durchschnittlicher Akteur mit Wahrscheinlichkeit
p kriminell handeln, in Situation x2 wird dieser Akteur mit Wahrscheinlichkeit q nicht
kriminell handeln).
• In diesen Modellen müssen die Schlüsselvariablen benannt und deren
Operationalisierung für eine spätere empirische Überprüfung hinreichend eindeutig
bestimmt werden.
• Die kausalen Beziehungen dieser Schlüsselvariablen müssen eindeutig festgelegt
werden (nicht: x und y hängen zusammen, sondern: x verursacht y).
• Neben den Schlüsselvariablen müssen auch Konstanten und Kontrollvariablen benannt
und operationalisiert werden.
• Insbesondere Lenski (1988) fordert, dass jede Theorie mittlerer Reichweite als einfaches
Pfaddiagramm und mathematische Formel dargestellt werden kann – nur so sei
gewährleistet, dass die Kausalbeziehungen der Variablen eindeutig und widerspruchsfrei
dargelegt und damit das Modell der Wirklichkeit spezifiziert sei.

Formal criteria:
• Theories should include explanations, not just definitions or classifications.
• Explanations should name cause-effect relationships ( every phenomenon has a cause,
causality).
• Causal statements are deductive-nomological statements (individual cases are explained
from a general law and specific boundary conditions).
• There are grand theories (“the system theory”, “the rational choice theory”) and theories
of medium range derived from them (“the theory of criminal activity”)  only theories of
medium range provide actual explanations.
• Middle-range theories are abstract models of reality and are intended to provide
prognoses (in situation x1 an average actor will act criminally with probability p, in situation
x2 this actor will not act criminally with probability q).
• In these models, the key variables must be named and their operationalization
determined with sufficient clarity for later empirical testing.
• The causal relationships of these key variables must be clearly defined (not: x and y are
related, but: x causes y).
• In addition to the key variables, constants and control variables must also be named and
operationalized.
• In particular, Lenski (1988) demands that every middle-range theory can be represented
as a simple path diagram and mathematical formula – this is the only way to ensure that
the causal relationships of the variables are presented clearly and without contradiction,
and that the model of reality is thus specified.

SITZUNG 2
Formelle Kriterien:
• Insbesondere Lenski (1988) fordert, dass jede Theorie mittlerer Reichweite als einfaches
Pfaddiagramm und mathematische Formel dargestellt werden kann – nur so sei
gewährleistet, dass die Kausalbeziehungen der Variablen eindeutig und widerspruchsfrei
dargelegt und damit das Modell der Wirklichkeit spezifiziert sei.
In particular, Lenski (1988) postulates that any middle-range theory is a simple one-path
diagram and mathematical formula can be displayed - this is the only way to ensure that
the causal relationships of the variables are clear and free of contradictions
and thus the model of reality is specified.
• Das Diagramm lässt sich als Regressionsgleichung darstellen:
Y= a + bx
The diagram can be represented as a regression equation
y (0, 1) = b0+ b1(q*B-p*C)- b2 N- b3((q*B-p*C)*N) + ε

B: Benefit
p: detection probability
C: cost
q: success probability

Formelle Kriterien (Zusammenfassung nach Braun 2008):


1) Die Aussagen des Modells sollen intersubjektiv verstehbar sein.
2) Die Aussagen sollen unabhängig vom (wissenschaftlichen) Bezugspunkt der
ForscherInnen sein.
3) Die Aussagen sollen von allen ForscherInnen überprüft werden können.
4) Die Aussagen sollen mit verschiedenen Methoden und verschiedenen Datensätzen
überprüfbar sein.
5) Axiome dürfen nicht willkürlich gewählt werden, so dass sie zum Modell passen (das
Modell muss zu den Axiomen passen)
1) The statements of the model should be intersubjectively understandable.
2) The statements should be independent of the (scientific) point of reference of the re-
searchers.
3) The statements should be able to be checked by all researchers.
4) The statements should be verifiable with different methods and different data sets.
5) Axioms must not be chosen arbitrarily to fit the model (the model must fit the axioms)

Performanz-Kriterien:
• Es ist denkbar, dass völlig verschiedene Modelle zur Erklärung desselben Phänomens
entwickelt werden, die alle den formellen Kriterien genügen und unterschiedliche aber
plausible Erklärungen liefern.
• Nach Auffassung von Lenski und Braun kann aber nur ein Modell „richtig“ bzw. „wahr“
sein.
• Welches Modell wahr ist, kann nur durch empirische Überprüfung festgestellt werden.
• Erklärungsmodelle können nur dann einem rigiden empirischen Test unterzogen werden,
wenn sie obigen formellen Kriterien genügen.
• Modelle gelten (zumindest teilweise) als nicht wahr, wenn ein oder mehrere
prognostizierte Kausalzusammenhänge in der Wirklichkeit nicht gefunden werden.
• Die (mathematische) Formalisierung der Modelle ermöglicht es, die Fehler im Modell
exakt zu lokalisieren.

Performance Criteria:
• It is conceivable that completely different models are developed to explain the same phe-
nomenon, all of which meet the formal criteria and provide different but plausible explana-
tions.
• According to Lenski and Braun, however, only one model can be "correct" or "true".
• Which model is true can only be determined by empirical testing.
• Explanatory models can only be subjected to a rigid empirical test if they meet the above
formal criteria.
• Models are (at least partially) not true if one or more predicted causal relationships are
not found in reality.
• The (mathematical) formalization of the models makes it possible to precisely localize the
errors in the model.

Fazit:
• Die empirische Sozialforschung liefert nicht nur mithilfe deskriptiver Daten grundlegende
Informationen als Voraussetzung für Theoriebildung (z.B. die empirische
Sozialstrukturanalyse), sie ist auch ein unverzichtbares Instrument zur Überprüfung
wissenschaftlicher Theorien
Conclusion:
• Empirical social research does not only provide basic information with the help of de-
scriptive data. Information as a prerequisite for theory formation (e.g. empirical social
structure analysis), it is also an indispensable tool for checking scientific theories

Kritischer Rationalismus
Grundlegende Literatur:
• Lakatos, Imre 1974: Die Methodologie wissenschaftlicher Forschungsprogramme.
Braunschweig: Vieweg. S. 6-49.
• Popper, Karl R. 2005: Logik der Forschung. 11. Auflage. Tübingen: Mohr-Siebeck.

• Bis in das 20. Jahrhundert hinein galt der Beweis als Königsweg des
Erkenntnisfortschritts – Wissen sei bewiesenes Wissen.
• Karl Popper (in den 1920er Jahren) leitete aus Ablösung der Newtonschen Mechanik und
Gravitationstheorie durch A. Einsteins Theorie ab, dass Theorien nicht bewiesen werden
können, sondern dass man versuchen soll, sie zu widerlegen.
• Eine wissenschaftliche Theorie gilt somit nicht als wahr, wenn es einen Beleg für sie gibt,
sondern sie kann nur als vorläufig richtig angesehen werden, solange sie nicht falsifiziert
wurde.
• Daraus leitet sich die methodologische Forderung ab, dass man nicht versuchen soll,
Theorien und Aussagen zu verifizieren, sondern sie zu falsifizieren.
• Erkenntnisfortschritt geschieht demnach nicht durch die Akkumulation verifizierter
Aussagen, sondern durch die schrittweise Elimination falsifizierter Aussagen.
• Up until the 20th century, proof was considered the royal road to progress in knowledge –
knowledge is proven knowledge.
• Karl Popper (in the 1920s) headed out the replacement of Newtonian mechanics and
theory of gravitation through A. Einstein's theory that theories cannot be proved, but that
one should try to disprove them.
• A scientific theory is therefore not considered true if there is evidence for it but can only
be regarded as provisionally correct as long as it has not been falsified.
• From this derives the methodological requirement that one should not try to
to verify theories and statements, but to falsify them.
• Accordingly, progress in knowledge does not occur through the accumulation of verified
statements, but through the gradual elimination of falsified statements.

Der Klassiker: „Alle Schwäne sind weiß“.


• Es ist unmöglich, diese Aussage zu verifizieren, weil man dazu alle Schwäne dieser Welt
auf ihre Farbe hin überprüfen müsste, ferner alle Schwäne, die jemals gelebt haben und
alle Schwäne, die jemals leben werden.
• Eine Beobachtung, die der Aussage widerspricht reicht, um die Aussage zu widerlegen.
• Der Schluss von Einzelfällen („Alle Schwäne, die ich bislang gesehen habe waren weiß“)
auf eine allgemeine Regel („Alle Schwäne sind weiß“) ist logisch nicht zulässig. Aber nur
ein schwarzer Schwan lässt die logisch korrekte Schlussfolgerung zu, dass die Aussage
„Alle Schwäne sind weiß“ falsifiziert ist.
• Der Falsifikationismus setzt somit voraus, dass wissenschaftliche Aussagen prinzipiell
falsifizierbar sind, d.h. dass Kriterien angeboten werden, die anzeigen, wann eine
Aussage falsifiziert ist.
• Gegenbeispiel: „Kräht der Hahn auf dem Mist, ändert sich das Wetter, oder es bleibt wie
es ist“.
• Der dogmatische Falsifikationismus fordert, dass eine Aussage schon bei einem
Gegenbeweis als falsifiziert gilt und endgültig verworfen werden muss.
• Dieser dogmatische Falsifikationismus ist jedoch unhaltbar, weil er auf zwei falschen
Annahmen beruht:
The classic: "All swans are white".
• It is impossible to verify this statement because it would require checking the color of all
the swans in the world, all the swans that have ever lived, and all the swans that will ever
live.
But…
• An observation that contradicts the statement is enough to refute the statement.
• The inference from individual cases (“All swans I have seen so far were white”) to a gen-
eral rule (“All swans are white”) is logically not permissible. But only a black swan allows
the logically correct conclusion that the statement "All swans are white" is falsified.
• Falsificationism thus presupposes that scientific statements are in principle
falsifiable, that means that criteria are offered that indicate when a statement is falsified.
• Counter-example: “If the rooster crows in the dungeon, the weather will change, or it will
remain as it is”.
• The dogmatic falsificationism demands that a statement already with an evidence to the
contrary is considered falsified and must be finally rejected.
• However, this dogmatic falsificationism is untenable because it is based on two wrong
assumptions:

Annahme 1: Beobachtungen sind objektiv .


• Diese Annahme ist allerdings unrealistisch, weil es keine Wahrnehmungen oder
Beobachtungen gibt, die nicht von unseren Erwartungen beeinflusst werden.
• Anders ausgedrückt: Theorie und Empirie sind nicht völlig unabhängig voneinander.
• Die Beobachtung, auf Grundlage derer wir eine Aussage zurückweisen, kann selbst
fehlerhaft sein.
Assumption 1: Observations are objective.
• However, this assumption is unrealistic because there are no perceptions or observations
that are not influenced by our expectations.
• In other words: Theory and empiricism are not completely independent of each other.
• The observation on which we reject a statement may itself be flawed.

Annahme 2: Es gibt unfehlbare Methoden, eine Aussage zu widerlegen.


• Diese Annahme ist unrealistisch, da wir niemals sicher sein können, dass es nicht
„bessere“ Methoden gibt, die wir nur noch nicht kennen.
Assumption 2: There are infallible ways to refute a statement.
• This assumption is unrealistic as we can never be sure if there are not "better" methods
that we just don't know about yet.

• Zudem gibt es in der Wissenschaft in der Regel keine „All-Aussagen“ („Alle Schwände
sind weiß“), sondern überwiegend ceteris paribus Aussagen.
• Beispiel: Die Aussage „Wasser kocht bei 100 Grad Celsius“ gilt auf dem Erfurter
Fischmarkt aber nicht auf dem Gipfel des Mount Everest (Siedetemperatur ca. 70 Grad)
oder auf dem Mond (dort kann es kein flüssiges Wasser geben).
• In addition, there are generally no “universal statements” (“all swells are white”) in sci-
ence, but predominantly ceteris paribus statements («si las otras condiciones se
mantienen constantes».
• Example: The statement "water boils at 100 degrees Celsius" applies to the Erfurt fish
market but not to the summit of Mount Everest (boiling temperature approx. 70 degrees) or
to the moon (there can be no liquid water).

• Der methodologische Falsifikationismus akzeptiert die Einschränkungen des


dogmatischen Falsifikationismus und propagiert, dass nur raum-zeitlich singuläre
Aussagen wissenschaftlich überprüft werden können.
• Hier wird also die Theorie an sich getrennt von den konkreten Aussagen, die aus der
Theorie abgeleitet werden – und nur die Aussagen werden überprüft.
• Die Tatsache, dass eine von mehreren Aussagen einer Theorie falsifiziert wird, bedeutet
nicht, dass gleich die gesamte Theorie als falsifiziert angesehen wird.
• Der raffinierte Falsifikationismus behält eine Theorie (auch wenn einige ihrer
Aussagen bereits falsifiziert sind) solange bei, bis eine neue Theorie entwickelt wurde, die
alles das erklären kann, was auch die alte Theorie konnte, darüber hinaus aber auch
Dinge, welche die alte Theorie nicht erklären konnte und die zudem noch nicht falsifiziert
worden ist.
• Eine Theorie gilt also solange nicht als endgültig falsifiziert, solange wir nicht eine
bessere Theorie entwickelt haben.
• Methodological falsificationism accepts the limitations of dogmatic falsificationism and
propagates that only spatio-temporal singular statements can be scientifically verified.
• Here the theory itself is separated from the concrete statements that are derived from the
theory - and only the statements are checked.
• The fact that one of several statements of a theory is falsified does not mean that the en-
tire theory is considered to be falsified.
• Sophisticated falsificationism keeps a theory (even if some of its statements are already
falsified) until a new theory has been developed that can explain everything that the old
theory could, but also things that the old theory could not explain and which, moreover,
has not yet been falsified.
• A theory is therefore not regarded as definitively falsified as long as we have not devel-
oped a better theory.

• Dies bedeutet, dass wir nicht einfach aufgrund einzelner empirischer / statistischer
Ergebnisse eine Theorie verwerfen dürfen, sondern nur dann, wenn wir auch inhaltlich
verstehen und erklären können, dass die Theorie „falsch“ ist.
• Und dies können wir nur tun, wenn wir eine neue und bessere Theorie anbieten können.
• „Der raffinierte methodologische Falsifikationismus verbindet verschiedene
Traditionen. Von den Empirikern hat er die Entschlossenheit geerbt, vor allem aus der
Erfahrung zu lernen. Von den Kantianern übernimmt er die aktivistische Einstellung zur
Erkenntnistheorie. Von den Konventionalisten lernt er die Wichtigkeit von Entscheidungen
in der Methodologie“ (Lakatos 1974: 37, Hervorhebungen im Original).
• This means that not simply individual empirical/statistical results may reject a theory, but
only if we also do so in terms of content understand and be able to explain that the theory
is “wrong”.
• And we can only do this if we can offer a new and better theory.
• “The sophisticated methodological falsificationism combines different traditions. It inher-
ited the determination from the empiricists, especially from the experience to learn. From
the Kantians he takes over the activist attitude to epistemology. From the conventionalists
he learns the importance of decisions in methodology” (Lakatos 1974: 37, emphasis in
original).

Fazit:
• Theorien können letztlich nur durch empirische Beobachtungen überprüft werden.
• Der induktive empirische Beweis einer Aussage ist logisch unmöglich, die Wiederlegung
einer Aussage durch „verbotene“ empirische Beobachtungen hingegen ist logisch möglich.
• Eine einzige „verbotene“ empirische Beobachtung (dogmatischer Falsifikationismus)
reicht allerdings nicht aus, um eine Theorie in toto zu widerlegen.
• Eine Theorie kann erst dann als falsifiziert gelten, wenn ihre Aussagen immer wieder
empirisch falsifiziert werden und wenn eine neue / modifizierte Theorie mit
„Gehaltsüberschuss“ präsentiert wird, die sich empirisch relativ gut bewährt.
Conclusion:
• Ultimately, theories can only be verified by empirical observations.
• The inductive empirical proof of a statement is logically impossible, the refutation of a
statement by "forbidden" empirical observations is logically possible.
• However, a single “forbidden” empirical observation (dogmatic falsificationism) is not
enough to refute a theory.
• A theory can only be considered falsified if its statements are empirically falsified again
and again and if a new / modified theory with "salary surplus" is presented that proves it-
self relatively well empirically.

Problem: Publication-Bias und das „Schubladen-Problem“


• Der Publication Bias (erstmals Sterling 1959) besagt, dass Studien, welche signifikante
Effekte in ihren Hypothesentests finden mit höherer Wahrscheinlichkeit publiziert werden
als Studien, welche keine signifikanten Effekte finden.
Problem: Publication bias and the "category problem"
• The publication bias (for the first time Sterling 1959) states that studies with significant
Effects in their hypothesis tests are more likely to be published than studies that find no
significant effects.

Beispiel
• H1: je höher der Wert von x, desto höher der Wert von y.
• H0: x hat keinen Effekt auf y.
• Der empirische Test erfolgt durch eine OLSRegression von y auf x: y = b0 + b1x + ε
• Angenommen es werden 100 voneinander unabhängige Studien durchgeführt um H1 zu
testen.
• In 95 dieser Studien sind keine signifikanten Regressionskoeffizienten gefunden worden.
• In 5 der Studien wurden Koeffizienten mit positiven Vorzeichen und T-Werten größer 2
gefunden.
• Die 5 Studien mit signifikanten Koeffizienten werden publiziert, die 95 Studien ohne
signifikante Effekte landen hingegen in der Schublade.

•  da die Scientific Community nur von den fünf publizierten Studien erfährt, geht sie
davon aus, dass x ein robuster Prädiktor für y ist (obwohl 95% der Tests dagegen
sprechen).
• Zudem ist es möglich, dass die 5 signifikanten Effekte durch Zufall zustande gekommen
sind  Alpha-Fehler oder Fehler erster Art (siehe Statistik-VL)!
• Publication Bias und Schubladen-Problem können nur dann verhindert werden, wenn 1)
sämtliche Studien publiziert werden (auch die Studien, die keine signifikanten Effekte
finden) und 2) wenn Studien regelmäßig repliziert und Meta-Studien durchgeführt werden.
Example
• H1: the higher the value of x, the higher the value of y.
• H0: x has no effect on y.
• The empirical test is carried out using an OLS regression from y to x: y = b0 + b1x + ε
• Suppose 100 independent studies are conducted to test H1.
• No significant regression coefficients were found in 95 of these studies.
• Coefficients with a positive sign and T values greater than 2 were found in 5 of the stud-
ies.
• The 5 studies with significant coefficients are published, while the 95 studies without sig-
nificant effects are shelved.
•  since the scientific community only learns about the five published studies, it leaves
assume that x is a robust predictor of y (although 95% of tests say otherwise).
• It is also possible that the 5 significant effects came about by chance : alpha errors or
errors of the first kind (see statistics VL)!
• Publication bias and categorization problems can only be avoided if 1) all studies are
published (including the studies that do not find any significant effects) and 2) if studies are
regularly replicated and meta-studies are carried out.

SITZUNG 3
Theorien Hypothesen Aussagen
• Literaturgrundlage:
Opp, Karl-Dieter 2014: Methodologie in den Sozialwissenschaften. Einführung in Probleme
ihrer Theoriebildung und praktischen Anwendung. 7., überarbeitete Auflage. Wiesbaden:
Westdeutscher Verlag.

• Die Aufgabe der Wissenschaft ist es, Sätze (Aussagen) zu finden, die informativ sind und
die wahr oder falsch sein können.
• In wissenschaftlichen Aussagen werden bestimmten Objekten bestimmte Merkmale
zugeschrieben:
•„Arbeitsteilung führt zu einer Zunahme des Individualismus in einer Gesellschaft“.
•  Das Objekt ist „die Gesellschaft“, deren Merkmal ist „die Arbeitsteilung“, aus der
wiederum ein weiteres Merkmal folgt: „der Individualismus“
• The task of science is propositions to find (statements) that are informative and which
can be true or false.
• Become in scientific statements certain characteristics of certain objects attributed:
• "Division of labor leads to an increase in individualism in a society”.
•  The object is “society” whose feature is “the division of labor” from which another fea-
ture follows: “individualism”

Singuläre Sätze:
• Sind rein deskriptive Aussagen.
• Werden meist in der „Es gibt…“-Form gebraucht.
• Können empirisch wahr oder falsch sein.
• Beziehen sich auf die Beobachtung einer Merkmalsausprägung bei einem bestimmten
Phänomen.
• Beispiele:„Es gibt heute in Deutschland soziale Ungleichheit“ „Am 31.12.2021 lebten in
Erfurt 213.227 Einwohner“
• Diese Sätze beschreiben eine Situation an einem Ort und zu einer bestimmten Zeit und
können nur in diesem Rahmen Gültigkeit beanspruchen (sofern sie wahr sind) 
31.12.2019 lebten in Erfurt 213.981 Menschen.
• Diese Sätze beinhalten aber keine Erklärungen i.S.v. Kausalaussagen (sind deswegen
keine Theorie)!
Singular sentences:
• Are purely descriptive statements.
• Are mostly used in the "There is..." form.
• Can be empirically true or false.
• Refer to the observation of a characteristic level in a particular Phenomenon.
• Examples: "There is social inequality in Germany today" "On December 31, 2021,
213,227 people lived in Erfurt"
• These sentences describe a situation at a certain place and time and can only be valid
within this framework (if they are true)  12/31/2019 213,981 people lived in Erfurt.
• However, these sentences do not contain any explanations in the sense of causal state-
ments (therefore they are not a theory)!

Nichtsinguläre Sätze:
• Beschreiben Kausalbeziehungen, Ursache  Wirkung zwischen mindestens zwei
empirisch beobachtbaren Variablen.
• Beanspruchen, eine Art Regel oder Gesetz zu formulieren.
• Beanspruchen prinzipiell uneingeschränkte Gültigkeit.
• Können wahr oder falsch sein.
• Werden als Hypothesen aufgefasst (s.u.).
Nonsingular sentences:
• Describe causal relationships, cause  effect between at least two empirically observ-
able variables.
• Claim to formulate some kind of rule or law.
• In principle claim unrestricted validity.
• Can be true or false.
• Are understood as hypotheses (see below).

„Wenn … dann“ Sätze:


• Beschreiben die deterministische kausale Beziehung zwischen Variablen mit mindestens
nominalem Skalenniveau.
• Wenn x vorliegt, dann folgt daraus y (und nur dann!).
• Beispiel: „Wenn der Seestern den Knopf drückt, dann explodiert das Auto“
• Lassen sich als Kreuztabelle abbilden und überprüfen
"If ... then" sentences:
• Describe the deterministic causal relationship between variables with at least nominal
scale level.
• If x is present, then y follows (and only then!).
• Example: "If the starfish presses the button, the car will explode"
• Can be mapped and verified as a crosstab

„Je … desto“ Sätze:


• Beschreiben die probabilistische kausale Beziehung zwischen Variablen auf mindestens
ordinalem Skalenniveau.
• Je mehr x, desto mehr y.
• Beispiel: Je frustrierter ein Mensch ist, desto höher ist dessen Aggressionspotential
• Lassen sich als Streudiagramm abbilden und mit z.B. Regressionen überprüfen (fiktives
Bsp.):
"The ... the" sentences:
• Describe the probabilistic causal relationship between variables at least ordinal scale
level.
• The more x, the more y.
• Example: The more frustrated a person is, the higher their potential for aggression
• Can be displayed as a scatter diagram and checked with e.g. regressions:

• Nichtsinguläre Sätze verwenden wir als Hypothesen.


• We use nonsingular sentences as hypotheses

Kriterien einer Hypothese:


• Hypothesen sind prinzipiell umso informationshaltiger, je mehr sie verbieten.
• „Kräht der Hahn auf dem Mist, ändert sich das Wetter oder es bleibt wie es ist“ 
verbietet kein mögliches Wetter.
•„ Je frustrierter ein Mensch ist, desto höher ist dessen Aggressionspotential“  verbietet,
dass nicht frustrierte Menschen steigendes Aggressionspotential aufweisen.
•„Wenn … dann“-Sätze verbieten prinzipiell mehr als „Je … desto“-Sätze, sie sind also
informationshaltiger – aber sie sind auch leichter zu falsifizieren (weil deterministisch).
• Wissenschaftliche Hypothesen müssen empirisch überprüft werden können.
• Die Aussage: „Wenn jemand etwas kauft, dann bekommt er es nicht geschenkt“ ist somit
keine wissenschaftliche Hypothese.
• Wissenschaftliche Hypothesen bzw. nichtsinguläre Aussagen, die sich empirisch bewährt
haben (noch nicht falsifiziert worden sind) nennen wir Gesetze.
• Gesetze, die auf probabilistisch formulierten Hypothesen beruhen können auch dann
wahr sein, wenn einzelne Fälle beobachtet werden, die gegen das Gesetz verstoßen.
Criteria of a hypothesis:
• In principle, hypotheses contain more information the more they prohibit.
• “If the rooster crows in the dungeon, the weather will change or it will remain as it is” 
does not prohibit any possible weather.
• "The more frustrated a person is, the higher their potential for aggression"  prohibits,
that people who are not frustrated have an increasing potential for aggression.
• "If ... then" sentences prohibit more than "the ... the"-sentences, so they are more infor-
mative - but they are also easier to falsify (because they are deterministic).
• It must be possible to test scientific hypotheses empirically.
• The statement: "If someone buys something, they don't get it for free" is thus no scientific
hypothesis.
• We call scientific hypotheses or non-singular statements that have proven themselves
empirically (not yet been falsified) laws.
• Laws that are based on probabilistically formulated hypotheses can also be true if individ-
ual cases that violate the law are observed.

• Beispiel Hypothesentest (hier: Gauß-Test): Das durchschnittliche Einkommen in einem


Land betrage 2.500 Geldeinheiten. Wir wollen wissen, ob das Einkommen einer Gruppe B
in diesem Land signifikant geringer oder höher ist als das generelle
Durchschnittseinkommen. Dazu wurde eine Zufallsstichprobe (n=1.000) in Gruppe B
gezogen, das mittlere Einkommen in dieser Stichprobe lag bei 2.400 Geldeinheiten mit
einer Standardabweichung von 100 Geldeinheiten.
• Example of a hypothesis test (here: Gaussian test): The average income in a country is
2,500 monetary units. We want to know whether the income of a group B in this country is
significantly lower or higher than the general average income. For this purpose, a random
sample (n=1,000) was drawn from group B; the mean income in this sample was 2,400
monetary units with a standard deviation of 100 monetary units.

Hypothesen (zweiseitiger Test):


• H1: Einkommen Gruppe B ≠ mittleres Einkommen
• H0: Einkommen Gruppe B = mittleres Einkommen
• Die Irrtumswahrscheinlichkeit soll 1 Prozent betragen, d.h. die Ablehnungsregion ist (-∞;-
2,576) und (2,576;∞)
Hypotheses (two-tailed test):
• H1: income group B ≠ middle income
• H0: income group B = average income
• The error probability should be 1 percent, i.e. the rejection region is (-∞;-2.576) and
(2.576;∞)
Teststatistik:

• Der Testfunktionswert liegt in der Ablehnungsregion, somit wird H0 abgelehnt, die


Mitglieder von Gruppe B haben „im Schnitt“ ein signifikant geringeres Einkommen.
• The test function value is in the rejection region, so H0 is rejected, the members of group
B have a significantly lower income “on average”.

• Eine Theorie ist eine Menge von Gesetzen, die in einem inhaltlichen Zusammenhang
stehen und sich nicht gegenseitig widersprechen.
• Theorien kann man im engeren Sinne nicht empirisch prüfen, nur die Hypothesen, die
aus ihnen abgeleitet werden.
• Robert K. Merton (1949) unterscheidet grand theories und middle range theories
(Theorien mittlerer Reichweite).
• Der empirischen Überprüfung eröffnen sich nur Theorien mittlerer Reichweite.
• A theory is a set of laws that are related in terms of content and do not contradict each
other.
• In the narrower sense, theories cannot be tested empirically, only the hypotheses that are
derived from them.
• Robert K. Merton (1949) distinguishes between grand theories and middle range theo-
ries.
• Only theories of medium range are open to empirical testing.

• Axiome: Fundament bzw. grundlegende Annahmen einer Theorie, die als gegeben
angenommen und nicht mehr überprüft werden.
• Axiome werden ohne Beweis angenommen und aus ihnen leiten sich die Sätze
(Hypothesen) ab
• Beispiel: Mensch ist rationaler Eigennutzmaximierer (Axiom)  je höher die
Opportunitätskosten einer Handlung, desto unwahrscheinlicher wird diese Handlung
ausgeführt (abgeleiteter Satz, Hypothese).
• Axioms: Foundation or basic assumptions of a theory that is given as accepted and no
longer checked.
• Axioms are accepted without proof and the propositions (hypotheses) are derived from
them
• Example: Man is a rational self-interest maximizer (axiom)  the higher the opportunity
cost of an action, the more unlikely that action becomes executed (derived proposition, hy-
pothesis).

Ockham´s Razor:
– Wenn es mehrere Erklärungen (Theorien) für ein und denselben Sachverhalt gibt, dann
ist immer die einfachste Erklärung (Theorie) vorzuziehen
– Eine Erklärung (Theorie) ist einfach, wenn:
• Sie möglichst wenige Variablen enthält (Prinzip der Sparsamkeit)
• Die Variablen in einfachen, logischen Verbindungen zueinander stehen (Kausalität)
• Die Verbindungen empirisch prüfbar sind (Falsifikationismus)
• Aristoteles: die Natur sucht sich immer den einfachsten Weg.
• Moderne Grundidee von William of Ockham (auch: Occam, 1285-1347): Ontologie
(Frage nach “was ist möglich?“) wird zur Erkenntnistheorie.
• Heutige Begründungen: einfache Theorien haben eine höhere a-priori-Wahrscheinlichkeit
als kompliziertere Theorien.
• Heutige Begründungen: bei Unkenntnis des korrekten Mechanismus eines Phänomens
liefern in der Regel Prognosen, die auf einfachen Erklärungen beruhen eine höhere
Trefferquote als Prognosen komplizierter Modelle.
Occam's Razor:
– If there are several explanations (theories) for one and the same fact, then the simplest
explanation (theory) is always preferable
– An explanation (theory) is simple if:
• It contains as few variables as possible (principle of economy)
• The variables are in simple, logical connections to each other (causality)
• The connections can be tested empirically (falsificationism)
• Aristotle: nature always looks for the easiest way.
• Modern basic idea of William of Ockham (also: Occam, 1285-1347): ontology (question
about “what is possible?”) becomes epistemology.
• Today's justifications: simple theories have a higher a priori probability than more compli-
cated theories.
• Today's justifications: not knowing the correct mechanism of a phenomenon
As a rule, forecasts based on simple explanations deliver a higher hit rate than forecasts
based on complicated models.

• Beispiel: Sie stehen vor einem großen, schwarzen Raum. Es gibt nur zwei Dinge, die in
diesem Raum sein können: x und y. Die beiden Dinge x und y sind unabhängig
voneinander. X kann „da sein“ oder x kann nicht „da sein“. Für y gilt dasselbe.
• Sie sollen nun eine Prognose abgeben: Was ist in dem Raum?
• Lösung:
• Bei einer einfachen Antwort „x ist im Raum“ (oder „y ist im Raum“) wird Ihre Prognose mit
p = 0,5 zutreffen.
• Bei einer komplexen Antwort (jede Kombination aus y und y) wird Ihre Prognose nur mit
p = 0,25 zutreffen, weil…
• Lösung einer komplexen Prognose erlaubt 4 Kombinationen:
1. x und y sind im Raum
2. x ist nicht im Raum und y ist nicht im Raum
3. x ist im Raum, y ist nicht im Raum
4. x ist nicht im Raum, y ist im Raum  p für (1.) ist 0,5 * 0,5 = 0,25 (25%)
• Example: You are standing in front of a large, black room. There are only two things that
go in
this space can be: x and y. The two things x and y are independent of each other. X can
"be there" or x cannot "be there". The same applies to y.
• You are now supposed to make a prognosis: What's in the room?
• Solution:
• For a simple answer “x is in space” (or “y is in space”), your prediction will be
p = 0.5 apply.
• For a complex answer (any combination of y and y), your prediction will only be true with
p=0.25 because…
• Solving a complex forecast allows 4 combinations:
1. x and y are in space
2. x is not in space and y is not in space
3. x is in space, y is not in space
4. x is not in space, y is in space  p for (1.) is 0.5 * 0.5 = 0.25 (25%)

SITZUNG 4
Operationalisierungen Indikatoren Indizes
• Manche Sachverhalte sind direkt zählbar: Einkommen, Bevölkerungszahl, Zahl von
Studierenden in Lehrveranstaltungen.
• Andere soziale Phänomene sind abstrakt und müssen gemessen werden: soziale
Herkunft, Status, Bildungserfolg, Anomie, Einstellungen.
• Messung: Zuordnung von Zahlen zu Objekten nach bestimmten Regeln.
•  diese Phänomene müssen messbar gemacht werden (Operationalisierung).
• Für nicht direkt beobachtbare Phänomene müssen Indikatoren gefunden werden.
• Ein Indikator ist ein direkt beobachtbarer Sachverhalt, der durch Korrespondenzregeln
mit dem nicht direkt beobachtbaren Sachverhalt verknüpft wird und dadurch eine
Überschussbedeutung erhält.
• Some facts can be counted directly: income, population, number of students in courses.
• Other social phenomena are abstract and need to be measured: social background, sta-
tus, educational attainment, anomie, attitudes.
• Measurement: Allocation of numbers to objects according to certain rules.
•  these phenomena must be made measurable (operationalization).
• Indicators must be found for phenomena that cannot be observed directly.
• An indicator is a directly observable fact that is defined by correspondence rules
linked to the facts that are not directly observable and thus acquires an excess meaning.

• Korrespondenzregeln verbinden den Indikator mit dem zu messenden Sachverhalt


• Diese Korrespondenzregeln können sein:
– Definition,
– Korrelation,
– Schlussfolgerung
• Correspondence rules connect the indicator with the facts to be measured
• These correspondence rules can be:
– definition,
– correlation,
- Conclusion

• Definitorische Indikatoren:
• Die zu erfassende Merkmalsdimension wird durch den Indikator an sich erst definiert.
• Beispiel: „Bildung“ bedeutet für uns in erster Linie formale Schulbildung.
•  so ist ein definitorischer Indikator für das „Bildungsniveau“ einer Person deren
höchster Schulabschluss.
• Definitive indicators:
• The characteristic dimension to be recorded is first defined by the indicator itself.
• Example: For us, “education” primarily means formal schooling.
•  a definitional indicator of a person's “educational level” is their highest school-leaving
certificate.

• Korrelative Indikatoren:
• Die Bedeutung der Indikatoren ist nicht mehr gleich der Bedeutung der Begriffe, für die
sie stehen sollen.
• Wesensmerkmal ist, dass Konstrukt und Indikator (in der Regel) hoch korreliert sind, d.h.
„miteinander auftauchen“.
• Interne Korrelate stellen einen Teilbereich des Konstrukts dar; externe Korrelate stellen
keinen Teilaspekt des Konstrukts dar.
• Externe Korrelate stellen keinen Teilaspekt des Konstrukts dar; interne Korrelate stellen
einen Teilbereich des Konstrukts dar
• Correlative indicators:
• The meaning of the indicators is no longer the same as the meaning of the terms they
are supposed to stand for.
• It is essential that construct and indicator are (usually) highly correlated, i.e.
"appear together".
• Internal correlates represent a part of the construct; external correlates do not represent
a partial aspect of the construct.

• Schlussfolgernde Indikatoren:
• Korrelate eines Konstrukts, die für sich ebenfalls nicht direkt beobachtbar sind, aber
einfacher operationalisiert werden können, als das eigentliche Konstrukt:
• Beispiel: Erfasst werden soll individueller anomischer Druck - Entfremdung (Apathie) ist
ein internes Korrelat von Anomie und als Indikator für Apathie wird Alkoholismus gewählt,
wobei der Schluss „Alkoholismus ist ein Indikator für Entfremdung“ selbst wieder eine
Korrespondenzregel verlangt.
• Inferential indicators:
• Correlates of a construct that are also not directly observable but can be operationalized
more easily than the actual construct:
• Example: Individual anomic pressure is to be recorded - alienation (apathy) is an internal
correlate of anomie and alcoholism is chosen as an indicator for apathy, whereby the con-
clusion "alcoholism is an indicator of alienation" itself requires a correspondence rule.

• Indikatoren:
• Einige latente Konstrukte sind dermaßen vielschichtig (multidimensional), dass eine
große Zahl von Indikatoren auf verschiedenen Dimensionen möglich bzw. nötig sind.
• Beispiel: Religiosität.
• Religiosität kann sowohl auf der Einstellungsals auch auf der Handlungsebene
gemessen werden.
• Messung auf der Einstellungsebene z.B.: – „Das Leben hat für mich nur eine Bedeutung,
weil es Gott gibt“ – „Es gibt einen Gott, der sich mit jedem Menschen persönlich befasst“ –
„Unser Leben wird letztlich bestimmt durch die Gesetze der Natur“
• Messung auf der Handlungsebene z.B.: – „Wie häufig gehen Sie in die Kirche?“ – „Wie
häufig beten Sie?“ – „Haben Sie sich kirchlich trauen lassen?“ oder „Wollen Sie sich
kirchlich trauen lassen?“
• Probleme bei der Messung auf der Handlungsebene
– Intrinsische Religiosität: Praktizierung relig. Verhaltensweisen um des Glaubens willen
– Extrinsische Religiosität: Praktizierung relig. Verhaltensweisen als Mittel um best.
profane Ziele zu erreichen
• Indikatoren für intrinsische Religiosität:
– „Mein Glaube spielt in jedem Lebensbereich eine Rolle“
• Indikatoren für extrinsische Religiosität:
– „Ich bete hauptsächlich, weil meine Eltern mir beigebracht haben zu beten“
– „Das Wichtigste am Gottesdienst ist, dass man andere Menschen dabei trifft“
• Indicators:
• Some latent constructs are so complex (multidimensional) that a large number of indica-
tors on different dimensions are possible or necessary.
• Example: religiosity.
• Religiosity can be measured both at the level of attitude and at the level of action.
• Measurement at the attitude level e.g.: – “Life only has meaning for me because there is
God” – “There is a God who deals with each person personally” – “Our life is ultimately de-
termined by the laws of nature "
• Measurement at the action level, e.g.: – “How often do you go to church?” – “How often
do you pray?” – “Did you get married in a church?” or “Do you want to get married in a
church?”
• Problems in measuring at the action level
– Intrinsic religiosity: practicing relig. conduct for the sake of belief
– Extrinsic religiosity: practicing relig. Behaviors as a means to best. to achieve mundane
goals
• Indicators of intrinsic religiosity:
– “My faith plays a role in every area of life”
• Indicators of extrinsic religiosity:
– “I pray mainly because my parents taught me to pray”
– “The most important thing about worship is that you meet other people”

• Viele theoretische Konstrukte sind mehrdimensional (siehe Religiösität), so dass die


Erfassung mit nur einem Indikator zu einem Messfehler führen würde. In einem solchen
Falle werden mehrere Indikatoren erhoben und dann in einem Index zusammengefasst.
• Beispiel: Gottfredson und Hirschi gehen davon aus, dass die meisten kriminellen
Handlungen von Personen begangen werden, die eine geringe Selbstkontrolle aufweisen.
Das individuelle Niveau der SK wird in der Sozialisationsphase festgelegt, Menschen mit
geringer SK zeichnen sich aus durch: Impulsivität, Präferenz für einfache Tätigkeiten,
Risikofreude, Präferenz für physische Aktivität, Egoismus, Probleme bei der Kontrolle des
eigenen Temperaments.
• Beispiel: die Grasmick-Skala der Selbstkontrolle.
-Indikator des Egoismus: Im Folgenden Finden Sie einige Aussagen zu verschiedenen
Lebensgewohnheiten. Bitte geben Sie an, inwieweit diese für Sie zutreffen oder nicht!
• „ Ich bin Personen gegenüber, die Probleme haben, nicht gerade aufgeschlossen“
-Indikator der Impulsivität:
• „ Ich lebe jetzt und hier und tue was immer mir Spaß bringt, auch auf Kosten eines
entfernteren Ziels“
• Many theoretical constructs are multi-dimensional (see religiosity), so recording them
with just one indicator would lead to a measurement error. In such a case, several indica-
tors are collected and then summarized in an index.
• Example: Gottfredson and Hirschi assume that most criminal acts are committed by peo-
ple with little self-control. The individual level of SK is determined in the socialization
phase, people with low SK are characterized by: impulsiveness, preference for simple ac-
tivities, willingness to take risks, preference for physical activity, selfishness, problems in
controlling one's own temperament.
• Example: the Grasmick scale of self-control.
-Indicator of egoism: Below you will find some statements about different habits of life.
Please indicate to what extent these apply to you or not!
• "I'm not very open to people who have problems"
-Indicator of impulsiveness:
• "I live here and now and do whatever pleases me, even at the expense of a distant goal"

• Das Konstrukt wird mit insgesamt 23 solcher Indikatoren erfasst. Zur Indexbildung
werden die nummerischen Werte der Antworten, die eine Person gegeben hat aufaddiert.
• Der Indexwert hat dann einen theoretischen Range zwischen 23 (Person hat immer „Trifft
voll und ganz zu“ angegeben  geringe SK) bis 115 (Person hat immer „ Trifft überhaupt
nicht zu“ angegeben  hohe SK).
• The construct is recorded with a total of 23 such indicators. To create the index, the nu-
merical values of the answers given by a person are added up.
• The index value then has a theoretical range between 23 (person always stated “com-
pletely agree”  low SC) to 115 (person always stated “do not agree at all”  high SC).
• Indizes, versch. Arten der Indexbildung:
• „Summen-Score“: die Werte der gewählten Antwortkategorien werden aufaddiert (nur bei
vollständigen Antworten möglich!)
• Index über Mittelwert: es wird das arithmetische Mittel der gewählten Antwortkategorien
einer Person gebildet (Vorsicht bei fehlenden Werten!)
• Indizes: Was tun bei unterschiedlicher Zahl der Antwortkategorien?
-Indikator des Egoismus: Im Folgenden Finden Sie einige Aussagen zu verschiedenen
Lebensgewohnheiten. Bitte geben Sie an, inwieweit diese für Sie zutreffen oder nicht!
„ Ich bin Personen gegenüber, die Probleme haben, nicht gerade aufgeschlossen“
-Indikator der Impulsivität: „ Ich lebe jetzt und hier und tue was immer mir Spaß bringt,
auch auf Kosten eines entfernteren Ziels“
• Indices, various types of index creation:
• "Total score": the values of the selected answer categories are added up (only possible
with complete answers!)
• Index above mean: the arithmetic mean of the selected answer categories of a person is
formed (be careful with missing values!)
• Indices: what to do if there are different numbers of response categories?
-Indicator of egoism: Below you will find some statements about different habits of life.
Please indicate to what extent these apply to you or not!
"I'm not very open to people who have problems"
-Indicator of impulsivity: "I live here and now and do whatever pleases me, even at the ex-
pense of a distant goal"

Die z-Transformation
• Eine Lösung dieses Problem kann durch die Zentrierung einer Variable anhand
des arithmetischen Mittels erreicht werden. Diese einfache Transformation wird in der
Statistik z-Transformation genannt und das Ergebnis der Transformation ist der z-Wert.
• Formal:
• A solution to this problem can be found by centering a variable using of the arithmetic
mean. This simple transformation is called the z-transformation in statistics, and the result
of the transformation is the z-score.
• Formal

• Man kann jeden Wert xi einer Verteilung dieser z-Transformation unterziehen. Vorzeichen
und Größe des z-transformierten Wertes sind interpretierbar:
1) Ein negatives Vorzeichen indiziert, dass der betrachtete Wert zi „unter“ dem Mittelwert
liegt, während ein positives Vorzeichen indiziert, dass der Wert „oberhalb“ des Mittelwertes
liegt.
2) Je dichter zi an Null ist, je dichter liegt der Wert xi am Mittelwert.
3) Ein z-Wert von 2 ist doppelt so weit vom Mittelwert entfernt, wie ein z-Wert von 1
4) Jede (normalverteilte) Verteilung kann z-transformiert werden und die z-Werte können
verglichen werden. Bezogen auf unser Beispiel: Egoismus und Impulsivität wurden auf
zwei unterschiedlichen Skalen gemessen (5er bzw. 3er Skala). Führt man für jede der
beiden Skalen eine Zentrierung durch, so kann man die exakte Position einer Person i
innerhalb der Verteilung aller Personen n ermitteln. Die z-Werte beider Skalen sind so
vergleichbar, da eine Person mit einem z-Wert von 1,5 auf der Egoismus-Skala direkt mit
einem z-Wert von 0,5 auf der Impulsivitäts-Skala in Relation gesetzt werden kann
(bezüglich des Abstandes zum jeweiligen Mittelwert). Die jeweiligen z-Werte können dann
zu einem Index zusammengefasst werden.
5) Eine z-transformierte Verteilung hat immer ein arithmetisches Mittel von 0 und eine
Standardabweichung von 1
• Every value xi can be subjected to a distribution of this z-transformation. Sign and magni-
tude of the z-transformed value can be interpreted:
1) A negative sign indicates that the considered value zi is “below” the mean, while a posi-
tive sign indicates that the value is “above” the mean.
2) The closer zi is to zero, the closer the value xi is to the mean.
3) A z-score of 2 is twice as far from the mean as a z-score of 1
4) Any (normal) distribution can be z-transformed and the z-values can be compared. Re-
ferring to our example: egoism and impulsiveness were measured on two different scales
(scale of 5 and 3). If one carries out a centering for each of the two scales, one can deter-
mine the exact position of a person i within the distribution of all persons n. The z-scores
on both scales are so comparable that a person with a z-score of 1.5 on the selfishness
scale directly can be related to a z-value of 0.5 on the impulsiveness scale (regarding the
distance to the respective mean). The respective z-values can then be combined into an
index.
5) A z-transformed distribution always has an arithmetic mean of 0 and a standard devia-
tion of 1

• Wann kann ein Index aus mehreren Einzelindikatoren gebildet werden?


• 1) die einzelnen Indikatoren („Items“) müssen untereinander hoch und positiv korreliert
sein.
• 2) alle Items müssen mit dem Indexwert („Score“) mit dem gleichen Vorzeichen korreliert
sein.
• When can an index be formed from several individual indicators?
• 1) the individual indicators (“items”) must be highly and positively correlated with each
other.
• 2) all items must be correlated with the index value (“score”) with the same sign.

• Maßzahl zur Beurteilung der Güte eines Index, Cronbach Alpha:


• Measure for assessing the quality of an index, Cronbach Alpha:

• Wobei: n = Anzahl der Items; 𝑟𝑟̅= arithmetisches Mittel der Korrelationen zwischen den
Items.
• Cronbach´s Alpha, Korrelationsmatrix
• Where: n = number of items; 𝑟𝑟̅= arithmetic mean of the correlations between the items.
• Cronbach's Alpha, correlation matrix

• Cronbach´s Alpha kann Werte zwischen minus Unendlich und 1 annehmen.


• Werte kleiner Null indiziert, dass die Items „nicht dasselbe“ messen und 1 indiziert, dass
die Items (bzw. der zu bildende Index) eine „perfekte“ innere Konsistenz aufweisen.
• Faustregel: ein Alpha > 0,8 indiziert eine sehr gute Konsistenz, ein Alpha < 0,6 ist
inakzeptabel.
• Intersubjektivität von Messungen:
• Die Ergebnisse der Messung müssen unabhängig von der Person sein, die das
Messinstrument anwendet
• Cronbach's alpha can assume values between minus infinity and 1.
• Values less than zero indicate that the items measure "not the same thing" and 1 indi-
cates that the items (or the index to be formed) have a "perfect" internal consistency.
• Rule of thumb: an alpha > 0.8 indicates very good consistency, an alpha < 0.6 is unac-
ceptable.
• Intersubjectivity of measurements:
• The results of the measurement must be independent of the person doing it
measuring instrument applied

Reliabilität:
• Ist das Messinstrument zuverlässig?
• Ein Instrument muss bei wiederholter Messung desselben Konstrukts unter kontrollierten
Bedingungen stets dasselbe Ergebnis liefern.
– Paralleltest (zwei IQ-Tests sollten prinzipiell sehr ähnliche Ergebnisse für ein Individuum
liefern)
– Test-Retest (die zweimalige Anwendung desselben Instrumentes in einer Population
sollte dieselben Ergebnisse liefern)
– Split-Half Test (das Instrument wird „halbiert“, die Ergebnisse beider Hälften sollten hoch
korreliert sein)
Reliability:
• Is the measuring instrument reliable?
• An instrument must always give the same result when measuring the same construct re-
peatedly under controlled conditions.
– Parallel test (in principle, two IQ tests should deliver very similar results for an individual)
– Test-retest (using the same instrument twice in a population should give the same re-
sults)
– Split-Half Test (the instrument is “halved”, the results of both halves should be highly cor-
related)

• Validität: Valide ist eine Messung dann, wenn sie tatsächlich das misst, was sie messen
soll.
• Validität setzt voraus, dass der Transfer von der theoretischen Ebene zum
Gegenstandsbereich gelungen ist.
• Die Frage nach der Validität einer Messung ist die Kernfrage einer jeden (quantitativen)
Untersuchung
• Validity: A measurement is valid if it actually measures what it is supposed to measure.
• Validity presupposes that the transfer from the theoretical level to the subject area has
been successful.
• The question of the validity of a measurement is the core question of every (quantitative)
investigation

• Semantische Validität:
• Problem der Übersetzung eines theoretischen Konstrukts in beobachtbare / messbare
Indikatoren.
• Ist die Übersetzung zu „eng“, dann erfasse ich nur einen Teilbereich des Konstrukts.
• Ist die Übersetzung zu „weit“, dann messe ich vielleicht neben dem eigentlichen
Konstrukt (auch) etwas anderes.
• Semantic Validity:
• Problem of translating a theoretical construct into observable / measurable
indicators.
• If the translation is too "narrow", then I only understand a part of the construct.
• If the translation is too “broad”, then I may (also) measure something else besides the ac-
tual construct.

• Empirische Validität:
• Selbst wenn die Indikatoren eine hohe semantische Validität bieten kann es sein, dass
ich nicht das gemessen habe, was ich messen wollte (Fehler bei der Datenerhebung,
Interviewereffekte)
• Empirical validity:
• Even if the indicators offer a high level of semantic validity, it may be that
I did not measure what I wanted to measure (errors in data collection,
interviewer effects)

• Inhaltliche Validität:
• Sind die Ergebnisse meiner Messung plausibel?
• Kriteriumsvalidität:
• Test mit einem unabhängigen Vergleichswert / “Außenkriterium“ (also einem zweiten
Datensatz), der inhaltlich mit dem eigentlich zu messendem Begriff stark zusammenhängt.
Bsp: subjektive und objektive Belastung.
• Content validity:
• Are the results of my measurement plausible?
• Criterion Validity:
• Test with an independent comparison value / "external criterion" (i.e. a second
dataset) that is closely related to the term actually to be measured. Example: subjective
and objective stress.

• Konstruktvalidität:
• Das auf Grundlage einer Theorie operationalisierte Konstrukt erklärt mehrere
abhängige Variablen, die wiederum miteinander korreliert sind. Bsp. Werthaltungen
(Konstrukt) und Handlungen (abhängige Variablen)
• Construct validity:
• The construct operationalized on the basis of one theory explains several
dependent variables, which in turn are correlated with each other. E.g. values (construct)
and actions (dependent variables)

SITZUNG 5
Stichprobentheorie
• In der Regel ist es nicht möglich, dass alle Elemente der Grundgesamtheit hinsichtlich
bestimmter Merkmalsausprägungen untersucht werden.
• Ziehen wir jedoch die Stichprobentheorie und die Stochastik hinzu, dann ist das auch gar
nicht nötig.
• Genügen die Stichproben bestimmten Anforderungen, dann können aus ihnen valide
Schätzungen für die Population getroffen werden.
• Argument aus der Stochastik: Jedes theoretisch vorstellbare Ereignis hat eine
Auftretenswahrscheinlichkeit größer Null.
• Die Wahrscheinlichkeit des Auftreten eines Ereignis können wir berechnen.
• Das Auftreten einiger Ereignisse ist wahrscheinlicher als das Auftreten anderer
Ereignisse.
• Beispiel Würfelspiel „Craps“: Es werden zwei Würfel geworfen und die Spieler wetten auf
eine bestimmte Kombination. Hier ist das Auftreten bestimmter Kombinationen berechen-
bar:
Sampling theory
• As a rule, it is not possible that all elements of the population about certain characteristics
are examined.
• However, if we include sampling theory and stochastics, then this is not necessary at all.
• If the random samples meet certain requirements, they can be used as valid population
estimates are made.
• Argument from stochastics: every theoretically imaginable event has a probability of oc-
currence greater than zero.
• We can calculate the probability of an event occurring.
• Some events are more likely to occur than other events.
• Example of a craps game: Two dice are rolled and the players bet on a specific combina-
tion. The occurrence of certain combinations can be calculated here:

• Angenommen wir ziehen aus einer Grundgesamtheit eine unendliche Zahl von
Stichproben und untersuchen diese auf ein bestimmtes Merkmal hin.
• Wir erhalten dann für jede Stichprobe einen Mittelwert und eine Standardabweichung.
• Die Mittelwerte aus der Stichprobe können in jeder Stichprobe unterschiedlich sein,
streuen aber um einen bestimmten Wert und auch diese Streuung ist normalverteilt (d.h.
die Mittelwerte sind sich sehr ähnlich und wir finden nur wenige Mittelwerte, die extrem
abweichen).
• Wenn wir nun von dem Stichprobenmittelwert ̅ 𝑥 auf den Populationsmittelwert μ
schließen, dann machen wir einen Fehler  dies ist der Standardfehler.
• Der Standardfehler ergibt sich aus der Standardabweichung der Schätzer (σ) – also aus
der Standardabweichung des Stichprobenmittelwertes ( ̅ 𝑥 der uns als Schätzer für den
Populationsmittelwert dient).
• Der Standardfehler kann somit bestimmt werden als:
• Suppose we draw an infinite number of random samples from a population and examine
them for a specific characteristic.
• We then get a mean and a standard deviation for each sample.
• The mean values from the sample can be different in each sample, but scatter around a
certain value and this scatter is also normally distributed (i.e. the mean values are very
similar and we only find a few mean values that are extremely differ).
• If we now infer the population mean μ from the sample mean ̅𝑥, then we make an error
 this is the standard error.
• The standard error results from the standard deviation of the estimators (σ) – i.e. from the
standard deviation of the sample mean ( ̅𝑥 which we use as the estimator for the popula-
tion mean is used).
• The standard error can thus be determined as:

• Zentraler Grenzwertsatz: die Verteilung der Stichprobenmittelwerte mehrerer


Stichproben nährt sich mit wachsendem Stichprobenumfang einer Normalverteilung an 
Je größer die Stichprobe, desto besser gelingt die Schätzung des Populationsmittelwertes
(desto geringer ist der Standardfehler der Schätzung wg. √𝑛).
• Nun können wir folgende Annahme treffen:
• Der Populationsmittelwert liegt mit einer Fehlerwahrscheinlichkeit von kleiner/gleich 5%
im Bereich
• Central limit theorem: the distribution of the sample means of several Samples approach
a normal distribution as the sample size increases  The larger the sample, the better the
estimate of the population mean is (the lower the standard error of the estimate because of
√𝑛).
• Now we can make the following assumption: The population mean is in range with a
probability of error of less than or equal to 5%

um den Mittelwert der Stichprobe ( ̅𝑥). Diesen Bereich nennen wir das Konfidenzintervall.
around the mean of the sample ( ̅𝑥). We call this range the confidence interval.

• Der „optimale“ Stichprobenumfang kann annäherungsweise mithilfe der Reduzierung


des Standardfehlers durch die Stichprobengröße bestimmt werden:
• Standardfehler:
• The “optimal” sample size can be approximated using the reduction of the standard error
can be determined by the sample size:
• Standard error

• Angenommen σ sei 8
Auswahlverfahren
• Grundbegriffe:
– Grundgesamtheit
– Stichprobe
– Erhebungseinheiten
– Untersuchungseinheiten
– (Probleme: Undercoverage / overcoverage)
Selection process
• Basic terms:
– Population
– Sample
– survey units
– Units of investigation
– (Problems: undercoverage / overcoverage)

• Stichprobenverfahren: Regeln, nach denen Erhebungseinheiten aus der


Grundgesamtheit für die Stichprobe ausgewählt werden.
– Wahrscheinlichkeitsauswahl (Zufallsauswahl)
– Bewusste Auswahl
– Willkürliche Auswahl
• Sampling procedure: Rules according to which survey units are selected from the popula-
tion for the sample.
– Probability selection (random selection)
– Conscious choice
– Arbitrary selection

Willkürliche Auswahl
• Wahlloses Ansprechen von Menschen „an der Straßenecke“
• Rekrutierung durch Zeitungsanzeigen, Flyer oder Banner auf Internetseiten
• Keinerlei Anspruch auf  Repräsentativität

Arbitrary selection
• Indiscriminately approaching people “on the street corner”
• Recruitment through newspaper ads, flyers or banners on websites
• No claim to  representativeness

Repräsentativität: die Stichprobe ist ein perfektes (verkleinertes) Abbild der


Grundgesamtheit.
• R. soll durch Zufallsauswahl und bewusste Auswahl erreicht werden.
• Muss R. immer angestrebt werden?
– Ja - bei Schätzungen von Populationsmerkmalen und bei inferenzstatistischen
Verfahren.
– Nein - bei experimentellen Überprüfungen eines Kausalzusammenhangs.
(EXAMEN)
Representativeness: the sample is a perfect (reduced) image of the population.
• R. should be achieved through random selection and conscious selection.
• Does R. always have to be striven for?
– Yes - for estimates of population characteristics and for inferential statistical methods.
– No - in experimental tests of a causal relationship.

Wahrscheinlichkeitsauswahl:
• Alle induktiven / inferenzstatistischen Verfahren setzen zur Schätzung des
Fehlerintervalls Zufallsstichproben voraus: “Die induktive (schließende S., Inferenzstatistik)
Statistik befasst sich mit der wahrscheinlichkeitstheoretischen Absicherung des Schlusses
von einem als Stichprobe definierten Ausschnitt der Wirklichkeit auf die postulierte “wahre”
Struktur eines Phänomens. Da die wahre Struktur nicht bekannt ist, sind derartige
Schlüsse prinzipiell mit Unsicherheit behaftet. Der Schluss von der Stichprobe auf die
wahre Struktur ist nur dann möglich, wenn bereits bei der Datenerhebung bestimmte
Voraussetzungen erfüllt sind. Daher beschäftigt sich die induktive Statistik auch mit der
Datenerhebung.”
Probability Pick:
• All inductive / inferential statistical methods require random samples to estimate the error
interval: “Inductive (closing S., inferential statistics) statistics deals with the probabilistic
protection of the conclusion from a section of reality defined as a sample to the postulated
“true” structure of a phenomenon. Since the true structure is not known, such conclusions
are inherently uncertain. Inferring the true structure from the sample is only possible if cer-
tain prerequisites are already met during data collection. Therefore, inductive statistics
also deals with data collection.”

• Merkmale einer Zufallsauswahl:


– Alle Einheiten der Grundgesamtheit sind bekannt und (generell) verfügbar
– Die Chance für jede Einheit in die Grundgesamtheit in die Stichprobe zu gelangen
ist identisch, angebbar und größer Null
– Es kann sichergestellt werden, dass jede Einheit nur einmal in die Stichprobe
gelangen kann
• Characteristics of a random selection:
– All units of the population are known and (generally) available
– The chance for each unit in the population to get into the sample is identical, specifi-
able and greater than zero
– It can be ensured that each unit can only be included in the sample once

Einfache Wahrscheinlichkeitsauswahl:
• Listenauswahl:
– Es existiert eine vollständige Liste aller Einheiten der Grundgesamtheit
– Nach einer einfachen Auswahlregel (“jede(r) 14te“) werden aus der Liste
Erhebungseinheiten gezogen
– Ist die Liste geordnet (Nachnamen, Telefonnummern), dann kann dies zu
Verzerrungen führen, wenn die Merkmale der Ordnung mit den Merkmalen, die
untersucht werden sollen korreliert ist.
Simple probability selection:
• List selection:
– There is a complete list of all units in the population
– Survey units are drawn from the list according to a simple selection rule (“every
14th”)
– If the list is ordered (surnames, telephone numbers), then this can lead to distor-
tions if the features of the order are correlated with the features that are to be exam-
ined.

• Lotterieauswahl / Urnenauswahl
• Random Digit Dialing (RDD) bei Telefoninterviews.
 Vorteile dieser beiden Verfahren ist, dass etwaige Verzerrungen durch die Systematik
einer geordneten Liste verhindert werden
• Gebietsauswahl (Random Route), besonders geeignet für face-to-face Interviews und es
wird keine Liste der Grundgesamtheit benötigt
- Es werden klare und praktikable Anweisungen für die Route benötigt
- Diese Anweisungen müssen unbedingt eingehalten werden, damit die Auswahl
zufällig erfolgt
- Erhebungseinheiten sind hier Wohnungen bzw. Haushalte – welche Person des
Haushaltes soll aber nun befragt werden?
– Gebietsauswahl (Random Walk): falls in einem Haushalt mehrere Personen leben, dann
kann zur Auswahl der zu befragenden Person der „Schwedenschlüssel“ verwendet werden
• Lottery selection / ballot box selection
• Random Digit Dialing (RDD) in telephone interviews.
 The advantage of both of these methods is that any distortions caused by the system of
an ordered list are prevented
• Area selection (random route), particularly suitable for face-to-face interviews and no list
of the population is required
- Clear and workable directions for the route are needed
- These instructions must be strictly followed so that the selection is random
- Survey units here are apartments or households - but which person in the house-
hold should now be interviewed?
– Area selection (random walk): if several people live in a household, the “Swedish
key” can be used to select the person to be interviewed

die Zahl in der unteren Zeile wurde dabei zufällig bestimmt


the number in the bottom line was determined at random

Mehrstufige Wahrscheinlichkeitsauswahl:
• Beispiel:
– Stufe 1: aus allen Gemeinden in D werden 50 per Los ausgewählt.
– Stufe 2: mithilfe random route werden in jeder Gemeinde 40 Adressen ermittelt
– Stufe 3: per Schwedenschlüssel werden einzelne Personen in den HH ermittelt
Multi-level probability selection:
• Example:
– Stage 1: 50 are selected by lot from all communities in D.
– Stage 2: 40 addresses are determined in each municipality using random route
– Level 3: Individual persons in the HH are determined using the Sweden key

• Problem: bei solchen Verfahren ist nicht immer die Voraussetzung erfüllt, dass jedes
Element der Grundgesamtheit die gleiche Chance hat, in die Stichprobe zu gelangen.
• Beispiel: jemand, der alleine in einem ausgewählten HH lebt gelangt mit p = 1 ins
sample, jemand, der in einem 8-Personen HH lebt nur mit p = 0,125.
• Lösung: hier kann man reziprok zur HH-Größe gewichten, d.h. eine Person in einem
Haushalt der Größe m erhält ein Gewicht m.
• Problem: with such methods, the requirement that each element of the population has
the same chance of being included in the sample is not always met.
• Example: someone who lives alone in a selected HH enters the sample with p = 1, some-
one who lives in an 8-person HH only with p = 0.125.
• Solution: here you can weight the reciprocal of the HH size, i.e. a person in a household
of size m receives a weight of m.

• Klumpenstichprobe:
– Zunächst wird zufällig eine definierte Gruppe von Individuen ausgewählt (
Erhebungseinheit) und dann werden alle Mitglieder dieser Gruppe untersucht
– Vorteil: realisiert einfach große Fallzahlen
– Nachteil: größere Fehlerintervalle als bei reinen Zufallssamples (die Varianz in den
Gruppen ist kleiner als die Varianz zwischen den Gruppen)
• Cluster sample:
– First, a defined group of individuals is randomly selected ( survey unit) and then all
members of this group are examined
– Advantage: easily realizes large numbers of cases
– Disadvantage: larger error intervals than with pure random samples (the variance in the
groups is smaller than the variance between the groups)

Wegen der unterschiedlichen Binnen und Gesamtvarianzen muss diese hierarchische


Struktur der Daten (Level 1: Gruppe und Level 2: Individuum) in die Auswertung der Daten
einfließen
• In einem ersten Schritt betrachten wir jede Klasse einzeln, um die Effekte der Variable x
(Motivation) auf der Individualeben zu schätzen:
1. 𝑦𝑖 = 𝛽0𝑗 + 𝛽1𝑗𝑥𝑖j + 𝑒𝑖j
• Der nächste Schritt besteht nun darin, die Varianz der Koeffizienten (also deren zufällige
Komponente) über die Schulklassen hinweg zu erklären.
• Dabei gehen wir davon aus, dass die Varianz (also die Unterschiede zwischen den
Schulklassen) durch die Kontextvariable z (die Erfahrung der Lehrer*innen) zustande
kommt / erklärt werden kann.
2. 𝛽0𝑗 = 𝛾00 + 𝛾01Z𝑗 + 𝑢0𝑗
3. 𝛽1𝑗 = 𝛾10 + 𝛾11Z𝑗 + 𝑢1𝑗
• Gleichung (2) erklärt also das Interzept jeder Schulklasse j und Gleichung (3) erklärt die
Steigung jeder Schulklasse j.
Because of the different internal and overall variances, this hierarchical
Structure of the data (level 1: group and level 2: individual) in the evaluation of the data
flow in
• In a first step, we consider each class individually in order to assess the effects of the
variable x
(Motivation) to appreciate on the individual level:
1. 𝑦𝑖 = 𝛽0𝑗 + 𝛽1𝑗𝑥𝑖j + 𝑒𝑖j
• The next step is to calculate the variance of the coefficients (i.e. their random
component) across the school classes.
• We assume that the variance (i.e. the differences between the
school classes) comes about / can be explained by the context variable z (the experience
of the teachers).
2. 𝛽0𝑗 = 𝛾00 + 𝛾01Z𝑗 + 𝑢0𝑗
3. 𝛽1𝑗 = 𝛾10 + 𝛾11Z𝑗 + 𝑢1𝑗
• Equation (2) explains the intercept of each school class j and equation (3) explains the
Slope of each school class j.

• Mehrstufige Wahrscheinlichkeitsauswahl:
-Schichtung der Stichprobe:
– Ist die Varianz eines Merkmals in der Grundgesamtheit sehr hoch, dann liefern
reine Zufallsstichproben einen hohen Fehlerintervall weil „extreme“ Fälle unter- oder
überrepräsentiert sein können
– Deswegen ist es hier sinnvoll, eine Schichtung der Stichprobe durchzuführen
– Voraussetzung: die Merkmalsverteilung in der Grundgesamtheit ist (annähernd)
bekannt und die Erhebungseinheiten können ex ante einer Schicht zugeordnet
werden
– Die Erhebungseinheiten werden zunächst in verschiedene Schichten eigeteilt und
dann wird in jeder Schicht eine separate Zufallsstichprobe gezogen.
– Die Größe der Stichprobe pro Schicht kann proportional zur Größe der Schicht in
der Grundgesamtheit sein oder disproportional ( die verschiedenen Stichproben
weisen die identische absolute Größe auf)
– Der Vorteil disproportionaler Stichprobengrößen liegt darin, dass sehr hohe oder
sehr geringe Merkmalsausprägungen, die nur selten vorkommen trotzdem in die
Gesamtstichprobe gelangen.
– Die Schätzungen von Populationswerten gelingen umso genauer, je homogener die
Merkmalsverteilungen in den einzelnen Schichten sind (geringe Binnenvarianz i.d.
einzelnen Schichten)
• Multi-level probability selection:
- Stratification of the sample:
– If the variance of a characteristic in the population is very high, then purely random
samples provide a high error interval because "extreme" cases can be under- or
over-represented
– Therefore, it makes sense here to stratify the sample
– Prerequisite: the distribution of characteristics in the population is (approximately)
known and the survey units can be assigned to a stratum ex ante
– The survey units are first divided into different strata and then a separate random
sample is drawn from each stratum.
– The size of the sample per stratum can be proportional to the size of the stratum in
the population or disproportionate ( the different samples have the same absolute
size)
– The advantage of disproportionate sample sizes is that very high or very low levels
of characteristics that occur only rarely still make it into the overall sample.
– The estimates of population values are all the more accurate the more homoge-
neous the feature distributions in the individual strata are (low internal variance in
the individual strata)

• Bewusste Auswahl:
– Quota-Stichprobe:
– Es wird versucht, aufgrund bekannter Merkmalsverteilungen in der
Grundgesamtheit eine Stichprobe zu generieren, die im Bezug auf obige Merkmale
eine „perfekte Miniatur“ der jeweiligen Grundgesamtheit darstellt
– Bsp: die Stichprobe soll aus 64% Frauen bestehen, die nicht älter als 26 Jahre sind
und Abitur haben
– Problem 1: die Auswahl der Erhebungseinheiten erfolgt nicht zufällig (Domino-
Prinzip)
– Problem 2: eine Quotierung ist nur dann sinnvoll, wenn angenommen werden kann,
dass die Quoren mit bestimmten Variablen von Interesse korreliert sind (also zum
Beispiel, dass Frauen per se eine andere Merkmalsausprägung aufweisen als
Männer)
• Conscious choice:
– Quota sample:
– An attempt is made to generate a sample based on known distributions of charac-
teristics in the population, which in relation to the above characteristics represents a
"perfect miniature" of the respective population
– Example: the sample should consist of 64% women who are not older than 26
years and have a high school diploma
– Problem 1: the selection of the survey units is not random (domino principle)
– Problem 2: quoting only makes sense if it can be assumed that the quorums are
correlated with certain variables of interest (e.g. that women per se have a different
characteristic than men)

– Schneeballverfahren:
– Eignet sich besonders dann, wenn es keine Listen oder sonstigen Infos über die
Zielpopulation gibt
– Ein Mitglied der Zielpopulation wird identifiziert und gebeten, ein weiteres Mitglied
der Zielpopulation einzuladen usw.
– Problem: es handelt sich nicht mehr um eine Zufallsauswahl!
– Snowball method:
– Is particularly suitable when there are no lists or other information about the target
population
– A member of the target population is identified and asked to invite another member
of the target population, and so on.
- Problem: it is no longer a random selection!

• Fazit: falls die erhobenen Daten mit inferenzstatistsichen Verfahren ausgewertet werden
sollen, ist eine „echte“ Zufallsauswahl unerlässlich
• Doch selbst wenn das Sample zufällig gebildet wurde, entstehen Probleme falls die
Erhebungseinheiten nicht erhoben werden können:
– Zielpersonen werden nicht angetroffen (neutrale Ausfälle), reduziert Samplegröße
und erhöht damit den Stichproben- / Standardfehler
– Zielpersonen verweigern die Beantwortung der Fragen komplett (unit-nonresponse)
oder teilweise (item- nonresponse); Verzerrung der Ergebnisse möglich, wenn es
ein Merkmal gibt, dass allen VerweigerInnen gemein ist
• Conclusion: if the collected data are evaluated with inferential statistical methods
should, a "true" random selection is essential
• But even if the sample was formed randomly, problems arise if the survey units cannot be
collected:
– Target persons are not met (neutral failures), reduces the sample size and thus in-
creases the sample/standard error
– Target persons refuse to answer the questions completely (unit-nonresponse) or
partially (item-nonresponse); Distortion of the results possible if there is one charac-
teristic that all objectors have in common

• Fazit für Web-Umfragen: momentan ist eine Stichprobenziehung für eine allgemeine
Bevölkerungsumfrage (noch) nicht möglich (es gibt keine personalisierte Liste von
Internetnutzern mit eindeutiger ID)
• Bei Spezialpopulationen (z.B. Studierenden) für die komplette Listen vorliegen (Uni-
EMailadressen) kann eine Zufallsauswahl nach Prinzip des Listen- oder Urnenmodells
erfolgen
• Conclusion for web surveys: currently a sampling for a general Population survey not
(yet) possible (there is no personalized list of Internet users with a unique ID)
• In the case of special populations (e.g. students) for whom complete lists are available
(university e-mail addresses), a random selection can be made according to the principle
of the list or urn model

SITZUNG 6
Zufallsstichprobe vs online access panel
• In den letzten Jahren hat die Ausstattung privater Haushalte mit Internet (auch mobiles
Internet) in den meisten (OECD-)Ländern deutlich zugenommen.
• Abdeckung (July 2022) z.B. in Deutschland: 94,0%, in Australien 90,0%
• Kommerzielle und nicht-kommerzielle Forschungsinstitute bauen zunehmend sog. Onlice
access panels (OAP) auf.
• Für diese OAP werden Personen aktiv rekrutiert. Diese erhalten für die Teilnahme an
Befragungen / Online-Experimenten (quasi- )monetäre Incentivierungen.
Random sample vs online access panel
• In recent years, the equipment of private households with Internet (including mobile Inter-
net) has increased significantly in most (OECD) countries.
• Coverage (July 2022) e.g. in Germany: 94.0%, in Australia 90.0%
• Commercial and non-commercial research institutes are increasingly setting up so-called
onlice access panels (OAP).
• People are actively recruited for this OAP. They receive (quasi) monetary incentives for
participating in surveys / online experiments.

• Vorteile von OAP


- Geringe Kosten Selbstselektive Samples
- Schneller Rücklauf
- Bequem für TeilnehmerInnen
- Wenig soziale Erwünschtheit
- Zugriff auf Spezialpopulationen
- Einsatz Multimedia mögl
- Online Fragebögen mögl
• Benefits of OAP
- Low Cost Self Selective Samples
- Fast rewind
- Convenient for participants
- Low social desirability
- Access to special populations
- Use of multimedia possible
- Online questionnaires possible

• Nachtaile von OAP


- Selbstselektive Samples
- Under- / Overcoverage
- Internetzugang erforderlich
- Nur Internat-affine Population erreichbar
- Weil keine Zufallsauswahl:
• Verzerrte Standardfehler
• Verzerrte Konfidenzintervalle
• Verallgemeinerbarkeit?
• OAP disadvantages
- Self-selective samples
- Under / over coverage
- Internet access required
- Only accessible population with boarding school affinity
- Because no random selection:
• Biased standard errors
• Biased confidence intervals
• Generalizability?

• Methodenexperiment von Pennay et al. (2017) in Australien.


• Es wurden drei Zufallsstichproben von Pennay et al. gezogen.
• Parallel wurden fünf kommerzielle OAP beauftragt.
• In allen acht Samples wurde ein identischer Fragebogen abgefragt (Fragen nach
Demographia, Gesundheit, Wohlbefinden, Nutzung von Alltagstechnologien).
• Die Antworten / Verteilungen wurden verglichen mit aktuellen Angaben des ABS-Zensus
(„Volkszählung“).
• Auswahlverfahren für die drei Zufallsstichproben:
- Survey 1: Listenauswahl aus Melderegister,
- Survey 2: RDD zur Kontaktaufnahme, dann Zusendung eines Links zum FB oder
PAPI, je nach Wunsch der ProbandInnen,
- Survey 3: RDD zur Kontaktaufnahme, dann CATI (50% Festnetz, 50%
Mobiltelefone).
• Method experiment by Pennay et al. (2017) in Australia.
• Three random samples from Pennay et al. drawn.
• Five commercial OAPs were commissioned in parallel.
• An identical questionnaire was used in all eight samples (questions about demographics,
health, well-being, use of everyday technologies).
• The answers/distributions were compared with current information from the ABS census
(“population”).
• Selection procedure for the three random samples:
- Survey 1: list selection from the population register,
- Survey 2: RDD for contact, then sending a link to the FB or PAPI, depending on the
request of the test persons,
- Survey 3: RDD for contact, then CATI (50% landline, 50% mobile).

• Fazit:
• Die Fehler sind in den OAP höher als in den Zufallsstichproben.
• Hinsichtlich Demographia sind die Fehler zwischen den Zufallsstichproben und den OAP
relativ ähnlich, sie sind aber groß bei z.B. Gesundheitsmaßen (siehe Folie oben).
• Im Schnitt über alle Fragen sind die OAP (noch?) ungenauer als „echte“ Zufallssample.
• OAP zur Schätzung von Populationsmittelwerten scheinen momentan (noch) als zu
unsicher.
• Allerdings sind OAP durchaus geeignet für (Online-)Experimente und andere Tests von
Kausalzusammenhängen, bei denen keine echte Zufallstichproben nötig sind.
• Conclusion:
• The errors are higher in the OAP than in the random samples.
• Regarding demographics, the errors are between the random samples and the OAP
relatively similar, but they are large in e.g. health measures (see slide above).
• On average across all questions, the OAP are (still?) less precise than “real” random
samples.
• OAP for estimating population mean values currently (still) appear to be too uncertain.
• However, OAP are quite suitable for (online) experiments and other tests of
Causal relationships that do not require true random sampling.

Wieso nehmen Menschen an einer Studie teil?


• Hartmut Esser 1986: Über die Teilnahme an Befragungen:
– Teilnahme ist Kosten-Nutzen Abwägung
• Don Dillman et al. 2014: Internet, Mail, and Mixed-Mode Surveys. The Tailored Design
Method. 4th Edition. New Jersey: Wiley:
– Vertrauen ist wichtige Voraussetzung der Teilnahme
• Manchmal wissen Personen (zunächst) nicht, dass sie Untersuchungseinheiten einer
sozialwissenschaftlichen Studie sind:
- (verdeckte) Beobachtungen
- Krisen(quasi-)experimente
- Inhaltsanalyse individueller Dokumente
•  die Frage der Kooperation / Teilnahme stellt sich zunächst nicht
(Forschungsethik?).
• Andere Studien sind obligatorisch – Z.B. Zensus („Volkszählung“)
Why do people take part in a study?
• Hartmut Esser 1986: About participation in surveys:
– Participation is a cost-benefit analysis
• Don Dillman et al. 2014: Internet, Mail, and Mixed-Mode Surveys. The Tailored Design
Method. 4th edition. New Jersey: Wiley:
– Trust is an important prerequisite for participation
• Sometimes people do not know (at first) that they are the units of study in a social sci-
ence study:
- (covert) observations
- Crisis (quasi) experiments
- Content analysis of individual documents
•  the question of cooperation/participation does not arise at first (research ethics?).
• Other studies are mandatory – e.g. census (“population census”)

• Die meisten Studien sind jedoch als solche kenntlich gemacht und beruhen auf
freiwilliger Teilnahme der untersuchten Personen
• Da wir auf die Kooperation der Menschen angewiesen sind und die
Teilnahmebereitschaft („response-rate“) wichtig ist (Standardfehler!), ist es unser Ziel, die
Teilnahmebereitschaft zu maximieren
• Dazu müssen wir den individuellen Entscheidungsprozess pro oder kontra Teilnahme
kennen
• Die Entscheidung für oder gegen eine Teilnahme beruht auf einer individuellen
Abwägung von Kosten und Nutzen der Teilnahme
• Personen werden an einer freiwilligen Studie nur teilnehmen, wenn sie mehr Nutzen als
Kosten erwarten
• (Ausnahme: die kleinen Gruppen der „TotalVerweigerer“ und der „Zealots“)
• However, most of the studies are marked as such and are based on the voluntary partici-
pation of the persons examined
• Since we depend on people's cooperation and the willingness to participate (“response
rate”) is important (standard error!), it is our goal to maximize the willingness to participate
• For this we need to know the individual decision-making process for or against participa-
tion
• The decision for or against participation is based on an individual assessment of the
costs and benefits of participation
• People will only participate in a voluntary study if they expect more benefit than cost
• (Exception: the small groups of “Total Refusals” and “Zealots”)

• Formal:
• SEU[T] = B – C
- SEU[T]: subjective expected utility der Teilnahme
- B: Benefits, Summe aller erwarteten positiven Konsequenten der Teilnahme
- C: Costs, Summe aller erwarteten negativen Konsequenzen (Kosten) der
Teilnahme
• Eine Person wird teilnehmen wenn gilt: B – C > 0
• Eine Person wird nicht teilnehmen wenn gilt: B – C ≤ 0
• Formal:
• SEU[T] = B – C
- SEU[T]: subjective expected utility of participation
- B: Benefits, sum of all expected positive consequences of participation
- C: Costs, sum of all expected negative consequences (costs) of participation
• A person will participate if: B – C > 0
• A person will not participate if: B – C ≤ 0

• Möglicher Nutzen der Teilnahme:


- Interessantes Thema
- Teilnahme als „Unterhaltungsprogramm“
- Möglichkeit zur Artikulation der eigenen Meinung
- Genugtuung, als „Experte“ angesehen zu werden
- Unterstützung der Wissenschaft
- Materielle Anreize / Bezahlung
• Possible benefits of participation:
- Interesting topic
- Participation as "entertainment program"
- Opportunity to articulate your own opinion
- Satisfaction to be considered an “expert”.
- Science support
- Material incentives / payment

• Mögliche Kosten der Teilnahme:


– Opportunitätskosten (Zeit!)
– Kognitive Anstrengung
– Preisgabe heikler Informationen / sensibler Daten
• Possible costs of participation:
– opportunity cost (time!)
– Cognitive effort
– Disclosure of sensitive information / sensitive data

• Um die Teilnahmebereitschaft zu gewährleisten ist es somit unabdingbar, alle


Möglichkeiten im Rahmen der Studie auszunutzen, um den Nutzen für die Befragten zu
maximieren bzw. die Kosten zu minimieren (Einladung zur Teilnahme; Design der Studie;
Formulierung der Fragen; Zusicherung der Anonymität – falls möglich; Betreuung während
der Studie usw.)
• Don Dillman (2000): Um zu verhindern, dass eine Erhebungseinheit die Teilnahme
komplett verweigert (unit-nonresponse) oder die Beantwortung bestimmter Fragen
verweigert (item-nonresponse) ist es nötig, dass zwischen Forschern und Teilnehmern ein
Vertrauensverhältnis besteht.
• Das Vertrauen der Teilnehmer zu den Forschern ist sowohl aus forschungs-ethischen wie
praktischen Gründen unabdingbar
• In order to ensure the willingness to participate, it is therefore essential to use all possibil-
ities within the framework of the study in order to maximize the benefit for the respondents
and to minimize the costs (invitation to participate; design of the study; formulation of the
questions; assurance of anonymity - if possible; support during the study etc.)
• Don Dillman (2000): In order to prevent a survey unit from completely refusing to partici-
pate (unit-nonresponse) or refusing to answer certain questions (item-nonresponse), there
must be a relationship of trust between researchers and participants.
• The participants' trust in the researchers is essential for both research-ethical and practi-
cal reasons

Exkurs Vertrauen:
• Vertrauen riskiert eine Bestimmung der Zukunft
• Vertrauen ist eine einseitige Vorleistung des Vertrauensgebers. Dieser macht sich in
sozialen Beziehungen verwundbar und erwartet, dass das soziale Gegenüber dies nicht
ausnutzt, sondern sich revanchiert
• Vertrauen besteht also immer aus drei Komponenten: die Vorleistung (L), der Nutzen aus
einer Vertrauensbeziehung (G) und der Wahrscheinlichkeit, dass der Vertrauensnehmer
das Vertrauen nicht missbraucht (p).
• Man sollte Vertrauen wenn gilt:
Digression trust:
• Trust risks determining the future
• Trust is a one-sided advance payment by the trust-giver. This makes themselves vulnera-
ble in social relationships and expects that the social counterpart does not take advantage
of this, but rather retaliates
• So trust always consists of three components: the preliminary work (L), the benefit from
a trust relationship (G) and the probability that the trust-taker will not abuse the trust (p).
• One should trust when:

• Wenn der Vertrauensgeber in Vorleistung gegangen ist und der Vertrauensnehmer sich
als vertrauenswürdig erwiesen hat (sich revanchiert), dann entsteht ein „system of mutual
trust“  Vertrauen beruht also auf Reziprozität.
• If the trust-giver has made an advance payment and the trust-taker has proven to be
trustworthy (returns the favor), then a “system of mutual trust” arises  Trust is therefore
based on reciprocity.

• Bezogen auf die Teilnahme an einer sozialwissenschaftlichen Studie:


• Die Befragten sind die Vertrauensgeber, sie gehen in Vorleistung, indem sie uns
Informationen (zu heiklen Fragen) überlassen und müssen erwarten können, dass wir a)
diese Informationen nicht missbrauchen und b) dass sie einen Gewinn aus der sozialen
Beziehung der Befragungssituation haben
• In relation to participation in a social science study:
• Respondents are the trust-givers, they make advance payments by providing us with in-
formation (on sensitive issues) and must be able to expect that a) we will not misuse this
information and b) that they will benefit from the social relationship of the interview situa-
tion

SITZUNG 7
Die mündliche Befragung
Formen des (mündlichen) Interviews:
– Qualitativ:
• Narratives / autobiographisches Interview: individuelle Konstruktionen sozialen
Sinns sollen aufgedeckt werden; Befragte erzählen in eigenen Worten, lediglich
Nachfragen der Interviewer:innen
• Gruppendiskussion: ein Thema wird kollektiv konzipiert, d.h. die „Gruppenmeinung“
ist mehr als Summe der Einzelmeinungen; Medien- und Rezipienten-Forschung;
Interviewer:in hält sich weitgehend zurück (nicht Teil der Gruppe)
• Experteninterviews: Rollenwissen von Expert:innen soll dokumentiert werden
• (Leitfadeninterview)
– Quantitativ:
• (Leitfadeninterview: Interviewer:in gibt mehrere Themen vor, die behandelt werden
sollen, die Antworten erfolgen aber im „offenen Erzählstil“)
• Standardisierte Face-to-Face Befragungen mithilfe eines Fragebogens:
Interviewer:in liest Fragen und Antwortmöglichkeiten vor, die Interviewten wählen
ihre Antwort aus den Vorgaben aus
Forms of (oral) interviews:
– Qualitative:
• Narrative / autobiographical interview: individual constructions of social meaning
should be uncovered; Respondents tell in their own words, only questions from the
interviewers
• Group discussion: a topic is conceived collectively, i.e. the "group opinion" is more
than the sum of the individual opinions; media and recipient research; Interviewer
largely holds back (not part of the group)
• Expert interviews: The role knowledge of experts should be documented
• (guideline interview)
– Quantitative:
• (Guideline interview: the interviewer specifies several topics to be dealt with, but the
answers are given in an "open narrative style")
• Standardized face-to-face surveys using a questionnaire: the interviewer reads out
questions and answer options, the interviewees select their answer from the
specifications

• Das standardisierte Interview als spezielle soziale Situation


• Ein Alltagsgespräch folgt einer generellen und einfachen Struktur: 1) Selektion eines
Themas, 2) Anschluss, 3) Verweis
• Interviews sind Gespräche, die in wichtigen Punkten von der Alltagskommunikation
abweichen:
1) Interviewer:in gibt „Sinn“ der Kommunikation vor und übernimmt exklusiv die Rolle
des Fragenden
2) Interviewte hat immer die passive / reaktive Rolle inne und kann nur zwischen
Antwortvorgaben wählen
3) das Interview ist eine zeitlich genau begrenzte soziale Situation, nach Ende des
Interviews endet auch die soziale Beziehung
• The standardized interview as a special social situation
• An everyday conversation follows a general and simple structure: 1) selection of a topic,
2) connection, 3) reference
• Interviews are conversations that deviate from everyday communication in important
respects:
1) The interviewer provides the “sense” of the communication and exclusively
assumes the role of the questioner
2) The interviewee always has the passive / reactive role and can only choose
between possible answers
3) the interview is a social situation with a precise time limit; after the end of the
interview, the social relationship also ends

• Bei voll standardisierten Interviews (Interviewer:in liest die Fragen nacheinander


wortgetreu ab und Interviewte kann nur Antwortmöglichkeiten auswählen, aber Antworten
nicht frei formulieren) sollten wir eigentlich annehmen können, dass die Erhebung der
Daten problemlos verläuft (die Daten also reliabel erhoben worden sind).
• Das Problem besteht jedoch darin, dass Interviewer:in und Interviewte Person
unabhängig vom Inhalt des Interviews aufeinander reagieren  Reaktivität
• Beispiel: Frage in einem Interview: „Gefängnisse sind zu gut für Sittlichkeitsverbrecher;
sie sollten öffentlich ausgepeitscht werden“
• Antwortmöglichkeiten: stimme zu; unentschieden; lehne ab
• Ergebnisse:
• With fully standardized interviews (the interviewer reads the questions verbatim one after
the other and the interviewee can only choose possible answers but not formulate answers
freely) we should actually be able to assume that the data collection will run smoothly (i.e.
the data have been collected reliably)
• The problem, however, is that the interviewer and the interviewee react to each other
regardless of the content of the interview  reactivity
• Example: Question in an interview: “Prisons are too good for sex offenders; they should
be publicly flogged"
• Answer options: agree; draw; reject
• Results:
• Offensichtlich ist das Antwortverhalten beeinflusst durch geschlechterspezifische
Erwartungen, was das Gegenüber hören „will“
• Apparently, the response behavior is influenced by gender-specific expectations of what
the other person "wants" to hear.

Reaktivität, Effekte durch die interviewende Person:


• Effekte sichtbarer Merkmale
- Gender und Alter
- Hautfarbe bzw. ethnische Zugehörigkeit (damit verbunden vermutete
Religionszugehörigkeit und auch Einkommen)
- Sozioökonomische Zugehörigkeit (Kleidungsstil, Dialekt)
- Auftreten, Gestik und Mimik
- Vortragsweise der Frage (langsam, schnell, akzentuiert, nuschelnd)
- (Sponsoringeffekte)
Reactivity, effects by the interviewer:
• Visible feature effects
- Gender and age
- Skin color or ethnicity (associated with this presumed religious affiliation and also
income)
- Socioeconomic affiliation (dress style, dialect)
- Appearance, gestures and facial expressions
- Way of speaking the question (slow, fast, accented, mumbling)
- (sponsoring effects)

• Beispiele:
- Ältere Interviewer erhalten mehr konservative Antworten.
- (Studien USA) afroamerikanische Interviewer*innen erhalten seltener Zustimmung
auf diskriminierende / rassistische Aussagen.
 Je „ähnlicher“ die sichtbaren Merkmale zwischen interviewender und befragter
Person sind, desto weniger „Bias“ in den Antworten.
 Je mehr Interviewer:in über die eigentliche Forschungsfrage weiß und je mehr
Interviews er/sie bereits geführt hat, desto klarer sind Vorstellungen von
konsistenten Antworten – antwortet eine befragte Person einmal ungewöhnlich,
dann kann dies zu Überraschung beim Interviewer:in führen, die die befragte
Person registriert und die sie verunsichert.
- Dem Pferd „Hans“ wurde (angeblich) von Willhelm von Osten das Rechnen
beigebracht, so konnte Hans z.B. die Rechnung 3+4 lösen, indem er 7 mal mit
einem Huf klopfte.
- Das konnte Hans auch, wenn ihm andere Menschen die Aufgabe stellten; Von
Osten war von den Fähigkeiten von Hans überzeugt (kein Schwindel).
- Lösung: Hans hatte gelernt bei Interaktion mit ihm (Fragen stellen) mit dem Huf zu
klopfen. Die Zuschauer:innen und die Fragenden zeigten offenbar Reaktionen (wie
lautes Bravo-Rufen oder Klatschen), wenn Hans bei der richtigen Zahl
angekommen war und Hans hatte gelernt (Konditionierung), dass er belohnt wurde,
wenn er dann aufhörte mit dem Huf zu klopfen.
- Hier beeinflusste die (unbewusste) Reaktion der Interviewer:innen (oder
Zuschauer:innen) das Verhalten von Hans und dies passiert auch bei menschlicher
Interaktion.
• Examples:
- Older interviewers get more conservative answers.
- (US studies) Afro-American interviewers are less likely to agree to discriminatory / racist
statements.
 The more "similar" the visible characteristics between interviewer and interviewee, the
less "bias" in the answers.
 The more interviewer knows about the actual research question and the more
interviews he/she has already conducted, the clearer are ideas of consistent answers - if a
respondent answers unusually, this can lead to the interviewer being surprised, who the
person interviewed registers and which unsettles them.
- The horse "Hans" was (supposedly) taught by Willhelm von Osten to calculate, so Hans
was able to solve the equation 3+4, for example, by tapping his hoof 7 times.
- Hans could do that too when other people gave him the task; Von Osten was convinced
of Hans' abilities (not a hoax).
- Solution: Hans had learned to tap his hoof when interacting with him (asking questions).
The viewers and the questioners apparently showed reactions (like loud shouts of bravo or
clapping) when Hans got to the right number and Hans had learned (conditioning) that he
was rewarded if he then stopped tapping his hoof
- Here the (unconscious) reaction of the interviewers (or viewers) influenced the behavior
of Hans and this also happens with human interaction.

Reaktivität, Pygmalion-Effekt durch die interviewende Person:


- Studie von Rosenthal und Jacobson (1968): in einer Grundschule wurden von R&J
„neue“ Leistungstests unter den Schüler:innen durchgeführt und dem Lehrpersonal
bekanntgegeben, welche Schüler sich besonders gut entwickeln würden.
- In Wirklichkeit waren diese Schüler:innen jedoch zufällig ausgewählt worden.
- Diese Schüler waren dann im Folgejahr tatsächlich besser, weil das Lehrpersonal
besondere Erwartungen an diese Schüler:innen hatten  selbst-erfüllende
Prophezeiung
Reactivity, Pygmalion effect by the interviewer:
- Study by Rosenthal and Jacobson (1968): in a primary school, R&J carried out "new"
performance tests among the students and informed the teaching staff which students
would develop particularly well.
- In reality, however, these students had been chosen at random.
- These students were actually better the following year because the teaching staff had
special expectations of these students  self-fulfilling prophecy.

• Wie sich Interviewer verhalten sollen, um Reaktivität zu minimieren:


• Nach Erp Ring: hohe Kontaktfähigkeit, sympathisches Auftreten, Offenheit ohne
Anbiederung, Unterlassen jeglicher sichtbarer Reaktion auf Äußerungen der Befragten,
Fähigkeit zum Zuhören, penibel jede Anweisung des FB befolgen, moralische
Standfestigkeit (weder beabsichtigtes noch unbeabsichtigtes Verfälschen der Antworten).
• How interviewers should behave to minimize reactivity:
• According to Erp Ring: high sociability, sympathetic demeanor, openness without
pandering, refraining from any visible reaction to statements made by respondents, ability
to listen, meticulously following every instruction of the FB, moral steadfastness (neither
intentional nor unintentional falsification of the answers).

Reaktivität, Einflüsse durch befragte Person:


• Befragte verfolgen in einer Befragung eine duale Nutzenfunktion: die Artikulation der
eigenen Einstellungen und die Maximierung sozialer Anerkennung
• Zur Maximierung dieser kombinierten Nutzenfunktion mit zwei Termen stehen folgende
Alternativen zur Auswahl, von denen die befragte Person eine wählen muss:
- Wahre Antwort
- Ausweichende Antwort
- Bewusst falsche Antwort
- Weiß-nicht Antwort
- Antwortverweigerung
- Ausführungen durch Ergänzungen / Abschwächung
- Verständnis- bzw. Klärungsrückfragen
Reactivity, influences by interviewee:
• Respondents pursue a dual utility function in a survey: articulating their own attitudes and
maximizing social recognition
• To maximize this two-term combined utility function, the following alternatives are avail-
able, from which the respondent must choose one:
- True answer
- Evasive answer
- Deliberately wrong answer
- Don't know answer
- Refusal to answer
- Executions through additions / weakening
- Questions of understanding or clarification

• Reaktivität (Annahme: Befragte P glaubt zu wissen, was Int. „hören will“)


• Reactivity (Assumption: Respondent P believes to know what Int. “wants to hear”)

• Welche der zur Verfügung stehenden Antwortstrategien schließlich prozessiert wird ist
das Ergebnis einer Kosten-Nutzen Bewertung und stark abhängig von Merkmalen der
spezifischen Befragungssituation.
• Which of the available response strategies is ultimately processed is the result of a cost-
benefit assessment and is heavily dependent on characteristics of the specific survey
situation.
• Das Phänomen der sozialen Erwünschtheit:
• „… die Neigung von Befragten, ihre Antworten danach auszurichten, was innerhalb des
normativen Referenzsystems ihrer Bezugswelt als sozial anerkannt und erwünscht gilt …“
(Möhring und Schlütz 2010: 61).
• Erklärungsansätze (nach Paulhus 1983, 1993):
- Streben nach sozialer Anerkennung als Persönlichkeitsmerkmal (individueller bias,
self-deception)
- Für bestimmte Fragen existieren sozial erwünschte Antworten (systematischer,
überindividueller bias, impression management)
• SE ist vor allem ein Problem bei Fragen zur Bewertung „sozialer Tatsachen“ weniger bei
Fragen zu eigenem Handeln.
• Problem ist in mündl. Befragungen virulenter als bei selbst-administrierten PAPI
• SE kann (wenn überhaupt) nur durch völlige Anonymität der Befragten verhindert
werden.
• Apell an Mitläufer-Effekte („Viele Leute sehen ab und zu Pornos im Internet. Wie oft
haben Sie…“)
• Verzicht auf „stigmatisierte Begriffe“ – anstatt: „Ladendiebstahl“ „etwas mitgehen lassen“
• Messung der Stärke mithilfe der Marlowe-Crowne Skale: erfragt werden
Verhaltensweisen, die a) sozial erwünscht sind, aber recht selten auftreten („Eigene Fehler
gebe ich immer zu und akzeptiere die Konsequenzen“) und b) Verhaltensweisen, die
sozial unerwünscht sind, aber häufig auftreten („Manchmal werfe ich Müll einfach auf die
Straße“)
• Je nach Version besteht die Skala aus 17 bis 33 Items und zeigt an, zu welchem Grad
eine Person sozial erwünscht antwortet.
• The phenomenon of social desirability:
• "... the tendency of respondents to align their answers with what is considered socially
recognized and desirable within the normative reference system of their reference world..."
(Möhring and Schlütz 2010: 61).
• Explanatory approaches (according to Paulhus 1983, 1993):
- Striving for social recognition as a personality trait (individual bias, self-deception)
- There are socially desirable answers for certain questions (systematic, supra-
individual bias, impression management)
• SE is primarily a problem with questions about the evaluation of "social facts" less so with
questions about one's own actions.
• Problem is in verbal. Surveys more virulent than with self-administered PAPI
• SE can (if at all) only be prevented by complete anonymity of the respondents.
• Appeal to follower effects ("Many people watch porn on the Internet from time to time.
How often have you...")
• Abandonment of "stigmatized terms" - instead of: "shoplifting" "take something"
• Measurement of strength using the Marlowe-Crowne scale: behaviors are asked that a)
are socially desirable but occur very rarely (“I always admit my mistakes and accept the
consequences”) and b) behaviors that are socially undesirable, but common ("Sometimes I
just throw garbage on the street")
• Depending on the version, the scale consists of 17 to 33 items and shows the degree to
which a person responds in a socially desirable manner.

• Beispiel Marlowe / Crowne Skala

Der Fragebogen
Die Tailored bzw. Total Design Method von Don A. Dillman und Team
• Theorie der Befragung (Austauschtheorie) und draus abgeleitet:
• Formulierung von Fragen und Antwortskalen
• Dramaturgie und Layout des FB
• Planung und Ablauf einer Befragung
• Kann (prinzipiell) auf alle Varianten der standardisierten Befragung angewendet werden
• Grundgedanke: alle sozialen Interaktionen können als Tauschbeziehung verstanden und
analysiert werden:
• Da wir nicht alles, was wir zum Leben brauchen/ wollen selbst produzieren (können),
sind wir auf andere angewiesen
• Damit wir an begehrte Ressourcen gelangen, deren Verfügungsrechte andere Menschen
/ Institutionen ausüben, müssen wir unsererseits über Ressourcen verfügen, die von
anderen benötigt werden  Reziprozität
• Die drei Elemente einer Tauschbeziehung (bilateraler Transfer von Kontrollrechten) sind:
- Erwarteter Nutzen aus der Tauschbeziehung
- Erwartete Kosten
- Vertrauen zwischen den Tauschpartnern (reduziert die Transaktionskosten)
• Bei einer Befragung sollen die Probanden den Forscher*innen Informationen liefern, und
im Gegenzug müssen die Forscher*innen…
- Den Nutzen der Befragten maximieren
- Deren Kosten minimieren
- Vertrauen implementieren
the questionnaire
The Tailored or Total Design Method by Don A. Dillman and team
• The theory of questioning (exchange theory) and derived from it:
• Formulation of questions and answer scales
• Dramaturgy and layout of the FB
• Planning and process of a survey
• Can (in principle) be applied to all variants of the standardized survey
• Basic idea: all social interactions can be understood and analyzed as an exchange
relationship:
• Since we do not (cannot) produce everything we need/want to live ourselves, we are
dependent on others
• In order for us to access coveted resources whose rights of disposal are exercised by
other people/institutions, we in turn must have resources at our disposal that are needed
by others  reciprocity
• The three elements of an exchange relationship (bilateral transfer of control rights) are:
- Expected benefit from the exchange relationship
- Expected costs
- Trust between the exchange partners (reduces the transaction costs)
• In a survey, the subjects should provide the researchers with information, and in return
the researchers must…
- Maximize respondents' utility
- Minimize their costs
- Implement trust

SITZUNG 8
Der Fragebogen
• Die Tailored bzw. Total Design Method von Don A. Dillman
– Bei einer Befragung sollen die Probanden den ForscherInnen Informationen liefern, und
im Gegenzug müssen die ForscherInnen…
• Den Nutzen der Befragten maximieren
• Deren Kosten minimieren
• Vertrauen implementieren
– ALLE Elemente einer Befragung sind somit darauf ausgerichtet, den Befragten die
Entscheidung so einfach wie möglich zu machen a) an der Studie teilzunehmen und b)
wahre Antworten zu geben
• Don A. Dillman's Tailored or Total Design Method
– In a survey, the subjects should provide the researchers with information, and in return
the researchers must…
• Maximize respondents' utility
• Minimize their costs
• Implement trust
– ALL elements of a survey are thus designed to make it as easy as possible for the re-
spondents to decide a) to take part in the study and b) to give true answers

• Das Verfassen von Fragen: „The goal of writing a survey question […] is to develop a
query that every potential respondent will interpret in the same way, be able to respond to
accurately, and be willing to answer“
• Allgemeine Kriterien für gute Fragen
– Welche Art der Befragung soll angewendet werden? In mündlichen Befragungen
müssen sich die Befragten die Fragen merken (stellt höhere Anforderungen an kognitive
Fähigkeiten); in schriftlichen Befragungen ist die visuelle Gestaltung wichtiger.
– Können alle TeilnehmerInnen die Frage beantworten? (bes. wichtig bei Fragen zu
semantischem bzw. episodischen Wissen)
– Können sich die Befragten an vergangenes Verhalten erinnern? (Einsatz von kognitiven
Techniken zur Unterstützung des Erinnerns)
– Wollen die Teilnehmer:innen die Frage überhaupt beantworten (insb. Fragen nach
sensiblen Themen sollten mit speziellen Techniken wie der  Randomized Response
Technik abgefragt werden)?
– Jede Frage muss interessant sein (erhöht Nutzen), einfach zu beantworten (reduziert
Kosten) und seriös erscheinen (schafft Vertrauen)
• Writing questions: "The goal of writing a survey question [...] is to develop a query that
every potential respondent will interpret in the same way, be able to respond to accurately,
and be willing to answer"
• General criteria for good questions
– Which type of survey should be used? In oral surveys, respondents have to memorize
the questions (requires more cognitive skills); in written surveys, the visual design is more
important.
– Can all participants answer the question? (especially important for questions about se-
mantic or episodic knowledge)
– Can respondents remember past behavior? (Use of cognitive techniques to support
memory)
– Do the participants want to answer the question at all (especially questions about sensi-
tive topics should be asked with special techniques such as the  randomized response
technique)?
– Each question must be interesting (increases benefit), easy to answer (reduces costs)
and appear serious (creates trust)

• Typen von Fragen: es gibt nur drei Typen von Fragen, die in der (quantitativen)
sozialwiss. Forschung Verwendung finden:
1) offene Fragen  es werden keine Antwortmöglichkeiten vorgegeben, die Befragten
sollen die Antwort selbst formulieren
• Bsp: „Wie alt sind Sie? Ich bin _____ Jahre alt.“  Eignet sich nur für die Abfrage
episodischen Wissens, welches in einem Wort bzw. einer Zahl wiedergegeben
werden kann.
2) Geschlossene Fragen mit ungeordneten Antwortkategorien (nominales bzw.
ordinales Skalenniveau)
• Types of questions: there are only three types of questions in (quantitative) social sci-
ence. research use:
1) open questions  no answer options are given, the respondents should formulate
the answer themselves
Eg: “How old are you? I am _____ years old.”  Is only suitable for the query of
episodic knowledge, which can be expressed in a word or a number.
2) Closed questions with unordered answer categories (nominal or ordinal scale level)

 Kategorien müssen unabhängig voneinander sein; verursachen oft


Schwierigkeiten, weil Kategorien miteinander verglichen werden müssen
 Categories must be independent of each other; often cause difficulties because
categories have to be compared with each other

1) Geschlossene Fragen mit geordneten Antwortkategorien (metrisches Skalenniveau)


3) Closed questions with ordered answer categories (metric scale level)

 Eignet sich sehr gut zur Abfrage von persönlichen Einstellungen; die
abzufragenden Konzepte müssen eindeutig definiert und einfach zu
beantworten sein; Einstellungen ≠ Wissen
 Very suitable for querying personal settings; the concepts to be queried must be
clearly defined and easy to answer; Attitudes ≠ Knowledge

• 11 Prinzipien für ein gutes Wording (vergleiche Dillman et al. 2009; 2014):
1) Die Fragen müssen für jede einzelne befragte Person funktionieren/zu
beantworten/relevant sein
– Beispiel: „Wenn sie auf einer Party viel Alkohol getrunken haben, fahren Sie dann
trotzdem noch mit Ihrem Auto nach Hause?“
2) Formuliere die Frage so einfach wie möglich
– Beim Wording ist auf die sozialstrukturelle Zusammensetzung der survey
population Rücksicht zu nehmen
– Fremdwörter und Spezialausdrücke sollten vermieden werden (außer, es handelt
sich um Experteninterviews)
– Befragten sollten nicht die Frage interpretieren müssen
– Alle sollten nach dem Lesen der Frage „dasselbe Bild im Kopf haben“
3) Der Fragetext sollte so kurz wie möglich sein („Zeit ist Geld“)
-Nur die absolut wichtigsten Informationen sollten im Fragetext transportiert werden
-Zusatzinformationen besser auf einem gesonderten Blatt / „pop up Menü“
aufführen, welches die Befragten bei Bedarf heranziehen
4) Verwende immer ganze Sätze
-Falsch: „Seit wie vielen Jahren leben Sie in Thüringen?“ ______ „Stadt?“ ______
-Richtig: „Seit wie vielen Jahren leben Sie in Thüringen?“ __ „Und in welcher Stadt
leben Sie zur Zeit?“ ___
5) Verwende kognitive Erinnerungstechniken, wenn die Fragen sich auf Ereignisse in
der Vergangenheit beziehen
-Nicht gut: „Haben Sie als Jugendliche(r) mal einen Ladendiebstahl begangen?“
-Ziemlich gut: „Welche Musik haben Sie in Ihrer Jugend gerne gehört?“; „Erinnern
Sie sich daran, wie viel Taschengeld Sie bekommen haben?“; „Konnten Sie sich
damals all das kaufen, was Sie haben wollten?“; „Haben Sie damals mal etwas aus
einem Geschäft mitgehen lassen, ohne dafür zu zahlen?“
6) Definiere in den Fragen einen exakten Zeitrahmen
-„Wie viele Stunden sehen Sie fern oder streamen Sie Filme, Dokumentationen und
/ oder Serien im Internet?“ – Geht gar nicht
-„Wie viele Stunden haben Sie gestern fern gesehen oder Filme, Dokumentationen
und / oder Serien im Internet gestreamt?“ – Besser, aber Antwort hängt vom
Wochentag ab
-„Wie viele Stunden sehen Sie an einem durchschnittlichen Wochentag fern oder
streamen Sie Filme, Dokumentationen und / oder Serien im Internet?“ und „Wie
viele Stunden sehen Sie an einem normalen Wochenende fern oder streamen Sie
Filme und / oder Serien im Internet?“ – beste Lösung (auch wenn es die längste
Frage ist)
7) Die Fragen müssen technisch akkurat und inhaltlich korrekt sein
-„Sollte sich die Polizei Ihrer Meinung nach mehr darauf konzentrieren, Ladendiebe
zu erwischen und zu bestrafen?“
8) Vermeide, dass die Befragten Nein sagen sollen, wenn Sie eigentlich Ja meinen
-Problem: „Sind Sie dafür, dass keine neuen Atomkraftwerke mehr gebaut werden?“
- „Ja“ bedeutet, dass ich keine neuen AKW will und „Nein“ bedeutet, dass ich
neue AKW will
9) Fasse niemals zwei Fragen zu einer zusammen
-Beispiel: „Finden Sie, dass die Straßen in Erfurt allgemein in einem schlechten
Zustand sind und sind sie dafür, die Straßen neu zu asphaltieren? Bitte antworten
Sie mit Ja oder Nein“
-Lösung, Frage 1: „Finden Sie dass die Straßen in Erfurt allgemein in einem
schlechten Zustand sind? Bitte antworten Sie mit Ja oder Nein“. Frage 2: Sollten die
Straßen in Erfurt neu asphaltiert werden? Bitte antworten Sie mit Ja oder Nein“
10)Vermeide es, die Befragten rechnen zu lassen
-Problem: „Wie viel Prozent Ihrer Opernbesuche verbinden Sie damit, in die Bar des
Opernhauses zu gehen?“
-Lösung, Frage 1: „Wie oft waren Sie im letzten Jahr hier in der Oper?“ Frage 2:
„Wie oft waren Sie im letzten Jahr in Verbindung mit dem Opernbesuch auch in der
Bar des Opernhauses?“
11) Der Fragetext soll die Antwortkategorien bereits aufnehmen / andeuten:
11 principles for good wording (compare Dillman et al. 2009; 2014):
1) The questions must work/answer/be relevant to each individual interviewee
- Example: "If you drank a lot of alcohol at a party, do you still drive your car home?"
2) Formulate the question as simply as possible
– The socio-structural composition of the survey population must be taken into account
in the wording
– Foreign words and special expressions should be avoided (unless it is an expert in-
terview)
– Respondents should not have to interpret the question
– Everyone should “have the same picture in mind” after reading the question
3) The question text should be as short as possible ("time is money")
-Only the absolutely most important information should be conveyed in the question
text
-It is better to list additional information on a separate sheet / "pop up menu", which the
respondents can use if necessary
4) Always use full sentences
- Wrong: "How many years have you lived in Thuringia?" ______ "City?" ______
- Correct: "How many years have you been living in Thuringia?" __ "And in which city
do you currently live?" ___
5) Use cognitive recall techniques when the questions relate to past events
-Not good: "Did you ever shoplift as a teenager?"
-Pretty good: "What kind of music did you like to listen to when you were young?"; "Do
you remember how much pocket money you got?"; "Could you buy everything you
wanted back then?"; "Did you ever swipe something from a store without paying for it?"
6) Define an exact time frame in the questions
- "How many hours do you watch TV or stream films, documentaries and / or series on
the Internet?" - Not possible
-"How many hours did you watch TV or stream movies, documentaries and/or series on
the internet yesterday?" - Better, but answer depends on the day of the week
-"On an average weekday, how many hours do you watch television or stream films,
documentaries and/or series on the Internet?" and "On a typical weekend, how many
hours do you watch television or stream films and/or series on the Internet?" – best so-
lution (even if it is the longest question)
7) The questions must be technically accurate and correct in content
-"Do you think the police should focus more on catching and punishing shoplifters?"
8) Avoid asking respondents to say no when they actually mean yes
-Problem: "Are you in favor of no more new nuclear power plants being built?"
- "Yes" means that I don't want any new nuclear power plants and "No" means that I
want new nuclear power plants
9) Never combine two questions into one
-Example: “Do you think that the roads in Erfurt are generally in a bad condition and
are you in favor of repaving the roads? Please answer yes or no”
-Solution, question 1: "Do you think that the roads in Erfurt are generally in a bad con-
dition? Please answer yes or no”. Question 2: Should the streets in Erfurt be repaved?
Please answer yes or no”
10) Avoid making respondents do the math
-Problem: "What percentage of your visits to the opera do you associate with going to
the bar in the opera house?"
-Solution, question 1: "How often did you go to the opera last year?" Question 2: "How
often did you go to the bar in the opera house last year in connection with your visit to
the opera?"
11) The question text should already include / indicate the answer categories:
-Problem:

-Lösung:

• Komplizierte, inkorrekte oder mehrdeutige Fragen führen bei den Befragten schnell zur
Ermüdung und / oder Frustration. Beides resultiert in:
– Tendenz, immer zustimmend zu antworten
– Tendenz zu den extremen Antwortkategorien
– Primacy (PAPI, CAWI) bzw. recency effects (CATI, CAPI)
– Satisficing behavior
– Verweigerung der Antwort (item-nonresponse)
• Complicated, incorrect, or ambiguous questions quickly lead to respondent fatigue and/or
frustration. Both result in:
– Tendency to always answer in the affirmative
– Tendency towards the extreme answer categories
– Primacy (PAPI, CAWI) or recency effects (CATI, CAPI)
– Satisfying behavior
– Refusal to answer (item-nonresponse)

Antwortskalierungen:
• In den meisten (quantitativen) Befragungen überwiegen geschlossene Fragen mit
dargebotenen Antwortkategorien und die Befragten wählen, diejenige Antwortkategorie
aus, die ihrem „wahren Wert“ am nächsten kommt.
•  die Darbietung von Antwortkategorien / Antwortmöglichkeiten ist bedeutsam, um die
 Vergleichbarkeit der Antworten zu gewährlisten.
• Ausnahme Hybridfragen (Geschlossene Fragen mit ungeordneten Antwortkategorien und
offenem Teil):
Response Scales:
• In most (quantitative) surveys, closed-ended questions with presented answer categories
predominate and respondents select the answer category that comes closest to their "true
value".
•  the presentation of answer categories / answer options is important to ensure the 
comparability of the answers.
• Exception hybrid questions (closed questions with unordered answer categories and
open part):

• Bei geschlossenen Fragen mit ungeordneten Antwortkategorien taucht oft das Problem
der Mehrfachantworten auf:
• In the case of closed questions with unordered answer categories, the problem of
multiple answers often arises:

Problem: einige Befragte tendieren dazu immer alle Möglichkeiten anzukreuzen


Problem: some respondents tend to always tick all options

 Problem: die Kategorien müssen untereinander verglichen werden, viele Korrekturen


wahrscheinlich
• Alternative: jede Kategorie wird einzeln abgefragt (und somit auch als einzelne Variable
codiert)
 Problem: the categories have to be compared with each other, many corrections likely
• Alternative: each category is queried individually (and thus also coded as a single
variable)
 Damit aber auch keine Rangfolge mehr möglich!
• Geschlossene Fragen mit geordneten Antwortkategorien bezeichnet man auch als
Skalen.
• Die am meisten benutzte Konzeption ist die LikertSkala
• Besonders für geschlossene Fragen mit geordneten Antwortkategorien gilt: jede
mögliche Antwort muss in den Antwortvorgaben (Skalen) erhalten sein, da sich die
Befragten sonst missverstanden oder marginalisiert fühlen
• Beispiel:
 This means that ranking is no longer possible!
• Closed questions with ordered answer categories are also referred to as scales.
• The most widely used concept is the Likert scale
• The following applies in particular to closed questions with ordered answer categories:
every possible answer must be included in the answer options (scales), otherwise the
respondents will feel misunderstood or marginalized
• Example:

- Die Skala hat zwei Pole, die eine Skalendimension umschließen


- Der linke Pol soll den Fragetext aufgreifen (hier: Zustimmung)
- Die einzelnen Antwortbenennungen sollen eine metrische Skala verbalisieren
• In welcher Reihenfolge sollen die Antwortmöglichkeiten dargestellt werden?
– Aufsteigend von „unzufrieden“ bis „zufrieden“; „Wenig Zustimmung“ zu „viel
Zustimmung“?
– Absteigend von „zufrieden“ bis „unzufrieden“; „viel Zustimmung“ bis „wenig
Zustimmung“?
 Fast eine Glaubensfrage!
• Die Skala sollte „symmetrisch“ angeordnet sein, d.h. die Zahl positiver und negativer
Bewertungen soll identisch sein
- The scale has two poles enclosing a scale dimension
- The left pole should take up the question text (here: agreement)
- The individual answer names should verbalize a metric scale
• In what order should the possible answers be presented?
– Ascending from “dissatisfied” to “satisfied”; "Little agreement" to "much agreement"?
– Descending from “satisfied” to “dissatisfied”; "strong agreement" to "little agreement"?
 Almost a question of faith!
• The scale should be arranged "symmetrically", i.e. the number of positive and negative
ratings should be identical
Falsch:

• Solle eine gerade oder ungerade Zahl von Antwortmöglichkeiten angeboten werden?
• Eine ungerade Skala hat per Konstruktion eine Mittelkategorie, die oft als
Indifferenzpunkt interpretiert wird • Keine „one fits all“ Lösung, abhängig von der
Forschungsfrage
• Beide Lösungen haben Vor- und Nachteile
• Gerade Anzahl:
• Should an even or odd number of possible answers be offered?
• By construction, an odd scale has a middle category, which is often interpreted as an
indifference point. • No “one fits all” solution, depending on the research question
• Both solutions have advantages and disadvantages
• Even number:

 Zwingt die Befragten, einen Standpunkt anzunehmen


 Kann die Artikulation von Einstellungen erleichtern
• Ungerade Anzahl:
 Forces respondents to adopt a point of view
 Can facilitate the articulation of attitudes
• Odd number:

Oft verlangen die Befragten nach einer Mittelkategorie, aber:


Oft wird die Mittelkategorie Fluchtpunkt und verhindert Nachdenken
Respondents often ask for a middle category, but:
Often the middle category becomes the vanishing point and prevents thinking

Die „Weiß-nicht“ Kategorie:


• Unerlässlich bei Fragen nach semantischem Wissen (keine Likert-Skala!):
The "don't know" category:
• Essential for questions about semantic knowledge (no Likert scale!):
• Wirklich sinnvoll bei Einstellungsfragen?
• Really useful for recruitment issues?

• Und wo soll man sie platzieren?


• And where to place them?

• Die Skala darf keine Antwortkategorien enthalten, die ungleich Wertungen nahelegen
(keine Likert-Skala):
• The scale must not contain any response categories that suggest unequal ratings (no
Likert scale):

• Muss jede Antwortkategorie benannt („Label“) werden??


• Does each response category have to be named ("label")?

 Schwierige Entscheidung!
Möglicherweise interpretieren verschiedene Befragte den Wert „2“ unterschiedlich
 Difficult decision!
 Possibly different respondents interpret the value “2” differently
• Besondere Skalen: semantisches Differenzial wird eingesetzt, um die Einstellung zum
eigenen Selbst, zu anderen Personen oder Dingen auszudrücken und verbindet so
Konnotationen, affektive Bewertungen und „Rating-Skalen“ (i.d.R. 7erSkalen) • „Wie
beurteilen Sie die folgenden Aspekte in Ihrem Leben?“
• Special scales: semantic differential is used to express attitudes towards oneself, other
people or things and thus combines connotations, affective assessments and "rating
scales" (usually 7-point scales) • "How do you rate the following aspects of your life?”

SITZUNG 9
Aufbau des Fragebogens
• Die erste Frage ist entscheidend!
• Eine „falsche“ erste Frage kann dazu führen, dass die Befragung abgebrochen wird
• Anforderungen an die Einstiegsfrage:
– Sollte für Befragte interessant sein
– Sollte mit dem Thema zu tun haben
– Sollte jeden Befragten betreffen
– Sollte einfach und schnell zu beantworten sein
• The first question is crucial!
• A "wrong" first question can lead to the survey being terminated
• Requirements for the opening question:
– Should be of interest to respondents
– Should be related to the topic
– Should concern every respondent
– Should be easy and quick to answer

• Beispiel aus einem FB zu Kriminalität:


• „Viele Menschen denken, dass Kriminalität eines der wichtigsten Themen unserer Zeit
ist. Wir möchten etwas über Ihre Erfahrungen und Meinungen erfahren – sind Sie im
letzten Jahr Opfer von Kriminalität geworden?“
• Example from a FB on crime:
• “Many people think that crime is one of the most important issues of our time. We want to
hear about your experiences and opinions – have you been a victim of crime in the last
year?”

• Die einzelnen Fragen sollen in thematischen Blöcken angeordnet sein und diese auch
graphisch voneinander zu unterscheiden sein
• Zwischen Themen sollte keinesfalls hin und her gesprungen werden
• Reihenfolgeeffekte:
- Norm of evenhandedness: Befragte wollen in ihren Antworten konsistent sein
- Carryover effect: Menschen, die in eine positive Stimmung versetzt werden zeigen
oft eine Zustimmungstendenz
• Heikle Fragen und Standarddemographie gehören immer ans Ende des Fragebogens
• Je mehr Fragen bereits beantwortet wurden, desto geringer ist die
Abbruchwahrscheinlichkeit (versunkene Kosten)
• Prinzipiell muss jede Korrespondenz personalisiert sein (Anschreiben, Infoschreiben)
• Das Layout sollte so schlicht wie möglich und übersichtlich sein
• The individual questions should be arranged in thematic blocks and these should also be
distinguishable from one another graphically
• Under no circumstances should you jump back and forth between topics
• Order Effects:
- Norm of evenhandedness: Respondents want to be consistent in their answers
- Carryover effect: People who are put in a positive mood often show a tendency to
agree
• Delicate questions and standard demographics always belong at the end of the
questionnaire
• The more questions have already been answered, the lower the probability of
abandonment (sunk costs)
• In principle, all correspondence must be personalized (cover letter, information letter)
• The layout should be as simple and clear as possible

Online-Fragebogen
• Prinzipiell gelten all diese Tipps für PAPI und Online-FB gleichermaßen.
• Aber Online-FB haben zusätzliche Möglichkeiten, aber auch Probleme.
• Vorteile Online-FB:
- Antworten müssen nicht von Hand eingegeben oder eingelesen werden (wie bei
PAPI),
- Audio- und Videodateien können integriert werden  mehr Informationen,
Gamification,
- Filterführung geschieht für Befragte „unsichtbar“ im Hintergrund Deswegen:
Eingabe für Befragte oft bequemer, einfacher
• In principle, all of these tips apply equally to PAPI and online FB.
• But online FB have additional opportunities, but also problems.
• Advantages of online FB:
- Responses do not have to be entered or read in by hand (as with PAPI),
- Audio and video files can be integrated  more information, gamification,
- Filtering is "invisible" for respondents in the background Therefore: input is often
more convenient and easier for respondents

• Generelle Regeln:
- Pro „Screen“ wenn möglich nur eine Frage / Skala.
- Befragte sollten nicht scrollen müssen.
- Aufgeräumtes / einfaches Design (weniger ist mehr).
- Weiter / Zurück-Button immer oben und unten auf dem Screen abbilden.
- Darauf achten, dass jede Antwort sofort auf dem Server gespeichert wird.
• General rules:
- If possible, only one question/scale per screen.
- Respondents should not have to scroll.
- Clean / simple design (less is more).
- Always map the Next / Previous button to the top and bottom of the screen.
- Make sure that every answer is immediately saved on the server.

• Potentielle Probleme Online-FB:


- Befragte benutzen unterschiedliche Endgeräte
- der FB muss auf allen Geräten gleichermaßen funktionieren.
• Darstellung
• Ladezeiten
• Audio- / Videowiedergabe
- Bots und Speeder
• Potential problems online FB:
- Respondents use different devices
- the FB must work equally on all devices.
o Depiction
o Loading time
o Audio / video playback
- Bots and speeders

Beispiel Darstellung. Laptop:


Example representation. Laptop:

Beispiel Darstellung. Dieselbe Frage auf dem Smartphone


Example representation. The same question on the smartphone

• Beispiel Darstellung: können wir sicher sein, dass die Art der unterschiedlichen
Darstellung der Antwortskala (quer versus hochkant) keinen Effekt auf die Beantwortung
der Frage hat (sogenannte „Mode-Effekte“)?
• Beispiel Ladezeiten:
- Hängen u.a. ab von Alter Prozessor, Betriebssystem, Internetverbindung
- Lange Ladezeiten können zu Frustration führen und so das Antwortverhalten
beeinflussen.
• Example of presentation: can we be sure that the different ways in which the answer
scale is presented (landscape versus portrait) has no effect on the answer to the question
(so-called “fashion effects”)?
• Example loading times:
- Depends on the age of the processor, operating system and internet connection,
among other things
- Long loading times can lead to frustration and thus affect responsiveness.

• Beispiel Audio- / Videowiedergabe:


- Laufen die Dateien auf allen Betriebssystemen und Endgeräten in derselben
Qualität?
- Ist sichergestellt, dass alle befragten Personen die Lautstärke des Gerätes
angestellt bzw. Kopfhörer angeschlossen haben?
• Example audio / video playback:
- Do the files run in the same quality on all operating systems and end devices?
- Is it ensured that all persons interviewed have turned up the volume of the device or
connected headphones?

• Beispiel Bots und Speeder:


- Insbesondere ein Problem bei kommerziellen OAP.
- Befragte Personen wollen lediglich die Aufwandsentschädigung erhalten und
verwenden deswegen:
- Bots, also Programme, die Antwortskalen erkennen und zufällig (oder nach einem
willkürlichen Muster) Antworten „klicken“, oder
- Strategie des Speedings: Befragte klicken selbst ohne zu lesen einfach willkürlich
Antworten an.
• Gegenstrategien:
1) Messung der Zeit, die auf der entsprechenden Seite vor dem „weiterklicken“
verbracht wird – beträgt diese Zeitspanne nur wenige Sekunden, dann wird die
Befragung ohne Zahlung des Anreizes abgebrochen.
2) Attention-Checks, die Bots oder Speeder nicht erkennen und bei deren Versagen
die Befragung ohne Zahlung des Anreizes abgebrochen wird (siehe nächste Folie).
• Example bots and speeders:
- Especially a problem with commercial OAP.
- Respondents only want to receive the expense allowance and therefore use:
- Bots, i.e. programs that recognize answer scales and randomly (or according to a
random pattern) "click" answers, or
- Speeding strategy: Respondents simply click on answers at random, even without
reading.
• Counter-strategies:
1) Measurement of the time spent on the relevant page before the "click further" - if
this period of time is only a few seconds, then the survey is terminated without
paying the incentive.
2) Attention checks that do not recognize bots or speeders and failing which the
survey is aborted without paying the incentive (see next slide).

Pretesting
• Bevor das Messinstrument in einer großen Zufallsstichprobe eingesetzt wird muss es
getestet werden
• Zwei-Phasen-Pretesting (Prüfer/Rexroth 2000):
1) Kognitives pretesting / think aloud
2) Standard Pretest (an einem kleinen Zufallssample)
• Before the measuring instrument is used in a large random sample, it must be tested
• Two-phase pretesting (prüfer/Rexroth 2000):
1) Cognitive pretesting / think aloud
2) Standard pretest (on a small random sample)

• Kognitives pretesting / think aloud:


• Wird in der Regel mit Kollegen, Studierenden, Freunden durchgeführt (Zufallssample
nicht erforderlich)
- Paraphrasing: die Probanden wiederholen die Frage in ihren eigenen Worten
- Confidence rating: finden sich alle Probanden in den vorgegebenen
Antwortkategorien wieder? Passen die Antworten zur Frage?
- Schließlich sollen die Probanden aussprechen, was ihnen beim Lesen und
Beantworten der Frage durch den Kopf geht
• Cognitive pretesting / think aloud:
• Is usually carried out with colleagues, students, friends (random sample not required)
- Paraphrasing: the subjects repeat the question in their own words
- Confidence rating: do all subjects find themselves in the given answer categories?
Do the answers match the question?
- Finally, the subjects should state what is going through their mind when reading and
answering the question

• Standard-Pretest:
- Das Instrument wird an einer relativ kleine Gruppe (n=100) zufällig ausgewählter
Personen aus der Zielpopulation getestet
- Die Probanden wissen nicht, dass es sich um einen Pretest handelt
(Feldbedingungen)
- Für jede Variable werden deskriptive Statistiken erstellt (Häufigkeitstabellen,
Verteilungsdiagramme)
- Fallen in den deskriptiven Statistiken Fragen auf, die:
– Auffällig oft nicht beantwortet wurden?
– Bei denen nur extreme Antwortkategorien gewählt wurden?
– Die Verteilungen extrem von der Normalverteilung abweichen (und dies nicht
erwartet worden ist)?
– Oft von den Befragten korrigiert wurden?
• Standard pretest:
- The instrument will be tested on a relatively small group (n=100) of randomly
selected individuals from the target population
- The subjects do not know that it is a pretest (field conditions)
- Descriptive statistics are created for each variable (frequency tables, distribution
diagrams)
- Do questions stand out in the descriptive statistics that:
– Were not answered conspicuously often?
– Where only extreme answer categories were chosen?
– The distributions deviate extremely from the normal distribution (and this was not
expected)?
– Frequently corrected by respondents?

SITZUNG 10
Ablauf einer (quantitativen) empirischen Studie
• Fragestellung
Theorie (MetaT., T. mittlerer Reichweite)
Hypothesen
Variablen
Operationalisierung der Variablen in
Indikatoren (Frage der Reliabilität und Validität)
Entwicklung eines Erhebungsinstruments, wie ein FB
Stichprobenziehung (Klumpen- / Personenstichprobe)
Pretest des Instruments
Feldarbeit
Datenaufbereitung (Umcodierungen, Indexbildungen usw.)
Datenauswertung (deskriptive Statistik, Inferenzstatistik)
Aufbereitung und Interpretation der Ergebnisse
Verfassen eines Berichts und Aussage, welche Hypothesen falsifiziert werden müssen.
Course of a (quantitative) empirical study
• question
Theory (MetaT., T. middle range)
Hypotheses
Variables
Operationalization of the variables in
Indicators (question of reliability and validity)
Development of a survey instrument, such as a FB
Sampling (cluster/person sample)
Pretest of the instrument
Field work
Data processing (recoding, indexing, etc.)
Data analysis (descriptive statistics, inferential statistics)
Preparation and interpretation of the results
Write a report and state which hypotheses need to be falsified.

Motivation
• ObjemandaneinerStudieteilnimmtodernicht, kann gemäß der TDM als eine rationale
Kosten- Nutzenabwägung beschrieben werden (siehe oben).
• NimmteineindieStichprobegewähltePerson nicht teil, so besteht das Problem der „unit-
non- response“.
• Unit-non-responsehatgenerelleinennegativen Effekt auf die Güte der Schätzungen, da
sie z.B. den Standardfehler erhöht.
• Gründe für non-response (siehe Diekmann 2013; Häder 2015):
• Stichprobenneutrale Ausfälle: die Stichprobenpopulation ist nicht erreichbar oder aus
„neutralen“ (d.h. mehr oder minder zufälligen) Gründen nicht zur Teilnahme in der Lage:
- Adresse nicht mehr aktuell
- Person ist in Urlaub (außerhalb der Schulferien)
- Person ist aus gesundheitlichen Gründen momentan nicht zur Teilnahme in der
Lage
- Person ist verstorben
• Whether or not someone takes part in a study can be described according to the TDM as
a rational cost-benefit trade-off (see above).
• If a person selected for the sample does not take part, the problem of “unit non-response”
arises.
• Unit non-response generally has a negative effect on the quality of the estimates, since it
increases the standard error, for example.
• Reasons for non-response (see Diekmann 2013; Häder 2015):
• Sample-neutral failures: the sample population cannot be reached or is unable to
participate for “neutral” (i.e. more or less random) reasons:
- Address is no longer up-to-date
- Person is on holiday (outside school holidays)
- Person is currently unable to participate due to health reasons
- Person is deceased

• Stichprobenneutrale Ausfälle verringern zwar die Fallzahl, führen aber nicht zwangsläufig
zu verzerrten Ergebnissen, da diese Ausfälle zufällig zustande kommen, d.h. nicht von
bestimmten Merkmalen der Personen abhängen.
• Problematischeristdiebewusste Teilnahmeverweigerung der Personen, da diese (soweit
bekannt) von bestimmten Merkmalen der Befragten abhängen kann.
• Dieskanndazuführen,dasssichdieMittelwerte der Daten zwischen denen Personen, die
teilnehmen und denen, die nicht teilnehmen stark unterscheiden (wobei wir jedoch den
Mittelwert der nicht-teilnehmenden Personen nicht kennen).
• Hinsichtlich der Teilnahmebereitschaft bzw. der unit-non-response können wir drei
Gruppen unterscheiden:
- eifrige Teilnehmer*innen
- entschlossene Verweigerer*inne
- Unentschiedene.
• Sample-neutral failures reduce the number of cases, but do not necessarily lead to
distorted results, since these failures occur randomly, i.e. do not depend on specific
characteristics of the persons.
• The conscious refusal to participate is more problematic, as this (as far as is known) can
depend on certain characteristics of the respondents.
• This can lead to large differences in the mean of the data between those who
participated and those who did not (although we do not know the mean of the non-
participants).
• With regard to the willingness to participate or the unit-non-response, we can distinguish
three groups:
- eager participants
- determined refusers
- Undecided.

• Eifrige Teilnehmer: ca. 5-10 Prozent der Bevölkerung.


• Nehmen unabhängig vom Thema an Befragungen teil.
• In Anlehnung an die Theory of Planned Behaviour, ToPB, (Ajzen 1991) weisen diese
Menschen eine generell positive Einstellung gegenüber (wissenschaftlichen) Befragungen
auf, fühlen sich durch eine soziale Norm dazu verpflichtet und bewerten ihre Fähigkeiten
zur Beantwortung auch schwieriger Fragen vergleichsweise hoch ein.
• Eager participants: about 5-10 percent of the population.
• Participate in surveys regardless of the topic.
• Based on the Theory of Planned Behaviour, ToPB, (Ajzen 1991), these people have a
generally positive attitude towards (scientific) surveys, feel obliged to do so by a social
norm and rate their ability to answer difficult questions comparatively highly
• Entschlossene Verweigerer: ca. 30 Prozent der Bevölkerung.
• Nehmen per se nicht an Befragungen teil.
• Die tatsächlichen Gründe sind nicht bekannt (wir können sie ja nicht fragen), es gibt aber
bestimmte sozialstrukturelle Merkmale:
• Meist Menschen jüngeren und mittleren Alters und / oder Menschen mit geringem
Einkommen bzw. geringer Bildung.
• Beispiel: leichte Unterrepräsentation jüngerer Befragter in einer postalischen Befragung
(Mehlkop 2011: 155):
• Determined holdouts: about 30 percent of the population.
• Do not take part in surveys per se.
• The actual reasons are not known (we cannot ask them), but there are certain socio-
structural features:
• Mostly young and middle-aged and/or people with low income or low education.
• Example: slight under-representation of younger respondents in a postal survey
(Mehlkop 2011: 155):
• Beispiel: Überrepräsentation wohlhabender Befragter in einer postalischen Befragung
(Mehlkop 2011: 156):
• Example: over-representation of wealthy respondents in a postal survey (Mehlkop 2011:
156):

• Beispiel:Gesis(Gummer,Blumenberg,Vigilis2016)

• Die Unentschiedenen: ca. 60-65 Prozent der Bevölkerung (variiert nach Thema der
Studie).
• Wägen Nutzen und Kosten der Teilnahme ab 
• Wir als Forscher:innen können Motivationshilfe leisten durch Erhöhung des Nutzens,
Reduzierung der Kosten und Implementierung von Vertrauen.
• Die TDM sagt uns, wie wir das tun können.
• Implementierung von Vertrauen
• The Undecided: Approximately 60-65 percent of the population (varies by subject of
study).
• Weigh the benefits and costs of participation 
• We as researchers can provide motivational support by increasing benefits, reducing
costs and implementing trust.
• The TDM tells us how to do this.
• Implementation of trust
Fears of respondents Our options

Are the researchers serious? -sponsorship effects


-Serious questions
-Correct questions
Is my data in good hands? - If possible: anonymity!
-Turn on the city. Data Protection Officer
-Destruction of the data after evaluation
-no transfer of data
What happens to the results? -Publication in scientific organs
-Sending of the publication to respondents

• Reduzierung von Kosten


• Reduction of costs

Type of costs Our possibilities


- Keep FB as short as possible
Opportunity Cost (Time)
- allow reasonable time for processing
-Questions as simple as possible -Offer a variety of help
Cognitive costs
(web links, hotline)
- sensitive questions to the end of the FB
Disclosure of sensitive
-Rewrite sensitive terms
information
-No stigmatization ("Many people...")

• Maximierung des (intrinsischen) Nutzens


• Maximization of (intrinsic) benefit
Type of use Our possibilities
Interesting topic - tie topic to current problems/issues
- Avoid "standard questions"
Interesting questions
-Thought-provoking questions
- Highlight respondents as experts on the topic
Importance of Opinion
-"Your opinion counts"
General outcome of the study/ self- - "With the findings from the study, we can
efficacy beliefs improve your situation"

• Experiment in Dresden: 200 zufällig ausgewählte Dresdner:innen erhielten per Post


einen FB mit sehr heiklen Fragen zu ihren kriminellen Handlungen (Mehlkop/Becker 2007,
Methoden Daten Analysen).
- EG I: Diesem FB lag ein 5 Euro Schein mit der Info bei, dass die Befragten das
Geld auf jeden Fall behalten dürfen, auch wenn sie sich weigern teilzunehmen
(prepaid incentive)
- CG: kein prepaid incentive
• Rational Choice Theorie: wegen der Anonymität der Befragung sollten die Mitglieder von
EG I das Geld behalten, jedoch nicht unbedingt auch teilnehmen. EG I ≤ CG
• Austauschtheorie: der unkonditional beigelegte Geldschein ist eine Vorleistung im Sinne
des Vertrauens und erfordert eine reziproke Gegenleistung von Vertrauensnehmer:in
(Befragte). EG I > CG
• Ergebnisse:
• Experiment in Dresden: 200 randomly selected residents of Dresden received a FB by
post with very sensitive questions about their criminal activities (Mehlkop/Becker 2007,
Methods Data Analysis).
- EG I: This FB was accompanied by a 5 euro note with the information that the
respondents may keep the money in any case, even if they refuse to participate (prepaid
incentive)
- CG: no prepaid incentive
• Rational choice theory: because of the anonymity of the survey, the members of EG I
should keep the money but not necessarily participate. EG I ≤ CG
• Exchange theory: the banknote enclosed unconditionally is an advance payment in the
sense of trust and requires a reciprocal consideration from the trustee (respondent). EG I
> CG
• Results:
• Variation des Experiments in Bern: 510 zufällig ausgewählte Berner:innen erhielten per
Post einen FB mit sehr heiklen Fragen zu ihren kriminellen Handlungen (Becker/Mehlkop
2011, Bulletin de Méthodologie Sociologique).
- EG I: Diesem FB lag ein 10 Franken Schein (= 7 Euro) mit der Info bei, dass die
Befragten das Geld auf jeden Fall behalten dürfen, auch wenn sie sich weigern
teilzunehmen
- EG II: erhielt Info, dass sie 10 Franken erhalten, sobald Teilnahme dokumentiert ist
- CG: weder prepaid incentive, noch versprochenes Geld
• Rational Choice Theorie: wegen der Anonymität der Befragung sollten die Mitglieder von
EG I das Geld behalten, jedoch nicht unbedingt auch teilnehmen. Die Mitglieder von EG II
sollten teilnehmen, um das Geld zu erhalten, aber vielleicht nicht unbedingt wahr
antworten. EG I < EG II
• Austauschtheorie: der unkonditional beigelegte Geldschein ist eine Vorleistung im Sinne
des Vertrauens und erfordert eine reziproke Gegenleistung vom Vertrauensnehmer
(Befragter). Das versprochene Geld hingegen ist das Angebot einer rein ökonomischen
Transaktion, die allein auf Kosten-Nutzen Überlegungen beruht EG I > EG II
• Ergebnisse:
• Variation of the experiment in Bern: 510 randomly selected Bernese received a FB by
post with very sensitive questions about their criminal activities (Becker/Mehlkop 2011,
Bulletin de Méthodologie Sociologique).
- EG I: A 10 franc note (= 7 euros) was enclosed with this FB with the information that
the respondents may keep the money in any case, even if they refuse to participate
- EG II: received information that you will receive 10 francs as soon as participation is
documented
- CG: neither prepaid incentive nor promised money
• Rational choice theory: because of the anonymity of the survey, the members of EG I
should keep the money but not necessarily participate. EG II members should attend to
receive the money, but may not necessarily answer true. EG I < EG II
• Exchange theory: the unconditional enclosed bank note is a preliminary payment in the
sense of trust and requires a reciprocal consideration from the trust-taker (interviewee).
The promised money, on the other hand, is the offer of a purely economic transaction
based solely on cost-benefit considerations EG I > EG II
• Results:

Experimente
• Hier wird das Experiment verstanden als „wiederholbare Beobachtung unter
kontrollierten Bedingungen, wobei eine (oder mehrere) unabhängige Variable(n) derartig
manipuliert wird (werden), dass eine Überprüfungsmöglichkeit der zugrundeliegenden
Hypothese (Behauptung eines Kausalzusammenhangs) in unterschiedlichen Situationen
gegeben ist“ (Zimmermann 1972: 37)
• Ein Experiment ist weder eine besondere Form der Datenerhebung oder der
Datenauswertung, sondern das Experiment stellt einen manipulativen Eingriff in die
soziale Realität dar (andere Methoden erfassen die Realität)
• Here, the experiment is understood as “repeatable observation under controlled
conditions, whereby one (or more) independent variable(s) is (are) manipulated in such a
way that the underlying hypothesis (assertion of a causal relationship) can be checked in
different situations” ( Zimmerman 1972: 37)
• An experiment is neither a special form of data collection nor data analysis, but the
experiment represents a manipulative intervention in social reality (other methods capture
reality)

Milgram Experiment:
• Kontrolle:
- Immer dasselbe Labor / Apparatur; immer derselbe „Schüler“ mit denselben
„falschen“ Antworten“; immer dieselbe Autoritätsperson mit denselben
Anweisungen.
 Treatment: die Anweisungen der Autoritätsperson.
 Kausalzusammenhang: Autorität => Begehen von Handlungen gegen die eigene
Überzeugung.
• Ergebnisse:
• Control:
- Always the same laboratory / apparatus; always the same "student" with the same
"wrong" answers"; always the same authority figure with the same instructions.
• Treatment: the authority figure's instructions.
• Causal link: AuthorityCommitting actions against one's belief.
• Results:
bis 300 315 330 345 360 375 390 V bis
Spannung 450 V
300 V V V V V V V 435 V
Anzahl Vpn: 26 Vpn sind bis 450 V
0 5 4 2 1 1 1 0
Abbruch gegan- gen
• von den 40 Vpn dieser Messreihe haben nur 14 das Experiment abgebrochen und 26
sind bis zum potentiell tödlichen Stromschlag von 450 V gegangen.
• (wichtigste) Kritik:
- Ethik: bei den Vpn wurde der Eindruck erweckt, sie sein für Schmerz / Tod des
„Schülers“ verantwortlich.
- Keine Zufallsauswahl der Vpn.
- Mögliche Design-Effekte (z.B. Hawthorne-Effekt)
• Replikation: Burger, J. M. (2009). Replicating Milgram: Would people still obey
today?. American Psychologist, 64(1), 1.
- Heterogenes Sample.
-  Bei 150 V wurde das Experiment abgebrochen – Vpn, welche bis dahin
weitergemacht haben, würden auch bis zum Ende gehen.
- Ergebnisse: 66.7% der Männer und 72,7% der Frauen wollten auch nach 150 V
weitermachen.
• Of the 40 subjects in this series of measurements, only 14 discontinued the experiment
and 26 went to the potentially lethal 450 V electric shock.
• (most important) criticism:
- Ethics: the impression was given to the subjects that they were responsible for the
pain/death of the "student".
- No random selection of subjects.
- Possible design effects (e.g. Hawthorne effect)
• Replication: Burger, JM (2009). Replicating Milgram: Would people still obey
today?. American Psychologist, 64(1), 1.
- Heterogeneous sample.
- The experiment was stopped at 150 V – subjects who had continued until then
would also continue to the end.
- Results: 66.7% of men and 72.7% of women wanted to continue even after 150 V.

SITZUNG 11

Experimente
• Hier wird das Experiment verstanden als „wiederholbare Beobachtung unter
kontrollierten Bedingungen, wobei eine (oder mehrere) unabhängige Variable(n) derartig
manipuliert wird (werden), dass eine Überprüfungsmöglichkeit der zugrundeliegenden
Hypothese (Behauptung eines Kausalzusammenhangs) in unterschiedlichen Situationen
gegeben ist“
• Design: die Versuchsanordnungen
• Naturwissenschaftliche Anordnung (Vorher- Nachher Messung):
Messung t1  Stimulus  Messung t2
• Diese sehr einfache Versuchsanordnung ist in den Naturwissenschaften möglich, da die
Situation sehr viel einfacher zu kontrollieren ist – z.B. haben chemische Elemente kein
Bewusstsein bzw. keinen eigenen Willen und sie können nicht lernen (sie haben keine
individuelle Biographie)
Experiments
• Here, the experiment is understood as “repeatable observation under controlled
conditions, whereby one (or more) independent variable(s) is (are) manipulated in such a
way that the underlying hypothesis (assertion of a causal relationship) can be checked in
different situations”
• Design: the experimental setup
• Scientific arrangement (before and after measurement):
Measurement t1  stimulus  measurement t2
• This very simple experimental setup is possible in the natural sciences because the
situation is much easier to control - e.g. chemical elements have no consciousness or will
of their own and they cannot learn (they have no individual biography)
Design:
• Statistischer Gruppenvergleich:
- EG I: Stimulus  Messung des Verhaltens
- EG II:  Messung des Verhaltens
Wenn der Stimulus das Verhalten tatsächlich beeinflusst, dann sollte sich die Messung
des durchschn. Verhaltens in EG I signifikant von dem Verhalten in EG II unterscheiden 4
Experimente
• Vorher-Nachher Messung mit Kontrollgruppe:
- EG I: Messung t1  Stimulus  Messung t2
- EG II: Messung t1  Messung t2
-Dies ist die „klassische“ Versuchsanordnung in den Sozialwissenschaften
-Probanden müssen zufällig (!) in die EG verteilt werden
Design:
• Statistical group comparison:
- EG I: Stimulus  measurement of behavior
- EG II:  measurement of behavior
If the stimulus does affect the behavior, then the measurement of the avg. Behavior in EG I
differ significantly from the behavior in EG II in 4 experiments
• Before and after measurement with control group:
- EG I: measurement t1  stimulus  measurement t2
- EG II: measurement t1  measurement t2
-This is the “classic” experimental setup in the social sciences
-Respondents must be randomly (!) distributed in the EG

-Kontrolle möglicher Störgrößen:


 Das Messinstrument ist standardisiert (z.B. ein FB)
 Die VPN wissen nicht, in welcher Gruppe sie sind
 Versuchsleiter wissen bei den Messungen nicht, in welcher Gruppe die VPN sind
(Doppelblindverfahren)
 Screening: die äußeren Umstände der Experimentalsituation sind für alle
Probanden identisch („Laborbedingungen“) und alle (bekannten) Störgrößen sind
ausgeschaltet oder zumindest kontrolliert.
 Parallelisierung / Matching: Störgrößen sollen dadurch kontrolliert werden, dass im
Hinblick auf das zu untersuchende Merkmal „identische“ Untersuchungsobjekte
betrachtet werden, z.B. zwei VP mit identischen Werten auf einer Skala des
Leistungsbedürfnisses werden ausgewählt („Zwillinge“). Die eine VPN wird dem
Stimulus ausgesetzt, die andere nicht (matched pairs; matched groups)
 Randomisierung: EG I und EG II (Kontrollgruppe) werden jeweils mithilfe einer
echten Zufallsauswahl bestimmt (dabei müssen die beiden Gruppen hinreichend
groß sein, um eine Normalverteilung und damit eine zufällige Streuung der Fehler
zu garantieren).
– Bei einem klassischen sozialwissenschaftlichen Versuchsaufbau (Vorher-Nachher
Messung mit Kontrollgruppe) liefert das Matching-Verfahren generell bessere
Ergebnisse – besonders wenn die Zahl der möglichen Störgrößen hoch und deren
Einfluss stark ist
– In der Regel ist eine Kombination der Verfahren die effizienteste Lösung: bezüglich
der wichtigsten Störgrößen erfolgt ein matching, hinsichtlich anderer potentieller
Störgrößen erfolgt eine Randomisierung (zb: werden EG I und II hinsichtlich der
Geschlechterzusammensetzung gematched, abgesehen davon randomisiert)
-Control of possible disturbance variables:
 The measuring instrument is standardized (e.g. a FB)
 The VPN do not know which group they are in
 During the measurements, the experimenter does not know which group the VPN
are in (double-blind method)
 Screening: the external circumstances of the experimental situation are identical for
all subjects ("laboratory conditions") and all (known) disturbance variables are
eliminated or at least controlled.
 Parallelization / matching: Disturbance variables should be controlled by
considering “identical” objects to be examined with regard to the characteristic to be
examined, e.g. two TPs with identical values on a performance need scale are
selected (“twins”). One VPN is exposed to the stimulus, the other is not (matched
pairs; matched groups)
 Randomization: EG I and EG II (control group) are each determined using a true
random sample (the two groups must be large enough to guarantee a normal
distribution and thus a random spread of the errors).
-With a classic social science test setup (before and after measurement with a control
group), the matching method generally delivers better results – especially when the
number of possible confounders is high and their influence is strong
-As a rule, a combination of the methods is the most efficient solution: the most
important confounders are matched, other potential confounders are randomized (e.g.
are EG I and II matched with regard to gender composition, apart from that
randomized)

between- vs. within-subject design


• Bei einem between-subject design wird der Stimulus jeder VP nur einmal präsentiert:
- EG1: Mt1  S Mt2
- EG2: Mt1   Mt2
• Es wird überprüft, ob sich Mt1 und Mt2 statistisch signifikant unterscheiden, bzw. ob sich
Mt2 zwischen den Gruppen unterscheidet.
between- vs. within-subject design
• In a between-subject design, the stimulus is presented to each TP only once:
- EG1: Mt1  S  Mt2
- EG2: Mt1   Mt2
• It is checked whether Mt1 and Mt2 differ statistically significantly, or whether Mt2 differs
between the groups.

• Bei einem within-subject design wird der Stimulus (bzw. verschiedene Ausprägungen des
Stimulus) jeder VP mehrfach präsentiert:
- EG1: Mt1  S1  Mt2  S2  Mt3
- EG2: Mt1  Mt2  Mt3
• Es wird überprüft, ob sich die Messungen von M(i) statistisch signifikant bei einer
Versuchsperson unterscheiden, bzw. ob sich die Messungen von M(i) zwischen den
Gruppen unterscheiden.
• In a within-subject design, the stimulus (or different forms of the stimulus) is presented to
each TP several times:
- EG1: Mt1  S1  Mt2  S2  Mt3
- EG2: Mt1  Mt2  Mt3
• It is checked whether the measurements of M(i) differ statistically significantly in one test
person or whether the measurements of M(i) differ between the groups.

• Between-subject designs bieten sich an, wenn der Stimulus nur eine Ausprägung hat
(vorhanden / nicht vorhanden) bzw. wenn der Stimulus nur einmal wirken kann.
• Within-subject designs bieten sich an, wenn der Stimulus mehrere Ausprägungen
aufweisen kann bzw. wenn die wiederholte Anwendung eines Stimulus zu
unterschiedlichen Reaktionen führen kann (z.B. abnehmender Grenznutzen)
• Within-subject designs haben den (statistischen) Vorteil, dass in einer Messreihe relativ
viele Beobachtungen realisiert werden können:
• Z.B. realisiert die „within-“Präsentation eines Stimulus mit 5 Ausprägungen bei jeweils 10
VP 50 Messungen (Beobachtungen). Werden 10 VP hingegen nur einer einmaligen
Messung unterzogen, so werden „nur“ 10 Messungen realisiert.
• Die Zahl der Beobachtungen hat wiederum Einfluss auf die Höhe des àStandardfehlers.
• Between-subject designs are useful when the stimulus only has one expression
(present / not present) or when the stimulus can only have an effect once.
• Within-subject designs are appropriate if the stimulus can have several characteristics or
if the repeated application of a stimulus can lead to different reactions (e.g. decreasing
marginal utility)
• Within-subject designs have the (statistical) advantage that a relatively large number of
observations can be realized in a series of measurements:
• E.g. the “within” presentation of a stimulus with 5 characteristics with 10 VP each results
in 50 measurements (observations). If, on the other hand, 10 VP are only subjected to a
single measurement, “only” 10 measurements are carried out.
• The number of observations in turn influences the amount of the  standard error.

Gütekriterien I für Experimente:


1.Sämtliche Störgrößen sind bekannt und kontrollierbar (ideal: ausgeschaltet)
2.Das Experiment muss bei Wiederholungen stets identische Ergebnisse produzieren
(Replizierbarkeit)
3.Interne Validität: Verhaltensänderungen der Probanden sind nur auf die Manipulation der
Stimuli zurückzuführen.
4.Externe Validität: die Ergebnisse aus dem Experiment können für die Gesamtpopulation
verallgemeinert werden.
Quality criteria I for experiments:
1. All disturbance variables are known and controllable (ideally: switched off)
2. The experiment must always produce identical results when repeated (replicability)
3. Internal validity: Changes in the behavior of the subjects can only be attributed to the
manipulation of the stimuli.
4. External validity: the results from the experiment can be generalized for the whole
population.

• Häufige Probleme:
• Hawthorne-Effekt (Roethlisberger, 1920er): die Anwesenheit von Forscher*innen /
Wissen, teil eines Experiments zu sein hat Effekte auf Handeln der Vpn (interne V).
• Pygmalion-Effekt (Rosenthal/Jacobson 1965)_ Experimentalleiter*innen beeinflussen
durch ihre Erwartungen der Effekte die Ergebnisse.
• Beispiel: Konformitätsexperimente von Solomon Ash 1951
- Versuchsaufbau:
- EG I (Kontrollgruppe): eine VPN wird mit einer bestimmten Anzahl anderer
Personen (heimliche Assistenten des VL) in einen Raum geführt. Dort werden ihnen
Bilder gezeigt, z.B.:
- Jede/r soll angeben, ob Linie A, B oder C der Länge der linken Referenzlinie
entspricht
- Fehlerrate der VPN in dieser Gruppe < 1% 18 Experimente
- EG II: Setting wie in EG I, nur dass diesmal alle anderen Personen einstimmig eine
falsch Linie benennen
- Als letzte soll VPN eine Linie benennen – in fast 40% der Fälle schloss sich VPN
der offensichtlich falschen Mehrheitsmeinung an
• Common problems:
• Hawthorne effect (Roethlisberger, 1920s): the presence of researchers / knowledge of
being part of an experiment has effects on subjects' actions (internal V).
• Pygmalion effect (Rosenthal/Jacobson 1965)_ experimenters influence the results
through their expectations of the effects.
• Example: Solomon Ash's 1951 conformity experiments
- Experimental setup:
- EG I (control group): a VPN is led into a room with a certain number of other people
(the TL's secret assistants). There you will be shown pictures, e.g.:
- Everyone should indicate whether line A, B or C corresponds to the length of the left
reference line
- Error rate of the VPN in this group < 1% 18 experiments
- EG II: Setting as in EG I, only this time all other characters unanimously name a
wrong line
- VPN should be the last to name a line - in almost 40% of the cases VPN joined the
obviously wrong majority opinion

• Beispiel: Ernst Fehr und Bettina Rockenbach 2003:


- Ausgangsfrage: kooperieren „fremde“ Individuen auch dann, wenn sie durch
egoistisches Verhalten Gewinne erzielen können?
- Klassische Ökonomie: Individuen verhalten sich NUR dann „altruistisch“
zueinander, wenn sie dafür in der Zukunft belohnt oder (bei Defektion) bestraft
werden
- Diese Behauptung sollte wiederlegt werden
- Versuchsaufbau: eine VPN ist der Vertrauensgeber, eine andere VPN ist der
Vertrauensnehmer. Beide haben keinen direkten Kontakt zueinander
- Der Vertrauensgeber kann in Vorleistung gehen (Geld riskieren). Der
Vertrauensnehmer kann a) das Vertrauen durch Kooperation belohnen oder b) das
Vertrauen missbrauchen
- Stimulus: in einer Spielrunde kann der Vertrauensgeber eine Defektion bestrafen, in
einer anderen Spielrunde hat er keine solche Möglichkeit
- Ablauf ohne Bestrafung: wenn der Vertrauensgeber sich entscheidet, Geld an den
Vertrauensnehmer zu geben, dann wird dieser Betrag verdreifacht und der
Vertrauensnehmer kann einen Betrag seiner Wahl an den Vertrauensgeber
zurücküberweisen. In diesem Fall würden beide einen mittleren Gewinn erzielen.
Behält der Vertrauensnehmer aber das Geld, dann kann er einen höheren Gewinn
einstreichen. Das antizipiert der Vertrauensgeber. Wären beide „egoistisch“, dann
würde nichts passieren  Gefangenendilemma
• Example: Ernst Fehr and Bettina Rockenbach 2003:
- Initial question: do “foreign” individuals also cooperate if they can make a profit
through selfish behavior?
- Classical economics: Individuals ONLY behave “altruistically” towards one another if
they are rewarded or (in the case of defection) punished for doing so in the future
- This claim should be refuted
- Test setup: one VPN is the trust giver, another VPN is the trust taker. Both have no
direct contact with each other
- The trust giver can pay in advance (risk money). The trust-taker can a) reward the
trust through cooperation or b) abuse the trust
- Stimulus: in one game round the trust giver can punish defection, in another game
round he has no such possibility
- Procedure without penalty: if the trust-giver decides to give money to the trust-taker,
then this amount will be tripled and the trust-taker can return an amount of his
choice to the trust-giver. In this case, both would get a medium profit. But if the
trust-taker keeps the money, then he can pocket a higher profit. The trust-giver
anticipates this. If both were “selfish”, then nothing would happen  prisoner's
dilemma

- Stimulus: in einer Spielrunde kann der Vertrauensgeber eine Defektion bestrafen, in


einer anderen Spielrunde hat er keine solche Möglichkeit
- Ablauf mit Bestrafung: der Vertrauensgeber KANN bei der ersten Überweisung des
Geldes eine Strafe festlegen, die der Vertrauensnehmer zahlen muss, falls er
entweder gar nicht kooperiert oder nur einen sehr geringen Betrag zurücküberweist.
Wären beide „egoistisch“, dann sollte jetzt der Vertrauensgeber immer eine Strafe
festlegen und in Vorleistung gehen und der Vertrauensnehmer sollte immer einen
mittleren Betrag zurücküberweisen, weil beide damit einen Gewinn machen würden
- Hypothesen der Egoismus-Erwartung: ohne Bestrafung kommt nie ein Spiel
zustande, mit Bestrafung kommt immer ein Spiel zustande
- Ergebnisse: selbst ohne Bestrafung haben 80% der Vertrauensnehmer einen
Betrag zurücküberwiesen à altruistische Kooperation! Bei der Möglichkeit der
Bestrafung haben die Vertrauensnehmer MEHR Geld zurücküberwiesen, wenn der
Vertrauensnehmer auf eine Bestrafung von Vornherein verzichtet hat (die
Möglichkeit der Bestrafung reduziert tendenziell die Kooperation)!
- Stimulus: in one game round the trust giver can punish defection, in another game
round he has no such possibility
- Process with punishment: the trust-giver CAN set a penalty for the first transfer of
money, which the trust-taker must pay if he either does not cooperate at all or only
transfers a very small amount back. If both were "selfish", then the trust-giver
should always set a penalty and pay in advance and the trust-taker should always
transfer a medium amount back, because both would make a profit with it
- Hypotheses of the expectation of egoism: without punishment there is never a
game, with punishment there is always a game
- Results: even without punishment, 80% of the trust-takers returned an amount à
altruistic cooperation! With the possibility of punishment, the trust-taker returned
MORE money if the trust-taker had waived punishment from the outset (the
possibility of punishment tends to reduce cooperation)!

SITZUNG 12
Spezielle Erhebungsverfahren
• Sogenannte Vignetten (oder faktorielle Survey) Designs setzen die Idee des
Experimentes („wiederholbare Beobachtung unter kontrollierten Bedingungen, wobei eine
(oder mehrere) unabhängige Variable(n) derartig manipuliert wird (werden), dass eine
Überprüfungsmöglichkeit der zugrundeliegenden Hypothese (Behauptung eines
Kausalzusammenhangs) in unterschiedlichen Situationen gegeben ist“ (Zimmermann
1972: 37)) für eine schriftliche Befragung um. 2 Spezielle Erhebungsverfahren
Special survey procedures
• So-called vignettes (or factorial survey) designs use the idea of the experiment
(“repeatable observation under controlled conditions, in which one (or more) independent
variable(s) is (are) manipulated in such a way that it is possible to test the underlying
hypothesis (assertion of a causal relationship ) is given in different situations”
(Zimmermann 1972: 37)) for a written survey. 2 Special survey procedures

• Ausgangsproblem:
- Bei reinen Befragungen können streng genommen nur Korrelationen untersucht
werden (z.B. zwischen den Variablen „Wie wahrscheinlich ist es Ihrer Meinung
nach, dass man bei Korruption erwischt wird?“ 1 sehr unwahrscheinlich – 5 sehr
wahrscheinlich und „Wie wahrscheinlich ist es, dass Sie eine korrupte Handlung
(Bestechungsgelder annehmen) begehen würden?“1 sehr unwahrscheinlich – 5
sehr wahrscheinlich).
- Soziale Situationen (wie Korruption) sind meist sehr komplex und deswegen
schwierig in abstrakter Form in einem FB darstellbar.
- Bei einigen Themen (wie Kriminalität) ist das Problem sozial erwünschter Antworten
teilweise recht groß.
• Initial problem:
- In the case of pure surveys, strictly speaking, only correlations can be examined
(e.g. between the variables "How likely do you think it is that you will be caught
committing corruption?" 1 very unlikely - 5 very likely and "How likely is it that you
corrupt act (taking bribes)?”1 very unlikely – 5 very likely).
- Social situations (such as corruption) are usually very complex and therefore
difficult to represent in an abstract form in a FB.
- With some topics (such as crime), the problem of socially desirable answers is
sometimes quite large.

• Lösung:
- Korrelation ≠ Kausalität: kontrollierte Manipulation der uV ermöglichen Kausaltests
(z.B. Variation der Entdeckungswahrscheinlichkeit für Korruption)
- Komplexe soziale Situationen (wie ein Korruption) können in kleinen Geschichten /
Szenarien (Vignetten) realistisch dargestellt werden und diese Vignetten stellen
„gleiche Bedingungen“ sicher (à Kontrolle).
- „Dritte Person“ Perspektive reduziert Problem sozial erwünschter Antworten
(zumindest zum Teil).
• Solution:
- Correlation ≠ causality: controlled manipulation of the uV enable causal tests (e.g.
variation of the detection probability for corruption)
- Complex social situations (like a corruption) can be realistically represented in small
stories/scenarios (vignettes) and these vignettes ensure “level playing field” (à
control).
- "Third person" perspective reduces problem of socially desirable responses (at
least in part).

• Grundbedingung: in einem FB muss mithilfe einer Geschichte eine Situation erzeugt


werden, die bei jedem Befragten dieselben Rahmenbedingungen erzeugt à Vignette.
• In der Geschichte werden jedoch bestimmte Parameter kontrolliert variiert.
• Verschiedenen (Gruppen von) Befragten werden dann die unterschiedlichen Vignetten
präsentiert.
• Schließlich sollen die Befragten auf die Vignette reagieren  sind die Reaktionen
unterschiedlich, dann ist dies auf die variierten Stimuli zurückzuführen.
• Basic condition: in a FB, a situation must be created with the help of a story that creates
the same framework conditions for each respondent  vignette.
• In the story, however, certain parameters are varied in a controlled manner.
• Different (groups of) respondents are then presented with the different vignettes.
• Finally, the respondents should react to the vignette - if the reactions differ, this is due to
the varied stimuli.

• Randomized Response Technique (RRT):


• Oftmals stellen wir Fragen, deren Beantwortung für die Befragten heikel, unangenehm
oder peinlich sein können à erhöht Kosten der Teilnahme an der Befragung (genauer:
Kosten der Offenbarung der wahren Antwort auf die Frage)
•  item oder unit non-response
•  Tendenz zu sozial erwünschten (aber unwahren) Antworten
•  besonders virulent in Interviews (face to face oder Telefoninterviews)
• RRT soll es nun den Befragten erleichtern, auf diese Fragen zu antworten (Kosten
reduzieren).
• Randomized Response Technique (RRT):
• We often ask questions whose answers can be awkward, uncomfortable or embarrassing
for the respondents à increased costs of taking part in the survey (more precisely: costs of
revealing the true answer to the question)
• item or unit non-response
• Tendency to give socially desirable (but untrue) answers
• particularly virulent in interviews (face to face or telephone interviews)
• RRT should now make it easier for respondents to answer these questions (reduce
costs).

• RRT: Hintergrund:
• Stanley Warner (1965) wurde während des Vietnamkrieges beauftragt zu erforschen, wie
viele US-Soldaten während des Einsatzes Drogen nehmen.
•  in direkten Interviews verweigerten fast alle Soldaten die Aussage oder sie
antworteten mutmaßlich sozial erwünscht.
• RRT: Background:
• Stanley Warner (1965) was commissioned during the Vietnam War to research how
many US soldiers used drugs during deployments.
•  In direct interviews, almost all soldiers refused to testify or answered in a presumably
socially desirable manner.

• RRT: Beispiel 1:
• In einem face to face Interview soll eine heikle Frage gestellt werden.
• Diese Frage steht auf einer Karte mit neutraler Rückseite.
• Daneben gibt es noch zwei Karten mit jeweils neutraler Rückseite.
• Karte 1: Haben Sie schon einmal illegale Drogen konsumiert?
• Karte 2: Steht unten auf dieser Karte der Buchstabe A? B
• Karte 3: Steht unten auf dieser Karte der Buchstabe A? A
• Interviewer*in mischt diese drei Karten gut durch und Befragte zieht eine der Karten,
zeigt Interviewer*in aber nicht, was auf der Karte zu lesen ist.
• Befragte soll mit „ja“ oder „nein“ wahrheitsgemäß auf die Frage der gezogenen Karte
antworten.
• Antwortet Befragte mit „ja“ weiß Interviewer*in nicht, ob diese Antwort erfolgte, weil
Befragte bereits Drogen konsumiert hat oder weil die Karte 3 gezogen wurde (auf der ein A
abgebildet ist).
• Antwortet Befragte mit „nein“ weiß Interviewer*in nicht, ob diese Antwort erfolgte, weil
Befragte noch nie Drogen konsumiert hat oder weil die Karte 2 gezogen wurde (auf der ein
B abgebildet ist).
• Angenommen 3000 Befragte wurden so interviewt (angenommen alle Befragten haben
ehrlich geantwortet).
• Insgesamt haben 1200 Befragte mit „ja“ geantwortet.
•  20% der Befragten haben bereits Drogen konsumiert.
• Erläuterung: die Wahrscheinlichkeit, eine bestimmte der drei Karten zu ziehen beträgt
jeweils 1/3 = 33,3 Prozent.
• D.h. von den 3000 Befragten haben 1000 Karte 1 gezogen, 1000 Karte 2 und 1000 Karte
3.
• Wir verzeichnen 1200 Ja-Antworten und 1800 Nein-Antworten.
• 1000 Befragte haben mit „nein“ geantwortet, weil sie Karte 2 gezogen haben.
•  bleiben 1200 Ja-Antworten und 800 NeinAntworten.
• Uns bleiben 1200 Ja-Antworten und 800 NeinAntworten.
• 1000 Befragte haben mit „ja“ geantwortet, weil sie Karte 3 gezogen haben.
•  bleiben 200 Ja-Antworten und 800 NeinAntworten. Dies sind die Antworten für die
Frage auf Karte 1!  und 200 von 1000 = 20%
• RRT: Example 1:
• A difficult question should be asked in a face-to-face interview.
• This question is written on a card with a neutral back.
• There are also two cards, each with a neutral back.
• Card 1: Have you ever used illegal drugs?
• Card 2: Is there the letter A at the bottom of this card? B
• Card 3: Is there the letter A at the bottom of this card? A
• The interviewer shuffles these three cards well and the respondent draws one of the
cards, but does not show the interviewer what the card says.
• Respondent should answer "yes" or "no" truthfully to the question on the drawn card.
• If the respondent answers “yes”, the interviewer does not know whether this answer was
given because the respondent has already used drugs or because card 3 was drawn (on
which an A is shown).
• If the respondent answers “no”, the interviewer does not know whether this answer was
given because the respondent has never used drugs or because card 2 was drawn (on
which a B is shown).
• Suppose 3000 respondents were interviewed in this way (assuming all respondents
answered honestly).
• A total of 1200 respondents answered "yes".
• 20% of those questioned have already used drugs.
• Explanation: the probability of drawing one of the three cards is 1/3 = 33.3 percent.
• I.e. of the 3000 respondents, 1000 drew card 1, 1000 card 2 and 1000 card 3.
• We have 1200 yes replies and 1800 no replies.
• 1000 respondents answered "no" because they drew card 2.
•  1200 yes answers and 800 no answers remain.
• We are left with 1200 yes answers and 800 no answers.
• 1000 respondents answered "yes" because they drew card 3.
•  200 yes answers and 800 no answers remain. These are the answers for the question
on Card 1!  and 200 of 1000 = 20%

• RRT: Beispiel 2
• In einem face to face Interview werden den Befragten zwei Alternativfragen offen
präsentiert:
• Alternativfrage 1: „Ich habe bereits Drogen konsumiert“.
• Alternativfrage 2: „Ich habe noch niemals Drogen konsumiert“.
•  Antwortmöglichkeiten: „stimmt“ oder „stimmt nicht“.
• Nun sollen die Befragten verdeckt würfeln und bei der Augenzahl 6 die Frage 1
beantworten, ansonsten die Frage 2.
• Achtung: Voraussetzung ist, dass das Zufallsprinzip die Bedingung p ≠ 0,5 erfüllt!
•  d.h. diese Technik funktioniert nicht bei einem Münzwurf, wohl aber beim Wurf eines
sechsseitigen Würfels (Erwartungswert, dass die 6 gewürfelt wird ist 1/6, also ist die
Wahrscheinlichkeit, dass eine andere Zahl gewürfelt wird 5/6).
• Wir wollen nun den wahren Anteil der Drogennutzer bestimmen (Θ).
• Dieser setzt sich aus den Befragten zusammen, die auf Alternative 1 „stimmt“ und auf
Alternative 2 „stimmt nicht“ geantwortet haben.
• Die Stimmt-Antworten (y) setzen sich nun folgendermaßen zusammen:
• RRT: Example 2
• In a face-to-face interview, the respondents are presented with two alternative questions:
• Alternative question 1: "I have already used drugs".
• Alternative question 2: "I have never used drugs".
•  Answer options: "true" or "not true".
• Now the respondents should roll the dice face down and answer question 1 if the number
is 6, otherwise question 2.
• Attention: The prerequisite is that the random principle fulfills the condition p ≠ 0.5!
•  i.e. this technique does not work with a coin toss, but with the throw of a six-sided die
(expectation value that the 6 is rolled is 1/6, so the probability that another number is rolled
is 5/6).
• We now want to determine the true proportion of drug users (Θ).hawthcluste
• This is made up of those respondents who answered “correct” to alternative 1 and “not
correct” to alternative 2.
• The correct answers (y) now consist of the following:

• Wir erhalten den wahren Wert der Drogennutzer, wenn wir nach Θ auflösen:
• We get the true value of drug users by solving for Θ:

• Angenommen wir haben 100 Menschen befragt (n) und insgesamt 75 StimmtAntworten
erhalten (y):
• Suppose we have interviewed 100 people (n) and received a total of 75 correct answers
(y):

• Problem bei der klassischen RRT:


• Es wird ein Randomisierungsinstrument benötigt (Karten, Würfel usw.)  dieses
Instrument kann von Befragten als kompliziert wahrgenommen werden bzw. es ist nicht in
schriftlichen oder telefonischen Befragungen anwendbar.
• Deswegen sind weitere Verfahren entwickelt worden, die kein
Randomisierungsinstrument benötigen.
• Problem with the classic RRT:
• A randomization tool is needed (cards, dice, etc.)  this tool may be perceived as
complicated by respondents or it is not applicable in written or telephone interviews.
• For this reason, other methods have been developed that do not require a randomization
instrument.

• Item-Count (I-C):
• Grundidee: es werden (eine) heikle und (mehrere) nicht-heikle Fragen zusammen
gestellt.
• Diesmal soll die Anzahl der Items angegeben werden, die zutreffen.
• Dann werden die Antworten / Zahlen der zutreffenden Items von einer
„Experimentalgruppe“ und einer Kontrollgruppe verglichen.
• In der Kontrollgruppe erhalten die Personen eine Liste nur mit nicht-heiklen Items.
• In der Experimentalgruppe erhalten die Personen dieselbe Liste mit den nicht-heiklen
Items plus dem heiklen Item.
• Beispiel
• Item Count (I-C):
• Basic idea: (one) sensitive and (several) non-sensitive questions are put together.
• This time the number of items that apply should be specified.
• Then the answers/numbers of the applicable items from an “experimental group” and a
control group are compared.
• In the control group, people only receive a list of non-sensitive items.
• In the experimental group, the people receive the same list with the non-sensitive items
plus the sensitive item.
• Example

• Frage: „Nennen Sie mir bitte die Anzahl der Fragen, die Sie bejahen würden.“ 35
Kontrollgruppe (ohne heikle Frage) Experimentalgruppe (mit heikler Frage Benutzen Sie
an mehr als fünf Tagen in der Woche öffentliche Verkehrsmittel? Benutzen Sie an mehr als
fünf Tagen in der Woche öffentliche Verkehrsmittel? Besitzen Sie eine
Haftpflichtversicherung? Besitzen Sie eine Haftpflichtversicherung? Sind Sie auf dem Land
aufgewachsen? Sind Sie auf dem Land aufgewachsen? Haben Sie in diesem Jahr für eine
Privatperson schwarz gearbeitet?
• Question: "Please tell me how many questions you would answer in the affirmative." 35
Control group (without a difficult question) Experimental group (with a difficult question Do
you use public transport more than five days a week? Do you use it more than five Public
transport days a week? Do you have liability insurance? Do you have liability insurance?
Did you grow up in the country? Did you grow up in the country? Did you do undeclared
work for a private individual this year?

• Auswertung (fiktive Zahlen):


• In jeder der beiden Gruppen seien 1000 zufällig ausgewählte (!) Menschen befragt
worden.
• In der Kontrollgruppe sei die summierte Zahl aller Antworten 2500 (also im Mittel haben
die befragten Personen die Zahl 2,5 angegeben).
• In der Experimentalgruppe sei die summierte Zahl aller Antworten 2700 (also im Mittel
haben die befragten Personen die Zahl 2,7 angegeben).
• Da die Versuchspersonen zufällig in eine der beiden Gruppen gelost worden sind können
wir davon ausgehen, dass die Zahl der Bejahungen der nicht-heiklen Items in beiden
Gruppen gleich ist.
• Ist die Zahl der Bejahungen insgesamt in der Experimentalgruppe höher, muss dies an
der Zahl der Antworten liegen, die auf das heikle Item gegeben worden ist.
• Wenn also in der Kontrollgruppe insgesamt 2500 Bejahungen auf die nicht-heiklen Items
fallen, dann sollten auch 2500 Bejahungen in der Experimentalgruppe (der insgesamt
2700 Bejahungen) auf die nicht-heiklen Items zurückzuführen sein – es bleiben 200
Bejahungen über  200 Personen haben in der Experimentalgruppe zusätzlich das heikle
Item bejaht.
• Oder: Mittelwert ExpGruppe – Mittelwert KontGruppe = 2,7 – 2,5 = 0,2 = 20%
• Evaluation (fictitious numbers):
• In each of the two groups, 1000 randomly selected (!) people were questioned.
• In the control group, the total number of all answers is 2500 (that is, on average, the
people interviewed gave the number 2.5).
• In the experimental group, the total number of all answers is 2700 (that is, on average,
the people interviewed gave the number 2.7).
• Since the test subjects were randomly assigned to one of the two groups, we can
assume that the number of affirmations of the non-tough items is the same in both groups.
• If the total number of affirmations in the experimental group is higher, this must be due to
the number of answers given to the sensitive item.
• If, therefore, a total of 2500 affirmations in the control group fall on the non-sensitive
items, then 2500 affirmations in the experimental group (of the total of 2700 affirmations)
should also be due to the non-sensitive items - there remain 200 affirmations over  200
people each have in of the experimental group also affirmed the delicate item.
• Or: Mean ExpGroup – Mean ContGroup = 2.7 – 2.5 = 0.2 = 20%

SITZUNG 13
Sekundärdatenanalyse
• Für viele Fragestellungen in den Gesellschaftswissenschaften ist es nicht nötig oder gar
nicht möglich (Ländervergleiche!) selbst Daten zu erheben.
• Hier kann man auf bereits vorhandene Datensätze zurückgreifen (Individualdaten) oder
eigene Datensätze aus vorhandenen Quellen erstellen (Makro- /Aggregatdaten 
vorausgesetzt, die Daten beziehen sich auf die identischen Untersuchungseinheiten, wie
Staaten).
• Individualdaten: es werden vielfältige Datensätze erhoben, auf die zum Zwecke des
Hypothesentests zurückgegriffen werden kann:
- Zum Beispiel: ALLBUS; SOEP; European Value Survey bzw. World Value Survey;
Polizeiliche Kriminalitätsstatistiken usw.
Secondary Data Analysis
• For many questions in the social sciences it is not necessary or even impossible (country
comparisons!) to collect data yourself.
• Here you can access existing data sets (individual data) or create your own data sets
from existing sources (macro/aggregate data  provided that the data refer to the
identical analysis units, such as countries).
• Individual data: a wide range of data sets are collected that can be used for the purpose
of hypothesis testing:
- For example: ALLBUS; SOEP; European Value Survey or World Value Survey;
Police crime statistics, etc.

• Makrodaten / Aggregatdaten:
- Für einzelne Forscher*innen ist es für kleinere Studien in der Regel nicht möglich,
international vergleichbare Daten zu ganzen Ländern selbst zu erheben.
- Eine Vielzahl an international agierenden Organisationen sammelt zu jeweils
bestimmten Themen verlässliche Daten auf Länderebene und stellt diese i.d.R.
kostenlos zur Verfügung.
• Macro data / aggregate data:
- For smaller studies, it is usually not possible for individual researchers to collect
internationally comparable data on entire countries themselves.
- A large number of internationally active organizations collect reliable data at country
level on specific topics and usually make them available free of charge.

Aggregatdatenanalyse
• Definition: Aggregatdaten sind zum Einen nach mathematischen oder statistischen
Regeln angefertigte Zusammenstellungen von Individual-Daten.
• Beispielsweise ergibt sich aus dem Mittelwert der Zahl der Kinder aller Frauen in
Deutschland die Geburtenrate
• Definition: Zum Anderen bezeichnen wir auch Kollektivmerkmale als Aggregatdaten, die
nicht auf Individuen zurückgeführt werden können, wie beispielsweise das
Demokratieniveau eines bestimmten Landes, welches sich auf ein Kollektiv als Ganzes
bezieht.
• Beispiel: Freedom House Index
Aggregate Data Analysis
• Definition: Aggregate data are, on the one hand, compilations of individual data prepared
according to mathematical or statistical rules.
• For example, the average number of children of all women in Germany results in the birth
rate
• Definition: On the other hand, we also refer to collective characteristics as aggregate
data that cannot be traced back to individuals, such as the level of democracy in a specific
country, which refers to a collective as a whole.
• Example: Freedom House Index

• Die Punkte aus Political Rights und Civil Liberties werden addiert und aufgrund dieser
Summe werden die Länder in drei Gruppen aufgeteilt: Free, Partly Free, Not Free.
• Makrodaten / Aggregatdaten: Sofern sich die Daten auf dieselbe Basis beziehen (z.B.
Länder) können diese Daten in einem Datensatz zusammengefasst und verglichen /
Zusammenhänge berechnet werden:
- Gibt es einen Zusammenhang zwischen dem BIP pC und der
Einkommensungleichheit?
- Haben repräsentative Demokratien mehr interne Konflikte als Systeme mit direkter
Demokratie?
• The points from Political Rights and Civil Liberties are added and based on this sum the
countries are divided into three groups: Free, Partly Free, Not Free.
• Macro data / aggregate data: If the data refer to the same basis (e.g. countries), this data
can be combined in one data set and compared / relationships can be calculated:
- Is there a connection between GDP pC and income inequality?
- Do representative democracies have more internal conflicts than systems with
direct democracy?

• Solche Zusammenhangsanalysen dürfen allerdings nicht als Kausalanalysen interpretiert


werden: Korrelation ≠ Kausalität.
• Aber eine signifikante Korrelation zwischen zwei Variablen, die aufgrund theoretischer
Überlegungen zusammenhängen sollten, ist ein Indiz für eine kausale Beziehung (aber
kein Beweis!)  die Abwesenheit eines signifikanten Zusammenhangs zwischen zwei
Variablen kann allerdings als Falsifikation einer kausalen Beziehung (mit einiger Vorsicht)
gedeutet werden.
• However, such context analyzes must not be interpreted as causal analyses: correlation
≠ causality.
• But a significant correlation between two variables that should be related based on
theoretical considerations is an indication of a causal relationship (but not proof!)  the
absence of a significant relationship between two variables can, however, be used as a
falsification of a causal relationship (with some caution) be interpreted.

• „Whole Nation Bias“: aggregierte Daten liefern nur einen Wert, der als Repräsentant für
z.B. ein ganzes Land angesehen wird, wie die Arbeitslosenquote für ganz Deutschland.
Dabei wird durch die Aggregation aber verschleiert, dass die Arbeitslosenquote innerhalb
von D zwischen den Regionen sehr stark variieren kann
• “Whole Nation Bias”: aggregated data only provide one value that is seen as
representative of, for example, an entire country, such as the unemployment rate for all of
Germany. However, the aggregation conceals the fact that the unemployment rate within D
can vary greatly between the regions

• Grundlegende Vorgehensweisen:
• Die „Cross-Section-Analysis“: hier werden die aggregierten Daten verschiedener Länder
zu einem Zeitpunkt verglichen, also zum Beispiel, ob sich Länder mit unterschiedlichem
BIP pC hinsichtlich der Einkommensungleichheit (Gini) unterscheiden: 𝐺ini 𝑡i = 𝑎 + 𝑏 𝐵IP
pC 𝑡𝑖−1+ ∈
• Die Interpretation erfolgt also im Vergleich der Länder untereinander  „Je
wohlhabender ein Lande, desto geringer/größer die Einkommensungleichheit“
• Basic procedures:
• The "Cross-Section-Analysis": here the aggregated data of different countries are
compared at one point in time, for example whether countries with different GDP pC differ
in terms of income inequality (Gini): 𝐺ini 𝑡i = 𝑎 + 𝑏 𝐵IP pC 𝑡𝑖 −1+ ∈
• The interpretation is made by comparing the countries with each other  "The more
prosperous a country, the lower/greater the income inequality"

• Die „Time Series Cross-Section-Analysis“: zusätzlich zu den Unterschieden zwischen


Ländern wird noch eine zeitliche Komponente, d.h. die Unterschiede zwischen den
Ländern über die Beobachtungsperiode hinweg betrachtet  Also: wir vergleichen die
Varianzen von n Ländern über t Zeitpunkte hinweg
• Die Interpretation erfolgt also über die Zeit hinweg  „Je stärker das BIP pC in einem
Land meines Datensatzes in den letzten t Jahren gewachsen/geschrumpft ist, desto
größer/geringer wurde die Einkommensungleichheit“
• Makrodaten / Aggregatdaten: Rohdaten müssen immer in Beziehung zu Charakteristika
des Landes gesetzt werden.
• The "Time Series Cross-Section Analysis": in addition to the differences between
countries, a time component is also considered, i.e. the differences between the countries
over the observation period  So: we compare the variances of n countries over t points
in time
• The interpretation is thus made over time  "The more the GDP pC in a country in my
dataset has grown/shrunk in the last t years, the greater/decreased the income inequality."
• Macro data / aggregate data: Raw data must always be related to country characteristics

• Singuläre Ereignisse können einen starken Einfluss auf aggregierte Daten ausüben und
damit die Schätzwerte bei der Auswertung verzerren.
• Beispiel für den Effekt der COVID-Pandemie auf privaten Konsum.
• Singular events can have a strong influence on aggregated data and thus distort the
estimated values in the evaluation.
• Example of the effect of the COVID pandemic on private consumption.

Beispiel für eine Sekundäranalyse mit Makrodaten: Mehlkop. Excavating a Force that
Drives Income Inequality.
• Hintergrund: wie kann Einkommensungleichheit im internationalen Vergleich erklärt
werden, bzw. wieso haben einige Länder eine geringere Einkommensungleichheit als
andere?
• Ein Einflussfaktor wird in der Verteilung gesellschaftlicher Machtverhältnisse gesehen.
• Und in diesen Machtverhältnissen wiederum sollte die Größe und die Rolle des Militärs
von Bedeutung sein.
• Forschungsfrage: haben die Größe und die politische Rolle einer Armee einen Effekt auf
die Einkommensungleichheit in einem Land?
• Theoretischer Hintergrund:
- M. Weber (1923): Die Durchdringung der Gesellschaft durch das Militär hat einen
Effekt auf deren Solidaritätsgrundlage (Idealtypus des „Wehrverbandes“).
- S. Andreski (1968): eine große Armee ist ein mächtiger gesellschaftlicher Akteur
und kann als Verteilungskoalition die Einkommensungleichheit beeinflussen;
„Kampfmoral“ hängt von Höhe des Solds ab; ein großer militärischer Sektor schafft
zivile Arbeitsplätze in Rüstung und Versorgung (einem Sektor mit prinzipiell hohen
Löhnen).
• Zu testende Hypothese: „Je höher die militärische Partizipations-Ratio (MPR), desto
geringer die Einkommensungleichheit in einem Land.“
• „Stichprobe“: 80 bis 116 souveräne Staaten, für die zum Zeitpunkt der Studie Angaben
für alle relevanten Variablen verfügbar waren.
• Problem: es handelt sich hierbei NICHT um eine Zufallsauswahl (oder Totalerhebung),
deswegen ist die Verallgemeinerbarkeit prinzipiell nicht zuverlässig.
• Sample Selection Bias: wohlhabende Länder sind überrepräsentiert.
• Operationalisierung abhängige Variable: Einkommensungleichheit
- Gini-Koeffizient im Jahre 1997
- Einkommensanteil der ärmsten 10 und der reichsten 10 Prozent der Bevölkerung
Example of a secondary analysis with macro data: Mehlkop. Excavating a Force that
Drives Income Inequality.
• Background: how can income inequality be explained in an international comparison, or
why do some countries have lower income inequality than others?
• One influencing factor is seen in the distribution of social power relations.
• And in this balance of power, in turn, the size and role of the military should matter.
• Research question: does the size and political role of an army have an effect on income
inequality in a country?
• Theoretical background:
- M. Weber (1923): The penetration of society by the military has an effect on its
basis of solidarity (ideal type of "military association").
- S. Andreski (1968): a large army is a powerful social actor and, as a distributional
coalition, can influence income inequality; "Fighting morale" depends on the amount
of the pay; a large military sector provides civilian jobs in armaments and utilities (a
sector with inherently high wages).
• Hypothesis to be tested: "The higher the military participation ratio (MPR), the lower the
income inequality in a country."
• “Sample”: 80 to 116 sovereign countries for which information was available for all
relevant variables at the time of the study.
• Problem: this is NOT a random selection (or total census), so the generalizability is not
reliable in principle.
• Sample selection bias: wealthy countries are overrepresented.
• Operationalization dependent variable: income inequality
- Gini coefficient in 1997
- Income share of the poorest 10 and the richest 10 percent of the population

• Operationalisierung der Ungleichheit: Gini-Koeffizient


• Operationalization of inequality: Gini coefficient

• Operationalisierung unabhängige Variablen:


+Militärische Partizipations-Ratio
- Zahl der Soldaten in einem Land dividiert durch die Ziffer der Gesamtbevölkerung
(*1000),
- Zahl der Soldaten in einem Land dividiert durch die Ziffer der Bevölkerung im
erwerbsfähigen Alter (14-69 Jahre) (*1000).
+Wehrpflicht
- Wert 10 – Land hat keine Wehrpflicht; Wert 5 - Wehrpflicht bis 6 Monate; Wert 3 –
Wehrpflicht zw. 6 und 12 Monate; Wert 1 – Wehrpflicht 6 bis 18 Monate; Wert 0 –
Wehrpflicht mehr als 18 Monate.
+Prätorianismus
- Wie sehr kann das Militär die Regierung eines Landes beeinflussen? Index mit dem
Wertebereich von 0 bis 10, wobei höhere Werte einen für einen geringeren Einfluss
des Militärs stehen.
• Operationalization of independent variables:
+Military participation ratio
- Number of soldiers in a country divided by the total population (*1000),
- Number of soldiers in a country divided by the number of working-age population
(14-69 years) (*1000).
+conscription
- value 10 - country has no conscription; Value 5 - conscription up to 6 months; Value
3 - conscription between 6 and 12 months; Value 1 - Conscription 6 to 18 months;
Value 0 - conscription more than 18 months.
+Praetorianism
- How much can the military influence the government of a country? Index ranging
from 0 to 10, with higher values representing less military influence.

• Operationalisierung Kontrollvariablen:
- Bruttoinlandsprodukt pro Kopf in US-Dollar (logarithmiert)
- Anteil der Bevölkerung, der weiterführende Schulen besucht
- Anteil der Bevölkerung zwischen 0 und 14 Jahren an der Gesamtbevölkerung.
- Globalisierung / Integration in die Weltwirtschaft (Index aus Höhe der
Exportüberschüsse, Höhe etwaiger Zölle, Importquoten und Zugang zu
ausländischen Kapitalmärkten, Range 0-10 wobei höhere Werte für höhere
Integration in die Weltwirtschaft stehen)
- Staatliche Transferleistungen und Sozialausgaben als prozentualer Anteil am BIP.
• Operationalization of control variables:
- Gross domestic product per capita in US dollars (logarithmic)
- Percentage of population attending secondary schools
- Percentage of the population between 0 and 14 years of the total population.
- Globalization / integration into the world economy (index from the level of export
surpluses, level of any customs duties, import quotas and access to foreign capital
markets, range 0-10, with higher values standing for higher integration into the
world economy)
- Government transfers and social spending as a percentage of GDP.

• Auswertungsmethode: multivariate OLS Regression.


• Ausgegeben sind in jeder Zelle:
- Unstandardisierter Regressionskoeffizient (Steigung)
- Der T-Wert des Regressionskoeffizienten
- */**/*** = 10/5/1% Signifikanzniveau im einseitigen Test.
• Evaluation method: multivariate OLS regression.
• Output in each cell:
- Unstandardized regression coefficient (slope)
- The T value of the regression coefficient
- */**/*** = 10/5/1% significance level in the one-tailed test.

Fazit Aggregatdatenanalyse
• Vorteile:
- Die A. ermöglicht es, eine relativ hohe Anzahl von Ländern über einen Zeitraum
hinweg zu vergleichen und so (empirisch) Muster zu entdecken.
- Hypothesen über Zusammenhänge zwischen Variablen können ansatzweise
geprüft werden.
- Für Hypothesen auf der Makroebene („Demokratien führen keine Kriege
gegeneinander“) gibt es keine andere Überprüfungsmöglichkeit.
- Die Daten entstammten frei zugänglichen Quellen  Transparenz
- Bestehende Datensätze können kontinuierlich fortgeschrieben und um neue
Variablen ergänzt werden (so können Entwicklungen der Theorie stetig getestet
werden).
- Studien können jederzeit und von allen Forscher*innen mit besseren Daten und
längeren Zeiträumen repliziert werden
• Advantages:
- The A. makes it possible to compare a relatively large number of countries over a
period of time and thus to discover (empirical) patterns.
- Hypotheses about relationships between variables can be tested to some extent.
- For hypotheses on the macro level (“democracies do not wage wars against each
other”) there is no other way of checking.
- The data came from freely accessible sources  transparency
- Existing data sets can be continuously updated and new variables can be added
(thus theoretical developments can be continuously tested).
- Studies can be replicated at any time and by any researcher with better data and
longer time periods

• Nachteile:
- Bei Cross Section streng genommen kein Test von Hypothesen über kausale
Effekte möglich.
- Selten echte Zufallsstichproben  Vorsicht bei Interpretation der statistischen
Signifikanz!
- Heterogenitäten innerhalb von Ländern werden durch die Aggregation verschleiert
(„Whole Nation Bias“).
- Die Operationalisierungen sind oft sehr abstrakt, Bsp. Freihandel als Indikator für
Globalisierung.
• Disadvantages:
- Strictly speaking, it is not possible to test hypotheses about causal effects in the
case of cross section.
- Rarely true random samples  Be careful when interpreting the statistical
significance!
- Heterogeneities within countries are obscured by the aggregation (“whole nation
bias”).
- The operationalizations are often very abstract, e.g. free trade as an indicator for
globalization.

Das könnte Ihnen auch gefallen