Sie sind auf Seite 1von 5

M3 Klausur Inhaltswissen

Stetige vs. diskrete Variable


Diskrete Zufallsvariable: endlich (bzw. abzählbar unendlich) viele Ausprägungen
Stetige Zufallsvariable: überabzählbar viele Ausprägungen (Zahlenmenge R)
Bsp.: Diskret -> Anzahl biologischer Kinder // stetig -> Gewicht
Diskret -> Binomialverteilung // stetig -> F-Verteilung

Zentraler Grenzwertsatz
Die Summe unabhängiger und identisch verteilter Zufalls‐ variablen nähert sich bei
steigender Zahl von Summanden – unabhängig von der Verteilung der
Ausgangsvariablen – „asymptotisch“ (Faustregel: ab n>30) einer Normalverteilung
- konkrete Verteilungsform spielt keine Rolle, gilt prinzipiel auch für
nichtnormalverteile X (z.B. Gleichverteilung)
Der zentrale Grenzwertsatz zeigt, dass für Kennwerte‐ verteilungen die bekannte
Normalverteilung als Referenz dienen kann. -> konkret: für
Wahrscheinlichkeitsverteilungen von Mittelwerten und von Anteilen bei n>30

Zentraler Grenzwertsatz: Gültigkeit der Approximation abhängig von...


1. Von der Zahl der Ziehungen (bzw. Anzahl der Zufallsvariablen): Je mehr, desto
besser die Approximation
2. von der Unabhängigkeit der Ziehungen (bzw. Zufalls‐ variablen) -> verletzt u.a. bei
Klumpenstichproben
3. von der Verteilung der Ausgangsvariablen: Wenn diese perfekt normalverteilt sind,
ist auch die Approximation perfekt (wenn 1. und 2. erfüllt sind) -> Selbst bei nicht
normalverteilten Merkmalen ist die Approximation bei n>30 hinreichend gut!
- Selbst wenn 1., 2. und/oder 3. nicht gelten, ist die Approximation häufig
ausreichend gut!

Gründe für hohe Bedeutung des zentralen Grenzwertsatzes in schließender Statistik


- Grund 1: Hypothesentests, weil u.a. sowohl die Kennwerteverteilung der
Anteilswerte als auch die Kennwerteverteilung der Mittelwerte asymptotisch der
Normalverteilung folgt (d.h. die Standard- normalverteilung kann als Prüfverteilung
herangezogen werden).
- Grund 2: Bestimmung der Konfidenzintervalle für Anteils- und Mittelwerte (ab n>30)

Gesetz der großen Zahl


Für n->“8“ (unendlich) konvergiert die empirische relative Häufigkeit (posteriori)
gegen die (a priori‐) Wahrscheinlichkeit für das Auftreten von A: pA -> P(A) für n->“8“
(unendlich).
d.h.: Die relative Häufigkeit von A der empirischen Verteilung nähert sich für große n
der Eintrittswahrscheinlichkeit von A
Das Gesetz der großen Zahl lehrt uns, dass größere Stichproben beim
Induktionsschluss genauere Aussagen erlauben als kleinere.
Eigenschaften Binominalverteilung
Binomialverteilung, 𝑋~ 𝐵(𝑛 = ...; 𝜋1 = ...), also n und 𝜋 festgelegt; Zufallsauswahl mit
Zurücklegen

Abhängige vs unabhängige Stichproben


- unabhängig: die Elemente beider Stichproben stammen jeweils aus
unterschiedlichen Populationen und beeinflussen sich somit nicht gegenseitig ->
typisches Befragungsdesign: Individualbefragung im Querschnitt
- abhängig: die Elemente beider Stichproben sind miteinander "verbunden" bzw.
"gepaart" und beeinflussen sich gegenseitig:
(1) natürliche Paare (z.B. Ehepartner, Eltern‐Kind‐Dyaden usw.),
(2) Messwiederholung zu t1 und t2,
(3) Beantwortung mehrerer Fragen durch dieselbe Person (z.B. Zufriedenheit in
verschiedenen Lebensbereichen).
-> typisches Befragungsdesign: Haushaltsbefragung, Panelstudie

Drittvariablenkontrolle: Spezifizierung, Interaktion, Effektheterogenität


- Spezifizierung: Moderatoreffekt: z.B. Der Zusammenhang zwischen „Höhe des
Aufenthaltsorts“ (X) und „Kopfschmerz“ (Y) ist bei nicht‐Bergsteigern (Z=1) stärker
als bei Bergsteigern (Z=0)
- Interaktionseffekt: Veränderung des bedingten Effekts einer Variablen, wenn die
Moderatorvariable um eine Einheit steigt (metrisch) bzw. die Ausprägung der nicht‐
Referenzkategorie annimmt (Dummy)
- Effektheterogenität: Indiz: Neben der Mediation kommt es auch häufiger vor, dass
die konditionalen (bivariaten) Zusammenhänge in den (nach den Ausprägungen von
Z gebildeten) Gruppen nicht verschwinden, sondern – je nach Ausprägung von Z –
lediglich unterschiedlich stark ausfallen

Unterschiede/Gemeinsamkeiten Standardnormalverteilung vs. t-Verteilung im Verlauf


Die t-Verteilung ist konservativer bei kleineren Stichproben (Grund: „breitere
Hüften“); für größere Stichproben ist die t-Verteilung approximativ normalverteilt

Standardabweichung vs. Standardfehler


Eine Standardabweichung gibt die Streuung der Realisierungen einer empirischen
Verteilung an. Ein Standardfehler (einer Kennwerteverteilung) gibt Auskunft darüber,
wie stark die in allen (theoretisch möglichen) Stichproben des Umfangs n
auftretenden Kennwerte um den Erwartungswert der Kennwerteverteilung variieren.
Standardfehler sind Standardabweichungen von Kennwerteverteilungen.

Rolle des Standardfehlers bei Generalisierung der Stichprobe auf Grundgesamtheit


Die Schätzung des Standardfehlers gibt darüber Auskunft, inwieweit damit zu
rechnen ist, dass der aus den Stichprobendaten berechnete Kennwert eher nah
beim oder eher entfernt vom Erwartungswert liegt. Ein kleiner Standardfehler müsste
einer relativ genauen Schätzung ent- sprechen, ein großer Standardfehler weist
darauf hin, dass die Schätzung möglicherweise sehr ungenau ist.
Notwendigkeit Standardfehler
Zur Berechnung von Konfidenzintervallen für Populationsparameter (und zur Prüfung
von Hypothesen über Populationsparameter).

Publikationsbias
Verzerrung bei Journalen bzw. Gutachtern nach Signifikanz der publizierten
Ergebnisse (im Umkehrschluss: geringere Akzeptanzrate insignifikanter Ergebnisse
bei Fachzeitschriften). Gefordert werden Replikationen

Kennwerteverteilung
Eine Kennwerteverteilung ist eine Wahrscheinlichkeitsverteilung der
Stichprobenstatistiken (u.a. Mittelwerte, Anteilswerte) über alle theoretisch mögliche
Stichproben vom Umfang n aus einer definierter Population hinweg.

Schätzung vs. Schätzer


Ein Schätzer ist eine Zufallsvariable (z.B. 𝑥̅ oder 𝑝𝑖), die für die Schätzung eines
unbekannten Populationsparameters (z.B. 𝜇 oder 𝜋1) verwendet wird. Eine
Schätzung ist die Realisation des Schätzers, d.h. der in einer konkreten Stichprobe
beo- bachtete Wert, mit dessen Hilfe auf einen unbekannten Populationswert
inferenzstatistisch geschlossen, bzw. der „geschätzt“ werden soll.

Kriterien zur Beurteilung von Schätzern


- Erwartungstreue: Ein Schätzer ist erwartungstreu (unverzerrt), wenn der
Erwartungswert seiner Kennwerteverteilung mit dem zu schätzenden
Populationswert übereinstimmt. Beispiel: 𝑥̅ für 𝜇.
- Konsistenz: Ein Schätzer ist konsistent, wenn er für immer größere Stichproben
immer genauer wird. Beispiele: 𝑥̅ für 𝜇 sowie sx^2 für 𝜎x^2
- Effizienz (Präzision): Ein erwartungstreuer Schätzer mit der kleinsten Varianz
(Vergleich).

R^2 vs. R^2adj


Der adjustierte Determinationskoeffizient berücksichtigt zusätzlich die Anzahl der
Prädiktoren (in einem „Strafterm“) und „korrigiert“ den Umstand, dass durch das
Hinzufügen zusätzlicher Variablen R^2 niemals fallen kann. R^2adj kann durch
Einbeziehung zusätzlicher Variablen auch kleiner werden und demnach als
Entscheidungshilfe bei Hinzunahme oder Weg- lassen weiterer Prädiktoren dienen.

Strategien Drittvariablenkontrolle
- Scheinzusammenhang und Mediation (vermittelnde Mechanismen)
- Moderation: Prüfung auf Effektunterschiede („Effektheterogenität“)

Kausalitätskriterien für Ursache-Wirkungs-Zusammenhang


- Bivariate statistische Assoziation zwischen X und Y
- Zeitliche Ordnung (X geht Y voraus).
- Assoziation zwischen X und Y bleibt (weitgehend) erhalten, wenn relevante
Drittvariablen Z statistisch kontrolliert werden.

Bedingungen hinsichtlich Variablen, die Interaktionsterm bilden


- 0 muss bei beiden Variablen ein zulässiger Wert sein!
Ø deshalb (und wegen Kollinearität zwischen Einzelkomponenten und
Interaktionsterm) interagierende metrische Variablen am besten zentrieren oder z‐
standardisieren; Dummyvariablen immer mit 0/1 codieren
- Neben dem Interaktionsterm müssen immer beide Einzelkomponenten kontrolliert
werden, ansonsten ist das Modell nicht korrekt spezifiziert,
d.h. Y=b0 +b1·X+b2·Z+b3·X·Z+E
Richtig / Falsch

95% Konfidenzintervall für Populationsmittelwert eines Merkmals X:


- Je größer der Stichprobenumfang n ist, desto geringer ist die Wahrscheinlichkeit,
dass der gesuchte Wert außerhalb der Grenzen des Konfidenzintervalls liegt Falsch
- Wenn die Irrtumswahrscheinlichkeit α größer wird, wird das Konfidenzintervall
breiter. Falsch
- Mit zunehmendem Standardfehler wird das Konfidenzintervall schmaler. Falsch
- Mit einer Wahrscheinlichkeit von 95% umfasst das Konfidenzintervall den
gesuchten Populationsmittelwert. Richtig
- Je größer die Stichprobenfallzahl, umso geringer ist die Irrtumswahrscheinlichkeit.
Falsch
- In 5% aller (theoretisch möglichen) Stichproben umfasst das 95%-
Konfidenzintervall den unbekannten Populationswert nicht. Richtig

Hypothesentests
- Bei jedem Test schließen sich Annahme- und kritischer Bereich aus. Richtig
- Die Größe des 𝛼-Fehlers beeinflusst die Größe des ß-Fehlers. Richtig
- Ob ein- oder zweiseitig getestet wird, muss vor der Testdurchführung aufgrund
sachlogischer Überlegungen entschieden werden. Richtig
- Der Stichprobenumfang hat keinerlei Einfluss auf das Testergebnis. Falsch
- Liegt nach der Durchführung eines Tests die Testgröße nicht im Annahmebereich,
wird die 𝐻0 abgelehnt. Richtig
- Die Größe des Fehlers 1. Art ist zufällig. Falsch
- Wenn die Nullhypothese nicht abgelehnt wird, wird stets ein Fehler 2. Art gemacht.
Falsch
- Wenn die Alternativhypothese richtig ist, beträgt die Wahrscheinlichkeit, aufgrund
des Tester- gebnisses falsch zu entscheiden, höchstens 𝛼. Falsch