Beruflich Dokumente
Kultur Dokumente
Quantitative Datenanalyse
München – Sommersemester 2021
1 Wissenschaftliche Grundlagen
2 Grundlagen Quantitativer Datenanalyse
3 Einführung in R
4 Explorative Datenanalyse
5 Normalverteilung
6 Lineare Regression
7 Inferenzstatistik
8 Inferenz – Beispiele
8 Inferenz – Beispiele
Ziel:
Aussagen treffen, die über die Stichprobe hinausgehen – und dabei
berücksichtigen, dass Variation allgegenwärtig ist und Schlussfolgerungen
unsicher.1
1 Vgl. Moore, D. (2007): The Basic Practice of Statistics, 4th edn. New York: Freeman, S. xxviii.
1 Dann kann bei symmetrischen Verteilungen z. B. der Betrag der Teststatistik verwendet werden. Ansonsten einseitigen p-Wert verdoppeln
Beispielfragestellungen:
▪ Liegt der Frauenanteil unter den Rechnungszahlenden bei 50%?
▪ Liegt der mittlere Rechnungsbetrag höchstens bei 15$?
Für kategoriale Daten ist der Anteil (a)) eine geeignete Zusammenfassung.
Für kategoriale, nominale Daten ist das Balkendiagramm Anteil (a)) eine
geeignete Visualisierung.
Zum Schluss von einer Stichprobe auf die Population wird eine zufällige
Stichprobe (b)) benötigt – andernfalls könnte diese verzerrt sein. Ein hoher
Stichprobenumfang 𝑛 ist generell zu bevorzugen: Er verkleinert den
Standardfehler und damit das Konfidenzintervall sowie bei guten Tests sinkt die
Wahrscheinlichkeit für einen Fehler 2. Art.
# Herunterladen
download.file("https://goo.gl/whKjnl", destfile = "tips.csv")
# Einlesen in R
tips <- read.csv2("tips.csv")
1 Bryant, P. G. and Smith, M (1995): Practical Data Analysis: Case Studies in Business Statistics. Homewood, IL: Richard D. Irwin Publishing
Da es um den Anteil eines Merkmals geht, ist a) richtig. Für b) benötigt man eine
metrische Variable.
Beachte: Es geht hier um den Anteil der insgesamt von Frauen bezahlten
Rechnungen, nicht darum, ob z. B. bei einem Pärchen der Mann oder die Frau
zahlt.
data
observed
test statistic effect: δ*
δ*
model of H0 p-value
simulated distribution of
data δ under H0
Wie lautet das korrekte Hypothesenpaar für die Forschungsfrage, ob der Anteil
der Frauen unter den Rechnungszahlenden nicht bei 50 % liegt?
a) 𝐻0 : 𝜋 = 0,5
b) 𝐻0 : 𝜋 ≠ 0,5
a): Die Nullhypothese ist die Gleichheit, unter der die Verteilung simuliert oder
berechnet wird.
## 2.5% 97.5%
## 0.4385246 0.5614754
b), da in 95 % der Simulationen Werte zwischen 0,44 und 0,56 auftreten. 0,36
liegt nicht darin. Diese Werte werden auch Kritische Werte genannt: Sollte der
beobachtete Anteil 𝑝 außerhalb dieser kritischen Werte liegen, wird 𝐻0 zum
Niveau 𝛼 = 5% verworfen.
Der p-Wert ist sehr klein (p < 0,0001): In keiner der 10000 Simulationen wurde
eine so große Abweichung wie in der Stichprobe beobachtet.
Ein Lagemaß für metrische Daten ist der Mittelwert (b)). Alternative Kennzahlen
wären u. a. der Median.
Beispiel:
Bootstrap-Perzentil-Intervall2 für eine Stichprobe:
▪ Wiederhole z. B. 10000×
▪ Ziehe mit Zurücklegen eine Stichprobe vom Umfang 𝑛 aus der Originalstichprobe.
▪ Berechne Statistik, z. B. Anteil der Bootstrap-Stichprobe.
Analog für andere Statistiken, z. B. Anteil.
▪ Zeichne Histogramm der Bootstrap-Verteilung der Statistik.
▪ Das 95 % Bootstrap Perzentil Intervall sind die mittleren 95 % der
Bootstrap-Verteilung.
1 𝑛 ≥ 35
2 Es gibt weitere, teilweise exaktere Bootstrap-Methoden.
set.seed(1896) # Reproduzierbarkeit
## 2.5% 97.5%
## 18.68888 20.92095
Stimmt die Aussage: Mit 95 % Sicherheit überdeckt der Bereich 18.68$ bis 20.93$
eine zufällig ausgewählte Beobachtung?
a) Ja
b) Nein
## 2.5% 97.5%
## 18.68888 20.92095
Stimmt die Aussage: Mit 95 % Sicherheit überdeckt der Bereich 18.68$ bis 20.93$
eine zufällig ausgewählte Beobachtung?
a) Ja
b) Nein
𝑥ҧ − 𝜇0 𝑥ҧ − 𝜇0
𝑡= = .
𝑠𝑑 2 𝑠𝑒
𝑛
1 Im zweiseitigen Fall
1 Überprüfung z. B. über Q-Q-Plot (gf_qq()).
##
## One Sample t-test
##
## data: total_bill
## t = 8.3976, df = 243, p-value = 1.909e-15
## alternative hypothesis: true mean is greater than 15
## 95 percent confidence interval:
## 18.84492 Inf
## sample estimates:
## mean of x
## 19.78594
p-Wert: 0,3082
𝐻0 : 𝜇 ≤ 42 vs. 𝐻𝐴 : 𝜇 > 42
𝐻0 : 𝜇 ≤ 42 vs. 𝐻𝐴 : 𝜇 > 42
Nein (b)),
…da 𝑥ҧ = 40 Teil der Nullhypothese ist. Falls 𝑥ҧ > 42 ist, wäre c) richtig.
1 „e“
steht hier für „mal 10 hoch“ (Exponentialschreibweise von Gleitkommazahlen,
wissenschaftliches Format (scI)), d.h 2.2𝑒 − 16 = 0,0000 … 22, d.h. = 0. Das ist für
normale Datenformate die Darstellungsgrenze.
c): Der p-Wert gibt an, wie wahrscheinlich bei 𝑛 = 244 Beobachtungen
(und der gegebenen Streuung) ein Mittelwert mindestens so groß wie 𝑥ҧ 𝑑 = 1,02
ist, wenn in Wirklichkeit gilt 𝜇𝑑 = 0.
∗ ∗
I. d. R. 𝑃(𝛿 |𝐻0) ≠ 𝑃(𝐻0|𝛿 ): 𝑃(𝑃𝑎𝑝𝑠𝑡|𝑀𝑎𝑛𝑛) ≠ 𝑃(𝑀𝑎𝑛𝑛|𝑃𝑎𝑝𝑠𝑡).
Beispielfragestellungen:
▪ Ist die durchschnittliche Rechnungshöhe bei Rauchern so hoch wie bei
Nichtrauchern?
▪ Ist der Frauenanteil beim Lunch so hoch wie beim Dinner?1
1 Video Using Randomization to Analyze a Gender Discrimination Study, https://youtu.be/2pHhjx9hyM4, abgerufen am 08. Februar 2019
Hypothesen beziehen sich immer auf die Population, damit sind c) und d) falsch.
Hier geht es um einen Mittelwert und nicht um einen Anteil, damit ist e) falsch.
Die Nullhypothese lautet kein Unterschied, also ist a) auch falsch. Richtig ist b).
50
40
total_bill
30
20
10
No Yes
Smoker
# Mittelwert Stichprobe
mean(total_bill ~ smoker, data = tips)
## No Yes
## 19.18828 20.75634
## diffmean
## 1.568066
set.seed(1896) # Reproduzierbarkeit
Nullvtlg <- do(10000)*
diffmean(total_bill ~ shuffle(smoker), data = tips)
b) Nein: Die beobachtete Differenz ist nicht am Rand der Verteilung unter 𝐻0 .
##
## Welch Two Sample t-test
##
## data: total_bill by smoker
## t = -1.2843, df = 169.63, p-value = 0.2008
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -3.9783704 0.8422385
## sample estimates:
## mean in group No mean in group Yes
## 19.18828 20.75634
Mit einem p-Wert von 0,2 wird die Nullhypothese nicht verworfen, die
beobachteten Werte sind unter 𝐻0 nicht ungewöhnlich.
Beachte: Es wurden keine weiteren Kovariablen berücksichtigt.
## prop_Female.Dinner prop_Female.Lunch
## 0.2954545 0.5147059
set.seed(1896) # Reproduzierbarkeit
## prop_TRUE
## 0.0019
## prop_TRUE
## 0.0019
Hypothesentests schließen immer von der Stichprobe auf die Population, also b).
Beispielfragestellungen:
▪ Ist der Anteil der Raucher*innen je Wochentag gleich?
▪ Ist der Mittelwert des Trinkgeldes je Wochentag gleich?
## day
## smoker Thur Fri Sat Sun
## No 0.7258065 0.2105263 0.5172414 0.7500000
## Yes 0.2741935 0.7894737 0.4827586 0.2500000
## 1
## smoker 1
## No 0.6188525
## Yes 0.3811475
𝑍𝑒𝑖𝑙𝑒𝑛 𝑆𝑝𝑎𝑙𝑡𝑒𝑛 2
𝑂𝑖𝑗 − 𝐸𝑖𝑗
𝜒2 =
𝐸𝑖𝑗
𝑖 𝑗
▪ Nullhypothese: Die beiden nominalen Variablen sind unabhängig voneinander,
d. h., die Verteilung der einen Variable hängt nicht vom Wert der anderen
Variable ab. Große Werte von 𝜒 2 sind unter 𝐻0 unwahrscheinlich.2
Eine Abweichung von 𝐸 − 𝑂 = 42 kann groß oder klein sein, je nach dem wie viel
man erwartet:
Eine Abweichung von 42 ist bei einer unter Unabhängigkeit erwarteten Häufigkeit
von 50 viel, bei 5.000.000 wenig. Daher wird in der Teststatistik durch E relativiert,
also c). Mit Hilfe einer 𝜒 2 -Verteilung oder Permutationsmethoden kann dann für
alle Zellen zusammen entschieden werden, wie wahrscheinlich eine solche
Abweichung unter 𝐻0 ist.
b) Nein,
…die Nullhypothese wird nie bestätigt, sondern bei einem p-Wert (>𝛼) nicht
verworfen. Die Aussage ist also immer falsch – unabhängig vom Testergebnis.
Hier ist der p-Wert mit p-value = 1.057𝑒 − 05 = 1.057 ∗ 10−05 sehr klein. Der
Wert der Teststatistik der Stichprobe, X-squared = 25,787, ist unter der
Nullhypothese der Unabhängigkeit in der Population also unwahrscheinlich.
▪ Ist das Verhältnis der Streuung zwischen den Gruppen im Verhältnis zur
𝑀𝑆𝐺
Streuung innerhalb der Gruppen groß (Teststatistik 𝐹 = 𝑀𝑆𝐸 )1, so ist dies unter
der Nullhypothese unwahrscheinlich.
a) Ja
b) Nein
c) Weiß nicht.
a) Ja
b) Nein
c) Weiß nicht.
b) Nein,
… der p-Wert (Pr(>F)) liegt bei 0.174 > 0.05, also kann 𝐻0 zum üblichen
Signifikanzniveau von 𝛼 = 0.05 nicht verworfen werden.
6
𝑃 𝐹𝑒ℎ𝑙𝑒𝑟 1. 𝐴𝑟𝑡 = 1 − 1 − 0,05 = 0,265
1 Hier: 𝛼 = 0.05
2 Adjustierung z. B. über Funktion p.adjust().
1 D. h. ohne Zurücklegen
2 D. h. mit Zurücklegen
1Siehe Blogbeitrag Sebastian Sauer (20.12.2017) “Zusammenhang von Lernen und Noten im Statistikunterricht”, https://data-
se.netlify.com/2017/12/20/zusammenhang-von-lernen-und-noten-im-statistikunterricht/, abgerufen am 12.Februar 2019