Kapitel8 Inferenz BSP

Wissenschaftliche Methoden –
Quantitative Datenanalyse
München – Sommersemester 2021
Dr. Edda Kloppmann

Lizenz / Version
Diese Folien wurden von Autor*innen der FOM https://www.fom.de/ entwickelt und
stehen unter der Lizenz CC-BY-SA-NC 3.0 de:
https://creativecommons.org/licenses/by-nc-sa/3.0/de/
Der verwendete Code sowie das Beamer Template aus dem NPBT-Projekt von
Norman Markgraf stehen unter der Lizenz GNU General Public License v3.0.
▪ Datum erstellt: 2020-02-12
▪ R Version: 4.0.3
▪ mosaic Version: 1.8.2
Bitte melden Sie Fehler und Verbesserungsvorschläge: karsten.luebke@fom.de

▪ Autor*innen: Karsten Lübke, Oliver Gansser, Matthias Gehrke, Bianca Krol,
Norman Markgraf, Sebastian Sauer, Tanja Kistler, Tabea Treppmann
▪ Hinweise u. a. von Thomas Christiaans, Jörg Horst, Ute Twisselmann, Martin
Vogt, Daniel Ziggel. Vielen Dank!
▪ Bitte beachten Sie, dass Fehler aufgrund Änderungen und Ergänzungen im

Skript auch von mir kommen können. Bitte teilen Sie mir Fehler und
Unklarheiten gerne mit (edda.kloppmann@fom-net.de).
Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse

Inhaltsverzeichnis
1 Wissenschaftliche Grundlagen
2 Grundlagen Quantitativer Datenanalyse
3 Einführung in R
4 Explorative Datenanalyse
5 Normalverteilung
6 Lineare Regression
7 Inferenzstatistik
8 Inferenz – Beispiele
Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 604

Inhaltsverzeichnis
8 Inferenz – Beispiele

Inferenz – Beispiele
Lernziele
Was lernen Sie in diesem Kapitel?
• Anwendungsbeispiele für die Inferenz einer Variable zu nennen, zu erläutern und in
R zu berechnen – sowohl für nominale als auch metrische Variablen.
• Anwendungsbeispiele für die Inferenz zum Vergleich zweier Gruppen bzw. zum
Zusammenhang zweier Variablen zu nennen, zu erläutern und in R zu berechnen –
sowohl für nominale als auch metrische Variablen.
• Anwendungsbeispiele für die Inferenz zum Vergleich von mehr als zwei Gruppen zu
nennen, zu erläutern und in R zu berechnen – sowohl für nominale als auch
metrische Variablen.

Wiederholung: Inferenz
Idee:
Schluss von einer (zufälligen / randomisierten) Stichprobe auf eine Population:
▪ Punktschätzung
▪ Konfidenzintervall
▪ Hypothesentest
Ziel:
Aussagen treffen, die über die Stichprobe hinausgehen – und dabei
berücksichtigen, dass Variation allgegenwärtig ist und Schlussfolgerungen
unsicher.1
1 Vgl. Moore, D. (2007): The Basic Practice of Statistics, 4th edn. New York: Freeman, S. xxviii.

Wiederholung: Ablauf Hypothesenprüfung
1. Inhaltliche Hypothese operationalisieren.
2. Nullhypothese 𝐻0 (und Alternativhypothese 𝐻𝐴, Forschungsvermutung)
festlegen.
Dazu passende Teststatistik bestimmen:
▪ Sprechen hohe Werte der Teststatistik für die Forschungsthese?
▪ Sprechen niedrige Werte der Teststatistik für die Forschungsthese?
▪ Sprechen sowohl hohe als auch niedrige Werte für die Forschungsthese?1
3. Verteilung der Teststatistik unter 𝐻0 bestimmen.
4. Prüfung über p-Wert: Ist der beobachtete Wert der Teststatistik der Stichprobe
unter 𝐻0 (sehr) selten?
▪ Nein: 𝐻0 kann nicht verworfen werden. Abweichung nicht signifikant.
▪ Ja: 𝐻0 wird verworfen. Abweichung signifikant.
1 Dann kann bei symmetrischen Verteilungen z. B. der Betrag der Teststatistik verwendet werden. Ansonsten einseitigen p-Wert verdoppeln

Wiederholung: Grundlagen Inferenz
▪ Voraussetzung:
Unabhängig, identisch verteilte Daten, z. B. aufgrund einer zufälligen
Stichprobe oder einer zufälligen Zuordnung.
▪ 𝑌 ~ 1 (D. h. ohne unabhängige Variable):
Modellierte Verteilung (z. B. Binomial- oder Normalverteilung) von 𝑌 hängt von
einem interessierenden Parameter ab.
Nullhypothese z. B. 𝜋 = 𝜋0 oder 𝜇 = 𝜇0.
▪ 𝑌 ~ 𝑋:
Die Modellierung der Verteilung von 𝑌 hängt evtl. von 𝑋 ab: Nullhypothese:
Die Verteilung von 𝑌 ist für alle 𝑋 gleich.
▪ Bei den Regressionsverfahren können mehrere unabhängige Variablen 𝑋
(mit unterschiedlichem Skalenniveau) in der Modellierung berücksichtigt
werden.

Praxistransfer: 𝑌 kategorial
▪ Analyse des Anteils der Studierenden, die die Vorlesung nachbereiten –
ggf. je nach Geschlecht oder Studiengang.
▪ Untersuchung des Anteils der Mitarbeiter*innen, die während der Arbeit Social
Media nutzen – ggf. je nach Geschlecht.
▪ Analyse des Anteils der betrügerischen Versicherungsvorgänge –
ggf. je nach Vertragsart.
▪ Vergleich des Anteils der dividendenzahlenden Unternehmen je Index.
▪ Anteil von „Blockbuster-Movies” pro Film-Genre (s. Datensatz ggplot2movies).

Praxistransfer: 𝑌 metrisch
▪ Analyse des mittleren Workloads der Studierenden –
ggf. je nach Geschlecht oder Studiengang.
▪ Untersuchung des Humors 1 der Mitarbeiter*innen,
ggf. je Geschlecht oder Abteilung.
▪ Vergleich der Kaufkraft der Kund*innen mit oder ohne Kundenkarte.
▪ Analyse der Rendite von Investitionsalternativen.
▪ Vergleich der Mitarbeiter-Zufriedenheit zwischen Abteilungen
1 Latente Variable, daher Operationalisierung erforderlich

Inferenz einer Variable: 𝑌 ~ 1

Einführung
𝑌 ~ 1 (d. h. ohne unabhängige Variable):
Modellierte Verteilung (z. B. Binomial- oder Normalverteilung) von 𝑌 hängt von
einem interessierenden Parameter ab.
Nullhypothese z. B. 𝜋 = 𝜋0 (kategorial) oder 𝜇 = 𝜇0 (metrisch).
Beispielfragestellungen:
▪ Liegt der Frauenanteil unter den Rechnungszahlenden bei 50%?
▪ Liegt der mittlere Rechnungsbetrag höchstens bei 15$?

Übung: Statistik der Essenszeit
Durch welche Statistik kann die Verteilung der Variable Essenzeit (Lunch / Dinner)
sinnvoll beschrieben werden?
a) Anteil
b) Arithmetischer Mittelwert

Lösung Übung: Statistik der Essenszeit
Durch welche Statistik kann die Verteilung der Variable Essenzeit (Lunch / Dinner)
a) Anteil
Für kategoriale Daten ist der Anteil (a)) eine geeignete Zusammenfassung.

Übung: Visualisierung der Essenszeit
Durch welche Grafik kann die Verteilung der Variable Essenzeit (Lunch / Dinner)
sinnvoll dargestellt werden?
a) Balkendiagramm
b) Histogramm
c) Boxplot

Lösung Übung: Visualisierung der Essenszeit
Durch welche Grafik kann die Verteilung der Variable Essenzeit (Lunch / Dinner)
sinnvoll dargestellt werden?
a) Balkendiagramm
b) Histogramm
c) Boxplot
Für kategoriale, nominale Daten ist das Balkendiagramm Anteil (a)) eine
geeignete Visualisierung.

Übung: Gültigkeit Inferenz
Wann ist aufgrund einer Quantitativen Datenanalyse eine Aussage über die
Population gerechtfertigt?
a) Nie
b) Bei einer zufälligen Stichprobe
c) Bei einer randomisierten Zuordnung innerhalb eines Experimentes
d) Bei einem hohen Stichprobenumfang 𝑛
e) Immer

Lösung Übung: Gültigkeit Inferenz
Wann ist aufgrund einer Quantitativen Datenanalyse eine Aussage über die
Population gerechtfertigt?
a) Nie
e) Immer
Zum Schluss von einer Stichprobe auf die Population wird eine zufällige
Stichprobe (b)) benötigt – andernfalls könnte diese verzerrt sein. Ein hoher
Stichprobenumfang 𝑛 ist generell zu bevorzugen: Er verkleinert den
Standardfehler und damit das Konfidenzintervall sowie bei guten Tests sinkt die
Wahrscheinlichkeit für einen Fehler 2. Art.

Einlesen der Daten
Einlesen der Tipping1-Daten:
# Herunterladen
download.file("https://goo.gl/whKjnl", destfile = "tips.csv")
# Einlesen in R
tips <- read.csv2("tips.csv")
# Alternativ - heruntergeladene Datei einlesen:

# tips <- read.csv2(file.choose())
library(mosaic) # Paket mosaic laden
1 Bryant, P. G. and Smith, M (1995): Practical Data Analysis: Case Studies in Business Statistics. Homewood, IL: Richard D. Irwin Publishing

Frauenanteil der Rechnungszahler*innen: Deskriptive Analyse
Tabelle:
tally( ~ sex, format = "proportion", data = tips)
## sex
## Female Male
## 0.3565574 0.6434426
Balkendiagramm:
gf_percents( ~ sex, data = tips)

Übung: Testverfahren Frauenanteil der Rechnungszahler*innen
Welches ist das richtige Testverfahren, um die Forschungsthese zu untersuchen,
dass der Anteil der Rechnungszahlerinnen, d. h. sex=="Female", in der
Population nicht bei 50% liegt?
a) Test eines Anteilswertes

b) Test zweier Anteilswerte

Lösung Übung: Testverfahren Frauenanteil der Rechnungszahler*innen
Welches ist das richtige Testverfahren, um die Forschungsthese zu untersuchen,

dass der Anteil der Rechnungszahlerinnen, d. h. sex=="Female", in der
Population nicht bei 50% liegt?
a) Test eines Anteilswertes

b) Test zweier Anteilswerte
Da es um den Anteil eines Merkmals geht, ist a) richtig. Für b) benötigt man eine
metrische Variable.
Beachte: Es geht hier um den Anteil der insgesamt von Frauen bezahlten
Rechnungen, nicht darum, ob z. B. bei einem Pärchen der Mann oder die Frau
zahlt.

Wiederholung: Schema Hypothesentest
data
observed
test statistic effect: δ*
δ*
model of H0 p-value
simulated distribution of
data δ under H0
Alternative: Verwende theoretische Verteilungsannahmen unter 𝐻0, häufig

approximativ oder asymptotisch.1
Abbildung: Quelle: Blogbeitrag Allen Downey, http://allendowney.blogspot.de/2016/06/there-is-still-only-one-test.html, abgerufen am 08. Februar

2019
1 Bspw. Binomial- oder χ2-Verteilungen

Übung: Frauenanteil der Rechnungszahler*innen: Hypothese
Wie lautet das korrekte Hypothesenpaar für die Forschungsfrage, ob der Anteil
der Frauen unter den Rechnungszahlenden nicht bei 50 % liegt?
a) 𝐻0 : 𝜋 = 0,5
b) 𝐻0 : 𝜋 ≠ 0,5

Lösung Übung: Frauenanteil der Rechnungszahler*innen: Hypothese
Wie lautet das korrekte Hypothesenpaar für die Forschungsfrage, ob der Anteil
der Frauen unter den Rechnungszahlenden nicht bei 50 % liegt?
a) 𝐻0 : 𝜋 = 0,5
b) 𝐻0 : 𝜋 ≠ 0,5
a): Die Nullhypothese ist die Gleichheit, unter der die Verteilung simuliert oder
berechnet wird.

Simulation des Frauenanteils unter 𝐻0
Lege die Zufallszahlen fest.
Nullvtlg soll sein:
Wiederhole 10000-Mal:
Wirf n = 244 faire zweiseitige Münzen.
set.seed(1896) # Zufallszahlengenerator setzen
Nullvtlg <- do(10000) * # 10000 Wiederholungen

rflip(n = nrow(tips)) # n-facher Münzwurf
Nullvtlg <- do(10000) * rflip(n = 244) # row(tips) = 244

Simulierte Stichproben des Frauenanteils
Visualisierung der Verteilung des Frauenanteils, wenn das Modell
𝐻0 ∶ 𝜋 = 0,5 stimmt:
gf_histogram( ~ prop, data = Nullvtlg)

Ist der beobachtete Wert selten unter der 𝐻0?
Beobachteter Frauenanteil 𝜋ො = 𝑝:
propdach <- prop( ~ sex, data = tips,
success = "Female")
propdach
## prop_Female
## 0.3565574
Quantile für extreme Werte in der Verteilung unter 𝐻0 ∶ 𝜋 = 0.5 (𝛼 = 5%):

quantile( ~ prop, data = Nullvtlg,
probs=c(0.025, 0.975))
## 2.5% 97.5%
## 0.4385246 0.5614754

Übung: Interpretation des Simulationsergebnis
Welche der folgenden Aussagen stimmt?
a) Ein Frauenanteil von 0,36 in der Stichprobe ist unter der Annahme, der Anteil
in der Population liegt bei 0,5, ein üblicher Wert.
b) Ein Frauenanteil von 0,36 in der Stichprobe ist unter der Annahme, der Anteil
in der Population liegt bei 0,5, kein üblicher Wert.

Lösung Übung: Interpretation des Simulationsergebnis
a) Ein Frauenanteil von 0,36 in der Stichprobe ist unter der Annahme, der Anteil
in der Population liegt bei 0,5, ein üblicher Wert.
b) Ein Frauenanteil von 0,36 in der Stichprobe ist unter der Annahme, der Anteil
in der Population liegt bei 0,5, kein üblicher Wert
b), da in 95 % der Simulationen Werte zwischen 0,44 und 0,56 auftreten. 0,36
liegt nicht darin. Diese Werte werden auch Kritische Werte genannt: Sollte der
beobachtete Anteil 𝑝 außerhalb dieser kritischen Werte liegen, wird 𝐻0 zum
Niveau 𝛼 = 5% verworfen.

p-Wert des Frauenanteils
Berechne unter der Annahme der 𝐻0, dass der Frauenanteil 𝜋 = 1/2 beträgt, die
Wahrscheinlichkeit eines Wertes wie der beobachteten Teststatistik 𝑝 (oder noch
extremerer Werte):
# Absolute Abweichung zu p_0=0.5 in der Stichprobe
abw.stichpro <- abs(propdach - 0.5)
# Absolute Abweichung zu 0.5 zur Nullverteilung hinzufügen
Nullvtlg <- Nullvtlg %>%
mutate(abw = abs(prop-0.5))
# Anteil mindestens so großer Abweichungen unter H_0
prop( ~ (abw >= abw.stipro),data = Nullvtlg)
## prop_TRUE
## 0
Der p-Wert ist sehr klein (p < 0,0001): In keiner der 10000 Simulationen wurde
eine so große Abweichung wie in der Stichprobe beobachtet.

Übung: Statistik Rechnungshöhe
Durch welche Statistik kann die zentrale Tendenz der Variable Rechnungshöhe
a) Anteil

Lösung Übung: Statistik Rechnungshöhe
Durch welche Statistik kann die zentrale Tendenz der Variable Rechnungshöhe
a) Anteil
Ein Lagemaß für metrische Daten ist der Mittelwert (b)). Alternative Kennzahlen
wären u. a. der Median.

Deskriptive Analyse Rechnungshöhe
gf_histogram( ~ total_bill, data = tips)
favstats( ~ total_bill, data = tips)

## min Q1 median Q3 max mean sd n missing
## 3.07 13.3475 17.795 24.1275 50.81 19.78594 8.902412 244 0

Übung: Verteilung der Rechnungshöhe
a) Die Rechnungshöhe ist gleichverteilt.
b) Die Rechnungshöhe ist multimodal.
c) Die Rechnungshöhe ist normalverteilt.
d) Die Rechnungshöhe ist linksschief.
e) Die Rechnungshöhe ist rechtsschief.

Lösung Übung: Verteilung der Rechnungshöhe
a) Die Rechnungshöhe ist gleichverteilt.
b) Die Rechnungshöhe ist multimodal.
c) Die Rechnungshöhe ist normalverteilt.
d) Die Rechnungshöhe ist linksschief.
e) Die Rechnungshöhe ist rechtsschief.
e): Linkssteil, rechtsschief – wie häufig bei Umsätzen etc.:

Viele machen wenig Umsatz, wenige viel.

Wiederholung: Ablauf Bootstrap
Voraussetzungen:
▪ Zufällige Stichprobe oder zufällige Zuordnung.
▪ Nicht zu kleine Stichprobe.1
Beispiel:
Bootstrap-Perzentil-Intervall2 für eine Stichprobe:
▪ Wiederhole z. B. 10000×
▪ Ziehe mit Zurücklegen eine Stichprobe vom Umfang 𝑛 aus der Originalstichprobe.
▪ Berechne Statistik, z. B. Anteil der Bootstrap-Stichprobe.
Analog für andere Statistiken, z. B. Anteil.
▪ Zeichne Histogramm der Bootstrap-Verteilung der Statistik.
▪ Das 95 % Bootstrap Perzentil Intervall sind die mittleren 95 % der
Bootstrap-Verteilung.
1 𝑛 ≥ 35
2 Es gibt weitere, teilweise exaktere Bootstrap-Methoden.

Bootstrap: Mittlere Rechnungshöhe
Lege die Zufallszahlen fest.
Bootvtlg soll sein:
Wiederhole 10000 Mal:
▪ Berechne den Mittelwert der Rechnungshöhe,
▪ Der Datensatz „tips" soll dabei jedes Mal resampelt werden.
set.seed(1896) # Reproduzierbarkeit
Bootvtlg <- do(10000)*

mean( ~ total_bill, data = resample(tips))

Bootstrap-Verteilung mittlere Rechnungshöhe
gf_histogramm( ~ mean, data = Bootvlg)

Übung: Verteilung: Mittlere Rechnungshöhe
a) Der Mittelwert der Rechnungshöhe ist gleichverteilt.
b) Der Mittelwert der Rechnungshöhe ist multimodal.
c) Der Mittelwert der Rechnungshöhe ist normalverteilt.
d) Der Mittelwert der Rechnungshöhe ist linksschief.
e) Der Mittelwert der Rechnungshöhe ist rechtsschief.

Lösung Übung: Verteilung: Mittlere Rechnungshöhe
a) Der Mittelwert der Rechnungshöhe ist gleichverteilt.
b) Der Mittelwert der Rechnungshöhe ist multimodal.
c) Der Mittelwert der Rechnungshöhe ist normalverteilt.
d) Der Mittelwert der Rechnungshöhe ist linksschief.
e) Der Mittelwert der Rechnungshöhe ist rechtsschief.
Der Zentrale Grenzwertsatz sagt, dass Mittelwerte von unabhängigen

Zufallsstichroben i. d. R. gegen eine Normalverteilung konvergieren.
Dies sieht man hier: c).

Übung: Konfidenzintervall
quantile( ~ mean, probs = c(0.025, 0.975), data = Bootvtlg)
## 2.5% 97.5%
## 18.68888 20.92095
Stimmt die Aussage: Mit 95 % Sicherheit überdeckt der Bereich 18.68$ bis 20.93$
eine zufällig ausgewählte Beobachtung?
a) Ja
b) Nein

Lösung Übung: Konfidenzintervall
quantile( ~ mean, probs = c(0.025, 0.975), data = Bootvtlg)
## 2.5% 97.5%
## 18.68888 20.92095
Stimmt die Aussage: Mit 95 % Sicherheit überdeckt der Bereich 18.68$ bis 20.93$
eine zufällig ausgewählte Beobachtung?
a) Ja
b) Nein
Konfidenzintervalle beziehen sich immer auf Populationswerte, daher Nein. Auf

lange Sicht erwarten wir, dass 95% der auf diese Art und Weise konstruierten
Intervalle den wahren, unbekannten, festen Wert µ enthalten. Bei
Normalverteilung liegen ca. 95% der Beobachtungen im Bereich 𝑥ҧ ± 2 · 𝑠𝑑, das
95%-Konfidenzintervall hingegen liegt ca. im Bereich 𝑥ҧ ± 2 · 𝑠𝑒.

Klassischer Lagetest: t-Test
▪ Einstichproben-t-Test: Eine Stichprobe, ein Merkmal: 𝐻0: 𝜇 = 𝜇0
𝑥ҧ − 𝜇0 𝑥ҧ − 𝜇0
𝑡= = .
𝑠𝑑 2 𝑠𝑒
𝑛
▪ t-Test für abhängige Stichproben, gepaarter t-Test:

Eine Stichprobe, zwei Merkmale, es wird die Differenz je Beobachtung
analysiert: 𝐻0: 𝜇𝑥1 −𝑥2 = 𝛿0
▪ Große Werte von |t|1 sind unter der Nullhypothese unwahrscheinlich.
▪ Voraussetzung: Daten innerhalb der Stichprobe(n) unabhängig, identisch,
normalverteilt.2
1 Im zweiseitigen Fall
1 Überprüfung z. B. über Q-Q-Plot (gf_qq()).

Einstichproben-t-Test
t.test( ~ total_bill, # Variable die analysiert wird

mu = 15, # Wert für mu0
alternative = "greater", # ein- oder zweiseitiger Test
data = tips) # Datensatz
##
## One Sample t-test
##
## data: total_bill
## t = 8.3976, df = 243, p-value = 1.909e-15
## alternative hypothesis: true mean is greater than 15
## 95 percent confidence interval:
## 18.84492 Inf
## sample estimates:
## mean of x
## 19.78594

Übung: Testergebnis: Rechnungshöhe
Tritt ein Wert wie der in der Stichprobe beobachtete Mittelwert unter 𝐻0 : 𝜇 ≤ 15
häufig auf?
a) Ja
b) Nein

Lösung Übung: Testergebnis: Rechnungshöhe
Tritt ein Wert wie der in der Stichprobe beobachtete Mittelwert unter 𝐻0 : 𝜇 ≤ 15
häufig auf?
a) Ja
b) Nein
𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 1.909𝑒 − 15 = 1.909 ∗ 10−15 = 0,000000000000001909 < 0,05,

also Nein (b)).
„e“ steht hier für „mal 10 hoch“ (Exponentialschreibweise von Gleitkommazahlen,

wissenschaftliches Format (scI))

Übung: Fehlerart t-Test
Angenommen, in Wirklichkeit gilt μ ≤ 15. Welcher Fehler wurde begangen?
a) Fehler 1. Art, 𝛼-Fehler
b) Fehler 2. Art, 𝛽-Fehler

Lösung Übung: Fehlerart t-Test
Angenommen, in Wirklichkeit gilt μ ≤ 15. Welcher Fehler wurde begangen?
a) Fehler 1. Art, 𝛼-Fehler
b) Fehler 2. Art, 𝛽-Fehler
Wenn in Wirklichkeit 𝐻0 gilt, die Testentscheidung aber lautet, dass 𝐻0 verworfen

wird, so spricht man vom Fehler 1. Art (a)). Die Häufigkeit, dass das Verfahren
einen solchen Fehler begeht, wird durch das Signifikanzniveau 𝛼 kontrolliert.

Übung: p-Wert
Was würde passieren, wenn die vorher festgelegte Hypothese1 nicht
𝐻0 : 𝜇 ≤ 15 gegen 𝐻𝐴 : 𝜇 > 15, sondern 𝐻0 : 𝜇 ≤ 19,5 gegen 𝐻𝐴 : 𝜇 > 19,5 lauten
würde?
a) Der p-Wert wird kleiner.
b) Der p-Wert wird größer.
c) Der p-Wert ändert sich nicht.
1 Hypothesen dürfen nicht nach der Analyse angepasst werden!

Lösung Übung: p-Wert
Was würde passieren, wenn die vorher festgelegte Hypothese1 nicht
𝐻0 : 𝜇 ≤ 15 gegen 𝐻𝐴 : 𝜇 > 15, sondern 𝐻0 : 𝜇 ≤ 19,5 gegen 𝐻𝐴 : 𝜇 > 19,5 lauten
würde?
a) Der p-Wert wird kleiner.
b) Der p-Wert wird größer.
c) Der p-Wert ändert sich nicht.
Da die Abweichung von 𝑥ҧ zu 𝜇0 kleiner wird, steigt der p-Wert (b)):

Der beobachtete Wert (Teststatistik) wird, wenn die Nullhypothese gilt,
wahrscheinlicher. Relativ kleine Abweichungen kommen zufällig häufiger vor als
relativ große Abweichungen.
t.test( ~ total_bill, mu=19.5, alternative="greater",

data=tips)
p-Wert: 0,3082
1 Hypothesen dürfen nicht nach der Analyse angepasst werden!

Übung: t-Test
Bei einem gerichteten Einstichproben-t-Test für
𝐻0 : 𝜇 ≤ 42 vs. 𝐻𝐴 : 𝜇 > 42
kommt als Schätzwert der Stichprobe ෝ𝜇 = 𝑥ҧ = 40 raus.
Wird der t-Test die Nullhypothese verwerfen?

a) Ja
b) Nein
𝑠𝑑
c) Vielleicht. Hängt von 𝑠𝑒 = ab.
𝑛

Lösung Übung: t-Test
Bei einem gerichteten Einstichproben-t-Test für
𝐻0 : 𝜇 ≤ 42 vs. 𝐻𝐴 : 𝜇 > 42
kommt als Schätzwert der Stichprobe ෝ𝜇 = 𝑥ҧ = 40 raus.
Wird der t-Test die Nullhypothese verwerfen?

a) Ja
b) Nein
𝑠𝑑
c) Vielleicht. Hängt von 𝑠𝑒 = ab.
𝑛
Nein (b)),
…da 𝑥ҧ = 40 Teil der Nullhypothese ist. Falls 𝑥ҧ > 42 ist, wäre c) richtig.

t-Test der Differenz zweier Merkmale
Liefern die Daten Indizien, dass die mittlere relative Trinkgeldhöhe über 10% liegt?
Betrachte dazu je Beobachtung die Differenz 𝑥𝑑 = 𝑥𝑡𝑖𝑝 − 0,1 ∙ 𝑥𝑡𝑜𝑡𝑎𝑙_𝑏𝑖𝑙𝑙 :
Differenz bilden:
tips <- tips %>% mutate(t_diff = tip – 0.1 * total_bill)
t-Test der Differenz durchführen:

t.test( ~ t_diff, data = tips, alternative = "greater")
##
## One Sample t-test
##
## data: t_diff
## t = 15.602, df = 243, p-value < 2.2e-16
## alternative hypothesis: true mean is greater than 0
## 0.9117688 Inf
## mean of x
## 1.019684

Übung: Gepaarter t-Test
Was sagt der p-value < 2.2𝑒 − 16 1 aus?
a) Die Wahrscheinlichkeit, dass die Nullhypothese stimmt, ist kleiner
als 2,2 ∙ 10−16 .
b) Die Wahrscheinlichkeit, dass die Alternativhypothese stimmt, ist kleiner als
2,2 ∙ 10−16 .
c) Weder a) noch b).
1 „e“
steht hier für „mal 10 hoch“ (Exponentialschreibweise von Gleitkommazahlen,
wissenschaftliches Format (scI)), d.h 2.2𝑒 − 16 = 0,0000 … 22, d.h. = 0. Das ist für
normale Datenformate die Darstellungsgrenze.

Lösung Übung: Gepaarter t-Test
Was sagt der p-value < 2.2𝑒 − 16 aus?
a) Die Wahrscheinlichkeit, dass die Nullhypothese stimmt, ist kleiner
als 2.2 ∙ 10−16 .
b) Die Wahrscheinlichkeit, dass die Alternativhypothese stimmt, ist kleiner als
2.2 ∙ 10−16 .
c) Weder a) noch b).
c): Der p-Wert gibt an, wie wahrscheinlich bei 𝑛 = 244 Beobachtungen
(und der gegebenen Streuung) ein Mittelwert mindestens so groß wie 𝑥ҧ 𝑑 = 1,02
ist, wenn in Wirklichkeit gilt 𝜇𝑑 = 0.
∗ ∗
I. d. R. 𝑃(𝛿 |𝐻0) ≠ 𝑃(𝐻0|𝛿 ): 𝑃(𝑃𝑎𝑝𝑠𝑡|𝑀𝑎𝑛𝑛) ≠ 𝑃(𝑀𝑎𝑛𝑛|𝑃𝑎𝑝𝑠𝑡).

Zwei Gruppen Vergleich: Y ~ X

A / B Tests
▪ Anhand einer Variable 𝑋 können die Daten in zwei Gruppen (Stichproben)
unterteilt werden: A, B.
▪ Unter 𝐻0: Kein Unterschied in der Verteilung zweier Stichproben (Gruppen) in
der Population, z. B.
▪ 𝑌 𝑚𝑒𝑡𝑟𝑖𝑠𝑐ℎ: 𝜇𝐴 = 𝜇𝐵
▪ 𝑌 𝑘𝑎𝑡𝑒𝑔𝑜𝑟𝑖𝑎𝑙: 𝜋𝐴 = 𝜋𝐵
▪ Ist die durchschnittliche Rechnungshöhe bei Rauchern so hoch wie bei
Nichtrauchern?
▪ Ist der Frauenanteil beim Lunch so hoch wie beim Dinner?1
1 Video Using Randomization to Analyze a Gender Discrimination Study, https://youtu.be/2pHhjx9hyM4, abgerufen am 08. Februar 2019

Ablauf des Permutationstest
Voraussetzung:
Zufällige Stichprobe (Permutation) oder zufällige Zuordnung (Randomisation).
▪ Wiederhole oft (z. B. 10000x):

▪ Mische die 𝑛𝐴 + 𝑛𝐵 Beobachtungen.
▪ Ordne zufällig 𝑛𝐴 Beobachtungen der ersten Stichprobe zu, die restlichen der zweiten.
▪ Berechne die Differenz der Mittelwerte. Analoges gilt für andere Teststatistiken, z. B.
Anteilsdifferenzen.
▪ Zeichne ein Histogramm für die 10000 Mittelwertsdifferenzen.
▪ Der p-Wert ist der Anteil der simulierten Teststatistiken, die mindestens so groß
sind wie der beobachtete Wert.1
1 Bei symmetrischen zweiseitigen Tests im Absolutbetrag

Übung: Testverfahren
Testverfahren: Differenz mittlere Rechnungshöhe Raucher / Nichtraucher
Welches ist ein geeignetes Verfahren, um zu prüfen, ob die Verteilung in der
Population bei Rauchern und Nichtrauchern gleich ist, d. h. die Forschungsthese
lautet:
Es gibt einen Unterschied in der Verteilung der Population?
a) Anteilswertvergleich
b) Mittelwertvergleich

Lösung Übung: Testverfahren
Testverfahren: Differenz mittl. Rechnungshöhe Raucher / Nichtraucher
Welches ist ein geeignetes Verfahren, um zu prüfen, ob die Verteilung in der
Population bei Rauchern und Nichtrauchern gleich ist, d. h. die Forschungsthese
lautet:
Es gibt einen Unterschied in der Verteilung der Population?
a) Anteilswertvergleich
b) Mittelwertvergleich
Ein metrisches Merkmal (𝑌: Rechnungshöhe), zwei (unabhängige) Stichproben (𝑋:

Raucher- bzw. Nichtrauchertische), also b).

Übung: Hypothese: Differenz mittlere Rechnungshöhe
Hypothese Differenz mittlere Rechnungshöhe Raucher / Nichtraucher
Wie lautet das richtige Hypothesenpaar?
a) 𝐻0 : 𝜇𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 ≠ 𝜇𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜 vs. 𝐻𝐴 : 𝜇𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 = 𝜇𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜
b) 𝐻0 : 𝜇𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 = 𝜇𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜 vs. 𝐻𝐴 : 𝜇𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 ≠ 𝜇𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜
c) 𝐻0 : 𝑥ҧ𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 ≠ 𝑥ҧ𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜 vs. 𝐻𝐴 : 𝑥ҧ𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 = 𝑥ҧ𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜
d) 𝐻0 : 𝑥ҧ𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 = 𝑥ҧ𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜 vs. 𝐻𝐴 : 𝑥ҧ𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 ≠ 𝑥ҧ𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜
e) 𝐻0 : 𝜋𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 ≠ 𝜋𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜 vs. 𝐻𝐴 : 𝜋𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 = 𝜋𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜

Lösung Übung: Hypothese: Differenz mittlere Rechnungshöhe
Hypothese Differenz mittlere Rechnungshöhe Raucher / Nichtraucher
Wie lautet das richtige Hypothesenpaar?
a) 𝐻0 : 𝜇𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 ≠ 𝜇𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜 vs. 𝐻𝐴 : 𝜇𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 = 𝜇𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜
b) 𝐻0 : 𝜇𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 = 𝜇𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜 vs. 𝐻𝐴 : 𝜇𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 ≠ 𝜇𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜
c) 𝐻0 : 𝑥ҧ𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 ≠ 𝑥ҧ𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜 vs. 𝐻𝐴 : 𝑥ҧ𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 = 𝑥ҧ𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜
d) 𝐻0 : 𝑥ҧ𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 = 𝑥ҧ𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜 vs. 𝐻𝐴 : 𝑥ҧ𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 ≠ 𝑥ҧ𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜
e) 𝐻0 : 𝜋𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 ≠ 𝜋𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜 vs. 𝐻𝐴 : 𝜋𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 = 𝜋𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜
Hypothesen beziehen sich immer auf die Population, damit sind c) und d) falsch.
Hier geht es um einen Mittelwert und nicht um einen Anteil, damit ist e) falsch.
Die Nullhypothese lautet kein Unterschied, also ist a) auch falsch. Richtig ist b).

Boxplot: Rechnungshöhe Raucher / Nichtraucher
Analyse des Unterschieds der Rechnungshöhe zwischen Rauchern und
Nichtrauchern:
gf_boxplot(total_bill ~ smoker, data = tips)
50
40
total_bill
30
20
10
No Yes
Smoker

Violin-Plot: Rechnungshöhe Raucher / Nichtraucher
Ein Violin-Plot ist eine Mischung aus Dichteplot und Boxplot.
Hier wird der Mittelwert eingezeichnet.
gf_violin(total_bill ~ smoker, data = tips) %>%

gf_point(total_bill ~ smoker, data = tips,
stat = "summary", fun.y = "mean", color = "red")

Differenz: Mittlere Rechnungshöhe Raucher / Nichtraucher
In der Stichprobe wurden folgende (Mittel-) Werte beobachtet:
# Mittelwert Stichprobe
mean(total_bill ~ smoker, data = tips)
## No Yes
## 19.18828 20.75634
# Differenz Mittelwert Stichprobe

diffmean(total_bill ~ smoker, data = tips)
## diffmean
## 1.568066
𝜇Ƹ 𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 − 𝜇Ƹ 𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜 = 1,57

Permutationstest: Differenz mittlere Rechnungshöhe
Differenz mittlere Rechnungshöhe Raucher / Nichtraucher
Nullvtlg soll sein:
▪ Berechne den Unterschied im Mittelwert der Rechnungshöhe
(Raucher vs. Nichtraucher);
▪ Dabei soll das Merkmal *Raucher* jeweils permutiert werden.
Nullvtlg <- do(10000)*
diffmean(total_bill ~ shuffle(smoker), data = tips)

Verteilung unter 𝐻0
gf_histogram( ~ diffmean, data = Nullvtlg) %>%
gf_vline(xintercept = ~diffmean(total_bill ~ smoker, data = tips)

Übung: Testverfahren: Differenz mittlere Rechnungshöhe

Ist die beobachtete Differenz der Mittelwerte (sehr) unplausibel unter der
Annahme, dass es keinen Unterschied in der Verteilung gibt?
a) Ja.
b) Nein.

Lösung Übung: Testverfahren Differenz mittlere Rechnungshöhe

Ist die beobachtete Differenz der Mittelwerte (sehr) unplausibel unter der
Annahme, dass es keinen Unterschied in der Verteilung gibt?
a) Ja.
b) Nein.
b) Nein: Die beobachtete Differenz ist nicht am Rand der Verteilung unter 𝐻0 .

Klassische Alternative: Zweistichproben-t-Test
Alternativ kann der t-Test eingesetzt werden:
t.test(total_bill ~ # Abhängige Variable
smoker, # Unabhängige Variable
##
## Welch Two Sample t-test
##
## data: total_bill by smoker
## t = -1.2843, df = 169.63, p-value = 0.2008
## alternative hypothesis: true difference in means is not equal to 0
## -3.9783704 0.8422385
## mean in group No mean in group Yes
## 19.18828 20.75634

Offene Übung: Rechnungshöhe Raucher / Nichtraucher
Fassen Sie die vorangegangene Analyse zusammen. Wie lautete die
Forschungsfrage, Hypothesen und die Antwort auf die Forschungsfrage.
1. Think: Überlegen Sie für sich.
2. Pair: Teilen Sie Ihr Ergebnis mit dem Nachbarn / der Nachbarin.
3. Share: Stellen Sie Ihr Ergebnis im Plenum vor.

Lösung Offene Übung: Rechnungshöhe Raucher / Nichtraucher
2. Pair: Teilen Sie Ihr Ergebnis mit dem Nachbarn / der Nachbarin.
Die Forschungsfrage lautete:

Unterscheidet sich die mittlere Rechnungshöhe zwischen Tischen, an denen
geraucht wird, und denen, an denen nicht geraucht wird?
𝐻0 : 𝜇𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 = 𝜇𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜
In der Stichprobe unterscheiden sich die Mittelwerte:

𝜇𝑆𝑚𝑜𝑘𝑒𝑟 𝑌𝑒𝑠 = 20,76 bzw. 𝜇𝑆𝑚𝑜𝑘𝑒𝑟 𝑁𝑜 = 19,19
Mit einem p-Wert von 0,2 wird die Nullhypothese nicht verworfen, die
beobachteten Werte sind unter 𝐻0 nicht ungewöhnlich.
Beachte: Es wurden keine weiteren Kovariablen berücksichtigt.

Zusammenhang von Geschlecht und Tageszeit
Analyse des Zusammenhangs des Frauenanteil (der Rechungszahler*innen) und
Tageszeit (mittags vs. abends)
prop(sex ~ time, success = "Female", data = tips)
## prop_Female.Dinner prop_Female.Lunch
## 0.2954545 0.5147059
diff.stipro <- diffprop(sex ~ time, success = "Female",

data = tips)
diff.stipro
## diffprop
## 0.2192513
Anteilsunterschied in der Stichprobe:
𝜋ො 𝐿𝑢𝑛𝑐ℎ − 𝜋ො 𝐷𝑖𝑛𝑛𝑒𝑟 = 0,51 − 0,3 = 0,22

Permutationstest Geschlecht je Tageszeit
Nullvtlg soll sein:
▪ Berechne den Unterschied im Frauenanteil (mittags vs. abends);
▪ Dabei soll das Merkmal *Zeit* jeweils permutiert werden.
Nullvtlg <- do(10000)* diffprop(sex ~ shuffle(time),

success = "Female", data = tips)

Verteilung unter 𝐻0
Simulierte Verteilung des Anteilsunterschieds unter der Annahme der Gleichheit
(𝐻0):
gf_histogram( ~ diffprop, data = Nullvtlg) %>%
gf_vline(xintercept = ~diff.stipro)

Übung: Bestimmung p-Wert
Für welche Hypothese erhalten Sie den p-Wert über:
prop( ~ abs(diffprop) >= abs(diff.stipro), data = Nullvtlg)
## prop_TRUE
## 0.0019
a) Für 𝐻𝑜 : 𝜋ො 𝐿𝑢𝑛𝑐ℎ − 𝜋ො 𝐷𝑖𝑛𝑛𝑒𝑟 = 0.

b) Für 𝐻𝑜 : 𝜋𝐿𝑢𝑛𝑐ℎ − 𝜋𝐷𝑖𝑛𝑛𝑒𝑟 = 0.

Lösung Übung: Bestimmung p-Wert
Für welche Hypothese erhalten Sie den p-Wert über:
prop( ~ abs(diffprop) >= abs(diff.stipro), data = Nullvtlg)
## prop_TRUE
## 0.0019
a) Für 𝐻𝑜 : 𝜋ො 𝐿𝑢𝑛𝑐ℎ − 𝜋ො 𝐷𝑖𝑛𝑛𝑒𝑟 = 0.

b) Für 𝐻𝑜 : 𝜋𝐿𝑢𝑛𝑐ℎ − 𝜋𝐷𝑖𝑛𝑛𝑒𝑟 = 0.
Hypothesentests schließen immer von der Stichprobe auf die Population, also b).

Offene Übung: Geschlecht je Tageszeit

2. Pair: Teilen Sie Ihr Ergebnis mit der Nachbar*in.

Lösung Offene Übung: Geschlecht je Tageszeit

2. Pair: Teilen Sie Ihr Ergebnis mit der Nachbar*in.
Die Forschungsfrage lautete:

Ist der Frauenanteil unter den Rechnungszahler*innen beim Lunch genau so hoch
wie beim Dinner oder unterscheidet er sich?
Mit 𝜋: Frauenanteil unter den Rechnungszahler*innen: 𝐻𝑜 : 𝜋𝐿𝑢𝑛𝑐ℎ = 𝜋𝐷𝑖𝑛𝑛𝑒𝑟 .
In der Stichprobe unterscheidet sich der Anteil: 𝜋ො 𝐿𝑢𝑛𝑐ℎ = 0,51 bzw. 𝜋ො 𝐷𝑖𝑛𝑛𝑒𝑟 = 0,3.
Mit einem p-Wert von 0,0019 wird die Nullhypothese zum Niveau
𝛼 = 0,05 verworfen (und es wird auf einen signifikanten Unterschied im
Frauenanteil unter den Rechnungszahler*innen geschlossen).
Beachte: Es wurden keine weiteren Kovariablen berücksichtigt.

Übung: Gültigkeit Inferenz
Wann ist aufgrund einer quantitativen Datenanalyse eine Kausalaussage
gerechtfertigt?
a) Nie
e) Immer

Lösung Übung: Gültigkeit Inferenz
Wann ist aufgrund einer quantitativen Datenanalyse eine Kausalaussage
gerechtfertigt?
a) Nie
e) Immer
Um Einflüsse durch Kovariablen möglichst zu vermeiden ist für einen

Kausalschluss eine zufällige Zuordnung zu den Experimentalkonditionen nötig
(c)). Ein hoher Stichprobenumfang 𝑛 ist generell zu bevorzugen: Er verkleinert
den Standardfehler und damit das Konfidenzintervall sowie bei guten Tests sinkt
die Wahrscheinlichkeit für einen Fehler 2. Art.

Zwei oder mehr Gruppen Vergleich: Y ~ X

Einführung
▪ Wenn 𝑋 die Daten in mehr als 2 Gruppen (A, B) teilt, sind einfache Differenzen
(diffprop(); diffmean()) nicht mehr einfach möglich.
Die Teststatistiken müssen entsprechend angepasst werden:
▪ χ2 für kategoriale 𝑌.
▪ 𝐹 für metrische 𝑌.
▪ Die Nullhypothese lautet: Alle Anteile (kategorial) bzw. Mittelwerte (metrisch) in
der Population sind gleich.
▪ Die Alternativhypothese lautet: Mindestens ein Anteil bzw. Mittelwert in der
Population unterscheidet sich.1
▪ Ist der Anteil der Raucher*innen je Wochentag gleich?
▪ Ist der Mittelwert des Trinkgeldes je Wochentag gleich?
1 Nicht: Alle sind ungleich

Die Tage richtig sortieren
Leider ist die lexikographische Ordnung nicht die für uns logische Ordnung.
levels(tips$day)
## [1] "Fri" "Sat" "Sun" "Thur”
Mit dem folgendem Befehl ändern wir die Reihenfolge:

tips <- tips %>%
mutate(day = factor(tips$day, c("Thur", "Fri", "Sat", "Sun")))
Nun ist alles so, wie wir uns das denken:

levels(tips$day)
## [1] "Thur" "Fri" "Sat" "Sun"

Anzahl der Raucher*innen je Wochentag
Unterscheidet sich die Raucherquote je nach Wochentag? Anders gefragt:
Gibt es einen Zusammenhang der Merkmale smoker und day?
tally(smoker ~ day, format = "proportion", data = tips)
## day
## smoker Thur Fri Sat Sun
## No 0.7258065 0.2105263 0.5172414 0.7500000
## Yes 0.2741935 0.7894737 0.4827586 0.2500000
Anteil insgesamt, d. h. unabhängig vom Wochentag:

tally(smoker ~ 1, format = "proportion", data = tips)
## 1
## smoker 1
## No 0.6188525
## Yes 0.3811475

Chi-Quadrat-Unabhängigkeitstest (𝜒2 -Test)
▪ Der 𝜒2-Unahängigkeitstest testet u. a. den Zusammenhang zweier kategorialer
(nominaler) Variablen.1
▪ Dabei werden die beobachteten Häufigkeiten 𝑂 (observed) der
Merkmalsusprägungskombinationen mit den unter Unabhängigkeit
erwarteten Werten 𝐸 (expected) verglichen:
𝑍𝑒𝑖𝑙𝑒𝑛 𝑆𝑝𝑎𝑙𝑡𝑒𝑛 2
𝑂𝑖𝑗 − 𝐸𝑖𝑗
𝜒2 = ෍ ෍
𝐸𝑖𝑗
𝑖 𝑗
▪ Nullhypothese: Die beiden nominalen Variablen sind unabhängig voneinander,
d. h., die Verteilung der einen Variable hängt nicht vom Wert der anderen
Variable ab. Große Werte von 𝜒 2 sind unter 𝐻0 unwahrscheinlich.2
1 Es gibt weitere Varianten des 𝜒 2 -Tests.

2 Song https://www.causeweb.org: Larry Lesser © Chi-Square For Us, https://www.causeweb.org/cause/resources/fun/songs/chi-square-us,
abgerufen am 08.Februar 2019

Übung: 𝜒2-Teststatistik
Eine Forscherin stellt innerhalb einer Untersuchung eine Abweichung zwischen
beobachtet 𝑂 und erwartet 𝐸 von 42 fest.
Welche Aussage stimmt?

a) Die Abweichung ist groß.
b) Die Abweichung ist klein.
c) Weiß nicht.
Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 𝜒2

Lösung Übung: 𝜒 2-Teststatistik
Eine Forscherin stellt innerhalb einer Untersuchung eine Abweichung zwischen
beobachtet 𝑂 und erwartet 𝐸 von 42 fest.
Welche Aussage stimmt?

a) Die Abweichung ist groß.
b) Die Abweichung ist klein.
c) Weiß nicht.
Eine Abweichung von 𝐸 − 𝑂 = 42 kann groß oder klein sein, je nach dem wie viel
man erwartet:
Eine Abweichung von 42 ist bei einer unter Unabhängigkeit erwarteten Häufigkeit
von 50 viel, bei 5.000.000 wenig. Daher wird in der Teststatistik durch E relativiert,
also c). Mit Hilfe einer 𝜒 2 -Verteilung oder Permutationsmethoden kann dann für
alle Zellen zusammen entschieden werden, wie wahrscheinlich eine solche
Abweichung unter 𝐻0 ist.

Chi-Quadrat-Test
xchisq.test(smoker ~ day, data = tips)
##
## Pearson's Chi-squared test
##
## data: x
## X-squared = 25.787, df = 3, p-value = 1.057e-05
##
## 45 4 45 57
## (38.37) (11.76) (53.84) (47.03)
## [1.15] [5.12] [1.45] [2.11]
## < 1.07> <-2.26> <-1.20> < 1.45>
##
## 17 15 42 19
## (23.63) ( 7.24) (33.16) (28.97)
## [1.86] [8.31] [2.36] [3.43]
## <-1.36> < 2.88> < 1.54> <-1.85>
##
## key:
## observed
## (expected)
## [contribution to X-squared]
## <Pearson residual>

Übung: Testergebnis: Testentscheidung
Bestätigen die Daten die Nullhypothese?
a) Ja
b) Nein

Lösung Übung: Testergebnis: Testentscheidung
Bestätigen die Daten die Nullhypothese?
a) Ja
b) Nein
b) Nein,
…die Nullhypothese wird nie bestätigt, sondern bei einem p-Wert (>𝛼) nicht
verworfen. Die Aussage ist also immer falsch – unabhängig vom Testergebnis.
Hier ist der p-Wert mit p-value = 1.057𝑒 − 05 = 1.057 ∗ 10−05 sehr klein. Der
Wert der Teststatistik der Stichprobe, X-squared = 25,787, ist unter der
Nullhypothese der Unabhängigkeit in der Population also unwahrscheinlich.

Zusammenhang Trinkgeld und Wochentag
Analyse der Rechnungshöhe je Wochentag:1
gf_violin(tip ~ day, draw_quantiles = c(0.25, 0.5, 0.75),
data = tips) %>%
gf_point(tip ~ day, stat = "summary", fun.y = "mean",
color = "red", data = tips )
1Video https://www.causeweb.org: Crawford S © Use ANOVA, https://www.causeweb.org/cause/resources/fun/videos/use-anova, abgerufen am

08. Februar 2019

Varianzanalyse (ANOVA)
▪ Vergleich des Lagemaßes 𝜇𝑖 bei 𝐾 ≥ 2 Stichproben. Ein- oder mehrfaktoriell
möglich, bei mehr als einem Einfluss auch Wechselwirkungen.
▪ Voraussetzung: Daten innerhalb der 𝐾 Stichproben / Gruppen unabhängig,
identisch, normalverteilt
▪ Nullhypothese: Lagemaß 𝜇𝑖 für alle Gruppen gleich.
▪ Die Gesamtstreuung (𝑆𝑆𝑇) wird zerlegt in die Streuung zwischen den
Stichproben / Gruppen (𝑆𝑆𝐺) und die Streuung innerhalb der Stichproben /
Gruppen (𝑆𝑆𝐸):
𝑛 𝐾 𝐾 𝑛𝑗
2 2 2
෍ 𝑥𝑖 = 𝑥ҧ = ෍ 𝑛𝑗 𝑥𝑗ҧ − 𝑥ҧ + ෍ ෍ 𝑥𝑖,𝑗 − 𝑥𝑗ҧ
𝑖=𝑖 𝑗=1 𝑗=1 𝑖=𝑖
SST SSG SSE
▪ Ist das Verhältnis der Streuung zwischen den Gruppen im Verhältnis zur
𝑀𝑆𝐺
Streuung innerhalb der Gruppen groß (Teststatistik 𝐹 = 𝑀𝑆𝐸 )1, so ist dies unter
der Nullhypothese unwahrscheinlich.
1 Dabei ist 𝑀𝑆𝐺 = 𝑆𝑆𝐺/(𝐾 − 1) und 𝑀𝑆𝐸 = 𝑆𝑆𝐸/(𝑛 − 𝐾).

Varianzanalyse in R
# Speichere Ergebnis der Varianzanalyse aov() in "ergaov"
ergaov <- aov(tip ~ # Abhängige Variable
day, # Unabhängige Variable
# Zeige Zusammenfassung von "ergaov"

summary(ergaov)
## Df Sum Sq Mean Sq F value Pr(>F)

## day 3 9.5 3.175 1.672 0.174
## Residuals 240 455.7 1.899

Übung: Testentscheidung: ANOVA
Sind Werte wie die beobachteten Unterschiede der Mittelwerte unter
𝐻0 : 𝜇 𝑇ℎ𝑢 = 𝜇𝐹𝑟𝑖 = 𝜇𝑆𝑎𝑡 = 𝜇𝑆𝑢𝑛 (sehr) unwahrscheinlich?
mean(tip ~ day, data = tips)
## Thur Fri Sat Sun

## 2.771452 2.734737 2.993103 3.255132
a) Ja
b) Nein
c) Weiß nicht.

Lösung Übung: Testentscheidung ANOVA
Sind Werte wie die beobachteten Unterschiede der Mittelwerte unter
𝐻0 : 𝜇 𝑇ℎ𝑢 = 𝜇𝐹𝑟𝑖 = 𝜇𝑆𝑎𝑡 = 𝜇𝑆𝑢𝑛 (sehr) unwahrscheinlich?
mean(tip ~ day, data = tips)
## Thur Fri Sat Sun

## 2.771452 2.734737 2.993103 3.255132
a) Ja
b) Nein
c) Weiß nicht.
b) Nein,
… der p-Wert (Pr(>F)) liegt bei 0.174 > 0.05, also kann 𝐻0 zum üblichen
Signifikanzniveau von 𝛼 = 0.05 nicht verworfen werden.

Multiples Testen
4∙ 4−1
▪ Wenn man statt einer ANOVA alle 42 = 2 = 6 Kombinationen
(d. h. Donnerstag und Freitag, Donnerstag und Samstag, usw.) ausprobiert
hätte, hätte sich der 𝛼-Fehler kumuliert:1
6
𝑃 𝐹𝑒ℎ𝑙𝑒𝑟 1. 𝐴𝑟𝑡 = 1 − 1 − 0,05 = 0,265
Das globale Signifikanzniveau 𝛼 = 0,05 wäre nicht eingehalten! 2

▪ p-Hacking: Wenn viele Hypothesen getestet werden, werden auch zufällig
welche signifikant sein.
▪ Falls die Nullhypothese verworfen wird, kann man mit Post-Hoc-Tests
berechnet werden, zwischen welchen einzelnen Gruppen der Unterschied liegt.
1 Hier: 𝛼 = 0.05
2 Adjustierung z. B. über Funktion p.adjust().

Zusammenfassung

Überblick zu den Simulationstechniken
▪ Einfache Simulation zur Überprüfung eines Anteils
▪ Beispiel: Wie hoch ist der Frauenanteil (in der Population)?
▪ Vorgehen: Simuliere wiederholt Münzwurf (𝐻0) und schaue wie wahrscheinlich der
beobachtete Frauenanteil ist.
▪ Permutationstest zur Überprüfung eines Unterschieds zweier Verteilungen.

▪ Beispiel: Unterscheidet sich der Mittelwert (in der Population) von Rauchern und
Nichtrauchern?
▪ Vorgehen: Simuliere wiederholt zufällige Zuordnung und schaue, wie wahrscheinlich
die beobachtete Differenz der Mittelwerte ist.
▪ Bootstrap zur Berechnung eines Konfidenzintervalls des Mittelwertes.

▪ Beispiel: Was sind plausible Mittelwerte der Rechnungshöhe beim Re-Sampling?
▪ Vorgehen: Simuliere wiederholt zufällige Stichprobe durch Ziehen mit Zurücklegen und
berechne jeweils den Mittelwert.

Wiederholung: Monte Carlo in R
▪ Permutationstest, hier: Simuliere zufällige Zuordnung.1 Simuliere Verteilung
einer Statistik unter der Annahme, dass kein Unterschied vorliegt (Modell 𝐻0),
u. a. zur Bestimmung von p-Werten.
do(oft) * statistik(y ~ shuffle(x), data = Daten)
▪ Bootstrap, hier: Simuliere zufälliges Ziehen einer Stichprobe.2 Schätze

Verteilung einer Statistik der Stichprobe, u. a. zur Bestimmung von
Konfidenzintervallen oder Standardfehlern.
do(oft) * statistik(y ~ x, data = resample(Daten))
1 D. h. ohne Zurücklegen
2 D. h. mit Zurücklegen

Wiederholung: Übersicht Teststatistiken (Auswahl)
Y X Teststatistik
kategorial – binär Anteil 𝑝
Verhältnisvergleich beobachtet und
kategorial
erwartet: χ2
metrisch Mittelwert 𝑥ҧ
kategorial – binär kategorial – binär Differenz Anteile 𝑝𝐵 − 𝑝𝐴
metrisch kategorial – binär Differenz Mittelwerte 𝑥ҧ 𝐵 − 𝑥ҧ 𝐴
Verhältnisvergleich beobachtet und
kategorial kategorial
erwartet: χ2
Streuungsvergleich zwischen Gruppen
metrisch kategorial
und innerhalb Gruppen: 𝐹
Korrelationskoeffizient r oder
metrisch metrisch
Steigung 𝛽መ - lineare Regression
Steigung 𝛽መ - logistische oder
kategorial metrisch
multinomiale Regression

Alternativen zur simulationsbasierten Inferenz: Kategorial
▪ Eine Alternative zu den Methoden der simulationsbasierten Inferenz dieses
Kapitels ist jeweils binom.test() bzw. prop.test(), die auf theoretischen
bzw. asymptotisch approximativen Verteilunsannahmen aufbaut.
▪ Der χ2-Test (xchisq.test()) testet u. a. den Zusammenhang zweier
nominaler Variablen auch mit mehr als jeweils zwei Ausprägungen; er basiert
auf theoretischen bzw. asymptotisch approximativen Verteilungsannahmen.
Darüber hinaus gibt es als nicht-parametrische Alternative den Fisher-Test
(fisher.test()).

Alternativen zur simulationsbasierten Inferenz: Metrisch
▪ Eine Alternative zu den Methoden der simulationsbasierten Inferenz dieses
Kapitels ist jeweils t.test(), der auf theoretischen bzw. asymptotisch
approximativen Verteilungsannahmen aufbaut.
▪ Die Varianzanalyse aov() testet den Unterschied von zwei oder mehr
Gruppen hinsichtlich eines Mittelwerts; sie basiert auf theoretischen bzw.
asymptotisch approximativen Verteilungsannahmen.
▪ Überprüfung der Annahmen z. B. über Shapiro-Wilk Test (Normalverteilung,
shapiro.test()) und Bartlett’s Test (gleiche Varianzen,
bartlett.test()).
▪ Darüber hinaus gibt es weitere nicht-parametrische Testverfahren: Wilcoxon
Test (wilcox.test()) bzw. Kruskal-Wallis Test (kruskal.test()).

Zusammenfassung
Was haben Sie gelernt?
• Sie können Anwendungsbeispiele für die Inferenz einer Variable
nennen, erläutern und in R berechnen – sowohl für nominale als auch
metrische Variablen.
• Sie können Anwendungsbeispiele für die Inferenz zum Vergleich zweier
Gruppen bzw. zum Zusammenhang zweier Variablen nennen, erläutern
und in R berechnen – sowohl für nominale als auch metrische
Variablen.
• Sie können Anwendungsbeispiele für die Inferenz zum Vergleich von
mehr als zwei Gruppen nennen, erläutern und in R berechnen – sowohl
für nominale als auch metrische Variablen.

Das Ende…

Des Lehrenden letzte Worte
Song: https://www.causeweb.org/cause/resources/fun/songs/doin-statistics:
Lawrence Mark Lesser © Doin’ Statistics
1Siehe Blogbeitrag Sebastian Sauer (20.12.2017) “Zusammenhang von Lernen und Noten im Statistikunterricht”, https://data-
se.netlify.com/2017/12/20/zusammenhang-von-lernen-und-noten-im-statistikunterricht/, abgerufen am 12.Februar 2019

Kapitel8 Inferenz BSP

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Kapitel8 Inferenz BSP

Hochgeladen von

Copyright:

Verfügbare Formate

Wissenschaftliche Methoden –

Dr. Edda Kloppmann

Bitte melden Sie Fehler und Verbesserungsvorschläge: karsten.luebke@fom.de

▪ Bitte beachten Sie, dass Fehler aufgrund Änderungen und Ergänzungen im

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 604

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 605

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 606

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 607

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 608

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 609

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 610

1 Latente Variable, daher Operationalisierung erforderlich

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 611

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 612

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 613

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 614

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 615

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 616

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 617

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 618

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 619

# Alternativ - heruntergeladene Datei einlesen:

library(mosaic) # Paket mosaic laden

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 620

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 621

a) Test eines Anteilswertes

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 622

Welches ist das richtige Testverfahren, um die Forschungsthese zu untersuchen,

a) Test eines Anteilswertes

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 623

Alternative: Verwende theoretische Verteilungsannahmen unter 𝐻0, häufig

Abbildung: Quelle: Blogbeitrag Allen Downey, http://allendowney.blogspot.de/2016/06/there-is-still-only-one-test.html, abgerufen am 08. Februar

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 624

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 625

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 626

set.seed(1896) # Zufallszahlengenerator setzen

Nullvtlg <- do(10000) * # 10000 Wiederholungen

Nullvtlg <- do(10000) * rflip(n = 244) # row(tips) = 244

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 627

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 628

Quantile für extreme Werte in der Verteilung unter 𝐻0 ∶ 𝜋 = 0.5 (𝛼 = 5%):

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 629

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 630

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 631

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 632

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 633

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 634

favstats( ~ total_bill, data = tips)

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 635

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 636

e): Linkssteil, rechtsschief – wie häufig bei Umsätzen etc.:

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 637

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 638

Bootvtlg <- do(10000)*

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 639

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 640

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 641

Der Zentrale Grenzwertsatz sagt, dass Mittelwerte von unabhängigen

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 642

quantile( ~ mean, probs = c(0.025, 0.975), data = Bootvtlg)

Sommer 2021 Edda Kloppmann | Wissenschaftliche Methoden - Qualtitative Datenanalyse 643

quantile( ~ mean, probs = c(0.025, 0.975), data = Bootvtlg)