Sie sind auf Seite 1von 640

0.

Statistik
Hochschule Trier – WiSe 21/22
Martin Vogt
Inhaltsverzeichnis

9 Inferenzstatistik
1 Organisatorisches
10 Inferenz kategorialer Daten
2 Wissenschaftliche Grundlagen
11 Inferenz numerischer Daten
3 Grundlagen Quantitativer
Datenanalyse 12 Lineare Regression

4 Einführung R 13 Grundlagen Zeitreihenanalyse

5 Explorative Datenanalyse 14 Datenhandling

6 Explorative Datenanalyse mit R 15 Wahrscheinlichkeitsrechnung

7 Disparitäts- und 16 Normalverteilung


Konzentrationsmessung 17 Organisatorisches
8 Indexzahlen

WiSe 21/22 Martin Vogt | Statistik 2


1 Organisatorisches

WiSe 21/22 Martin Vogt | Statistik 3


1. Organisatorisches
Literatur (Auswahl)

I David M. Diez, Christopher D. Barr, Mine Çetinkaya-Rundel (2014): Introductory


Statistics with Randomization and Simulation,
https://www.openintro.org/stat/textbook.php?stat_book=isrs
I Nicholas J. Horton, Randall Pruim, Daniel T. Kaplan (2018): Project MOSAIC
Little Books A Student’s Guide to R, https://github.com/ProjectMOSAIC/
LittleBooks/raw/master/StudentGuide/MOSAIC-StudentGuide.pdf
I Chester Ismay, Albert Y. Kim (2018): ModernDive – An Introduction to Statistical
and Data Sciences via R, http://moderndive.com/
I Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani (2013): An
Introduction to Statistical Learning – with Applications in R,
http://www-bcf.usc.edu/~gareth/ISL/

WiSe 21/22 Martin Vogt | Statistik 4


1. Organisatorisches
Lernergebnisse

Die Studierenden können nach erfolgreichem Abschluss des Moduls:


I die Grundlagen deskriptiver und induktiver Statistik erklären und anwenden,
I beurteilen, für welche Fragestellungen in Theorie und Praxis qualitative oder
quantitative Herangehensweisen geeignet sind,
I empirische Analysen konzipieren und vorbereiten,
I statistische Verfahren der quantitativen Datenanalyse anwenden,
I die Statistik-Software R zur Datenanalyse verwenden,
I selbständig ein passendes Forschungsdesign für wirtschaftswissenschaftliche
Fragestellungen auswählen.

WiSe 21/22 Martin Vogt | Statistik 5


1. Organisatorisches
Motivation: Statistik

Statistik begegnet uns beinahe täglich!

Fotos: Pixabay.com

WiSe 21/22 Martin Vogt | Statistik 6


1. Organisatorisches
Themen der Vorlesung

WiSe 21/22 Martin Vogt | Statistik 7


1. Organisatorisches
Deskriptive Statistik vs. Inferenzstatistik

I Die deskriptive Statistik fasst Daten einer Stichprobe zusammen.


I Die Inferenzstatistik schließt von einer Stichprobe auf eine Grundgesamtheit.1

Deskriptivstatistik Inferenzstatistik

1 Induktion

WiSe 21/22 Martin Vogt | Statistik 8


1. Organisatorisches
Prüfungsleistung / Workload

Prüfung:
I Klausur 90 Minuten. Zur Vergabe von Credit Points muss die Klausur mit einer
mindestens ausreichenden Leistung bestanden werden.

WiSe 21/22 Martin Vogt | Statistik 9


1. Organisatorisches
Lizenz / Version

Diese Folien basieren auf Folien, die von Autor*innen der FOM https://www.fom.de/
unter der Lizenz CC-BY-SA-NC 3.0 de:
https://creativecommons.org/licenses/by-nc-sa/3.0/de/ entwickelt wurden.
Der verwendete Code sowie das Beamer Template basieren auf dem von Norman
Markgraf in dem NPBT-Projekt entwickelten unter der Lizenz GNU General Public
License v3.0 veröffentlichten Vorlagen.
I Datum erstellt: 2021-09-29
I R Version: 3.5.2
I mosaic Version: 1.5.0

WiSe 21/22 Martin Vogt | Statistik 10


1. Organisatorisches
Kurzvorstellung

Prof. Dr. Martin Vogt


I Kontakt: vogt@hochschule-trier.de
I Homepage: https://www.hochschule-trier.de
I akademische Ausbildung:
I Diplom Mathematiker
I Dr. rer. pol. in Statistik
I Beruflicher Werdegang:
I Unternehmensberater bei KPMG Luxembourg
I Vice President: Deutsche Bank in Luxembourg
I Head of Risk, Valuation & Reporting: LRI Invest in Luxembourg
I Privat:
I Verheiratet, 3 Kinder
I Imker, Reisen, Windsurfen, Tischtennis

WiSe 21/22 Martin Vogt | Statistik 11


1. Organisatorisches
Bitte

I Stellen Sie ein Namensschild auf.


I Seien Sie offen für das Thema.
I Haben Sie Respekt aber keine Angst vor der Schwierigkeit des Themas.
I Bereiten Sie den Lehrstoff von Anfang an kontinuierlich nach.
I Stellen Sie Fragen!
I Sie können Sich gerne während der Übungen unterhalten, aber nicht wenn ich
etwas erkläre – das ist u. a. auch unfair!
I Versuchen Sie die Übungen selbst zu lösen - der Lernerfolg ist ungleich größer, als
wenn Sie die Lösung “abnicken”. Für die Quizze wird ein Live-Feedback-System
eingesetzt: https://tweedback.de/ Nehmen Sie daran teil!2
I Versuchen Sie Ablenkungen (Facebook, WhatsApp etc.) zu vermeiden.3
I Wenn möglich, bringen Sie einen Laptop mit R4 zu den Vorlesungsterminen mit.

2 Siehe z. B. Nguyen, K., & McDaniel, M. A. (2015). Using quizzing to assist student learning in the
classroom: the good, the bad, and the ugly. Teaching of Psychology, 42(1), 87-92.
3 Siehe z. B. Sana, F., Weston, T., & Cepeda, N. J. (2013). Laptop multitasking hinders classroom

learning for both users and nearby peers. Computers & Education, 62, 24-31.
4 Installationsanleitung hier

WiSe 21/22 Martin Vogt | Statistik 12


1. Organisatorisches
Hinweis

Bleiben Sie dran!


Die Inhalte bauen aufeinander auf, d. h., arbeiten Sie nach. Die angegebene
Literatur ist frei verfügbar. Wenn Sie nicht kontinuierlich nacharbeiten wird es immer
schwerer, da immer mehr Grundlagen fehlen.
Ich kann versuchen, es Ihnen zu erklären, ich kann es nicht für Sie verstehen. Daher:
fragen Sie direkt in der nächsten Vorlesung nach, wenn Sie in der Nacharbeit etwas
nicht verstanden haben.
Die Folien bilden die Leinwand der Vorlesung: sie werden interaktiv erklärt und ergänzt.

WiSe 21/22 Martin Vogt | Statistik 13


1. Organisatorisches
Keine Tipps

Tipps von (fiktiven) Studierenden:


I Ich besuche die Vorlesung nicht, ich gucke Videos.
I Kontinuierlich nacharbeiten? Quatsch, ich lerne eine Woche vor der Klausur
intensiv.
I Es reicht, wenn ich mit einem halben Ohr zuhöre – ich spiele, chatte, surfe während
der Vorlesung.5
I Mitschreiben? Ich mache, wenn überhaupt, ein Foto.6
I Selbstlernunterlagen und Literatur habe ich nicht nötig.
I Mir genügt die Übungsklausur zur Klausurvorbereitung – falls eine angeboten wird.
I Übungen selber lösen? – Es reicht, wenn ich die Lösung kenne.
Manche dieser Studierenden haben es leider nicht geschafft.
Sie können es besser!7
5 vgl.https://youtu.be/vJG698U2Mvo
6 Hier nicht erlaubt.
7 Siehe z. B. echte Tipps unter Putnam, A. L., Sungkhasettee, V. W., & Roediger III, H. L. (2016).

Optimizing learning in college: tips from cognitive psychology. Perspectives on Psychological Science,
11(5), 652-660.
WiSe 21/22 Martin Vogt | Statistik 14
2 Wissenschaftliche Grundlagen

WiSe 21/22 Martin Vogt | Statistik 15


2. Wissenschaftliche Grundlagen
Corona

I Zahlreiche Wissenschaftler treten in Talk Shows auf (Virologen, Ethiker,. . . ).

Quelle: https://www.bosch-stiftung.de/de/news/hohe-wertschaetzung-fuer-
wissenschaftler-zeiten-von-corona

WiSe 21/22 Martin Vogt | Statistik 16


2. Wissenschaftliche Grundlagen
Wissenschaft (I / II)

Science is a particular way of knowing about the world. In science, explanations


are limited to those based on observations and experiments that can be sub-
stantiated by other scientists. Explanations that cannot be based on empirical
evidence are not part of science8 .
Fact: In science, an observation that has been repeatedly confirmed and for
all practical purposes is accepted as “true.” Truth in science, however, is never
final, and what is accepted as a fact today may be modified or even discarded
tomorrow.
Hypothesis: A tentative statement about the natural world leading to deductions
that can be tested. If the deductions are verified, it becomes more probable that
the hypothesis is correct. If the deductions are incorrect, the original hypothesis
can be abandoned or modified. Hypotheses can be used to build more complex
inferences and explanations.

8 Hier: Natur- und Sozialwissenschaften.


WiSe 21/22 Martin Vogt | Statistik 17
2. Wissenschaftliche Grundlagen
Wissenschaft (II / II)

Law9 : A descriptive generalization about how some aspect of the natural world
behaves under stated circumstances.
Theory: In science, a well-substantiated explanation of some aspect of the nat-
uralworld that can incorporate facts, laws, inferences, and tested hypotheses.

Quelle: Science and Creationism: A View from the National Academy of Sciences,
Second Edition (1999)10

9 Hier: Modell.
10 https://doi.org/10.17226/6024

WiSe 21/22 Martin Vogt | Statistik 18


2. Wissenschaftliche Grundlagen
Übung 1: Daten

Stimmt die Aussage: Daten und deren Analyse sind ein zentraler Bestandteil natur- und
sozialwissenschaftlicher Argumentation?
I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 19


2. Wissenschaftliche Grundlagen
Theorie

I Eine Theorie ist eine strukturierte Sammlung von Hypothesen.


I Sie schlägt eine vorläufige Antwort auf eine offene Frage vor.
I Sie lässt sich kaum in ihrem vollen Umfang (auf einmal) prüfen.
I Häufig sind Theorien zumeist an kausalen Beziehungen interessiert.
I Gute Theorien ermöglichen Erklärungen, Vorhersagen, Nutzen.

WiSe 21/22 Martin Vogt | Statistik 20


2. Wissenschaftliche Grundlagen
Offene Übung 2: Theorie

Welche Theorien kennen Sie?

WiSe 21/22 Martin Vogt | Statistik 21


2. Wissenschaftliche Grundlagen
Hypothese

Eine Hypothese ist eine aus der Theorie oder Beobachtung abgeleitete Aussage.
I Sie sind weniger umfangreich als Theorien.
I Sie stellen Vermutungen über einen Sachverhalt an.
I Sie ist eine provisorische Antwort auf ein wissenschaftliches Problem.
I Sie lassen sich überprüfen (sind also potentiell “falsifizierbar”, man kann zeigen,
dass sie falsch sind). Hypothesen sind (nach Karl Popper) nie
beweisbar/bestätigbar, man kann höchstens zeigen, dass sie falsch sind.
Kennzeichen einer wissenschaftlichen Hypothese:
I Sie ist eine allgemeingültige über den Einzelfall hinausgehende Behauptungen.
I Häufig: Formalstruktur eines Konditionalsatz, Implikation: wenn x (Antezedens),
dann y (Konsequenz).

WiSe 21/22 Martin Vogt | Statistik 22


2. Wissenschaftliche Grundlagen
Wissenschaftliche Schlusstechniken / Generierung von Hypothesen

I Induktion:

Generalisierung von in der Realität beobachteten Regelmäßigkeiten zu einer


allgemeineren Vermutungen.
Häufig: Hypothesenbildung.
Beispiele: Pawlow, Freud
I Deduktion:

Ableitung von Aussagen aus anderen (allgemeineren) Aussagen mit Hilfe logischer
Regeln.
Häufig: Hypothesenprüfung.

WiSe 21/22 Martin Vogt | Statistik 23


2. Wissenschaftliche Grundlagen
Beispiel Schlusstechniken

I Induktion: Erschließen von allgemeinen Regeln aus dem Einzelfall


Einzelfälle: Albert Einstein ist ein Mensch und Marie Curie ist ein M
Ergebnis: Marie Curie und Albert Einstein haben einen Geburtstag.
Induktion/Regel: Alle Menschen haben einen Geburtstag.
I Deduktion: Schluss vom Allgemeinen auf bestimmte Aussagen über den Einzelfall
Regel: Alle Menschen haben einen Geburtstag.
Einzelfall: Albert Einstein ist ein Mensch.
Deduktion/Ergebnis: Albert Einstein hat einen Geburtstag.
Quelle: [https://deduktion.plakos.de (https://deduktion.plakos.de/).

WiSe 21/22 Martin Vogt | Statistik 24


2. Wissenschaftliche Grundlagen
Übung 3: Schlusstechniken

Eine Dozentin hat mehrfach beobachtet, dass ihre Studierenden interessiert am Fach
Statistik sind. Nun schließt sie, dass alle Studierenden interessiert am Fach Statistik
sind. Welche Schlussart liegt vor?
A. Induktion.
B. Deduktion.

WiSe 21/22 Martin Vogt | Statistik 25


2. Wissenschaftliche Grundlagen
Falsifikationsprinzip

I Induktionsproblematik: Kann durch Induktion von Einzelbeobachtungen sicher


auf ein allgemeines Gesetz – auch in Zukunft – geschlossen werden?
I Falsifikationsprinzip: Obwohl es nicht möglich ist, die Richtigkeit einer
wissenschaftlichen Theorie auf Basis einer begrenzten Menge von Daten zu
beweisen, ist es möglich zu beweisen, dass eine Theorie falsch ist. Wissenschaftliche
Aussagen sollen daher nach Karl Popper empirisch widerlegbar sein. Beispiel: Kann
man die Hypothese beweisen, dass alle Schwäne weiß sind?
I Das ist kaum/nicht möglich, man müsste die ganze Welt bereisen (und die Zukunft
und die Vergangenheit). Und selbst dann: wer weiß, vielleicht habe ich einen
übersehen?
I Zu zeigen, dass die Hypothese falsch ist, ist einfach: Ein schwarzer Schwan reicht,
um zu zeigen, dass die Behauptung, alle Schwäne seien weiß, falsch ist!

WiSe 21/22 Martin Vogt | Statistik 26


2. Wissenschaftliche Grundlagen
Übung 4: Beweis

Hat sie die Aussage “alle Studierenden sind interessiert an Statistik” endgültig bewiesen?
A. Ja.
B. Nein.
C. Vielleicht.

WiSe 21/22 Martin Vogt | Statistik 27


2. Wissenschaftliche Grundlagen
Forschungsprozess generell

I Planung: Formulierung der Forschungsfrage: Forschungsidee,


Informationssammlung, Forschungsfrage und -hypothesen.
I Datenerhebung: Z. B. Beobachtung, Experiment, Umfrage, Interview.
I Datenaufbereitung und Datenanalyse: Qualitativ und/oder quantitativ.
I Interpretation: Was sagt das Ergebnis aus? Schlussfolgerung, Mitteilung der
Ergebnisse.

WiSe 21/22 Martin Vogt | Statistik 28


2. Wissenschaftliche Grundlagen
Übung 5: Literatur

An welcher Stelle des Forschungsprozesses ist Literaturrecherche besonders zentral?


A. Zu Beginn.
B. Bei der Datenerhebung.
C. Bei der Datenauswertung.
D. Zum Ende.

WiSe 21/22 Martin Vogt | Statistik 29


2. Wissenschaftliche Grundlagen
Forschen

Gütekriterien für Forschung:


I Ethische Aspekte: Können negative Folgen, z. B. bei befragten / untersuchten
Personen auftreten? Auch: Datenschutz.
I Transparenz: Das Vorgehen ist klar dokumentiert und nachprüfbar (und damit
prinzipiell reproduzierbar)?
I Objektivität: Sind die Ergebnisse unabhängig von der Person? Kommen andere
zum selben Ergebnis?
I Interne Validität: Keine anderen Erklärungen für die Ergebnisse? Ist der
behauptete Zusammenhang richtig?
I Externe Validität: Übertragbarkeit der Ergebnisse? Zeigt sich der behauptete
Zusammenhang auch in anderen Situationen?

WiSe 21/22 Martin Vogt | Statistik 30


2. Wissenschaftliche Grundlagen
Übung 6: Wissenschaftliches Arbeiten

Was ist ein unabdingbares Merkmal wissenschaftlichen Arbeitens?


A. Spektakuläre Ergebnisse.
B. Bestätigung der Forschungshypothese.
C. Kein Praxisbezug.
D. Keines der in A – C genannten.

WiSe 21/22 Martin Vogt | Statistik 31


2. Wissenschaftliche Grundlagen
Übung 7: Reproduzierbarkeit

Das Forschungsergebnis der Dozentin “Statistik weckt das Interesse der Studierenden”
kann nicht reproduziert werden. Welcher Aspekt wissenschaftlichen Arbeitens könnte
verletzt sein?
A. Nur Objektivität.
B. Nur interne Validität.
C. Nur externe Validität.
D. Alle in A – C genannten.

WiSe 21/22 Martin Vogt | Statistik 32


3 Grundlagen Quantitativer Datenanalyse

WiSe 21/22 Martin Vogt | Statistik 33


3.1 Grundbegriffe

WiSe 21/22 Martin Vogt | Statistik 34


3. Grundlagen Quantitativer Datenanalyse
Messung

I Beim Messen wird einer Eigenschaft eines Objektes ein Wert zugewiesen. Dabei
sollte die Beziehung der Werte der Beziehung der Eigenschaften der Objekte
entsprechen. Pragmatisch: Definition des zu Messenden und gleichzeitig
Beschreibung des Messvorgangs.11
I Manifeste Variablen können direkt gemessen werden, z. B. Größe.
I Latente Variablen / Konstrukte können nicht direkt gemessen werden, sie
müssen erst operationalisiert werden, z. B. Intelligenz.

11 Hand, D. J. (2016): Measurement: A Very Short Introduction, Oxford University Press.


WiSe 21/22 Martin Vogt | Statistik 35
3. Grundlagen Quantitativer Datenanalyse
Operationalisierung

Bsp. Schwierigkeit beim Verständnis von Statistik. Multi-Item Likert-Skala: Auf einer
Skala von 1 (trifft überhaupt nicht zu) über 4 (weder zutreffend, noch unzutreffend) bis
7 (trifft voll und ganz zu) werden folgende Aussagen bewertet:12
I Statistische Formeln sind leicht zu verstehen.
I Statistik ist ein kompliziertes Fach.*
I Statistik ist ein Fach, das die meisten Menschen schnell lernen.
I Das Lernen von Statistik erfordert sehr viel Disziplin.*
I Statistik beinhaltet sehr umfangreiche Rechnungen.*
I Statistik ist eine sehr technische Materie.*
I Die meisten Menschen müssen lernen anders zu denken, um Statistik anwenden zu
können.*
Die Items mit Sternchen * sind sogenannte inverse Items, bei denen die Zustimmung
eine höhere Schwierigkeit im Umgang mit Statistik bedeutet.

12 Candace Schau: Survey of Attitudes Toward Statistics, SATS-36


WiSe 21/22 Martin Vogt | Statistik 36
3. Grundlagen Quantitativer Datenanalyse
Übung 8: Messung

Stimmt die Aussage: Das “Interesse der Studierenden” ist eine latente Variable?
I Ja.
I Nein.

Offene Frage: Was folgt daraus?

WiSe 21/22 Martin Vogt | Statistik 37


3. Grundlagen Quantitativer Datenanalyse
Gütekriterien einer Messung

I Genauigkeit, d. h. Exaktheit einer Messung, z. B. “Umsatz hoch / niedrig” oder in


Euro.
I Objektivität, d. h. Messung unabhängig vom Messenden, z. B. Kreditrating
verschiedener Agenturen.
I Reliabilität, d. h. Zuverlässigkeit einer Messung, z. B. bei wiederholter / anderer
Messung dasselbe Ergebnis bzgl. Kundenzufriedenheit.
I Validität, d. h., es wird das gemessen, was gemessen werden soll, z. B.
Unternehmenserfolg oder Bilanz-Kniffe.

WiSe 21/22 Martin Vogt | Statistik 38


3. Grundlagen Quantitativer Datenanalyse
Messung: Varianz und Verzerrung

Varianz Verzerrung

I hohe Varianz der Messergebnisse: geringe Reliabilität


I Verzerrung / Bias des Messergebnisses: geringe Validität

WiSe 21/22 Martin Vogt | Statistik 39


3. Grundlagen Quantitativer Datenanalyse
Übung 9: Gütekriterien Messung

Welches Kriterium ist verletzt, wenn die Dozentin statt “Interesse der Studierenden”
“Angst vor der Klausur” gemessen hat?
A. Genauigkeit.
B. Objektivität.
C. Reliabilität.
D. Validität.

WiSe 21/22 Martin Vogt | Statistik 40


3. Grundlagen Quantitativer Datenanalyse
Übung 10: Messung Relation

Am 15.9. sei es in Dortmund 20 °C, am 15.3. 10 °C. Stimmt die Aussage: Am 15.9. war
es in Dortmund doppelt so warm wie am 15.3.?
I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 41


3. Grundlagen Quantitativer Datenanalyse
Kategoriale Skalenniveaus

Kategoriale Skala, qualitativ


I Nominal: Merkmalsausprägungen können unterschieden werden, bspw. Geschlecht.
I Ordinal: Merkmalsausprägungen können unterschieden und in eine Reihenfolge
gebracht werden, bspw. Bildungsabschlüsse. Die Abstände zwischen den Werten
können nicht direkt verglichen oder interpretiert werden.

WiSe 21/22 Martin Vogt | Statistik 42


3. Grundlagen Quantitativer Datenanalyse
Numerische / metrische Skalenniveaus

Numerisch / metrische Skala, quantitativ, kardinal


Merkmalsausprägungen können unterschieden und in eine Reihenfolge gebracht werden,
die Abstände sind vergleichbar.
I Intervallskala: Nullpunkt gesetzt, bspw. Zeitrechnung (Jahr 0).
I Verhältnisskala13 : (absoluter) Nullpunkt gegeben, bspw. Gewicht.

Weitere Unterscheidung:
I stetig: beliebige Zwischenwerte im Intervall sind möglich, bspw. Größe.
I diskret: höchstens abzählbar viele Werte sind möglich, bspw. Anzahl Kinder.

13 Auch Ratioskala
WiSe 21/22 Martin Vogt | Statistik 43
3. Grundlagen Quantitativer Datenanalyse
Übung 11: Skalenniveau (I / II)

Welches Skalenniveau hat die Variable Stundenlohn?


A. Kategorial nominal.
B. Kategorial ordinal.
C. Metrisch stetig.
D. Metrisch diskret.

WiSe 21/22 Martin Vogt | Statistik 44


3. Grundlagen Quantitativer Datenanalyse
Übung 12: Skalenniveau (II / II)

Welches Skalenniveau hat die Variable Telefonvorwahl?


A. Kategorial nominal.
B. Kategorial ordinal.
C. Metrisch stetig.
D. Metrisch diskret.

WiSe 21/22 Martin Vogt | Statistik 45


3. Grundlagen Quantitativer Datenanalyse
Skalen: Aussagen und Operationen

Je nach Skalennvieau sind unterschiedliche Aussagen und Operationen möglich.


I Kategorial – nominal: =, 6=
I Kategorial – ordinal: =, 6=, <, >
I Numerisch – intervallskaliert: =, 6=, <, >, +, −14
I Numerisch – verhältnisskaliert: =, 6=, <, >, +, −, ∗, :
Song https://www.causeweb.org: Larry Lesser und Dominic Sousa © Levels of
Measurement

14 ∗, : für die Differenzen.


WiSe 21/22 Martin Vogt | Statistik 46
3. Grundlagen Quantitativer Datenanalyse
Datensatz

Aufbau eines Datensatzes:

Name Geschlecht Größe


Ahmet m 180
Gabi w 170
Max m 186
Susi w 172

I Zeilen: Beobachtungen
I Spalten: Variablen
I Merkmal: Eigenschaft, die untersucht wird: z. B. Geschlecht
I Merkmalsträger: Objekte, die untersucht werden, z. B. Ahmet
I Merkmalsausprägung: Werte, die das Merkmal annehmen kann, z. B. 180

WiSe 21/22 Martin Vogt | Statistik 47


3. Grundlagen Quantitativer Datenanalyse
Variation

Daten = Modell + Rest: Messwerte einer Variable variieren / streuen, u. a.


I zufällig,
I aufgrund der Messung,
I aufgrund der Stichprobe,
I systematisch – kann evtl. modelliert werden.
Bsp.: Punkte einer Klausur variieren. Womit hängt das zusammen?

WiSe 21/22 Martin Vogt | Statistik 48


3. Grundlagen Quantitativer Datenanalyse
Zusammenhangsanalyse

I Abhängige Variable (endogen, erklärt, AV): Wert hängt von der / den
unabhängige(n) Variable ab (“y”).
I Unabhängige Variable (exogen, erklärend, UV): Wert hängt von keiner anderen
Variable ab (“x”).
I Kovariablen/ Störvariablen: Variablen, deren Wert ebenfalls auf die abhängige
Variable einwirkt und / oder den Zusammenhang zwischen unabhängigen und
abhängigen Variablen beeinflusst (“z”).15
Hinweis: x steht in Zusammenhang mit y heißt nicht zwangsläufig, dass x kausal
(ursächlich) für y sein muss!
I in der Mathematik: y = f ( x). Für ein x genau ein y.
I in der Statistik / in R: y ∼ x. Für ein x sind mehrere y möglich: x wird zur
Modellierung von y verwendet.

15 Video https://www.causeweb.org: McLellan M © Confounding Variables


WiSe 21/22 Martin Vogt | Statistik 49
3. Grundlagen Quantitativer Datenanalyse
Simpson-Paradoxon (I / II)

Das Ignorieren von Kovariablen kann zu verzerrten Ergebnissen führen.16

Zulassungen an der UC Berkeley

Admitted Rejected

Male
Gender

Female

Admit

Höherer Frauenanteil bei den Nicht-Zugelassenen als bei den Zugelassenen, vgl. Höhe
der Rechtecke: Diskriminierung?

16 Bickel,
P. J., Hammel, E. A., and O’Connell, J. W. (1975). Sex bias in graduate admissions: Data
from Berkeley. Science, 187, 398–403. https://doi.org/10.1126/science.187.4175.398
WiSe 21/22 Martin Vogt | Statistik 50
3. Grundlagen Quantitativer Datenanalyse
Simpson-Paradoxon (II / II)
Zulassungen an der UC Berkeley
Department A Department B Department C
Admitted Rejected Admitted Rejected Admitted Rejected

Male
Male
Sex

Sex

Sex
Male

Female
Female

Female
Admit Admit Admit

Department D Department E Department F


Admitted Rejected Admitted Rejected Admitted Rejected

Male

Male
Male
Sex

Sex

Sex
Female

Female
Female

Admit Admit Admit

Je nach Department17 mal mehr mal weniger Frauen bei den Nicht-Zugelassenen als bei
den Zugelassenen. Aber Frauen haben sich mehr für Fächer beworben, in denen der
Anteil der Zugelassenen geringer war, vgl. Breite der Rechtecke.
17 Kovariable!

WiSe 21/22 Martin Vogt | Statistik 51


3. Grundlagen Quantitativer Datenanalyse
Übung 13: Zusammenhang

Die Dozentin stellt fest, dass die Motivation der Studierenden mit der Uhrzeit
zusammenhängt, und zwar unterschiedlich für Frauen und Männer. Welche Aussage
stimmt?
A. Es gibt eine abhängige Variable (Motivation), eine unabhängige Variable (Uhrzeit)
und eine Kovariable (Geschlecht).
B. Es gibt eine abhängige Variable (Uhrzeit), eine unabhängige Variable (Motivation)
und eine Kovariable (Geschlecht).
C. Es gibt zwei abhängige Variable (Motivation und Geschlecht) und eine unabhängige
Variable (Uhrzeit).
D. Es gibt eine abhängige Variable (Geschlecht) und zwei unabhängige Variablen
(Motivation und Uhrzeit).

WiSe 21/22 Martin Vogt | Statistik 52


3.2 Datenerhebung

WiSe 21/22 Martin Vogt | Statistik 53


3. Grundlagen Quantitativer Datenanalyse
Stichproben

I Stichproben sind eine Teilmenge der Population / Grundgesamtheit, die


Beobachtungen / Daten.
I In der Regel ist man daran interessiert, das Ergebnis einer Stichprobe zu
verallgemeinern, zu generalisieren: vom Geschmack des Suppenlöffels auf die ganze
Suppe.18

18 hier: Kartoffelcremesuppe, Foto: Johann Hauke


WiSe 21/22 Martin Vogt | Statistik 54
3. Grundlagen Quantitativer Datenanalyse
Begriffe: Stichproben (I / II)

I Population: die Menge, über die eine Aussage getroffen werden soll: die ganze
Suppe im Suppentopf.
I Stichprobe: Teilmenge der Population, die zur Analyse ausgewählt wurde: der
Löffel voll Suppe.
I Stichprobenverfahren: der Prozess, mit dem die Teilmenge ausgewählt wurde.
Z. B. zufällig: der Auswahlprozess, wo und wie der Löffel aus dem Suppentopf
gefüllt wurde.
I Repräsentative Stichprobe: Ist die Verteilung der Eigenschaften der Stichprobe
ähnlich der in der Population? Wenn der Löffel anders schmeckt als die Suppe, war
der Löffel nicht repräsentativ.
I Bias / Verzerrung: Ein Teil der Population wird bevorzugt: nur Fleischbällchen auf
dem Löffel.
I Generalisierbarkeit: Inwieweit kann von der Stichprobe auf die Grundgesamtheit
geschlossen werden? Wenn wir gut umgerührt haben, sollten die Verteilung der
Gewürze etc. auf dem Löffel ähnlich der im Topf sein und wir können vom Löffel
auf den Topf schließen.

WiSe 21/22 Martin Vogt | Statistik 55


3. Grundlagen Quantitativer Datenanalyse
Begriffe: Stichproben (II / II)

I Parameter: Wert der Population, an dem wir interessiert sind: z. B. Temperatur


der Suppe insgesamt.19
I Statistik: Wert, der auf Basis der Stichprobe berechnet wird: z. B. Temperatur der
Suppe auf dem Löffel.20
Song https://www.causeweb.org: Larry Lesser und Dominic Sousa © Estimation
Notation
Hinweis: Häufig kann die Datengenierierung als Zufallsprozess aufgefasst werden. z. B.
der Aktienkurs. Dann ist der beobachtete Kurs die Stichprobe, der theoretisch mögliche
die Population: von den möglichen Kursen wurde der beobachtete realisiert.21

19 symbolisiert
häufig durch griechische Buchstaben: µ, . . .
20 symbolisiert
häufig durch lateinische Buchstaben: x̄, . . .
21 Formal: Beobachtung x ist Realisation einer Zufallsvariable X.

WiSe 21/22 Martin Vogt | Statistik 56


3. Grundlagen Quantitativer Datenanalyse
Übung 14: Stichprobe

Kann die Dozentin von den Studierenden, die die Vorlesung besuchen22 , unverzerrt auf
das Interesse aller Studierenden schließen, die für die Vorlesung angemeldet sind23 ?
I Ja.
I Nein.

22 Stichprobe
23 Population

WiSe 21/22 Martin Vogt | Statistik 57


3. Grundlagen Quantitativer Datenanalyse
Stichprobenverfahren

I Bei einer (einfachen) Zufallsstichprobe hat jede Beobachtung die gleiche


Wahrscheinlichkeit, Teil der Stichprobe zu sein.
I Bei geschichtete Stichproben setzen sich die Schichten aus ähnlichen
Beobachtungen zusammen (z. B. Alter, Geschlecht). Es wird eine einfache, zufällige
Stichprobe aus jeder Schicht genommen.
I Zufällige Stichproben erlauben einen Schluss auf die Grundgesamtheit
(Generalisierbarkeit).
I Gelegenheitsstichproben können verzerrt sein.

WiSe 21/22 Martin Vogt | Statistik 58


3. Grundlagen Quantitativer Datenanalyse
Einfache Zufallsstichprobe
30 zufällig ausgewählte Beobachtungen:
7
6
5
4
y

3
2
1

0.5 1.0 1.5 2.0 2.5

WiSe 21/22 Martin Vogt | Statistik 59


3. Grundlagen Quantitativer Datenanalyse
Geschichtete Zufallsstichprobe
Von jeder Farbe 10 zufällig ausgewählte Beobachtungen:
7
6
5
4
y

3
2
1

0.5 1.0 1.5 2.0 2.5

WiSe 21/22 Martin Vogt | Statistik 60


3. Grundlagen Quantitativer Datenanalyse
Gelegenheitsstichprobe
Von den ersten 50 Beobachtungen 30 zufällig ausgewählte:
7
6
5
4
y

3
2
1

0.5 1.0 1.5 2.0 2.5

WiSe 21/22 Martin Vogt | Statistik 61


3. Grundlagen Quantitativer Datenanalyse
Cartoon: Gelegenheitsstichproben

“Gelegenheitsstichproben erreichen nur die niedrig hängenden Früchte.”24

24 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift L. Lesser


WiSe 21/22 Martin Vogt | Statistik 62
3. Grundlagen Quantitativer Datenanalyse
Übung 15: Flugzeuge im zweiten Weltkrieg
I Im zweiten Weltkrieg haben die Alliierten viele Flugzeuge durch die Deutsche
Flugabwehr verloren.
I Deshalb wurde entschieden die Flugzeuge besser zu panzern.

Wo würden Sie die Panzerung aufrüsten?


WiSe 21/22 Martin Vogt | Statistik 63
3. Grundlagen Quantitativer Datenanalyse
Beobachtungsstudien und Experimente

I Bei Beobachtungsstudien werden Daten gesammelt, ohne die Entstehung der


Daten zu beeinflussen (keine unmittelbaren Kausalaussagen möglich).
I Bei einem Experiment wird der Wert der unabhängigen Variable(n) manipuliert25
und die Variation der abhängigen Variable gemessen.
I Um Verzerrungen durch Kovariablen zu vermeiden, erfolgt die Zuordnung zu den
Experimentalkonditionen zufällig (randomisiert).26
I Durch wiederholte Messung kann der Effekt der Experimentalkonditionen geschätzt
werden: hohe interne Validität. Bei Quasi-Experimenten ist die Zuordnung nicht
randomisiert: geringe interne Validität.

25 z. B. Zielgruppe erhält Werbung, Kontrollgruppe nicht


26 Video https://www.causeweb.org: McLellan M © Randomize
WiSe 21/22 Martin Vogt | Statistik 64
3. Grundlagen Quantitativer Datenanalyse
Übung 16: Beobachtungsstudien und Experimente

Die Dozentin stellt fest, dass die Motivation der Studierenden mit der Uhrzeit
zusammenhängt, und zwar unterschiedlich für Frauen und Männer. Welche Aussage
stimmt?
A. Es handelt sich um eine Beobachtungsstudie.
B. Es handelt sich um ein randomisiertes Experiment.

WiSe 21/22 Martin Vogt | Statistik 65


3. Grundlagen Quantitativer Datenanalyse
Offene Übung 17: Experiment

Warum ist die interne Validität bei einem randomisierten Experiment höher als z. B. bei
Beobachtungsstudien?
1. Think: Überlegen Sie für sich.
2. Pair: Teilen Sie Ihr Ergebnis mit der Nachbar*in.
3. Share: Stellen Sie Ihr Ergebnis im Plenum vor.

WiSe 21/22 Martin Vogt | Statistik 66


3. Grundlagen Quantitativer Datenanalyse
Labor- und Feldexperiment

I Bei Laborexperimenten erfolgt die Untersuchung innerhalb einer speziellen


Versuchsanordnung (geringe externe Validität).
I Bei einem Feldexperimenten erfolgt die Untersuchung im natürlichen Umfeld
(hohe externe Validität).

WiSe 21/22 Martin Vogt | Statistik 67


3. Grundlagen Quantitativer Datenanalyse
Cartoon: Kausalität

“Mal sehen, was das Rad der nicht-ursächlichen Beziehungen diesmal als stärksten
Prädiktor für die Krankheit X ausgibt.”27
27 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift M. Posner
WiSe 21/22 Martin Vogt | Statistik 68
3. Grundlagen Quantitativer Datenanalyse
Datenschutz

Personenbeziehbare Daten und unternehmensinterne Daten sind sensibel!


Rechtliche Rahmen u. a.:
I Bundesdatenschutzgesetz
I Datenschutz-Grundverordnung

Nicht alles was möglich ist, ist auch legal!

WiSe 21/22 Martin Vogt | Statistik 69


3. Grundlagen Quantitativer Datenanalyse
Griechische Buchstaben in den Folien

I α: alpha, i. d. R. Symbol für das Signifikanzniveau eines Tests, auch Zeichen für
Fehler 1. Art.
I β: beta, i. d. R. Symbol für Regressionskoeffizienten, auch Zeichen für Fehler 2. Art.
I δ: delta, i. d. R. Symbol für allgemeine zusammenfassende Statistik (Kennzahl).
I e: epsilon, i. d. R. Symbol für Residuum.
I µ: my, i. d. R. Symbol für den Populationsmittelwert.
I σ: sigma, i. d. R. Symbol für die Populationsstandardabweichung.
I π: pi, i. d. R. Symbol für den Populationsanteil.
I χ: chi, i. d. R. Symbol für zusammenfassende Statistik im χ2 -Test.

WiSe 21/22 Martin Vogt | Statistik 70


3. Grundlagen Quantitativer Datenanalyse
Übersicht: Quantitativer Forschungsprozess

1. Forschungsfrage: Was soll untersucht werden?


2. Studiendesign: Operationalisierung / Variablenauswahl. Wahl des
Stichprobenverfahren und / oder Versuchsplanung. Alternativ: Nutzung vorhandener
Daten.
3. Datenerhebung
4. Datenanalyse: Datenvorverarbeitung (Ausreißer, fehlende Werte), Explorative
Datenanalyse (Grafiken und Kennzahlen).
5. Inferenz: Schätzen und Testen; Modellierung.
6. Schlussfolgerungen: (vorläufige) Antwort auf Forschungsfrage.

WiSe 21/22 Martin Vogt | Statistik 71


3. Grundlagen Quantitativer Datenanalyse
Offene Übung 18: Praxistransfer

Überlegen Sie sich ein Beispiel für einen quantitativen Forschungsprozess.

WiSe 21/22 Martin Vogt | Statistik 72


3. Grundlagen Quantitativer Datenanalyse
Offene Übung 19: Messgenauigkeit und Skalenniveaus

Geben Sie bitte für die folgenden Merkmale das jeweilige Skalenniveau und mögliche
Merkmalsausprägungen an. Unterscheiden Sie die Merkmale ferner in diskrete und
stetige und diskutieren Sie dabei Probleme der Messgenauigkeit.
1. Gewicht
2. Akademischer Grad (Hochschulabschluss).
3. Jahreszahlen.
4. Anzahl Regentage pro Jahr
5. Transportmittel

WiSe 21/22 Martin Vogt | Statistik 73


3. Grundlagen Quantitativer Datenanalyse
Offene Übung 20: Investment-Analyse

Aufgrund Ihrer hervorragenden Leistungen bekommen Sie am Jahresende einen hohen


Bonus. Diesen möchten Sie in eine Aktie investieren und betrachten dabei die
Aktienrenditen der Unternehmen im DAX aus dem vergangegen Jahr. Mathematisch ist
die Rendite am Zeitpunkt t als
S − St−1
Rt = t
St−1
definiert, wobei St der Kurs zum Zeitpunkt t ist, und St−1 der Kurs an einem Zeitpunkt
früher, d. h. der vergangenen Periode (z. B. ein Jahr).
1. Was ist das berechnete Merkmal?
2. Wer oder was sind die Merkmalsträger?
3. Welche Merkmalsausprägungen können auftreten?
4. Was ist das Skalenniveau?
5. Können fehlende Werte auftreten?

WiSe 21/22 Martin Vogt | Statistik 74


3. Grundlagen Quantitativer Datenanalyse
Offene Übung 21: ADAC und die Schuldvermutung in der Statistik

Anfang des Jahres 2014 stand der ADAC in der Kritik Statistiken manipuliert zu haben.
Dabei wurde bei der Wahl des Lieblingsautos der Deutschen getäuscht. Die Anzahl der
abgegebenen Stimmen bei der Wahl zum Autopreis Gelber Engel wurde vom ADAC
wesentlich höher angegeben, als tatsächlich Stimmen abgegeben wurden.
Denken Sie im Zusammenhang mit der Manipulation des ADAC über das folgenden
Zitat von Walter Krämer (Statistiker) nach:
Jede Statistik, die von einer interessierten Seite selbst erstellt und verbreitet
wird, ist bis zum Beweis des Gegenteils als manipuliert zu betrachten.28

28 Walter Krämer; 1992; Statistik verstehen; Piper.


WiSe 21/22 Martin Vogt | Statistik 75
4 Einführung R

WiSe 21/22 Martin Vogt | Statistik 76


4. Einführung R
Cartoon: Computereinsatz in der Statistik

“Auch wenn die Zeit für das ‘Einsetzen von Zahlen in Formeln’ und das ’Abbildungen
zeichnen per Hand‘ gekommen ist: die Ideen und Konzepte leben weiter – in unseren
Computerprogrammen.”29
29 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift K. Lübke
WiSe 21/22 Martin Vogt | Statistik 77
4. Einführung R
Warum R?

[. . . ] she was also following a wider trend: for many academics [. . . ] R is the
data-analysis tool of choice.30

Verbreitung z. B.: http://r4stats.com/articles/popularity/


R ist eine weit verbreitete Eintrittskarte in das globale Datenzeitalter!

30 Tippmann, S.. Programming tools (2015): Adventures with R. A guide to the popular, free
statistics and visualization software that gives scientists control of their own data analysis. Nature, 517,
S. 109–110. https://doi.org/10.1038%2F517109a
WiSe 21/22 Martin Vogt | Statistik 78
4. Einführung R
Vorteile R

I Methoden- und Anwendungsvielfalt (Finance, Marketing, HR, Psychologie, . . . )31


I Neue Methoden der Datenanalyse werden häufig in R entwickelt (auch Big Data,
KI, c. ).
I frei und offen; kostenlos
I Schnittstellen zu sehr vielen Datenquellen/-banken (auch SocialMedia etc.)
I Erweiterungen u. a. für Microsoft, Oracle, SAP Produkte, aber auch SPSS, SAS
I unzählige Nutzer*innen weltweit in Unternehmen und Wissenschaft
I Möglichkeiten für Reporting, Apps, etc.
I numerische Stabilität / Genauigkeit
I große Entwickler*innen-Gemeinde mit langer Geschichte (seit 1993); R Konsortium,
u. a. IBM, Microsoft, TIPCO, Google, . . .

31 Siehe z. B. https://cran.r-project.org/web/views/
WiSe 21/22 Martin Vogt | Statistik 79
4. Einführung R
Übung 22: R in der Wissenschaft

Welchen Vorteil hat R aufgrund der Gütekriterien für Forschung?


A. Kostenlos.
B. Offen.

WiSe 21/22 Martin Vogt | Statistik 80


4. Einführung R
R und co.

I R https://www.r-project.org/: ist das Basisprogramm


I RStudio Desktop https://www.rstudio.com/: ist eine komfortable
Entwicklungsumgebung für R und bietet zusätzliche Tools, wie z. B.
Dokumentenerstellung etc.
I mosaic https://cran.r-project.org/web/packages/mosaic/: ist ein Zusatzpaket,
welches u. a. eine vereinheitlichte R Syntax bietet

WiSe 21/22 Martin Vogt | Statistik 81


4. Einführung R
Statistik, R, Rstudio und mosaic

I Statistik ist das Auto, mit dem der Weg von der Forschungsfrage zur vorläufigen
Antwort bestritten werden kann.
I R ist ein Motor, der das Auto antreiben kann.
I Rstudio Desktop ist das Cockpit, mit dem der Motor gesteuert werden kann.
I mosaic ist eine Zusatzausstattung, um die Motorsteuerung zu vereinfachen.

WiSe 21/22 Martin Vogt | Statistik 82


4. Einführung R
R Installation

1. R (https://www.r-project.org/)
2. RStudio Desktop (https://www.rstudio.com/)
3. Installation von Zusatzpaketen in RStudio:

install.packages("mosaic")

Ausführliche Installationsanleitung hier.

WiSe 21/22 Martin Vogt | Statistik 83


4. Einführung R
Warum Code? Politik

Ich glaube, dass die Fähigkeit zum Programmieren eine der Basisfähigkeiten
von jungen Menschen wird, neben Lesen, Schreiben, Rechnen. Die werden nicht
wegfallen. Aber Programmieren wird nochmal dazu kommen.32

32 Rede von Bundeskanzlerin Merkel zur Deutsch-Französischen Digitalkonferenz am 13. Dezember


2016.
WiSe 21/22 Martin Vogt | Statistik 84
4. Einführung R
Warum Code? Wirtschaft

Der Prozess, eine komplexe Aufgabe auf eine Reihe einfacher Anweisungen zu
reduzieren - genau darum geht es beim Programmieren -, ist eine Fähigkeit, die
in vielen Aspekten des modernen Lebens nützlich ist, nicht nur für professionelle
Informatiker und Programmierer.33

I think everyone should learn how to program a computer, because it teaches


you how to think.34

33 Facebooks Forschungschef Yann LeCun


34 Steve Jobs
WiSe 21/22 Martin Vogt | Statistik 85
4. Einführung R
Warum Code? Wissenschaft

In the past few years, the startling realization that many modern scientific find-
ings cannot be replicated has been highlighted [. . . ]. Many factors have been
identified, including publication bias, reporting bias, conflicts of interest, and in-
sufficient statistical power. This last factor can be remedied by encouraging the
replication of studies and then conducting subsequent meta-analyses. In order
for a scientific study to be replicated, however, the method of statistical analysis
must be entirely reproducible. Teaching reproducible analysis in an introductory
statistics course not only makes students aware of these issues, but also paves
the way toward making them valuable contributors to modern data analysis.
These future contributions could be made as part of academic research or for a
data-centric enterprise that needs to conduct daily analysis on new data.35

35 Baumer B, Cetinkaya-Rundel M, Bray A, Loi L und Horton NJ (2014). R Markdown: Integrating A


Reproducible Analysis Tool into Introductory Statistics. Technology Innovations in Statistics Education,
8(1)
WiSe 21/22 Martin Vogt | Statistik 86
4. Einführung R
Warum Code? Lehre

Don’t fence off students from the computation pool, throw them in! Computing
skills are essential to working with data in the 21st century. Given this fact,
we feel that to shield students from computing is to ultimately do them a
disservice.36

36 Ismay, C, Kim, A (2018): ModernDive


WiSe 21/22 Martin Vogt | Statistik 87
4. Einführung R
Vorteile Code

I Dokumentation des Vorgehens


I (Einfache) Nachvollziehbarkeit, Wiederholung
I Möglichkeit zur Automatisierung und Übertragung
I “Direkte” Kommunikation mit dem Programm / Computer
I Speziell R: unzählige Literatur und Hilfe / Tutorials im Internet

WiSe 21/22 Martin Vogt | Statistik 88


4. Einführung R
Code: mosaic

analysiere( y # ggfs. abhängige Variable


~ x # unabhängige Variable(n)
| z, # ggfs. bedingende (gruppierende) Variable(n)
Optionen, # ggfs. weitere Optionen
data = daten ) # Datensatz

analysiere(): Was soll R tun?

WiSe 21/22 Martin Vogt | Statistik 89


4. Einführung R
Zentrale Fragen

1. Was soll der Computer für mich tun?


2. Was muss der Computer dafür wissen?

meineanalyse( meiny ~ meinx, data = meinedaten)

WiSe 21/22 Martin Vogt | Statistik 90


4. Einführung R
R-Basics
I R unterscheidet zwischen Groß- und Kleinbuchstaben.
I R verwendet den Punkt . als Dezimaltrennzeichen.
I Fehlende Werte werden in R durch NA kodiert.
I Kommentare werden mit dem Rautezeichen # eingeleitet.
I Eine Ergebniszuweisung erfolgt über <-.
I %>% (Paket dplyr) übergibt Ergebnisse.
I Hilfe zur Funktion foo: ?foo
I Wird in der Konsole ein kleines rotes Stop-Schild angezeigt, so ist R gerade am
Arbeiten. Mit Klick auf das Stop-Schild kann man R anhalten.
I Liefert R einen Fehler zurück, gibt es häufig eine einfache Ursache – Tippfehler.
I Gerne vergisst man, die benötigten Pakete und Daten zu laden.
I R schreibt sowohl Hinweise, als auch Warnungen (Warnings) und Fehler (Errors) in rot.
Aber nur Fehler sind i. d. R. ein Problem.
I Reagiert R nicht, so kann es daran liegen, dass der aktuelle Befehl in der Konsole noch
nicht abgeschlossen ist. Ein einfacher Ausweg ist es, in die Konsole zu klicken und dann
die Escape-Taste zur drücken.
I Gibt R den Hinweis aus, dass ein Paket fehle, so muss man das genannte Paket noch
installieren.
WiSe 21/22 Martin Vogt | Statistik 91
4. Einführung R
Beispiel Alcohol
Ggf. einmalig vorab mosaic installieren:

install.packages("mosaic")

Paket mosaic in jeder Sitzung laden:

library(mosaic)

Internen Datensatz Alcohol laden:

data(Alcohol)

Datensatzbeschreibung (Hilfe zu den Daten):

?Alcohol

Daten betrachten:

View(Alcohol)
WiSe 21/22 Martin Vogt | Statistik 92
4. Einführung R
Datenvorverarbeitung

Häufig müssen Daten vor der eigentlichen Analyse vorverarbeitet werden, z. B.:
I Variablen auswählen: select()
I Beobachtungen auswählen: filter()
I Variablen verändern, neu erzeugen: mutate()
I ...
Das Paket dplyr37 bietet dazu viele Möglichkeiten. Mehr dazu im Abschnitt
Datenhandling.

37 wird mit mosaic installiert und geladen. http://dplyr.tidyverse.org/index.html


WiSe 21/22 Martin Vogt | Statistik 93
4. Einführung R
filter() wählt Beobachtungen aus

Alcohol.Ger soll sein:


Nimm den Datensatz Alcohol und dann...
filtere auf die Beobachtungen, in denen das Land Deutschland ist.

Alcohol.Ger <- Alcohol %>%


filter(country == "Germany")

View(Alcohol.Ger)

WiSe 21/22 Martin Vogt | Statistik 94


4. Einführung R
select() wählt Variablen aus

Alcohol.2008 soll sein:


Nimm den Datensatz Alcohol und dann...
filtere auf die Beobachtungen, in denen das Jahr 2008 ist und dann...
selektiere die Variablen Land und Alkohol.

Alcohol.2008 <- Alcohol %>%


filter(year == 2008) %>%
select(country, alcohol)

View(Alcohol.2008)

WiSe 21/22 Martin Vogt | Statistik 95


4. Einführung R
arrange() sortiert Beobachtungen

Alcohol.2008.sort soll sein:


Nimm den Datensatz Alcohol.2008 und dann...
sortiere nach der Variable Alkohol.

Alcohol.2008.sort <- Alcohol.2008 %>%


arrange(alcohol)

View(Alcohol.2008.sort)

WiSe 21/22 Martin Vogt | Statistik 96


4. Einführung R
mutate() verändert bzw. erzeugt Variablen

Die Funktion rank() gibt den Rang einer Beobachtung zurück.

Alcohol.2008.rang soll sein:


Nimm den Datensatz Alcohol.2008 und dann...
erzeuge neue Variable rang als Rang der Beobachtung
in der Variable Alkohol.

Alcohol.2008.rang <- Alcohol.2008 %>%


mutate(rang = rank(alcohol))

View(Alcohol.2008.rang)

WiSe 21/22 Martin Vogt | Statistik 97


4. Einführung R
Übung 23: Rangliste

Alcohol.2008.rang %>%
filter(country == "Germany")

## country alcohol rang


## 1 Germany 12.14 160

Ist Deutschland in der Stichprobe in dem Jahr das Land mit dem 160. geringsten oder
höchsten Alkoholkonsum?
A. Geringsten.
B. Höchsten.

WiSe 21/22 Martin Vogt | Statistik 98


4. Einführung R
Variablentypen in R
Struktur des Datensatzes Alcohol:

str(Alcohol)

## ’data.frame’: 411 obs. of 4 variables:


## $ X : int 139 328 517 706 895 980 997 1012 1084 1273 ...
## $ country: chr "Russia" "Russia" "Russia" "Russia" ...
## $ year : int 1985 1986 1987 1988 1989 1990 1990 1990 1990 1991 ..
## $ alcohol: num 13.3 10.8 11 11.6 12 ...

Ein Datensatz (data.frame) kann aus mehreren Variablen (Spalten) mit gleicher
Anzahl Beobachtungen (Zeilen) bestehen. Für Variablen gibt es verschiedene Typen,
u. a.:
I Zeichenketten (character) und Faktoren (factor)38 .
I Gleitkommazahlen (numeric bzw. double) und Ganze Zahlen (integer).
38 Faktoren
sind Zeichenketten, die eine definierte Menge an Werten (Ausprägungen, levels)
annehmen können.
WiSe 21/22 Martin Vogt | Statistik 99
4. Einführung R
Übung 24: Variablentyp

Als welcher Variablentyp sollten kategorial-nominale Variablen in R gespeichert werden?


A. character bzw. factor.
B. integer.
C. numeric bzw. double.

WiSe 21/22 Martin Vogt | Statistik 100


4. Einführung R
R im quantitativen Forschungsprozess

1. Forschungsfrage: Was soll untersucht werden?


2. Studiendesign: Operationalisierung / Variablenauswahl. Wahl des
Stichprobenverfahren, z. B. Paket sampling, Stichprobenumfang, z. B. Paket pwr
und / oder Versuchsplanung, z. B. Paket AlgDesign. Alternativ: Nutzung
vorhandener Daten, z.B CRAN Task View Web Technologies and Services.
3. Datenerhebung
4. Datenanalyse: Datenvorverarbeitung (u. a. Ausreißer, z. B. Paket outliers; fehlende
Werte, z. B. Paket VIM), Explorative Datenanalyse (Grafiken und Kennzahlen),
z. B. Paket mosaic.
5. Inferenz: Schätzen und Testen; Modellierung, z. B. Paket mosaic.
6. Schlussfolgerungen: (vorläufige) Antwort auf Forschungsfrage.

WiSe 21/22 Martin Vogt | Statistik 101


4. Einführung R
Data Frame
Tabellen heißen in R Data Frames und können mit der Funktion data.frame() gebildet
werden. Ein Beispiel: Es soll ein Data Frame erstellt werden, der aus 6 Studierenden,
deren Alter, den Matrikelnummern, einer Klausurnote und der Information, ob diese
Klausur bestanden wurde besteht
namen <- c("Arno", "Bert", "Carl", "Doro", "Edda", "Fred")
alter <- c(19, 21, 20, 22, 20, 27)
matrnr <- c(101010, 101007, 200000, 123456, 654321, 111111)
note <- c(1, 5, 2.3, 2.7, 1.3, 4)
bestanden <- (note < 4.3)
Studenten <- data.frame(Name = namen, Alter = alter, Matrikelnummer =
Studenten

## Name Alter Matrikelnummer Note Bestanden


## 1 Arno 19 101010 1.0 TRUE
## 2 Bert 21 101007 5.0 FALSE
## 3 Carl 20 200000 2.3 TRUE
## 4 Doro 22 123456 2.7 TRUE
## 5 Edda 20 654321 1.3 TRUE
## 621/22
WiSe Fred 27 111111 Martin
4.0Vogt | Statistik
TRUE 102
4. Einführung R
Offene Übung 25: DataFrame

Was gibt R jeweils nach folgenden Zeilen aus? Überprüfen Sie Ihre Antwort in R.

Studenten[1, 3]
Studenten[1:3, c(1, 4)]
Studenten[2, ]
Studenten[, 4]
Studenten$Note
Studenten[, 3:5]
Studenten[note < 2.5, ]

WiSe 21/22 Martin Vogt | Statistik 103


4. Einführung R
Offene Übung 26: DataFrame2

I Erzeugen Sie einen Data Frame der folgenden 7 Kinder gemäß der Datentabelle

Alter Geschlecht Taschengeld besitzt Fahrrad


6 m 12 ja
7 m 18 ja
6 w 14 nein
7 w 20 ja
8 m 26 ja
7 w 20 ja
8 w 20 nein

I Generieren Sie in R einen Data Frame des Alters und des Taschengeldes aller
Kinder mit höchstens 7 Jahren.
I Berechnen Sie in R die Summe des Taschengelds aller Fahrradbesitzer.

WiSe 21/22 Martin Vogt | Statistik 104


5 Explorative Datenanalyse

WiSe 21/22 Martin Vogt | Statistik 105


5. Explorative Datenanalyse
Beispiel: Standortplanung

I Mit welchem Verkehrsmittel sind Sie heute zur Hochschule gekommen? (Auto,
ÖPNV, Fahrrad, zu Fuß)
I Sind Sie in einer Fahrgemeinschaft gekommen? (Ja / Nein)
I Wie weit war heute Ihr Weg? (km)
I Wie lange haben Sie gebraucht? (min)

Wie kann aus Rohdaten Information, z. B. für eine Entscheidungsvorlage zur


Standortplanung, werden?

WiSe 21/22 Martin Vogt | Statistik 106


5.1 Grafische Verfahren

WiSe 21/22 Martin Vogt | Statistik 107


5. Explorative Datenanalyse
Grafische Verfahren der Datenanalyse

I Balkendiagramm: Häufigkeit von Merkmalsausprägungen (nominal, ordinal,


metrisch diskret).
I Histogramm: Häufigkeit von gruppierten Merkmalsausprägungen (metrisch).
I Boxplot: Visualisierung von Median, oberem und unterem Quartil, Minimum und
Maximum, Ausreißern (metrisch).
I Streudiagramm / Scatterplot: Darstellung der Merkmalsausprägungen von zwei
i. d. R. metrischen Merkmalen39 als Punkte.
I Mosaikplot: Darstellung der Merkmalsausprägungen zweier nominaler Merkmale.
I Liniendiagramm: Verlauf der Merkmalsausprägung eines Merkmals.
I Kreisdiagramm40

39 bei kategorialen oder metrisch diskreten Merkmalen ggfs. verwackeln (engl.: jitter)
40 siehe z. B. Regel 20 von https://robjhyndman.com/hyndsight/graphics/
WiSe 21/22 Martin Vogt | Statistik 108
5. Explorative Datenanalyse
Visualisierung (Tipps)

I Vermittle viele Zahlen, sonst brauchst du keine Grafik.


I Vermeide Ablenkung von der Hauptbotschaft.
I Fördere visuellen Vergleich.
I Unterschiedliche Farben nur, wenn es den Vergleich unterstützt.
I Vermeide 3D.
I Achte auf die Achsenskalierung.

WiSe 21/22 Martin Vogt | Statistik 109


5. Explorative Datenanalyse
Iris Daten

Länge und Breite des Kelch- und Blütenblattes von drei verschiedenen
Schwertlilienarten.41

Foto: Armin Hauke

41 Fisher,R. A. (1936): The use of multiple measurements in taxonomic problems. Annals of


Eugenics, 7, Part II, 179–188.
WiSe 21/22 Martin Vogt | Statistik 110
5. Explorative Datenanalyse
Balkendiagramm

Visualisiert die absoluten oder relativen Häufigkeiten von Beobachtungen von


kategorialen oder metrisch diskreten Variablen durch die Höhe der Balken.

50

40

30
count

20

10

tos
a lor ica
se rsico gin
ve vir

Species

WiSe 21/22 Martin Vogt | Statistik 111


5. Explorative Datenanalyse
Histogramm
Visualisiert die (gruppierte) Verteilung einer numerischen Variable. Der Flächeninhalt
der Rechtecke entspricht dabei der absoluten oder relativen Häufigkeiten von
Beobachtungen im Intervall (Klasse).

30
Percent of Total

20

10

4 5 6 7 8

Sepal.Length

Bei ungleichen Intervallbreiten wird auf der Y-Achse die Dichte, der Quotient aus
Häufigkeit und Klassenbreite, angezeigt.
WiSe 21/22 Martin Vogt | Statistik 112
5. Explorative Datenanalyse
Übung 27: Histogramm

30

Percent of Total
20

10

4 5 6 7 8

Sepal.Length

Welche Aussage stimmt?


A. Die meisten Werte sind 6 5.
B. Die meisten Werte sind > 5 und 6 6.
C. Die meisten Werte sind > 6 und 6 7.
D. Die meisten Werte sind > 7.

WiSe 21/22 Martin Vogt | Statistik 113


5. Explorative Datenanalyse
Übung 28: Fahrzeit

Wie lange brauchen Studierende zur Hochschule? Skizzieren Sie das Histogramm.
Bestimmen Sie den Anteil derjenigen, die maximal 30min. zum Studienzentrum
brauchen.

WiSe 21/22 Martin Vogt | Statistik 114


5. Explorative Datenanalyse
Verteilungen

Die Verteilung gibt an, wie häufig bzw. wahrscheinlich bestimmte Werte oder
Wertebereiche sind.
Für numerische Variablen:
I Schiefe: Bei rechtsschiefen (linkssteilen) Verteilungen sind mehr Werte im
unteren Wertebereich, bei linksschiefen (rechtssteilen) im oberen.
I Bei symmetrische Verteilungen verteilen sich die Daten symmetrisch um eine
zentrale Lage.
I Bei mehrgipfligen Verteilungen gibt es mehr als nur ein Zentrum, um das die
Werte streuen.

WiSe 21/22 Martin Vogt | Statistik 115


5. Explorative Datenanalyse
Verteilungsformen

−4 −2 0 2 4

Bimodal Multimodal Gleichverteilung

0.8

0.6

0.4

0.2

0.0
Density

Symmetrisch (Normal) Linksschief Rechtsschief

0.8

0.6

0.4

0.2

0.0

−4 −2 0 2 4 −4 −2 0 2 4

x
WiSe 21/22 Martin Vogt | Statistik 116
5. Explorative Datenanalyse
Übung 29: Verteilungsform

Welche Aussage stimmt vermutlich für die Verteilung des Einkommens?


A. Das Einkommen ist gleichverteilt.
B. Das Einkommen ist multimodal.
C. Das Einkommen ist normalverteilt.
D. Das Einkommen ist linksschief.
E. Das Einkommen ist rechtsschief.

WiSe 21/22 Martin Vogt | Statistik 117


5. Explorative Datenanalyse
Verteilungsfunktion
Die empirische Verteilungsfunktion42 Fn (x) gibt an, wie viele der n Beobachtungen
kleiner oder gleich x sind:

Anzahl Beobachtungen 6 x
Fn (x) =
n
10 facher Münzwurf
0.25

0.20
Relative Häuigkeit

0.15

0.10

0.05

0.00
0.0 2.5 5.0 7.5 10.0
Anzahl Kopf

1.00

0.75
Verteilungsfunktion

0.50

0.25

0.00
0 4 8 12
Anzahl Kopf

42 Neben der empirischen Verteilungsfunktion gibt es auch eine theoretische Verteilungsfunktion F(x).
WiSe 21/22 Martin Vogt | Statistik 118
5. Explorative Datenanalyse
Übung 30: Verteilungsfunktion

Bei einem 10 fachen Münzwurf gilt für die Anzahl Kopf: F(8) = 0.9892578. Welche
Aussage stimmt?
A. Die relative Häufigkeit bei 10 Würfen 8 mal Kopf zu werfen liegt bei 0.9892578.
B. Die relative Häufigkeit bei 10 Würfen mehr als 8 mal Kopf zu werfen liegt bei
0.9892578.
C. Die relative Häufigkeit bei 10 Würfen höchstens 8 mal Kopf zu werfen liegt bei
0.9892578.

WiSe 21/22 Martin Vogt | Statistik 119


5. Explorative Datenanalyse
Übung 31: Kuss

Wann war Ihr erster Kuss? Skizzieren Sie die Verteilungsfunktion. Bestimmen Sie den
Anteil derjenigen, die Ihren ersten Kuss vor dem 16. Geburtstag erhalten haben.

WiSe 21/22 Martin Vogt | Statistik 120


5. Explorative Datenanalyse
Mosaikplot

Visualisiert die gemeinsame Verteilung von zwei kategorialen Variablen. Dabei entspricht
die Höhe und Breite der Rechtecke der jeweiligen relativen Häufigkeit.

Ãœberleben auf der Titanic

1st 2nd 3rd Crew


No
Survived

Yes

Class

WiSe 21/22 Martin Vogt | Statistik 121


5. Explorative Datenanalyse
Übung 32: Mosaikplot

Ãœberleben auf der Titanic

1st 2nd 3rd Crew

No
Survived

Yes
Class

Stimmt die Aussage: Der Anteil der Überlebenden ist in der 1. Klasse größer als in den
unteren Klassen?
I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 122


5. Explorative Datenanalyse
Streudiagramm

Visualisiert die gemeinsame Verteilung von zwei i. d. R. numerischen Variablen durch


Punkte. Bei diskreten Merkmalen ggfs. verwackeln (engl.: jitter).

4.5

4.0

3.5
Sepal.Width

3.0

2.5

2.0

5 6 7 8

Sepal.Length

WiSe 21/22 Martin Vogt | Statistik 123


5. Explorative Datenanalyse
Liniendiagramm
Visualisiert den (zeitlichen) Verlauf mindestens einer numerischen Variable.

CO2−Konzentration
360
350
340
co2

330
320

1960 1970 1980 1990

Zeit

WiSe 21/22 Martin Vogt | Statistik 124


5. Explorative Datenanalyse
Cartoon: Achsenbeschriftung und Skalierung

“Beschrifte die Achsen!”43


43 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift K. Falbo
WiSe 21/22 Martin Vogt | Statistik 125
5. Explorative Datenanalyse
Übung 33: Wahl der Visualisierung

Mit welchem Verfahren kann die Verteilung des Merkmals Stundenlohn sinnvoll
visualisiert werden?
A. Balkendiagramm.
B. Histogramm.
C. Streudiagramm.

WiSe 21/22 Martin Vogt | Statistik 126


5.2 Lagemaße

WiSe 21/22 Martin Vogt | Statistik 127


5. Explorative Datenanalyse
Lagemaße

Lagemaße sollen die zentrale Tendenz der Daten beschreiben:


I Minimum bzw. Maximum: kleinste bzw. größte Merkmalsausprägung
I Modus/Modalwert: häufigste Merkmalsausprägung
I Median/Zentralwert: Merkmalsausprägung, die bei (aufsteigend) sortierten
Beobachtungen in der Mitte liegt
I Arithmetischer Mittelwert (engl. mean)44 : Summe aller Werte geteilt durch die
P
Anzahl: x̄ = n1 in=1 xi
I Quantil: Das p-Quantil ist der Wert, für den gilt, dass er von p Prozent der Werte
nicht überschritten wird.

44 Darüberhinaus gibt es noch den Geometrischen und den Harmonischen Mittelwert.


WiSe 21/22 Martin Vogt | Statistik 128
5. Explorative Datenanalyse
Übung 34: Lagemaße

Stimmt die Aussage: Die Berechnung des arithmetischen Mittelwertes ist bei nominalen
Merkmalen nicht sinnvoll?
I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 129


5. Explorative Datenanalyse
Beispielrechnung Lagemaße

Daten: 20; 18; 24; 40; 24; 22; 21; 23; 20; 28 (n = 10)
I Minimum, Maximum, Modus: xmin = 18, xmax = 40, xmod = {20; 24}
I Median: 18; 20; 20; 21; 22;
| {z23} ; 24; 24; 28; 40
x0,5 = 22+23
2 =22,5
I Arithmetischer Mittelwert: x̄ = 10 1 (20 + 18 + 24 + · · · + 28) = 240 = 24
10
I 45
25%-Quantil: x0,25 = 20

45 Hier sind verschiedene Berechnungen möglich. R gibt z. B. 20.25 aus.


WiSe 21/22 Martin Vogt | Statistik 130
5. Explorative Datenanalyse
Übung 35: Lagemaße

Stimmt die Aussage: Der Median ist das 50 % Quantil einer Verteilung?
I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 131


5. Explorative Datenanalyse
Übung 36: Lagemaße

Stimmt die Aussage: Es gilt immer F(x̄) = 0.5?


I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 132


5. Explorative Datenanalyse
Mittelwert als “Modell”

I Idee: Daten = Modell + Rest.


I Für Beobachtung i gilt: xi = x̄ + ( xi − x̄).
I Der “Rest” xi − x̄ beschreibt die Abweichung46 der Beobachtung zum Mittelwert x̄
(hier: “Modell”).

46 ZurEinschätzung ob die Abweichung groß oder klein ist wird die Streuung (s. u.) der Daten
herangezogen.
WiSe 21/22 Martin Vogt | Statistik 133
5. Explorative Datenanalyse
Arithmetischer Mittelwert und Median

I Der arithmetische Mittelwert minimiert die Summe der quadratischen


P
Abweichungen der Beobachtungen von einer Zahl c: x̄ = arg min in (xi − c)2 . Er ist
c
der Durchschnitt in dem Sinne, dass alle Merkmalsträger den gleichen Anteil an der
Merkmalssumme haben.
I Der Median minimiert die Summe der absoluten Abweichungen der Beobachtungen
P
von einer Zahl c: x0,5 = arg min in |xi − c|. Er ist die Merkmalsausprägung eines
c
(im Sinne des Merkmals) typischen, d. h. mittleren Merkmalsträgers.
I Der Median ist robust gegen Ausreißer, der arithmetische Mittelwert nicht.

WiSe 21/22 Martin Vogt | Statistik 134


5. Explorative Datenanalyse
Die Abweichungen vom Mittelwert summieren sich zu Null auf

Richtung der Abweichung


4
negativ
positiv

3
Note

MW = 2.33

1 2 3 4
ID der Studierenden

X
n X
n X
n
( xi − x̄) = xi − x̄ = n · x̄ − n · x̄ = 0
i=1 i=1 i=1

WiSe 21/22 Martin Vogt | Statistik 135


5. Explorative Datenanalyse
Übung 37: Vergleich Median und Mittelwert
A

0.30
0.25

Density
0.20
0.15
0.10
0.05
0.00
−10 −5 0

0.4
Density

0.3
0.2
0.1
0.0
−2 0 2

0.20
Density

0.15
0.10
0.05
0.00
0 5 10 15

Für welche Abbildung gilt wohl Median < arithmetischer Mittelwert?


A. Abbildung A.
B. Abbildung B.
C. Abbildung C.
WiSe 21/22 Martin Vogt | Statistik 136
5.3 Streuungsmaße

WiSe 21/22 Martin Vogt | Statistik 137


5. Explorative Datenanalyse
Streuungsmaße

Streuungsmaße sollen die Streuung / Variation der Daten beschreiben:


I Varianz: Maß für die durchschnittliche quadratische Abweichung zum Mittelwert:
P
s2 = n−1 1 in=1 (xi − x̄)2 . Diese hat aber eine andere Einheit als die Daten, z. B.
Daten in e, Varianz e2 . Durch das Quadrieren werden Abweichungen zum
Mittelwert nach oben oder unten gleich behandelt und größere Abweichungen
stärker gewichtet.47
I Standardabweichung
√ (engl. standard deviation): Quadratwurzel der Varianz:
sd = s = s 2
I Variationskoeffizient: erlaubt den Vergleich von Standardabweichungen, da er
nicht von der Dimension abhängt, in der gemessen wird: vc = sdx̄
I Interquartilsabstand (engl. interquartile range, IQR): oberes Quartil
(75%-Quantil) – unteres Quartil (25%-Quantil)
I Spannweite (engl. range): Maximum – Minimum

47 1/ nist nicht falsch, 1/(n − 1) ist aus Gründen, die außerhalb dieser Vorlesung liegen, besser, wenn
von einer Stichprobe verallgemeinert werden soll. Der Unterschied ist bei großem n klein.
WiSe 21/22 Martin Vogt | Statistik 138
5. Explorative Datenanalyse
Beispielrechnung Streuungsmaße

Daten: 20; 18; 24; 40; 24; 22; 21; 23; 20; 28, n = 10, x̄ = 24
Varianz: s2 = 101−1 (20 − 24√)2 + (18 − 24)2 + . . . + (28 − 24)2 ) = 354

I 9 ≈ 39, 33
I Standardabweichung: sd = 39, 33 = 6, 27
I Interquartilsabstand:48 IQR = 24 − 20 = 4
I Spannweite: 40 − 18 = 22.

48 Hiersind aufgrund verschiedener Berechnungsmöglichkeiten der Quantile unterschiedliche Werte


möglich. R gibt z. B. 3.75 aus.
WiSe 21/22 Martin Vogt | Statistik 139
5. Explorative Datenanalyse
Varianz und SD als “Abweichungsquadrate”

Richtung der Abweichung


5
negativ
positiv

4
Note

MW = 2.33

1 2 3 4
Nummer der Studierenden

I Abweichungsquadrate als Kennzahl für “Rest”:


I Daten = Modell + Rest: xi = x̄ + ( xi − x̄).
P
I Quadratsumme des Restes: in=1 ( xi − x̄)2 = (n − 1) · sd2 .

WiSe 21/22 Martin Vogt | Statistik 140


5. Explorative Datenanalyse
Beispiel: Abwanderungserkennung

Während Klaus sehr regelmäßig einkauft (kleine Streuung), kauft Gabi zwar genau so
oft, aber unregelmäßiger ein:

Klaus
Personen

Gabi

0 50 100 150

Zeitpunkte

Beide waren seit 30 Tagen nicht mehr einkaufen: Aufgrund der größeren Streuung der
Kaufintervalle ist dies bei Gabi üblicher als bei Klaus.

WiSe 21/22 Martin Vogt | Statistik 141


5. Explorative Datenanalyse
Offene Übung 38: Kennzahlen

Wieviele Stunden haben Sie heute Nacht geschlafen haben (5 Studierende befragen).
Berechnen Sie arithmetischen Mittelwert, Median und Standardabweichung.49

49 Aus Datenschutzgründen dürfen Sie lügen!


WiSe 21/22 Martin Vogt | Statistik 142
5. Explorative Datenanalyse
Übung 39: Streuungsmaße

Welche Aussage stimmt?


A. Die Standardabweichung ist robuster (gegen Ausreißer) als der Interquartilsabstand.
B. Der Interquartilsabstand ist robuster (gegen Ausreißer) als die Standardabweichung.
C. Interquartilsabstand und Standardabweichung sind gleich robust gegen Ausreißer.

WiSe 21/22 Martin Vogt | Statistik 143


5. Explorative Datenanalyse
Übung 40: Vergleich Streuung
A

0.4

Density
0.3
0.2
0.1
0.0
−4 −2 0 2 4

0.20
0.15
Density

0.10
0.05
0.00
−4 −2 0 2 4

0.08
Density

0.06
0.04
0.02
0.00
−4 −2 0 2 4

Bei welcher Abbildung ist die Standardabweichung sd wohl am größten?


A. Abbildung A.
B. Abbildung B.
C. Abbildung C.
WiSe 21/22 Martin Vogt | Statistik 144
5. Explorative Datenanalyse
Offene Übung 41: Skalenniveaus

Welche Lage- und Streuungsmaße sind zulässig?

Skalenniveau Lagemaße Streuungsmaße


Nominal
Ordinal
Metrisch

WiSe 21/22 Martin Vogt | Statistik 145


5. Explorative Datenanalyse
Boxplot

Visualisiert die Verteilung von deskriptiven Kennzahlen und mögliche Ausreißer einer
numerischen Variable.

2.0 2.5 3.0 3.5 4.0 4.5

Sepal.Width

WiSe 21/22 Martin Vogt | Statistik 146


5. Explorative Datenanalyse
Anatomie Boxplot

I Die untere Linie der Box ist das untere Quartil (Q1).
I Die obere Linie der Box ist das obere Quartil (Q3).
I Der Punkt in der Box (häufig auch eine Linie) ist der Median.
I Sollten Punkte außerhalb der Antennen sein, sind dies mögliche Ausreißer.
Maximale Reichweite der Antennen: Bis zu der Beobachtung, die maximal
1,5 · IQR vom oberen bzw. unteren Quartil entfernt liegt. Sollte das Maximum
bzw. das Minimum der Daten kleiner bzw. größer sein, wird dies genommen.50

50 Definition nicht immer einheitlich.


WiSe 21/22 Martin Vogt | Statistik 147
5. Explorative Datenanalyse
Offene Übung 42: Boxplot
Verbinde Abbildung und Kennzahlen. Ab wann ist eine Beobachtung ein potentieller
Ausreißer nach oben?

0 5 10

## min Q1 median Q3 max mean sd n missing


## 0.11 1.3 2.36 3.4 12.63 2.96 2.65 100 0

WiSe 21/22 Martin Vogt | Statistik 148


5.4 Zusammenhangsmaße

WiSe 21/22 Martin Vogt | Statistik 149


5. Explorative Datenanalyse
Kovariation

I Kovarianz beschreibt den linearen Zusammenhang zweier metrischer Merkmale:


P
s xy = n−1 1 in=1 (xi − x̄)(yi − ȳ): Die Werte beider Variablen einer Beobachtung
werden mit dem jeweiligen Mittelwert der Variable verglichen. Vom Produkt der
gemeinsamen Abweichungen wird ≈ Mittelwert berechnet.
I Der Korrelationskoeffizient nach Pearson51 r = sdsxy normiert die Kovarianz
x ·sdy
auf den Wertebereich −1 bis +1 durch Division der Kovarianz durch das Produkt
der Standardabweichungen.
I Korrelationskoeffizienten r > 0 zeigen einen positiven linearen Zusammenhang an,
r < 0 einen negativen. Je größer |r|, desto größer ist der lineare Zusammenhang.
I Achtung: Korrelation heißt nicht zwangsläufig Kausalität, keine Korrelation heißt
nicht zwangsläufig kein Zusammenhang oder keine Kausalität.52

51 Alternative: Spearman.
52 Scheinkorrelation, siehe z. B. http://www.tylervigen.com/spurious-correlations
WiSe 21/22 Martin Vogt | Statistik 150
5. Explorative Datenanalyse
Beispiele Kovariation

I Einkommen x und Ausgaben y: positiver Zusammenhang: Personen mit


überdurchschnittlichem Einkommen (xi − x̄ > 0) haben häufig auch
überdurchschnittliche Ausgaben (yi − ȳ > 0), Personen mit
unterdurchschnittlichem Einkommen (xi − x̄ < 0) haben häufig auch
unterdurchschnittliche Ausgaben (yi − ȳ < 0). In beiden Fällen:
( xi − x̄) · (yi − ȳ) > 0.
I Preis x und Absatz y: negativer Zusammenhang: Produkte mit
überdurchschnittlichem Preis (xi − x̄ > 0) haben häufig einen
unterdurchschnittlichen Absatz (yi − ȳ < 0), Produkte mit unterdurchschnittlichem
Preis (xi − x̄ < 0) haben häufig einen überdurchschnittlichen Absatz (yi − ȳ > 0).
In beiden Fällen: (xi − x̄) · (yi − ȳ) < 0.

WiSe 21/22 Martin Vogt | Statistik 151


5. Explorative Datenanalyse
Beispielrechnung Kovarianz und Korrelation

i xi yi xi − x̄ yi − ȳ ( xi − x̄)2 (yi − ȳ)2 ( xi − x̄)(yi − ȳ)


1 20 6 -4 -1 16 1 4
2 24 7 0 0 0 0 0
3 30 10 6 3 36 9 18
4 25 7 1 0 1 0 0
5
P
21 5 -3 -2 9 4 6
120 35 0 0 62 14 28

I Lagemaße: x̄ = 120 35
5 = 24; ȳ = 5 = 7
I Streuungsmaße:
√ √
s2x = 62
4 = 15,5; s 2 = 14 = 3,5;
y 4 s x = 15,5 = 3,94; s y = 3,5 = 1,87
I Kovarianz: s xy = 28 4 =7
I Korrelation: r = 3,947·1,87 = 0, 9553

53 Song https://www.causeweb.org: Monty Harper © Correlation Does Not Imply Causation


WiSe 21/22 Martin Vogt | Statistik 152
5. Explorative Datenanalyse
Korrelationskoeffizienten

−1 −0.9 −0.75

−0.3 0 0.3

0.75 0.9 1

WiSe 21/22 Martin Vogt | Statistik 153


5. Explorative Datenanalyse
Big Bang und Nerds

WiSe 21/22 Martin Vogt | Statistik 154


5. Explorative Datenanalyse
Übung 43: Nicht lineare Zusammenhänge

y
1

−2 −1 0 1 2

Wie groß ist hier der Korrelationskoeffizient?


A. r ≈ −1
B. r≈0
C. r ≈ +1
D. r kann nicht bestimmt werden.

WiSe 21/22 Martin Vogt | Statistik 155


5. Explorative Datenanalyse
Anscombe Quartett

Anscombe Daten
5 10 15

3 4

12

10

1 2
y

12

10

5 10 15

WiSe 21/22 Martin Vogt | Statistik 156


5. Explorative Datenanalyse
Anscombe Daten: Erst visualisieren, dann korrelieren!

Die Verteilung von x und y unterscheidet sich sichtbar. Aber die deskriptiven Kennzahlen
I x̄ = 9; ȳ = 7,5
I sd x ≈ 3,31; sdy ≈ 2,03
I r ≈ 0,82

sind nahezu identisch – in allen vier Fällen.54

54 Weiteres Beispiel z. B. unter https://www.autodeskresearch.com/publications/samestats


WiSe 21/22 Martin Vogt | Statistik 157
5. Explorative Datenanalyse
Übung 44: Korrelationskoeffizient

Stimmt die Aussage: Der Korrelationskoeffizient ist robust gegen Ausreißer?


I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 158


5. Explorative Datenanalyse
Cartoon: Visualisierung

“Ich weiß, dass Datenvisualisierung ein heißes Thema ist, aber gehst Du hier nicht ein
wenig zu weit?”55
55 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift B. Osyk
WiSe 21/22 Martin Vogt | Statistik 159
5. Explorative Datenanalyse
Offene Übung 45: Miete

Zeichnen Sie das Histogram für die folgenden Daten.


Verwenden Sie die Klassen ]100, 200], ]200, 300], ]300, 400].
Miete (Euro): 213, 172, 347, 346, 231, 254, 276, 248, 291, 312

WiSe 21/22 Martin Vogt | Statistik 160


5. Explorative Datenanalyse
Offene Übung 46: Lebenserwartung und BSP
Was schwankt stärker, die Lebenserwartung oder das Bruttosozialprodukt (BSP) in $
pro Einwohner? Nutzen Sie zur Beantwortung der Frage die folgenden Daten 56

Lebenswerartung Männer
Land (Jahre) BSP ($) je Einwohner
Afghanistan 43,12 208
Brasilien 68,02 3454
Deutschland 75,81 36233
Indien 63,90 749
Italien 76,88 28940
Namibia 44,46 2464
Singapur 79,13 25876
Thailand 69,95 2975
USA 75,02 48437

1. Berechnen Sie geeignete Streuungsmaße.


2. Vergleichen und interpretieren Sie die Streuungsmaße.
56 Daten aus https://www.welt-in-zahlen.de
WiSe 21/22 Martin Vogt | Statistik 161
5. Explorative Datenanalyse
Offene Übung 47: Zusammenhang: Lebenserwartung und BSP
Betrachten Sie wieder die Daten zur Lebenserwartung und zum BSP. Gibt es einen
(linearen) Zusammenhang?

Lebenswerartung Männer
Land (Jahre) BSP ($) je Einwohner
Afghanistan 43,12 208
Brasilien 68,02 3454
Deutschland 75,81 36233
Indien 63,90 749
Italien 76,88 28940
Namibia 44,46 2464
Singapur 79,13 25876
Thailand 69,95 2975
USA 75,02 48437

Zeichnen Sie zudem das Streudiagramm.

WiSe 21/22 Martin Vogt | Statistik 162


5. Explorative Datenanalyse
SRRI

Viele Fonds müssen wesentliche Anlegerinformationen in einem sogenannten Key


Investor Information Document veröffentlichen. Dieses Dokument enthält unter anderem
eine Risikokennzahl: den Synthetic Risk and Reward Indicator
Zur Berechnung der Risikokennzahl hat die Europäische Wertpapier- und
Marktaufsichtsbehörde die Richtlinie Nummer 10-673 veröffentlicht. Diese Richtlinie
enhält die in der Abbildung ergänzt durch die Tabelle dargestellt Berechnungsmethode.

WiSe 21/22 Martin Vogt | Statistik 163


5. Explorative Datenanalyse
SRRI Methode

WiSe 21/22 Martin Vogt | Statistik 164


5. Explorative Datenanalyse
Offene Übung 48: SRRI

1. Suchen Sie im Internet KIIDs für verschiedene Fonds und machen Sie sich ein Bild
des jeweiligen SRRIs.
2. Erläutern Sie die Grundidee der Formel zur Berechnung des SRRIs.
3. Wo sehen Sie Schwierigkeiten bei der Berechnung und Interpretation?

WiSe 21/22 Martin Vogt | Statistik 165


6 Explorative Datenanalyse mit R

WiSe 21/22 Martin Vogt | Statistik 166


6. Explorative Datenanalyse mit R
Analyse Trinkgelddaten

Einlesen der Tipping57 Daten:

# Herunterladen
download.file("https://goo.gl/whKjnl", destfile = "tips.csv")
# Einlesen in R
tips <- read.csv2("tips.csv")

# Alternativ - heruntergeladene Datei einlesen:


# tips <- read.csv2(file.choose())

Tipp: Über den Befehl getwd() wird das aktuelle Verzeichnis ausgegeben.

57 Bryant,
P. G. and Smith, M (1995) Practical Data Analysis: Case Studies in Business Statistics.
Homewood, IL: Richard D. Irwin Publishing
WiSe 21/22 Martin Vogt | Statistik 167
6. Explorative Datenanalyse mit R
csv Datei

Dateiaufbau tips.csv58 :
I Erste Zeile: Variablennamen59
I Datenfeldtrennzeichen der Variablen: ; (Semikolon)
I Dezimaltrennzeichen: , (Komma)
I Textkennzeichen: "(Anführungszeichen)
Hinweis: Der Einlesebefehl in R hängt vom Dateiformat der Datei ab. Siehe z. B.
?read.table oder Paket readr.

58 Eine solche csv Datei kann z. B. durch Export aus Tabellenkalkulationsprogrammen erzeugt
werden.
59 Tipp: Mit Buchstaben beginnen, keine Leer- oder Sonderzeichen, Umlaute vermeiden.

WiSe 21/22 Martin Vogt | Statistik 168


6. Explorative Datenanalyse mit R
Variablen Trinkgelddaten

Ein Kellner sammelte über mehrere Monate Daten über sein Trinkgeld:
I total_bill: Rechnungshöhe in Dollar
I tip: Trinkgeld in Dollar
I sex: Geschlecht des Rechnungszahlenden
I smoker: Gab es Raucher*innen am Tisch?
I day: Wochentag
I time: Tageszeit / Mahlzeit
I size: Anzahl Personen am Tisch

WiSe 21/22 Martin Vogt | Statistik 169


6. Explorative Datenanalyse mit R
mosaic

# Ggfs. einmalig vorab installieren


# install.packages("mosaic")

# Paket mosaic laden


library(mosaic)

WiSe 21/22 Martin Vogt | Statistik 170


6. Explorative Datenanalyse mit R
Trinkgelddaten

inspect(tips)

##
## categorical variables:
## name class levels n missing distribution
## 1 sex factor 2 244 0 Male (64.3%), Female (35.7%)
## 2 smoker factor 2 244 0 No (61.9%), Yes (38.1%)
## 3 day factor 4 244 0 Sat (35.7%), Sun (31.1%), Thur (25.4%) ...
## 4 time factor 2 244 0 Dinner (72.1%), Lunch (27.9%)
##
## quantitative variables:
## name class min Q1 median Q3 max mean sd n missing
## 1 total_bill numeric 3.07 13.3475 17.795 24.1275 50.81 19.785943 8.9024120 244 0
## 2 tip numeric 1.00 2.0000 2.900 3.5625 10.00 2.998279 1.3836382 244 0
## 3 size integer 1.00 2.0000 2.000 3.0000 6.00 2.569672 0.9510998 244 0

WiSe 21/22 Martin Vogt | Statistik 171


6. Explorative Datenanalyse mit R
Übung 49: Metrische Variablen

Wie viele metrische Variablen liegen vor?


A. 2
B. 3
C. 4
D. 7
E. 244

WiSe 21/22 Martin Vogt | Statistik 172


6. Explorative Datenanalyse mit R
Übung 50: Datenerhebung

Was vermuten Sie: Um welche Form der Datenerhebung handelt es sich hier?
A. Beobachtungsstudie.
B. Experiment.
Was folgt daraus?

WiSe 21/22 Martin Vogt | Statistik 173


6. Explorative Datenanalyse mit R
Grafische Analysen in R (Übersicht)

I bargraph(): Balkendiagramm
I histogram(): Histogramm
I bwplot(): Boxplot
I xyplot(): Streudiagramm
I mosaicplot(): Mosaikplot

WiSe 21/22 Martin Vogt | Statistik 174


6. Explorative Datenanalyse mit R
Deskriptive Kennzahlen in R (Übersicht)

I favstats(): Kennzahlen numerischer Variablen


I prop(): Anteile
I tally(): (Kreuz-)tabellierung
I cor(): Korrelationskoeffizient

WiSe 21/22 Martin Vogt | Statistik 175


6.1 Analyse kategorialer Daten

WiSe 21/22 Martin Vogt | Statistik 176


6. Explorative Datenanalyse mit R
Analyse: Geschlecht Rechnungszahler*in
Analysiere über Balkendiagramm:

bargraph( ~ sex, # (unabhängige) Variable, die analysiert wird


data = tips) # Datensatz

150

100
count

50

m ale Ma
le
Fe

sex

WiSe 21/22 Martin Vogt | Statistik 177


6. Explorative Datenanalyse mit R
Übung 51: Geschlechtsverteilung

150

100

count
50

le le
ma Ma
Fe

sex

Welche Aussage stimmt?


A. Bei einer Mehrheit der Stichprobe zahlt eine Frau.
B. Bei einer Mehrheit der Stichprobe zahlt ein Mann.
C. Weiß nicht.

WiSe 21/22 Martin Vogt | Statistik 178


6. Explorative Datenanalyse mit R
Anteil Frauen

Analysiere über Anteil:

prop( ~ sex, # Variable, die analysiert wird


success = "Female", # Ausprägung
data = tips) # Datensatz

## prop_Female
## 0.3565574

WiSe 21/22 Martin Vogt | Statistik 179


6. Explorative Datenanalyse mit R
Tabellierung
Analysiere über Tabellen:
Absolute Häufigkeit hi :
tally( ~ sex, # Variable, die analysiert wird
data = tips) # Datensatz

## sex
## Female Male
## 87 157
hi
Relative Häufigkeit f i = n:

tally( ~ sex, # Variable, die analysiert wird


format = "proportion", # Option: Anteile
data = tips) # Datensatz

## sex
## Female Male
## 0.3565574 0.6434426
WiSe 21/22 Martin Vogt | Statistik 180
6. Explorative Datenanalyse mit R
Gruppiertes Balkendiagramm

bargraph( ~ sex # Variable, die analysiert wird


| time, # Variable, nach der bedingt wird
data = tips) # Datensatz

Dinner Lunch

100
count

50

male Ma
le
ma
le
Ma
le
Fe Fe

sex

WiSe 21/22 Martin Vogt | Statistik 181


6. Explorative Datenanalyse mit R
Übung 52: Geschlecht nach Tageszeit

Dinner Lunch

100

count
50

le le le le
ma Ma ma Ma
Fe Fe

sex

Welche Aussage stimmt?


A. Beim Lunch zahlen mehr Frauen als Männer.
B. Beim Lunch zahlen weniger Frauen als Männer.
C. Beim Lunch zahlen gleich viele Frauen wie Männer.

WiSe 21/22 Martin Vogt | Statistik 182


6. Explorative Datenanalyse mit R
Kreuztabellierung Geschlecht nach Tageszeit
Absolute Häufigkeit:

tally( ~ sex # Variable, die analysiert wird


| time, # Variable, nach der bedingt wird
data = tips) # Datensatz

## time
## sex Dinner Lunch
## Female 52 35
## Male 124 33

Relative Häufigkeit je Mahlzeit:

tally( ~ sex # Variable, die analysiert wird


| time, # Variable, nach der bedingt wird
format = "proportion", # Option: Anteile
data = tips) # Datensatz

## time
## sex Dinner Lunch
## Female 0.2954545 0.5147059
## Male 0.7045455 0.4852941

WiSe 21/22 Martin Vogt | Statistik 183


6. Explorative Datenanalyse mit R
Übung 53: Raucher je Wochentag

Welcher Befehl führt eine Kreuztabellierung der Anteile der Raucher je Wochentag
durch?
A. tally( ~ smoker | day, format = 'proportion', data = tips)
B. tally( ~ day | smoker, format = 'proportion', data = tips)

WiSe 21/22 Martin Vogt | Statistik 184


6. Explorative Datenanalyse mit R
Kreuztabellierung Raucher und Wochentag

tally( ~ smoker | day,


format = "proportion", data = tips)

## day
## smoker Fri Sat Sun Thur
## No 0.2105263 0.5172414 0.7500000 0.7258065
## Yes 0.7894737 0.4827586 0.2500000 0.2741935

tally( ~ day | smoker,


format = "proportion", data = tips)

## smoker
## day No Yes
## Fri 0.02649007 0.16129032
## Sat 0.29801325 0.45161290
## Sun 0.37748344 0.20430108
## Thur 0.29801325 0.18279570
WiSe 21/22 Martin Vogt | Statistik 185
6. Explorative Datenanalyse mit R
Relative Häuigkeiten

Achtung: (Confusion of the inverse): Wovon wird die relative Häufigkeit angegeben?
I Der relative Anteil der Raucher am Freitag entspricht nicht dem relativen Anteil
des Freitags der Raucher.
I Der Papst ist ein Mann, aber nur die allerwenigsten Männer sind Papst.60
I Die Wahrscheinlichkeit krank zu sein, wenn das Testergebnis positiv ist, ist nicht
dasselbe wie die Wahrscheinlichkeit, dass das Testergebnis positiv ist, wenn man
krank ist.

60 Auch wenn es zwei Päpste geben würde, hätte sich zwar die relative Häufigkeit der Männer, die
Papst sind verdoppelt, wäre absolut aber immer noch sehr klein.
WiSe 21/22 Martin Vogt | Statistik 186
6. Explorative Datenanalyse mit R
Übung 54: Fehler

Was ist an diesem Befehl falsch?

tally( ~ x data = daten)

A. Es fehlt eine Option.


B. Es fehlt eine bedingende Variable.
C. Es fehlt ein Komma.
D. Gar nichts.

WiSe 21/22 Martin Vogt | Statistik 187


6. Explorative Datenanalyse mit R
Offene Übung 55: R Fehler

Was ist an diesem Befehl falsch?

Tally( ~ x, data = daten)

WiSe 21/22 Martin Vogt | Statistik 188


6.2 Analyse numerischer Daten

WiSe 21/22 Martin Vogt | Statistik 189


6. Explorative Datenanalyse mit R
Übung 56: Rechnungshöhe

Was gilt für die Variable Rechnungshöhe total_bill?


A. Es ist eine latente verhältnisskalierte Variable.
B. Es ist eine manifeste verhältnisskalierte Variable.
C. Es ist eine latente intervallskalierte Variable.
D. Es ist eine manifeste intervallskalierte Variable.

WiSe 21/22 Martin Vogt | Statistik 190


6. Explorative Datenanalyse mit R
Analyse Rechnungshöhe
Analysiere über Histogramm:

histogram( ~ total_bill, # Variable, die analysiert wird


data = tips) # Datensatz

0.05

0.04

0.03
Density

0.02

0.01

0.00

10 20 30 40 50

total_bill

WiSe 21/22 Martin Vogt | Statistik 191


6. Explorative Datenanalyse mit R
Übung 57: Rechnungshöhe

0.05

0.04

0.03

Density
0.02

0.01

0.00

10 20 30 40 50

total_bill

Welche der folgenden Aussagen stimmt?


A. Die Rechnungshöhe ist gleichverteilt.
B. Die Rechnungshöhe ist multimodal.
C. Die Rechnungshöhe ist normalverteilt.
D. Die Rechnungshöhe ist linksschief.
E. Die Rechnungshöhe ist rechtsschief.

WiSe 21/22 Martin Vogt | Statistik 192


6. Explorative Datenanalyse mit R
Variablentransformation
p
Ggfs. können Variablen durch Transformationen (z. B. (), ln(), . . .) in Richtung einer
symmetrischen Normalverteilung transformiert werden:
histogram( ~ log(total_bill), # logarithmierte Variable
data = tips) # Datensatz

0.8

0.6
Density

0.4

0.2

0.0

1 2 3 4

log(total_bill)

WiSe 21/22 Martin Vogt | Statistik 193


6. Explorative Datenanalyse mit R
Histogram: Anzahl der Rechtecke festlegen mit Option nint=

nint= 2 nint=10

0.015 0.06

0.05

0.010 0.04
Density

Density
0.03

0.005 0.02

0.01

0.000 0.00

−20 0 20 40 60 10 20 30 40 50

total_bill total_bill

nint=25 nint=50

0.06
0.06

0.04
Density

Density
0.04

0.02 0.02

0.00 0.00

10 20 30 40 50 10 20 30 40 50

total_bill total_bill

WiSe 21/22 Martin Vogt | Statistik 194


6. Explorative Datenanalyse mit R
Kennzahlen Rechnungshöhe

Analysiere über Kennzahlen:

favstats( ~ total_bill, # Variable, die analysiert wird


data = tips) # Datensatz

## min Q1 median Q3 max mean sd n missing


## 3.07 13.3475 17.795 24.1275 50.81 19.78594 8.902412 244 0

WiSe 21/22 Martin Vogt | Statistik 195


6. Explorative Datenanalyse mit R
Übung 58: Kennzahlen

Welche Aussage stimmt?


A. Die durchschnittliche Rechnungshöhe ist kleiner als die Rechnungshöhe einer im
Bezug auf die Rechnungshöhe typischen Rechnung.
B. Die durchschnittliche Rechnungshöhe ist größer als die Rechnungshöhe einer im
Bezug auf die Rechnungshöhe typischen Rechnung.
C. Die durchschnittliche Rechnungshöhe ist gleich der Rechnungshöhe einer im Bezug
auf die Rechnungshöhe typischen Rechnung.

WiSe 21/22 Martin Vogt | Statistik 196


6. Explorative Datenanalyse mit R
Rechnungshöhe je Geschlecht
Histogramm je Geschlecht:
histogram( ~ total_bill # Variable, die analysiert wird
| sex, # Variable, nach der bedingt wird
data = tips) # Datensatz

10 20 30 40 50

Female Male

0.06

0.04
Density

0.02

0.00

10 20 30 40 50

total_bill

WiSe 21/22 Martin Vogt | Statistik 197


6. Explorative Datenanalyse mit R
Übung 59: Rechnungshöhe nach Geschlecht

10 20 30 40 50

Female Male

0.06

0.04

Density
0.02

0.00

10 20 30 40 50

total_bill

Welche Aussage stimmt nach der Abbildung?


A. Männer haben einen höheren Anteil an höheren Rechnungen.
B. Frauen haben einen höheren Anteil an höheren Rechnungen.
C. Die Verteilung ist bei den Frauen linksschief.
D. Die Verteilung ist bei den Männern linksschief.

WiSe 21/22 Martin Vogt | Statistik 198


6. Explorative Datenanalyse mit R
Boxplot Rechnungshöhe abhängig vom Geschlecht
Analysiere über Boxplot61 :

bwplot(total_bill ~ # abhängige Variable


sex, # unabhängige Variable
data = tips) # Datensatz

50

40

30
total_bill

20

10

Female Male

61 Beachte ~ “als Funktion von”, | “bedingt, gruppiert nach”.


WiSe 21/22 Martin Vogt | Statistik 199
6. Explorative Datenanalyse mit R
Übung 60: Übung Boxplot

50

40

30

total_bill
20

10

Female Male

Welche Aussage stimmt nach der Abbildung?


A. Der Mittelwert der Rechnungshöhe ist bei den Männern unter 20 $.
B. Der Mittelwert der Rechnungshöhe ist bei den Männern über 20 $.
C. Der Median der Rechnungshöhe ist bei den Männern unter 20 $.
D. Der Median der Rechnungshöhe ist bei den Männern über 20 $.

WiSe 21/22 Martin Vogt | Statistik 200


6. Explorative Datenanalyse mit R
Kennzahlen gruppiert nach Geschlecht

Zusammenfassende Kennzahlen je Geschlecht:

favstats( ~ total_bill # Variable, die analysiert wird


| sex, # Variable, nach der bedingt wird
data = tips) # Datensatz

## sex min Q1 median Q3 max mean sd n missing


## 1 Female 3.07 12.75 16.40 21.52 44.30 18.05690 8.009209 87 0
## 2 Male 7.25 14.00 18.35 24.71 50.81 20.74408 9.246469 157 0

WiSe 21/22 Martin Vogt | Statistik 201


6. Explorative Datenanalyse mit R
Modellierung (I/II)

Daten = Modell + Rest


Modell: Gesamtmittelwert x̄, d. h. keine die Rechnungshöhe modellierende Variable62 :

favstats(total_bill ~ 1, data = tips)

## 1 min Q1 median Q3 max mean sd n missing


## 1 1 3.07 13.3475 17.795 24.1275 50.81 19.78594 8.902412 244 0

X
n
( xi − x̄)2 = (n − 1) · sd2 = (244 − 1) · 8.9024122 = 1.925846 × 104 .
i=1

62 Dies kann in mosaic auch durch y~1 geschrieben werden


WiSe 21/22 Martin Vogt | Statistik 202
6. Explorative Datenanalyse mit R
Modellierung (II/II)
Modell: Gruppenmittelwert x̄ j je Anzahl Personen j = 1, . . . , 6, d. h. die Rechnungshöhe
wird durch die jeweilige Anzahl Personen modelliert:
favstats(total_bill ~ size, data = tips)

## size min Q1 median Q3 max mean sd n missing


## 1 1 3.07 6.2050 7.915 8.9525 10.07 7.24250 3.010729 4 0
## 2 2 5.75 12.4525 15.370 19.6900 40.55 16.44801 6.043729 156 0
## 3 3 10.33 16.9400 20.365 27.7750 50.81 23.27763 9.407065 38 0
## 4 4 16.49 21.5000 25.890 34.8100 48.33 28.61351 8.608603 37 0
## 5 5 20.69 28.1500 29.850 30.4600 41.19 30.06800 7.340396 5 0
## 6 6 27.05 29.1125 32.050 37.7675 48.17 34.83000 9.382000 4 0

n
X
K Xj
X
K
2
( xi,j − x̄ j ) = (n j − 1)sd2j = 1.211054 × 104
j=1 i=i j=1

Bei der Analyse total_bill~size ist der Rest kleiner als bei der Analyse
total_bill~1 (ohne erklärende Variable).
Für dieses Reduzierung des Restes wird ein Preis gezahlt: In den einzelnen Gruppen sind
weniger Beobachtungen: weniger Freiheitsgrade (engl: degrees of freedom, df).
WiSe 21/22 Martin Vogt | Statistik 203
6. Explorative Datenanalyse mit R
Zusammenhang Trinkgeld und Rechnungshöhe
Analysiere über Streudiagramm:
xyplot( tip # abhängige Variable
~ total_bill, # unabhängige Variable
data = tips) # Datensatz

10

6
tip

10 20 30 40 50

total_bill

WiSe 21/22 Martin Vogt | Statistik 204


6. Explorative Datenanalyse mit R
Übung 61: Zusammenhang Rechnungshöhe und Trinkgeld

10

tip
4

10 20 30 40 50

total_bill

Welche Aussage stimmt?


A. Es scheint keinen Zusammenhang zwischen Rechnungshöhe und Trinkgeld zu
geben.
B. Es scheint einen negativen Zusammenhang zwischen Rechnungshöhe und Trinkgeld
zu geben.
C. Es scheint einen positiven Zusammenhang zwischen Rechnungshöhe und Trinkgeld
zu geben.

WiSe 21/22 Martin Vogt | Statistik 205


6. Explorative Datenanalyse mit R
Korrelation Rechnungshöhe und Trinkgeld

Analysiere über Korrelationskoeffizienten:

cor( tip # abhängige Variable


~ total_bill, # unabhängige Variable
data = tips) # Datensatz

## [1] 0.6757341

WiSe 21/22 Martin Vogt | Statistik 206


6. Explorative Datenanalyse mit R
Zusammenhang Rechnungs- und relative Trinkgeldhöhe
Variable rel_tip erzeugen:

tips <- tips %>%


mutate(rel_tip = tip/total_bill)

Streudiagramm:

xyplot(rel_tip ~ # abhängige Variable


total_bill, # unabhängige Variable
data = tips) # Datensatz

0.6

0.4
rel_tip

0.2

10 20 30 40 50

total_bill

WiSe 21/22 Martin Vogt | Statistik 207


6. Explorative Datenanalyse mit R
Übung 62: Rechnungs- und relative Trinkgeldhöhe (I / II)

Welcher Befehl visualisiert den Zusammenhang zwischen Rechnungshöhe und der


tip
relativen Trinkgeldhöhe rel_tip = total_bill
A. xyplot( ~ rel_tip | total_bill, data=tips)
B. xyplot( rel_tip ~ total_bill, data=tips)

WiSe 21/22 Martin Vogt | Statistik 208


6. Explorative Datenanalyse mit R
Übung 63: Rechnungs- und relative Trinkgeldhöhe (II / II)

0.6

0.4

rel_tip
0.2

10 20 30 40 50

total_bill

Welche Aussage stimmt ?


A. Es gibt Ausreißer nach oben bei der relativen Trinkgeldhöhe.
B. Es gibt Ausreißer nach unten bei der relativen Trinkgeldhöhe.
C. Es gibt Ausreißer nach oben bei der Rechnungshöhe.
D. Es gibt Ausreißer nach unten bei der Rechnungshöhe.

WiSe 21/22 Martin Vogt | Statistik 209


6. Explorative Datenanalyse mit R
Offene Übung 64: Rechnungshöhe für Raucher bzw. Nichtraucher

Was können Sie über die Verteilung der Rechnungshöhe für Raucher bzw. Nichtraucher
aussagen?63

63 Video https://www.causeweb.org: McLellan M © Describe the Distribution


WiSe 21/22 Martin Vogt | Statistik 210
7 Disparitäts- und Konzentrationsmessung

WiSe 21/22 Martin Vogt | Statistik 211


7. Disparitäts- und Konzentrationsmessung
Transferausgaben (I/II)

verein <- c("FC Bayern München", "Rasenballsport Leipzig",


"Borussia Dortmund", "TSG 1899 Hoffenheim", "1.FC Nürnberg"
"Hertha BSC", "SC Freiburg", "SV Werder Bremen",
"Borussia Mönchengladbach", "FC Schalke 04",
"Eintracht Frankfurt", "Bayer 04 Leverkusen",
"FC Augsburg", "Fortuna Düsseldorf", "1.FSV Mainz 05",
"VfL Wolfsburg", "VfB Stuttgart", "Hannover 96")

ausgaben <- c(10, 64.63, 88.50, 31.50, 3.50, 10.50, 16.60, 25.80, 32.55,
61.70, 24.85, 30.50, 6.00, 5.15, 27.00, 40.00, 46.00, 14.4

einnahmen <- c(84, 72.75, 113, 2.80, 0, 16.50, 22.50, 26.65, 32.95,
45.65, 17.80, 45.00, 1.95, 0.600, 55.60, 4.20, 17.10, 13.

Transfermarkt zu Saison 2018/19, Stand 5.2.2019.64


64 https://www.transfermarkt.de/1-bundesliga/transfers/wettbewerb/L1

WiSe 21/22 Martin Vogt | Statistik 212


7. Disparitäts- und Konzentrationsmessung
Transferausgaben (II/II)

# Vektorelemente bennenen
names(ausgaben) <- verein
names(einnahmen) <- verein

Verteilen sich die Einnahmen und Ausgaben gleichmäßig auf die Vereine?

WiSe 21/22 Martin Vogt | Statistik 213


7. Disparitäts- und Konzentrationsmessung
Lorenzkurve

Die Lorenzkurve visualisiert die kumulierten Anteile p an den Merkmalsträgern


(x-Achse) gegenüber den kumulierten Anteilen an der Merkmalssumme L (y-Achse).
Dabei sind die Daten nach Merkmalswert aufsteigend sortiert.

# Einmalig installieren
install.packages("ineq")

# Pakete laden
library(ineq)
library(mosaic)

WiSe 21/22 Martin Vogt | Statistik 214


7. Disparitäts- und Konzentrationsmessung
Lorenzkurve Transferausgaben
Lorenzkurve berechnen, plotten:

Lc(ausgaben) %>%
plot()

Lorenz curve

1.0

0.8

0.6
L(p)

0.4

0.2

0.0
0.0 0.2 0.4 0.6 0.8 1.0

WiSe 21/22 Martin Vogt | Statistik 215


7. Disparitäts- und Konzentrationsmessung
Lorenzkurve

Manuell wird die Lorenzkurve wie folgt berechnet:

ausgaben <- c(10, 64.63, 88.50, 31.50, 3.50, 10.50, 16.60, 25.80, 32.55,
61.70, 24.85, 30.50, 6.00, 5.15, 27.00, 40.00, 46.00, 14.4
AnteilMannschaften=rep(0,19)
AnteilAusgaben=rep(0,19)

sausgaben=sort(ausgaben)/sum(ausgaben)

for (i in 2:19){AnteilMannschaften[i]=(i-1)/18}
AnteilAusgaben[2]=sausgaben[1]
for(i in 3:19){AnteilAusgaben[i]=(AnteilAusgaben[i-1]+sausgaben[i-1])}

plot(Anteil,AnteilAusgaben, type="l",main="Lorenzkurve")
abline(0,1,col="red")

WiSe 21/22 Martin Vogt | Statistik 216


7. Disparitäts- und Konzentrationsmessung
Lorenzkurve

## [1] 0.00000000 0.05555556 0.11111111 0.16666667 0.22222222 0.2777777


## [7] 0.33333333 0.38888889 0.44444444 0.50000000 0.55555556 0.6111111
## [13] 0.66666667 0.72222222 0.77777778 0.83333333 0.88888889 0.9444444
## [19] 1.00000000

## [1] 0.000000000 0.006491339 0.016042880 0.027170889 0.045717571


## [6] 0.065191587 0.091898809 0.122686301 0.168774806 0.216625246
## [11] 0.266701287 0.323268667 0.381690716 0.442060165 0.516246893
## [16] 0.601561631 0.715994659 0.835861864 1.000000000

WiSe 21/22 Martin Vogt | Statistik 217


7. Disparitäts- und Konzentrationsmessung
Lorenzkurve

Lorenzkurve
1.0
0.8
0.6
AnteilAusgaben

0.4
0.2
0.0

0.0 0.2 0.4 0.6 0.8 1.0

AnteilMannschaften

WiSe 21/22 Martin Vogt | Statistik 218


7. Disparitäts- und Konzentrationsmessung
Übung 65: Lorenzkurve

Welche Aussage stimmt?


A. Je gleicher die Transferausgaben, desto mehr nähert sich die Lorenzkurve der
Diagonalen.
B. Je ungleicher/konzentrierter die Transferausgaben, desto mehr nähert sich die
Lorenzkurve der Diagonalen.

WiSe 21/22 Martin Vogt | Statistik 219


7. Disparitäts- und Konzentrationsmessung
Gini Koeffizient

Der Gini Koeffizient G misst die Ungleichheit und ist die Fläche zwischen der
Lorenzkurve und der “Gleichheitslinie” dividiert durch die Fläche des Dreiecks unter der
Gleichheitslinie. Dabei gilt: 0 6 G < 1.
Berechnung: Pn Pn
j=1 | xi − xj|
1
n2 i=1
G=
2x̄
Es gilt 0 < G < n−1 .
n

WiSe 21/22 Martin Vogt | Statistik 220


7. Disparitäts- und Konzentrationsmessung
Übung 66: Gini Koeffizient

Welche Aussage stimmt?


A. Je größer der Gini Koeffizient, desto größer die Ungleichheit/Konzentration.
B. Je kleiner der Gini Koeffizient, desto größer die Ungleichheit/Konzentration.

WiSe 21/22 Martin Vogt | Statistik 221


7. Disparitäts- und Konzentrationsmessung
Gini Koeffizient in R

Gini Koeffizient berchnen:

ineq(ausgaben)

## [1] 0.4062239

WiSe 21/22 Martin Vogt | Statistik 222


7. Disparitäts- und Konzentrationsmessung
Übung 67: Gini Koeffizient

Im Transfermarkt zur Saison 2018/19. Wo waren die Transfersummen


ungleicher/konzentrierter?
A. Bei den Transfereinnahmen.
B. Bei den Transferausgaben.

WiSe 21/22 Martin Vogt | Statistik 223


7. Disparitäts- und Konzentrationsmessung
Offene Übung 68: Gini und Mobilfunkbranche

Die Mobilfunkanbieter Telekom, Vodafone und Telefonica hatten im dritten Quartal


2018 folgende Marktanteile (Anzahl der Teilnehmer): Telekom (43646000), Vodafone
(46000000) und Telefonica (45383000).65
1. Zeichnen Sie die Lorenzkurve.
2. Berechnen Sie den Gini-Koeffizienten.
3. Interpretieren Sie die Ergebnisse aus 1. und 2.

65 https://www.bundesnetzagentur.de

WiSe 21/22 Martin Vogt | Statistik 224


7. Disparitäts- und Konzentrationsmessung
Offene Übung 69: Gini und Lorenzkurve

Sie haben die Lorenzkurve und den Gini-Koeffizienten kennengelernt und beschließen,
diese näher zu analysieren, um diese noch besser zu verstehen.
1. Überlegen Sie sich jeweils einen Datensatz, für den der Gini-Koeffizient den Wert 0
bzw. 0,75 annimmt.
2. Können sich Lorenzkurven schneiden? Überlegen Sie sich, ob dies möglich ist.
3. Welche allgemeinen Aussagen über die Form der Lorenzkurve können Sie treffen?

WiSe 21/22 Martin Vogt | Statistik 225


7. Disparitäts- und Konzentrationsmessung
Offene Übung 70: Gini in der Welt
Die Abbildung zeigt in den Ländern jeweils den Gini-Koeffizienten der Einkommen.66

1. Gibt es Unterschiede zwischen den Kontinenten?


2. Wo steht Deutschland in der Welt?
3. Wo sehen Sie Schwierigkeiten bei der Interpretation der Daten?
66 https://de.wikipedia.org

WiSe 21/22 Martin Vogt | Statistik 226


8 Indexzahlen

WiSe 21/22 Martin Vogt | Statistik 227


8. Indexzahlen
Preisentwicklung

Angenommen vor zwei Jahren haben Sie für eine Party 2 Flaschen Korn für je 10 e und
2 Flaschen Cola je 1 e eingekauft. Heute kaufen Sie nur 1 Flasche Korn für 10,50 e,
dafür 3 Cola für je 1,10 e.
Wie haben sich die Preise entwickelt?
I Früher kostete die Party 22 e, heute nur noch 13,80 e. Damit beträgt der
e
Partypreisindex 13,80
22 e = 0,6275.
I Wenn Sie heute genau so viel Korn kaufen würden wie früher, würde die Party
heute 2 · 10,50 e + 2 · 1,10 e = 23,20 e kosten. Damit würde die
e
Partypreisentwicklung 23,20
22 e = 1,0545 betragen.
I Wenn Sie früher schon so bescheiden gewesen wären, hätte die Party damals
1 · 10 e + 3 · 1 e = 13 e gekostet. Damit hätte die Partypreisentwicklung
13,80 e
13 e = 1,0615 betragen.

WiSe 21/22 Martin Vogt | Statistik 228


8. Indexzahlen
Indexzahlen

Nicht nur die Preise pi , auch die Mengen qi haben sich im Lauf der Zeit (von 0 bis t)
verändert und damit auch der Einfluss der Produkte auf den Warenkorb:67
P
I Der Umsatzindex korrigiert nicht die verschiedenen Mengen: U0t = P qqti ppti .
0i 0i
I Der Preisindex nach Laspeyres68 zeigt, wie viel der Warenkorb der Basisperiode
0 in der Berichtsperiode t kostet, d. h., der Quotient der hypothetischen
Gesamtausgaben der Berichtsperiode geteilt P durch die tatsächlichen
L P q p
Gesamtausgaben der Basisperiode: P0t = q 0i p ti .
0i 0i
I Der Preisindex nach Paasche69 ist der Quotient der tatsächlichen
Gesamtausgaben in der Berichtsperiode t geteilt durch die fiktiven
P Ausgaben der
P P qti pti
Basisperiode 0 für den Warenkorb der Berichtsperiode: P0t = q p .
ti 0i

67 Berechnung in R z. B. über micEconIndex.


68 z. B. Verbraucherpreisindex, DAX
69 z. B.Inflationkorrektur beim BIP

WiSe 21/22 Martin Vogt | Statistik 229


8. Indexzahlen
Übung 71: Aufwand Indexzahlen

Indexzahlen werden häufig über einen längeren Zeitraum bestimmt. Welche Aussage
stimmt?
A. Der Umsatzindex ist am einfachsten zu erheben.
B. Der Preisindex nach Laspeyres ist am einfachsten zu erheben.
C. Der Preisindex nach Paasche ist am einfachsten zu erheben.
D. Alle Indexzahlen sind gleich aufwendig zu erheben.

WiSe 21/22 Martin Vogt | Statistik 230


8. Indexzahlen
Verbraucherpreisindex

I Im Verbraucherpreisindex für Deutschland (VPI) werden zur Zeit etwa 750


Waren und Dienstleistungen (Warenkorb) berücksichtigt.
I Das Gewicht g0 (i) eines Gutes i ist dabei der Anteil an den gesamten
Verbrauchsausgaben (Wägungsschema):
q p
g0 (i) = P 0i 0i .
q0j p0j

WiSe 21/22 Martin Vogt | Statistik 231


8. Indexzahlen
Wägungsschema Verbraucherpreisindex
Die Gewichte g innerhalb eines Warenkorbes (hier Verbraucherpreisindex) sind im
Wägungsschema angegeben.70

70 Quelle: Statistisches Bundesamt


WiSe 21/22 Martin Vogt | Statistik 232
8. Indexzahlen
Übung 72: Entwicklung Indexzahlen

Angenommen die Preise aller Güter sind gestiegen. Stimmt die Aussage: Es gilt immer
U0t > 1?
I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 233


8. Indexzahlen
Offene Übung 73: Indexzahlen

Eine Drogerie stellt das Sortiment um: Während vor einem Jahr zu 80 % eher preiswerte
Marken und Produkte im Durchschnitt zu 5 e verkauft wurden und 20 % hochpreisige
Marken im Durchschnitt zu 50 e, werden heute 50 % preiswerte Produkte zu 5,50 e und
50 % hochpreisige zu 45 e verkauft.
Bestimmen Sie zur Analyse der Preisentwicklung eine Indexzahl Ihrer Wahl.

WiSe 21/22 Martin Vogt | Statistik 234


8. Indexzahlen
Übung 74: Genauigkeit

Welcher Preisindex überschätzt die Preisentwicklung tendenziell?


A. Der Preisindex nach Laspeyres
B. Der Preisindex nach Paasche

WiSe 21/22 Martin Vogt | Statistik 235


8. Indexzahlen
Offene Übung 75: Partypreise

Berechnen Sie die Preisindices von Laspeyres und Paasche für die folgenden Partypreise.

**Produkt* p0 q0 pt qt
Würstchen 1,50 40 1,80 45
Bier 5 10 5 12
Apfelschorle 1 8 1 10
Tische 4 5 5 5
Stühle 2 30 2 30

WiSe 21/22 Martin Vogt | Statistik 236


8. Indexzahlen
Offene Übung 76: Gefühlte Inflation

Es wird doch eh alles teurer! Häufig haben Leute das Gefühl, dass es extreme
Preisteigerungen gibt, obwil die gemessene Inflation moderat ist. Wie passt das
zusammen?
1. Überlegen Sie sich, warum wahrgenommene und gemessene Inflation nicht
übereinstimmen könnten.
2. Was ist wichtiger, gemessene oder wahrgenommene Inflation? Überlegen Sie sich
welche Auswirkungen Unterschiede haben könnten.
3. Überlegen Sie sich wie der VPI Ihre persönliche Inflation misst. Wird diese akkurat
wiedergegeben?

WiSe 21/22 Martin Vogt | Statistik 237


9 Inferenzstatistik

WiSe 21/22 Martin Vogt | Statistik 238


9.1 Einführendes Beispiel

WiSe 21/22 Martin Vogt | Statistik 239


9. Inferenzstatistik
Einführung: Ist die Münze gezinkt?

Jemand lädt Sie zu einem Glücksspiel ein: Die Person wirft eine Münze 10 Mal. Bei
Kopf gewinnt die Person, bei Zahl gewinnen Sie. Die andere Person gewinnt 8 der 10
Würfe. Unterstützen die Daten den Schluss, dass die Münze gezinkt ist?
Spielen Sie im Hörsaal den Versuch mit einer fairen Münze nach und zählen die Anzahl
Kopf!
Zählen Sie dann aus, ob das Ereignis (min.) 8 von 10 Kopf selten ist oder häufig.
Falls das Ereignis selten ist, so sprechen die Daten gegen die Unschuldsvermutung, dass
die Münze im Glücksspiel fair war.

WiSe 21/22 Martin Vogt | Statistik 240


9. Inferenzstatistik
Die Verteilung der Stichproben aus dem Münzversuch

So könnte die Verteilung Ihrer Ergebnisse aussehen (hier mit n = 100):

9 der 100 Stichproben hatten 8 oder mehr Kopf

20
count

10

0 1 2 3 4 5 6 7 8 9 10
heads

Das ist die Verteilung der Statistik (hier: Anteil p), wie sie sich gemäß eines
hypothetischen Modells (hier: “Die Münze ist fair” π = 0.5) ergibt.

WiSe 21/22 Martin Vogt | Statistik 241


9. Inferenzstatistik
Übung 77: Was ist ein häufiges Ereignis im Münzversuch?

9 der 100 Stichproben hatten 8 oder mehr Kopf

20

count
10

0 1 2 3 4 5 6 7 8 9 10
heads

Welche der Aussagen stimmt?


A. Wirft man 100 mal 10 faire Münzen, so sind 0 bis 2 Treffer ein häufiges Ereignis.
B. Wirft man 100 mal 10 faire Münzen, so sind 4 bis 6 Treffer ein häufiges Ereignis.
C. Wirft man 100 mal 10 faire Münzen, so sind 8 bis 10 Treffer ein häufiges Ereignis.
D. Wirft man 100 mal 10 faire Münzen, so ist jede Anzahl an Treffern gleich häufig.

WiSe 21/22 Martin Vogt | Statistik 242


9. Inferenzstatistik
Was ist eine Computersimulation?
Man kann das Münzwerfen (allgemein: das Durchführen von Zufallsexperimenten) an
den Computer delegieren; man spricht dann von einer Simulation:
Hey R,
Wiederhole das Folgende 100 Mal:
- Wirf eine faire Münze 10 Mal,
- zähle jedes Mal die Anzahl
der Treffer (Kopf).
Ach ja, speichere das Ergebnis
in einem neuen Datensatz.
Jetzt mal los.
Dazu verwenden wir wieder mosaic:
# Paket laden, ggf. vorher einmalig installieren:
# install.packages("mosaic")
library(mosaic)
set.seed(1896) # Reproduzierbarkeit
muenzverteilung <- do(100) *
rflip(n = 10)
WiSe 21/22 Martin Vogt | Statistik 243
9. Inferenzstatistik
Münzwurf: Binomialverteilung
Die Wahrscheinlichkeiten können auch ausgerechnet werden: Binomialverteilung mit
n=10 und p=0,5. Dichte an Stelle k:
 
n
· p k · (1 − p ) n − k
0.20
0.15
0.10
0.05
0.00
k

WiSe 21/22 Martin Vogt | Statistik 244


9. Inferenzstatistik
Cartoon: Simulation

“Bevor es Computer gab, musste man Zufallszahlen per Hand erzeugen.”71


71 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift A. Bonifonte
WiSe 21/22 Martin Vogt | Statistik 245
9.2 Modellierung und Simulation

WiSe 21/22 Martin Vogt | Statistik 246


9. Inferenzstatistik
Grundgedanken der Statistik

I Innerhalb der Statistik wird versucht, aus Daten Einsichten zu gewinnen.


I Dabei wird berücksichtigt, dass . . .
I Variation allgegenwärtig ist,
I es neben dem Signal Rauschen gibt72 ,
I Schlüsse unsicher sind.

72 Daten=Modell+Rest

WiSe 21/22 Martin Vogt | Statistik 247


9. Inferenzstatistik
Deskriptive Statistik vs. Inferenzstatistik

I Die deskriptive Statistik fasst Daten einer Stichprobe zusammen.


I Die Inferenzstatistik schließt von einer Stichprobe auf eine Grundgesamtheit.73

Deskriptivstatistik Inferenzstatistik

73 Induktion

WiSe 21/22 Martin Vogt | Statistik 248


9. Inferenzstatistik
Inferenz

Idee: Schluss von einer (zufälligen / randomisierten) Stichprobe auf eine Population:
I Punktschätzung
I Konfidenzintervall
I Hypothesentest

Ziel: Aussagen treffen, die über die Stichprobe hinausgehen – und dabei berücksichtigen,
dass Variation allgegenwärtig ist und Schlussfolgerungen unsicher.74

74 Vgl. Moore, D. (2007) The Basic Practice of Statistics, 4th edn. New York: Freeman, S. xxviii.
WiSe 21/22 Martin Vogt | Statistik 249
9. Inferenzstatistik
Dreieckstest

I Drei gleichaussehende Proben, zwei sind gleich, eine zufällige ist anders.
I Der / die Kandidat*in muss herausfinden, welche Probe anders ist.75

75 vgl.
ISO 4120 https://www.iso.org/standard/33495.html. Vgl. auch Single-Choice Klausur: 3
Antwortalternativen, 1 richtig.
WiSe 21/22 Martin Vogt | Statistik 250
9. Inferenzstatistik
Übung 78: Skalenniveau

Welches Skalenniveau hat das Merkmal “Probe” mit den Werten “falsch” und “richtig”?
A. Kategorial
B. Numerisch

WiSe 21/22 Martin Vogt | Statistik 251


9. Inferenzstatistik
Kneipe statt Hörsaal

Im Rahmen eines Experimentes tippten von n = 34 Teilnehmer*innen x = 12 im


Rahmen eines Dreieckstest auf die richtige Probe. d. h. das andere Bier: Krombacher
bzw. Perlenbacher.76

Abbildung: Quelle: Anzeige Westfälische Rundschau, 19.9.2016


Anhand dieses Beispiels werden die Themen Punktschätzung, Bereichsschätzung und
Hypothesenprüfung behandelt.
76 Wir führen das Experiment mit Keksen durch
WiSe 21/22 Martin Vogt | Statistik 252
9. Inferenzstatistik
Vergleich klassischer und simulationsbasierter Inferenz
I Klassisch: Leite Stichprobenverteilung aus Theorie ab
I Simulationsbasiert: Führe das Experiment laut H0 häufig aus

Berechne das Integral der Fläche unter der Kurve Führe Experiment oft aus; berechne jeweils Teststatistik

Extreme Stichproben

1 (x−µ)2

relative Häufigkeit
Wahrscheinlichkeit

f(x|µ,σ2) = e 2σ2
2
2πσ

60 60
30 40 50 60 70 30 40 50 60 70
Anzahl Treffer bei 100 fairen Münzwürfen Anzahl Treffer bei 100 fairen Münzwürfen

WiSe 21/22 Martin Vogt | Statistik 253


9. Inferenzstatistik
Vorteile simulationsbasierter Inferenz

I Elegant: Eine Idee statt vieler inferenzstatistischer Verfahren


I Einfach: Stichproben ziehen statt Verteilungen theoretisch herleiten
I Robust: Normalverteilungsannahme nicht nötig
I Vielseitig: Für manche Fragen gibt es keine (einfachen) theoretischen Verteilungen,
aber Simulationen sind möglich

WiSe 21/22 Martin Vogt | Statistik 254


9. Inferenzstatistik
Drei Varianten simulationsbasierter Inferenz

1. Einfache Simulation: Erstelle eine Stichprobenverteilung für die Verteilung laut H0 .


2. Permutationstest: Mische die Werte einer Variablen
3. Bootstrapping: Erstelle eine Konfidenzintervall durch Ziehen mit Zurücklegen

WiSe 21/22 Martin Vogt | Statistik 255


9.3 Punktschätzung

WiSe 21/22 Martin Vogt | Statistik 256


9. Inferenzstatistik
Punktschätzung Kneipe statt Hörsaal

I Die n = 34 Teilnehmer*innen des Experimentes sind (nur) eine Stichprobe.


I Uns interessiert aber allgemein, ob ein Geschmacksunterschied vorliegt, d. h., wir
wollen generalisieren auf eine Population.
I Der Anteil derjenigen, die allgemein (d. h. in der Population) auf die richtige Probe
tippen, wird mit π bezeichnet, der der Stichprobe mit p.
I Da π (in der Population) in der Regel unbekannt ist, muss es auf Basis der
Stichprobe geschätzt werden: π̂.

WiSe 21/22 Martin Vogt | Statistik 257


9. Inferenzstatistik
Übung 79: Punktschätzung

Was wäre Ihrer Meinung nach ein vernünftiger Schätzer für π?


A. π̂ = 12
B. π̂ = 13
C. π̂ = 12
34
D. Kann nicht angegeben werden.

WiSe 21/22 Martin Vogt | Statistik 258


9. Inferenzstatistik
Punktschätzung

Der Wert der Stichprobe wird häufig als Punktschätzer (engl.: (point) estimate) für
den interessierenden Wert der Population verwendet, z. B.:
I Anteil (kategoriale Daten): Population π, Stichprobe p, Punktschätzer π̂ = p.
I Arithmetischer Mittelwert (numerische Daten): Population µ, Stichprobe x̄,
Punktschätzer µ̂ = x̄.
Das Symbol Dach (ˆ) zeigt, dass der unbekannte, wahre Wert geschätzt wurde.
Punktschätzer sind Funktionen der Stichprobe.

WiSe 21/22 Martin Vogt | Statistik 259


9. Inferenzstatistik
Übung 80: Ergebnis Punktschätzung

Wird mit Sicherheit in der Population gelten π = π̂ = p = 12 ?


34

I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 260


9. Inferenzstatistik
Standardfehler und Freiheitsgrade

I Punktschätzer variieren mit der Stichprobe. Der Standardfehler (engl.: standard


error, se) beschreibt die Streuung (Standardabweichung) eines Schätzwertes, z. B.
für den arithmetischen Mittelwert x̄: se = √sdn , d. h., se sinkt mit steigendem n
(c. p.).
I Die Anzahl Freiheitsgrade (engl.: degrees of freedom, d f ) gibt an, wie viele
Beobachtungen dabei frei sind: Ist der Mittelwert von n Beobachtungen unbekannt,
so ist d f = n − 1.
I Aufgrund der Variation des Punktschätzers mit der Stichprobe und der damit
verbundenen Unsicherheit gibt es auch die Bereichs- oder Intervallschätzer.

WiSe 21/22 Martin Vogt | Statistik 261


9.4 Konfidenzintervall

WiSe 21/22 Martin Vogt | Statistik 262


9. Inferenzstatistik
Stichprobenverteilung (I/III)
Angenommen unsere Stichprobe stammt aus einer Population mit
N = 340000 = 220000 + 120000 für die gilt π = 12
34 = 0.3529412, d. h., 220000 liegen
falsch (f), 120000 liegen richtig (r):
population <- rep(factor(c("f","r")), c(220000, 120000))
prop( ~ population, success = "r")

## prop_r
## 0.3529412
Dann variiert auch der Anteil in der Stichprobe: sample (n = 34):
prop( ~ sample(population, size = 34), success = "r")
prop( ~ sample(population, size = 34), success = "r")

## prop_r
## 0.3235294
## prop_r
## 0.2941176
WiSe 21/22 Martin Vogt | Statistik 263
9. Inferenzstatistik
Stichprobenverteilung (II/III)
Simulation von 10000 zufälligen Stichproben aus der Population:

Setze Zufallszahlengenerator
Stiprovtlg soll sein:
Wiederhole 10000 Mal:
- Berechne den Anteil "r",
- Ziehe dafür eine Stichprobe vom Umfang 34 aus der Population

set.seed(1896) # Reproduzierbarkeit
Stiprovtlg <- do(10000)* prop( ~ sample(population, size = 34),
success = "r")

Simulierter Standardfehler:

mosaic::sd( ~ prop_r, data = Stiprovtlg)

## [1] 0.08111993

WiSe 21/22 Martin Vogt | Statistik 264


9. Inferenzstatistik
Stichprobenverteilung (III/III)

gf_bar( ~ prop_r, data = Stiprovtlg)

1500

1000
count

500

0.2 0.4 0.6


prop_r

WiSe 21/22 Martin Vogt | Statistik 265


9. Inferenzstatistik
Übung 81: Anteil

1500

1000

count
500

0.2 0.4 0.6


prop_r

Wenn in der Population gilt π = 12 . Welcher Anteil p kommt dann in den Stichproben
34
am häufigsten vor?
A. p = 1
2
B. p = 1
3
C. p = 12
34

WiSe 21/22 Martin Vogt | Statistik 266


9. Inferenzstatistik
Resampling
In der Regel kennen wir die Population nicht77 . Wir können aber unsere Stichprobe
resamplen – durch Ziehen mit Zurücklegen:
stipro <- rep(factor(c("f","r")), c(22, 12))
stipro

## 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
## f f f f f f f f f f f f f f f f f f f f f f r r
## 25 26 27 28 29 30 31 32 33 34
## r r r r r r r r r r
## Levels: f r

resample(stipro)

## 1 1 2 4 5 5 5 6 7 9 11 13 15 16 17 18 18 19 20 20 20 21 22 23
## f f f f f f f f f f f f f f f f f f f f f f f r
## 24 25 25 27 28 29 34 34 34 34
## r r r r r r r r r r
## Levels: f r
77 Genau genommen haben wir sie hier ja auch nur simuliert.
WiSe 21/22 Martin Vogt | Statistik 267
9. Inferenzstatistik
Resampling Anteil

set.seed(1896) # Reproduzierbarkeit
do(3)* prop( ~ resample(stipro), success = "r")

## prop_r
## 1 0.2941176
## 2 0.3529412
## 3 0.2647059

WiSe 21/22 Martin Vogt | Statistik 268


9. Inferenzstatistik
Schema Bootstrap

{Abbildung: Quelle: Lock, Robin, Patti Frazer Lock, Kari Lock Morgan, Eric F. Lock, and
Dennis F. Lock (2012): Statistics: UnLOCKing the Power of Data. Wiley.}

WiSe 21/22 Martin Vogt | Statistik 269


9. Inferenzstatistik
Ablauf: Bootstrap

Vorraussetzungen:
I Zufällige Stichprobe oder zufällige Zuordnung.
I Nicht zu kleine Stichprobe.78

Beispiel: Bootstrap-Perzentil-Intervall79 für eine Stichprobe:


I Wiederhole z. B. 10000×
I Ziehe mit Zurücklegen eine Stichprobe vom Umfang n aus der Originalstichprobe.
I Berechne Statistik, z. B. Anteil der Bootstrap-Stichprobe. Analog für andere
Statistiken, z. B. Mittelwert x̄.
I Zeichne Histogramm der Bootstrap-Verteilung der Statistik.
I Das 95 %-Bootstrap-Perzentil-Intervall sind die mittleren 95 % der
Bootstrap-Verteilung.

78 n > 35
79 Es gibt weitere, teilweise exaktere Bootstrap-Methoden.
WiSe 21/22 Martin Vogt | Statistik 270
9. Inferenzstatistik
Übung 82: Bootstrap

Stimmt die Aussage: beim Resamplen kann eine Beobachtung mehrfach in einer
Bootstrap-Stichprobe vorkommen?
I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 271


9. Inferenzstatistik
Bootstrap-Verteilung (I/II)

Setze Zufallszahlengenerator
Bootvtlg soll sein:
Wiederhole 10000 Mal:
- Berechne den Anteil "r",
- Der Datensatz "stipro" soll dabei jedes Mal resampelt werden.

set.seed(1896)
Bootvtlg <- do(10000)* prop( ~ resample(stipro),
success = "r")

WiSe 21/22 Martin Vogt | Statistik 272


9. Inferenzstatistik
Bootstrap-Verteilung (II/II)

gf_bar( ~ prop_r, data = Bootvtlg)

1500

1000
count

500

0.2 0.4 0.6


prop_r

WiSe 21/22 Martin Vogt | Statistik 273


9. Inferenzstatistik
Vergleich Sampling und Resampling
Wenn die Verteilung der Stichprobe ähnlich der Population80 ist, dann kann diese über
Resampling geschätzt werden:

Stichprobenverteilung
1500

1000
count

500

0
0.2 0.4 0.6
prop_r

Bootstrap−Verteilung
1500

1000
count

500

0
0.2 0.4 0.6
prop_r

80 Die
ja i. d. R. unbekannt ist! Wir können aber hoffen, dass die empirische Verteilung Fn mit
zunehmenden Stichprobenumfang n der theoretischen F immer ähnlicher wird.
WiSe 21/22 Martin Vogt | Statistik 274
9. Inferenzstatistik
Bootstrap-Konfidenzintervall

I Ein Teil der Unsicherheit in statistischen Ergebnissen liegt in der Zufälligkeit der
konkreten Stichprobe begründet.
I Wir simulieren die zufällige Stichprobe (Sampling) durch zufälliges Resampling.
I Das 95 % Konfidenzintervall ist der Bereich in dem 95 % unser wiederholten
Stichprobenkennzahlen liegen:

quantile( ~ prop_r, data = Bootvtlg, probs = c(0.025, 0.975))

## 2.5% 97.5%
## 0.2058824 0.5007353

WiSe 21/22 Martin Vogt | Statistik 275


9. Inferenzstatistik
Übung 83: Plausibler Wert

quantile( ~ prop_r, data = Bootvtlg, probs = c(0.025, 0.975))

## 2.5% 97.5%
## 0.2058824 0.5007353

Bei der Stichprobe: erscheint Ihnen ein Anteil von 1 unplausibel?


3

I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 276


9. Inferenzstatistik
Übung 84: Konfidenzintervall

Worauf bezieht sich ein Konfidenzintervall?


I Auf Werte von Beobachtungen xi .
I Auf Werte von Populationen, z. B. π, µ.

WiSe 21/22 Martin Vogt | Statistik 277


9. Inferenzstatistik
Konfidenzintervall

I Ein Konfidenzintervall gibt einem Bereich an, der den wahren, unbekannten Wert
der Population mit einer gegebenen Sicherheit (z. B. 95 % = 1 − α = 100 % − 5 %)
überdeckt, d. h., den Anteil der so konstruierten Konfidenzintervalle, die den Wert
enthalten.81
I Je größer die Sicherheit (z. B. 99 % statt 95 %), desto breiter ist das Intervall.82
I Je größer der Stichprobenumfang, desto kleiner das Konfidenzintervall (unter sonst
gleichen Umständen): der Standardfehler se fällt mit n.

81 Song https://www.causeweb.org: Larry Lesser © Call It Maybe


82 Häufig bei n > 30: 95 %-KI ≈ δ∗ ± (2 · se)
WiSe 21/22 Martin Vogt | Statistik 278
9. Inferenzstatistik
Übung 85: Breite Konfidenzintervall

Stimmt die Aussage: Die Breite eines Konfidenzintervalls hängt nicht von der Streuung
der Beobachtungen ab?
I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 279


9. Inferenzstatistik
Überdeckung durch Konfidenzintervall

n = 10

1
estimate

−1

0 25 50 75 100
sample

WiSe 21/22 Martin Vogt | Statistik 280


9.5 Grundlagen des Hypothesenprüfens

WiSe 21/22 Martin Vogt | Statistik 281


9. Inferenzstatistik
Übung 86: Dreieckstest

Wie groß ist die Wahrscheinlichkeit π, zufällig, d. h., ohne einen Unterschied zu
schmecken, auf die richtige (sprich abweichende) Probe zu tippen?
A. π =0
B. π = 1/3
C. π = 1/2
D. π = 2/3
E. π =1

WiSe 21/22 Martin Vogt | Statistik 282


9. Inferenzstatistik
Nullhypothese

I Wir gehen vorläufig davon aus, dass es keinen Unterschied gibt.


I Diese inhaltliche Hypothese wird operationalisiert durch π = 13 .
I Die Hypothese bezieht sich auf einen Wert der Population (π) – nicht der
(bekannten) Stichprobe (p).
I Die Nullhypothese (H0 ) ist in der Regel die, dass es keinen Unterschied, keinen
Zusammenhang gibt.
I Unter der Annahme der Nullhypothese können wir Daten simulieren.83

83 Video Lady Tasting Tea https://youtu.be/lgs7d5saFFc


WiSe 21/22 Martin Vogt | Statistik 283
9. Inferenzstatistik
Simulation von Raten im Bierversuch

I Modell: Es gibt keinen Geschmacksunterschied. Dann muss geraten werden.


I Der Trefferanteil im Modell liegt dann bei 1/3.
I Simulation: Wie ist die Verteilung der Treffer bei n = 34, wenn geraten wird?

rflip(n = 34, prob = 1/3)

##
## Flipping 34 coins [ Prob(Heads) = 0.333333333333333 ] ...
##
## H H T T H H T T T T T H T T T T T T T T T H H T T T T H T T T H
## H H
##
## Number of Heads: 11 [Proportion Heads: 0.323529411764706]

WiSe 21/22 Martin Vogt | Statistik 284


9. Inferenzstatistik
Simuliere Verteilung unter H0

Setze Zufallszahlengenerator
Nullvtlg soll sein:
Wiederhole 10000 Mal:
- Wirf 34 Mal eine dreiseitige Münze,
- zähle die Anzahl der Treffer.

set.seed(1896)
Nullvtlg <- do(10000) * rflip(n = 34, prob = 1/3)

WiSe 21/22 Martin Vogt | Statistik 285


9. Inferenzstatistik
Verteilung unter H0

gf_bar( ~ heads, data = Nullvtlg )

1500

1000
count

500

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
heads
WiSe 21/22 Martin Vogt | Statistik 286
9. Inferenzstatistik
Übung 87: Simulation (I/II)

1500

1000

count
500

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
heads

Welche der Aussagen stimmt?


A. Wenn geraten wird, ist x = 12 ein unüblicher, d. h. unwahrscheinlicher, Wert.
B. Wenn geraten wird, ist x = 12 ein üblicher, d. h. wahrscheinlicher, Wert.
C. Wenn geraten wird, ist x = 10 ein unüblicher, d. h. unwahrscheinlicher, Wert.
D. Wenn geraten wird, ist x = 20 ein üblicher, d. h. wahrscheinlicher, Wert.

WiSe 21/22 Martin Vogt | Statistik 287


9. Inferenzstatistik
Übung 88: Simulation (II/II)

1500

1000

count
500

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
heads

Bei welchem Wert für x würden Sie bei n = 34 sich am stärksten vermuten, dass ein
Geschmacksunterschied vorliegt, d. h., dass π > 31 ist?
A. Bei x = 5.
B. Bei x = 10.
C. Bei x = 15.
D. Bei x = 20.

WiSe 21/22 Martin Vogt | Statistik 288


9. Inferenzstatistik
Teststatistik und p-Wert

I Anhand einer geeigneten Teststatistik δ werden die Stichprobendaten


zusammengefasst. Ist die Wahrscheinlichkeit einer mindestens so großen
Abweichung unter H0 (sehr) klein, wird diese verworfen, andernfalls nicht.84
I Der p-Wert (p) gibt an, wie viele Stichproben ein mindestens so extremes
Ergebnis wie die beobachtete Stichprobe haben, wenn H0 gilt.
I Anders gesagt: Der p-Wert berechnet sich als die Wahrscheinlichkeit eines solchen
oder extremeren Wertes der Teststatistik unter den Annahmen von H0 .
I Der p-Wert wird bestimmt, nachdem die Daten vorliegen.

84 Song https://www.causeweb.org: McLellan M © P-Value is Low


WiSe 21/22 Martin Vogt | Statistik 289
9. Inferenzstatistik
Schema der simulationsbasierten Inferenz

Abbildung: Quelle: Blogbeitrag Allen Downey85

85 http://allendowney.blogspot.de/2016/06/there-is-still-only-one-test.html

WiSe 21/22 Martin Vogt | Statistik 290


9. Inferenzstatistik
Cartoon: Man kann die H0 nicht bestätigen, höchstens nicht verwerfen

“Dr. Frankenstein akzeptierte die Nullhypothese zum letzten Mal.”86

86 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift A. Boito


WiSe 21/22 Martin Vogt | Statistik 291
9. Inferenzstatistik
Nutzen und Grenzen des p-Werts

I Der p-Wert bietet eine datenbasierte Möglichkeit zu überprüfen, ob die


vorliegenden Daten durch ein zu überprüfendes Modell (H0 ) plausibel erklärt
werden können, d. h., bei wiederholten Stichproben relativ häufig vorkommen.
I Der p-Wert ist definiert als Wahrscheinlichkeit des beobachteten Werts der
Teststatistik (oder noch extremerer Werte) unter der Annahme, dass die H0 gilt
(p(δ∗ | H0 )).
I Achtung: Der p-Wert sagt nicht aus, wie wahrscheinlich die H0 bei den
vorliegenden Daten (Teststatistik) ist (p( H0 | δ∗ )).
I Der p-Wert sagt nicht, wie relevant ein Ergebnis ist (wie groß ein Effekt ist).
I Keine Entscheidung sollte rein auf Basis des p-Wertes getroffen werden.
I Vor der Testentscheidung immer eine explorative Datenanalyse durchführen.

WiSe 21/22 Martin Vogt | Statistik 292


9. Inferenzstatistik
p-Wert
Wie oft kommt in den gemäß der Nullhypothese (H0 : π = 13 ) simulierten Daten eine
mindestens so große Anzahl richtige (heads) vor, wie in der Stichprobe (12)?

gf_bar( ~ heads, data = Nullvtlg, fill = ~ heads >= 12)


1500

1000

heads >= 12
count

FALSE
TRUE

500

5 10 15 20
heads

prop( ~ heads >= 12, data = Nullvtlg)

## prop_TRUE
## 0.471
WiSe 21/22 Martin Vogt | Statistik 293
9. Inferenzstatistik
Übung 89: p-Wert

Liefern die Daten (starke) Indizien dafür, dass die Nullhypothese nicht gilt?
I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 294


9. Inferenzstatistik
Hypothesen prüfen in Analogie zu Gerichtsverfahren

I Wir gehen von H0 aus: der Angeklagte ist unschuldig, da ist nichts.
I Wenn die Indizien (Daten) gegen den Angeklagten (H0 ) sprechen87 , haben wir
berechtigten Zweifel an der Unschuld (H0 ).
I Wenn die Daten nicht ausreichen, um zu zeigen, dass der Angeklagte schuldig ist,
so sagen wir nicht: er ist unschuldig. Daher nie: wir bestätigen die Nullhypothese,
sondern nur, wir können die Nullhypothese nicht verwerfen. Die Abwesenheit von
Belegen belegt nicht die Abwesenheit.

87 d. h., unter der Unschuldsvermutung (sehr) selten sind


WiSe 21/22 Martin Vogt | Statistik 295
9. Inferenzstatistik
Verteilung p-Wert

I Werden aus der Population verschiedene Stichproben gezogen, so ergeben sich


auch verschiedene p-Werte.
I Ein einzelner p-Wert beweist nicht, dass H0 nicht stimmt: Replikation

p−Wert Dreieckstest
mit simulierten Stichproben
1500

1000
Anzahl Stichproben

500

0
]

5]

5]

5]

5]

5]

5]

5]

]
05

,1
0.

.1

.2

.3

0.

.6

.7

.8

.9

5
.
,0

5,

,0

,0

,0

5,

,0

,0

,0

,0

.9
(0

.0

.1

.2

.3

.4

.6

.7

.8

.9

(0
(0

(0

(0

(0

(0

(0

(0

(0

(0
p−Werte

WiSe 21/22 Martin Vogt | Statistik 296


9. Inferenzstatistik
Alternativhypothese und Signifikanz

I Die Alternativhypothese H A , H1 ist das Gegenteil der Nullhypothese. Die Rollen


von H0 und H A können nicht vertauscht werden.
I Alternativen können einseitig, gerichtet (z. B. π > π0 bzw. π < π0 ) oder
zweiseitig, ungerichtet (z. B. π 6= π0 ) sein.
I Das vorab festgelegte Signifikanzniveau α88 eines Tests gibt die maximal
zugebilligte Irrtumswahrscheinlichkeit dafür an, H0 zu verwerfen, obwohl H0 gilt.
I Damit können vorab kritische Werte der Verteilung unter H0 bestimmt wird: liegt
der Wert der Teststatistik der Stichprope außerhalb, wird H0 verworfen, sonst nicht.
I Auf Grundlage der Alternative kann eine geeignete Teststatistik und der nötige
Stichprobenumfang bestimmt werden.
I Gilt p-Wert < α, so wird H0 verworfen, ansonsten nicht.
I Wird die H0 verworfen, so nennt man das Ergebnis (statistisch) signifikant zum
Niveau α.

88 üblich: α = 1%, 5%, 10%


WiSe 21/22 Martin Vogt | Statistik 297
9. Inferenzstatistik
Cartoon: Signifikanzniveau

“Paläontologen haben schließlich doch den Ursprung des 5 % Signifikanzniveaus


herausgefunden.”89
89 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift M. Dunlap
WiSe 21/22 Martin Vogt | Statistik 298
9. Inferenzstatistik
Übung 90: Alternativhypothese

Im Dreieckstest: was ist eine sinnvolle Alternativhypothese für die Fragestellung ob ein
Unterschied vorliegt?
A. H A : π < 13
B. H A : π > 13
C. H A : π 6= 13

WiSe 21/22 Martin Vogt | Statistik 299


9. Inferenzstatistik
Fehlerarten

Testentscheidung H0 nicht verwerfen Testentscheidung H0 verwerfen


Realität H0 Ok Fehler 1. Art90
Realität H A Fehler 2. Art91 Ok

Song https://www.causeweb.org: Larry Lesser und Dominic Sousa © Hypothesis on Trial

90 Auch α-Fehler genannt. Die Wahrscheinlichkeit dieses Fehlers wird durch das Signifikanzniveau
nach oben beschränkt.
91 Auch β-Fehler genannt. Die Wahrscheinlichkeit dieses Fehlers ist schwieriger zu bestimmen, aber

siehe z. B. Paket pwr. Bei guten Tests sinkt sie mit größerem Stichprobenumfang n.
WiSe 21/22 Martin Vogt | Statistik 300
9. Inferenzstatistik
Übung 91: Fehlerart

Mit einem p-Wert von 0.47 kann die Nullhypothese H0 : π = 13 zum Signifikanzniveau
α = 0.05 nicht verworfen werden. Angenommen, es gelte die Alternativhypothese
H A : π > 31 . Welche Aussage stimmt?
A. Es liegt ein Fehler 1. Art vor.
B. Es liegt ein Fehler 2. Art vor.
C. Es liegt kein Fehler vor.

WiSe 21/22 Martin Vogt | Statistik 301


9. Inferenzstatistik
Wiederholung: Quantitativer Forschungsprozess

1. Forschungsfrage: Was soll untersucht werden?


2. Studiendesign: Operationalisierung / Variablenauswahl. Wahl des
Stichprobenverfahren und / oder Versuchsplanung. Alternativ: Nutzung vorhandener
Daten.
3. Datenerhebung
4. Datenanalyse: Datenvorverarbeitung (Ausreißer, fehlende Werte), Explorative
Datenanalyse (Grafiken und Kennzahlen).
5. Inferenz: Schätzen und Testen; Modellierung.
6. Schlussfolgerungen: (vorläufige) Antwort auf Forschungsfrage.

WiSe 21/22 Martin Vogt | Statistik 302


9. Inferenzstatistik
Ablauf Hypothesenprüfung

1. Inhaltliche Hypothese operationalisieren.


2. Nullhypothese H0 (und Alternativhypothese H A , Forschungsvermutung) festlegen.
Dazu passende Teststatistik bestimmen:
I Sprechen hohe Werte der Teststatistik für die Forschungsthese?
I Sprechen niedrige Werte der Teststatistik für die Forschungsthese?
I Sprechen sowohl hohe als auch niedrige Werte für die Forschungsthese?92
3. Verteilung der Teststatistik unter H0 bestimmen.
4. Prüfung über p-Wert: ist der beobachtete Wert der Teststatistik der Stichprobe
unter H0 (sehr) selten?
I Nein: H0 kann nicht verworfen werden. Abweichung nicht signifikant.
I Ja: H0 wird verworfen. Abweichung signifikant.

92 Dannkann bei symmetrischen Verteilungen z. B. der Betrag der Teststatistik verwendet werden.
Ansonsten einseitigen p-Wert verdoppeln.
WiSe 21/22 Martin Vogt | Statistik 303
9. Inferenzstatistik
Beispiel Inferenz: Geschlecht und Klausurpunkte

I Inhaltliche Forschungsthese: Es gibt einen Unterschied im Lernergebnis Statistik


zwischen Männern und Frauen (ungerichtet).
I Mathematische Operationalisierung: z. B. µ – Mittelwert der Klausurpunktzahl in
der Population.

H0 : µMann = µFrau vs. H A : µMann 6= µFrau

I Teststatistik: Mittelwert der Klausurpunktzahl in der Stichprobe: x̄Mann , x̄Frau .


I Sollte x̄Mann  x̄Frau oder x̄Mann  x̄Frau sein, ist dies, wenn die Nullhypothese
gilt, unwahrscheinlich.93
I Allgemeiner: Es soll getestet werden, ob sich der Mittelwert eines Merkmals
zwischen zwei Gruppen (in der Population) unterscheidet.

93 Abhängig vom Stichprobenumfang und Streuung.


WiSe 21/22 Martin Vogt | Statistik 304
9. Inferenzstatistik
Beispiel Inferenz: Quizze und Klausurerfolg

I Inhaltliche Forschungsthese: Studierende, die an den Quizzen teilnehmen, bestehen


häufiger die Klausur (gerichtet94 ).
I Mathematische Operationalisierung: z. B. π: Anteil derjenigen, die die Klausur
bestehen, in der Population:

H0 : πQuiz 6 πkein Quiz vs. H A : πQuiz > πkein Quiz

I Teststatistik: Anteil derjenigen, die die Klausur bestehen, in der Stichprobe:


pQuiz , pkein Quiz .
I Sollte pQuiz  pkein Quiz sein, ist dies, wenn die Nullhypothese gilt,
unwahrscheinlich.95
I Allgemeiner: Es soll getestet werden, ob sich der Anteil eines Merkmals zwischen
zwei Gruppen (in der Population) unterscheidet.

94 Eine gerichtete Hypothese muss aber inhaltlich (z. B. Literatur) begründet sein!
95 Abhängig vom Stichprobenumfang.
WiSe 21/22 Martin Vogt | Statistik 305
9. Inferenzstatistik
Cartoon: Signifikanz

“Beachte, dass die signifikanten Ereignisse an den Rändern auftauchen.”96


96 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift D. Nandy
WiSe 21/22 Martin Vogt | Statistik 306
9. Inferenzstatistik
Hypothesenprüfung und Konfidenzintervall

I Das Konfidenzintervall gibt auf Basis der Stichprobe einen Wertebereich für den
Wert (δ) an: 1 − α der Werte aus den Resampling-Stichproben liegen darin.
I Anhand der Verteilung unter dem Modell der Nullhypothese (δ = δ0 ) können wir
einen Wertebereich für Werte der Stichprobe (δ∗ ) bestimmen, wenn dieses Modell
gilt: 1 − α der unter H0 simulierten Werte liegen darin.
I Häufig97 entspricht der Bereich des Konfidenzintervalls dem Bereich für δ, für den
H0 : δ = δ0 nicht verworfen wird.

97 Hängt u. a. vom Verfahren ab. Es ist aber theoretisch möglich äquivalente Bereiche zu konstruieren.
WiSe 21/22 Martin Vogt | Statistik 307
9. Inferenzstatistik
Übung 92: Konfidenzinterval und Hypothesentest

Das simulierte Konfidenzintervall überdeckt folgenden Bereich:

quantile( ~ prop_r, data = Bootvtlg, probs = c(0.025, 0.975))

## 2.5% 97.5%
## 0.2058824 0.5007353

Würde H0 : π = 2 (vermutlich)98 verworfen werden (Signifikanzniveau α = 5%)?99


3

I Ja.
I Nein.

98 Dawir nicht exakt gerechnet, sondern auf Basis einer kleinen Stichprobe simuliert haben.
99 Hypothesen werden aus der Theorie hergeleitet. Hier z. B. 50% schmecken den Unterschied, die
anderen raten.
WiSe 21/22 Martin Vogt | Statistik 308
9.6 Zusammenfassung

WiSe 21/22 Martin Vogt | Statistik 309


9. Inferenzstatistik
Cartoon: Statistik

“Am Anfang ein bisschen schwer zu verdauen, aber sehr nahrhaft und voll mit
Vitaminen α, π̂, x̄ und besonders µ und σ.”100
100 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift G. Baugher
WiSe 21/22 Martin Vogt | Statistik 310
9. Inferenzstatistik
Verteilungen
Allgemein sagt eine Verteilung, wie wahrscheinlich bzw. häufig Werte bzw.
Wertebereiche sind.
I Verteilung in der Population
Z. B. unter allen Studierenden: Wurde die Vorlesung nachgearbeitet? Wie hoch ist
der Anteil derjenigen, die die Vorlesung nacharbeiten, unter allen Studierenden: π.
I Verteilung in der Stichprobe
Z. B. in den vorliegenden Daten: Wurde die Vorlesung nachgearbeitet? Wie hoch ist
der Anteil derjenigen, die die Vorlesung nacharbeiten, in der Stichprobe: p.
I Stichprobenverteilung (Verteilung einer Statistik der Stichprobe)
Z. B.: Wie hoch ist der Anteil p derjenigen, die nacharbeiten, in den zufälligen
Stichproben?
I Resampling-Verteilung (Schätzung der Verteilung einer Statistik der Stichprobe)
Z. B.: Wie hoch ist der Anteil p derjenigen, die nacharbeiten, in den zufälligen
Resamples der Stichprobe?
I Verteilung unter H0 (Wie sieht die Verteilung einer Statistik der Stichprobe aus,
wenn das Modell der Nullhypothese stimmt?)
Z. B.: Verteilung von p, dem Anteil derjenigen, die nacharbeiten, in einer
Stichprobe, wenn in der Population (hypothetisch) π = 0.8 gilt.
WiSe 21/22 Martin Vogt | Statistik 311
9. Inferenzstatistik
Übung 93: Verteilungen

Im Rahmen einer Datenanalyse: Welche Verteilung können Sie beobachten?


A. Verteilung in der Population
B. Verteilung in der Stichprobe
C. Stichprobenverteilung
D. Resampling-Verteilung
E. Verteilung unter H0

WiSe 21/22 Martin Vogt | Statistik 312


9. Inferenzstatistik
Simulationsbasierte Inferenz als ein übergreifendes Prinzip

I Simulationsbasierte Inferenz bietet ein Verfahren für viele Fragen der


Inferenzstatistik.
Alternative: Test mit theoretischen Verteilungsannahmen unter H0 .101
I Solche klassischen Tests basieren auf jeweils unterschiedlichen Methoden und
Annahmen.
I Nicht für jede Fragestellung sind die theoretischen Verteilungen bekannt.

101 Häufig approximativ oder asymptotisch, z. B. t-, χ2 -, F-Verteilungen.


WiSe 21/22 Martin Vogt | Statistik 313
9. Inferenzstatistik
Ein Prinzip – ein statistischer Test

WiSe 21/22 Martin Vogt | Statistik 314


9. Inferenzstatistik
Anstatt vieler Bäume

Die Auswahl statistischer Tests und Maße


Sven Blankenberger, Institut für Psychologie der Martin-Luther-Universität Halle-Wittenberg
Dirk Vorberg, Institut für Psychologie der Technischen Universität Braunschweig

bekannt Ein-Stichproben z-Test [MS281; W105]


Populations-
normal
varianz?
eine Stichprobe Verteilungsform? unbekannt Ein-Stichproben t-Test [MS411; W116]

beliebig Vorzeichentest [MM55]

bekannt Zwei-Stichproben z-Test [Kb372]


Populations-
normal homogen Zwei-Stichproben t-Test für homogene Varianzen [MS417; W126]
varianz?

unbekannt Varianzen?

heterogen Zwei-Stichproben t-Test für heterogene Varianzen [MS421; W133]


unabhängig Verteilung?
Mann-Whitney-U-Test [MS239; BLB200]
Zwei-Stichproben Wilcoxon-Test [MS228; SC128]
gleich
Terry-Hoeffding-Normalrangtest [MM280; BLB215]
Van der Waerden-Normalrangtest [MM283; BLB213]
Verteilungsformen
beliebig
Mittelwert bzw. Anzahl der zwei Stichproben ?
Abhängigkeit? Permutationstest [SC151]
zentraler Tendenz Stichproben? bzw. Bedingungen
verschieden Mediantest [SC124; W140; BLB198]
Fliegner-Policello-Test [SC137; W369]

normal t-Test für abhängige Messungen [MS414; W240]

Wilcoxon-Vorzeichenrangtest [MS213;
abhängig Verteilung? gleich SC87;BLB259]
Verteilungsformen Normalrangtests [MM342]
beliebig
?
Vorzeichentest [MS170; W344; SC80;BLB256]
verschieden Permutationstest [SC95]
Fishers exakter Test [MM326]

homogen Varianzanalyse [MS472; MD63]

normal Varianzen? Varianzanalyse nach Brown-Forsythe [MD697]


Varianzanalyse nach Welch [MD701; MS492; W183]
heterogen
James-Test [W182]
unabhängig Verteilung? Alexander-Govern-Test [W184]

Kruskal-Wallis-Rangvarianzanalyse [MS496; W373;


gleich SC206;BLB222]
Verteilungsformen Normalrangtest [BLB228]
beliebig
?
Mediantest [BLB221]
mehr als zwei verschieden
Rust-Fliegner-Test [W375]
Stichproben bzw. Abhängigkeit?
Bedingungen ja Varianzanalyse für abhängige Messungen [MS562; MD453]

normal Sphärizität? Varianzanalyse mit Korrektur nach Geisser-Greenhouse


[MD475]
nein Varianzanalyse mit Korrektur nach Box [MD476]
abhängig Verteilung? Varianzanalyse mit Korrektur nach Huynh-Feldt [MD477]
MANOVA für Meßwiederholungsdesigns [MD552]

Friedman-Test [W379; SC174; BLB267]


beliebig,
Agresti-Pendergast-Test [W379]
gleiche Form
Normalrangtest [MM371]

eine Stichprobe,
χ2-Test [H328]
normalverteilt

normal F-Test [MS467]

unabhängig Verteilung? Siegel-Tukey-Test [MM289; SC156; BLB249]


ja Mood-Test [MM290; BLB252]
Klotz-Test [MM291]
beliebig Mediane gleich?
Unterschiede Varianz bzw. Anzahl der adjustierter Siegel-Tukey-Test [MM289]
quantitativ zwei Stichproben Abhängigkeit?
hinsichtlich... Dispersion Stichproben? adjustierter Mood-Test [MM290]
nein
adjustierter Klotz-Test [MM291]
Moses-Test [SC161]

abhängig t-Test für Varianzengleichheit [Kb414; Z167]

Cochrans C [WBM105; Ka78]


mehr als zwei Stichproben,
Hartleys Fmax [WBM104; Ka78]
normalverteilt,
Box-Scheffé-Test [WBM107; Ka79]
unabhängig
Brown-Forsythe-Test [WBM109]

Kolmogorov-Smirnov-Anpassungstest [MM248; SC51;


stetig BLB319]
Lilliefors-Test [MM249; BLB321]
eine Stichprobe Art der Daten?

diskret Pearsons χ2-Anpassungstest [MM247; SC45]


Unterschieds- abhängige
hypothese Variable?
stetig Kolmogorov-Smirnov-Zwei-Stichproben-Test [MM250; SC144; BLB299]
Anzahl der zwei Stichproben,
Verteilungsform Art der Daten?
Stichproben? unabhängig
diskret Pearsons χ2-Test [SC111]
mehr als zwei Stichproben,
unabhängig, Pearsons χ2-Test [SC191]
diskret
dichotom Binomialtest [SC38; BLB88]
Anzahl der
eine Stichprobe
Kategorien?
Pearsons χ2-Anpassungstest [SC45;
polychotom
BLB95]
Vierfelder-χ2-Test [BLB102]
dichotom
Fishers exakter Test [SC103; BLB110]
Anzahl der
unabhängig
Kategorien?
polychotom Pearsons 2 x k χ2-Test [SC111; BLB121]
Anzahl der
qualitativ zwei Stichproben Abhängigkeit?
Stichproben? McNemar-Test [SC75;
dichotom
BLB160]
Anzahl der
abhängig
Kategorien?
Bowkers m x m Test [MS386;
polychotom
BLB165]

dichotom Pearsons k x 2 χ2-Test [SC111; BLB121]


Anzahl der
unabhängig
Kategorien?
Art der polychotom Pearsons m x k χ2-Test [SC191; BLB131]
Start Fragestellung?
mehr als zwei Stichproben Abhängigkeit?

abhängig Cochrans Q [SC170; BLB169]

Pearsons Produkt-Moment-Korrelation [MS82;


beide stetig
B189]

Variablen eine künstlich dichotomisiert,


linear biseriale Korrelation [GF304; B208]
kategoriell? Population normalverteilt

beide künstlich dichotomisiert, tetrachorische Korrelation [GF311;


Population bivariat normalverteilt B211]

Enge des Zusammenhangs Spearmans Rangkorrelation [MS328; SC235; BLB414]


Interpretation
beide stetig
hinsichtlich...
Vorhersagefehler Kendalls τ [MM439; BLB422]
beide Form des Variablen
monoton
quantitativ Zusammenhangs? kategoriell?
Goodman-Kruskals γ [SC291]
ja
Kendalls τ [MM439; BLB422]
Fragestellung
beide kategoriell
symmetrisch?
nein Somers' d [SC303]

kurvilinear Korrelationsverhältnis η2 [GF296]

polychotom Korrelationsverhältnis η2 [MS115; B257]


Zusammenhangs- eine quantitativ, Anzahl der
Variablentypen?
hypothese eine qualitativ Kategorien?
dichotom punkt-biseriale Korrelation [GF308; B207]

φ-Koeffizient [SC232; BLB327]


2x2
Yules Q [BLB335]

beide Anzahl der


qualitativ Kategorien?
Enge des Zusammenhangs, Cramers φ [BLB355]
symmetrische Fragestellung Kontingenzkoeffizient [BLB358; B215]
Interpretation
kxm
hinsichtlich...
Vorhersagefehler, Goodman-Kruskals λ [SC298; BLB363]
asymmetrische Fragestellung Informationsmaße [WT230]

[B] Bortz, J. (1993). Statistik für Sozialwissenschaftler (4. Aufl.). Berlin: Springer. [MD] Maxwell, S. E. & Delaney, H. D. (1990).Designing experiments and analyzing data.Belmont, CA: Wadsworth.

[BLB] Bortz, J., Lienert, G. & Boehnke, K. (1990). Verteilungsfreie Methoden in der Biostatistik. Berlin: Springer. [SC] Siegel, S. & Castellan, N. J., Jr. (1988). Nonparametric statistics for the behavioral sciences (2. Aufl.). New York:
McGraw-Hill.
[GF] Guilford, J. P. & Fruchter, B. (1978). Fundamental statistics in psychology and education (6. Aufl.). New York: McGraw-
Hill. [WT] Wickens, T. D. (1989). Multiway contingency tables analysis for the social sciences.Hillsdale, NJ: Lawrence Erlbaum.

[H] Hays, W. L. (1994). Statistics (5. Aufl.). Fort Worth, FL: Harcourt Brace College Publishers. [W] Wilcox, R. R. (1996). Statistics for the social sciences. San Diego, CA: Academic Press.

[Ka] Kirk, R. E. (1982). Experimental design (2. Aufl.). Belmont, CA: Brooks/Cole. [WBM] Winer, B. J., Brown, D. R. & Michels , K. M. (1991). Statistical principles in experimental design (3. Aufl.). New York:
McGraw-Hill.
[Kb] Kirk, R. E. (1990). Statistics: An introduction. Fort Worth, FL: Holt, Rinehard, and Winston.
[Z] Zar, J. H. (1996). Biostatistical analysis (3. Aufl.). Upper Saddle River, NJ: Prentice Hall.
[MM] Marascuilo, L. A. & McSweeney, M. (1977). Nonparametric and distribution-free methods for the social sciences.
Monterey, CA: Brooks/Cole.

Martin Vogt | Statistik


[MS] Marascuilo, L. A. & Serlin, R. C. (1988). Statistical methods for the social and behavioral sciences.New York: Freeman.

WiSe 21/22 315


9. Inferenzstatistik
Wiederholung: Schlussmöglichkeiten

zufällige keine zufällige


Zuordnung Zuordnung
zufällige Kausalschluss, kein Kausalschluss,
Stichprobe generalisierbar Aussage generalisierbar
für die Population für die Population

keine zufällige Kausalschluss, kein Kausalschluss,


Stichprobe nur für die Stichprobe Aussage nur für die
Stichprobe

WiSe 21/22 Martin Vogt | Statistik 316


9. Inferenzstatistik
Überblick zu den Simulationstechniken dieses Skripts

I Einfache Simulation zur Analyse einer Statistik: Simuliere zufällige


Datenentstehung im Modell (H0 ) und vergleiche die Stichprobe mit den simulierten
Daten.
I Permutationstest zum Test eines Unterschieds bzw. Zusammenhangs zwischen
zwei Gruppen bzw. zweier Merkmale: Simuliere zufällige Zuordnung und vergleiche
die Stichprobe mit den simulierten Daten, wenn die Verteilung gleich wäre (H0 ).
I Bootstrap zur Berechnung eines Konfidenzintervalls: Simuliere zufälliges Ziehen
einer Stichprobe mit Zurücklegen.

WiSe 21/22 Martin Vogt | Statistik 317


9. Inferenzstatistik
Monte Carlo in R

I Permutationstest, hier: simuliere zufällige Zuordnung102 . Simuliere Verteilung


einer Statistik unter der Annahme, dass kein Unterschied vorliegt (Modell H0 ), u. a.
zur Bestimmung von p-Werten.

do(oft) * statistik(y ~ shuffle(x), data = Daten)

I Bootstrap, hier: simuliere zufälliges Ziehen einer Stichprobe103 . Schätze


Verteilung einer Statistik der Stichprobe, u. a. zur Bestimmung von
Konfidenzintervallen oder Standardfehlern.

do(oft) * statistik(y ~ x, data = resample(Daten))

102 d. h. ohne Zurücklegen


103 d. h. mit Zurücklegen
WiSe 21/22 Martin Vogt | Statistik 318
9. Inferenzstatistik
Übersicht Teststatistiken (Auswahl)

Y X Teststatistik
kategorial - binär Anteil p
kategorial Verhältnisvergleich beobachtet und
erwartet: χ2
numerisch Mittelwert x̄
kategorial - binär kategorial - binär Differenz Anteile p B − p A
numerisch kategorial - binär Differenz Mittelwerte x̄ B − x̄ A
kategorial kategorial Verhältnisvergleich beobachtet und
erwartet: χ2
numerisch kategorial Streuungsvergleich zwischen
Gruppen und innerhalb Gruppen: F
numerisch numerisch Korrelationskoefizient r oder
Steigung β̂ lineare Regression
kategorial numerisch Steigung β̂ logistische oder
multinomiale Regression

Binär: Zwei Ausprägungen: Ja, Nein; A, B.


WiSe 21/22 Martin Vogt | Statistik 319
9. Inferenzstatistik
Grundlagen Inferenz

I Voraussetzung: Unabhängig, identisch verteilte Daten, z. B. aufgrund einer


zufälligen Stichprobe oder einer zufälligen Zuordnung.
I Y ~ 1: (d. h. ohne unabhängige Variable): Modellierte Verteilung (z. B. Binomial-
oder Normalverteilung) von Y hängt von einem interessierenden Parameter ab.
Nullhypothese z. B. π = π0 oder µ = µ0 .
I Y ~ X: Die Modellierung der Verteilung von Y hängt evt. von X ab: Nullhypothese:
Die Verteilung von Y ist für alle X gleich.
I Bei den Regressionsverfahren können mehrere unabhängige Variablen X (mit
unterschiedlichem Skalenniveau) in der Modellierung berücksichtigt werden.
Verfahrensübersicht (Mindmap):
https://coggle.it/diagram/Vxlydu1akQFeqo6-/t/inference

WiSe 21/22 Martin Vogt | Statistik 320


9. Inferenzstatistik
Übersicht Inferenzverfahren R mosaic (Auswahl)

Y X Simulationsbasiert Parametrisch 104

kategorial - binär prop() binom.test()


kategorial xchisq.test() xchisq.test()
numerisch mean() t.test()
kategorial - binär kategorial - binär diffprop() prop.test()
numerisch kategorial - binär diffmean() t.test()
kategorial kategorial xchisq.test() xchisq.test()
numerisch kategorial aov() aov()
numerisch numerisch cor(), lm() cor.test(), lm()
kategorial - binär numerisch glm(family = binomial) glm(family =
binomial)

I Permutationstest: do(oft) * statistik(y ~ shuffle(x), data = Daten): Kritische Werte, p-Werte.


I Bootstrap: do(oft) * statistik(y ~ x, data = resample(Daten)): Konfidenzintervall, Standardfehler.

104 Verteilungsannahmen!

WiSe 21/22 Martin Vogt | Statistik 321


9. Inferenzstatistik
Offene Übung 94: Backtesting (I/II)

Die Berechnung des Value-at-Risk (siehe Übungsaufgabe zu VaR oben) basiert auf
zahlreichen Modellannahmen. Diese müssen in der Praxis nicht immer erfüllt sein. Um
die Qualität des Modells zu überprüfen wird deshalb häufig der 1-Tages
99%-Value-at-Risk (Vorhersage des maximalen Verlustes) mit dem am nächsten Tag
wirklich eingestretenen Verlust verglichen. Dieses Verfahren wird als Backtesting
bezeichnet.
Einige Fonds (etwa viele sogenannte UCITS) müssen ein solches Backtesting
durchführen. Gemäß den ESMA Richtlinien 10/788 müssen diese an das Senior
Management berichten, falls:
The number of overshootings for each UCITS for the most recent 250 business
days exceeds 4 in the case of a 99 % confidence interval. Where an overshooting
is a one-day change in the portfolio’s value that exceeds the related one-day
value-at-risk measure calculated by the model.

WiSe 21/22 Martin Vogt | Statistik 322


9. Inferenzstatistik
Offene Übung 94: Backtesting (II/II)

1. Interpretieren Sie die Passage der ESMA Richtlinien 10/788.


2. Wie viele overshootings erwarten Sie bei einem Modell mit zutreffenden
Modellannahmen an 250 voneinander unabhängigen Arbeitstagen?
3. Mit welcher Wahrscheinlichkeit muss an das Senior Management berichtet werden,
obwohl die Modellannahmen zutreffen?

WiSe 21/22 Martin Vogt | Statistik 323


9. Inferenzstatistik
Offene Übung 95: Meinungsforschung

Kurz vor einer wichtigen Wahl wird im Fernsehen folgendes Meinungsforschungsergebnis


für den Wähleranteil der Partei X bekanntgegeben: Unter 100 zufällig ausgewählten
Befragten gaben 38 Prozent an, für die Partei X zu stimmen.
1. Was ist der Punktschätzer für die relative Häufigkeit an Wählern der Partei X?
2. Bestimmen Sie das 95%-ige und das 97.5%-ige Konfidenzintervall.

WiSe 21/22 Martin Vogt | Statistik 324


9. Inferenzstatistik
Offene Übung 96: Schwarzfahrer

Der öffentliche Nahverkehr geht seit einer Weile von 5 % Schwarzfahrern aus. Er hat
momentan genau so viele Fahrkartenkontrolleure eingestellt, um mit diesem Anteil an
Schwarzfahrern bestmöglich zurechtzukommen. Er möchte nun testen, ob sich der
Anteil verringert hat, ob er also kleiner als 5 % ist, und falls das so ist, die Anzahl der
eingesetzten Kontrolleure verringern. In einer Stichprobe waren unter 100 Fahrern 3
Schwarzfahrer.
Helfen Sie dem Nahverkehr diese Frage zu beantworten.

WiSe 21/22 Martin Vogt | Statistik 325


10 Inferenz kategorialer Daten

WiSe 21/22 Martin Vogt | Statistik 326


10. Inferenz kategorialer Daten
Übung 97: Statistik Essenszeit

Durch welche Statistik kann die Verteilung der Variable Essenzeit (Lunch / Dinner)
sinvoll beschrieben werden?
A. Anteil.
B. Arithmetischer Mittelwert.

WiSe 21/22 Martin Vogt | Statistik 327


10. Inferenz kategorialer Daten
Übung 98: Visualisierung Essenszeit

Durch welche Grafik kann die Verteilung der Variable Essenzeit (Lunch / Dinner) sinnvoll
dargestellt werden?
A. Balkendiagramm.
B. Histogramm.
C. Boxplot.

WiSe 21/22 Martin Vogt | Statistik 328


10. Inferenz kategorialer Daten
Übung 99: Gültigkeit Inferenz

Wann ist aufgrund einer quantitativen Datenanalyse eine Aussage über die Population
gerechtfertigt?
A. Nie.
B. Bei einer zufälligen Stichprobe.
C. Bei einer randomisierten Zuordnung innerhalb eines Experimentes.
D. Bei einem hohen Stichprobenumfang n.
E. Immer.

WiSe 21/22 Martin Vogt | Statistik 329


10. Inferenz kategorialer Daten
Überblick: Testverfahren für kategoriale Daten
Die Verteilung hängt vom Anteil π ab, d. h. Gleichheit bzw. Ungleichheit kann über π
analysiert werden.
I Test eines Anteilswertes: Test ob der Anteil eines (binären105 ) Merkmals in der
Population einem bestimmten Wert entspricht. Mögliche Hypothesen:
I ungerichtet / zweiseitig: H0 : π = π0 vs. H A : π 6= π0 .
I gerichtet / einseitig:
I H0 : π 6 π0 vs. H A : π > π0 .
I H0 : π > π0 vs. H A : π < π0 .
I Test zweier Anteilswerte: Vergleicht zwei Anteilswerte. Mögliche Hypothesen:
I ungerichtet / zweiseitig: H0 : π A = π B vs. H A : π A 6= π B .
I gerichtet / einseitig:
I H0 : π A 6 π B vs. H A : π A > π B .
I H0 : π A > π B vs. H A : π A < π B .
I Test für mehr als zwei Anteilswerte bzw. zum Zusammenhang zweier
nominaler Merkmale: Hypothese H0 : Die Merkmale sind unabhängig, es gibt keinen
Zusammenhang. H A : Die Merkmale sind nicht unabhängig, es gibt einen
Zusammenhang.
105 kategorial mit zwei Ausprägungen
WiSe 21/22 Martin Vogt | Statistik 330
10. Inferenz kategorialer Daten
Beispiele

I Analyse des Anteils der Studierenden, die die Vorlesung nachbereiten – ggf. je nach
Geschlecht oder Studiengang.
I Untersuchung des Anteils der Mitarbeiter*innen, die während der Arbeit
SocialMedia nutzen – ggf. je nach Geschlecht.
I Analyse des Anteils der betrügerischen Versicherungsvorgänge – ggf. je nach
Vertragsart.
I Vergleich des Anteils der Dividendenzahlenden Unternehmen je Index.
I Anteil von “Blockbuster-Movies” pro Film-Genre (s. Datensatz ggplot2movies).

Wo können Sie die Verfahren einsetzen?

WiSe 21/22 Martin Vogt | Statistik 331


10. Inferenz kategorialer Daten
Wiederholung: Schema Hypothesentest

Abbildung: Quelle: Blogbeitrag Allen Downey106


Alternative: Verwende theoretische Verteilungsannahmen unter H0 , häufig
approximativ oder asymptotisch.107

106 http://allendowney.blogspot.de/2016/06/there-is-still-only-one-test.html
107 Bspw. Binomial- oder χ2 −Verteilungen.
WiSe 21/22 Martin Vogt | Statistik 332
10. Inferenz kategorialer Daten
Wiederholung: Schema Bootstrap

{Abbildung: Quelle: Lock, Robin, Patti Frazer Lock, Kari Lock Morgan, Eric F. Lock, and
Dennis F. Lock (2012): Statistics: UnLOCKing the Power of Data. Wiley.}

WiSe 21/22 Martin Vogt | Statistik 333


10. Inferenz kategorialer Daten
Frauenanteil der Rechnungszahler*innen: Einlesen der Daten

Einlesen der Tipping108 Daten:

# Herunterladen
download.file("https://goo.gl/whKjnl", destfile = "tips.csv")

# Einlesen in R
tips <- read.csv2("tips.csv")

# Alternativ - heruntergeladene Datei einlesen:


# tips <- read.csv2(file.choose())

library(mosaic) # Paket mosaic laden

108 Bryant,
P. G. and Smith, M (1995) Practical Data Analysis: Case Studies in Business Statistics.
Homewood, IL: Richard D. Irwin Publishing
WiSe 21/22 Martin Vogt | Statistik 334
10. Inferenz kategorialer Daten
Frauenanteil der Rechnungszahler*innen: Deskriptive Analyse

Tabelle:

tally( ~ sex, data=tips)

## sex
## Female Male
## 87 157

Balkendiagramm:

bargraph( ~ sex, data = tips, type = "percent")

60

40
percent

20

ale Mal
e
Fem

sex

WiSe 21/22 Martin Vogt | Statistik 335


10. Inferenz kategorialer Daten
Übung 100: Testverfahren Frauenanteil der Rechnungszahler*innen

Welches ist das richtige Testverfahren, um die Forschungsthese zu untersuchen, dass der
Anteil der Rechnungszahlerinnen , d. h. sex=="Female", nicht bei 50 % liegt – in der
Population?
A. Test eines Anteilswertes.
B. Test zweier Anteilswerte.

WiSe 21/22 Martin Vogt | Statistik 336


10.1 Test eines Anteilwerts

WiSe 21/22 Martin Vogt | Statistik 337


10. Inferenz kategorialer Daten
Übung 101: Hypothesen Frauenanteil der Rechnungszahler*innen

Wie lautet das korrekte Hypothesenpaar für die Forschungsfrage, ob der Anteil der
Frauen unter den Rechnungszahlenden nicht bei 50 % liegt?
A. H0 : π = 0.5 vs. H A : π =6 0.5
B. H0 : π 6= 0.5 vs. H A : π = 0.5

WiSe 21/22 Martin Vogt | Statistik 338


10. Inferenz kategorialer Daten
Simulation der Frauenanteils unter H0

Lege die Zufallszahlen fest.


Wiederhole 10000 Mal:
- Wirf 244 faire zweiseitige Münzen.
Speichere das Ergebnis als Datensatz "Nullvtlg"

set.seed(1896) # Zufallszahlengenerator setzen

Nullvtlg <- do(10000) * # 10000 Wiederholungen


rflip(n=nrow(tips)) # n-facher Münzwurf

WiSe 21/22 Martin Vogt | Statistik 339


10. Inferenz kategorialer Daten
Simulierte Stichproben des Frauenanteils
Visualisierung der Verteilung des Frauenanteils wenn das Modell H0 : π = 0.5 stimmt:

histogram( ~ prop, data = Nullvtlg)

10
Density

0.40 0.45 0.50 0.55 0.60

prop

WiSe 21/22 Martin Vogt | Statistik 340


10. Inferenz kategorialer Daten
Ist der beobachtete Wert selten unter der H0?
Beobachteter Frauenanteil π̂ = p:

propdach <- prop( ~ sex, data = tips,


success = "Female")
propdach

## prop_Female
## 0.3565574

Quantile für extreme Werte in der Verteilung unter H0 : π = 0.5:

quantile( ~ prop, data = Nullvtlg,


probs=c(0.025, 0.975))

## 2.5% 97.5%
## 0.4385246 0.5614754

WiSe 21/22 Martin Vogt | Statistik 341


10. Inferenz kategorialer Daten
Übung 102: Interpretation Simulationsergebnis
10

Density
5

0.4 0.5 0.6

prop

Welche der folgenden Aussagen stimmt?


A. Ein Frauenanteil von 0.36 in der Stichprobe ist unter der Annahme, der Anteil in
der Population liegt bei 0.5, ein üblicher Wert.
B. Ein Frauenanteil von 0.36 in der Stichprobe ist unter der Annahme, der Anteil in
der Population liegt bei 0.5, kein üblicher Wert.

WiSe 21/22 Martin Vogt | Statistik 342


10. Inferenz kategorialer Daten
Bootstraping für den Frauenanteil

Lege die Zufallszahlen fest.


Wiederhole 10000 Mal:
- Berechne den Anteil der Frauen,
- Der Datensatz "tips" soll dabei jedes Mal resampelt werden.
Speichere das Ergebnis als Datensatz "Bootvtlg"

set.seed(1896) # Reproduzierbarkeit
Bootvtlg <- do(10000) *
prop( ~ sex, data = resample(tips), success = "Female")

WiSe 21/22 Martin Vogt | Statistik 343


10. Inferenz kategorialer Daten
Bootstrap Verteilung
Visualisierung der Verteilung des Frauenanteils in den Bootstrap-Stichproben:
histogram( ~ prop_Female, data = Bootvtlg)

10
Density

0.25 0.30 0.35 0.40 0.45 0.50

prop_Female

95 % Bootstrap Konfidenzintervall:
quantile( ~ prop_Female, data = Bootvtlg, probs = c(0.025, 0.975))

## 2.5% 97.5%
## 0.2991803 0.4180328
WiSe 21/22 Martin Vogt | Statistik 344
10. Inferenz kategorialer Daten
“Klassischer” Test des Anteilswertes
I Schritt 1: Signifikanzniveau α (hier: 0,05) festlegen.
P
I Schritt 2: Berechne Testfunktionswert in=1 Xi aus der Stichprobe, wobei Xi : Frau
bezahlt die Rechnung

mosaic::count(~sex, data=tips, success="Female")

## n_Female
## 87

I Schritt3 : Lege Verwerfungsbereich mit der Verteilungsfunktion der


Pn
Binomialverteilung fest, da i=1 Xi unter H0 Binomialverteilt mit Parametern n
und π0 , hier 244 und 0,5.

qbinom(c(0.025, 0.975),244, 0.5)

## [1] 107 137

I Da die Teststatistik (87) außerhalb des Verwerfungsbereiches liegt: Verwerfen der


Nullhypothese.
WiSe 21/22 Martin Vogt | Statistik 345
10. Inferenz kategorialer Daten
“Klassischer” Test des Anteilswertes

Berechnung des p-Werts und des Konfidenzintervalls unter Verwendung theoretischer


Verteilungsannahmen:

prop.test( ~ sex, # Variable, die gestestet wird


p = 0.5, # hypothetischer Wert p_0
success = "Female", # Auf was soll getestet werden?
alternative = "two.sided", # Alternativhypothese
data = tips) # Datensatz

WiSe 21/22 Martin Vogt | Statistik 346


10. Inferenz kategorialer Daten
Ergebnis Test des Anteilswertes

##
## 1-sample proportions test with continuity correction
##
## data: tips$sex [with success = Female]
## X-squared = 19.512, df = 1, p-value = 9.995e-06
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.2971654 0.4205463
## sample estimates:
## p
## 0.3565574

WiSe 21/22 Martin Vogt | Statistik 347


10. Inferenz kategorialer Daten
Übung 103: Testergebnis: Stichprobenanteil

Wie hoch ist der Anteil der Frauen unter den Rechnungszahler*innen in der Stichprobe?
A. 19.51%
B. 29.72%
C. 42.05%
D. 35.66%
E. 50.00%

WiSe 21/22 Martin Vogt | Statistik 348


10. Inferenz kategorialer Daten
Übung 104: Testergebnis: Testentscheidung

10

Density
5

0.4 0.5 0.6

prop

Kann bzw. muss die Nullhypothese H0 : π = 0.5 verworfen werden? (α = 0.05)


I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 349


10.2 Test des Unterschieds zweier Anteilswerte

WiSe 21/22 Martin Vogt | Statistik 350


10. Inferenz kategorialer Daten
Permutationstest: Sinnbild

Ziehe k simulierte Stichproben,


berechne jeweils Teststatistik

Geschlecht Größe
Geschlecht Größe
M 194 W 194
M 192
M 192
W 158 M 158 d=33
W 162 W 162
… …
… …

Spalte Geschlecht gemischt Teststatistik

Extreme Stichproben

Stichprobenverteilung

WiSe 21/22 Martin Vogt | Statistik 351


10. Inferenz kategorialer Daten
Permutationstest: Ablauf

1. Definiere H0 und H A (z. B. H0 : µ A = µ B )


2. Mische Variable (Spalte) X in der empirischen Stichprobe und berechne die
Teststatistik (z. B. Anteilsunterschied oder Mittelwertsunterschied (numerisch;
später))
3. Wiederhole 2. oft
4. Erstelle Verteilung der simulierten Stichproben
5. Vergleiche die empirische Teststatistik mit der simulierten Verteilung

WiSe 21/22 Martin Vogt | Statistik 352


10. Inferenz kategorialer Daten
Zusammenhang von Geschlecht und Tageszeit
Hängen Frauenanteil (der Rechungszahler*innen) und Tageszeit (mittags vs. abends)
zusammen?109

prop(sex ~ time, success = "Female", data = tips)

## prop_Female.Dinner prop_Female.Lunch
## 0.2954545 0.5147059

diffdach <- diffprop(sex ~ time, success = "Female", data = tips)


diffdach

## diffprop
## 0.2192513

Anteilsunterschied in der Stichprobe:

π̂Lunch − π̂Dinner = 0.51 − 0.3 = 0.22


109 VideoUsing Randomization to Analyze a Gender Discrimination Study
https://youtu.be/2pHhjx9hyM4
WiSe 21/22 Martin Vogt | Statistik 353
10. Inferenz kategorialer Daten
Permutationstest Geschlecht je Tageszeit

Wiederhole 10000 Mal:


- Berechne den Unterschied im Frauenanteil (mittags vs. abends);
- dabei soll das Merkmal Zeit jeweils permutiert werden.
Speichere das Ergebnis im Datensatz "Nullvtlg".

set.seed(1896) # Reproduzierbarkeit

Nullvtlg <- do(10000) * diffprop(sex ~ shuffle(time),


success = "Female", data = tips)

Berechne die Grenzwerte für seltene Ereignisse:

quantile( ~ diffprop, data = Nullvtlg, probs = c(0.025, 0.975))

## 2.5% 97.5%
## -0.1273396 0.1377005
WiSe 21/22 Martin Vogt | Statistik 354
10. Inferenz kategorialer Daten
Verteilung unter H0

Simulierte Verteilung des Anteilsunterschieds unter der Annahme der Gleichheit (H0 ):

histogram( ~ diffprop, data = Nullvtlg)

4
Density

−0.2 −0.1 0.0 0.1 0.2 0.3

diffprop

Die vertikalen Linien markieren die jeweils 2.5 % extremsten simulierten Stichproben.

WiSe 21/22 Martin Vogt | Statistik 355


10. Inferenz kategorialer Daten
Übung 105: Bestimmung p-Wert

Für welche Hypothese erhalten Sie den p-Wert über:

prop( ~ abs(diffprop) >= abs(diffdach), data = Nullvtlg)

## prop_TRUE
## 0.0014

A. Für H0 : π̂Lunch − π̂Dinner = 0.


B. Für H0 : πLunch − πDinner = 0.

WiSe 21/22 Martin Vogt | Statistik 356


10. Inferenz kategorialer Daten
Offene Übung 106: Geschlecht je Tageszeit

Fassen Sie die vorangegangene Analyse zusammen. Wie lautete die Forschungsfrage,
Hypothesen und die Antwort auf die Forschungsfrage.

WiSe 21/22 Martin Vogt | Statistik 357


10.3 Test des Unterschieds von min. zwei Anteilswerten

WiSe 21/22 Martin Vogt | Statistik 358


10. Inferenz kategorialer Daten
Anzahl der Raucher*innen je Wochentag

Unterscheidet sich die Raucherquote je nach Wochentag? Anders gefragt: Gibt es einen
Zusammenhang der Merkmale smoker und day?

tally(smoker ~ # abhängige Variable


day, # unabhängige Variable
data = tips) # Datensatz

## day
## smoker Fri Sat Sun Thur
## No 4 45 57 45
## Yes 15 42 19 17

WiSe 21/22 Martin Vogt | Statistik 359


10. Inferenz kategorialer Daten
Verteilung Raucher*innen je Wochentag

mosaicplot(smoker ~ day, data = tips)

tips

No Yes
Fri
Sat
day

Sun
Thur

smoker

WiSe 21/22 Martin Vogt | Statistik 360


10. Inferenz kategorialer Daten
Exkurs: Chi-Quadrat-Verteilung
I stetige Wahrscheinlichkeitsverteilung über der Menge der nicht negativen reellen
Zahlen
I Summe von unabhängigen quadrierten standardnormalverteilten Zufallsvariablen.
I Quadrierte Summen treten häufig bei Schätzfunktionen, wie der Stichprobenvarianz
auf.
Vergleich von chi^2 Verteilungen
0.4
0.3
Dichte

0.2
0.1
0.0

0 2 4 6 8 10

x Wert

Vergleich von chi^2 Verteilungen


0.4

WiSe 21/22 Martin Vogt | Statistik 361


10. Inferenz kategorialer Daten
Chi-Quadrat-Unabhängigkeitstest (χ2-Test)

I Hier greifen wir auf klassischen Test zurück: den


Chi-Quadrat-Unabhängigkeitstest.110
I Der χ2 -Unahängigkeitstest testet u. a. den Zusammenhang zweier kategorialer
(nominaler) Variablen.111
I Dabei werden die beobachteten Häufigkeiten O (observerd) der
Merkmalsausprägungskombinationen mit den unter Unabhängigkeit erwarteten
Werten E (expected) verglichen:

Zeilen X
X Spalten (Oij − Eij )2
χ2 =
Eij
i j

I Nullhypothese: Die beiden nominalen Variablen sind unabhängig voneinander, d. h.,


die Verteilung der einen Variable hängt nicht vom Wert der anderen Variable ab.
Große Werte von χ2 sind unter H0 unwahrscheinlich.112
110 EineSimulation ist aber analog möglich.
111 Esgibt weitere Varianten des χ2 -Tests.
112 Song https://www.causeweb.org: Larry Lesser © Chi-Square For Us

WiSe 21/22 Martin Vogt | Statistik 362


10. Inferenz kategorialer Daten
Übung 107: χ2-Teststatistik

Eine Forscherin stellt innerhalb einer Untersuchung eine Abweichung zwischen


beobachtet O und erwartet E von 42 fest.
Welche Aussage stimmt?
A. Die Abweichung ist groß.
B. Die Abweichung ist klein.
C. Weiß nicht.

WiSe 21/22 Martin Vogt | Statistik 363


10. Inferenz kategorialer Daten
Chi-Quadrat-Test

xchisq.test(smoker ~ day, data = tips)

##
## Pearson’s Chi-squared test
##
## data: x
## X-squared = 25.787, df = 3, p-value = 1.057e-05
##
## 4 45 57 45
## (11.76) (53.84) (47.03) (38.37)
## [5.12] [1.45] [2.11] [1.15]
## <-2.26> <-1.20> < 1.45> < 1.07>
##
## 15 42 19 17
## ( 7.24) (33.16) (28.97) (23.63)
## [8.31] [2.36] [3.43] [1.86]
## < 2.88> < 1.54> <-1.85> <-1.36>
##
## key:
## observed
## (expected)
## [contribution to X-squared]
## <Pearson residual>

WiSe 21/22 Martin Vogt | Statistik 364


10. Inferenz kategorialer Daten
Übung 108: Testergebnis: Testentscheidung

Bestätigen die Daten die Nullhypothese?


I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 365


10.4 Zusammenfassung

WiSe 21/22 Martin Vogt | Statistik 366


10. Inferenz kategorialer Daten
Überblick zu den Simulationstechniken für kategoriale Variablen

I Einfache Simulation zur Überprüfung eines Anteils


I Beispiel: Wie hoch ist der Frauenanteil (in der Population)?
I Vorgehen: Simuliere wiederholt Münzwurf (H0 ) und gucke wie wahrscheinlich der
beobachtete Frauenanteil ist.
I Permutationstest zur Überprüfung eines Unterschieds zweier Verteilungen.
I Beispiel: Unterscheidet sich der Frauenanteil (in der Population) mittags von der
abends?
I Vorgehen: Simuliere wiederholt zufällige Zuordnung und gucke wie wahrscheinlich
die beobachtete Differenz der Frauenanteile ist.
I Bootstrap zur Berechnung eines Konfidenzintervalls für einen Anteil oder einen
Anteilsunterschied.
I Beispiel: Was sind plausible Werte für den Frauenanteil bzw. die Differenz in der
Population?
I Vorgehen: Simuliere wiederholt zufällige Stichprobe durch Ziehen mit Zurücklegen
und berechne jeweils Anteil oder Anteilsunterschied.

WiSe 21/22 Martin Vogt | Statistik 367


10. Inferenz kategorialer Daten
Alternativen zur simulationsbasierten Inferenz

I Eine Alternative zu den Methoden der simulationsbasierten Inferenz dieses Kapitels


ist jeweils binom.test() bzw. prop.test(), die auf theoretischen bzw.
asymptotisch approximativen Verteilunsanahmen aufbaut.
I Der χ2 -Test (xchisq.test()) testet u. a. den Zusammenhang zweier nominaler
Variablen auch mit mehr als jeweils zwei Ausprägungen; er basiert auf theoretischen
bzw. asymptotisch approximativen Verteilungsannahmen. Darüberhinaus gibt es als
nicht-parametrische Alternative den Fisher-Test (fisher.test()).

WiSe 21/22 Martin Vogt | Statistik 368


10. Inferenz kategorialer Daten
Offene Übung 109: Nudelproduktion

Ein Teigwarenhersteller bringt Packungen auf den Markt, in denen sich laut Aufdruck
jeweils 500 Gramm Nudeln befinden sollten. Aus der gesamten Produktionsserie solcher
Packungen wurden eine einfache Stichprobe vom Umfang 8 gezogen.

Nudeln = c(484, 486, 472, 519, 497, 487, 495, 480)


Nudeln

## [1] 484 486 472 519 497 487 495 480

Es soll geklärt werden, ob die Hypothese, der Anteil p der Packungen in der
Produktionsserie mit mehr als 500 Gramm Inhalt sei größer als 0,5, statistisch bestätigt
werden kann.

WiSe 21/22 Martin Vogt | Statistik 369


10. Inferenz kategorialer Daten
Offene Übung 110: Neugeborene

Unter 3000 Neugeborenen wurden 1428 Mädchen gezählt. Bestimmen Sie das 95 % und
97.5 % Konfidenzintervall für die Wahrscheinlichkeit einer Mädchengeburt.

WiSe 21/22 Martin Vogt | Statistik 370


10. Inferenz kategorialer Daten
Offene Übung 111: Powernap

Anlässlich einer Studie zum Thema “Powernap” soll überprüft werden, ob nach einem
Powernap eher nach etwas Süssem oder etwas Salzigem gegriffen wird. Daher werden im
Rahmen der Studie 41 Probanden nach einem 30-minütigen Powernap gebeten, sich
zwischen einem salzigen und einem süssen Snack zu entscheiden. 28 Probanden haben
sich für einen süßen und 13 Probanden für einen salzigen Snack entschieden. Werden
beide Snacks gleich häufig verwendet, oder gibt es einen signifikanten Unterschied?

WiSe 21/22 Martin Vogt | Statistik 371


10. Inferenz kategorialer Daten
Offene Übung 112: Wahlen

Bei den letzten Wahlen entschieden sich 48 % der wahlberechtigen Bevölkerung einer
Stadt mit mehr als 100000 Einwphnern für den Kandidaten A als Bürgermeister. In einer
aktuellen Umfrage unter 3000 zufällig bestimmten Wählern entschieden sich 1380 wieder
für diesen Kandidaten. Kann aus diesem Ergebnis mit einer Irrtumswahrscheinlichkeit
von 5 % auf eine Veränderung des Wähleranteils des Kandidaten A geschlossen werden?

WiSe 21/22 Martin Vogt | Statistik 372


10. Inferenz kategorialer Daten
Offene Übung 113: (Klassischer) Binomialtest

Was ist der Binomialtest? Suchen Sie im Internet nach Quellen und führen Sie einen
Test mit R am folgenden Beispiel durch: Mögen Studierende Marketing und Statistik
gleich gerne? Eine zufällige Auswahl von 20 Studierenden ergab, dass 13 lieber
Marketung und 7 lieber Statistik mögen.

WiSe 21/22 Martin Vogt | Statistik 373


10. Inferenz kategorialer Daten
Offene Übung 114: Blutdruck

Reduziert Kalcium den Blutdruck bei Männern? In einem Doppelblindversuch wurde 10


Männern ein Kalziumprodukt gegeben, während 11 andere ein Placebo erhielten. Für
jede Person wurde gemessen, ob der Blutdruck gesunken ist. Bei 6 Personen führte die
Kalziumzugabe zu einer Senkung des Blutdrucks und bei 4 Personen die das Placebo
erhielten. Führen Sie einen Permutationstest durch.

WiSe 21/22 Martin Vogt | Statistik 374


10. Inferenz kategorialer Daten
Offene Übung 115: Mahlzeit und Rauchen

Untersuchen Sie den Zusammenhang zwischen der Mahlzeit (Tageszeit) und Rauchen
am Tisch.

WiSe 21/22 Martin Vogt | Statistik 375


10. Inferenz kategorialer Daten
Offene Übung 117: Kaffee oder Latte Macchiato

Sie haben insgesamt 100 Menschen über und unter 50 Jahren befragt, ob Sie lieber
Filterkaffee (F) oder Latte Macchiato (LM) mögen.

Filterkaffee Latte Macchiato


<50 Jahre 50 20
>50 Jahre 10 20

Gibt es altersspezifische Vorlieben? Bestimmen Sie den Kontingenzkoeffizienten.

WiSe 21/22 Martin Vogt | Statistik 376


11 Inferenz numerischer Daten

WiSe 21/22 Martin Vogt | Statistik 377


11. Inferenz numerischer Daten
Inferenz

Idee: Schluss von einer (zufälligen / randomisierten) Stichprobe auf eine Population:
I Punktschätzung
I Konfidenzintervall
I Hypothesentest

Ziel: Aussagen treffen, die über die Stichprobe hinausgehen – und dabei berücksichtigen,
dass Variation allgegenwärtig ist und Schlussfolgerungen unsicher.113

113 Vgl. Moore, D. (2007) The Basic Practice of Statistics, 4th edn. New York: Freeman, S. xxviii.
WiSe 21/22 Martin Vogt | Statistik 378
11. Inferenz numerischer Daten
Übung 118: Gültigkeit Inferenz

Wann ist aufgrund einer quantitativen Datenanalyse eine Kausalaussage gerechtfertigt?


A. Nie.
B. Bei einer zufälligen Stichprobe.
C. Bei einer randomisierten Zuordnung innerhalb eines Experimentes.
D. Bei einem hohen Stichprobenumfang n.
E. Immer.

WiSe 21/22 Martin Vogt | Statistik 379


11. Inferenz numerischer Daten
Testverfahren für numerische Daten
In diesem Kapitel werden simulationsbasierte Methoden für folgende Situationen
vorgestellt. Die Verteilung hängt vom Mittelwert µ ab, d. h. Gleicheit bzw. Ungleichheit
kann z. B. über µ analysiert werden.
I Test eines Mittelwerts: Testet den Mittelwert eines Merkmals einer Stichprobe
gegen eine hypothetisch richtigen Mittelwert der Population.
I ungerichtet, zweiseitig: H0 : µ = µ0 , vs. H A : µ 6= µ0
I gerichtet, einseitig:
I H0 : µ > µ0 , vs. H A : µ < µ0
I H0 : µ 6 µ0 , vs. H A : µ > µ0
I Vergleich zweier Mittelwerte unabhängiger Stichproben: Testet die
Mittelwerte eines Merkmals zweier Stichproben A, B in der Population114 .
I ungerichtet, zweiseitig: H0 : µ A = µ B ⇔ µ A − µ B = 0,
vs. H A : µ A 6= µ B ⇔ µ A − µ B 6= 0
I gerichtet, einseitig:
I H0 : µ A 6 µ B ⇔ µ A − µ B 6 0, vs. H A : µ A > µ B ⇔ µ A − µ B > 0
I H0 : µ A > µ B ⇔ µ A − µ B > 0, vs. H A : µ A < µ B ⇔ µ A − µ B < 0

Dabei kann jeweils auch das Konfidenzintervall bestimmt werden.


114 auch δ0 6= 0 möglich
WiSe 21/22 Martin Vogt | Statistik 380
11. Inferenz numerischer Daten
Verteilungsbasierte Tests

Für folgende zusätzliche Fragestellungen werden verteilungsbasierte Verfahren (kurz)


erläutert:
I Gepaarter Test / t-Test für abhängige Stichproben: Testet die Differenz der
Mittelwerte zweier Merkmale (x1 , x2 ) einer Stichprobe mit einer hypothetisch
richtigen Differenz in der Population115 .
I ungerichtet, zweiseitig: H0 : µ x1 −x2 = δ0 , vs. H A : µ x1 −x2 6= δ0
I gerichtet, einseitig:
I H0 : µ x1 −x2 6 δ0 , vs. H A : µ x1 −x2 > δ0
I H0 : µ x1 −x2 > δ0 , vs. H A : µ x1 −x2 < δ0
I Varianzanalyse / Anova: Testet die Gleichheit der Mittelwerte zweier oder mehr
Stichproben (Merkmale) in der Population: H0 : µ1 = µ2 = . . . = µK vs. H A :
mindestens ein Mittelwert unterscheidet sich (µi 6= µ j ).

115 häufig: δ0 = 0
WiSe 21/22 Martin Vogt | Statistik 381
11. Inferenz numerischer Daten
Beispiele zur Inferenz numerischer Werte

I Analyse des mittleren Workloads der Studierenden – ggf. je nach Geschlecht oder
Studiengang
I Untersuchung des Humors116 der Mitarbeiter*innen, ggf. je Geschlecht oder
Abteilung
I Vergleich der Kaufkraft der Kund*innen mit oder ohne Kundenkarte
I Analyse der Rendite von Investitionsalternativen
I Vergleich der Mitarbeiter-Zufriedenheit zwischen Abteilungen

Wo können Sie die Verfahren einsetzen?

116 latente Variable, daher Operationalisierung erforderlich


WiSe 21/22 Martin Vogt | Statistik 382
11.1 Test eines Mittelwerts

WiSe 21/22 Martin Vogt | Statistik 383


11. Inferenz numerischer Daten
Vorbereitungen

Einlesen der Tipping117 Daten sowie Laden des Pakets mosaic:

download.file("https://goo.gl/whKjnl", destfile = "tips.csv")


tips <- read.csv2("tips.csv")
# Alternativ - heruntergeladene Datei einlesen:
# tips <- read.csv2(file.choose())

library(mosaic) # Paket laden

117 Bryant,
P. G. and Smith, M (1995) Practical Data Analysis: Case Studies in Business Statistics.
Homewood, IL: Richard D. Irwin Publishing
WiSe 21/22 Martin Vogt | Statistik 384
11. Inferenz numerischer Daten
Übung 119: Statistik Rechnungshöhe

Durch welche Statistik kann die zentrale Tendenz der Variable Rechnungshöhe sinnvoll
beschieben werden?
A. Anteil.
B. Arithmetischer Mittelwert.

WiSe 21/22 Martin Vogt | Statistik 385


11. Inferenz numerischer Daten
Übung 120: Visualisierung Rechnungshöhe

Durch welche Grafik kann die Verteilung der Variable Rechnungshöhe nicht sinnvoll
dargestellt werden?
A. Balkendiagramm.
B. Histogramm.
C. Boxplot.

WiSe 21/22 Martin Vogt | Statistik 386


11. Inferenz numerischer Daten
Deskriptive Analyse Rechnungshöhe

histogram( ~ total_bill, data = tips)

0.05

0.04

Density 0.03

0.02

0.01

0.00

10 20 30 40 50

total_bill

favstats( ~ total_bill, data = tips)

## min Q1 median Q3 max mean sd n missing


## 3.07 13.3475 17.795 24.1275 50.81 19.78594 8.902412 244 0

WiSe 21/22 Martin Vogt | Statistik 387


11. Inferenz numerischer Daten
Übung 121: Verteilung Rechnungshöhe

0.05

0.04

0.03

Density
0.02

0.01

0.00

10 20 30 40 50

total_bill

Welche der folgenden Aussagen stimmt?


A. Die Rechnungshöhe ist gleichverteilt.
B. Die Rechnungshöhe ist multimodal.
C. Die Rechnungshöhe ist normalverteilt.
D. Die Rechnungshöhe ist linksschief.
E. Die Rechnungshöhe ist rechtsschief.

WiSe 21/22 Martin Vogt | Statistik 388


11. Inferenz numerischer Daten
Beträgt die mittlere Rechnungshöhe signifikant mehr als 15$?

H0 : Die mittlere Rechnungshöhe (total_bill) beträgt nicht mehr als 15 $; µ 6 15.


H A : Die mittlere Rechnungshöhe ist größer als 15 $; µ > 15.
Annahme: Das Merkmal Rechnungshöhe ist normalverteilt mit µ = 15 und
σ = sd = 8.9118 . Das Signifikanzniveau betrage α = 5%.

Lege die Zufallszahlen fest.


Wiederhole 10000 Mal:
- Berechne den Mittelwert von n=244 normalverteilten
Zufallsvariablen mit Mittelwert 15 und
Standardabweichung 8.90
Speichere das Ergebnis im Datasatz"Nullvtlg".

set.seed(1896)
Nullvtlg <- do(10000) * mean(rnorm(mean = 15,
sd = 8.90,
n =244))
118 Hier nicht erfüllt, siehe oben.
WiSe 21/22 Martin Vogt | Statistik 389
11. Inferenz numerischer Daten
p-Wert zur Überprüfung der mittleren Rechnungshöhe

histogram(~mean, Nullvtlg)

0.6

0.4

Density
0.2

0.0

13 14 15 16 17

mean

Anteil der Simulationen unter H0 : µ = 15 mit einem mindestens so großem Mittelwert


wie in der Stichprobe (µ̂ = x̄ = 19.79):

prop(~ mean >= mosaic::mean(~total_bill, data = tips), data = Nullvtlg)

## prop_TRUE
## 0

Die H0 muss verworfen werden. Das beobachtete Stichprobenerereignis ist selten


(p < 0.0001) in den simulierten Verteilungen im Modell H0 .
WiSe 21/22 Martin Vogt | Statistik 390
11. Inferenz numerischer Daten
Verteilungsbasierte Alternative: t-Test

x̄−µ x̄−µ0
I Einstichproben-t-Test: eine Stichprobe, ein Merkmal: t = q 0
sd2
= se .
n
I t-Test für abhängige Stichproben, gepaarter t-Test: eine Stichprobe, zwei
Merkmale, es wird die Differenz je Beobachtung analysiert.
I t-Test für unabhängige Stichproben: zwei Stichproben, ein Merkmal.
I Idee119 : Setze Differenz der Mittelwerte ins Verhältnis zur Streuung der Schätzung
(Standardfehler, se):
( x̄ − x̄ B )
t= rA
sd2A sd2B
nA + nB

Große Werte von |t|120 sind unter der Nullhypothese unwahrscheinlich.


I Voraussetzung: Daten innerhalb der Stichprobe(n) unabhängig, identisch,
normalverteilt.121

119 hierim Fall für zwei unabhängige Stichproben, analog für die anderen Fälle
120 imzweiseitigen Fall
121 Überprüfung z. B. über Q-Q-Plot (xqqmath()).

WiSe 21/22 Martin Vogt | Statistik 391


11. Inferenz numerischer Daten
Exkurs: t-Verteilung

I Sind X und Y unabhängige Zufallsvariablen, wobei X ∼ N (0, 1) und Y ∼ χ2n verteilt


sind, so besitzt der Quotient
X
p ∼ tn
Y /n
eine t-Verteilung mit n Freiheitsgraden.

Vergleich von t Verteilungen


0.40

Verteilungen
df=1
0.35

df=5
df=10
df=30
normal
0.30
0.25
Dichte

0.20
0.15
0.10
0.05

−2 −1 0 1 2

x Wert

WiSe 21/22 Martin Vogt | Statistik 392


11. Inferenz numerischer Daten
Einstichproben-t-Test

t.test( ~ total_bill, # Variable, die analysiert wird


mu = 15, # Wert für mu0
alternative = "greater", # ein- oder zweiseitiger Test
data = tips) # Datensatz

##
## One Sample t-test
##
## data: total_bill
## t = 8.3976, df = 243, p-value = 1.909e-15
## alternative hypothesis: true mean is greater than 15
## 95 percent confidence interval:
## 18.84492 Inf
## sample estimates:
## mean of x
## 19.78594

WiSe 21/22 Martin Vogt | Statistik 393


11. Inferenz numerischer Daten
Übung 122: Testergebnis Rechnungshöhe

Wird die Nullhypothese H0 : µ 6 15 gegen H A : µ > 15 zum Signifikanzniveau α = 5 %


verworfen?
I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 394


11. Inferenz numerischer Daten
Übung 123: Fehlerart t-Test

Angenommen, in Wirklichkeit gilt µ 6 15. Welcher Fehler wurde begangen?


A. Fehler 1. Art, α-Fehler.
B. Fehler 2. Art, β-Fehler.

WiSe 21/22 Martin Vogt | Statistik 395


11. Inferenz numerischer Daten
Übung 124: p-Wert

Was würde passieren, wenn die vorher festgelegte Hypothese122 nicht H0 : µ 6 15 gegen
H A : µ > 15 sondern H0 : µ 6 19.5 gegen H A : µ > 19.5 lauten würde?
A. Der p-Wert wird kleiner.
B. Der p-Wert wird größer.
C. Der p-Wert ändert sich nicht.

122 Hypothesen dürfen nicht nach der Analyse angepasst werden!


WiSe 21/22 Martin Vogt | Statistik 396
11. Inferenz numerischer Daten
Übung 125: t-Test

Bei einem gerichteten Einstichproben t-Test für

H0 : µ 6 42 vs. H A : µ > 42

komme als Schätzwert der Stichprobe µ̂ = x̄ = 40 raus.


Wird der t-Test die Nullhypothese verwerfen?
A. Ja.
B. Nein.
C. Vielleicht. Hängt von se = sd
√ ab.
n

WiSe 21/22 Martin Vogt | Statistik 397


11. Inferenz numerischer Daten
Wiederholung: Ablauf des Bootstrapping

Vorraussetzungen:
I Zufällige Stichprobe oder zufällige Zuordnung.
I Nicht zu kleine Stichprobe.123

Beispiel: Bootstrap-Perzentil-Intervall124 für eine Stichprobe:


I Wiederhole z. B. 10000×
I Ziehe mit Zurücklegen eine Stichprobe vom Umfang n aus der Originalstichprobe.
I Berechne Statistik, z. B. Mittelwert x̄ der Bootstrap-Stichprobe. Analog für andere
Statistiken, z. B. Anteil.
I Zeichne Histogramm der Bootstrap-Verteilung der Statistik.
I Das 95 %-Bootstrap-Perzentil-Intervall sind die mittleren 95 % der
Bootstrap-Verteilung.

123 n > 35
124 Es gibt weitere, teilweise exaktere Bootstrap-Methoden.
WiSe 21/22 Martin Vogt | Statistik 398
11. Inferenz numerischer Daten
Bootstrap Verteilung mittlere Rechnungshöhe

set.seed(1896) # Reproduzierbarkeit

# 10000 Bootstrap Stichproben, Mittelwert berechnen


Bootvtlg <- do(10000) *
mosaic::mean( ~ total_bill, data = resample(tips))

histogram( ~ mean, data = Bootvtlg)

0.6

0.4
Density

0.2

0.0

18 19 20 21 22

mean

WiSe 21/22 Martin Vogt | Statistik 399


11. Inferenz numerischer Daten
Übung 126: Verteilung mittlere Rechnungshöhe

0.6

0.4

Density
0.2

0.0

18 19 20 21 22

mean

Welche der folgenden Aussagen stimmt?


A. Der Mittelwert der Rechnungshöhe ist gleichverteilt.
B. Der Mittelwert der Rechnungshöhe ist multimodal.
C. Der Mittelwert der Rechnungshöhe ist normalverteilt.
D. Der Mittelwert der Rechnungshöhe ist linksschief.
E. Der Mittelwert der Rechnungshöhe ist rechtsschief.

WiSe 21/22 Martin Vogt | Statistik 400


11. Inferenz numerischer Daten
Übung 127: Konfidenzintervall

0.6

0.4

Density
0.2

0.0

18 19 20 21 22

mean

quantile( ~ mean, probs = c(0.025, 0.975), data = Bootvtlg)

## 2.5% 97.5%
## 18.70401 20.92869

Stimmt die Aussage: Mit 95 % Sicherheit überdeckt der Bereich 18.7 $ bis 20.93 $ eine
zufällig ausgewählte Beobachtung?
I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 401


11.2 Test des Unterschieds zweier Mittelwerte

WiSe 21/22 Martin Vogt | Statistik 402


11. Inferenz numerischer Daten
Boxplot Rechnungshöhe Raucher / Nichtraucher
Analyse des Unterschieds der Rechnungshöhe zwischen Rauchern und Nichtrauchern:

bwplot(total_bill ~ smoker, data = tips)

50

40

30
total_bill

20

10

No Yes

WiSe 21/22 Martin Vogt | Statistik 403


11. Inferenz numerischer Daten
Differenz mittlere Rechnungshöhe Raucher / Nichtraucher

In der Stichprobe wurden folgende (Mittel-)Werte beobachtet:

# Mittelwert Stichprobe
mosaic::mean(total_bill ~ smoker, data = tips)

## No Yes
## 19.18828 20.75634

# Differenz Mittelwert Stichprobe


diffmean(total_bill ~ smoker, data = tips)

## diffmean
## 1.568066

WiSe 21/22 Martin Vogt | Statistik 404


11. Inferenz numerischer Daten
Übung 128: Differenz mittlere Rechnungshöhe Raucher / Nichtraucher

Welche Aussage stimmt – für die Stichprobe?


A. x̄Smoker Yes − x̄Smoker No = 0
B. x̄Smoker Yes − x̄Smoker No 6= 0

WiSe 21/22 Martin Vogt | Statistik 405


11. Inferenz numerischer Daten
Konfidenzintervall
Berechne das 95%-Konfidenzintervall zur Differenz der mittleren Rechnungshöhe von
Raucher vs Nichtraucher:
set.seed(1896) # Reproduzierbarkeit
Bootvtlg <- do(10000) *
diffmean(total_bill ~ smoker, data = resample(tips))
histogram( ~ diffmean, data = Bootvtlg)

0.3

0.2
Density

0.1

0.0

−4 −2 0 2 4 6 8

diffmean

quantile( ~ diffmean, data = Bootvtlg, probs = c(0.025, 0.975))

## 2.5% 97.5%
## -0.7991132
WiSe 21/22 3.9476430 Martin Vogt | Statistik 406
11. Inferenz numerischer Daten
Übung 129: Testverfahren Differenz mittlere Rechnungshöhe Raucher / Nichtraucher

Welches ist das Testverfahren, um zu testen, ob die mittlere Rechnungshöhe in der


Population bei Rauchern und Nichtrauchern gleich ist, d. h., die Forschungsthese lautet:
Es gibt einen Unterschied im Mittelwert der Population?
A. Mittelwertsvergleich, ungerichtet.
B. Mittelwertsvergleich, gerichtet.

WiSe 21/22 Martin Vogt | Statistik 407


11. Inferenz numerischer Daten
Übung 130: Hypothese Differenz mittlere Rechnungshöhe Raucher / Nichtraucher

Wie lautet das richtige Hypothesenpaar?


A. H0 : µSmoker Yes 6= µSmoker No vs. H A : µSmoker Yes = µSmoker No
B. H0 : µSmoker Yes = µSmoker No vs. H A : µSmoker Yes 6= µSmoker No
C. H0 : x̄Smoker Yes 6= x̄Smoker No vs. H A : x̄Smoker Yes = x̄Smoker No
D. H0 : x̄Smoker Yes = x̄Smoker No vs. H A : x̄Smoker Yes 6= x̄Smoker No
E. H0 : πSmoker Yes 6= πSmoker No vs. H A : πSmoker Yes = πSmoker No

WiSe 21/22 Martin Vogt | Statistik 408


11. Inferenz numerischer Daten
Wiederholung Ablauf: Permutations- und Randomisationstest

Vorraussetzung: Zufällige Stichprobe (Permutation) oder zufällige Zuordnung


(Randomisation).
Beispiel: Zwei-Stichproben-Fall:
I Wiederhole z. B. 10000×
I Mische die n A + n B Beobachtungen.
I Ordne zufällig n A Beobachtungen der ersten Stichprobe zu, die restlichen der
zweiten.
I Berechne die Differenz der Mittelwerte x̄ A − x̄ B . Analog für andere Teststatistiken,
z. B. Anteil.
I Zeichne Histogramm der Verteilung der Teststatistik des Modells unter
H0 : µ A − µ B = 0. Vergleiche mit dem beobachteten Wert der Teststatistik (der
Stichprobe).
I Der p-Wert ist der Anteil der zufälligen Teststatistiken, die mindestens so groß sind
wie der beobachtete Wert.125

125 Bei ungerichteten, zweiseitigen Tests im Absolutbetrag.


WiSe 21/22 Martin Vogt | Statistik 409
11. Inferenz numerischer Daten
Permutationstest Differenz mittlere Rechnungshöhe Raucher / Nichtraucher

set.seed(1896) # Reproduzierbarkeit
Nullvtlg <- do(10000) *
diffmean(total_bill ~ shuffle(smoker), data = tips)

histogram( ~ diffmean, data = Nullvtlg)

0.3

0.2
Density

0.1

0.0

−4 −2 0 2 4

diffmean

WiSe 21/22 Martin Vogt | Statistik 410


11. Inferenz numerischer Daten
p-Wert für den Permutationstest

# Absolute Abweichung Stichprobe


dm <- abs(diffmean(total_bill ~ smoker, data = tips))

# Anteil Abweichungen unter H_0 größer als in Stichprobe


prop( ~ abs(diffmean) >= dm, data = Nullvtlg)

## prop_TRUE
## 0.1865

Die H0 kann nicht verworfen werden, da p-Wert > 5%.

WiSe 21/22 Martin Vogt | Statistik 411


11. Inferenz numerischer Daten
t-Test Rechnungshöhe Raucher / Nichtraucher
Alternativ kann der t-Test eingesetzt werden:

t.test(total_bill ~ # Abhängige Variable


smoker, # Unabhängige Variable
data = tips) # Datensatz

##
## Welch Two Sample t-test
##
## data: total_bill by smoker
## t = -1.2843, df = 169.63, p-value = 0.2008
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -3.9783704 0.8422385
## sample estimates:
## mean in group No mean in group Yes
## 19.18828 20.75634

WiSe 21/22 Martin Vogt | Statistik 412


11. Inferenz numerischer Daten
Übung 131: Testentscheidung Rechnungshöhe Raucher / Nichtraucher
0.3

0.2

Density
0.1

0.0

−4 −2 0 2 4

diffmean

Sind die Daten unter der Nullhypothese H0 : µSmoker Yes = µSmoker No (sehr)
unwahrscheinlich?
I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 413


11.3 Zum Einfluss der Stichprobengröße auf den p-Wert

WiSe 21/22 Martin Vogt | Statistik 414


11. Inferenz numerischer Daten
Stichprobengröße n = 100

set.seed(1896) # Reproduzierbarkeit
t.test(total_bill ~ smoker,
data = sample(tips, size = 100))

##
## Welch Two Sample t-test
##
## data: total_bill by smoker
## t = 0.26883, df = 71.558, p-value = 0.7888
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -3.437518 4.509063
## sample estimates:
## mean in group No mean in group Yes
## 20.24919 19.71342

WiSe 21/22 Martin Vogt | Statistik 415


11. Inferenz numerischer Daten
Stichprobengröße n = 200

set.seed(1896) # Reproduzierbarkeit
t.test(total_bill ~ smoker,
data = sample(tips, size = 200))

##
## Welch Two Sample t-test
##
## data: total_bill by smoker
## t = -0.47295, df = 127.15, p-value = 0.6371
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -3.368647 2.068999
## sample estimates:
## mean in group No mean in group Yes
## 19.33061 19.98043

WiSe 21/22 Martin Vogt | Statistik 416


11. Inferenz numerischer Daten
Übung 132: Stichprobengröße

Welche Auswirkungen hat, unter sonst gleichen Umständen, ein größerer


Stichprobenumfang n?
A. Das Konfidenzintervall wird schmaler.
B. Das Konfidenzintervall wird breiter.

WiSe 21/22 Martin Vogt | Statistik 417


11. Inferenz numerischer Daten
Cartoon: Stichprobenumfang

“Da Joe der einzige war, der vorab eine Power-Analyse durchgeführt hatte, hatte er als
einziger die nötige Größe, um den gewünschten Effekt zu erzielen.”126
126 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift G. Snow
WiSe 21/22 Martin Vogt | Statistik 418
11.4 Effektgröße

WiSe 21/22 Martin Vogt | Statistik 419


11. Inferenz numerischer Daten
Effektgröße: Vorbereitung
Der p-Wert gibt (nur) die Wahrscheinlichkeit der Teststatistik unter der Nullhypothese
an. Er sagt nicht, wie groß / relevant ein Unterschied ist. Mit größerem
Stichprobenumfang n sinkt der p-Wert.
Cohens d127 ist ein Maß für die Überlappung:
x̄ A − x̄ B
d=
sdpool
mit s
1  
sdpool = (n A − 1) · sd2A + (n B − 1) · sd2B
n A + nB − 2

# Einmalige Installation
install.packages("lsr")

# Paket laden
library(lsr)
127 Anwendbarfür den Vergleich zweier Mittelwerte. Es gibt auch weitere Effektgrößen. Siehe z. B.
Paket compute.es.
WiSe 21/22 Martin Vogt | Statistik 420
11. Inferenz numerischer Daten
Effektgröße Rauchen

Daumenregel:
I |d| > 0.2 kleiner Effekt.
I |d| > 0.5 mittlerer Effekt.
I |d| > 0.8 großer Effekt.

cohensD(total_bill ~ smoker, data=tips)

## [1] 0.176426

WiSe 21/22 Martin Vogt | Statistik 421


11. Inferenz numerischer Daten
Beispiel Effektgrößen

−4 −2 0 2 4

d=0.8 d=1.1

0.4

0.3

0.2

0.1

0.0
Density

d=0.2 d=0.5

0.4

0.3

0.2

0.1

0.0

−4 −2 0 2 4

WiSe 21/22 Martin Vogt | Statistik 422


11. Inferenz numerischer Daten
Unter H0 (d. h. d = 0) sind p-Werte gleichverteilt

300

200

pvalue < 0.05


count

FALSE
TRUE

100

0.00 0.25 0.50 0.75 1.00


pvalue

WiSe 21/22 Martin Vogt | Statistik 423


11. Inferenz numerischer Daten
Power-Analyse: Simulation d, n und p-Wert

d=0.2 d=0.5 d=0.8

10000

7500

n=100
5000

2500

pvalue < 0.05


0
count

FALSE
10000 TRUE

7500

n=30
5000

2500

0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00
pvalue

WiSe 21/22 Martin Vogt | Statistik 424


11. Inferenz numerischer Daten
Übung 133: Effektgröße und Power

Welche Aussage stimmt?


A. Die Wahrscheinlichkeit einen Fehler 2. Art zu begehen, sinkt mit der Effektgröße.
B. Die Wahrscheinlichkeit einen Fehler 2. Art zu begehen, steigt mit der Effektgröße.
C. Effektgröße und Wahrscheinlichkeit Fehler 2. Art stehen in keinem Zusammenhang.

WiSe 21/22 Martin Vogt | Statistik 425


.5 Test des Unterschieds der Mittelw. von gepaarten Stichpr.

WiSe 21/22 Martin Vogt | Statistik 426


11. Inferenz numerischer Daten
Gepaarter t-Test
Zeigen die Daten, dass die mittlere relative Trinkgeldhöhe signifikant über 10 % liegt?
Betrachte dazu je Beobachtung die Differenz xd = xtip − 0.1 · xtotal_bill :
Differenz bilden:

tips <- tips %>%


mutate(t_diff = tip - 0.1*total_bill)

t-Test der Differenz durchführen:

t.test( ~ t_diff, data=tips, alternative="greater")

##
## One Sample t-test
##
## data: t_diff
## t = 15.602, df = 243, p-value < 2.2e-16
## alternative hypothesis: true mean is greater than 0
## 95 percent confidence interval:
## 0.9117688 Inf
## sample estimates:
## mean of x
## 1.019684

WiSe 21/22 Martin Vogt | Statistik 427


11. Inferenz numerischer Daten
Übung 134: Gepaarter t-Test

Was sagt der p-value < 2.2e-16 aus?


A. Die Wahrscheinlichkeit, dass die Nullhypothese stimmt, ist kleiner als 2.2 · 10−16 .
B. Die Wahrscheinlichkeit, dass die Alternativhypothese stimmt, ist kleiner als
2.2 · 10−16 .
C. Weder A noch B.

WiSe 21/22 Martin Vogt | Statistik 428


11.6 Test des Unterschieds von zwei oder mehr Mittelw.

WiSe 21/22 Martin Vogt | Statistik 429


11. Inferenz numerischer Daten
Zusammenhang Trinkgeld und Wochentag

Anayse der Rechnungshöhe je Wochentag:

xyplot(tip ~ day, data = tips)

10

6
tip

Fri Sat Sun Thur

day

WiSe 21/22 Martin Vogt | Statistik 430


11. Inferenz numerischer Daten
Varianzanalyse (ANOVA)

I Vergleich des Lagemaßes µi bei zwei oder mehr Stichproben. Ein- oder
mehrfaktoriell möglich, bei mehr als einem Einfluss auch Wechselwirkungen.
I Nullhypothese: Lagemaß µi für alle Gruppen gleich.
I Die Gesamtstreuung (SST) wird zerlegt in die Streuung zwischen den
Stichproben/Gruppen (SSG) und die Streuung innerhalb der
Stichproben/Gruppen (SSE):
n
X
n X
K X
K Xj
2 2
( xi − x̄) = n j (x̄ j − x̄) + ( xi,j − x̄ j )2
|i=i {z } |
j=1
{z }
j=1 i=1
| {z }
SST SSG SSE

I Ist das Verhältnis der Streuung zwischen den Gruppen im Verhältnis zur Streuung
innerhalb der Gruppen groß (Teststatistik F), so ist dies unter der Nullhypothese
unwahrscheinlich.
I Voraussetzung: Daten innerhalb der Stichproben / Gruppen unabhängig, identisch,
normalverteilt.

WiSe 21/22 Martin Vogt | Statistik 431


11. Inferenz numerischer Daten
Beispiele F128

A B C

F=6 (a) F=6 (b)


10

−5

−10

F=1 F=60
10

−5

−10

A B C

Gruppe

128 Video https://www.causeweb.org: Crawford S © Use ANOVA


WiSe 21/22 Martin Vogt | Statistik 432
11. Inferenz numerischer Daten
Varianzanalyse in R

# Speichere Ergebnis der Varianzanalyse aov() in "ergaov"


ergaov <- aov(tip ~ # Abhängige Variable
day, # Unabhängige Variable
data = tips) # Datensatz

# Zeige Zusammenfassung von "ergaov"


summary(ergaov)

## Df Sum Sq Mean Sq F value Pr(>F)


## day 3 9.5 3.175 1.672 0.174
## Residuals 240 455.7 1.899

WiSe 21/22 Martin Vogt | Statistik 433


11. Inferenz numerischer Daten
Übung 135: Testentscheidung ANOVA

Wird die Nullhypothese H0 : µFri = µSat = µSun = µThu verworfen, d. h., wird anhand
der Stichprobenunterschiede der Mittelwerte

mosaic::mean(tip ~ day, data=tips)

## Fri Sat Sun Thur


## 2.734737 2.993103 3.255132 2.771452

auf mindestens einen Unterschied in den Mittelwerten in der Population geschlossen


(α = 0.05)?
A. Ja.
B. Nein.
C. Weiß nicht.

WiSe 21/22 Martin Vogt | Statistik 434


11. Inferenz numerischer Daten
Multiples Testen

Wenn man statt einer ANOVA alle 42 = 4·(42−1) = 6 Kombinationen (d. h. Donnerstag


und Freitag, Donnerstag und Samstag usw.) ausprobiert hätte, hätte sich der α-Fehler
kumuliert129 :
P(Fehler 1. Art) = 1 − (1 − 0.05)6 = 0.265
Das globale Signifikanzniveau α = 0.05 wäre nicht eingehalten!130
p-Hacking: Wenn viele Hypothesen getestet werden, werden auch zufällig welche
signifikant sein.

129 hier: α = 0.05


130 Adjustierung z. B. über Funktion p.adjust().
WiSe 21/22 Martin Vogt | Statistik 435
11. Inferenz numerischer Daten
Offene Übung 136: Trinkgeld Mann / Frau

Analysieren Sie die Höhe des Trinkgeldes und inwieweit sich dies zwischen den
Geschlechtern unterscheidet.

WiSe 21/22 Martin Vogt | Statistik 436


11.7 Zusammenfassung

WiSe 21/22 Martin Vogt | Statistik 437


11. Inferenz numerischer Daten
Überblick zu den Simulationstechniken für numerische Variablen

I Einfache Simulation zur Überprüfung eines Mittelwertes.


I Beispiel: Wie hoch ist der Mittelwert der Rechnungshöhe (in der Population)?
I Vorgehen: Simuliere wiederholt Zufallszahlen (unter Annahmen) und gucke wie
wahrscheinlich der beobachtete Mittelwert ist.
I Permutationstest zur Überprüfung eines Unterschieds zweier Verteilungen.
I Beispiel: Unterscheidet sich der Mittelwert der Rechnungshöhe (in der Population)
zwischen Rauchern und Nichtrauchern?
I Vorgehen: Simuliere wiederholt zufällige Zuordnung und gucke wie wahrscheinlich
die beobachtete Differenz der Mittelwerte ist.
I Bootstrap zur Berechnung eines Konfidenzintervalls für einen Mittelwert oder
einen Mittelwertsdifferenz.
I Beispiel: Was sind plausible Werte für den Mittelwert der Rechnungshöhe in der
Population?
I Vorgehen: Simuliere wiederholt zufällige Stichprobe durch Ziehen mit Zurücklegen
und berechne jeweils Mittelwert oder Mittelwertsunterschied.

WiSe 21/22 Martin Vogt | Statistik 438


11. Inferenz numerischer Daten
Alternativen zur simulationsbasierten Inferenz

I Eine Alternative zu den Methoden der simulationsbasierten Inferenz dieses Kapitels


ist jeweils t.test(), der auf theoretischen bzw. asymptotisch approximativen
Verteilungsanahmen aufbaut.
I Die Varianzanalyse aov() testet den Unterschied von zwei oder mehr Gruppen
hinsichtlich eines Mittelwerts; sie basiert auf theoretischen bzw. asymptotisch
approximativen Verteilungsanahmen.
I Überprüfung der Annahmen z. B. über Shapiro-Wilk Test (Normalverteilung,
shapiro.test()) und Bartlett’s Test (gleiche Varianzen, bartlett.test()).
I Darüberhinaus gibt es weitere nicht-parametrische Testverfahren: Wilcoxon Test
(wilcox.test()) bzw. Kruskal-Wallis Test (kruskal.test()).

WiSe 21/22 Martin Vogt | Statistik 439


11. Inferenz numerischer Daten
Offene Übung 137: Abfüllanlage

Eine Gaststätte bezieht die 0,5 Liter Bierflaschen aus einer kleinen Brauerei im
Nachbarort. Nach mehreren Beschwerden seiner Gäste, dass die Flaschen weniger als 0,5
Liter Bier enthalten würden, fordert der Gastwirt den Brauereibesitzer auf, seine
Abfüllanlage überprüfen zu lassen. Zu diesem Zweck wird eine Zufallsstichprobe vom
Umfang n=150 Flaschen ausgewählt. Bei der Untersuchung gaben sich die folgenden
Werte x̄ = 498, 8 ml und s = 3, 5 ml. (Normalverteilung vorausgesetzt).
1. Ist der Verdacht der Besucher der Gaststätte bei einem Signifikanzniveau von 1 %
gerechtfertig?
2. Der Brauereibesitzer behauptet nun, dass das Ergebnis der Stichprobe nicht
widerlegen würde, dass seine Flaschen genau 500 ml enthalten. Überprüfen Sie
diese Behauptung bei α = 0, 01.
3. Ein Jahr später wird nochmals eine Untersuchung durchgeführt, allerdings diesmal
nur mit 20 Flaschen x̄ = 498, 1 und s = 3, 7. Wie lauten die Tests aus 1 und 2
unter Verwendung dieser Werte.

WiSe 21/22 Martin Vogt | Statistik 440


11. Inferenz numerischer Daten
Offene Übung 138: Autos

Der Datensatz data(mtcars) enthält Daten aus einer US Zeitschrift über Autos.
1. Verschaffen Sie sich einen Überblick über die Daten.
2. Sie vermuten, dass die Autos weniger als 22 Meilen pro Gallon fahren. Führen Sie
einen statistischen Test durch.
3. Gibt es einen Unterschied in der Reichweite zwischen Automatik u nd Manueller
Schaltung?

WiSe 21/22 Martin Vogt | Statistik 441


11. Inferenz numerischer Daten
Offene Übung 139: Anova: Iris

Der Datensatz data(iris) enthält Daten von 3 Lilien Arten.


1. Verschaffen Sie sich einen Überblick über die Daten.
2. Erstellen Sie einen boxplot der Kelchlänge je Lilienart.
3. Sind die Unterschiede in den Mittelwerte der Kelchlänge statistisch signifikant?

WiSe 21/22 Martin Vogt | Statistik 442


12 Lineare Regression

WiSe 21/22 Martin Vogt | Statistik 443


12. Lineare Regression
Übung 140: Skalenniveau Trinkgeldhöhe

Welches Skalennvieau hat die Variable Trinkgeldhöhe?


A. Kategorial - nominal.
B. Kategorial - ordinal.
C. Numerisch - Intervallskala.
D. Numerisch - Verhältnisskala.

WiSe 21/22 Martin Vogt | Statistik 444


12. Lineare Regression
Modellierung: Lineare Regression

I Überwachtes Lernen (engl.: supervised learning): Kann ein Teil der Variation
einer abhängigen Variable y durch unabhängige Variable(n) x modelliert werden:
y = f (x) + e131
I Schätze fˆ anhand der Daten / Stichprobe
I Annahme: f ist eine lineare Funktion, d. h., f ( x) = β 0 + β 1 · x Hier: y numerisch,
nur eine unabhängige Variable x.
I β 0 : Achsenabschnitt
I β 1 : Steigung, d. h. Änderung des Mittelwerts von y, wenn x eine Einheit größer wird
!
β̂ 0
I Methode der kleinsten Quadrate: Bestimme Vektor β̂ = so, dass für
β̂ 1
P 2
êi = yi − fˆ(xi ) = yi − ( β̂ 0 + β̂ 1 xi ) der Wert êi minimal ist.

131 e: (zufälliger) Fehler, Residuum


WiSe 21/22 Martin Vogt | Statistik 445
12. Lineare Regression
Methode der kleinsten Quadrate

Pn 2 Pn
I min i=1 (ei ) =− β 0 − β 1 x i )2
i=1 (yi
P
I Partiell Ableiten β 0 : −2 in=1 (yi − β 0 − β 1 xi ) =! 0
P
I Partiell Ableiten β 1 : −2 in=1 xi (yi − β 0 − β 1 xi ) =! 0

Pn
1 ( xi − x̄)(yi − ȳ)
βˆ1 = i=
P n 2
i=1 ( xi − x̄ )

βˆ0 = ȳ − βˆ1 x̄

WiSe 21/22 Martin Vogt | Statistik 446


12. Lineare Regression
Methode der kleinsten Quadrate

x^2
+y^
2

y
x

Schüssel

WiSe 21/22 Martin Vogt | Statistik 447


12. Lineare Regression
Offene Übung 141: Verkaufte Flaschen

Geschäft i 1 2 3 4 5 6
Flaschenpreis xi 20 16 15 16 13 10
verkaufte Menge yi 0 3 7 4 6 10

1. Zeichnen Sie die Daten in ein Streudiagramm


2. Berechnen Sie die Regressionskoeffizienten
3. Welchen Absatz erwarten Sie für einen Flaschenpreis von 12 Euro?

WiSe 21/22 Martin Vogt | Statistik 448


12. Lineare Regression
Offene Übung 142: Babygalerie

Die Babygalerie in Trier [https://www.babygalerie24.de] veröffentlicht Daten die Größe


und das Gewicht von Neugeborenen. Gibt es einen linearen Zusammenhang? Wie Groß
würden Sie ein 2600 Gramm schweres Baby schätzen?

Name Gewicht (gr) Größe (cm)


Zayn 4010 56
Siraj 3870 56
Hadia 2870 51
Joshua 3040 46
Lena 4130 55
Fiona 3160 51

WiSe 21/22 Martin Vogt | Statistik 449


12. Lineare Regression
Lineare Regression

I Nullhypothese des Koeffiziententests: Variable x j hat keinen linearen


Zusammenhang mit y, d. h., H0 : β j = 0
I Vorraussetzung:
I kein nicht-linearer Zusammenhang zwischen x und y
I keine (einflussreichen) Ausreißer
I Residuen unabhängig (d. h. keine (Auto)korrelation), identisch (insbesondere
konstante Varianz), normalverteilt
I Das Bestimmtheitsmaß R2 gibt den Anteil der im Modell erklärten Variation von
y an: Pn Pn
2 2
i =1 (ŷi − ȳ) i=1 (yi − ŷi )
R = Pn
2
2
= 1 − P n 2
i=1 (yi − ȳ) i=1 (yi − ȳ)
I Einfachstes Modell: Prognose durch Mittelwert: ŷi = ȳ : R2 = 0.
I Bestes Modell: Prognose ist Beobachtung: ŷi = yi : R2 = 1.

WiSe 21/22 Martin Vogt | Statistik 450


12. Lineare Regression
Beispiele

I Modellierung der Klausurpunktzahl eines Studierenden auf Basis z. B. der


Schulnote.
I Analyse des Gehaltes einer Mitarbeiter*in auf Basis von z. B. Ausbildungsdauer.
I Vorhersage der Seitenabrufe auf Basis der Fans, Follower und Art des Inhalts132 .
I Modellierung des Risikos einer Anlage (Betafaktor).
I Vorhersage der Verspätung von Flügen (s. Datensatz nycflights13).
I Vorhersage der Persönlichkeit anhand von Social-Media-Daten (s. dieses Paper).
Wo können Sie dies Verfahren einsetzen?

132 z. B. Gewinnspiel, Rabatt.


WiSe 21/22 Martin Vogt | Statistik 451
12. Lineare Regression
Vorbereitung: Trinkgeld und Rechnungshöhe

Einlesen der Tipping133 Daten sowie laden des Pakets mosaic.

download.file("https://goo.gl/whKjnl", destfile = "tips.csv")


tips <- read.csv2("tips.csv")
# Alternativ - heruntergeladene Datei einlesen:
# tips <- read.csv2(file.choose())

library(mosaic) # Paket laden

133 Bryant,
P. G. and Smith, M (1995) Practical Data Analysis: Case Studies in Business Statistics.
Homewood, IL: Richard D. Irwin Publishing
WiSe 21/22 Martin Vogt | Statistik 452
12.1 Einfache lineare Regression

WiSe 21/22 Martin Vogt | Statistik 453


12. Lineare Regression
Streudiagramm: Trinkgeld und Rechnungshöhe

xyplot(tip ~ total_bill, data = tips)

10

6
tip

10 20 30 40 50

total_bill

WiSe 21/22 Martin Vogt | Statistik 454


12. Lineare Regression
Übung 143: Korrelation Trinkgeld und Rechnungshöhe

10

tip
4

10 20 30 40 50

total_bill

Welche Aussage stimmt vermutlich für den Korrelationskoeffizient zwischen Trinkgeld


und Rechnungshöhe?
A. Der Korrelationskoeffizient liegt bei r = −0.68.
B. Der Korrelationskoeffizient liegt bei r = −0.23.
C. Der Korrelationskoeffizient liegt bei r = 0.68.
D. Der Korrelationskoeffizient liegt bei r = 0.23.

WiSe 21/22 Martin Vogt | Statistik 455


12. Lineare Regression
Übung 144: Zusammenhang Trinkgeld und Rechnungshöhe

Welche Aussage stimmt vermutlich – aus inhaltlichen Gründen?


A. Die Trinkgeldhöhe hängt ab von der Rechnungshöhe.
B. Die Rechnungshöhe hängt ab von der Trinkgeldhöhe.
C. Trinkgeld und Rechnungshöhe sind unabhängig.

WiSe 21/22 Martin Vogt | Statistik 456


12. Lineare Regression
Lineare Regression Trinkgeld auf Rechnungshöhe
# Speichere Ergebnis der Regression lm() in "erglm1"
erglm1 <- lm(tip ~ # abhängige Variable
total_bill, # unabhängige Variable(n)
data = tips) # Datensatz

# Zeige Zusammenfassung von "erglm1"


summary(erglm1)

##
## Call:
## lm(formula = tip ~ total_bill, data = tips)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.1982 -0.5652 -0.0974 0.4863 3.7434
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.920270 0.159735 5.761 2.53e-08 ***
## total_bill 0.105025 0.007365 14.260 < 2e-16 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 1.022 on 242 degrees of freedom
## Multiple R-squared: 0.4566, Adjusted R-squared: 0.4544
## F-statistic: 203.4 on 1 and 242 DF, p-value: < 2.2e-16

WiSe 21/22 Martin Vogt | Statistik 457


12. Lineare Regression
Regressionsgerade

plotModel(erglm1)

10.0

7.5
tip

5.0

2.5

0 20 40
total_bill

WiSe 21/22 Martin Vogt | Statistik 458


12. Lineare Regression
Residuen

10.0

7.5
tip

5.0

2.5

10 20 30 40 50
total_bill

WiSe 21/22 Martin Vogt | Statistik 459


12. Lineare Regression
Übung 145: Regression Trinkgeld auf Rechnungshöhe

Welche Aussage stimmt?


A. Im Mittelwert steigt mit jedem Dollar Trinkgeld die Rechnungshöhe um 0.92.
B. Im Mittelwert steigt mit jedem Dollar Trinkgeld die Rechnungshöhe um 0.11.
C. Im Mittelwert steigt mit jedem Dollar Rechnungshöhe das Trinkgeld um 0.92.
D. Im Mittelwert steigt mit jedem Dollar Rechnungshöhe das Trinkgeld um 0.11.

WiSe 21/22 Martin Vogt | Statistik 460


12. Lineare Regression
Geschätzte Regressionsgleichung

Die geschätzte Gleichung lautet:

ŷ = 0.9203 + 0.105 · x

WiSe 21/22 Martin Vogt | Statistik 461


12. Lineare Regression
Übung 146: Prognose der Trinkgeldhöhe aus Rechnungshöhe

Für ein gegebenes x0 = 10 lautet die Prognose ŷ0 = 0.9203 + 0.105 · 10 = 1.9703.
Stimmt die Aussage: Bei einer Rechnungshöhe von 10 $ wird das Trinkgeld mit
Sicherheit bei 1.97 $ liegen?
I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 462


12. Lineare Regression
Prognoseintervalle

predict(erglm1, # Modell
# Neue Beobachtung mit x=10:
newdata = data.frame(total_bill = 10),
# Prognoseintervall:
interval = "prediction")

## fit lwr upr


## 1 1.970515 -0.05184074 3.99287

WiSe 21/22 Martin Vogt | Statistik 463


12. Lineare Regression
Übung 147: Bestimmtheitsmaß

Welche Aussage stimmt?134


A. Die Wahrscheinlichkeit, dass das Modell stimmt, liegt bei 46 %.
B. 46 % der Beobachtungen werden richtig modelliert.
C. 46 % der Variation der Rechnungshöhe werden modelliert.
D. 46 % der Variation der Trinkgeldhöhe werden modelliert.

134 R Ausgabe: Multiple R-squared = 0.4566.


WiSe 21/22 Martin Vogt | Statistik 464
12. Lineare Regression
R2

Das Bestimmtheitsmaß sagt nicht, ob ein lineares Modell stimmt. Im Falle der
Anscombe Daten gilt in allen Fällen R2 ≈ 0.67:

10
9

8
7
y1

y2
6 5

3
4
3 6 9 12 15 3 6 9 12 15
x1 x2

13

12

11
10
y3

y4

9
8

7
6

5
3 6 9 12 15 10 15 20
x3 x4

WiSe 21/22 Martin Vogt | Statistik 465


12. Lineare Regression
Wiederholung: Monte Carlo in R

I Permutationstest, hier: simuliere zufällige Zuordnung135 . Simuliere Verteilung


einer Statistik unter der Annahme, dass kein Zusammenhang vorliegt (Modell H0 ),
u. a. zur Bestimmung von p-Werten.

do(oft) * statistik(y ~ shuffle(x), data = Daten)

I Bootstrap, hier: simuliere zufälliges Ziehen einer Stichprobe136 . Schätze


Verteilung einer Statistik der Stichprobe, u. a. zur Bestimmung von
Konfidenzintervallen oder Standardfehlern.

do(oft) * statistik(y ~ x, data = resample(Daten))

135 d. h. ohne Zurücklegen


136 d. h. mit Zurücklegen
WiSe 21/22 Martin Vogt | Statistik 466
12. Lineare Regression
Bootstrap Verteilung Steigungskoeffizient

set.seed(1896) # Reproduzierbarkeit
Bootvtlg <- do(10000) *
lm(tip ~ total_bill, data = resample(tips))

histogram( ~ total_bill, data = Bootvtlg)

30

20
Density

10

0.06 0.08 0.10 0.12 0.14 0.16

total_bill

quantile( ~ total_bill, data = Bootvtlg,


probs = c(0.025, 0.975))

## 2.5% 97.5%
## 0.08235625 0.12797229

WiSe 21/22 Martin Vogt | Statistik 467


12. Lineare Regression
Permutationstest Verteilung Steigung (I/II)

Wenn H0 : β 1 = 0 gilt, so sollte y in keinem (linearen) Zusammenhang zu x stehen:

set.seed(1896) # Reproduzierbarkeit
Nullvtlg <- do(10000) *
lm(tip ~ shuffle(total_bill), data = tips)

WiSe 21/22 Martin Vogt | Statistik 468


12. Lineare Regression
Permutationstest Verteilung Steigung (II/II)

histogram( ~ total_bill, data = Nullvtlg)

40

30

Density
20

10

−0.04 −0.02 0.00 0.02 0.04

total_bill

quantile( ~ total_bill, data = Nullvtlg,


probs = c(0.025, 0.975))

## 2.5% 97.5%
## -0.01876834 0.02000266

WiSe 21/22 Martin Vogt | Statistik 469


12. Lineare Regression
Übung 148: Permutationstest Steigung
40

30

Density
20

10

−0.10 −0.05 0.00 0.05 0.10

total_bill

Welche Aussage stimmt?


A. Die beobachtete Steigung der Stichprobe β̂ 1 = 0.11 ist unter H0 : β 1 = 0 ein
üblicher Wert.
B. Die beobachtete Steigung der Stichprobe β̂ 1 = 0.11 ist unter H0 : β 1 = 0 kein
üblicher Wert.

WiSe 21/22 Martin Vogt | Statistik 470


12.2 Regressionsannahmen

WiSe 21/22 Martin Vogt | Statistik 471


12. Lineare Regression
Annahmen

I Linearität in den Parametern


I Erwartungswert der Störgröße gleich Null
I Berücksichtigung aller relevanten Variablen
I Homoskedastizität der Störgrößen
I Unabhängigkeit der Störgrößen
I keine lineare Abhängigkeit zwischen den unabhängigen Variablen
I Störgrößen sind normalverteilt

WiSe 21/22 Martin Vogt | Statistik 472


12. Lineare Regression
Übung 149: Nicht-linearer Zusammenhang
Bei welcher der Abbildungen ist die Annahme keines nicht-linearen Zusammenhangs am
ehesten erfüllt?
A B
2 2

1
1

yb
ya
0

−1

−2 −1

−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
x x

C D
3 1.5

1.0

2
0.5

yd
yc

0.0
1

−0.5

0
−1.0

−1.5
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
x x

A. Abbildung A.
B. Abbildung B.
C. Abbildung C.
D. Abbildung D.

WiSe 21/22 Martin Vogt | Statistik 473


12. Lineare Regression
Ausreißer
Beobachtungen, die horizontal und vertikal vom üblichen Zusammenhang abweichen,
können die Regressionsgerade und die Modellgüte verändern.

10.0

7.5
tip

5.0

2.5

0.0

0 300 600 900


total_bill

WiSe 21/22 Martin Vogt | Statistik 474


12. Lineare Regression
Cartoon: Ausreißer

“Punkte, die von ihren Peers abweichen, sind häufig die interessantesten.”137

137 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift J. Alloway


WiSe 21/22 Martin Vogt | Statistik 475
12. Lineare Regression
Verteilung Residuen
Annahme: Residuen sind normalverteilt.
histogram( ~ resid(erglm1))

0.5

0.4

0.3
Density

0.2

0.1

0.0

−4 −2 0 2 4

resid(erglm1)

WiSe 21/22 Martin Vogt | Statistik 476


12. Lineare Regression
Q-Q Plot Residuen
Annahme: Residuen sind normalverteilt.
xqqmath( ~ resid(erglm1))

2
resid(erglm1)

−2

−3 −2 −1 0 1 2 3

qnorm

WiSe 21/22 Martin Vogt | Statistik 477


12. Lineare Regression
Übung 150: Verteilung Residuen

4
0.5

0.4
2

0.3

resid(erglm1)
Density
0

0.2

0.1
−2

0.0

−4 −2 0 2 4 −3 −2 −1 0 1 2 3

resid(erglm1) qnorm

Stimmt die Aussage: Die Erfüllung der Annahme einer Normalverteilung für die
Residuuen ist hier fragwürdig?
I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 478


12. Lineare Regression
Verteilung Residuen und angepasste Werte

Annahme: Residuen sind identisch verteilt.

xyplot(resid(erglm1) ~ fitted(erglm1))

2
resid(erglm1)

−2

2 3 4 5 6

fitted(erglm1)

WiSe 21/22 Martin Vogt | Statistik 479


12. Lineare Regression
Übung 151: Verteilung Residuen und angepasste Werte

resid(erglm1)
0

−2

2 3 4 5 6

fitted(erglm1)

Welche Aussage stimmt?


A. Die Varianz der Residuen scheint unabhängig von der Höhe der angepassten Werte
zu sein.
B. Die Varianz der Residuen scheint mit der Höhe der angepassten Werte zu steigen.
C. Die Varianz der Residuen scheint mit der Höhe der angepassten Werte zu fallen.

WiSe 21/22 Martin Vogt | Statistik 480


12. Lineare Regression
Extrapolation

Vorsicht bei Vorhersagen für Werte außerhalb des bekannten, üblichen


Wertebereiches.138

predict(erglm1, # Modell
# Neue Beobachtung mit x=1000:
newdata = data.frame(total_bill = 1000),
# Prognoseintervall:
interval = "prediction")

## fit lwr upr


## 1 105.9448 91.58217 120.3074

138 Video https://www.causeweb.org: Posner M © How Far He’ll Go


WiSe 21/22 Martin Vogt | Statistik 481
12. Lineare Regression
Regression nur mit Achsenabschnitt

mean(tip~1, data = tips)

## [1] NA

lm(tip~1, data = tips)

##
## Call:
## lm(formula = tip ~ 1, data = tips)
##
## Coefficients:
## (Intercept)
## 2.998

WiSe 21/22 Martin Vogt | Statistik 482


12. Lineare Regression
Übung 152: Regression nur mit Achsenabschnitt

Was gilt bei lm(y~1) für das Bestimmtheitsmaß?


A. R2 = 0
B. 0 < R2 < 1
C. R2 = 1

WiSe 21/22 Martin Vogt | Statistik 483


12.3 Regression mit kategorialer unabhängiger Variable

WiSe 21/22 Martin Vogt | Statistik 484


12. Lineare Regression
Trinkgeld und Geschlecht

mosaic::mean(tip ~ sex, data = tips)

## Female Male
## 2.833448 3.089618

diffmean(tip ~ sex, data = tips)

## diffmean
## 0.2561696

xyplot(tip ~ sex, data = tips)

10

6
tip

Female Male

sex

WiSe 21/22 Martin Vogt | Statistik 485


12. Lineare Regression
Indikatormatrizen

Kategoriale Variablen werden numerisch / logisch kodiert.


Geschlecht (sex):
Male
Female 0
Male 1
Wochentag (day):
Sat Sun Thur
Fri 0 0 0
Sat 1 0 0
Sun 0 1 0
Thur 0 0 1

WiSe 21/22 Martin Vogt | Statistik 486


12. Lineare Regression
Regression Trinkgeld auf Geschlecht

erglm2 <- lm(tip ~ sex, data = tips)


summary(erglm2)

##
## Call:
## lm(formula = tip ~ sex, data = tips)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.0896 -1.0896 -0.0896 0.6666 6.9104
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.8334 0.1481 19.137 <2e-16 ***
## sexMale 0.2562 0.1846 1.388 0.166
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 1.381 on 242 degrees of freedom
## Multiple R-squared: 0.007896, Adjusted R-squared: 0.003797
## F-statistic: 1.926 on 1 and 242 DF, p-value: 0.1665

WiSe 21/22 Martin Vogt | Statistik 487


12. Lineare Regression
Übung 153: Regression Trinkgeld und Geschlecht

Welche Aussage stimmt für die Stichprobe?


A. Im Mittelwert geben Männer 0.26 $ mehr Trinkgeld als Frauen.
B. Im Mittelwert geben Frauen 0.26 $ mehr Trinkgeld als Männer.
C. Männer geben immer 0.26 $ mehr Trinkgeld als Frauen.
D. Frauen geben immer 0.26 $ mehr Trinkgeld als Männer.

WiSe 21/22 Martin Vogt | Statistik 488


12. Lineare Regression
Offene Übung 154: Trinkgeld je Geschlecht
Fassen Sie die vorangegangene Analyse zusammen. Wie lautete die Forschungsfrage,
Modell, Hypothesen und die Antwort auf die Forschungsfrage.
1. Think: Überlegen Sie für sich.
2. Pair: Teilen Sie Ihr Ergebnis mit der Nachbar*in.
3. Share: Stellen Sie Ihr Ergebnis im Plenum vor.

WiSe 21/22 Martin Vogt | Statistik 489


12. Lineare Regression
Regression eines Anteils

prop(smoker ~ time, success = "Yes", data = tips)

## prop_Yes.Dinner prop_Yes.Lunch
## 0.3977273 0.3382353

diffprop(smoker ~ time, success = "Yes", data = tips)

## diffprop
## -0.05949198

lm( (smoker=="Yes") ~ time, data = tips)

##
## Call:
## lm(formula = (smoker == "Yes") ~ time, data = tips)
##
## Coefficients:
## (Intercept) timeLunch
## 0.39773 -0.05949

WiSe 21/22 Martin Vogt | Statistik 490


12. Lineare Regression
Logistische Regression

I Eine Lineare Regression eines Anteils kann nicht so interpretiert werden wie die
/ {0, 1} und
lineare Regression eines numerischen Merkmals.139 Insbesondere ist ŷ ∈
die Annahmen sind verletzt, d. h., p-Werte etc. stimmen nicht.
I Die richtige Herangehensweise wäre z. B. eine Logistische Regression: glm(y~x,
family=binomial).
I Weitere Regressionstypen (Auswahl):
I Multinomiale Regression: multinom() (Nominale abhängige Variable, Paket nnet).
I Proportional Odds Logistische Regression: polr() (Ordinale abhängige Variable,
Paket MASS).

139 β̂, R2

WiSe 21/22 Martin Vogt | Statistik 491


12. Lineare Regression
Übung 155: Beurteilung lineares Modell

Woran können Sie primär in einem linearen Modell erkennen, ob Sie ein gutes Modell
haben – bei einer metrischen abhängigen Variable y?
A. An einem kleinen p-Wert.
B. An einem großen p-Wert.
C. An einer im Betrag kleinen geschätzten Steigung.
D. An einer im Betrag großen geschätzten Steigung.
E. An einem großen R2 .

WiSe 21/22 Martin Vogt | Statistik 492


12.4 Multiple Regression

WiSe 21/22 Martin Vogt | Statistik 493


12. Lineare Regression
Multiple Regression

Modellgleichung:

yi = β 0 + β 1 · xi1 + β 2 · xi2 + . . . + β p · xip + ei

Interpretation der Koeffizienten (Schätzwerte, p-Werte): unter sonst gleichen


Umständen, d. h., die anderen Variablen bleiben im Modell konstant/unverändert
(ceteris paribus): marginaler Effekt.140

140 Durch Versuchsplanung oder eine vorgelagerte Hauptkomponentenanalyse können unabhängige


erklärende Variablen x j erzeugt werden.
WiSe 21/22 Martin Vogt | Statistik 494
12. Lineare Regression
Übung 156: Multiple Regressionskoeffizienten

Können sich die geschätzten Werte und deren p-Werte ändern, wenn Variablen ins
Modell hinzugenommen oder weggenommen werden?
I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 495


12. Lineare Regression
Übung 157: Bestimmtheitsmaß

Kann sich das Bestimmtheitsmaß R2 ändern, wenn Variablen ins Modell


hinzugenommen oder weggenommen werden?
I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 496


12. Lineare Regression
Trinkgeldhöhe als Funktion von Rechnungshöhe und Geschlecht
Modelliere Trinkgeldhöhe als lineare Funktion von Rechnungshöhe und Geschlecht:

erglm3 <- lm(tip ~ # abbhängige Variable


total_bill + sex, # unabhängige Variablen
data = tips) # Datensatz

summary(erglm3)

##
## Call:
## lm(formula = tip ~ total_bill + sex, data = tips)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.1914 -0.5596 -0.0875 0.4845 3.7465
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.933278 0.173756 5.371 1.84e-07 ***
## total_bill 0.105232 0.007458 14.110 < 2e-16 ***
## sexMale -0.026609 0.138334 -0.192 0.848
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 1.024 on 241 degrees of freedom
## Multiple R-squared: 0.4567, Adjusted R-squared: 0.4522
## F-statistic: 101.3 on 2 and 241 DF, p-value: < 2.2e-16

WiSe 21/22 Martin Vogt | Statistik 497


12. Lineare Regression
Modell Multiple Regression

plotModel(erglm3)

10.0

7.5

.color
tip

Female
Male
5.0

2.5

0 20 40
total_bill
WiSe 21/22 Martin Vogt | Statistik 498
12. Lineare Regression
Übung 158: Regression Trinkgeld auf Rechnungshöhe und Geschlecht

Stimmt die Aussage: Bei gleicher Rechnungshöhe geben Männer in der Stichprobe im
Mittel mehr Trinkgeld als Frauen.
I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 499


12. Lineare Regression
Bootstrap Multiple Regression

set.seed(1896) # Reproduzierbarkeit
Bootvtlg <- do(10000) * lm(tip ~ total_bill + sex,
data = resample(tips))
confint(Bootvtlg)

## name lower upper level method estimate


## 1 Intercept 0.52516536 1.3474283 0.95 percentile 0.93327849
## 2 total_bill 0.08255927 0.1284278 0.95 percentile 0.10523236
## 3 sexMale -0.26823214 0.2186610 0.95 percentile -0.02660871
## 4 sigma 0.89069928 1.1389718 0.95 percentile 1.02408737
## 5 r.squared 0.33253246 0.5806577 0.95 percentile 0.45670000
## 6 F 60.03312632 166.8547403 0.95 percentile 101.29274612

WiSe 21/22 Martin Vogt | Statistik 500


12. Lineare Regression
Übung 159: Inferenz Regression Trinkgeld und Geschlecht

Gegeben die Rechnungshöhe, kann die Nullhypothese β 2 = β sex = 0 zum


Signifikanzniveau α = 5 % verworfen werden?
I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 501


12. Lineare Regression
Übung 160: Interpretation Regression

Welches ist die korrekteste Interpretation von β̂ 1 = β̂ total_bill = 0.11?


A. Mit jedem $ Rechnungshöhe steigt das Trinkgeld um 0.11 $.
B. Mit jedem $ Rechnungshöhe steigt der Mittelwert des Trinkgeldes um 0.11 $.
C. Mit jedem $ Rechnungshöhe steigt der Mittelwert des Trinkgeldes um 0.11 $,
gegeben alle anderen Faktoren bleiben konstant.
D. In einem linearen Modell steigt mit jedem $ Rechnungshöhe der Mittelwert des
Trinkgeldes um 0.11 $, gegeben alle anderen Faktoren bleiben konstant.
E. In der Stichprobe steigt in einem linearen Modell mit jedem $ Rechnungshöhe der
Mittelwert des Trinkgeldes um 0.11 $, gegeben alle anderen Faktoren bleiben
konstant.

WiSe 21/22 Martin Vogt | Statistik 502


12.5 Wechselwirkung

WiSe 21/22 Martin Vogt | Statistik 503


12. Lineare Regression
Wechselwirkung, Interaktion
Hängt evt. auch die Steigung in Richtung Rechnungshöhe mit dem Geschlecht
zusammen – d. h. wirkt sich das Geschlecht auf den Zusammenhang zwischen
Rechnungshöhe und Trinkgeld aus?

erglm4 <- lm(tip ~


total_bill + sex + total_bill:sex,
data = tips)
plotModel(erglm4)

10.0

7.5

.color
tip

Female
Male
5.0

2.5

0 20 40
total_bill

WiSe 21/22 Martin Vogt | Statistik 504


12. Lineare Regression
Übung 161: Wechselwirkung

10.0

7.5

.color

tip
Female
Male
5.0

2.5

0 20 40
total_bill

Welches Geschlecht gibt im Mittelwert, unter sonst gleichen Umständen, mit


zunehmender Rechnungshöhe mehr zusätzliches Trinkgeld?
A. Frauen.
B. Männer.
C. Beide gleich.

WiSe 21/22 Martin Vogt | Statistik 505


12. Lineare Regression
Ergebnis Wechselwirkung
summary(erglm4)

##
## Call:
## lm(formula = tip ~ total_bill + sex + total_bill:sex, data = tips)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.2232 -0.5660 -0.0977 0.4796 3.6675
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.048020 0.272498 3.846 0.000154 ***
## total_bill 0.098878 0.013808 7.161 9.75e-12 ***
## sexMale -0.195872 0.338954 -0.578 0.563892
## total_bill:sexMale 0.008983 0.016417 0.547 0.584778
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 1.026 on 240 degrees of freedom
## Multiple R-squared: 0.4574, Adjusted R-squared: 0.4506
## F-statistic: 67.43 on 3 and 240 DF, p-value: < 2.2e-16

WiSe 21/22 Martin Vogt | Statistik 506


12. Lineare Regression
Übung 162: Vorteilhaftigkeit

In der Stichprobe, in dem Modell: die Rechnungshöhe liegt bei 15 $. Ist es im Mittelwert
für den Kellner besser wenn eine Frau zahlt?
A. Ja.
B. Nein.
C. Egal.

WiSe 21/22 Martin Vogt | Statistik 507


12. Lineare Regression
ANOVA Tabelle Wechselwirkung

anova(erglm4)

## Analysis of Variance Table


##
## Response: tip
## Df Sum Sq Mean Sq F value Pr(>F)
## total_bill 1 212.424 212.424 201.9597 <2e-16 ***
## sex 1 0.039 0.039 0.0369 0.8478
## total_bill:sex 1 0.315 0.315 0.2994 0.5848
## Residuals 240 252.435 1.052
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

WiSe 21/22 Martin Vogt | Statistik 508


12. Lineare Regression
Übung 163: Inferenz Regression Trinkgeld und Geschlecht

Ist die Wechselwirkung zwischen Geschlecht und Rechnungshöhe signifikant (α = 0.05)?


I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 509


12. Lineare Regression
R Formeln formula()

Formeln bieten innerhalb der Modellierung in R viele Möglichkeiten:


I +: Hinzunahme von Variablen
I .: Alle unabhängigen Variablen des Datensatzes im Modell
I -: Herausnahme von Variablen (-1 für Achsenabschnitt)
I :: Wechselwirkung von Variablen
I *: Hinzunahme von Variablen und deren Wechselwirkung
I /: hierarchisch untergeordnet (engl.: nested)
I I(): Arithmetische Operationen der Variablen

WiSe 21/22 Martin Vogt | Statistik 510


12.6 Modellwahl

WiSe 21/22 Martin Vogt | Statistik 511


12. Lineare Regression
Übung 164: Multiple Regression

Woran können Sie am ehesten erkennen, dass eine Variable x j zur Modellierung von y
beiträgt?
A. An einem kleinen | β̂ j |.
B. An einem großen | β̂ j |.
C. An einem kleinen p-Wert.
D. An einem großen p-Wert.

WiSe 21/22 Martin Vogt | Statistik 512


12. Lineare Regression
Variablenselektion

Die Wahl der wichtigen Variablen im Modell ist nicht trivial. Dabei wird ein Kritierum
wie z. B. AIC141 zur Modellevaluierung verwendet. Mögliche Herangehensweisen z. B.
I Vorwärts Auswahl: Fange nur mit Achsenabschnitt an und füge schrittweise neue
Variablen hinzu, bis sich die Modellgüte nicht mehr verbessert.142
I Rückwärts Auswahl: Fange mit allen Variablen an und eliminiere schrittweise
einzelne Variablen, bis sich die Modellgüte nicht mehr verbessert.
In R: z. B. step()
Achtung: Eine Interpretation von p-Werten ist nach einer Variablenselektion nicht direkt
möglich.

141 Akaike
Informations Kriterium, siehe z. B. https://otexts.org/fpp2/selecting-predictors.html
142 Das
normale R2 steigt mit jeder Variablen im Modell – auch wenn diese nicht mit y
zusammenhängt.
WiSe 21/22 Martin Vogt | Statistik 513
12. Lineare Regression
Modellkomplexität

Schätzen (auf Basis von n = 100 Beobachtungen: Training) und Testen (auf Basis von
n = 10000: Test) des Polynoms143

y = −x3 + 8x2 − 9x − 18 + e

143 In R: lm(y ~ I(xˆ3) + I(x ˆ2) + x)


WiSe 21/22 Martin Vogt | Statistik 514
12. Lineare Regression
Übung 165: Modellkomplexität (I / II)

Stimmt die Aussage: Je komplexer144 ein Modell ist, desto besser erklärt es die
vorhandenen Daten?
I Ja.
I Nein.

144 Hier: Grad des Polynoms.


WiSe 21/22 Martin Vogt | Statistik 515
12. Lineare Regression
Übung 166: Modellkomplexität (II / II)

Stimmt die Aussage: Je komplexer145 ein Modell ist, desto besser erklärt es zukünftige
Daten?
I Ja.
I Nein.

145 Hier: Grad des Polynoms.


WiSe 21/22 Martin Vogt | Statistik 516
12. Lineare Regression
Modellierung

[. . . ] In general, when building statistical models, we must not forget that the
aim is to understand something about the real world. Or predict, choose an
action, make a decision, summarize evidence, and so on, but always about the
real world, not an abstract mathematical world: our models are not the reality
– a point well made by George Box in his oft-cited remark that “all models are
wrong, but some are useful” [. . . ]146

Zwei mögliche Ziele dabei:147


I Erklärung: Fokus fˆ.
I Vorhersage: Fokus ŷ

146 Hand, D. J. (2014). Wonderful Examples, but Let’s not Close Our Eyes. Statistical Science 29(1),
98-100 https://projecteuclid.org/euclid.ss/1399645735
147 Shmueli, G. (2015) To Explain or to Predict? Statistical Science 25(3), 289-310

https://projecteuclid.org/euclid.ss/1294167961
WiSe 21/22 Martin Vogt | Statistik 517
12. Lineare Regression
Offene Übung 167: Verlobungsring

Sie möchten Ihrer Freundin einen Verlobungsring kaufen, kennen aber ihre Ringgröße
nicht. Es ist aber zu verdächtig, sie direkt zu fragen. Sie wissen aber, dass kleinere
Frauen tendenziell auch kleinere Ringgrößen haben, und nach ihrer Körpergröße können
Sie sie ohne Bedenken fragen. Sie ist 172 cm groß. Was nun?
Sie haben die folgenden Größen und Ringgrößen von Bekannten:

Person i 1 2 3 4 5 6 7 8 9 10
Körpergröße 156.3 158.9 160.8 179.6 156.6 165.1 165.9 156.7 167.8 160.8
Ringgröße 47.1 46.8 49.3 53.2 47.7 49.0 50.6 47.1 51.7 47.8

WiSe 21/22 Martin Vogt | Statistik 518


12. Lineare Regression
Offene Übung 168: Hypothesenzinssatz

Für 6 verschiedene Monate liegen die Daten über den Hypothekenzinssatz x (in%) sowie
über den saisonbereinigten Auftragseingang y (in Mio EUR) im Bauhauptgewerbe, der
auf den privaten Wohnungsbau entfällt, vor:

Monat i 1 2 3 4 5 6
Zinssatz x 6 5 7 7 8 9
Aufträge y 3000 3200 2500 2300 2000 2000

WiSe 21/22 Martin Vogt | Statistik 519


12. Lineare Regression
Offene Übung 169: Auto
I Was ist dieses Auto wert?
I Volkswagen Golf VII, 51590 km, 10/2015, 150 PS

I Bitte schicken Sie mir Ihren Tip (inklusive Lösungsskizze) per E-Mail (Betreff:
Preis: XXX ).
I Die Person, die dem Preis am nächsten kommt, erhält einen Preis.

WiSe 21/22 Martin Vogt | Statistik 520


12. Lineare Regression
Offene Übung 170: Rechnungshöhe

Modellieren Sie die Rechnungshöhe als Funktion der Anzahl Personen sowie der
Tageszeit.

WiSe 21/22 Martin Vogt | Statistik 521


12. Lineare Regression
Offene Übung 171: Immobilienpreise

Was beeinflusst den Wert einer Immobilie? Natürlich die Größe und die Lage. Aber was
ist wirklich relevant, was ist signifikant? Im Rahmen einer Sutide wurden 1978 mögliche
Einflussfaktoren auf Immobilienwerte (medv) in Boston untersucht (n=506)
Beobachtungen:
library(MASS)
data(Boston)
Welche Variablen sind in dem Datensatz enthalten? Führen Sie eine multiple lineare
Regression des Immobilienwertes auf die anderen Variablen durch und interpretieren Sie
das Ergebnis.

WiSe 21/22 Martin Vogt | Statistik 522


13 Grundlagen Zeitreihenanalyse

WiSe 21/22 Martin Vogt | Statistik 523


13. Grundlagen Zeitreihenanalyse
Zerlegung einer Zeitreihe
CO2 Konzentration

360
350
340
co2

330
320
1960 1970 1980 1990

Zeit

Ziel: Modellierung der Variation eines numerischen Merkmals y durch die Zeit t.
Eine Zeitreihe, d. h. hier ein regelmäßig beobachtes Merkmal yt , kann in verschiedene
Komponenten zerlegt werden:148
I Trend: mt
I Saisonkomponenten: st
I Rest-/ Fehlerkomponenten: et

Damit sind verschiedene Modelle möglich:


I Additives Modell: yt = mt + st + et
I Multiplikatives Modell: yt = mt · st · et
148 Literaturempfehlung: Rob J Hyndman, George Athanasopoulos: Forecasting: Principles and
Practice http://otexts.org/fpp2/
WiSe 21/22 Martin Vogt | Statistik 524
13. Grundlagen Zeitreihenanalyse
Beispiele

I Zeitliche Entwicklung von BIP, Beschäftigungszahlen etc..


I Umsatzverlauf von z. B. Kerzen, Mückenspray, Toilettenpapier.
I Bedarfsprognose von Statistikbüchern.
I Analyse der Entwicklung von Persönlichkeitsmerkmalen im Laufe der Zeit.
I Vorhersage des Strombedarfs.
I Analyse von Kursverläufen.
Wo können Sie dies Verfahren einsetzen?

WiSe 21/22 Martin Vogt | Statistik 525


13. Grundlagen Zeitreihenanalyse
Cartoon: Zeitreihe

“Immer dasselbe: Kurz vor der Klausur gibt es eine Spitze in den Lehrbuchverkäufen.”149

149 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift K. Lübke


WiSe 21/22 Martin Vogt | Statistik 526
13. Grundlagen Zeitreihenanalyse
Arbeitslose

I Die Abbildung zeigt die Arbeitslosenzahlen in Deutschland.

WiSe 21/22 Martin Vogt | Statistik 527


13. Grundlagen Zeitreihenanalyse
Arbeitslosentabelle
Jahr Monat AL Jahr Monat AL Jahr Monat AL
2019 Feb 2373 2017 Okt 2389 2016 Jun 2614
2019 Jan 2406 2017 Sep 2449 2016 Mai 2664
2018 Dez 2210 2017 Aug 2545 2016 Apr 2744
2018 Nov 2186 2017 Jul 2518 2016 Mrz 2845
2018 Okt 2204 2017 Jun 2473 2016 Feb 2911
2018 Sep 2256 2017 Mai 2498 2016 Jan 2920
2018 Aug 2351 2017 Apr 2569 2015 Dez 2681
2018 Jul 2325 2017 Mrz 2662 2015 Nov 2633
2018 Jun 2276 2017 Feb 2762 2015 Okt 2649
2018 Mai 2315 2017 Jan 2777 2015 Sep 2708
2018 Apr 2384 2016 Dez 2568 2015 Aug 2796
2018 Mrz 2458 2016 Nov 2532 2015 Jul 2773
2018 Feb 2546 2016 Okt 2540 2015 Jun 2711
2018 Jan 2570 2016 Sep 2608 2015 Mai 2762
2017 Dez 2385 2016 Aug 2684 2015 Apr 2843
2017 Nov 2368 2016 Jul 2661 2015 Mrz 2932

WiSe 21/22 Martin Vogt | Statistik 528


13. Grundlagen Zeitreihenanalyse
CO2 Konzentration

Dr. Pieter Tans, NOAA/ESRL150 und Dr. Ralph Keeling, Scripps Institution of
Oceanography151 stellen aktuelle Daten zur CO2 Konzentration zur Verfügung:
https://www.esrl.noaa.gov/gmd/ccgg/trends/data.html
Hinweis: Sollte das Herunterladen nicht klappen, können Sie auch einfach über
data(co2) historische Daten verwenden.

150 www.esrl.noaa.gov/gmd/ccgg/trends/
151 scrippsco2.ucsd.edu/

WiSe 21/22 Martin Vogt | Statistik 529


13. Grundlagen Zeitreihenanalyse
Aktuelle CO2 Daten beziehen

# URL der Daten


#urlco2 <- "ftp://aftp.cmdl.noaa.gov/products/trends/co2/co2_mm_mlo.txt

# Datei herunterladen
#data <- read.table(file=url(urlco2))
data<-read.table(file="CO2.txt")
# Relevante Spalte als Monatliche Zeitreihe definieren
co2 <- ts(data$V5, start = c(data$V1[1], data$V2[1]), frequency = 12)

WiSe 21/22 Martin Vogt | Statistik 530


13. Grundlagen Zeitreihenanalyse
Zeitreihe plotten

plot(co2) 400
380
co2

360
340
320

1960 1970 1980 1990 2000 2010 2020

Time

WiSe 21/22 Martin Vogt | Statistik 531


13. Grundlagen Zeitreihenanalyse
Übung 172: CO2 Konzentration

400
380
co2

360
340
320
1960 1970 1980 1990 2000 2010 2020

Time

Stimmt die Aussage: Es scheint saisonale Schwankungen in der CO2 Konzentration zu


geben?
I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 532


13. Grundlagen Zeitreihenanalyse
Glätten durch gleitende Durchschnitte

Gleitende Durchschnitte (engl.: moving-average) glätten eine Zeitreihe, z. B. um


saisonale Schwankungen, damit der Trend erkannt werden kann.

q
1 X
ŷq,t = y t+ j
p
j=−q

mit p = 2q + 1. D. h., yˆt ist der Mittelwert von yt und der q vorhergehenden und
nachfolgenden Beobachtungen

# Einmalig installieren
install.packages("forecast")

# Paket laden
library(forecast)

WiSe 21/22 Martin Vogt | Statistik 533


13. Grundlagen Zeitreihenanalyse
ma()
Gleitende Durchschnitte berechnen, plotten:

forecast::ma(co2, order=11) %>% # p=11


plot() 400
380
360
.

340
320

1960 1970 1980 1990 2000 2010 2020

Time

WiSe 21/22 Martin Vogt | Statistik 534


13. Grundlagen Zeitreihenanalyse
Übung 173: Gleitende Durchschnitte

Stimmt die Aussage: Je größer p (order), desto glatter wird die geglättete Zeitreihe?
I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 535


13. Grundlagen Zeitreihenanalyse
Übung 174: Gleitende Durchschnitte 2

I Glätten Sie die Zeitreihe der Arbeitslosen mit einem 5-Gliedrigen Gleitenden
Durchschnitt von Feb 2019 bis Dez 2017

WiSe 21/22 Martin Vogt | Statistik 536


13. Grundlagen Zeitreihenanalyse
Trendbereinigung

I Trend: mt
I Saisonkomponenten: st
I Rest-/ Fehlerkomponenten: et
I Additives Modell: yt = mt + st + et
I Trendbereinigung: yt − mt = st + et

WiSe 21/22 Martin Vogt | Statistik 537


13. Grundlagen Zeitreihenanalyse
Saisonbereinigung

I yt − mt − st = et
I Saison von Restkomponente trennen

Arithmetischen Mittelwert der trendbereinigten Werte je Monat.

WiSe 21/22 Martin Vogt | Statistik 538


13. Grundlagen Zeitreihenanalyse
Saisonbereinigung

I Mittelwert der trendbereinigten Werte eines Monats


1 Pm−1 (y
I st = st+k = st+2k , . . . , := m j=0 t+ jk − mt+ jk )
I Beispiel: 1/3· (Februar 2018 + Februar 2017 + Februar 2016)
I Normierte Saisonkomponente: Saisonkomponente - Mittelwert(Saisonkomponenten)

WiSe 21/22 Martin Vogt | Statistik 539


13. Grundlagen Zeitreihenanalyse
Übung 175: Saisonbereinigung Arbeitslose

I Führen Sie für die Zeitreihe der Arbeitslosen von Feb 2019 - März 2015 eine
Saisonbereinigung durch.
I Benutzen Sie Gleitende Durchschnitte der Ordnung 12

WiSe 21/22 Martin Vogt | Statistik 540


13. Grundlagen Zeitreihenanalyse
Zeitreihe zerlegen
Gleitende Durchschnitte zerlegen, plotten:
stl(co2, s.window = 11) %>%
plot()
400
data
360
320

3
2
seasonal

1
−1 0
−3
320 340 360 380 400
trend

1.0
0.5
remainder

0.0
−0.5
1960 1970 1980 1990 2000 2010 2020

time

WiSe 21/22 Martin Vogt | Statistik 541


13. Grundlagen Zeitreihenanalyse
Übung 176: Gleitende Durchschnitte

stl(co2, s.window = 11) %>% seasonal() %>% tail(n=12)

## Jan Feb Mar Apr May Jun


## 2017 2.9237320 3.3856720 2.3071124
## 2018 0.2820312 0.7378223 1.5429104
## Jul Aug Sep Oct Nov Dec
## 2017 0.3831252 -1.9297449 -3.5640763 -3.4010871 -1.9791248 -0.6965159
## 2018

Welche Aussage stimmt?


A. Die CO2 Konzentration ist im Juni höher als im Dezember.
B. Die CO2 Konzentration ist im Juni geringer als im Dezember.
C. Die CO2 Konzentration ist im Juni ungefähr so hoch wie im Dezember.

WiSe 21/22 Martin Vogt | Statistik 542


13. Grundlagen Zeitreihenanalyse
Vorhersagen
Ausblick:152
stl(co2, s.window = 11) %>% # Zerlegung
predict() %>% # Prognosen
plot() # Abbildung

Forecasts from STL + ETS(A,A,N)


400
380
360
340
320

1960 1970 1980 1990 2000 2010 2020

152 vgl. Literatur


WiSe 21/22 Martin Vogt | Statistik 543
13. Grundlagen Zeitreihenanalyse
Offene Übung 177: Zeitreihenanalyse

Führen Sie eine Analyse des Datensatzes AirPassengers153 durch.

153 interner R Datensatz. Hilfe: ?AirPassengers


WiSe 21/22 Martin Vogt | Statistik 544
14 Datenhandling

WiSe 21/22 Martin Vogt | Statistik 545


14. Datenhandling
Cartoon: Datenbereinigung

“Vergiss nicht, Deine schmutzigen Daten aufzuräumen.”154

154 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift J. A. Morrow


WiSe 21/22 Martin Vogt | Statistik 546
14. Datenhandling
Datenvorverarbeitung

Häufig müssen Daten vor der eigentlichen Analyse vorverarbeitet werden, z. B.:
I Variablen auswählen: select()
I Beobachtungen auswählen: filter()
I Variablen verändern, neu erzeugen: mutate()
I Beobachtungen zusammenfassen: summarise()
I ...
Das Paket dplyr155 bietet dazu viele Möglichkeiten.
Umfangreiche Dokumentation: http://dplyr.tidyverse.org/index.html

155 wird mit mosaic installiert und geladen


WiSe 21/22 Martin Vogt | Statistik 547
14. Datenhandling
Vorbereitung

Einlesen der Tipping156 Daten sowie laden des Pakets mosaic.

download.file("https://goo.gl/whKjnl", destfile = "tips.csv")


tips <- read.csv2("tips.csv")
# Alternativ - heruntergeladene Datei einlesen:
# tips <- read.csv2(file.choose())

library(mosaic) # Paket laden

156 Bryant,
P. G. and Smith, M (1995) Practical Data Analysis: Case Studies in Business Statistics.
Homewood, IL: Richard D. Irwin Publishing
WiSe 21/22 Martin Vogt | Statistik 548
14. Datenhandling
Variablen auswählen: select()

tips %>%
select(sex, total_bill) %>%
inspect()

##
## categorical variables:
## name class levels n missing
## 1 sex factor 2 244 0
## distribution
## 1 Male (64.3%), Female (35.7%)
##
## quantitative variables:
## name class min Q1 median Q3 max mean
## ...1 total_bill numeric 3.07 13.3475 17.795 24.1275 50.81 19.78594
## sd n missing
## ...1 8.902412 244 0

WiSe 21/22 Martin Vogt | Statistik 549


14. Datenhandling
Logik
I Logisches Und (∧): &: Eine und Verknüpfung von zwei Aussagen ist genau dann
wahr, wenn beide Aussagen wahr sind.
I Logisches Oder (∨): |: Eine oder Verknüpfung von zwei Aussagen ist genau dann
wahr, wenn mindestens eine Aussage wahr ist.
I Logische Verneinung (¬): !
I Wahr: TRUE, Falsch: FALSE
Dabei wird vektorelementweise verglichen. Zusammenfassung durch Klammern.157
x <- c(TRUE, TRUE)
y <- c(TRUE, FALSE)
x & y

## [1] TRUE FALSE

x | y

## [1] TRUE TRUE

x | (!y)

## [1] TRUE TRUE


157 Über all() (∀) und any() (∃) lassen sich Wahrheitsvektoren zusammenfassen.
WiSe 21/22 Martin Vogt | Statistik 550
14. Datenhandling
Übung 178: Logik

Was ergibt: (TRUE|FALSE) & (FALSE)


A. FALSE
B. TRUE

WiSe 21/22 Martin Vogt | Statistik 551


14. Datenhandling
Übung 179: Mengenlehre

Hundeliebhaber*in
Katzenliebhaber*in

20 10 15

Stimmt die Aussage: Wenn Beobachtungen anhand einer Und (∧) Verknüpfung
ausgewählt werden, so werden mindestens so viele Beobachtungen wie bei einer Oder
(∨) Verknüpfung ausgewählt?
I Ja.
I Nein.
WiSe 21/22 Martin Vogt | Statistik 552
14. Datenhandling
Vergleichen
I gleich, (=): ==
I ungleich (6=): !=
I kleiner, kleiner gleich (<, 6): <, <=
I größer, größer gleich (>, >): >, >=
4 == 5

## [1] FALSE
4 != 5

## [1] TRUE
4 <= 5

## [1] TRUE
4 > 5

## [1] FALSE
WiSe 21/22 Martin Vogt | Statistik 553
14. Datenhandling
Beobachtungen auswählen: filter()
tips %>%
filter(sex=="Female" & total_bill>20) %>%
inspect()

##
## categorical variables:
## name class levels n missing
## 1 sex factor 2 27 0
## 2 smoker factor 2 27 0
## 3 day factor 4 27 0
## 4 time factor 2 27 0
## distribution
## 1 Female (100%), Male (0%)
## 2 No (63%), Yes (37%)
## 3 Sat (48.1%), Sun (25.9%), Thur (22.2%) ...
## 4 Dinner (77.8%), Lunch (22.2%)
##
## quantitative variables:
## name class min Q1 median Q3 max mean
## ...1 total_bill numeric 20.27 22.585 26.41 29.995 44.3 27.726667
## ...2 tip numeric 1.50 2.900 3.61 5.000 6.5 3.800370
## ...3 size integer 2.00 2.000 3.00 4.000 6.0 3.259259
## sd n missing
## ...1 6.594811 27 0
## ...2 1.191278 27 0
## ...3 1.227649 27 0

WiSe 21/22 Martin Vogt | Statistik 554


14. Datenhandling
Offene Übung 180: Datensatz auswählen

Erzeugen Sie einen Datensatz, der nur die Variable tip enthält, und zwar für die Tische,
an denen zum Dinner geraucht wurde.

WiSe 21/22 Martin Vogt | Statistik 555


14. Datenhandling
Variablen verändern/erzeugen: mutate()

tips %>%
mutate(paid=total_bill+tip) %>%
select(paid) %>%
inspect()

##
## quantitative variables:
## name class min Q1 median Q3 max mean sd n
## ...1 paid numeric 4.07 15.475 20.6 27.7225 60.81 22.78422 9.890116 244
## missing
## ...1 0

WiSe 21/22 Martin Vogt | Statistik 556


14. Datenhandling
Übung 181: Relative Trinkgeldhöhe

tip
Wie viele Beobachtungen haben eine relative Trinkgeldhöhe total_bill über 10%?
A. 244
B. 217
C. 27

WiSe 21/22 Martin Vogt | Statistik 557


14. Datenhandling
Variablen verändern: case_when()

tips %>%
mutate(bill = case_when(total_bill <= 10 ~ "low",
total_bill <= 20 ~ "middle",
total_bill > 20 ~ "high")) %>%
select(bill) %>%
table()

## .
## high low middle
## 97 17 130

Hinweis: Anstelle der letzten Abfrage (total_bill > 20) hätte auch einfach TRUE
verwendet werden können.

WiSe 21/22 Martin Vogt | Statistik 558


14. Datenhandling
Übung 182: Variablen erzeugen
Welcher Befehl ist richtig, wenn die Personen, die Raucher sind und Dinner gegessen
haben, eine Gruppe sein sollen, alle anderen eine andere?
A.

tips %>%
mutate(party = case_when((smoker=="Yes" & time=="Dinner")
~ "Party",
TRUE ~ "No Party"))

B.

tips %>%
mutate(party = case_when((smoker=="Yes" | time=="Dinner")
~ "No Party",
TRUE ~ "Party"))

WiSe 21/22 Martin Vogt | Statistik 559


14. Datenhandling
Daten zusammenfassen: summarise()

tips %>%
dplyr::summarise(mean_bill=mean(total_bill), n=n())

## mean_bill n
## 1 19.78594 244

WiSe 21/22 Martin Vogt | Statistik 560


14. Datenhandling
Nach Gruppen zusammenfassen: group_by()

tips %>%
group_by(sex, time) %>%
dplyr::summarise(mean_bill=mean(total_bill), n=n())

## # A tibble: 4 x 4
## # Groups: sex [2]
## sex time mean_bill n
## <fct> <fct> <dbl> <int>
## 1 Female Dinner 19.2 52
## 2 Female Lunch 16.3 35
## 3 Male Dinner 21.5 124
## 4 Male Lunch 18.0 33

WiSe 21/22 Martin Vogt | Statistik 561


14. Datenhandling
Übung 183: Datenvorverarbeitung

Mit welchem Befehl können Beobachtungen mit bestimmten Eigenschaften ausgewählt


werden?
A. select()
B. filter()
C. mutate()
D. summarise()

WiSe 21/22 Martin Vogt | Statistik 562


14. Datenhandling
Die obersten n Beobachtungen: top_n()

tips %>%
group_by(sex) %>%
top_n(n=3, tip) %>%
arrange(-tip)

## # A tibble: 6 x 7
## # Groups: sex [2]
## total_bill tip sex smoker day time size
## <dbl> <dbl> <fct> <fct> <fct> <fct> <int>
## 1 50.8 10 Male Yes Sat Dinner 3
## 2 48.3 9 Male No Sat Dinner 4
## 3 39.4 7.58 Male No Sat Dinner 4
## 4 28.2 6.5 Female Yes Sat Dinner 3
## 5 34.8 5.2 Female No Sun Dinner 4
## 6 34.8 5.17 Female No Thur Lunch 4

Hinweis: Auf diese Art und Weise können auch Datensätze balanciert werden.158
158 Vgl. geschichtete Stichprobe: group_by() %>% sample_n()
WiSe 21/22 Martin Vogt | Statistik 563
14. Datenhandling
Spalten sortieren: arrange()

tips %>%
group_by(sex) %>%
top_n(n=3, tip) %>%
arrange(sex)

## # A tibble: 6 x 7
## # Groups: sex [2]
## total_bill tip sex smoker day time size
## <dbl> <dbl> <fct> <fct> <fct> <fct> <int>
## 1 34.8 5.2 Female No Sun Dinner 4
## 2 34.8 5.17 Female No Thur Lunch 4
## 3 28.2 6.5 Female Yes Sat Dinner 3
## 4 39.4 7.58 Male No Sat Dinner 4
## 5 50.8 10 Male Yes Sat Dinner 3
## 6 48.3 9 Male No Sat Dinner 4

WiSe 21/22 Martin Vogt | Statistik 564


14. Datenhandling
Verknüpfen von Daten
# ID (Zeilennummer, Schlüssel) erzeugen
tipsID <- tips %>%
dplyr::mutate(ID=row_number())

# Zwei (Teil-)Datensätze erzeugen


tips1 <- tipsID %>%
select(ID, total_bill)
tips2 <- tipsID %>%
select(ID, tip)

# Matche beide Tabellen, so dass nur Zeile von tip1 übrigbleiben,


# die eine korrespondiere Zeile in tips2 haben
tips1 %>%
inner_join(tips2, by = "ID") %>%
inspect()

##
## quantitative variables:
## name class min Q1 median Q3 max mean
## ...1 ID integer 1.00 61.7500 122.500 183.2500 244.00 122.500000
## ...2 total_bill numeric 3.07 13.3475 17.795 24.1275 50.81 19.785943
## ...3 tip numeric 1.00 2.0000 2.900 3.5625 10.00 2.998279
## sd n missing
## ...1 70.580923 244 0
## ...2 8.902412 244 0
## ...3 1.383638 244 0

WiSe 21/22 Martin Vogt | Statistik 565


14. Datenhandling
Offene Übung 184: Daten zusammenfassen

Berechnen Sie den Mittelwert und die Standardabweichung der relativen Trinkgeldhöhe,
je nachdem ob es sich um eine “Party” oder nicht gehandelt hat.

WiSe 21/22 Martin Vogt | Statistik 566


14. Datenhandling
Ergebnisse von mosaic-Befehlen als Tabelle ausgeben lassen

Häufig ist es sinnvoll, sich die Ergebnisse einer statistischen Analyse in Tabellenform159
ausgeben zu lassen. So erwartet z. B. die Diagrammbefehle gf_XXX160 eine Tabelle als
Eingabe. Die Funktion df_stats161 leistet das:

df_stats( tip ~ sex+smoker, data = tips, mean, sd)

## sex smoker mean_tip sd_tip


## 1 Female No 2.773519 1.128425
## 2 Male No 3.113402 1.489559
## 3 Female Yes 2.931515 1.219916
## 4 Male Yes 3.051167 1.500120

159 genauer:Als Dataframe


160 Paket ggformula
161 über mosaic geladen

WiSe 21/22 Martin Vogt | Statistik 567


14. Datenhandling
Ausblick: Tidy Data

Tidy data:162
I Jede Variable ist eine Spalte.
I Jede Beobachtung ist eine Zeile.
I Jeder Wert ist eine Zelle.

Herausforderungen:
I Breiter Datensatz: Eine Variable über mehrere Spalten.
I Langer Datensatz: Eine Beobachtung über mehrere Zeilen.

# Ggfs. einmalig installieren


install.packages("tidyr")
# Paket laden
library(tidyr)

162 Wickham, H. (2014). Tidy data. Journal of Statistical Software, 59(10), 1-23.
WiSe 21/22 Martin Vogt | Statistik 568
14. Datenhandling
Langer Datensatz über gather()

Überführt einen breiten Datensatz in einen langen:

tips_long <- tips %>%


dplyr::mutate(id = row_number()) %>%
dplyr::select(id, tip, total_bill) %>%
gather(key = "Variable", value = "Wert", -id)

str(tips_long)

## ’data.frame’: 488 obs. of 3 variables:


## $ id : int 1 2 3 4 5 6 7 8 9 10 ...
## $ Variable: chr "tip" "tip" "tip" "tip" ...
## $ Wert : num 1.01 1.66 3.5 3.31 3.61 4.71 2 3.12 1.96 3.23 ...

WiSe 21/22 Martin Vogt | Statistik 569


14. Datenhandling
Breiter Datensatz über spread()

Überführt einen langen Datensatz in einen breiten:

tips_wide <- tips_long %>%


spread(key = "Variable", value="Wert")

str(tips_wide)

## ’data.frame’: 244 obs. of 3 variables:


## $ id : int 1 2 3 4 5 6 7 8 9 10 ...
## $ tip : num 1.01 1.66 3.5 3.31 3.61 4.71 2 3.12 1.96 3.23 ...
## $ total_bill: num 17 10.3 21 23.7 24.6 ...

WiSe 21/22 Martin Vogt | Statistik 570


14. Datenhandling
Übung 185: Datenvorverarbeitung

Welcher Datensatz hat mehr Zeilen?


A. Ein langer.
B. Ein breiter.
C. Beide gleich.

WiSe 21/22 Martin Vogt | Statistik 571


15 Wahrscheinlichkeitsrechnung

WiSe 21/22 Martin Vogt | Statistik 572


15. Wahrscheinlichkeitsrechnung
Unsicherheit

Unsicherheit entsteht durch die Möglichkeit von Alternativen:


A. Wird es morgen regnen?
B. Wer wird nächste Saison Deutscher Fußballmeister?
C. Ist die Angeklagte schuldig?
D. Hilft Lernen beim Klausurerfolg?
E. Wann wurde Dschingis Khan geboren?
F. Wenn der Prager Fenstersturz nicht passiert wäre, wäre der 30jährige Krieg dann
vermieden worden?
G. Kann ich beim Mensch-ärgere-Dich-nicht Spiel mit dem nächsten Wurf
rauskommen?
Unsicherheit von Aussagen kann also die Vergangenheit, Gegenwart und Zukunft
betreffen. Teilweise (E) kann sie auch aus Unwissenheit entstehen.
Wo begegnet Ihnen Unsicherheit?

WiSe 21/22 Martin Vogt | Statistik 573


15. Wahrscheinlichkeitsrechnung
Zufallsexperiment

I Ein Zufallsexperiment ist ein Vorgang bei dem unter (scheinbar) gleichen
Voraussetzungen unterschiedliche Ereignisse eintreten können.
I Sei ωi (gr.: omega) ein einzelnes Elementarereignis (Realisation), z. B.
ωi =“Hannover 96” oder ωi =“Der DAX steigt morgen um 5 %”, oder ωi =“Die
Münze zeigt Kopf”.
I Ω (gr.: Omega) ist die Menge aller Elementarereignisse, z. B.
Ω = {("Die Münze zeigt Kopf"), ("Die Münze zeigt Zahl")}, oder für die Anzahl
Kunden Ω = N0 = {0, 1, 2, . . .}.
I Sei A ein Ereignis, welches aus mehreren Elementarereignissen zusammengesetzt
sein kann. z. B. Wurf eines Würfels mit Ω = {ω1 , ω2 , . . . ω6 } wobei ωi : “Würfel
zeigt i” und A = {ω2 , ω4 , ω6 }. Das gegenteilige Ergeignis (Komplement) ist dann
A C = {ω ⊂ Ω : ω ∈ / A}.
I W sei unser (Vor-)wissen, z. B. ein fairer, sechs seitiger Würfel.

WiSe 21/22 Martin Vogt | Statistik 574


15. Wahrscheinlichkeitsrechnung
Übung 186: Ereignis

Wie würden Sie das Ereignis AC zu A = {ω2 , ω4 , ω6 } beim Würfeln beschreiben?


A. Der Würfel zeigt eine gerade Zahl.
B. Der Würfel zeigt eine ungerade Zahl.

WiSe 21/22 Martin Vogt | Statistik 575


15. Wahrscheinlichkeitsrechnung
Notation von Ereignissen

I Ω ist das sichere Ereignis163 , ∅ ist das ausgeschlossene Ereignis.


I A ∪ B heißt A oder B (oder beides): A ∪ B = {w ∈ Ω : ω ∈ A ∨ ω ∈ B}164 .
I A ∩ B heißt A und B: A ∩ B = {w ∈ Ω : ω ∈ A ∧ ω ∈ B}165 .
I A und B heißen disjunkt, wenn A ∩ B = ∅ (leere Menge) gilt.
I Beispiel: A ∩ AC = ∅, A ∪ AC = Ω.

163 Irgendwaswird passieren. . .


164 Vereinigung, ∨: logisches oder.
165 Durchschnitt, ∧: logisches und.

WiSe 21/22 Martin Vogt | Statistik 576


15. Wahrscheinlichkeitsrechnung
Venn-Diagramm

Alle: Ω
65000

Katzenliebhaber*in: B

10000 10000 15000

Hundeliebhaber*in: A

I Es gibt 10000 Hunde- und Katzenliebhaber*innen: A ∩ B.


I Es gibt 35000 Hunde- oder Katzenliebhaber*innen: A ∪ B.
I Es gibt 30000, die weder Hunde- noch Katzenliebhaber*innen sind: ( A ∪ B)C .

WiSe 21/22 Martin Vogt | Statistik 577


15. Wahrscheinlichkeitsrechnung
Wahrscheinlichkeit

Die Wahrscheinlichkeit P eines Ereignisses ist ein Maß für die Unsicherheit:
P( A|W ) ∈ [0, 1], die Wahrscheinlichkeit von A, vor unserem Wissenshintergrund W.
Wenn W klar ist, wird es ggfs. nicht angegeben.
Für eine Wahrscheinlichkeit gelten folgende Axiome:
I 0 6 P( A|W ) 6 1.
I P(Ω|W ) = 1.
I P( A ∪ B|W ) = P( A|W ) + P( B|W ) wenn A ∩ B = ∅ gilt.

WiSe 21/22 Martin Vogt | Statistik 578


15. Wahrscheinlichkeitsrechnung
Übung 187: Teilmenge

Was gilt, wenn A eine Teilmenge von B ist, d. h., A ⊂ B166 ?


A. P( A|W ) 6 P( B|W )
B. P( A|W ) > P( B|W )

166 A ⊂ B: ∀ω ∈ A : ω ∈ B (∀: Für alle.)


WiSe 21/22 Martin Vogt | Statistik 579
15. Wahrscheinlichkeitsrechnung
Übung 188: Komplement

Stimmt die Aussage: P( AC |W ) = 1 − P( A|W )?


I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 580


15. Wahrscheinlichkeitsrechnung
Übung 189: Interpretation Wahrscheinlichkeit

Welche Alternative beschreibt die Aussage “Die Regenwahrscheinlichkeit für Dortmund


liegt morgen bei 10 %” am Besten?
A. Es wird 10 % der Zeit in Dortmund regnen.
B. Es wird auf 10 % des Stadtgebietes von Dortmund regnen.
C. Bei einer Wetterlage und -prognose wie heute, hat es in 10 % der Fälle morgen
geregnet.

WiSe 21/22 Martin Vogt | Statistik 581


15. Wahrscheinlichkeitsrechnung
Cartoon: Wahrscheinlichkeit

“Na, das nenne ich mal eine 25 % Chance für gutes Wetter!”167

167 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift M. Huberty


WiSe 21/22 Martin Vogt | Statistik 582
15. Wahrscheinlichkeitsrechnung
Bedingte Wahrscheinlichkeit

I Die bedingte Wahrscheinlichkeit von A gegeben B, d. h., von A unter der


Bedingung B, ist die Wahrscheinlichkeit von A, wenn wir wissen, dass B
eingetreten ist:
P( A ∩ B|W )
P( A| B, W ) =
P( B|W )
I Umgestellt:
P( A ∩ B|W ) = P( A| B, W ) · P( B|W )
.
Sei W ein fairer, sechseitiger Würfel mit Ω = {ω1 , ω2 , . . . ω6 }: Mit B = {ω2 , ω4 , ω6 }
1
und A = {ω2 } gilt P( A| B, W ) = 6
1 = 1
3 Wenn der Würfel eine gerade Zahl zeigt, ist dies
2
in einem von drei Fällen eine 2.

WiSe 21/22 Martin Vogt | Statistik 583


15. Wahrscheinlichkeitsrechnung
Übung 190: Bedingte Wahrscheinlichkeit

Was gilt für die bedingte Wahrscheinlichkeit?


A. P( A| B, W ) 6 P( A|W )
B. P( A| B, W ) > P( A|W )
C. Keine pauschale Aussage möglich.

WiSe 21/22 Martin Vogt | Statistik 584


15. Wahrscheinlichkeitsrechnung
Unabhängigkeit

I Zwei Ereignisse sind unabhängig, wenn gilt:

P( A ∩ B|W ) = P( A|W ) · P( B|W )

I Wenn zwei Ereignisse unabhängig sind, gilt:

P( A| B, W ) = P( A|W ), P( B| A, W ) = P( B|W )

D. h., dadurch, dass ein Ereignis eingetreten ist, ändert sich nicht die
Wahrscheinlichkeit des anderen.168

168 Eine harte Forderung: Wenn in China ein Sack Reis umfällt. . .
WiSe 21/22 Martin Vogt | Statistik 585
15. Wahrscheinlichkeitsrechnung
Übung 191: Unabhängigkeit

Welche Ereignisse sind vermutlich unabhängig?


A. Wiederholtes Werfen einer fairen Münze.
B. Größe und Gewicht einer Person.
C. Lernen und Klausurerfolg.
D. Bildungsabschluss und Gehalt.

WiSe 21/22 Martin Vogt | Statistik 586


15. Wahrscheinlichkeitsrechnung
Cartoon: Unabhängigkeit

“Nachdem Sie am selben Tag das Lotto 6 aus 49 und den Eurojackpot gewannen gingen
Hans und Peter feiern.”169

169 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift Michael Albers


(Übersetzung / Anpassung KL)
WiSe 21/22 Martin Vogt | Statistik 587
15. Wahrscheinlichkeitsrechnung
Das Gesetz der großen Zahl
Wenn ein Zufallsexperiment beliebig oft wiederholt werden kann170 , dann nähert sich
die empirische Wahrscheinlichkeit171 der theoretischen Wahrscheinlichkeit172 an.

1.0
0.8
0.6 Wurf einer fairen Münze
Anteil Kopf

0.4
0.2
0.0

0 100 200 300 400 500

Würfe

170 z. B. beim (wiederholten) Glücksspiel


171 d. h. die relative Häufigkeit des Ereignisses
172 z. B. bestimmbar, wenn alle Elementarereignisse die gleiche Wahrscheinlichkeit haben

WiSe 21/22 Martin Vogt | Statistik 588


15. Wahrscheinlichkeitsrechnung
Übung 192: Ziegenproblem

Nehmen Sie an, Sie wären in einer Spielshow und hätten die Wahl zwischen drei
Toren. Hinter einem der Tore ist ein Auto, hinter den anderen sind Ziegen. Sie
wählen ein Tor, sagen wir, Tor Nummer 1, und der Showmaster, der weiß, was
hinter den Toren ist, öffnet ein anderes Tor, sagen wir, Nummer 3, hinter dem
eine Ziege steht. Er fragt Sie nun: “Möchten Sie das Tor Nummer 2?”" Ist es
von Vorteil, die Wahl des Tores zu ändern?173

A. Ja, wechseln erhöht die Gewinnwahrscheinlichkeit.


B. Nein, wechseln senkt die Gewinnwahrscheinlichkeit.
C. Es ist egal ob ich wechsel.

173 Craig F. Whitaker: Ask Marilyn. Parade Magazine, 9. September 1990, S. 16.
WiSe 21/22 Martin Vogt | Statistik 589
15. Wahrscheinlichkeitsrechnung
Totale Wahrscheinlichkeit

5 % der Bauteile von Lieferant “Gut und teuer” sind defekt, 20 % der Bauteile von
“Schnell und billig”. Sie bekommen 90 % der Bauteile von “Schnell und billig” (W). Wie
groß ist die Wahrscheinlichkeit, dass ein Bauteil defekt ist.
I Angenommen Sie bekommen 10000 Teile. Dann sind 9000 = 10000 · 0, 9 von
“Schnell und billig”, 1000 = 10000 · (1 − 0, 9) von “Gut und teuer”.
I Von den 9000 “Schnell und billig” sind 9000 · 0, 2 = 1800 defekt, von den 1000
“Gut und teuer” sind es 1000 · 0, 05 = 50. Macht zusammen 1800 + 50 = 1850 von
10000, also P(Defekt|W ) = 10000
1850 = 0, 185: Man kann also aus den bedingten

Einzelwahrscheinlichkeiten die Gesamtwahrscheinlichkeit berechnen: Satz von der


totalen Wahrscheinlichkeit174

P( A|W ) = P( A| B, W ) · P( B|W ) + P( A| BC , W ) · P( BC |W )

174 Funktioniert analog für mehrere Ereignisse Bi mit Ω = ∪i Bi mit Bi ∩ Bj = ∅∀i 6= j.


WiSe 21/22 Martin Vogt | Statistik 590
15. Wahrscheinlichkeitsrechnung
Übung 193: Totale Wahrscheinlichkeit

Wofür steht das A im Beispiel zur totalen Wahrscheinlichkeit?


A. Dafür, dass ein Bauteil von “Gut und teuer” kommt.
B. Dafür, dass ein Bauteil von “Schnell und billig” kommt.
C. Dafür, dass ein Bauteil defekt ist.
D. Dafür, dass ein Bauteil nicht defekt ist.

WiSe 21/22 Martin Vogt | Statistik 591


15. Wahrscheinlichkeitsrechnung
Übung 194: Gegenwahrscheinlichkeit

Wie groß ist im Beispiel P( AC |W )?


A. P( AC |W ) = 0, 8
B. P( AC |W ) = 0, 2
C. P( AC |W ) = 0, 05
D. P( AC |W ) = 0, 185
E. P( AC |W ) = 0, 815

WiSe 21/22 Martin Vogt | Statistik 592


15. Wahrscheinlichkeitsrechnung
Satz von Bayes

P( B| A, W ) · P( A|W )
P( A| B, W ) =
P( B|W )

I P( A| B, W ): Bedingte Wahrscheinlichkeit von A gegeben B.


I P( B| A, W ): Bedingte Wahrscheinlichkeit von B gegeben A.
I P( A|W ), P( B|W ): Unbedingte Wahrscheinlichkeit175 von A bzw. B.

Mit Hilfe des Satzes von Bayes können Sie die Bedingungen umkehren!
Tipp: Statt mit Wahrscheinlichkeiten absolute Häufigkeiten verwenden.

175 auch marginale Wahrscheinlickeit.


WiSe 21/22 Martin Vogt | Statistik 593
15. Wahrscheinlichkeitsrechnung
Spambeispiel (I/II)

I A: eine Spam-Email, AC : keine Spam-Email.


I B: das Wort “Viagra” in der Email, BC : das Wort “Viagra” nicht in der Email.
I P( B| A, W ) = 0, 5, d. h., 50 % der Spamemails enthalten das Wort “Viagra”,
P( B| AC , W ) = 0, 001, d. h. nur eine von 1000 Nicht-Spam Emails enthält das Wort
“Viagra”.
I P( A|W ) = 0, 2, d. h., die unbedingte Wahrscheinlichkeit für Spam liegt bei 20 % (A
priori).
I Gesucht: P( A| B, W ), d. h. die Wahrscheinlichkeit, dass es sich um Spam handelt,
wenn das Wort “Viagra” in der Email vorkommt (A posteriori).

WiSe 21/22 Martin Vogt | Statistik 594


15. Wahrscheinlichkeitsrechnung
Spambeispiel (II/II)

1. Bestimmung der Wahrscheinlichkeit, dass das Wort “Viagra” in einer Email ist:
Satz von der totalen Wahrscheinlichkeit:

P( B|W ) = P( B| A, W ) · P( A|W ) + P( B| AC , W ) · P( AC |W )
= 0, 5 · 0, 2 + 0, 001 · (1 − 0, 2)
= 0, 10008

2. Bestimmung der Wahrscheinlichkeit, dass es sich um eine Spam-Email handelt,


wenn das Wort “Viagra” in einer Email ist: Satz von Bayes:
P( B| A, W ) · P( A|W )
P( A| B, W ) =
P( B|W )
0, 5 · 0, 2
=
0, 10008
= 0, 9992006

Die Wahrscheinlichkeit, dass es sich bei der Email mit dem Wort “Viagra” um
Spam handelt liegt bei über 99,9%!
WiSe 21/22 Martin Vogt | Statistik 595
15. Wahrscheinlichkeitsrechnung
Übung 195: Satz von Bayes

Ein Test schlägt immer Alarm, wenn ein Fall, z. B. Krankheit, vorliegt, und es gibt nur
in 5 % der Fälle einen Fehlalarm. A priori ist einer von 1000 ein Fall, d. h. z. B. krank.
Wie hoch ist die Wahrscheinlichkeit, dass ein Fall, d. h. z. B. Krankheit, vorliegt, wenn
ein Alarm erfolgt?
A. ≈ 100%
B. ≈ 95%
C. ≈ 50%
D. ≈ 2%

WiSe 21/22 Martin Vogt | Statistik 596


15. Wahrscheinlichkeitsrechnung
Offene Übung 196: Risk Literacy

Bitte nehmen Sie an folgendem Test teil:


http://www.riskliteracy.org/

WiSe 21/22 Martin Vogt | Statistik 597


15. Wahrscheinlichkeitsrechnung
Sensitivität (True positive) und Spezifität (True negative)

I Sensitivität: Anteil der richtig positiven Testergebnisse, z. B. Krankheit korrekt


erkannt (True positive).176
I Spezifität: Anteil der richtig negativen Testergebnisse, z. B. Gesundheit korrekt
erkannt (True negative).177
I Prävalenz: Anteil der an einem Stichtag erkrankten Personen.

176 False positive sind diejenigen, die als krank diagnostiziert werden, es aber nicht sind.
177 False negative sind diejenigen, die als gesund diagnostiziert werden, es aber nicht sind.
WiSe 21/22 Martin Vogt | Statistik 598
15. Wahrscheinlichkeitsrechnung
Übung 197: Sensitivität

Was bedeutet die Aussage: “Der Test hat eine Sensitivität von 95 %”?
A. Von 100 Kranken werden 5 fälschlicherweise als gesund eingestuft.
B. Von 100 Gesunden werden 5 fälschlicherweise als krank eingestuft.

WiSe 21/22 Martin Vogt | Statistik 599


15. Wahrscheinlichkeitsrechnung
Odds und Odds Ratio

Angenommen in einem Kurs sitzen 100 Studierende, 90 arbeiten mit, 10 nicht. Von den
90, die mitarbeiten, bestehen 80 die Klausur, von den 10, die nicht mitarbeiten, 1.178
I Die Chance (engl. odds) die Klausur zu bestehen, wenn mitgearbeitet wird, liegt
bei 80 : 10 = 8
P( A| B, W )
Odds( A| B, W ) =
1 − P( A| B, W )
.
I Die Chance zu bestehen, wenn nicht mitarbeitet wird, liegt bei 1 : 9.
I Das Chancenverhältnis (Quotenverhältnis, engl. odds ratio, OR), liegt bei
8 : 19 = 72 - d. h. die Chance die Klausur zu bestehen ist 72 mal höher, wenn
mitgearbeitet wird als wenn nicht mitgearbeitet wird.

Odds( A| B, W ) P( A| B, W ) · (1 − P( A| BC , W )
OddsRatio = =
Odds( A| BC , W ) P( A| BC , W ) · (1 − P( A| B, W )

178 Rein fiktive Zahlen!


WiSe 21/22 Martin Vogt | Statistik 600
15. Wahrscheinlichkeitsrechnung
Odds Ratio aus Vierfeldertafel

Test positiv Test negativ Summe


Realität positiv n11 n12 n 1·
Realität negativ n21 n22 n 2·
Summe n ·1 n ·2 n

n11
n21
OddsRatio = n12
n22

I Sensitivität179 : nn11

I Spezifität180 : nn22

179 True positive rate, TPR


180 True negative rate, TNR
WiSe 21/22 Martin Vogt | Statistik 601
15. Wahrscheinlichkeitsrechnung
Offene Übung 198: Gesichtserkennung
Angenommen 1 % der Bevölkerung sind (schwere) Straftäter*innen. Eine
Gesichterkennungssoftware erkennt mit 70 % Genauigkeit
Straftäter*innen wieder, und nur in 1 % der Fälle wird jemand fälschlich verdächtigt181 .
Gehen Sie von einer Besucheranzahl von 100000 Personen aus. Füllen Sie bitte die
Vierfeldertafel.

Gesichtserkennung Gesichtserkennung
Alarm kein Alarm Summe
Straftäter*in n11 = n12 = n 1· =

kein(e) n21 = n22 = n 2· =


Straftäter*in
Summe n ·1 = n ·2 = n = 100000

181 https://www.bmi.bund.de/SharedDocs/kurzmeldungen/DE/2017/12/sicherheitsbahnhof-

verlaengerung.html
WiSe 21/22 Martin Vogt | Statistik 602
15. Wahrscheinlichkeitsrechnung
Offene Übung 199: Präzision Gesichtserkennung

Wie hoch ist der Anteil der richtig erkannten Straftäter*innen, d. h. wie viele der Alarme
sind berechtigt, d. h. a posteriori Wahrscheinlichkeit ein(e) Straftäter*in zu sein, wenn
ein Alarm vorliegt?

WiSe 21/22 Martin Vogt | Statistik 603


15. Wahrscheinlichkeitsrechnung
Offene Übung 200: Odds Ratio Gesichtserkennung

Wie ändert sich die Chance ein(e) Straftäter*in zu sein, wenn ein Alarm vorliegt?

WiSe 21/22 Martin Vogt | Statistik 604


16 Normalverteilung

WiSe 21/22 Martin Vogt | Statistik 605


16. Normalverteilung
10 Deutsche Mark

WiSe 21/22 Martin Vogt | Statistik 606


16. Normalverteilung
Zentraler Grenzwertsatz

WiSe 21/22 Martin Vogt | Statistik 607


16. Normalverteilung
Zentraler Grenzwertsatz

P
Verteilung der Summe X = in=1 Xi von unabhängigen, identisch verteilten
Zufallsvariablen Xi , i = 1, ...n einer beliebigen Verteilung jeweils mit Erwartungswert µ
und Standardabweichung

σ nähert sich für immer größere n immer besser der
N (nµ, σ n)-Verteilung an.
Dies ist eine Erklärung für die Bedeutung der Normalverteilung.

WiSe 21/22 Martin Vogt | Statistik 608


16. Normalverteilung
Zufallsvariable

I Eine Zufallsvariable X ist eine Variable, deren Wert x vom Zufall abhängt.
I Beobachtungen xi können aufgefasst werden als Realisationen von Zufallsvariablen
X.
I Die Verteilungsfunktion F( x) sagt, wie wahrscheinlich es ist, einen Wert 6 x zu
beobachten: F(x) = P(X 6 x), und damit 0 6 F(x) 6 1.
I Durch eine zufällige Stichprobe oder eine zufällige Zuordnung im Rahmen eines
Experimentes soll sichergestellt werden, dass die Beobachtungen xi , i = 1, . . . , n
unabhängig und identisch verteilt sind.

WiSe 21/22 Martin Vogt | Statistik 609


16. Normalverteilung
Normalverteilung
Die Punkte einer Klausur seien normalverteilt mit µ = 55 (Mittelwert der
Population / Erwartungswert) und σ = 15 (Standardabweichung Population).

Dichtefunktion

0.02
f(x)=F'(x)

0.01

0.00
25 50 75 100
Punkte

Verteilungsfunktion
1.00

0.75
F(x)=P(X ≤ x)

0.50

0.25

0.00
25 50 75 100
Punkte

WiSe 21/22 Martin Vogt | Statistik 610


16. Normalverteilung
Dichte- und Verteilungsfunktion der Normalverteilung

I Dichtefunktion:
1 ( x − µ )2

f ( x) = √ e 2σ2
2πσ2
I Verteilungsfunktion:
Zx ( u − µ )2
1 −
F( x) = √ e 2σ2 du
−∞ 2πσ2
Lage und Streuung:
R∞
I µ = E(X ) = −∞ x · f (x)dx: Mittelwert der Verteilung (Erwartungswert).
R∞
I σ2 = Var(X ) = −∞ ( x − µ)2 · f ( x)dx: Varianz der Verteilung.

Unter der Annahme einer Normalverteilung können abhängig von den Parametern µ und
σ Wahrscheinlichkeiten berechnet werden.

WiSe 21/22 Martin Vogt | Statistik 611


16. Normalverteilung
Parameter Normalverteilung

Dichtefunktion mit µ=10 und σ=5

0.15
f(x)=F'(x)

0.10

0.05

0.00
−10 0 10 20 30
x

Dichtefunktion mit µ=15 und σ=5

0.15
f(x)=F'(x)

0.10

0.05

0.00
−10 0 10 20 30
x

Dichtefunktion mit µ=15 und σ=2.5

0.15
f(x)=F'(x)

0.10

0.05

0.00
−10 0 10 20 30
x

WiSe 21/22 Martin Vogt | Statistik 612


16. Normalverteilung
Verteilungsfunktion
Angenommen, unter 45 Punkten, d. h., mit 44.5 Punkten oder weniger, fällt Mensch
leider durch, dann liegt die Durchfallwahrscheinlichkeit bei 0.24:

p = F ( x ) = P( X 6 x )

xpnorm(44.5, mean = 55, sd = 15)

0.03
z = −0.7

0.02
density

0.01

0.00

0 30 60 90 120
x

## [1] 0.2419637

WiSe 21/22 Martin Vogt | Statistik 613


16. Normalverteilung
Übung 201: Eigenschaften Verteilungsfunktion I

Stimmt die Aussage: Die Verteilungsfunktion ist monoton steigend, d. h., mit größerem
x wird F(x) zumindest nicht kleiner?
I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 614


16. Normalverteilung
Übung 202: Eigenschaften Verteilungsfunktion II

Was gilt für x → ∞?


A. F(x) geht gegen 0.
B. F(x) geht gegen 1.
C. F(x) geht gegen Unendlich.
D. Kann nicht beantwortet werden.

WiSe 21/22 Martin Vogt | Statistik 615


16. Normalverteilung
Standardisierung, z-Transformation

z-Transformation, Standardisierung: Überführung einer beliebigen Verteilung in eine


mit µ = 0 und σ = 1:
x−µ
z=
σ
.182

zscore(c(0,1,2))

## [1] -1 0 1

zscore(c(100,200,300))

## [1] -1 0 1

182 Symbol für die Verteilungsfunktion einer Standardnormalverteilung: Φ(·).


WiSe 21/22 Martin Vogt | Statistik 616
16. Normalverteilung
Übung 203: z-Wert

Welche der Interpretationen von z = −2 ist falsch?


A. Der Wert ist unterdurchschnittlich.
B. Der Wert liegt 2 Standardabweichungen vom Mittelwert entfernt.
C. x183 ist kleiner als 0.

183 x = z·σ+µ
WiSe 21/22 Martin Vogt | Statistik 617
16. Normalverteilung
Übung 204: Verteilungsfunktion (I/II)
Ein Studierender hat 60 Punkte erreicht:

xpnorm(60, mean = 55, sd = 15)

0.03
z = 0.33

0.02
density

0.01

0.00

0 30 60 90 120
x

## [1] 0.6305587

WiSe 21/22 Martin Vogt | Statistik 618


16. Normalverteilung
Übung 204: Verteilungsfunktion (II/II)

Welche Aussage stimmt?


A. ca. 37% der Population schneiden schlechter ab als er.
B. ca. 63% der Population schneiden besser ab als er.
C. Er ist 13 Standardabweichungen über dem Durchschnitt.
D. Keine der Antworten A–C stimmt.

WiSe 21/22 Martin Vogt | Statistik 619


16. Normalverteilung
68-95-99,7 % Regel
Bei einer Normalverteilung liegen ca.
I 68% der Werte im Bereich µ ± 1 · σ
I 95% der Werte im Bereich µ ± 2 · σ
I 99, 7% der Werte im Bereich µ ± 3 · σ.

xpnorm(c(-2,2)) # Standardnormalverteilung

0.4

0.3

probability
density

A:0.0228
0.2
B:0.9545
C:0.0228

0.1

0.0

−4 −2 0 2 4

## [1] 0.02275013 0.97724987


WiSe 21/22 Martin Vogt | Statistik 620
16. Normalverteilung
Übung 205: 68-95-99,7 % Regel

Die Daten seien normalverteilt mit µ = 100 und σ = 15. Ist dann x = 150 ein üblicher
Wert?
I Ja.
I Nein.

WiSe 21/22 Martin Vogt | Statistik 621


16. Normalverteilung
Offene Übung 206: Standardisierung

Welchen z-Wert184 hat ein Kandidat mit x = 130, wenn µ = 100 und σ = 15 ist?

184 standardisiert, z-transformiert


WiSe 21/22 Martin Vogt | Statistik 622
16. Normalverteilung
Quantilsfunktion
Man gehört zu den 10% besten185 ab 74 Punkten:
q = F−1 ( p)

xqnorm(0.9, mean = 55, sd = 15)

0.03
z = 1.28

0.02
density

0.01

0.00

0 30 60 90 120
x

## [1] 74.22327
185 90% sind nicht besser
WiSe 21/22 Martin Vogt | Statistik 623
16. Normalverteilung
Übung 207: Quantilsfunktion

Welche Aussage stimmt? (p: Wahrscheinlichkeit, dass q nicht überschritten wird)


A. Je kleiner p, desto kleiner q.
B. Je kleiner p, desto größer q.
C. p und q stehen in keinem Zusammenhang.

WiSe 21/22 Martin Vogt | Statistik 624


16. Normalverteilung
Übung 208: Quantil berechnen

Mit bis zu wie vielen Punkten zählt man zu dem oberen Drittel der Klausur?
A. xqnorm(1/3, mean = 55, sd = 15): 49 Punkte.
B. xqnorm(2/3, mean = 55, sd = 15): 61 Punkte.

WiSe 21/22 Martin Vogt | Statistik 625


16. Normalverteilung
Überprüfung Normalverteilungsannahme
Ein Q-Q Plot (gf_qq()) vergleicht die Quantile einer Verteilung z. B. mit den
theoretischen einer Normalverteilung. Bei einer guten Übereinstimmung liegen die
Punkte auf der Diagonalen.186

2
0.4

1
0.3

sample
density

0
0.2

−1

0.1
−2

0.0
−3 −2 −1 0 1 2 −3 −2 −1 0 1 2 3
xnorm theoretical
0.20

15
0.15

10
sample
density

0.10

0.05
0

0.00 −5
0 5 10 15 −3 −2 −1 0 1 2 3
xchi2 theoretical

186 Formale Überprüfung z. B. über Shapiro-Wilk Test (shapiro.test()).


WiSe 21/22 Martin Vogt | Statistik 626
16. Normalverteilung
Six Sigma

Ein Fertigungsprozess funktioniere zum sog. 3σ Niveau, d. h., die erlaubten


Abweichungen (Toleranz) sind innerhalb von 3 Standardabweichungen um den
Mittelwert:

x3 <- pnorm(-3)

Dann wird bei 1.000.000 = 106 Produkten ein Ausschuss von

(2*x3) * 1e06

## [1] 2699.796

erwartet.187

187 Innerhalb von Six Sigma wird zur Berechnung des erwarteten Fehleranteils (“DPMO”) zusätzlich
eine langfristige Mittelwertsberschiebung um 1.5σ berücksichtigt, die hier ignoriert wird.
WiSe 21/22 Martin Vogt | Statistik 627
16. Normalverteilung
Übung 209: Six Sigma

Wie viele Fehler pro Million werden erwartet, wenn der akzeptierte Bereich innerhalb
von 6σ liegt?188
A. ≈ 2700
B. ≈ 65
C. ≈1
D. < 0.1

188 Ohne Berücksichtigung der Mittelwertsverschiebung.


WiSe 21/22 Martin Vogt | Statistik 628
16. Normalverteilung
Übung 210: Score

Gabi und Klaus haben zwei verschiedene Tests geschrieben. Dabei hat Gabi bei Test A
(µ = 60, σ = 10) 75 Punkte erreicht, Klaus bei Test B (µ = 250, σ = 25) 275 Punkte.
Beide Tests sollen das Gleiche testen und die Testergebnisse seien normalverteilt. Wer
von beiden hat besser abgeschnitten?
A. Gabi
B. Klaus
C. Beide gleich gut.

WiSe 21/22 Martin Vogt | Statistik 629


16. Normalverteilung
Offene Übung 211: Value-at-Risk I/II

Zahlreiche Fonds (etwa viele sogenannte UCITS) müssen täglich einen Value-at-Risk
(VaR) berechnen. Die Europäische Wertpapier- und Marktaufsichtsbehörde (ESMA)
gibt hierzu in den Richtlinien 10/788 die folgende Erklärung:
“The VaR approach measures the maximum potential loss at a given confidence level
(probability) over a specific time period under normal market conditions. For example if
the VaR (1 day, 99%) of a UCITS equals $4 million, this means that, under normal
market conditions, the UCITS can be 99 % confident that a change in the value of its
portfolio would not result in a decrease of more than $4 million in 1 day.”

WiSe 21/22 Martin Vogt | Statistik 630


16. Normalverteilung
Offene Übung 211: Value-at-Risk II/II

1. Interpretieren Sie die Erklärung und das Beispiel der ESMA in Bezug auf den VaR.
2. Sie möchten den VaR für ihr Portfolio berechnen. Dieses bestehe aus 100 Aktien
der Firma Autokomplex mit einem momentanen Wert von je 46 Euro. Eine häufig
gemachte Annahme in der Finanzwelt ist, dass die 1-Tages-Verluste der Aktien
annähernd normalverteilt sind. Sie haben erfahren, dass die Standardabweichung
der 1-Tages Verluste 0,017 und der Erwartungswert 0 beträgt. Berechnen Sie den
1-Tages VaR mit 99 % Konfidenzlevel Ihres Portolios und interpretieren Sie den
Wert.
3. Wo sehen Sie allgemein Schwierigkeiten bei der Berechnung des VaR für
Portfolios/Fonds?

WiSe 21/22 Martin Vogt | Statistik 631


17 Organisatorisches

WiSe 21/22 Martin Vogt | Statistik 632


17. Organisatorisches
Literatur (Auswahl)

I David M. Diez, Christopher D. Barr, Mine Çetinkaya-Rundel (2014): Introductory


Statistics with Randomization and Simulation,
https://www.openintro.org/stat/textbook.php?stat_book=isrs
I Nicholas J. Horton, Randall Pruim, Daniel T. Kaplan (2018): Project MOSAIC
Little Books A Student’s Guide to R, https://github.com/ProjectMOSAIC/
LittleBooks/raw/master/StudentGuide/MOSAIC-StudentGuide.pdf
I Chester Ismay, Albert Y. Kim (2018): ModernDive – An Introduction to Statistical
and Data Sciences via R, http://moderndive.com/
I Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani (2013): An
Introduction to Statistical Learning – with Applications in R,
http://www-bcf.usc.edu/~gareth/ISL/

WiSe 21/22 Martin Vogt | Statistik 633


17. Organisatorisches
Lernergebnisse

Die Studierenden können nach erfolgreichem Abschluss des Moduls:


I die Grundlagen deskriptiver und induktiver Statistik erklären und anwenden,
I beurteilen, für welche Fragestellungen in Theorie und Praxis qualitative oder
quantitative Herangehensweisen geeignet sind,
I empirische Analysen konzipieren und vorbereiten,
I statistische Verfahren der quantitativen Datenanalyse anwenden,
I die Statistik-Software R zur Datenanalyse verwenden,
I selbständig ein passendes Forschungsdesign für wirtschaftswissenschaftliche
Fragestellungen auswählen.

WiSe 21/22 Martin Vogt | Statistik 634


17. Organisatorisches
Motivation: Statistik

Statistik begegnet uns beinahe täglich!

Fotos: Pixabay.com

WiSe 21/22 Martin Vogt | Statistik 635


17. Organisatorisches
Themen der Vorlesung

WiSe 21/22 Martin Vogt | Statistik 636


17. Organisatorisches
Deskriptive Statistik vs. Inferenzstatistik

I Die deskriptive Statistik fasst Daten einer Stichprobe zusammen.


I Die Inferenzstatistik schließt von einer Stichprobe auf eine Grundgesamtheit.189

Deskriptivstatistik Inferenzstatistik

189 Induktion

WiSe 21/22 Martin Vogt | Statistik 637


17. Organisatorisches
Prüfungsleistung / Workload

Prüfung:
I Klausur 90 Minuten. Zur Vergabe von Credit Points muss die Klausur mit einer
mindestens ausreichenden Leistung bestanden werden.

WiSe 21/22 Martin Vogt | Statistik 638


17. Organisatorisches
Lizenz / Version

Diese Folien basieren auf Folien, die von Autor*innen der FOM https://www.fom.de/
unter der Lizenz CC-BY-SA-NC 3.0 de:
https://creativecommons.org/licenses/by-nc-sa/3.0/de/ entwickelt wurden.
Der verwendete Code sowie das Beamer Template basieren auf dem von Norman
Markgraf in dem NPBT-Projekt entwickelten unter der Lizenz GNU General Public
License v3.0 veröffentlichten Vorlagen.
I Datum erstellt: 2021-09-29
I R Version: 3.5.2
I mosaic Version: 1.5.0

WiSe 21/22 Martin Vogt | Statistik 639


17. Organisatorisches
Klausur

I Prüfungsrelevant ist der gesamte Stoff der Vorlesung. Für die


Wiederholungsprüfung gelten die gleichen Rahmendbedingungen wie für den
regulären Prüfungstermin.
I Lesen Sie sich erst die ganze Klausur in Ruhe durch und fangen Sie mit den
Aufgaben an, die Sie sicher können.
I Halten Sie sich nicht zu lange mit Aufgaben auf, die wenig Punkte bringen.

Viel Erfolg!

WiSe 21/22 Martin Vogt | Statistik 640

Das könnte Ihnen auch gefallen