Statistik Trier Studierendenversion

0.
Statistik
Hochschule Trier – WiSe 21/22
Martin Vogt
Inhaltsverzeichnis
9 Inferenzstatistik
1 Organisatorisches
10 Inferenz kategorialer Daten
2 Wissenschaftliche Grundlagen
11 Inferenz numerischer Daten
3 Grundlagen Quantitativer
Datenanalyse 12 Lineare Regression
4 Einführung R 13 Grundlagen Zeitreihenanalyse
5 Explorative Datenanalyse 14 Datenhandling
6 Explorative Datenanalyse mit R 15 Wahrscheinlichkeitsrechnung
7 Disparitäts- und 16 Normalverteilung

Konzentrationsmessung 17 Organisatorisches
8 Indexzahlen
WiSe 21/22 Martin Vogt | Statistik 2

1 Organisatorisches

1. Organisatorisches
Literatur (Auswahl)
I David M. Diez, Christopher D. Barr, Mine Çetinkaya-Rundel (2014): Introductory

Statistics with Randomization and Simulation,
https://www.openintro.org/stat/textbook.php?stat_book=isrs
I Nicholas J. Horton, Randall Pruim, Daniel T. Kaplan (2018): Project MOSAIC
Little Books A Student’s Guide to R, https://github.com/ProjectMOSAIC/
LittleBooks/raw/master/StudentGuide/MOSAIC-StudentGuide.pdf
I Chester Ismay, Albert Y. Kim (2018): ModernDive – An Introduction to Statistical
and Data Sciences via R, http://moderndive.com/
I Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani (2013): An
Introduction to Statistical Learning – with Applications in R,
http://www-bcf.usc.edu/~gareth/ISL/

Lernergebnisse
Die Studierenden können nach erfolgreichem Abschluss des Moduls:

I die Grundlagen deskriptiver und induktiver Statistik erklären und anwenden,
I beurteilen, für welche Fragestellungen in Theorie und Praxis qualitative oder
quantitative Herangehensweisen geeignet sind,
I empirische Analysen konzipieren und vorbereiten,
I statistische Verfahren der quantitativen Datenanalyse anwenden,
I die Statistik-Software R zur Datenanalyse verwenden,
I selbständig ein passendes Forschungsdesign für wirtschaftswissenschaftliche
Fragestellungen auswählen.

Motivation: Statistik
Statistik begegnet uns beinahe täglich!
Fotos: Pixabay.com

Themen der Vorlesung

Deskriptive Statistik vs. Inferenzstatistik
I Die deskriptive Statistik fasst Daten einer Stichprobe zusammen.

I Die Inferenzstatistik schließt von einer Stichprobe auf eine Grundgesamtheit.1
Deskriptivstatistik Inferenzstatistik
1 Induktion

Prüfungsleistung / Workload
Prüfung:
I Klausur 90 Minuten. Zur Vergabe von Credit Points muss die Klausur mit einer
mindestens ausreichenden Leistung bestanden werden.

Lizenz / Version
Diese Folien basieren auf Folien, die von Autor*innen der FOM https://www.fom.de/
unter der Lizenz CC-BY-SA-NC 3.0 de:
https://creativecommons.org/licenses/by-nc-sa/3.0/de/ entwickelt wurden.
Der verwendete Code sowie das Beamer Template basieren auf dem von Norman
Markgraf in dem NPBT-Projekt entwickelten unter der Lizenz GNU General Public
License v3.0 veröffentlichten Vorlagen.
I Datum erstellt: 2021-09-29
I R Version: 3.5.2
I mosaic Version: 1.5.0

Kurzvorstellung
Prof. Dr. Martin Vogt

I Kontakt: vogt@hochschule-trier.de
I Homepage: https://www.hochschule-trier.de
I akademische Ausbildung:
I Diplom Mathematiker
I Dr. rer. pol. in Statistik
I Beruflicher Werdegang:
I Unternehmensberater bei KPMG Luxembourg
I Vice President: Deutsche Bank in Luxembourg
I Head of Risk, Valuation & Reporting: LRI Invest in Luxembourg
I Privat:
I Verheiratet, 3 Kinder
I Imker, Reisen, Windsurfen, Tischtennis

Bitte
I Stellen Sie ein Namensschild auf.

I Seien Sie offen für das Thema.
I Haben Sie Respekt aber keine Angst vor der Schwierigkeit des Themas.
I Bereiten Sie den Lehrstoff von Anfang an kontinuierlich nach.
I Stellen Sie Fragen!
I Sie können Sich gerne während der Übungen unterhalten, aber nicht wenn ich
etwas erkläre – das ist u. a. auch unfair!
I Versuchen Sie die Übungen selbst zu lösen - der Lernerfolg ist ungleich größer, als
wenn Sie die Lösung “abnicken”. Für die Quizze wird ein Live-Feedback-System
eingesetzt: https://tweedback.de/ Nehmen Sie daran teil!2
I Versuchen Sie Ablenkungen (Facebook, WhatsApp etc.) zu vermeiden.3
I Wenn möglich, bringen Sie einen Laptop mit R4 zu den Vorlesungsterminen mit.
2 Siehe z. B. Nguyen, K., & McDaniel, M. A. (2015). Using quizzing to assist student learning in the
classroom: the good, the bad, and the ugly. Teaching of Psychology, 42(1), 87-92.
3 Siehe z. B. Sana, F., Weston, T., & Cepeda, N. J. (2013). Laptop multitasking hinders classroom
learning for both users and nearby peers. Computers & Education, 62, 24-31.
4 Installationsanleitung hier

Hinweis
Bleiben Sie dran!

Die Inhalte bauen aufeinander auf, d. h., arbeiten Sie nach. Die angegebene
Literatur ist frei verfügbar. Wenn Sie nicht kontinuierlich nacharbeiten wird es immer
schwerer, da immer mehr Grundlagen fehlen.
Ich kann versuchen, es Ihnen zu erklären, ich kann es nicht für Sie verstehen. Daher:
fragen Sie direkt in der nächsten Vorlesung nach, wenn Sie in der Nacharbeit etwas
nicht verstanden haben.
Die Folien bilden die Leinwand der Vorlesung: sie werden interaktiv erklärt und ergänzt.

Keine Tipps
Tipps von (fiktiven) Studierenden:

I Ich besuche die Vorlesung nicht, ich gucke Videos.
I Kontinuierlich nacharbeiten? Quatsch, ich lerne eine Woche vor der Klausur
intensiv.
I Es reicht, wenn ich mit einem halben Ohr zuhöre – ich spiele, chatte, surfe während
der Vorlesung.5
I Mitschreiben? Ich mache, wenn überhaupt, ein Foto.6
I Selbstlernunterlagen und Literatur habe ich nicht nötig.
I Mir genügt die Übungsklausur zur Klausurvorbereitung – falls eine angeboten wird.
I Übungen selber lösen? – Es reicht, wenn ich die Lösung kenne.
Manche dieser Studierenden haben es leider nicht geschafft.
Sie können es besser!7
5 vgl.https://youtu.be/vJG698U2Mvo
6 Hier nicht erlaubt.
7 Siehe z. B. echte Tipps unter Putnam, A. L., Sungkhasettee, V. W., & Roediger III, H. L. (2016).
Optimizing learning in college: tips from cognitive psychology. Perspectives on Psychological Science,
11(5), 652-660.
2 Wissenschaftliche Grundlagen

2. Wissenschaftliche Grundlagen
Corona
I Zahlreiche Wissenschaftler treten in Talk Shows auf (Virologen, Ethiker,. . . ).
Quelle: https://www.bosch-stiftung.de/de/news/hohe-wertschaetzung-fuer-
wissenschaftler-zeiten-von-corona

Wissenschaft (I / II)
Science is a particular way of knowing about the world. In science, explanations

are limited to those based on observations and experiments that can be sub-
stantiated by other scientists. Explanations that cannot be based on empirical
evidence are not part of science8 .
Fact: In science, an observation that has been repeatedly confirmed and for
all practical purposes is accepted as “true.” Truth in science, however, is never
final, and what is accepted as a fact today may be modified or even discarded
tomorrow.
Hypothesis: A tentative statement about the natural world leading to deductions
that can be tested. If the deductions are verified, it becomes more probable that
the hypothesis is correct. If the deductions are incorrect, the original hypothesis
can be abandoned or modified. Hypotheses can be used to build more complex
inferences and explanations.
8 Hier: Natur- und Sozialwissenschaften.

Wissenschaft (II / II)
Law9 : A descriptive generalization about how some aspect of the natural world
behaves under stated circumstances.
Theory: In science, a well-substantiated explanation of some aspect of the nat-
uralworld that can incorporate facts, laws, inferences, and tested hypotheses.
Quelle: Science and Creationism: A View from the National Academy of Sciences,
Second Edition (1999)10
9 Hier: Modell.
10 https://doi.org/10.17226/6024

Übung 1: Daten
Stimmt die Aussage: Daten und deren Analyse sind ein zentraler Bestandteil natur- und
sozialwissenschaftlicher Argumentation?
I Ja.
I Nein.

Theorie
I Eine Theorie ist eine strukturierte Sammlung von Hypothesen.

I Sie schlägt eine vorläufige Antwort auf eine offene Frage vor.
I Sie lässt sich kaum in ihrem vollen Umfang (auf einmal) prüfen.
I Häufig sind Theorien zumeist an kausalen Beziehungen interessiert.
I Gute Theorien ermöglichen Erklärungen, Vorhersagen, Nutzen.

Offene Übung 2: Theorie
Welche Theorien kennen Sie?

Hypothese
Eine Hypothese ist eine aus der Theorie oder Beobachtung abgeleitete Aussage.
I Sie sind weniger umfangreich als Theorien.
I Sie stellen Vermutungen über einen Sachverhalt an.
I Sie ist eine provisorische Antwort auf ein wissenschaftliches Problem.
I Sie lassen sich überprüfen (sind also potentiell “falsifizierbar”, man kann zeigen,
dass sie falsch sind). Hypothesen sind (nach Karl Popper) nie
beweisbar/bestätigbar, man kann höchstens zeigen, dass sie falsch sind.
Kennzeichen einer wissenschaftlichen Hypothese:
I Sie ist eine allgemeingültige über den Einzelfall hinausgehende Behauptungen.
I Häufig: Formalstruktur eines Konditionalsatz, Implikation: wenn x (Antezedens),
dann y (Konsequenz).

Wissenschaftliche Schlusstechniken / Generierung von Hypothesen
I Induktion:
Generalisierung von in der Realität beobachteten Regelmäßigkeiten zu einer

allgemeineren Vermutungen.
Häufig: Hypothesenbildung.
Beispiele: Pawlow, Freud
I Deduktion:
Ableitung von Aussagen aus anderen (allgemeineren) Aussagen mit Hilfe logischer
Regeln.
Häufig: Hypothesenprüfung.

Beispiel Schlusstechniken
I Induktion: Erschließen von allgemeinen Regeln aus dem Einzelfall

Einzelfälle: Albert Einstein ist ein Mensch und Marie Curie ist ein M
Ergebnis: Marie Curie und Albert Einstein haben einen Geburtstag.
Induktion/Regel: Alle Menschen haben einen Geburtstag.
I Deduktion: Schluss vom Allgemeinen auf bestimmte Aussagen über den Einzelfall
Regel: Alle Menschen haben einen Geburtstag.
Einzelfall: Albert Einstein ist ein Mensch.
Deduktion/Ergebnis: Albert Einstein hat einen Geburtstag.
Quelle: [https://deduktion.plakos.de (https://deduktion.plakos.de/).

Übung 3: Schlusstechniken
Eine Dozentin hat mehrfach beobachtet, dass ihre Studierenden interessiert am Fach
Statistik sind. Nun schließt sie, dass alle Studierenden interessiert am Fach Statistik
sind. Welche Schlussart liegt vor?
A. Induktion.
B. Deduktion.

Falsifikationsprinzip
I Induktionsproblematik: Kann durch Induktion von Einzelbeobachtungen sicher

auf ein allgemeines Gesetz – auch in Zukunft – geschlossen werden?
I Falsifikationsprinzip: Obwohl es nicht möglich ist, die Richtigkeit einer
wissenschaftlichen Theorie auf Basis einer begrenzten Menge von Daten zu
beweisen, ist es möglich zu beweisen, dass eine Theorie falsch ist. Wissenschaftliche
Aussagen sollen daher nach Karl Popper empirisch widerlegbar sein. Beispiel: Kann
man die Hypothese beweisen, dass alle Schwäne weiß sind?
I Das ist kaum/nicht möglich, man müsste die ganze Welt bereisen (und die Zukunft
und die Vergangenheit). Und selbst dann: wer weiß, vielleicht habe ich einen
übersehen?
I Zu zeigen, dass die Hypothese falsch ist, ist einfach: Ein schwarzer Schwan reicht,
um zu zeigen, dass die Behauptung, alle Schwäne seien weiß, falsch ist!

Übung 4: Beweis
Hat sie die Aussage “alle Studierenden sind interessiert an Statistik” endgültig bewiesen?
A. Ja.
B. Nein.
C. Vielleicht.

Forschungsprozess generell
I Planung: Formulierung der Forschungsfrage: Forschungsidee,

Informationssammlung, Forschungsfrage und -hypothesen.
I Datenerhebung: Z. B. Beobachtung, Experiment, Umfrage, Interview.
I Datenaufbereitung und Datenanalyse: Qualitativ und/oder quantitativ.
I Interpretation: Was sagt das Ergebnis aus? Schlussfolgerung, Mitteilung der
Ergebnisse.

Übung 5: Literatur
An welcher Stelle des Forschungsprozesses ist Literaturrecherche besonders zentral?

A. Zu Beginn.
B. Bei der Datenerhebung.
C. Bei der Datenauswertung.
D. Zum Ende.

Forschen
Gütekriterien für Forschung:

I Ethische Aspekte: Können negative Folgen, z. B. bei befragten / untersuchten
Personen auftreten? Auch: Datenschutz.
I Transparenz: Das Vorgehen ist klar dokumentiert und nachprüfbar (und damit
prinzipiell reproduzierbar)?
I Objektivität: Sind die Ergebnisse unabhängig von der Person? Kommen andere
zum selben Ergebnis?
I Interne Validität: Keine anderen Erklärungen für die Ergebnisse? Ist der
behauptete Zusammenhang richtig?
I Externe Validität: Übertragbarkeit der Ergebnisse? Zeigt sich der behauptete
Zusammenhang auch in anderen Situationen?

Übung 6: Wissenschaftliches Arbeiten
Was ist ein unabdingbares Merkmal wissenschaftlichen Arbeitens?

A. Spektakuläre Ergebnisse.
B. Bestätigung der Forschungshypothese.
C. Kein Praxisbezug.
D. Keines der in A – C genannten.

Übung 7: Reproduzierbarkeit
Das Forschungsergebnis der Dozentin “Statistik weckt das Interesse der Studierenden”
kann nicht reproduziert werden. Welcher Aspekt wissenschaftlichen Arbeitens könnte
verletzt sein?
A. Nur Objektivität.
B. Nur interne Validität.
C. Nur externe Validität.
D. Alle in A – C genannten.

3 Grundlagen Quantitativer Datenanalyse

3.1 Grundbegriffe

3. Grundlagen Quantitativer Datenanalyse
Messung
I Beim Messen wird einer Eigenschaft eines Objektes ein Wert zugewiesen. Dabei
sollte die Beziehung der Werte der Beziehung der Eigenschaften der Objekte
entsprechen. Pragmatisch: Definition des zu Messenden und gleichzeitig
Beschreibung des Messvorgangs.11
I Manifeste Variablen können direkt gemessen werden, z. B. Größe.
I Latente Variablen / Konstrukte können nicht direkt gemessen werden, sie
müssen erst operationalisiert werden, z. B. Intelligenz.
11 Hand, D. J. (2016): Measurement: A Very Short Introduction, Oxford University Press.

Operationalisierung
Bsp. Schwierigkeit beim Verständnis von Statistik. Multi-Item Likert-Skala: Auf einer
Skala von 1 (trifft überhaupt nicht zu) über 4 (weder zutreffend, noch unzutreffend) bis
7 (trifft voll und ganz zu) werden folgende Aussagen bewertet:12
I Statistische Formeln sind leicht zu verstehen.
I Statistik ist ein kompliziertes Fach.*
I Statistik ist ein Fach, das die meisten Menschen schnell lernen.
I Das Lernen von Statistik erfordert sehr viel Disziplin.*
I Statistik beinhaltet sehr umfangreiche Rechnungen.*
I Statistik ist eine sehr technische Materie.*
I Die meisten Menschen müssen lernen anders zu denken, um Statistik anwenden zu
können.*
Die Items mit Sternchen * sind sogenannte inverse Items, bei denen die Zustimmung
eine höhere Schwierigkeit im Umgang mit Statistik bedeutet.
12 Candace Schau: Survey of Attitudes Toward Statistics, SATS-36

Übung 8: Messung
Stimmt die Aussage: Das “Interesse der Studierenden” ist eine latente Variable?
I Ja.
I Nein.
Offene Frage: Was folgt daraus?

Gütekriterien einer Messung
I Genauigkeit, d. h. Exaktheit einer Messung, z. B. “Umsatz hoch / niedrig” oder in

Euro.
I Objektivität, d. h. Messung unabhängig vom Messenden, z. B. Kreditrating
verschiedener Agenturen.
I Reliabilität, d. h. Zuverlässigkeit einer Messung, z. B. bei wiederholter / anderer
Messung dasselbe Ergebnis bzgl. Kundenzufriedenheit.
I Validität, d. h., es wird das gemessen, was gemessen werden soll, z. B.
Unternehmenserfolg oder Bilanz-Kniffe.

Messung: Varianz und Verzerrung
Varianz Verzerrung
I hohe Varianz der Messergebnisse: geringe Reliabilität

I Verzerrung / Bias des Messergebnisses: geringe Validität

Übung 9: Gütekriterien Messung
Welches Kriterium ist verletzt, wenn die Dozentin statt “Interesse der Studierenden”
“Angst vor der Klausur” gemessen hat?
A. Genauigkeit.
B. Objektivität.
C. Reliabilität.
D. Validität.

Übung 10: Messung Relation
Am 15.9. sei es in Dortmund 20 °C, am 15.3. 10 °C. Stimmt die Aussage: Am 15.9. war
es in Dortmund doppelt so warm wie am 15.3.?
I Ja.
I Nein.

Kategoriale Skalenniveaus
Kategoriale Skala, qualitativ

I Nominal: Merkmalsausprägungen können unterschieden werden, bspw. Geschlecht.
I Ordinal: Merkmalsausprägungen können unterschieden und in eine Reihenfolge
gebracht werden, bspw. Bildungsabschlüsse. Die Abstände zwischen den Werten
können nicht direkt verglichen oder interpretiert werden.

Numerische / metrische Skalenniveaus
Numerisch / metrische Skala, quantitativ, kardinal

Merkmalsausprägungen können unterschieden und in eine Reihenfolge gebracht werden,
die Abstände sind vergleichbar.
I Intervallskala: Nullpunkt gesetzt, bspw. Zeitrechnung (Jahr 0).
I Verhältnisskala13 : (absoluter) Nullpunkt gegeben, bspw. Gewicht.
Weitere Unterscheidung:
I stetig: beliebige Zwischenwerte im Intervall sind möglich, bspw. Größe.
I diskret: höchstens abzählbar viele Werte sind möglich, bspw. Anzahl Kinder.
13 Auch Ratioskala
Übung 11: Skalenniveau (I / II)
Welches Skalenniveau hat die Variable Stundenlohn?

A. Kategorial nominal.
B. Kategorial ordinal.
C. Metrisch stetig.
D. Metrisch diskret.

Übung 12: Skalenniveau (II / II)
Welches Skalenniveau hat die Variable Telefonvorwahl?

A. Kategorial nominal.
B. Kategorial ordinal.
C. Metrisch stetig.
D. Metrisch diskret.

Skalen: Aussagen und Operationen
Je nach Skalennvieau sind unterschiedliche Aussagen und Operationen möglich.

I Kategorial – nominal: =, 6=
I Kategorial – ordinal: =, 6=, <, >
I Numerisch – intervallskaliert: =, 6=, <, >, +, −14
I Numerisch – verhältnisskaliert: =, 6=, <, >, +, −, ∗, :
Song https://www.causeweb.org: Larry Lesser und Dominic Sousa © Levels of
Measurement
14 ∗, : für die Differenzen.

Datensatz
Aufbau eines Datensatzes:
Name Geschlecht Größe

Ahmet m 180
Gabi w 170
Max m 186
Susi w 172
I Zeilen: Beobachtungen
I Spalten: Variablen
I Merkmal: Eigenschaft, die untersucht wird: z. B. Geschlecht
I Merkmalsträger: Objekte, die untersucht werden, z. B. Ahmet
I Merkmalsausprägung: Werte, die das Merkmal annehmen kann, z. B. 180

Variation
Daten = Modell + Rest: Messwerte einer Variable variieren / streuen, u. a.

I zufällig,
I aufgrund der Messung,
I aufgrund der Stichprobe,
I systematisch – kann evtl. modelliert werden.
Bsp.: Punkte einer Klausur variieren. Womit hängt das zusammen?

Zusammenhangsanalyse
I Abhängige Variable (endogen, erklärt, AV): Wert hängt von der / den
unabhängige(n) Variable ab (“y”).
I Unabhängige Variable (exogen, erklärend, UV): Wert hängt von keiner anderen
Variable ab (“x”).
I Kovariablen/ Störvariablen: Variablen, deren Wert ebenfalls auf die abhängige
Variable einwirkt und / oder den Zusammenhang zwischen unabhängigen und
abhängigen Variablen beeinflusst (“z”).15
Hinweis: x steht in Zusammenhang mit y heißt nicht zwangsläufig, dass x kausal
(ursächlich) für y sein muss!
I in der Mathematik: y = f ( x). Für ein x genau ein y.
I in der Statistik / in R: y ∼ x. Für ein x sind mehrere y möglich: x wird zur
Modellierung von y verwendet.
15 Video https://www.causeweb.org: McLellan M © Confounding Variables

Simpson-Paradoxon (I / II)
Das Ignorieren von Kovariablen kann zu verzerrten Ergebnissen führen.16
Zulassungen an der UC Berkeley
Admitted Rejected
Male
Gender
Female
Admit
Höherer Frauenanteil bei den Nicht-Zugelassenen als bei den Zugelassenen, vgl. Höhe
der Rechtecke: Diskriminierung?
16 Bickel,
P. J., Hammel, E. A., and O’Connell, J. W. (1975). Sex bias in graduate admissions: Data
from Berkeley. Science, 187, 398–403. https://doi.org/10.1126/science.187.4175.398
Simpson-Paradoxon (II / II)
Zulassungen an der UC Berkeley
Department A Department B Department C
Admitted Rejected Admitted Rejected Admitted Rejected
Male
Male
Sex
Sex
Sex
Male
Female
Female
Female
Admit Admit Admit
Department D Department E Department F

Admitted Rejected Admitted Rejected Admitted Rejected
Male
Male
Male
Sex
Sex
Sex
Female
Female
Female
Admit Admit Admit
Je nach Department17 mal mehr mal weniger Frauen bei den Nicht-Zugelassenen als bei
den Zugelassenen. Aber Frauen haben sich mehr für Fächer beworben, in denen der
Anteil der Zugelassenen geringer war, vgl. Breite der Rechtecke.
17 Kovariable!

Übung 13: Zusammenhang
Die Dozentin stellt fest, dass die Motivation der Studierenden mit der Uhrzeit
zusammenhängt, und zwar unterschiedlich für Frauen und Männer. Welche Aussage
stimmt?
A. Es gibt eine abhängige Variable (Motivation), eine unabhängige Variable (Uhrzeit)
und eine Kovariable (Geschlecht).
B. Es gibt eine abhängige Variable (Uhrzeit), eine unabhängige Variable (Motivation)
und eine Kovariable (Geschlecht).
C. Es gibt zwei abhängige Variable (Motivation und Geschlecht) und eine unabhängige
Variable (Uhrzeit).
D. Es gibt eine abhängige Variable (Geschlecht) und zwei unabhängige Variablen
(Motivation und Uhrzeit).

3.2 Datenerhebung

Stichproben
I Stichproben sind eine Teilmenge der Population / Grundgesamtheit, die

Beobachtungen / Daten.
I In der Regel ist man daran interessiert, das Ergebnis einer Stichprobe zu
verallgemeinern, zu generalisieren: vom Geschmack des Suppenlöffels auf die ganze
Suppe.18
18 hier: Kartoffelcremesuppe, Foto: Johann Hauke

Begriffe: Stichproben (I / II)
I Population: die Menge, über die eine Aussage getroffen werden soll: die ganze
Suppe im Suppentopf.
I Stichprobe: Teilmenge der Population, die zur Analyse ausgewählt wurde: der
Löffel voll Suppe.
I Stichprobenverfahren: der Prozess, mit dem die Teilmenge ausgewählt wurde.
Z. B. zufällig: der Auswahlprozess, wo und wie der Löffel aus dem Suppentopf
gefüllt wurde.
I Repräsentative Stichprobe: Ist die Verteilung der Eigenschaften der Stichprobe
ähnlich der in der Population? Wenn der Löffel anders schmeckt als die Suppe, war
der Löffel nicht repräsentativ.
I Bias / Verzerrung: Ein Teil der Population wird bevorzugt: nur Fleischbällchen auf
dem Löffel.
I Generalisierbarkeit: Inwieweit kann von der Stichprobe auf die Grundgesamtheit
geschlossen werden? Wenn wir gut umgerührt haben, sollten die Verteilung der
Gewürze etc. auf dem Löffel ähnlich der im Topf sein und wir können vom Löffel
auf den Topf schließen.

Begriffe: Stichproben (II / II)
I Parameter: Wert der Population, an dem wir interessiert sind: z. B. Temperatur

der Suppe insgesamt.19
I Statistik: Wert, der auf Basis der Stichprobe berechnet wird: z. B. Temperatur der
Suppe auf dem Löffel.20
Song https://www.causeweb.org: Larry Lesser und Dominic Sousa © Estimation
Notation
Hinweis: Häufig kann die Datengenierierung als Zufallsprozess aufgefasst werden. z. B.
der Aktienkurs. Dann ist der beobachtete Kurs die Stichprobe, der theoretisch mögliche
die Population: von den möglichen Kursen wurde der beobachtete realisiert.21
19 symbolisiert
häufig durch griechische Buchstaben: µ, . . .
20 symbolisiert
häufig durch lateinische Buchstaben: x̄, . . .
21 Formal: Beobachtung x ist Realisation einer Zufallsvariable X.

Übung 14: Stichprobe
Kann die Dozentin von den Studierenden, die die Vorlesung besuchen22 , unverzerrt auf
das Interesse aller Studierenden schließen, die für die Vorlesung angemeldet sind23 ?
I Ja.
I Nein.
22 Stichprobe
23 Population

Stichprobenverfahren
I Bei einer (einfachen) Zufallsstichprobe hat jede Beobachtung die gleiche

Wahrscheinlichkeit, Teil der Stichprobe zu sein.
I Bei geschichtete Stichproben setzen sich die Schichten aus ähnlichen
Beobachtungen zusammen (z. B. Alter, Geschlecht). Es wird eine einfache, zufällige
Stichprobe aus jeder Schicht genommen.
I Zufällige Stichproben erlauben einen Schluss auf die Grundgesamtheit
(Generalisierbarkeit).
I Gelegenheitsstichproben können verzerrt sein.

Einfache Zufallsstichprobe
30 zufällig ausgewählte Beobachtungen:
7
6
5
4
y
3
2
1
0.5 1.0 1.5 2.0 2.5

Geschichtete Zufallsstichprobe
Von jeder Farbe 10 zufällig ausgewählte Beobachtungen:
7
6
5
4
y
3
2
1
0.5 1.0 1.5 2.0 2.5

Gelegenheitsstichprobe
Von den ersten 50 Beobachtungen 30 zufällig ausgewählte:
7
6
5
4
y
3
2
1
0.5 1.0 1.5 2.0 2.5

Cartoon: Gelegenheitsstichproben
“Gelegenheitsstichproben erreichen nur die niedrig hängenden Früchte.”24
24 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift L. Lesser

Übung 15: Flugzeuge im zweiten Weltkrieg
I Im zweiten Weltkrieg haben die Alliierten viele Flugzeuge durch die Deutsche
Flugabwehr verloren.
I Deshalb wurde entschieden die Flugzeuge besser zu panzern.
Wo würden Sie die Panzerung aufrüsten?

Beobachtungsstudien und Experimente
I Bei Beobachtungsstudien werden Daten gesammelt, ohne die Entstehung der

Daten zu beeinflussen (keine unmittelbaren Kausalaussagen möglich).
I Bei einem Experiment wird der Wert der unabhängigen Variable(n) manipuliert25
und die Variation der abhängigen Variable gemessen.
I Um Verzerrungen durch Kovariablen zu vermeiden, erfolgt die Zuordnung zu den
Experimentalkonditionen zufällig (randomisiert).26
I Durch wiederholte Messung kann der Effekt der Experimentalkonditionen geschätzt
werden: hohe interne Validität. Bei Quasi-Experimenten ist die Zuordnung nicht
randomisiert: geringe interne Validität.
25 z. B. Zielgruppe erhält Werbung, Kontrollgruppe nicht

26 Video https://www.causeweb.org: McLellan M © Randomize
Übung 16: Beobachtungsstudien und Experimente
Die Dozentin stellt fest, dass die Motivation der Studierenden mit der Uhrzeit
zusammenhängt, und zwar unterschiedlich für Frauen und Männer. Welche Aussage
stimmt?
A. Es handelt sich um eine Beobachtungsstudie.
B. Es handelt sich um ein randomisiertes Experiment.

Offene Übung 17: Experiment
Warum ist die interne Validität bei einem randomisierten Experiment höher als z. B. bei
Beobachtungsstudien?
1. Think: Überlegen Sie für sich.
2. Pair: Teilen Sie Ihr Ergebnis mit der Nachbar*in.
3. Share: Stellen Sie Ihr Ergebnis im Plenum vor.

Labor- und Feldexperiment
I Bei Laborexperimenten erfolgt die Untersuchung innerhalb einer speziellen

Versuchsanordnung (geringe externe Validität).
I Bei einem Feldexperimenten erfolgt die Untersuchung im natürlichen Umfeld
(hohe externe Validität).

Cartoon: Kausalität
“Mal sehen, was das Rad der nicht-ursächlichen Beziehungen diesmal als stärksten
Prädiktor für die Krankheit X ausgibt.”27
27 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift M. Posner
Datenschutz
Personenbeziehbare Daten und unternehmensinterne Daten sind sensibel!

Rechtliche Rahmen u. a.:
I Bundesdatenschutzgesetz
I Datenschutz-Grundverordnung
Nicht alles was möglich ist, ist auch legal!

Griechische Buchstaben in den Folien
I α: alpha, i. d. R. Symbol für das Signifikanzniveau eines Tests, auch Zeichen für
Fehler 1. Art.
I β: beta, i. d. R. Symbol für Regressionskoeffizienten, auch Zeichen für Fehler 2. Art.
I δ: delta, i. d. R. Symbol für allgemeine zusammenfassende Statistik (Kennzahl).
I e: epsilon, i. d. R. Symbol für Residuum.
I µ: my, i. d. R. Symbol für den Populationsmittelwert.
I σ: sigma, i. d. R. Symbol für die Populationsstandardabweichung.
I π: pi, i. d. R. Symbol für den Populationsanteil.
I χ: chi, i. d. R. Symbol für zusammenfassende Statistik im χ2 -Test.

Übersicht: Quantitativer Forschungsprozess
1. Forschungsfrage: Was soll untersucht werden?

2. Studiendesign: Operationalisierung / Variablenauswahl. Wahl des
Stichprobenverfahren und / oder Versuchsplanung. Alternativ: Nutzung vorhandener
Daten.
3. Datenerhebung
4. Datenanalyse: Datenvorverarbeitung (Ausreißer, fehlende Werte), Explorative
Datenanalyse (Grafiken und Kennzahlen).
5. Inferenz: Schätzen und Testen; Modellierung.
6. Schlussfolgerungen: (vorläufige) Antwort auf Forschungsfrage.

Offene Übung 18: Praxistransfer
Überlegen Sie sich ein Beispiel für einen quantitativen Forschungsprozess.

Offene Übung 19: Messgenauigkeit und Skalenniveaus
Geben Sie bitte für die folgenden Merkmale das jeweilige Skalenniveau und mögliche
Merkmalsausprägungen an. Unterscheiden Sie die Merkmale ferner in diskrete und
stetige und diskutieren Sie dabei Probleme der Messgenauigkeit.
1. Gewicht
2. Akademischer Grad (Hochschulabschluss).
3. Jahreszahlen.
4. Anzahl Regentage pro Jahr
5. Transportmittel

Offene Übung 20: Investment-Analyse
Aufgrund Ihrer hervorragenden Leistungen bekommen Sie am Jahresende einen hohen

Bonus. Diesen möchten Sie in eine Aktie investieren und betrachten dabei die
Aktienrenditen der Unternehmen im DAX aus dem vergangegen Jahr. Mathematisch ist
die Rendite am Zeitpunkt t als
S − St−1
Rt = t
St−1
definiert, wobei St der Kurs zum Zeitpunkt t ist, und St−1 der Kurs an einem Zeitpunkt
früher, d. h. der vergangenen Periode (z. B. ein Jahr).
1. Was ist das berechnete Merkmal?
2. Wer oder was sind die Merkmalsträger?
3. Welche Merkmalsausprägungen können auftreten?
4. Was ist das Skalenniveau?
5. Können fehlende Werte auftreten?

Offene Übung 21: ADAC und die Schuldvermutung in der Statistik
Anfang des Jahres 2014 stand der ADAC in der Kritik Statistiken manipuliert zu haben.
Dabei wurde bei der Wahl des Lieblingsautos der Deutschen getäuscht. Die Anzahl der
abgegebenen Stimmen bei der Wahl zum Autopreis Gelber Engel wurde vom ADAC
wesentlich höher angegeben, als tatsächlich Stimmen abgegeben wurden.
Denken Sie im Zusammenhang mit der Manipulation des ADAC über das folgenden
Zitat von Walter Krämer (Statistiker) nach:
Jede Statistik, die von einer interessierten Seite selbst erstellt und verbreitet
wird, ist bis zum Beweis des Gegenteils als manipuliert zu betrachten.28
28 Walter Krämer; 1992; Statistik verstehen; Piper.

4 Einführung R

4. Einführung R
Cartoon: Computereinsatz in der Statistik
“Auch wenn die Zeit für das ‘Einsetzen von Zahlen in Formeln’ und das ’Abbildungen
zeichnen per Hand‘ gekommen ist: die Ideen und Konzepte leben weiter – in unseren
Computerprogrammen.”29
29 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift K. Lübke
4. Einführung R
Warum R?
[. . . ] she was also following a wider trend: for many academics [. . . ] R is the
data-analysis tool of choice.30
Verbreitung z. B.: http://r4stats.com/articles/popularity/

R ist eine weit verbreitete Eintrittskarte in das globale Datenzeitalter!
30 Tippmann, S.. Programming tools (2015): Adventures with R. A guide to the popular, free
statistics and visualization software that gives scientists control of their own data analysis. Nature, 517,
S. 109–110. https://doi.org/10.1038%2F517109a
4. Einführung R
Vorteile R
I Methoden- und Anwendungsvielfalt (Finance, Marketing, HR, Psychologie, . . . )31

I Neue Methoden der Datenanalyse werden häufig in R entwickelt (auch Big Data,
KI, c. ).
I frei und offen; kostenlos
I Schnittstellen zu sehr vielen Datenquellen/-banken (auch SocialMedia etc.)
I Erweiterungen u. a. für Microsoft, Oracle, SAP Produkte, aber auch SPSS, SAS
I unzählige Nutzer*innen weltweit in Unternehmen und Wissenschaft
I Möglichkeiten für Reporting, Apps, etc.
I numerische Stabilität / Genauigkeit
I große Entwickler*innen-Gemeinde mit langer Geschichte (seit 1993); R Konsortium,
u. a. IBM, Microsoft, TIPCO, Google, . . .
31 Siehe z. B. https://cran.r-project.org/web/views/
4. Einführung R
Übung 22: R in der Wissenschaft
Welchen Vorteil hat R aufgrund der Gütekriterien für Forschung?

A. Kostenlos.
B. Offen.

4. Einführung R
R und co.
I R https://www.r-project.org/: ist das Basisprogramm

I RStudio Desktop https://www.rstudio.com/: ist eine komfortable
Entwicklungsumgebung für R und bietet zusätzliche Tools, wie z. B.
Dokumentenerstellung etc.
I mosaic https://cran.r-project.org/web/packages/mosaic/: ist ein Zusatzpaket,
welches u. a. eine vereinheitlichte R Syntax bietet

4. Einführung R
Statistik, R, Rstudio und mosaic
I Statistik ist das Auto, mit dem der Weg von der Forschungsfrage zur vorläufigen
Antwort bestritten werden kann.
I R ist ein Motor, der das Auto antreiben kann.
I Rstudio Desktop ist das Cockpit, mit dem der Motor gesteuert werden kann.
I mosaic ist eine Zusatzausstattung, um die Motorsteuerung zu vereinfachen.

4. Einführung R
R Installation
1. R (https://www.r-project.org/)
2. RStudio Desktop (https://www.rstudio.com/)
3. Installation von Zusatzpaketen in RStudio:
install.packages("mosaic")
Ausführliche Installationsanleitung hier.

4. Einführung R
Warum Code? Politik
Ich glaube, dass die Fähigkeit zum Programmieren eine der Basisfähigkeiten
von jungen Menschen wird, neben Lesen, Schreiben, Rechnen. Die werden nicht
wegfallen. Aber Programmieren wird nochmal dazu kommen.32
32 Rede von Bundeskanzlerin Merkel zur Deutsch-Französischen Digitalkonferenz am 13. Dezember

2016.
4. Einführung R
Warum Code? Wirtschaft
Der Prozess, eine komplexe Aufgabe auf eine Reihe einfacher Anweisungen zu
reduzieren - genau darum geht es beim Programmieren -, ist eine Fähigkeit, die
in vielen Aspekten des modernen Lebens nützlich ist, nicht nur für professionelle
Informatiker und Programmierer.33
I think everyone should learn how to program a computer, because it teaches

you how to think.34
33 Facebooks Forschungschef Yann LeCun

34 Steve Jobs
4. Einführung R
Warum Code? Wissenschaft
In the past few years, the startling realization that many modern scientific find-
ings cannot be replicated has been highlighted [. . . ]. Many factors have been
identified, including publication bias, reporting bias, conflicts of interest, and in-
sufficient statistical power. This last factor can be remedied by encouraging the
replication of studies and then conducting subsequent meta-analyses. In order
for a scientific study to be replicated, however, the method of statistical analysis
must be entirely reproducible. Teaching reproducible analysis in an introductory
statistics course not only makes students aware of these issues, but also paves
the way toward making them valuable contributors to modern data analysis.
These future contributions could be made as part of academic research or for a
data-centric enterprise that needs to conduct daily analysis on new data.35
35 Baumer B, Cetinkaya-Rundel M, Bray A, Loi L und Horton NJ (2014). R Markdown: Integrating A

Reproducible Analysis Tool into Introductory Statistics. Technology Innovations in Statistics Education,
8(1)
4. Einführung R
Warum Code? Lehre
Don’t fence off students from the computation pool, throw them in! Computing
skills are essential to working with data in the 21st century. Given this fact,
we feel that to shield students from computing is to ultimately do them a
disservice.36
36 Ismay, C, Kim, A (2018): ModernDive

4. Einführung R
Vorteile Code
I Dokumentation des Vorgehens

I (Einfache) Nachvollziehbarkeit, Wiederholung
I Möglichkeit zur Automatisierung und Übertragung
I “Direkte” Kommunikation mit dem Programm / Computer
I Speziell R: unzählige Literatur und Hilfe / Tutorials im Internet

4. Einführung R
Code: mosaic
analysiere( y # ggfs. abhängige Variable

~ x # unabhängige Variable(n)
| z, # ggfs. bedingende (gruppierende) Variable(n)
Optionen, # ggfs. weitere Optionen
data = daten ) # Datensatz
analysiere(): Was soll R tun?

4. Einführung R
Zentrale Fragen
1. Was soll der Computer für mich tun?

2. Was muss der Computer dafür wissen?
meineanalyse( meiny ~ meinx, data = meinedaten)

4. Einführung R
R-Basics
I R unterscheidet zwischen Groß- und Kleinbuchstaben.
I R verwendet den Punkt . als Dezimaltrennzeichen.
I Fehlende Werte werden in R durch NA kodiert.
I Kommentare werden mit dem Rautezeichen # eingeleitet.
I Eine Ergebniszuweisung erfolgt über <-.
I %>% (Paket dplyr) übergibt Ergebnisse.
I Hilfe zur Funktion foo: ?foo
I Wird in der Konsole ein kleines rotes Stop-Schild angezeigt, so ist R gerade am
Arbeiten. Mit Klick auf das Stop-Schild kann man R anhalten.
I Liefert R einen Fehler zurück, gibt es häufig eine einfache Ursache – Tippfehler.
I Gerne vergisst man, die benötigten Pakete und Daten zu laden.
I R schreibt sowohl Hinweise, als auch Warnungen (Warnings) und Fehler (Errors) in rot.
Aber nur Fehler sind i. d. R. ein Problem.
I Reagiert R nicht, so kann es daran liegen, dass der aktuelle Befehl in der Konsole noch
nicht abgeschlossen ist. Ein einfacher Ausweg ist es, in die Konsole zu klicken und dann
die Escape-Taste zur drücken.
I Gibt R den Hinweis aus, dass ein Paket fehle, so muss man das genannte Paket noch
installieren.
4. Einführung R
Beispiel Alcohol
Ggf. einmalig vorab mosaic installieren:
install.packages("mosaic")
Paket mosaic in jeder Sitzung laden:
library(mosaic)
Internen Datensatz Alcohol laden:
data(Alcohol)
Datensatzbeschreibung (Hilfe zu den Daten):
?Alcohol
Daten betrachten:
View(Alcohol)
4. Einführung R
Datenvorverarbeitung
Häufig müssen Daten vor der eigentlichen Analyse vorverarbeitet werden, z. B.:
I Variablen auswählen: select()
I Beobachtungen auswählen: filter()
I Variablen verändern, neu erzeugen: mutate()
I ...
Das Paket dplyr37 bietet dazu viele Möglichkeiten. Mehr dazu im Abschnitt
Datenhandling.
37 wird mit mosaic installiert und geladen. http://dplyr.tidyverse.org/index.html

4. Einführung R
filter() wählt Beobachtungen aus
Alcohol.Ger soll sein:

Nimm den Datensatz Alcohol und dann...
filtere auf die Beobachtungen, in denen das Land Deutschland ist.
Alcohol.Ger <- Alcohol %>%

filter(country == "Germany")
View(Alcohol.Ger)

4. Einführung R
select() wählt Variablen aus
Alcohol.2008 soll sein:

Nimm den Datensatz Alcohol und dann...
filtere auf die Beobachtungen, in denen das Jahr 2008 ist und dann...
selektiere die Variablen Land und Alkohol.
Alcohol.2008 <- Alcohol %>%

filter(year == 2008) %>%
select(country, alcohol)
View(Alcohol.2008)

4. Einführung R
arrange() sortiert Beobachtungen
Alcohol.2008.sort soll sein:

Nimm den Datensatz Alcohol.2008 und dann...
sortiere nach der Variable Alkohol.
Alcohol.2008.sort <- Alcohol.2008 %>%

arrange(alcohol)
View(Alcohol.2008.sort)

4. Einführung R
mutate() verändert bzw. erzeugt Variablen
Die Funktion rank() gibt den Rang einer Beobachtung zurück.
Alcohol.2008.rang soll sein:

Nimm den Datensatz Alcohol.2008 und dann...
erzeuge neue Variable rang als Rang der Beobachtung
in der Variable Alkohol.
Alcohol.2008.rang <- Alcohol.2008 %>%

mutate(rang = rank(alcohol))
View(Alcohol.2008.rang)

4. Einführung R
Übung 23: Rangliste
Alcohol.2008.rang %>%
filter(country == "Germany")
## country alcohol rang

## 1 Germany 12.14 160
Ist Deutschland in der Stichprobe in dem Jahr das Land mit dem 160. geringsten oder
höchsten Alkoholkonsum?
A. Geringsten.
B. Höchsten.

4. Einführung R
Variablentypen in R
Struktur des Datensatzes Alcohol:
str(Alcohol)
## ’data.frame’: 411 obs. of 4 variables:

## $ X : int 139 328 517 706 895 980 997 1012 1084 1273 ...
## $ country: chr "Russia" "Russia" "Russia" "Russia" ...
## $ year : int 1985 1986 1987 1988 1989 1990 1990 1990 1990 1991 ..
## $ alcohol: num 13.3 10.8 11 11.6 12 ...
Ein Datensatz (data.frame) kann aus mehreren Variablen (Spalten) mit gleicher
Anzahl Beobachtungen (Zeilen) bestehen. Für Variablen gibt es verschiedene Typen,
u. a.:
I Zeichenketten (character) und Faktoren (factor)38 .
I Gleitkommazahlen (numeric bzw. double) und Ganze Zahlen (integer).
38 Faktoren
sind Zeichenketten, die eine definierte Menge an Werten (Ausprägungen, levels)
annehmen können.
4. Einführung R
Übung 24: Variablentyp
Als welcher Variablentyp sollten kategorial-nominale Variablen in R gespeichert werden?

A. character bzw. factor.
B. integer.
C. numeric bzw. double.

4. Einführung R
R im quantitativen Forschungsprozess

Stichprobenverfahren, z. B. Paket sampling, Stichprobenumfang, z. B. Paket pwr
und / oder Versuchsplanung, z. B. Paket AlgDesign. Alternativ: Nutzung
vorhandener Daten, z.B CRAN Task View Web Technologies and Services.
3. Datenerhebung
4. Datenanalyse: Datenvorverarbeitung (u. a. Ausreißer, z. B. Paket outliers; fehlende
Werte, z. B. Paket VIM), Explorative Datenanalyse (Grafiken und Kennzahlen),
z. B. Paket mosaic.
5. Inferenz: Schätzen und Testen; Modellierung, z. B. Paket mosaic.

4. Einführung R
Data Frame
Tabellen heißen in R Data Frames und können mit der Funktion data.frame() gebildet
werden. Ein Beispiel: Es soll ein Data Frame erstellt werden, der aus 6 Studierenden,
deren Alter, den Matrikelnummern, einer Klausurnote und der Information, ob diese
Klausur bestanden wurde besteht
namen <- c("Arno", "Bert", "Carl", "Doro", "Edda", "Fred")
alter <- c(19, 21, 20, 22, 20, 27)
matrnr <- c(101010, 101007, 200000, 123456, 654321, 111111)
note <- c(1, 5, 2.3, 2.7, 1.3, 4)
bestanden <- (note < 4.3)
Studenten <- data.frame(Name = namen, Alter = alter, Matrikelnummer =
Studenten
## Name Alter Matrikelnummer Note Bestanden

## 1 Arno 19 101010 1.0 TRUE
## 2 Bert 21 101007 5.0 FALSE
## 3 Carl 20 200000 2.3 TRUE
## 4 Doro 22 123456 2.7 TRUE
## 5 Edda 20 654321 1.3 TRUE
## 621/22
WiSe Fred 27 111111 Martin
4.0Vogt | Statistik
TRUE 102
4. Einführung R
Offene Übung 25: DataFrame
Was gibt R jeweils nach folgenden Zeilen aus? Überprüfen Sie Ihre Antwort in R.
Studenten[1, 3]
Studenten[1:3, c(1, 4)]
Studenten[2, ]
Studenten[, 4]
Studenten$Note
Studenten[, 3:5]
Studenten[note < 2.5, ]

4. Einführung R
Offene Übung 26: DataFrame2
I Erzeugen Sie einen Data Frame der folgenden 7 Kinder gemäß der Datentabelle
Alter Geschlecht Taschengeld besitzt Fahrrad

6 m 12 ja
7 m 18 ja
6 w 14 nein
7 w 20 ja
8 m 26 ja
7 w 20 ja
8 w 20 nein
I Generieren Sie in R einen Data Frame des Alters und des Taschengeldes aller
Kinder mit höchstens 7 Jahren.
I Berechnen Sie in R die Summe des Taschengelds aller Fahrradbesitzer.

5 Explorative Datenanalyse

5. Explorative Datenanalyse
Beispiel: Standortplanung
I Mit welchem Verkehrsmittel sind Sie heute zur Hochschule gekommen? (Auto,
ÖPNV, Fahrrad, zu Fuß)
I Sind Sie in einer Fahrgemeinschaft gekommen? (Ja / Nein)
I Wie weit war heute Ihr Weg? (km)
I Wie lange haben Sie gebraucht? (min)
Wie kann aus Rohdaten Information, z. B. für eine Entscheidungsvorlage zur

Standortplanung, werden?

5.1 Grafische Verfahren

Grafische Verfahren der Datenanalyse
I Balkendiagramm: Häufigkeit von Merkmalsausprägungen (nominal, ordinal,

metrisch diskret).
I Histogramm: Häufigkeit von gruppierten Merkmalsausprägungen (metrisch).
I Boxplot: Visualisierung von Median, oberem und unterem Quartil, Minimum und
Maximum, Ausreißern (metrisch).
I Streudiagramm / Scatterplot: Darstellung der Merkmalsausprägungen von zwei
i. d. R. metrischen Merkmalen39 als Punkte.
I Mosaikplot: Darstellung der Merkmalsausprägungen zweier nominaler Merkmale.
I Liniendiagramm: Verlauf der Merkmalsausprägung eines Merkmals.
I Kreisdiagramm40
39 bei kategorialen oder metrisch diskreten Merkmalen ggfs. verwackeln (engl.: jitter)
40 siehe z. B. Regel 20 von https://robjhyndman.com/hyndsight/graphics/
Visualisierung (Tipps)
I Vermittle viele Zahlen, sonst brauchst du keine Grafik.

I Vermeide Ablenkung von der Hauptbotschaft.
I Fördere visuellen Vergleich.
I Unterschiedliche Farben nur, wenn es den Vergleich unterstützt.
I Vermeide 3D.
I Achte auf die Achsenskalierung.

Iris Daten
Länge und Breite des Kelch- und Blütenblattes von drei verschiedenen
Schwertlilienarten.41
Foto: Armin Hauke
41 Fisher,R. A. (1936): The use of multiple measurements in taxonomic problems. Annals of

Eugenics, 7, Part II, 179–188.
Balkendiagramm
Visualisiert die absoluten oder relativen Häufigkeiten von Beobachtungen von

kategorialen oder metrisch diskreten Variablen durch die Höhe der Balken.
50
40
30
count
20
10
tos
a lor ica
se rsico gin
ve vir
Species

Histogramm
Visualisiert die (gruppierte) Verteilung einer numerischen Variable. Der Flächeninhalt
der Rechtecke entspricht dabei der absoluten oder relativen Häufigkeiten von
Beobachtungen im Intervall (Klasse).
30
Percent of Total
20
10
4 5 6 7 8
Sepal.Length
Bei ungleichen Intervallbreiten wird auf der Y-Achse die Dichte, der Quotient aus
Häufigkeit und Klassenbreite, angezeigt.
Übung 27: Histogramm
30
Percent of Total
20
10
4 5 6 7 8
Sepal.Length
Welche Aussage stimmt?

A. Die meisten Werte sind 6 5.
B. Die meisten Werte sind > 5 und 6 6.
C. Die meisten Werte sind > 6 und 6 7.
D. Die meisten Werte sind > 7.

Übung 28: Fahrzeit
Wie lange brauchen Studierende zur Hochschule? Skizzieren Sie das Histogramm.
Bestimmen Sie den Anteil derjenigen, die maximal 30min. zum Studienzentrum
brauchen.

Verteilungen
Die Verteilung gibt an, wie häufig bzw. wahrscheinlich bestimmte Werte oder
Wertebereiche sind.
Für numerische Variablen:
I Schiefe: Bei rechtsschiefen (linkssteilen) Verteilungen sind mehr Werte im
unteren Wertebereich, bei linksschiefen (rechtssteilen) im oberen.
I Bei symmetrische Verteilungen verteilen sich die Daten symmetrisch um eine
zentrale Lage.
I Bei mehrgipfligen Verteilungen gibt es mehr als nur ein Zentrum, um das die
Werte streuen.

Verteilungsformen
−4 −2 0 2 4
Bimodal Multimodal Gleichverteilung
0.8
0.6
0.4
0.2
0.0
Density
Symmetrisch (Normal) Linksschief Rechtsschief
0.8
0.6
0.4
0.2
0.0
−4 −2 0 2 4 −4 −2 0 2 4
x
Übung 29: Verteilungsform
Welche Aussage stimmt vermutlich für die Verteilung des Einkommens?

A. Das Einkommen ist gleichverteilt.
B. Das Einkommen ist multimodal.
C. Das Einkommen ist normalverteilt.
D. Das Einkommen ist linksschief.
E. Das Einkommen ist rechtsschief.

Verteilungsfunktion
Die empirische Verteilungsfunktion42 Fn (x) gibt an, wie viele der n Beobachtungen
kleiner oder gleich x sind:
Anzahl Beobachtungen 6 x
Fn (x) =
n
10 facher MÃ¼nzwurf
0.25
0.20
Relative HÃ¤uigkeit
0.15
0.10
0.05
0.00
0.0 2.5 5.0 7.5 10.0
Anzahl Kopf
1.00
0.75
Verteilungsfunktion
0.50
0.25
0.00
0 4 8 12
Anzahl Kopf
42 Neben der empirischen Verteilungsfunktion gibt es auch eine theoretische Verteilungsfunktion F(x).
Übung 30: Verteilungsfunktion
Bei einem 10 fachen Münzwurf gilt für die Anzahl Kopf: F(8) = 0.9892578. Welche
Aussage stimmt?
A. Die relative Häufigkeit bei 10 Würfen 8 mal Kopf zu werfen liegt bei 0.9892578.
B. Die relative Häufigkeit bei 10 Würfen mehr als 8 mal Kopf zu werfen liegt bei
0.9892578.
C. Die relative Häufigkeit bei 10 Würfen höchstens 8 mal Kopf zu werfen liegt bei
0.9892578.

Übung 31: Kuss
Wann war Ihr erster Kuss? Skizzieren Sie die Verteilungsfunktion. Bestimmen Sie den
Anteil derjenigen, die Ihren ersten Kuss vor dem 16. Geburtstag erhalten haben.

Mosaikplot
Visualisiert die gemeinsame Verteilung von zwei kategorialen Variablen. Dabei entspricht
die Höhe und Breite der Rechtecke der jeweiligen relativen Häufigkeit.
Ãœberleben auf der Titanic
1st 2nd 3rd Crew

No
Survived
Yes
Class

Übung 32: Mosaikplot
Ãœberleben auf der Titanic
1st 2nd 3rd Crew
No
Survived
Yes
Class
Stimmt die Aussage: Der Anteil der Überlebenden ist in der 1. Klasse größer als in den
unteren Klassen?
I Ja.
I Nein.

Streudiagramm
Visualisiert die gemeinsame Verteilung von zwei i. d. R. numerischen Variablen durch

Punkte. Bei diskreten Merkmalen ggfs. verwackeln (engl.: jitter).
4.5
4.0
3.5
Sepal.Width
3.0
2.5
2.0
5 6 7 8
Sepal.Length

Liniendiagramm
Visualisiert den (zeitlichen) Verlauf mindestens einer numerischen Variable.
CO2−Konzentration
360
350
340
co2
330
320
1960 1970 1980 1990
Zeit

Cartoon: Achsenbeschriftung und Skalierung
“Beschrifte die Achsen!”43

43 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift K. Falbo
Übung 33: Wahl der Visualisierung
Mit welchem Verfahren kann die Verteilung des Merkmals Stundenlohn sinnvoll
visualisiert werden?
A. Balkendiagramm.
B. Histogramm.
C. Streudiagramm.

5.2 Lagemaße

Lagemaße
Lagemaße sollen die zentrale Tendenz der Daten beschreiben:

I Minimum bzw. Maximum: kleinste bzw. größte Merkmalsausprägung
I Modus/Modalwert: häufigste Merkmalsausprägung
I Median/Zentralwert: Merkmalsausprägung, die bei (aufsteigend) sortierten
Beobachtungen in der Mitte liegt
I Arithmetischer Mittelwert (engl. mean)44 : Summe aller Werte geteilt durch die
P
Anzahl: x̄ = n1 in=1 xi
I Quantil: Das p-Quantil ist der Wert, für den gilt, dass er von p Prozent der Werte
nicht überschritten wird.
44 Darüberhinaus gibt es noch den Geometrischen und den Harmonischen Mittelwert.

Übung 34: Lagemaße
Stimmt die Aussage: Die Berechnung des arithmetischen Mittelwertes ist bei nominalen
Merkmalen nicht sinnvoll?
I Ja.
I Nein.

Beispielrechnung Lagemaße
Daten: 20; 18; 24; 40; 24; 22; 21; 23; 20; 28 (n = 10)
I Minimum, Maximum, Modus: xmin = 18, xmax = 40, xmod = {20; 24}
I Median: 18; 20; 20; 21; 22;
| {z23} ; 24; 24; 28; 40
x0,5 = 22+23
2 =22,5
I Arithmetischer Mittelwert: x̄ = 10 1 (20 + 18 + 24 + · · · + 28) = 240 = 24
10
I 45
25%-Quantil: x0,25 = 20
45 Hier sind verschiedene Berechnungen möglich. R gibt z. B. 20.25 aus.

Stimmt die Aussage: Der Median ist das 50 % Quantil einer Verteilung?
I Ja.
I Nein.

Stimmt die Aussage: Es gilt immer F(x̄) = 0.5?

I Ja.
I Nein.

Mittelwert als “Modell”
I Idee: Daten = Modell + Rest.

I Für Beobachtung i gilt: xi = x̄ + ( xi − x̄).
I Der “Rest” xi − x̄ beschreibt die Abweichung46 der Beobachtung zum Mittelwert x̄
(hier: “Modell”).
46 ZurEinschätzung ob die Abweichung groß oder klein ist wird die Streuung (s. u.) der Daten
herangezogen.
Arithmetischer Mittelwert und Median
I Der arithmetische Mittelwert minimiert die Summe der quadratischen

P
Abweichungen der Beobachtungen von einer Zahl c: x̄ = arg min in (xi − c)2 . Er ist
c
der Durchschnitt in dem Sinne, dass alle Merkmalsträger den gleichen Anteil an der
Merkmalssumme haben.
I Der Median minimiert die Summe der absoluten Abweichungen der Beobachtungen
P
von einer Zahl c: x0,5 = arg min in |xi − c|. Er ist die Merkmalsausprägung eines
c
(im Sinne des Merkmals) typischen, d. h. mittleren Merkmalsträgers.
I Der Median ist robust gegen Ausreißer, der arithmetische Mittelwert nicht.

Die Abweichungen vom Mittelwert summieren sich zu Null auf
Richtung der Abweichung

4
negativ
positiv
3
Note
MW = 2.33
1 2 3 4
ID der Studierenden
X
n X
n X
n
( xi − x̄) = xi − x̄ = n · x̄ − n · x̄ = 0
i=1 i=1 i=1

Übung 37: Vergleich Median und Mittelwert
A
0.30
0.25
Density
0.20
0.15
0.10
0.05
0.00
−10 −5 0
0.4
Density
0.3
0.2
0.1
0.0
−2 0 2
0.20
Density
0.15
0.10
0.05
0.00
0 5 10 15
Für welche Abbildung gilt wohl Median < arithmetischer Mittelwert?

A. Abbildung A.
B. Abbildung B.
C. Abbildung C.
5.3 Streuungsmaße

Streuungsmaße
Streuungsmaße sollen die Streuung / Variation der Daten beschreiben:

I Varianz: Maß für die durchschnittliche quadratische Abweichung zum Mittelwert:
P
s2 = n−1 1 in=1 (xi − x̄)2 . Diese hat aber eine andere Einheit als die Daten, z. B.
Daten in e, Varianz e2 . Durch das Quadrieren werden Abweichungen zum
Mittelwert nach oben oder unten gleich behandelt und größere Abweichungen
stärker gewichtet.47
I Standardabweichung
√ (engl. standard deviation): Quadratwurzel der Varianz:
sd = s = s 2
I Variationskoeffizient: erlaubt den Vergleich von Standardabweichungen, da er
nicht von der Dimension abhängt, in der gemessen wird: vc = sdx̄
I Interquartilsabstand (engl. interquartile range, IQR): oberes Quartil
(75%-Quantil) – unteres Quartil (25%-Quantil)
I Spannweite (engl. range): Maximum – Minimum
47 1/ nist nicht falsch, 1/(n − 1) ist aus Gründen, die außerhalb dieser Vorlesung liegen, besser, wenn
von einer Stichprobe verallgemeinert werden soll. Der Unterschied ist bei großem n klein.
Beispielrechnung Streuungsmaße
Daten: 20; 18; 24; 40; 24; 22; 21; 23; 20; 28, n = 10, x̄ = 24
Varianz: s2 = 101−1 (20 − 24√)2 + (18 − 24)2 + . . . + (28 − 24)2 ) = 354

I 9 ≈ 39, 33
I Standardabweichung: sd = 39, 33 = 6, 27
I Interquartilsabstand:48 IQR = 24 − 20 = 4
I Spannweite: 40 − 18 = 22.
48 Hiersind aufgrund verschiedener Berechnungsmöglichkeiten der Quantile unterschiedliche Werte

möglich. R gibt z. B. 3.75 aus.
Varianz und SD als “Abweichungsquadrate”
Richtung der Abweichung

5
negativ
positiv
4
Note
MW = 2.33
1 2 3 4
Nummer der Studierenden
I Abweichungsquadrate als Kennzahl für “Rest”:

I Daten = Modell + Rest: xi = x̄ + ( xi − x̄).
P
I Quadratsumme des Restes: in=1 ( xi − x̄)2 = (n − 1) · sd2 .

Beispiel: Abwanderungserkennung
Während Klaus sehr regelmäßig einkauft (kleine Streuung), kauft Gabi zwar genau so
oft, aber unregelmäßiger ein:
Klaus
Personen
Gabi
0 50 100 150
Zeitpunkte
Beide waren seit 30 Tagen nicht mehr einkaufen: Aufgrund der größeren Streuung der
Kaufintervalle ist dies bei Gabi üblicher als bei Klaus.

Offene Übung 38: Kennzahlen
Wieviele Stunden haben Sie heute Nacht geschlafen haben (5 Studierende befragen).
Berechnen Sie arithmetischen Mittelwert, Median und Standardabweichung.49
49 Aus Datenschutzgründen dürfen Sie lügen!

Übung 39: Streuungsmaße

A. Die Standardabweichung ist robuster (gegen Ausreißer) als der Interquartilsabstand.
B. Der Interquartilsabstand ist robuster (gegen Ausreißer) als die Standardabweichung.
C. Interquartilsabstand und Standardabweichung sind gleich robust gegen Ausreißer.

Übung 40: Vergleich Streuung
A
0.4
Density
0.3
0.2
0.1
0.0
−4 −2 0 2 4
0.20
0.15
Density
0.10
0.05
0.00
−4 −2 0 2 4
0.08
Density
0.06
0.04
0.02
0.00
−4 −2 0 2 4
Bei welcher Abbildung ist die Standardabweichung sd wohl am größten?

A. Abbildung A.
B. Abbildung B.
C. Abbildung C.
Offene Übung 41: Skalenniveaus
Welche Lage- und Streuungsmaße sind zulässig?
Skalenniveau Lagemaße Streuungsmaße

Nominal
Ordinal
Metrisch

Boxplot
Visualisiert die Verteilung von deskriptiven Kennzahlen und mögliche Ausreißer einer
numerischen Variable.
2.0 2.5 3.0 3.5 4.0 4.5
Sepal.Width

Anatomie Boxplot
I Die untere Linie der Box ist das untere Quartil (Q1).
I Die obere Linie der Box ist das obere Quartil (Q3).
I Der Punkt in der Box (häufig auch eine Linie) ist der Median.
I Sollten Punkte außerhalb der Antennen sein, sind dies mögliche Ausreißer.
Maximale Reichweite der Antennen: Bis zu der Beobachtung, die maximal
1,5 · IQR vom oberen bzw. unteren Quartil entfernt liegt. Sollte das Maximum
bzw. das Minimum der Daten kleiner bzw. größer sein, wird dies genommen.50
50 Definition nicht immer einheitlich.

Offene Übung 42: Boxplot
Verbinde Abbildung und Kennzahlen. Ab wann ist eine Beobachtung ein potentieller
Ausreißer nach oben?
0 5 10
## min Q1 median Q3 max mean sd n missing

## 0.11 1.3 2.36 3.4 12.63 2.96 2.65 100 0

5.4 Zusammenhangsmaße

Kovariation
I Kovarianz beschreibt den linearen Zusammenhang zweier metrischer Merkmale:

P
s xy = n−1 1 in=1 (xi − x̄)(yi − ȳ): Die Werte beider Variablen einer Beobachtung
werden mit dem jeweiligen Mittelwert der Variable verglichen. Vom Produkt der
gemeinsamen Abweichungen wird ≈ Mittelwert berechnet.
I Der Korrelationskoeffizient nach Pearson51 r = sdsxy normiert die Kovarianz
x ·sdy
auf den Wertebereich −1 bis +1 durch Division der Kovarianz durch das Produkt
der Standardabweichungen.
I Korrelationskoeffizienten r > 0 zeigen einen positiven linearen Zusammenhang an,
r < 0 einen negativen. Je größer |r|, desto größer ist der lineare Zusammenhang.
I Achtung: Korrelation heißt nicht zwangsläufig Kausalität, keine Korrelation heißt
nicht zwangsläufig kein Zusammenhang oder keine Kausalität.52
51 Alternative: Spearman.
52 Scheinkorrelation, siehe z. B. http://www.tylervigen.com/spurious-correlations
Beispiele Kovariation
I Einkommen x und Ausgaben y: positiver Zusammenhang: Personen mit

überdurchschnittlichem Einkommen (xi − x̄ > 0) haben häufig auch
überdurchschnittliche Ausgaben (yi − ȳ > 0), Personen mit
unterdurchschnittlichem Einkommen (xi − x̄ < 0) haben häufig auch
unterdurchschnittliche Ausgaben (yi − ȳ < 0). In beiden Fällen:
( xi − x̄) · (yi − ȳ) > 0.
I Preis x und Absatz y: negativer Zusammenhang: Produkte mit
überdurchschnittlichem Preis (xi − x̄ > 0) haben häufig einen
unterdurchschnittlichen Absatz (yi − ȳ < 0), Produkte mit unterdurchschnittlichem
Preis (xi − x̄ < 0) haben häufig einen überdurchschnittlichen Absatz (yi − ȳ > 0).
In beiden Fällen: (xi − x̄) · (yi − ȳ) < 0.

Beispielrechnung Kovarianz und Korrelation
i xi yi xi − x̄ yi − ȳ ( xi − x̄)2 (yi − ȳ)2 ( xi − x̄)(yi − ȳ)

1 20 6 -4 -1 16 1 4
2 24 7 0 0 0 0 0
3 30 10 6 3 36 9 18
4 25 7 1 0 1 0 0
5
P
21 5 -3 -2 9 4 6
120 35 0 0 62 14 28
I Lagemaße: x̄ = 120 35
5 = 24; ȳ = 5 = 7
I Streuungsmaße:
√ √
s2x = 62
4 = 15,5; s 2 = 14 = 3,5;
y 4 s x = 15,5 = 3,94; s y = 3,5 = 1,87
I Kovarianz: s xy = 28 4 =7
I Korrelation: r = 3,947·1,87 = 0, 9553
53 Song https://www.causeweb.org: Monty Harper © Correlation Does Not Imply Causation

Korrelationskoeffizienten
−1 −0.9 −0.75
−0.3 0 0.3
0.75 0.9 1

Big Bang und Nerds

Übung 43: Nicht lineare Zusammenhänge
y
1
−2 −1 0 1 2
Wie groß ist hier der Korrelationskoeffizient?

A. r ≈ −1
B. r≈0
C. r ≈ +1
D. r kann nicht bestimmt werden.

Anscombe Quartett
Anscombe Daten
5 10 15
3 4
12
10
1 2
y
12
10
5 10 15

Anscombe Daten: Erst visualisieren, dann korrelieren!
Die Verteilung von x und y unterscheidet sich sichtbar. Aber die deskriptiven Kennzahlen
I x̄ = 9; ȳ = 7,5
I sd x ≈ 3,31; sdy ≈ 2,03
I r ≈ 0,82
sind nahezu identisch – in allen vier Fällen.54
54 Weiteres Beispiel z. B. unter https://www.autodeskresearch.com/publications/samestats

Übung 44: Korrelationskoeffizient
Stimmt die Aussage: Der Korrelationskoeffizient ist robust gegen Ausreißer?

I Ja.
I Nein.

Cartoon: Visualisierung
“Ich weiß, dass Datenvisualisierung ein heißes Thema ist, aber gehst Du hier nicht ein
wenig zu weit?”55
55 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift B. Osyk
Offene Übung 45: Miete
Zeichnen Sie das Histogram für die folgenden Daten.

Verwenden Sie die Klassen ]100, 200], ]200, 300], ]300, 400].
Miete (Euro): 213, 172, 347, 346, 231, 254, 276, 248, 291, 312

Offene Übung 46: Lebenserwartung und BSP
Was schwankt stärker, die Lebenserwartung oder das Bruttosozialprodukt (BSP) in $
pro Einwohner? Nutzen Sie zur Beantwortung der Frage die folgenden Daten 56
Lebenswerartung Männer
Land (Jahre) BSP ($) je Einwohner
Afghanistan 43,12 208
Brasilien 68,02 3454
Deutschland 75,81 36233
Indien 63,90 749
Italien 76,88 28940
Namibia 44,46 2464
Singapur 79,13 25876
Thailand 69,95 2975
USA 75,02 48437
1. Berechnen Sie geeignete Streuungsmaße.

2. Vergleichen und interpretieren Sie die Streuungsmaße.
56 Daten aus https://www.welt-in-zahlen.de
Offene Übung 47: Zusammenhang: Lebenserwartung und BSP
Betrachten Sie wieder die Daten zur Lebenserwartung und zum BSP. Gibt es einen
(linearen) Zusammenhang?
Lebenswerartung Männer
Land (Jahre) BSP ($) je Einwohner
Afghanistan 43,12 208
Brasilien 68,02 3454
Deutschland 75,81 36233
Indien 63,90 749
Italien 76,88 28940
Namibia 44,46 2464
Singapur 79,13 25876
Thailand 69,95 2975
USA 75,02 48437
Zeichnen Sie zudem das Streudiagramm.

SRRI
Viele Fonds müssen wesentliche Anlegerinformationen in einem sogenannten Key

Investor Information Document veröffentlichen. Dieses Dokument enthält unter anderem
eine Risikokennzahl: den Synthetic Risk and Reward Indicator
Zur Berechnung der Risikokennzahl hat die Europäische Wertpapier- und
Marktaufsichtsbehörde die Richtlinie Nummer 10-673 veröffentlicht. Diese Richtlinie
enhält die in der Abbildung ergänzt durch die Tabelle dargestellt Berechnungsmethode.

SRRI Methode

Offene Übung 48: SRRI
1. Suchen Sie im Internet KIIDs für verschiedene Fonds und machen Sie sich ein Bild
des jeweiligen SRRIs.
2. Erläutern Sie die Grundidee der Formel zur Berechnung des SRRIs.
3. Wo sehen Sie Schwierigkeiten bei der Berechnung und Interpretation?

6 Explorative Datenanalyse mit R

6. Explorative Datenanalyse mit R
Analyse Trinkgelddaten
Einlesen der Tipping57 Daten:
# Herunterladen
download.file("https://goo.gl/whKjnl", destfile = "tips.csv")
# Einlesen in R
tips <- read.csv2("tips.csv")
# Alternativ - heruntergeladene Datei einlesen:

# tips <- read.csv2(file.choose())
Tipp: Über den Befehl getwd() wird das aktuelle Verzeichnis ausgegeben.
57 Bryant,
P. G. and Smith, M (1995) Practical Data Analysis: Case Studies in Business Statistics.
Homewood, IL: Richard D. Irwin Publishing
csv Datei
Dateiaufbau tips.csv58 :
I Erste Zeile: Variablennamen59
I Datenfeldtrennzeichen der Variablen: ; (Semikolon)
I Dezimaltrennzeichen: , (Komma)
I Textkennzeichen: "(Anführungszeichen)
Hinweis: Der Einlesebefehl in R hängt vom Dateiformat der Datei ab. Siehe z. B.
?read.table oder Paket readr.
58 Eine solche csv Datei kann z. B. durch Export aus Tabellenkalkulationsprogrammen erzeugt
werden.
59 Tipp: Mit Buchstaben beginnen, keine Leer- oder Sonderzeichen, Umlaute vermeiden.

Variablen Trinkgelddaten
Ein Kellner sammelte über mehrere Monate Daten über sein Trinkgeld:
I total_bill: Rechnungshöhe in Dollar
I tip: Trinkgeld in Dollar
I sex: Geschlecht des Rechnungszahlenden
I smoker: Gab es Raucher*innen am Tisch?
I day: Wochentag
I time: Tageszeit / Mahlzeit
I size: Anzahl Personen am Tisch

mosaic
# Ggfs. einmalig vorab installieren

# install.packages("mosaic")
# Paket mosaic laden

library(mosaic)

Trinkgelddaten
inspect(tips)
##
## categorical variables:
## name class levels n missing distribution
## 1 sex factor 2 244 0 Male (64.3%), Female (35.7%)
## 2 smoker factor 2 244 0 No (61.9%), Yes (38.1%)
## 3 day factor 4 244 0 Sat (35.7%), Sun (31.1%), Thur (25.4%) ...
## 4 time factor 2 244 0 Dinner (72.1%), Lunch (27.9%)
##
## quantitative variables:
## name class min Q1 median Q3 max mean sd n missing
## 1 total_bill numeric 3.07 13.3475 17.795 24.1275 50.81 19.785943 8.9024120 244 0
## 2 tip numeric 1.00 2.0000 2.900 3.5625 10.00 2.998279 1.3836382 244 0
## 3 size integer 1.00 2.0000 2.000 3.0000 6.00 2.569672 0.9510998 244 0

Übung 49: Metrische Variablen
Wie viele metrische Variablen liegen vor?

A. 2
B. 3
C. 4
D. 7
E. 244

Übung 50: Datenerhebung
Was vermuten Sie: Um welche Form der Datenerhebung handelt es sich hier?
A. Beobachtungsstudie.
B. Experiment.
Was folgt daraus?

Grafische Analysen in R (Übersicht)
I bargraph(): Balkendiagramm
I histogram(): Histogramm
I bwplot(): Boxplot
I xyplot(): Streudiagramm
I mosaicplot(): Mosaikplot

Deskriptive Kennzahlen in R (Übersicht)
I favstats(): Kennzahlen numerischer Variablen

I prop(): Anteile
I tally(): (Kreuz-)tabellierung
I cor(): Korrelationskoeffizient

6.1 Analyse kategorialer Daten

Analyse: Geschlecht Rechnungszahler*in
Analysiere über Balkendiagramm:
bargraph( ~ sex, # (unabhängige) Variable, die analysiert wird

data = tips) # Datensatz
150
100
count
50
m ale Ma
le
Fe
sex

Übung 51: Geschlechtsverteilung
150
100
count
50
le le
ma Ma
Fe
sex

A. Bei einer Mehrheit der Stichprobe zahlt eine Frau.
B. Bei einer Mehrheit der Stichprobe zahlt ein Mann.
C. Weiß nicht.

Anteil Frauen
Analysiere über Anteil:
prop( ~ sex, # Variable, die analysiert wird

success = "Female", # Ausprägung
## prop_Female
## 0.3565574

Tabellierung
Analysiere über Tabellen:
Absolute Häufigkeit hi :
tally( ~ sex, # Variable, die analysiert wird
## sex
## Female Male
## 87 157
hi
Relative Häufigkeit f i = n:
tally( ~ sex, # Variable, die analysiert wird

format = "proportion", # Option: Anteile
## sex
## Female Male
## 0.3565574 0.6434426
Gruppiertes Balkendiagramm
bargraph( ~ sex # Variable, die analysiert wird

| time, # Variable, nach der bedingt wird
Dinner Lunch
100
count
50
male Ma
le
ma
le
Ma
le
Fe Fe
sex

Übung 52: Geschlecht nach Tageszeit
Dinner Lunch
100
count
50
le le le le
ma Ma ma Ma
Fe Fe
sex

A. Beim Lunch zahlen mehr Frauen als Männer.
B. Beim Lunch zahlen weniger Frauen als Männer.
C. Beim Lunch zahlen gleich viele Frauen wie Männer.

Kreuztabellierung Geschlecht nach Tageszeit
Absolute Häufigkeit:
tally( ~ sex # Variable, die analysiert wird

## time
## sex Dinner Lunch
## Female 52 35
## Male 124 33
Relative Häufigkeit je Mahlzeit:
tally( ~ sex # Variable, die analysiert wird

format = "proportion", # Option: Anteile
## time
## sex Dinner Lunch
## Female 0.2954545 0.5147059
## Male 0.7045455 0.4852941

Übung 53: Raucher je Wochentag
Welcher Befehl führt eine Kreuztabellierung der Anteile der Raucher je Wochentag
durch?
A. tally( ~ smoker | day, format = 'proportion', data = tips)
B. tally( ~ day | smoker, format = 'proportion', data = tips)

Kreuztabellierung Raucher und Wochentag
tally( ~ smoker | day,

format = "proportion", data = tips)
## day
## smoker Fri Sat Sun Thur
## No 0.2105263 0.5172414 0.7500000 0.7258065
## Yes 0.7894737 0.4827586 0.2500000 0.2741935
tally( ~ day | smoker,

format = "proportion", data = tips)
## smoker
## day No Yes
## Fri 0.02649007 0.16129032
## Sat 0.29801325 0.45161290
## Sun 0.37748344 0.20430108
## Thur 0.29801325 0.18279570
Relative Häuigkeiten
Achtung: (Confusion of the inverse): Wovon wird die relative Häufigkeit angegeben?
I Der relative Anteil der Raucher am Freitag entspricht nicht dem relativen Anteil
des Freitags der Raucher.
I Der Papst ist ein Mann, aber nur die allerwenigsten Männer sind Papst.60
I Die Wahrscheinlichkeit krank zu sein, wenn das Testergebnis positiv ist, ist nicht
dasselbe wie die Wahrscheinlichkeit, dass das Testergebnis positiv ist, wenn man
krank ist.
60 Auch wenn es zwei Päpste geben würde, hätte sich zwar die relative Häufigkeit der Männer, die
Papst sind verdoppelt, wäre absolut aber immer noch sehr klein.
Übung 54: Fehler
Was ist an diesem Befehl falsch?
tally( ~ x data = daten)
A. Es fehlt eine Option.

B. Es fehlt eine bedingende Variable.
C. Es fehlt ein Komma.
D. Gar nichts.

Offene Übung 55: R Fehler
Was ist an diesem Befehl falsch?
Tally( ~ x, data = daten)

6.2 Analyse numerischer Daten

Übung 56: Rechnungshöhe
Was gilt für die Variable Rechnungshöhe total_bill?

A. Es ist eine latente verhältnisskalierte Variable.
B. Es ist eine manifeste verhältnisskalierte Variable.
C. Es ist eine latente intervallskalierte Variable.
D. Es ist eine manifeste intervallskalierte Variable.

Analyse Rechnungshöhe
Analysiere über Histogramm:
histogram( ~ total_bill, # Variable, die analysiert wird

0.05
0.04
0.03
Density
0.02
0.01
0.00
10 20 30 40 50
total_bill

Übung 57: Rechnungshöhe
0.05
0.04
0.03
Density
0.02
0.01
0.00
10 20 30 40 50
total_bill
Welche der folgenden Aussagen stimmt?

A. Die Rechnungshöhe ist gleichverteilt.
B. Die Rechnungshöhe ist multimodal.
C. Die Rechnungshöhe ist normalverteilt.
D. Die Rechnungshöhe ist linksschief.
E. Die Rechnungshöhe ist rechtsschief.

Variablentransformation
p
Ggfs. können Variablen durch Transformationen (z. B. (), ln(), . . .) in Richtung einer
symmetrischen Normalverteilung transformiert werden:
histogram( ~ log(total_bill), # logarithmierte Variable
0.8
0.6
Density
0.4
0.2
0.0
1 2 3 4
log(total_bill)

Histogram: Anzahl der Rechtecke festlegen mit Option nint=
nint= 2 nint=10
0.015 0.06
0.05
0.010 0.04
Density
Density
0.03
0.005 0.02
0.01
0.000 0.00
−20 0 20 40 60 10 20 30 40 50
total_bill total_bill
nint=25 nint=50
0.06
0.06
0.04
Density
Density
0.04
0.02 0.02
0.00 0.00
10 20 30 40 50 10 20 30 40 50
total_bill total_bill

Kennzahlen Rechnungshöhe
Analysiere über Kennzahlen:
favstats( ~ total_bill, # Variable, die analysiert wird


## 3.07 13.3475 17.795 24.1275 50.81 19.78594 8.902412 244 0

Übung 58: Kennzahlen

A. Die durchschnittliche Rechnungshöhe ist kleiner als die Rechnungshöhe einer im
Bezug auf die Rechnungshöhe typischen Rechnung.
B. Die durchschnittliche Rechnungshöhe ist größer als die Rechnungshöhe einer im
Bezug auf die Rechnungshöhe typischen Rechnung.
C. Die durchschnittliche Rechnungshöhe ist gleich der Rechnungshöhe einer im Bezug
auf die Rechnungshöhe typischen Rechnung.

Rechnungshöhe je Geschlecht
Histogramm je Geschlecht:
histogram( ~ total_bill # Variable, die analysiert wird
| sex, # Variable, nach der bedingt wird
10 20 30 40 50
Female Male
0.06
0.04
Density
0.02
0.00
10 20 30 40 50
total_bill

Übung 59: Rechnungshöhe nach Geschlecht
10 20 30 40 50
Female Male
0.06
0.04
Density
0.02
0.00
10 20 30 40 50
total_bill
Welche Aussage stimmt nach der Abbildung?

A. Männer haben einen höheren Anteil an höheren Rechnungen.
B. Frauen haben einen höheren Anteil an höheren Rechnungen.
C. Die Verteilung ist bei den Frauen linksschief.
D. Die Verteilung ist bei den Männern linksschief.

Boxplot Rechnungshöhe abhängig vom Geschlecht
Analysiere über Boxplot61 :
bwplot(total_bill ~ # abhängige Variable

sex, # unabhängige Variable
50
40
30
total_bill
20
10
Female Male
61 Beachte ~ “als Funktion von”, | “bedingt, gruppiert nach”.

Übung 60: Übung Boxplot
50
40
30
total_bill
20
10
Female Male
Welche Aussage stimmt nach der Abbildung?

A. Der Mittelwert der Rechnungshöhe ist bei den Männern unter 20 $.
B. Der Mittelwert der Rechnungshöhe ist bei den Männern über 20 $.
C. Der Median der Rechnungshöhe ist bei den Männern unter 20 $.
D. Der Median der Rechnungshöhe ist bei den Männern über 20 $.

Kennzahlen gruppiert nach Geschlecht
Zusammenfassende Kennzahlen je Geschlecht:
favstats( ~ total_bill # Variable, die analysiert wird

| sex, # Variable, nach der bedingt wird
## sex min Q1 median Q3 max mean sd n missing

## 1 Female 3.07 12.75 16.40 21.52 44.30 18.05690 8.009209 87 0
## 2 Male 7.25 14.00 18.35 24.71 50.81 20.74408 9.246469 157 0

Modellierung (I/II)
Daten = Modell + Rest

Modell: Gesamtmittelwert x̄, d. h. keine die Rechnungshöhe modellierende Variable62 :
favstats(total_bill ~ 1, data = tips)
## 1 min Q1 median Q3 max mean sd n missing

## 1 1 3.07 13.3475 17.795 24.1275 50.81 19.78594 8.902412 244 0
X
n
( xi − x̄)2 = (n − 1) · sd2 = (244 − 1) · 8.9024122 = 1.925846 × 104 .
i=1
62 Dies kann in mosaic auch durch y~1 geschrieben werden

Modellierung (II/II)
Modell: Gruppenmittelwert x̄ j je Anzahl Personen j = 1, . . . , 6, d. h. die Rechnungshöhe
wird durch die jeweilige Anzahl Personen modelliert:
favstats(total_bill ~ size, data = tips)
## size min Q1 median Q3 max mean sd n missing

## 1 1 3.07 6.2050 7.915 8.9525 10.07 7.24250 3.010729 4 0
## 2 2 5.75 12.4525 15.370 19.6900 40.55 16.44801 6.043729 156 0
## 3 3 10.33 16.9400 20.365 27.7750 50.81 23.27763 9.407065 38 0
## 4 4 16.49 21.5000 25.890 34.8100 48.33 28.61351 8.608603 37 0
## 5 5 20.69 28.1500 29.850 30.4600 41.19 30.06800 7.340396 5 0
## 6 6 27.05 29.1125 32.050 37.7675 48.17 34.83000 9.382000 4 0
n
X
K Xj
X
K
2
( xi,j − x̄ j ) = (n j − 1)sd2j = 1.211054 × 104
j=1 i=i j=1
Bei der Analyse total_bill~size ist der Rest kleiner als bei der Analyse
total_bill~1 (ohne erklärende Variable).
Für dieses Reduzierung des Restes wird ein Preis gezahlt: In den einzelnen Gruppen sind
weniger Beobachtungen: weniger Freiheitsgrade (engl: degrees of freedom, df).
Zusammenhang Trinkgeld und Rechnungshöhe
Analysiere über Streudiagramm:
xyplot( tip # abhängige Variable
~ total_bill, # unabhängige Variable
10
6
tip
10 20 30 40 50
total_bill

Übung 61: Zusammenhang Rechnungshöhe und Trinkgeld
10
tip
4
10 20 30 40 50
total_bill

A. Es scheint keinen Zusammenhang zwischen Rechnungshöhe und Trinkgeld zu
geben.
B. Es scheint einen negativen Zusammenhang zwischen Rechnungshöhe und Trinkgeld
zu geben.
C. Es scheint einen positiven Zusammenhang zwischen Rechnungshöhe und Trinkgeld
zu geben.

Korrelation Rechnungshöhe und Trinkgeld
Analysiere über Korrelationskoeffizienten:
cor( tip # abhängige Variable

~ total_bill, # unabhängige Variable
## [1] 0.6757341

Zusammenhang Rechnungs- und relative Trinkgeldhöhe
Variable rel_tip erzeugen:
tips <- tips %>%

mutate(rel_tip = tip/total_bill)
Streudiagramm:
xyplot(rel_tip ~ # abhängige Variable

total_bill, # unabhängige Variable
0.6
0.4
rel_tip
0.2
10 20 30 40 50
total_bill

Übung 62: Rechnungs- und relative Trinkgeldhöhe (I / II)
Welcher Befehl visualisiert den Zusammenhang zwischen Rechnungshöhe und der

tip
relativen Trinkgeldhöhe rel_tip = total_bill
A. xyplot( ~ rel_tip | total_bill, data=tips)
B. xyplot( rel_tip ~ total_bill, data=tips)

Übung 63: Rechnungs- und relative Trinkgeldhöhe (II / II)
0.6
0.4
rel_tip
0.2
10 20 30 40 50
total_bill
Welche Aussage stimmt ?

A. Es gibt Ausreißer nach oben bei der relativen Trinkgeldhöhe.
B. Es gibt Ausreißer nach unten bei der relativen Trinkgeldhöhe.
C. Es gibt Ausreißer nach oben bei der Rechnungshöhe.
D. Es gibt Ausreißer nach unten bei der Rechnungshöhe.

Offene Übung 64: Rechnungshöhe für Raucher bzw. Nichtraucher
Was können Sie über die Verteilung der Rechnungshöhe für Raucher bzw. Nichtraucher
aussagen?63
63 Video https://www.causeweb.org: McLellan M © Describe the Distribution

7 Disparitäts- und Konzentrationsmessung

7. Disparitäts- und Konzentrationsmessung
Transferausgaben (I/II)
verein <- c("FC Bayern München", "Rasenballsport Leipzig",

"Borussia Dortmund", "TSG 1899 Hoffenheim", "1.FC Nürnberg"
"Hertha BSC", "SC Freiburg", "SV Werder Bremen",
"Borussia Mönchengladbach", "FC Schalke 04",
"Eintracht Frankfurt", "Bayer 04 Leverkusen",
"FC Augsburg", "Fortuna Düsseldorf", "1.FSV Mainz 05",
"VfL Wolfsburg", "VfB Stuttgart", "Hannover 96")
ausgaben <- c(10, 64.63, 88.50, 31.50, 3.50, 10.50, 16.60, 25.80, 32.55,
61.70, 24.85, 30.50, 6.00, 5.15, 27.00, 40.00, 46.00, 14.4
einnahmen <- c(84, 72.75, 113, 2.80, 0, 16.50, 22.50, 26.65, 32.95,
45.65, 17.80, 45.00, 1.95, 0.600, 55.60, 4.20, 17.10, 13.
Transfermarkt zu Saison 2018/19, Stand 5.2.2019.64

64 https://www.transfermarkt.de/1-bundesliga/transfers/wettbewerb/L1

Transferausgaben (II/II)
# Vektorelemente bennenen
names(ausgaben) <- verein
names(einnahmen) <- verein
Verteilen sich die Einnahmen und Ausgaben gleichmäßig auf die Vereine?

Lorenzkurve
Die Lorenzkurve visualisiert die kumulierten Anteile p an den Merkmalsträgern

(x-Achse) gegenüber den kumulierten Anteilen an der Merkmalssumme L (y-Achse).
Dabei sind die Daten nach Merkmalswert aufsteigend sortiert.
# Einmalig installieren
install.packages("ineq")
# Pakete laden
library(ineq)
library(mosaic)

Lorenzkurve Transferausgaben
Lorenzkurve berechnen, plotten:
Lc(ausgaben) %>%
plot()
Lorenz curve
1.0
0.8
0.6
L(p)
0.4
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0

Lorenzkurve
Manuell wird die Lorenzkurve wie folgt berechnet:
ausgaben <- c(10, 64.63, 88.50, 31.50, 3.50, 10.50, 16.60, 25.80, 32.55,
61.70, 24.85, 30.50, 6.00, 5.15, 27.00, 40.00, 46.00, 14.4
AnteilMannschaften=rep(0,19)
AnteilAusgaben=rep(0,19)
sausgaben=sort(ausgaben)/sum(ausgaben)
for (i in 2:19){AnteilMannschaften[i]=(i-1)/18}
AnteilAusgaben[2]=sausgaben[1]
for(i in 3:19){AnteilAusgaben[i]=(AnteilAusgaben[i-1]+sausgaben[i-1])}
plot(Anteil,AnteilAusgaben, type="l",main="Lorenzkurve")
abline(0,1,col="red")

Lorenzkurve
## [1] 0.00000000 0.05555556 0.11111111 0.16666667 0.22222222 0.2777777

## [7] 0.33333333 0.38888889 0.44444444 0.50000000 0.55555556 0.6111111
## [13] 0.66666667 0.72222222 0.77777778 0.83333333 0.88888889 0.9444444
## [19] 1.00000000
## [1] 0.000000000 0.006491339 0.016042880 0.027170889 0.045717571

## [6] 0.065191587 0.091898809 0.122686301 0.168774806 0.216625246
## [11] 0.266701287 0.323268667 0.381690716 0.442060165 0.516246893
## [16] 0.601561631 0.715994659 0.835861864 1.000000000

Lorenzkurve
Lorenzkurve
1.0
0.8
0.6
AnteilAusgaben
0.4
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0
AnteilMannschaften

Übung 65: Lorenzkurve

A. Je gleicher die Transferausgaben, desto mehr nähert sich die Lorenzkurve der
Diagonalen.
B. Je ungleicher/konzentrierter die Transferausgaben, desto mehr nähert sich die
Lorenzkurve der Diagonalen.

Gini Koeffizient
Der Gini Koeffizient G misst die Ungleichheit und ist die Fläche zwischen der
Lorenzkurve und der “Gleichheitslinie” dividiert durch die Fläche des Dreiecks unter der
Gleichheitslinie. Dabei gilt: 0 6 G < 1.
Berechnung: Pn Pn
j=1 | xi − xj|
1
n2 i=1
G=
2x̄
Es gilt 0 < G < n−1 .
n

Übung 66: Gini Koeffizient

A. Je größer der Gini Koeffizient, desto größer die Ungleichheit/Konzentration.
B. Je kleiner der Gini Koeffizient, desto größer die Ungleichheit/Konzentration.

Gini Koeffizient in R
Gini Koeffizient berchnen:
ineq(ausgaben)
## [1] 0.4062239

Übung 67: Gini Koeffizient
Im Transfermarkt zur Saison 2018/19. Wo waren die Transfersummen

ungleicher/konzentrierter?
A. Bei den Transfereinnahmen.
B. Bei den Transferausgaben.

Offene Übung 68: Gini und Mobilfunkbranche
Die Mobilfunkanbieter Telekom, Vodafone und Telefonica hatten im dritten Quartal

2018 folgende Marktanteile (Anzahl der Teilnehmer): Telekom (43646000), Vodafone
(46000000) und Telefonica (45383000).65
1. Zeichnen Sie die Lorenzkurve.
2. Berechnen Sie den Gini-Koeffizienten.
3. Interpretieren Sie die Ergebnisse aus 1. und 2.
65 https://www.bundesnetzagentur.de

Offene Übung 69: Gini und Lorenzkurve
Sie haben die Lorenzkurve und den Gini-Koeffizienten kennengelernt und beschließen,
diese näher zu analysieren, um diese noch besser zu verstehen.
1. Überlegen Sie sich jeweils einen Datensatz, für den der Gini-Koeffizient den Wert 0
bzw. 0,75 annimmt.
2. Können sich Lorenzkurven schneiden? Überlegen Sie sich, ob dies möglich ist.
3. Welche allgemeinen Aussagen über die Form der Lorenzkurve können Sie treffen?

Offene Übung 70: Gini in der Welt
Die Abbildung zeigt in den Ländern jeweils den Gini-Koeffizienten der Einkommen.66
1. Gibt es Unterschiede zwischen den Kontinenten?

2. Wo steht Deutschland in der Welt?
3. Wo sehen Sie Schwierigkeiten bei der Interpretation der Daten?
66 https://de.wikipedia.org

8 Indexzahlen

8. Indexzahlen
Preisentwicklung
Angenommen vor zwei Jahren haben Sie für eine Party 2 Flaschen Korn für je 10 e und
2 Flaschen Cola je 1 e eingekauft. Heute kaufen Sie nur 1 Flasche Korn für 10,50 e,
dafür 3 Cola für je 1,10 e.
Wie haben sich die Preise entwickelt?
I Früher kostete die Party 22 e, heute nur noch 13,80 e. Damit beträgt der
e
Partypreisindex 13,80
22 e = 0,6275.
I Wenn Sie heute genau so viel Korn kaufen würden wie früher, würde die Party
heute 2 · 10,50 e + 2 · 1,10 e = 23,20 e kosten. Damit würde die
e
Partypreisentwicklung 23,20
22 e = 1,0545 betragen.
I Wenn Sie früher schon so bescheiden gewesen wären, hätte die Party damals
1 · 10 e + 3 · 1 e = 13 e gekostet. Damit hätte die Partypreisentwicklung
13,80 e
13 e = 1,0615 betragen.

8. Indexzahlen
Indexzahlen
Nicht nur die Preise pi , auch die Mengen qi haben sich im Lauf der Zeit (von 0 bis t)
verändert und damit auch der Einfluss der Produkte auf den Warenkorb:67
P
I Der Umsatzindex korrigiert nicht die verschiedenen Mengen: U0t = P qqti ppti .
0i 0i
I Der Preisindex nach Laspeyres68 zeigt, wie viel der Warenkorb der Basisperiode
0 in der Berichtsperiode t kostet, d. h., der Quotient der hypothetischen
Gesamtausgaben der Berichtsperiode geteilt P durch die tatsächlichen
L P q p
Gesamtausgaben der Basisperiode: P0t = q 0i p ti .
0i 0i
I Der Preisindex nach Paasche69 ist der Quotient der tatsächlichen
Gesamtausgaben in der Berichtsperiode t geteilt durch die fiktiven
P Ausgaben der
P P qti pti
Basisperiode 0 für den Warenkorb der Berichtsperiode: P0t = q p .
ti 0i
67 Berechnung in R z. B. über micEconIndex.

68 z. B. Verbraucherpreisindex, DAX
69 z. B.Inflationkorrektur beim BIP

8. Indexzahlen
Übung 71: Aufwand Indexzahlen
Indexzahlen werden häufig über einen längeren Zeitraum bestimmt. Welche Aussage
stimmt?
A. Der Umsatzindex ist am einfachsten zu erheben.
B. Der Preisindex nach Laspeyres ist am einfachsten zu erheben.
C. Der Preisindex nach Paasche ist am einfachsten zu erheben.
D. Alle Indexzahlen sind gleich aufwendig zu erheben.

8. Indexzahlen
Verbraucherpreisindex
I Im Verbraucherpreisindex für Deutschland (VPI) werden zur Zeit etwa 750

Waren und Dienstleistungen (Warenkorb) berücksichtigt.
I Das Gewicht g0 (i) eines Gutes i ist dabei der Anteil an den gesamten
Verbrauchsausgaben (Wägungsschema):
q p
g0 (i) = P 0i 0i .
q0j p0j

8. Indexzahlen
Wägungsschema Verbraucherpreisindex
Die Gewichte g innerhalb eines Warenkorbes (hier Verbraucherpreisindex) sind im
Wägungsschema angegeben.70
70 Quelle: Statistisches Bundesamt

8. Indexzahlen
Übung 72: Entwicklung Indexzahlen
Angenommen die Preise aller Güter sind gestiegen. Stimmt die Aussage: Es gilt immer
U0t > 1?
I Ja.
I Nein.

8. Indexzahlen
Offene Übung 73: Indexzahlen
Eine Drogerie stellt das Sortiment um: Während vor einem Jahr zu 80 % eher preiswerte
Marken und Produkte im Durchschnitt zu 5 e verkauft wurden und 20 % hochpreisige
Marken im Durchschnitt zu 50 e, werden heute 50 % preiswerte Produkte zu 5,50 e und
50 % hochpreisige zu 45 e verkauft.
Bestimmen Sie zur Analyse der Preisentwicklung eine Indexzahl Ihrer Wahl.

8. Indexzahlen
Übung 74: Genauigkeit
Welcher Preisindex überschätzt die Preisentwicklung tendenziell?

A. Der Preisindex nach Laspeyres
B. Der Preisindex nach Paasche

8. Indexzahlen
Offene Übung 75: Partypreise
Berechnen Sie die Preisindices von Laspeyres und Paasche für die folgenden Partypreise.
**Produkt* p0 q0 pt qt
Würstchen 1,50 40 1,80 45
Bier 5 10 5 12
Apfelschorle 1 8 1 10
Tische 4 5 5 5
Stühle 2 30 2 30

8. Indexzahlen
Offene Übung 76: Gefühlte Inflation
Es wird doch eh alles teurer! Häufig haben Leute das Gefühl, dass es extreme
Preisteigerungen gibt, obwil die gemessene Inflation moderat ist. Wie passt das
zusammen?
1. Überlegen Sie sich, warum wahrgenommene und gemessene Inflation nicht
übereinstimmen könnten.
2. Was ist wichtiger, gemessene oder wahrgenommene Inflation? Überlegen Sie sich
welche Auswirkungen Unterschiede haben könnten.
3. Überlegen Sie sich wie der VPI Ihre persönliche Inflation misst. Wird diese akkurat
wiedergegeben?

9 Inferenzstatistik

9.1 Einführendes Beispiel

9. Inferenzstatistik
Einführung: Ist die Münze gezinkt?
Jemand lädt Sie zu einem Glücksspiel ein: Die Person wirft eine Münze 10 Mal. Bei
Kopf gewinnt die Person, bei Zahl gewinnen Sie. Die andere Person gewinnt 8 der 10
Würfe. Unterstützen die Daten den Schluss, dass die Münze gezinkt ist?
Spielen Sie im Hörsaal den Versuch mit einer fairen Münze nach und zählen die Anzahl
Kopf!
Zählen Sie dann aus, ob das Ereignis (min.) 8 von 10 Kopf selten ist oder häufig.
Falls das Ereignis selten ist, so sprechen die Daten gegen die Unschuldsvermutung, dass
die Münze im Glücksspiel fair war.

Die Verteilung der Stichproben aus dem Münzversuch
So könnte die Verteilung Ihrer Ergebnisse aussehen (hier mit n = 100):
9 der 100 Stichproben hatten 8 oder mehr Kopf
20
count
10
0 1 2 3 4 5 6 7 8 9 10
heads
Das ist die Verteilung der Statistik (hier: Anteil p), wie sie sich gemäß eines
hypothetischen Modells (hier: “Die Münze ist fair” π = 0.5) ergibt.

Übung 77: Was ist ein häufiges Ereignis im Münzversuch?
9 der 100 Stichproben hatten 8 oder mehr Kopf
20
count
10
0 1 2 3 4 5 6 7 8 9 10
heads
Welche der Aussagen stimmt?

A. Wirft man 100 mal 10 faire Münzen, so sind 0 bis 2 Treffer ein häufiges Ereignis.
B. Wirft man 100 mal 10 faire Münzen, so sind 4 bis 6 Treffer ein häufiges Ereignis.
C. Wirft man 100 mal 10 faire Münzen, so sind 8 bis 10 Treffer ein häufiges Ereignis.
D. Wirft man 100 mal 10 faire Münzen, so ist jede Anzahl an Treffern gleich häufig.

Was ist eine Computersimulation?
Man kann das Münzwerfen (allgemein: das Durchführen von Zufallsexperimenten) an
den Computer delegieren; man spricht dann von einer Simulation:
Hey R,
Wiederhole das Folgende 100 Mal:
- Wirf eine faire Münze 10 Mal,
- zähle jedes Mal die Anzahl
der Treffer (Kopf).
Ach ja, speichere das Ergebnis
in einem neuen Datensatz.
Jetzt mal los.
Dazu verwenden wir wieder mosaic:
# Paket laden, ggf. vorher einmalig installieren:
# install.packages("mosaic")
library(mosaic)
set.seed(1896) # Reproduzierbarkeit
muenzverteilung <- do(100) *
rflip(n = 10)
Münzwurf: Binomialverteilung
Die Wahrscheinlichkeiten können auch ausgerechnet werden: Binomialverteilung mit
n=10 und p=0,5. Dichte an Stelle k:

n
· p k · (1 − p ) n − k
0.20
0.15
0.10
0.05
0.00
k

Cartoon: Simulation
“Bevor es Computer gab, musste man Zufallszahlen per Hand erzeugen.”71

71 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift A. Bonifonte
9.2 Modellierung und Simulation

Grundgedanken der Statistik
I Innerhalb der Statistik wird versucht, aus Daten Einsichten zu gewinnen.

I Dabei wird berücksichtigt, dass . . .
I Variation allgegenwärtig ist,
I es neben dem Signal Rauschen gibt72 ,
I Schlüsse unsicher sind.
72 Daten=Modell+Rest


73 Induktion

Inferenz
Idee: Schluss von einer (zufälligen / randomisierten) Stichprobe auf eine Population:
I Punktschätzung
I Konfidenzintervall
I Hypothesentest
Ziel: Aussagen treffen, die über die Stichprobe hinausgehen – und dabei berücksichtigen,
dass Variation allgegenwärtig ist und Schlussfolgerungen unsicher.74
74 Vgl. Moore, D. (2007) The Basic Practice of Statistics, 4th edn. New York: Freeman, S. xxviii.
Dreieckstest
I Drei gleichaussehende Proben, zwei sind gleich, eine zufällige ist anders.
I Der / die Kandidat*in muss herausfinden, welche Probe anders ist.75
75 vgl.
ISO 4120 https://www.iso.org/standard/33495.html. Vgl. auch Single-Choice Klausur: 3
Antwortalternativen, 1 richtig.
Übung 78: Skalenniveau
Welches Skalenniveau hat das Merkmal “Probe” mit den Werten “falsch” und “richtig”?
A. Kategorial
B. Numerisch

Kneipe statt Hörsaal
Im Rahmen eines Experimentes tippten von n = 34 Teilnehmer*innen x = 12 im

Rahmen eines Dreieckstest auf die richtige Probe. d. h. das andere Bier: Krombacher
bzw. Perlenbacher.76
Abbildung: Quelle: Anzeige Westfälische Rundschau, 19.9.2016

Anhand dieses Beispiels werden die Themen Punktschätzung, Bereichsschätzung und
Hypothesenprüfung behandelt.
76 Wir führen das Experiment mit Keksen durch
Vergleich klassischer und simulationsbasierter Inferenz
I Klassisch: Leite Stichprobenverteilung aus Theorie ab
I Simulationsbasiert: Führe das Experiment laut H0 häufig aus
Berechne das Integral der FlÃ¤che unter der Kurve FÃ¼hre Experiment oft aus; berechne jeweils Teststatistik
Extreme Stichproben
1 (x−µ)2
−
relative HÃ¤ufigkeit
Wahrscheinlichkeit
f(x|µ,σ2) = e 2σ2
2
2πσ
60 60
30 40 50 60 70 30 40 50 60 70
Anzahl Treffer bei 100 fairen MÃ¼nzwÃ¼rfen Anzahl Treffer bei 100 fairen MÃ¼nzwÃ¼rfen

Vorteile simulationsbasierter Inferenz
I Elegant: Eine Idee statt vieler inferenzstatistischer Verfahren

I Einfach: Stichproben ziehen statt Verteilungen theoretisch herleiten
I Robust: Normalverteilungsannahme nicht nötig
I Vielseitig: Für manche Fragen gibt es keine (einfachen) theoretischen Verteilungen,
aber Simulationen sind möglich

Drei Varianten simulationsbasierter Inferenz
1. Einfache Simulation: Erstelle eine Stichprobenverteilung für die Verteilung laut H0 .

2. Permutationstest: Mische die Werte einer Variablen
3. Bootstrapping: Erstelle eine Konfidenzintervall durch Ziehen mit Zurücklegen

9.3 Punktschätzung

Punktschätzung Kneipe statt Hörsaal
I Die n = 34 Teilnehmer*innen des Experimentes sind (nur) eine Stichprobe.

I Uns interessiert aber allgemein, ob ein Geschmacksunterschied vorliegt, d. h., wir
wollen generalisieren auf eine Population.
I Der Anteil derjenigen, die allgemein (d. h. in der Population) auf die richtige Probe
tippen, wird mit π bezeichnet, der der Stichprobe mit p.
I Da π (in der Population) in der Regel unbekannt ist, muss es auf Basis der
Stichprobe geschätzt werden: π̂.

Übung 79: Punktschätzung
Was wäre Ihrer Meinung nach ein vernünftiger Schätzer für π?

A. π̂ = 12
B. π̂ = 13
C. π̂ = 12
34
D. Kann nicht angegeben werden.

Punktschätzung
Der Wert der Stichprobe wird häufig als Punktschätzer (engl.: (point) estimate) für
den interessierenden Wert der Population verwendet, z. B.:
I Anteil (kategoriale Daten): Population π, Stichprobe p, Punktschätzer π̂ = p.
I Arithmetischer Mittelwert (numerische Daten): Population µ, Stichprobe x̄,
Punktschätzer µ̂ = x̄.
Das Symbol Dach (ˆ) zeigt, dass der unbekannte, wahre Wert geschätzt wurde.
Punktschätzer sind Funktionen der Stichprobe.

Übung 80: Ergebnis Punktschätzung
Wird mit Sicherheit in der Population gelten π = π̂ = p = 12 ?

34
I Ja.
I Nein.

Standardfehler und Freiheitsgrade
I Punktschätzer variieren mit der Stichprobe. Der Standardfehler (engl.: standard

error, se) beschreibt die Streuung (Standardabweichung) eines Schätzwertes, z. B.
für den arithmetischen Mittelwert x̄: se = √sdn , d. h., se sinkt mit steigendem n
(c. p.).
I Die Anzahl Freiheitsgrade (engl.: degrees of freedom, d f ) gibt an, wie viele
Beobachtungen dabei frei sind: Ist der Mittelwert von n Beobachtungen unbekannt,
so ist d f = n − 1.
I Aufgrund der Variation des Punktschätzers mit der Stichprobe und der damit
verbundenen Unsicherheit gibt es auch die Bereichs- oder Intervallschätzer.

9.4 Konfidenzintervall

Stichprobenverteilung (I/III)
Angenommen unsere Stichprobe stammt aus einer Population mit
N = 340000 = 220000 + 120000 für die gilt π = 12
34 = 0.3529412, d. h., 220000 liegen
falsch (f), 120000 liegen richtig (r):
population <- rep(factor(c("f","r")), c(220000, 120000))
prop( ~ population, success = "r")
## prop_r
## 0.3529412
Dann variiert auch der Anteil in der Stichprobe: sample (n = 34):
prop( ~ sample(population, size = 34), success = "r")
prop( ~ sample(population, size = 34), success = "r")
## prop_r
## 0.3235294
## prop_r
## 0.2941176
Stichprobenverteilung (II/III)
Simulation von 10000 zufälligen Stichproben aus der Population:
Setze Zufallszahlengenerator
Stiprovtlg soll sein:
Wiederhole 10000 Mal:
- Berechne den Anteil "r",
- Ziehe dafür eine Stichprobe vom Umfang 34 aus der Population
Stiprovtlg <- do(10000)* prop( ~ sample(population, size = 34),
success = "r")
Simulierter Standardfehler:
mosaic::sd( ~ prop_r, data = Stiprovtlg)
## [1] 0.08111993

Stichprobenverteilung (III/III)
gf_bar( ~ prop_r, data = Stiprovtlg)
1500
1000
count
500
0.2 0.4 0.6

prop_r

Übung 81: Anteil
1500
1000
count
500
0.2 0.4 0.6

prop_r
Wenn in der Population gilt π = 12 . Welcher Anteil p kommt dann in den Stichproben
34
am häufigsten vor?
A. p = 1
2
B. p = 1
3
C. p = 12
34

Resampling
In der Regel kennen wir die Population nicht77 . Wir können aber unsere Stichprobe
resamplen – durch Ziehen mit Zurücklegen:
stipro <- rep(factor(c("f","r")), c(22, 12))
stipro
## 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
## f f f f f f f f f f f f f f f f f f f f f f r r
## 25 26 27 28 29 30 31 32 33 34
## r r r r r r r r r r
## Levels: f r
resample(stipro)
## 1 1 2 4 5 5 5 6 7 9 11 13 15 16 17 18 18 19 20 20 20 21 22 23
## f f f f f f f f f f f f f f f f f f f f f f f r
## 24 25 25 27 28 29 34 34 34 34
## r r r r r r r r r r
## Levels: f r
77 Genau genommen haben wir sie hier ja auch nur simuliert.
Resampling Anteil
do(3)* prop( ~ resample(stipro), success = "r")
## prop_r
## 1 0.2941176
## 2 0.3529412
## 3 0.2647059

Schema Bootstrap
{Abbildung: Quelle: Lock, Robin, Patti Frazer Lock, Kari Lock Morgan, Eric F. Lock, and
Dennis F. Lock (2012): Statistics: UnLOCKing the Power of Data. Wiley.}

Ablauf: Bootstrap
Vorraussetzungen:
I Zufällige Stichprobe oder zufällige Zuordnung.
I Nicht zu kleine Stichprobe.78
Beispiel: Bootstrap-Perzentil-Intervall79 für eine Stichprobe:

I Wiederhole z. B. 10000×
I Ziehe mit Zurücklegen eine Stichprobe vom Umfang n aus der Originalstichprobe.
I Berechne Statistik, z. B. Anteil der Bootstrap-Stichprobe. Analog für andere
Statistiken, z. B. Mittelwert x̄.
I Zeichne Histogramm der Bootstrap-Verteilung der Statistik.
I Das 95 %-Bootstrap-Perzentil-Intervall sind die mittleren 95 % der
Bootstrap-Verteilung.
78 n > 35
79 Es gibt weitere, teilweise exaktere Bootstrap-Methoden.
Übung 82: Bootstrap
Stimmt die Aussage: beim Resamplen kann eine Beobachtung mehrfach in einer
Bootstrap-Stichprobe vorkommen?
I Ja.
I Nein.

Bootstrap-Verteilung (I/II)
Bootvtlg soll sein:
- Berechne den Anteil "r",
- Der Datensatz "stipro" soll dabei jedes Mal resampelt werden.
set.seed(1896)
Bootvtlg <- do(10000)* prop( ~ resample(stipro),
success = "r")

Bootstrap-Verteilung (II/II)
gf_bar( ~ prop_r, data = Bootvtlg)
1500
1000
count
500
0.2 0.4 0.6

prop_r

Vergleich Sampling und Resampling
Wenn die Verteilung der Stichprobe ähnlich der Population80 ist, dann kann diese über
Resampling geschätzt werden:
Stichprobenverteilung
1500
1000
count
500
0
0.2 0.4 0.6
prop_r
Bootstrap−Verteilung
1500
1000
count
500
0
0.2 0.4 0.6
prop_r
80 Die
ja i. d. R. unbekannt ist! Wir können aber hoffen, dass die empirische Verteilung Fn mit
zunehmenden Stichprobenumfang n der theoretischen F immer ähnlicher wird.
Bootstrap-Konfidenzintervall
I Ein Teil der Unsicherheit in statistischen Ergebnissen liegt in der Zufälligkeit der
konkreten Stichprobe begründet.
I Wir simulieren die zufällige Stichprobe (Sampling) durch zufälliges Resampling.
I Das 95 % Konfidenzintervall ist der Bereich in dem 95 % unser wiederholten
Stichprobenkennzahlen liegen:
quantile( ~ prop_r, data = Bootvtlg, probs = c(0.025, 0.975))
## 2.5% 97.5%
## 0.2058824 0.5007353

Übung 83: Plausibler Wert
## 2.5% 97.5%
## 0.2058824 0.5007353
Bei der Stichprobe: erscheint Ihnen ein Anteil von 1 unplausibel?

3
I Ja.
I Nein.

Übung 84: Konfidenzintervall
Worauf bezieht sich ein Konfidenzintervall?

I Auf Werte von Beobachtungen xi .
I Auf Werte von Populationen, z. B. π, µ.

Konfidenzintervall
I Ein Konfidenzintervall gibt einem Bereich an, der den wahren, unbekannten Wert
der Population mit einer gegebenen Sicherheit (z. B. 95 % = 1 − α = 100 % − 5 %)
überdeckt, d. h., den Anteil der so konstruierten Konfidenzintervalle, die den Wert
enthalten.81
I Je größer die Sicherheit (z. B. 99 % statt 95 %), desto breiter ist das Intervall.82
I Je größer der Stichprobenumfang, desto kleiner das Konfidenzintervall (unter sonst
gleichen Umständen): der Standardfehler se fällt mit n.
81 Song https://www.causeweb.org: Larry Lesser © Call It Maybe

82 Häufig bei n > 30: 95 %-KI ≈ δ∗ ± (2 · se)
Übung 85: Breite Konfidenzintervall
Stimmt die Aussage: Die Breite eines Konfidenzintervalls hängt nicht von der Streuung
der Beobachtungen ab?
I Ja.
I Nein.

Überdeckung durch Konfidenzintervall
n = 10
1
estimate
−1
0 25 50 75 100
sample

9.5 Grundlagen des Hypothesenprüfens

Übung 86: Dreieckstest
Wie groß ist die Wahrscheinlichkeit π, zufällig, d. h., ohne einen Unterschied zu
schmecken, auf die richtige (sprich abweichende) Probe zu tippen?
A. π =0
B. π = 1/3
C. π = 1/2
D. π = 2/3
E. π =1

Nullhypothese
I Wir gehen vorläufig davon aus, dass es keinen Unterschied gibt.

I Diese inhaltliche Hypothese wird operationalisiert durch π = 13 .
I Die Hypothese bezieht sich auf einen Wert der Population (π) – nicht der
(bekannten) Stichprobe (p).
I Die Nullhypothese (H0 ) ist in der Regel die, dass es keinen Unterschied, keinen
Zusammenhang gibt.
I Unter der Annahme der Nullhypothese können wir Daten simulieren.83
83 Video Lady Tasting Tea https://youtu.be/lgs7d5saFFc

Simulation von Raten im Bierversuch
I Modell: Es gibt keinen Geschmacksunterschied. Dann muss geraten werden.

I Der Trefferanteil im Modell liegt dann bei 1/3.
I Simulation: Wie ist die Verteilung der Treffer bei n = 34, wenn geraten wird?
rflip(n = 34, prob = 1/3)
##
## Flipping 34 coins [ Prob(Heads) = 0.333333333333333 ] ...
##
## H H T T H H T T T T T H T T T T T T T T T H H T T T T H T T T H
## H H
##
## Number of Heads: 11 [Proportion Heads: 0.323529411764706]

Simuliere Verteilung unter H0
Nullvtlg soll sein:
- Wirf 34 Mal eine dreiseitige Münze,
- zähle die Anzahl der Treffer.
set.seed(1896)
Nullvtlg <- do(10000) * rflip(n = 34, prob = 1/3)

Verteilung unter H0
gf_bar( ~ heads, data = Nullvtlg )
1500
1000
count
500
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
heads
Übung 87: Simulation (I/II)
1500
1000
count
500
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
heads
Welche der Aussagen stimmt?

A. Wenn geraten wird, ist x = 12 ein unüblicher, d. h. unwahrscheinlicher, Wert.
B. Wenn geraten wird, ist x = 12 ein üblicher, d. h. wahrscheinlicher, Wert.
C. Wenn geraten wird, ist x = 10 ein unüblicher, d. h. unwahrscheinlicher, Wert.
D. Wenn geraten wird, ist x = 20 ein üblicher, d. h. wahrscheinlicher, Wert.

Übung 88: Simulation (II/II)
1500
1000
count
500
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
heads
Bei welchem Wert für x würden Sie bei n = 34 sich am stärksten vermuten, dass ein
Geschmacksunterschied vorliegt, d. h., dass π > 31 ist?
A. Bei x = 5.
B. Bei x = 10.
C. Bei x = 15.
D. Bei x = 20.

Teststatistik und p-Wert
I Anhand einer geeigneten Teststatistik δ werden die Stichprobendaten

zusammengefasst. Ist die Wahrscheinlichkeit einer mindestens so großen
Abweichung unter H0 (sehr) klein, wird diese verworfen, andernfalls nicht.84
I Der p-Wert (p) gibt an, wie viele Stichproben ein mindestens so extremes
Ergebnis wie die beobachtete Stichprobe haben, wenn H0 gilt.
I Anders gesagt: Der p-Wert berechnet sich als die Wahrscheinlichkeit eines solchen
oder extremeren Wertes der Teststatistik unter den Annahmen von H0 .
I Der p-Wert wird bestimmt, nachdem die Daten vorliegen.
84 Song https://www.causeweb.org: McLellan M © P-Value is Low

Schema der simulationsbasierten Inferenz
Abbildung: Quelle: Blogbeitrag Allen Downey85
85 http://allendowney.blogspot.de/2016/06/there-is-still-only-one-test.html

Cartoon: Man kann die H0 nicht bestätigen, höchstens nicht verwerfen
“Dr. Frankenstein akzeptierte die Nullhypothese zum letzten Mal.”86
86 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift A. Boito

Nutzen und Grenzen des p-Werts
I Der p-Wert bietet eine datenbasierte Möglichkeit zu überprüfen, ob die

vorliegenden Daten durch ein zu überprüfendes Modell (H0 ) plausibel erklärt
werden können, d. h., bei wiederholten Stichproben relativ häufig vorkommen.
I Der p-Wert ist definiert als Wahrscheinlichkeit des beobachteten Werts der
Teststatistik (oder noch extremerer Werte) unter der Annahme, dass die H0 gilt
(p(δ∗ | H0 )).
I Achtung: Der p-Wert sagt nicht aus, wie wahrscheinlich die H0 bei den
vorliegenden Daten (Teststatistik) ist (p( H0 | δ∗ )).
I Der p-Wert sagt nicht, wie relevant ein Ergebnis ist (wie groß ein Effekt ist).
I Keine Entscheidung sollte rein auf Basis des p-Wertes getroffen werden.
I Vor der Testentscheidung immer eine explorative Datenanalyse durchführen.

p-Wert
Wie oft kommt in den gemäß der Nullhypothese (H0 : π = 13 ) simulierten Daten eine
mindestens so große Anzahl richtige (heads) vor, wie in der Stichprobe (12)?
gf_bar( ~ heads, data = Nullvtlg, fill = ~ heads >= 12)

1500
1000
heads >= 12
count
FALSE
TRUE
500
5 10 15 20
heads
prop( ~ heads >= 12, data = Nullvtlg)
## prop_TRUE
## 0.471
Übung 89: p-Wert
Liefern die Daten (starke) Indizien dafür, dass die Nullhypothese nicht gilt?
I Ja.
I Nein.

Hypothesen prüfen in Analogie zu Gerichtsverfahren
I Wir gehen von H0 aus: der Angeklagte ist unschuldig, da ist nichts.
I Wenn die Indizien (Daten) gegen den Angeklagten (H0 ) sprechen87 , haben wir
berechtigten Zweifel an der Unschuld (H0 ).
I Wenn die Daten nicht ausreichen, um zu zeigen, dass der Angeklagte schuldig ist,
so sagen wir nicht: er ist unschuldig. Daher nie: wir bestätigen die Nullhypothese,
sondern nur, wir können die Nullhypothese nicht verwerfen. Die Abwesenheit von
Belegen belegt nicht die Abwesenheit.
87 d. h., unter der Unschuldsvermutung (sehr) selten sind

Verteilung p-Wert
I Werden aus der Population verschiedene Stichproben gezogen, so ergeben sich

auch verschiedene p-Werte.
I Ein einzelner p-Wert beweist nicht, dass H0 nicht stimmt: Replikation
p−Wert Dreieckstest
mit simulierten Stichproben
1500
1000
Anzahl Stichproben
500
0
]
5]
5]
5]
5]
5]
5]
5]
]
05
,1
0.
.1
.2
.3
0.
.6
.7
.8
.9
5
.
,0
5,
,0
,0
,0
5,
,0
,0
,0
,0
.9
(0
.0
.1
.2
.3
.4
.6
.7
.8
.9
(0
(0
(0
(0
(0
(0
(0
(0
(0
(0
p−Werte

Alternativhypothese und Signifikanz
I Die Alternativhypothese H A , H1 ist das Gegenteil der Nullhypothese. Die Rollen

von H0 und H A können nicht vertauscht werden.
I Alternativen können einseitig, gerichtet (z. B. π > π0 bzw. π < π0 ) oder
zweiseitig, ungerichtet (z. B. π 6= π0 ) sein.
I Das vorab festgelegte Signifikanzniveau α88 eines Tests gibt die maximal
zugebilligte Irrtumswahrscheinlichkeit dafür an, H0 zu verwerfen, obwohl H0 gilt.
I Damit können vorab kritische Werte der Verteilung unter H0 bestimmt wird: liegt
der Wert der Teststatistik der Stichprope außerhalb, wird H0 verworfen, sonst nicht.
I Auf Grundlage der Alternative kann eine geeignete Teststatistik und der nötige
Stichprobenumfang bestimmt werden.
I Gilt p-Wert < α, so wird H0 verworfen, ansonsten nicht.
I Wird die H0 verworfen, so nennt man das Ergebnis (statistisch) signifikant zum
Niveau α.
88 üblich: α = 1%, 5%, 10%

Cartoon: Signifikanzniveau
“Paläontologen haben schließlich doch den Ursprung des 5 % Signifikanzniveaus

herausgefunden.”89
89 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift M. Dunlap
Übung 90: Alternativhypothese
Im Dreieckstest: was ist eine sinnvolle Alternativhypothese für die Fragestellung ob ein
Unterschied vorliegt?
A. H A : π < 13
B. H A : π > 13
C. H A : π 6= 13

Fehlerarten
Testentscheidung H0 nicht verwerfen Testentscheidung H0 verwerfen

Realität H0 Ok Fehler 1. Art90
Realität H A Fehler 2. Art91 Ok
Song https://www.causeweb.org: Larry Lesser und Dominic Sousa © Hypothesis on Trial
90 Auch α-Fehler genannt. Die Wahrscheinlichkeit dieses Fehlers wird durch das Signifikanzniveau
nach oben beschränkt.
91 Auch β-Fehler genannt. Die Wahrscheinlichkeit dieses Fehlers ist schwieriger zu bestimmen, aber
siehe z. B. Paket pwr. Bei guten Tests sinkt sie mit größerem Stichprobenumfang n.
Übung 91: Fehlerart
Mit einem p-Wert von 0.47 kann die Nullhypothese H0 : π = 13 zum Signifikanzniveau
α = 0.05 nicht verworfen werden. Angenommen, es gelte die Alternativhypothese
H A : π > 31 . Welche Aussage stimmt?
A. Es liegt ein Fehler 1. Art vor.
B. Es liegt ein Fehler 2. Art vor.
C. Es liegt kein Fehler vor.

Wiederholung: Quantitativer Forschungsprozess

Stichprobenverfahren und / oder Versuchsplanung. Alternativ: Nutzung vorhandener
Daten.
3. Datenerhebung
4. Datenanalyse: Datenvorverarbeitung (Ausreißer, fehlende Werte), Explorative
Datenanalyse (Grafiken und Kennzahlen).
5. Inferenz: Schätzen und Testen; Modellierung.

Ablauf Hypothesenprüfung
1. Inhaltliche Hypothese operationalisieren.

2. Nullhypothese H0 (und Alternativhypothese H A , Forschungsvermutung) festlegen.
Dazu passende Teststatistik bestimmen:
I Sprechen hohe Werte der Teststatistik für die Forschungsthese?
I Sprechen niedrige Werte der Teststatistik für die Forschungsthese?
I Sprechen sowohl hohe als auch niedrige Werte für die Forschungsthese?92
3. Verteilung der Teststatistik unter H0 bestimmen.
4. Prüfung über p-Wert: ist der beobachtete Wert der Teststatistik der Stichprobe
unter H0 (sehr) selten?
I Nein: H0 kann nicht verworfen werden. Abweichung nicht signifikant.
I Ja: H0 wird verworfen. Abweichung signifikant.
92 Dannkann bei symmetrischen Verteilungen z. B. der Betrag der Teststatistik verwendet werden.
Ansonsten einseitigen p-Wert verdoppeln.
Beispiel Inferenz: Geschlecht und Klausurpunkte
I Inhaltliche Forschungsthese: Es gibt einen Unterschied im Lernergebnis Statistik

zwischen Männern und Frauen (ungerichtet).
I Mathematische Operationalisierung: z. B. µ – Mittelwert der Klausurpunktzahl in
der Population.
H0 : µMann = µFrau vs. H A : µMann 6= µFrau
I Teststatistik: Mittelwert der Klausurpunktzahl in der Stichprobe: x̄Mann , x̄Frau .

I Sollte x̄Mann x̄Frau oder x̄Mann x̄Frau sein, ist dies, wenn die Nullhypothese
gilt, unwahrscheinlich.93
I Allgemeiner: Es soll getestet werden, ob sich der Mittelwert eines Merkmals
zwischen zwei Gruppen (in der Population) unterscheidet.
93 Abhängig vom Stichprobenumfang und Streuung.

Beispiel Inferenz: Quizze und Klausurerfolg
I Inhaltliche Forschungsthese: Studierende, die an den Quizzen teilnehmen, bestehen

häufiger die Klausur (gerichtet94 ).
I Mathematische Operationalisierung: z. B. π: Anteil derjenigen, die die Klausur
bestehen, in der Population:
H0 : πQuiz 6 πkein Quiz vs. H A : πQuiz > πkein Quiz
I Teststatistik: Anteil derjenigen, die die Klausur bestehen, in der Stichprobe:

pQuiz , pkein Quiz .
I Sollte pQuiz pkein Quiz sein, ist dies, wenn die Nullhypothese gilt,
unwahrscheinlich.95
I Allgemeiner: Es soll getestet werden, ob sich der Anteil eines Merkmals zwischen
zwei Gruppen (in der Population) unterscheidet.
94 Eine gerichtete Hypothese muss aber inhaltlich (z. B. Literatur) begründet sein!
95 Abhängig vom Stichprobenumfang.
Cartoon: Signifikanz
“Beachte, dass die signifikanten Ereignisse an den Rändern auftauchen.”96

96 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift D. Nandy
Hypothesenprüfung und Konfidenzintervall
I Das Konfidenzintervall gibt auf Basis der Stichprobe einen Wertebereich für den
Wert (δ) an: 1 − α der Werte aus den Resampling-Stichproben liegen darin.
I Anhand der Verteilung unter dem Modell der Nullhypothese (δ = δ0 ) können wir
einen Wertebereich für Werte der Stichprobe (δ∗ ) bestimmen, wenn dieses Modell
gilt: 1 − α der unter H0 simulierten Werte liegen darin.
I Häufig97 entspricht der Bereich des Konfidenzintervalls dem Bereich für δ, für den
H0 : δ = δ0 nicht verworfen wird.
97 Hängt u. a. vom Verfahren ab. Es ist aber theoretisch möglich äquivalente Bereiche zu konstruieren.
Übung 92: Konfidenzinterval und Hypothesentest
Das simulierte Konfidenzintervall überdeckt folgenden Bereich:
## 2.5% 97.5%
## 0.2058824 0.5007353
Würde H0 : π = 2 (vermutlich)98 verworfen werden (Signifikanzniveau α = 5%)?99

3
I Ja.
I Nein.
98 Dawir nicht exakt gerechnet, sondern auf Basis einer kleinen Stichprobe simuliert haben.
99 Hypothesen werden aus der Theorie hergeleitet. Hier z. B. 50% schmecken den Unterschied, die
anderen raten.
9.6 Zusammenfassung

Cartoon: Statistik
“Am Anfang ein bisschen schwer zu verdauen, aber sehr nahrhaft und voll mit
Vitaminen α, π̂, x̄ und besonders µ und σ.”100
100 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift G. Baugher
Verteilungen
Allgemein sagt eine Verteilung, wie wahrscheinlich bzw. häufig Werte bzw.
Wertebereiche sind.
I Verteilung in der Population
Z. B. unter allen Studierenden: Wurde die Vorlesung nachgearbeitet? Wie hoch ist
der Anteil derjenigen, die die Vorlesung nacharbeiten, unter allen Studierenden: π.
I Verteilung in der Stichprobe
Z. B. in den vorliegenden Daten: Wurde die Vorlesung nachgearbeitet? Wie hoch ist
der Anteil derjenigen, die die Vorlesung nacharbeiten, in der Stichprobe: p.
I Stichprobenverteilung (Verteilung einer Statistik der Stichprobe)
Z. B.: Wie hoch ist der Anteil p derjenigen, die nacharbeiten, in den zufälligen
Stichproben?
I Resampling-Verteilung (Schätzung der Verteilung einer Statistik der Stichprobe)
Z. B.: Wie hoch ist der Anteil p derjenigen, die nacharbeiten, in den zufälligen
Resamples der Stichprobe?
I Verteilung unter H0 (Wie sieht die Verteilung einer Statistik der Stichprobe aus,
wenn das Modell der Nullhypothese stimmt?)
Z. B.: Verteilung von p, dem Anteil derjenigen, die nacharbeiten, in einer
Stichprobe, wenn in der Population (hypothetisch) π = 0.8 gilt.
Übung 93: Verteilungen
Im Rahmen einer Datenanalyse: Welche Verteilung können Sie beobachten?

A. Verteilung in der Population
B. Verteilung in der Stichprobe
C. Stichprobenverteilung
D. Resampling-Verteilung
E. Verteilung unter H0

Simulationsbasierte Inferenz als ein übergreifendes Prinzip
I Simulationsbasierte Inferenz bietet ein Verfahren für viele Fragen der

Inferenzstatistik.
Alternative: Test mit theoretischen Verteilungsannahmen unter H0 .101
I Solche klassischen Tests basieren auf jeweils unterschiedlichen Methoden und
Annahmen.
I Nicht für jede Fragestellung sind die theoretischen Verteilungen bekannt.
101 Häufig approximativ oder asymptotisch, z. B. t-, χ2 -, F-Verteilungen.

Ein Prinzip – ein statistischer Test

Anstatt vieler Bäume
Die Auswahl statistischer Tests und Maße

Sven Blankenberger, Institut für Psychologie der Martin-Luther-Universität Halle-Wittenberg
Dirk Vorberg, Institut für Psychologie der Technischen Universität Braunschweig
bekannt Ein-Stichproben z-Test [MS281; W105]

Populations-
normal
varianz?
eine Stichprobe Verteilungsform? unbekannt Ein-Stichproben t-Test [MS411; W116]
beliebig Vorzeichentest [MM55]
bekannt Zwei-Stichproben z-Test [Kb372]

Populations-
normal homogen Zwei-Stichproben t-Test für homogene Varianzen [MS417; W126]
varianz?
unbekannt Varianzen?
heterogen Zwei-Stichproben t-Test für heterogene Varianzen [MS421; W133]

unabhängig Verteilung?
Mann-Whitney-U-Test [MS239; BLB200]
Zwei-Stichproben Wilcoxon-Test [MS228; SC128]
gleich
Terry-Hoeffding-Normalrangtest [MM280; BLB215]
Van der Waerden-Normalrangtest [MM283; BLB213]
Verteilungsformen
beliebig
Mittelwert bzw. Anzahl der zwei Stichproben ?
Abhängigkeit? Permutationstest [SC151]
zentraler Tendenz Stichproben? bzw. Bedingungen
verschieden Mediantest [SC124; W140; BLB198]
Fliegner-Policello-Test [SC137; W369]
normal t-Test für abhängige Messungen [MS414; W240]
Wilcoxon-Vorzeichenrangtest [MS213;
abhängig Verteilung? gleich SC87;BLB259]
Verteilungsformen Normalrangtests [MM342]
beliebig
?
Vorzeichentest [MS170; W344; SC80;BLB256]
verschieden Permutationstest [SC95]
Fishers exakter Test [MM326]
homogen Varianzanalyse [MS472; MD63]
normal Varianzen? Varianzanalyse nach Brown-Forsythe [MD697]

Varianzanalyse nach Welch [MD701; MS492; W183]
heterogen
James-Test [W182]
unabhängig Verteilung? Alexander-Govern-Test [W184]
Kruskal-Wallis-Rangvarianzanalyse [MS496; W373;

gleich SC206;BLB222]
Verteilungsformen Normalrangtest [BLB228]
beliebig
?
Mediantest [BLB221]
mehr als zwei verschieden
Rust-Fliegner-Test [W375]
Stichproben bzw. Abhängigkeit?
Bedingungen ja Varianzanalyse für abhängige Messungen [MS562; MD453]
normal Sphärizität? Varianzanalyse mit Korrektur nach Geisser-Greenhouse

[MD475]
nein Varianzanalyse mit Korrektur nach Box [MD476]
abhängig Verteilung? Varianzanalyse mit Korrektur nach Huynh-Feldt [MD477]
MANOVA für Meßwiederholungsdesigns [MD552]
Friedman-Test [W379; SC174; BLB267]

beliebig,
Agresti-Pendergast-Test [W379]
gleiche Form
Normalrangtest [MM371]
eine Stichprobe,
χ2-Test [H328]
normalverteilt
normal F-Test [MS467]
unabhängig Verteilung? Siegel-Tukey-Test [MM289; SC156; BLB249]

ja Mood-Test [MM290; BLB252]
Klotz-Test [MM291]
beliebig Mediane gleich?
Unterschiede Varianz bzw. Anzahl der adjustierter Siegel-Tukey-Test [MM289]
quantitativ zwei Stichproben Abhängigkeit?
hinsichtlich... Dispersion Stichproben? adjustierter Mood-Test [MM290]
nein
adjustierter Klotz-Test [MM291]
Moses-Test [SC161]
abhängig t-Test für Varianzengleichheit [Kb414; Z167]
Cochrans C [WBM105; Ka78]

mehr als zwei Stichproben,
Hartleys Fmax [WBM104; Ka78]
normalverteilt,
Box-Scheffé-Test [WBM107; Ka79]
unabhängig
Brown-Forsythe-Test [WBM109]
Kolmogorov-Smirnov-Anpassungstest [MM248; SC51;

stetig BLB319]
Lilliefors-Test [MM249; BLB321]
eine Stichprobe Art der Daten?
diskret Pearsons χ2-Anpassungstest [MM247; SC45]

Unterschieds- abhängige
hypothese Variable?
stetig Kolmogorov-Smirnov-Zwei-Stichproben-Test [MM250; SC144; BLB299]
Anzahl der zwei Stichproben,
Verteilungsform Art der Daten?
Stichproben? unabhängig
diskret Pearsons χ2-Test [SC111]
mehr als zwei Stichproben,
unabhängig, Pearsons χ2-Test [SC191]
diskret
dichotom Binomialtest [SC38; BLB88]
Anzahl der
eine Stichprobe
Kategorien?
Pearsons χ2-Anpassungstest [SC45;
polychotom
BLB95]
Vierfelder-χ2-Test [BLB102]
dichotom
Fishers exakter Test [SC103; BLB110]
Anzahl der
unabhängig
Kategorien?
polychotom Pearsons 2 x k χ2-Test [SC111; BLB121]
Anzahl der
qualitativ zwei Stichproben Abhängigkeit?
Stichproben? McNemar-Test [SC75;
dichotom
BLB160]
Anzahl der
abhängig
Kategorien?
Bowkers m x m Test [MS386;
polychotom
BLB165]
dichotom Pearsons k x 2 χ2-Test [SC111; BLB121]

Anzahl der
unabhängig
Kategorien?
Art der polychotom Pearsons m x k χ2-Test [SC191; BLB131]
Start Fragestellung?
mehr als zwei Stichproben Abhängigkeit?
abhängig Cochrans Q [SC170; BLB169]
Pearsons Produkt-Moment-Korrelation [MS82;

beide stetig
B189]
Variablen eine künstlich dichotomisiert,

linear biseriale Korrelation [GF304; B208]
kategoriell? Population normalverteilt
beide künstlich dichotomisiert, tetrachorische Korrelation [GF311;

Population bivariat normalverteilt B211]
Enge des Zusammenhangs Spearmans Rangkorrelation [MS328; SC235; BLB414]

Interpretation
beide stetig
hinsichtlich...
Vorhersagefehler Kendalls τ [MM439; BLB422]
beide Form des Variablen
monoton
quantitativ Zusammenhangs? kategoriell?
Goodman-Kruskals γ [SC291]
ja
Kendalls τ [MM439; BLB422]
Fragestellung
beide kategoriell
symmetrisch?
nein Somers' d [SC303]
kurvilinear Korrelationsverhältnis η2 [GF296]
polychotom Korrelationsverhältnis η2 [MS115; B257]

Zusammenhangs- eine quantitativ, Anzahl der
Variablentypen?
hypothese eine qualitativ Kategorien?
dichotom punkt-biseriale Korrelation [GF308; B207]
φ-Koeffizient [SC232; BLB327]

2x2
Yules Q [BLB335]
beide Anzahl der

qualitativ Kategorien?
Enge des Zusammenhangs, Cramers φ [BLB355]
symmetrische Fragestellung Kontingenzkoeffizient [BLB358; B215]
Interpretation
kxm
hinsichtlich...
Vorhersagefehler, Goodman-Kruskals λ [SC298; BLB363]
asymmetrische Fragestellung Informationsmaße [WT230]
[B] Bortz, J. (1993). Statistik für Sozialwissenschaftler (4. Aufl.). Berlin: Springer. [MD] Maxwell, S. E. & Delaney, H. D. (1990).Designing experiments and analyzing data.Belmont, CA: Wadsworth.
[BLB] Bortz, J., Lienert, G. & Boehnke, K. (1990). Verteilungsfreie Methoden in der Biostatistik. Berlin: Springer. [SC] Siegel, S. & Castellan, N. J., Jr. (1988). Nonparametric statistics for the behavioral sciences (2. Aufl.). New York:
McGraw-Hill.
[GF] Guilford, J. P. & Fruchter, B. (1978). Fundamental statistics in psychology and education (6. Aufl.). New York: McGraw-
Hill. [WT] Wickens, T. D. (1989). Multiway contingency tables analysis for the social sciences.Hillsdale, NJ: Lawrence Erlbaum.
[H] Hays, W. L. (1994). Statistics (5. Aufl.). Fort Worth, FL: Harcourt Brace College Publishers. [W] Wilcox, R. R. (1996). Statistics for the social sciences. San Diego, CA: Academic Press.
[Ka] Kirk, R. E. (1982). Experimental design (2. Aufl.). Belmont, CA: Brooks/Cole. [WBM] Winer, B. J., Brown, D. R. & Michels , K. M. (1991). Statistical principles in experimental design (3. Aufl.). New York:
McGraw-Hill.
[Kb] Kirk, R. E. (1990). Statistics: An introduction. Fort Worth, FL: Holt, Rinehard, and Winston.
[Z] Zar, J. H. (1996). Biostatistical analysis (3. Aufl.). Upper Saddle River, NJ: Prentice Hall.
[MM] Marascuilo, L. A. & McSweeney, M. (1977). Nonparametric and distribution-free methods for the social sciences.
Monterey, CA: Brooks/Cole.
Martin Vogt | Statistik

[MS] Marascuilo, L. A. & Serlin, R. C. (1988). Statistical methods for the social and behavioral sciences.New York: Freeman.
WiSe 21/22 315

Wiederholung: Schlussmöglichkeiten
zufällige keine zufällige

Zuordnung Zuordnung
zufällige Kausalschluss, kein Kausalschluss,
Stichprobe generalisierbar Aussage generalisierbar
für die Population für die Population
keine zufällige Kausalschluss, kein Kausalschluss,

Stichprobe nur für die Stichprobe Aussage nur für die
Stichprobe

Überblick zu den Simulationstechniken dieses Skripts
I Einfache Simulation zur Analyse einer Statistik: Simuliere zufällige

Datenentstehung im Modell (H0 ) und vergleiche die Stichprobe mit den simulierten
Daten.
I Permutationstest zum Test eines Unterschieds bzw. Zusammenhangs zwischen
zwei Gruppen bzw. zweier Merkmale: Simuliere zufällige Zuordnung und vergleiche
die Stichprobe mit den simulierten Daten, wenn die Verteilung gleich wäre (H0 ).
I Bootstrap zur Berechnung eines Konfidenzintervalls: Simuliere zufälliges Ziehen
einer Stichprobe mit Zurücklegen.

Monte Carlo in R
I Permutationstest, hier: simuliere zufällige Zuordnung102 . Simuliere Verteilung

einer Statistik unter der Annahme, dass kein Unterschied vorliegt (Modell H0 ), u. a.
zur Bestimmung von p-Werten.
do(oft) * statistik(y ~ shuffle(x), data = Daten)
I Bootstrap, hier: simuliere zufälliges Ziehen einer Stichprobe103 . Schätze

Verteilung einer Statistik der Stichprobe, u. a. zur Bestimmung von
Konfidenzintervallen oder Standardfehlern.
do(oft) * statistik(y ~ x, data = resample(Daten))
102 d. h. ohne Zurücklegen

103 d. h. mit Zurücklegen
Übersicht Teststatistiken (Auswahl)
Y X Teststatistik
kategorial - binär Anteil p
kategorial Verhältnisvergleich beobachtet und
erwartet: χ2
numerisch Mittelwert x̄
kategorial - binär kategorial - binär Differenz Anteile p B − p A
numerisch kategorial - binär Differenz Mittelwerte x̄ B − x̄ A
kategorial kategorial Verhältnisvergleich beobachtet und
erwartet: χ2
numerisch kategorial Streuungsvergleich zwischen
Gruppen und innerhalb Gruppen: F
numerisch numerisch Korrelationskoefizient r oder
Steigung β̂ lineare Regression
kategorial numerisch Steigung β̂ logistische oder
multinomiale Regression
Binär: Zwei Ausprägungen: Ja, Nein; A, B.

Grundlagen Inferenz
I Voraussetzung: Unabhängig, identisch verteilte Daten, z. B. aufgrund einer

zufälligen Stichprobe oder einer zufälligen Zuordnung.
I Y ~ 1: (d. h. ohne unabhängige Variable): Modellierte Verteilung (z. B. Binomial-
oder Normalverteilung) von Y hängt von einem interessierenden Parameter ab.
Nullhypothese z. B. π = π0 oder µ = µ0 .
I Y ~ X: Die Modellierung der Verteilung von Y hängt evt. von X ab: Nullhypothese:
Die Verteilung von Y ist für alle X gleich.
I Bei den Regressionsverfahren können mehrere unabhängige Variablen X (mit
unterschiedlichem Skalenniveau) in der Modellierung berücksichtigt werden.
Verfahrensübersicht (Mindmap):
https://coggle.it/diagram/Vxlydu1akQFeqo6-/t/inference

Übersicht Inferenzverfahren R mosaic (Auswahl)
Y X Simulationsbasiert Parametrisch 104
kategorial - binär prop() binom.test()

kategorial xchisq.test() xchisq.test()
numerisch mean() t.test()
kategorial - binär kategorial - binär diffprop() prop.test()
numerisch kategorial - binär diffmean() t.test()
kategorial kategorial xchisq.test() xchisq.test()
numerisch kategorial aov() aov()
numerisch numerisch cor(), lm() cor.test(), lm()
kategorial - binär numerisch glm(family = binomial) glm(family =
binomial)
I Permutationstest: do(oft) * statistik(y ~ shuffle(x), data = Daten): Kritische Werte, p-Werte.

I Bootstrap: do(oft) * statistik(y ~ x, data = resample(Daten)): Konfidenzintervall, Standardfehler.
104 Verteilungsannahmen!

Offene Übung 94: Backtesting (I/II)
Die Berechnung des Value-at-Risk (siehe Übungsaufgabe zu VaR oben) basiert auf
zahlreichen Modellannahmen. Diese müssen in der Praxis nicht immer erfüllt sein. Um
die Qualität des Modells zu überprüfen wird deshalb häufig der 1-Tages
99%-Value-at-Risk (Vorhersage des maximalen Verlustes) mit dem am nächsten Tag
wirklich eingestretenen Verlust verglichen. Dieses Verfahren wird als Backtesting
bezeichnet.
Einige Fonds (etwa viele sogenannte UCITS) müssen ein solches Backtesting
durchführen. Gemäß den ESMA Richtlinien 10/788 müssen diese an das Senior
Management berichten, falls:
The number of overshootings for each UCITS for the most recent 250 business
days exceeds 4 in the case of a 99 % confidence interval. Where an overshooting
is a one-day change in the portfolio’s value that exceeds the related one-day
value-at-risk measure calculated by the model.

Offene Übung 94: Backtesting (II/II)
1. Interpretieren Sie die Passage der ESMA Richtlinien 10/788.

2. Wie viele overshootings erwarten Sie bei einem Modell mit zutreffenden
Modellannahmen an 250 voneinander unabhängigen Arbeitstagen?
3. Mit welcher Wahrscheinlichkeit muss an das Senior Management berichtet werden,
obwohl die Modellannahmen zutreffen?

Offene Übung 95: Meinungsforschung
Kurz vor einer wichtigen Wahl wird im Fernsehen folgendes Meinungsforschungsergebnis

für den Wähleranteil der Partei X bekanntgegeben: Unter 100 zufällig ausgewählten
Befragten gaben 38 Prozent an, für die Partei X zu stimmen.
1. Was ist der Punktschätzer für die relative Häufigkeit an Wählern der Partei X?
2. Bestimmen Sie das 95%-ige und das 97.5%-ige Konfidenzintervall.

Offene Übung 96: Schwarzfahrer
Der öffentliche Nahverkehr geht seit einer Weile von 5 % Schwarzfahrern aus. Er hat
momentan genau so viele Fahrkartenkontrolleure eingestellt, um mit diesem Anteil an
Schwarzfahrern bestmöglich zurechtzukommen. Er möchte nun testen, ob sich der
Anteil verringert hat, ob er also kleiner als 5 % ist, und falls das so ist, die Anzahl der
eingesetzten Kontrolleure verringern. In einer Stichprobe waren unter 100 Fahrern 3
Schwarzfahrer.
Helfen Sie dem Nahverkehr diese Frage zu beantworten.

10 Inferenz kategorialer Daten

10. Inferenz kategorialer Daten
Übung 97: Statistik Essenszeit
Durch welche Statistik kann die Verteilung der Variable Essenzeit (Lunch / Dinner)
sinvoll beschrieben werden?
A. Anteil.
B. Arithmetischer Mittelwert.

Übung 98: Visualisierung Essenszeit
Durch welche Grafik kann die Verteilung der Variable Essenzeit (Lunch / Dinner) sinnvoll
dargestellt werden?
A. Balkendiagramm.
B. Histogramm.
C. Boxplot.

Übung 99: Gültigkeit Inferenz
Wann ist aufgrund einer quantitativen Datenanalyse eine Aussage über die Population
gerechtfertigt?
A. Nie.
B. Bei einer zufälligen Stichprobe.
C. Bei einer randomisierten Zuordnung innerhalb eines Experimentes.
D. Bei einem hohen Stichprobenumfang n.
E. Immer.

Überblick: Testverfahren für kategoriale Daten
Die Verteilung hängt vom Anteil π ab, d. h. Gleichheit bzw. Ungleichheit kann über π
analysiert werden.
I Test eines Anteilswertes: Test ob der Anteil eines (binären105 ) Merkmals in der
Population einem bestimmten Wert entspricht. Mögliche Hypothesen:
I ungerichtet / zweiseitig: H0 : π = π0 vs. H A : π 6= π0 .
I gerichtet / einseitig:
I H0 : π 6 π0 vs. H A : π > π0 .
I H0 : π > π0 vs. H A : π < π0 .
I Test zweier Anteilswerte: Vergleicht zwei Anteilswerte. Mögliche Hypothesen:
I ungerichtet / zweiseitig: H0 : π A = π B vs. H A : π A 6= π B .
I gerichtet / einseitig:
I H0 : π A 6 π B vs. H A : π A > π B .
I H0 : π A > π B vs. H A : π A < π B .
I Test für mehr als zwei Anteilswerte bzw. zum Zusammenhang zweier
nominaler Merkmale: Hypothese H0 : Die Merkmale sind unabhängig, es gibt keinen
Zusammenhang. H A : Die Merkmale sind nicht unabhängig, es gibt einen
Zusammenhang.
105 kategorial mit zwei Ausprägungen
Beispiele
I Analyse des Anteils der Studierenden, die die Vorlesung nachbereiten – ggf. je nach
Geschlecht oder Studiengang.
I Untersuchung des Anteils der Mitarbeiter*innen, die während der Arbeit
SocialMedia nutzen – ggf. je nach Geschlecht.
I Analyse des Anteils der betrügerischen Versicherungsvorgänge – ggf. je nach
Vertragsart.
I Vergleich des Anteils der Dividendenzahlenden Unternehmen je Index.
I Anteil von “Blockbuster-Movies” pro Film-Genre (s. Datensatz ggplot2movies).
Wo können Sie die Verfahren einsetzen?

Wiederholung: Schema Hypothesentest
Abbildung: Quelle: Blogbeitrag Allen Downey106

Alternative: Verwende theoretische Verteilungsannahmen unter H0 , häufig
approximativ oder asymptotisch.107
106 http://allendowney.blogspot.de/2016/06/there-is-still-only-one-test.html
107 Bspw. Binomial- oder χ2 −Verteilungen.
Wiederholung: Schema Bootstrap
{Abbildung: Quelle: Lock, Robin, Patti Frazer Lock, Kari Lock Morgan, Eric F. Lock, and
Dennis F. Lock (2012): Statistics: UnLOCKing the Power of Data. Wiley.}

Frauenanteil der Rechnungszahler*innen: Einlesen der Daten
Einlesen der Tipping108 Daten:
# Herunterladen
# Einlesen in R

library(mosaic) # Paket mosaic laden
108 Bryant,
Frauenanteil der Rechnungszahler*innen: Deskriptive Analyse
Tabelle:
tally( ~ sex, data=tips)
## sex
## Female Male
## 87 157
Balkendiagramm:
bargraph( ~ sex, data = tips, type = "percent")
60
40
percent
20
ale Mal
e
Fem
sex

Übung 100: Testverfahren Frauenanteil der Rechnungszahler*innen
Welches ist das richtige Testverfahren, um die Forschungsthese zu untersuchen, dass der
Anteil der Rechnungszahlerinnen , d. h. sex=="Female", nicht bei 50 % liegt – in der
Population?
A. Test eines Anteilswertes.
B. Test zweier Anteilswerte.

10.1 Test eines Anteilwerts

Übung 101: Hypothesen Frauenanteil der Rechnungszahler*innen
Wie lautet das korrekte Hypothesenpaar für die Forschungsfrage, ob der Anteil der
Frauen unter den Rechnungszahlenden nicht bei 50 % liegt?
A. H0 : π = 0.5 vs. H A : π =6 0.5
B. H0 : π 6= 0.5 vs. H A : π = 0.5

Simulation der Frauenanteils unter H0
Lege die Zufallszahlen fest.

- Wirf 244 faire zweiseitige Münzen.
Speichere das Ergebnis als Datensatz "Nullvtlg"
set.seed(1896) # Zufallszahlengenerator setzen
Nullvtlg <- do(10000) * # 10000 Wiederholungen

rflip(n=nrow(tips)) # n-facher Münzwurf

Simulierte Stichproben des Frauenanteils
Visualisierung der Verteilung des Frauenanteils wenn das Modell H0 : π = 0.5 stimmt:
histogram( ~ prop, data = Nullvtlg)
10
Density
0.40 0.45 0.50 0.55 0.60
prop

Ist der beobachtete Wert selten unter der H0?
Beobachteter Frauenanteil π̂ = p:
propdach <- prop( ~ sex, data = tips,

success = "Female")
propdach
## prop_Female
## 0.3565574
Quantile für extreme Werte in der Verteilung unter H0 : π = 0.5:
quantile( ~ prop, data = Nullvtlg,

probs=c(0.025, 0.975))
## 2.5% 97.5%
## 0.4385246 0.5614754

Übung 102: Interpretation Simulationsergebnis
10
Density
5
0.4 0.5 0.6
prop

A. Ein Frauenanteil von 0.36 in der Stichprobe ist unter der Annahme, der Anteil in
der Population liegt bei 0.5, ein üblicher Wert.
B. Ein Frauenanteil von 0.36 in der Stichprobe ist unter der Annahme, der Anteil in
der Population liegt bei 0.5, kein üblicher Wert.

Bootstraping für den Frauenanteil

- Berechne den Anteil der Frauen,
- Der Datensatz "tips" soll dabei jedes Mal resampelt werden.
Speichere das Ergebnis als Datensatz "Bootvtlg"
Bootvtlg <- do(10000) *
prop( ~ sex, data = resample(tips), success = "Female")

Bootstrap Verteilung
Visualisierung der Verteilung des Frauenanteils in den Bootstrap-Stichproben:
histogram( ~ prop_Female, data = Bootvtlg)
10
Density
0.25 0.30 0.35 0.40 0.45 0.50
prop_Female
95 % Bootstrap Konfidenzintervall:
quantile( ~ prop_Female, data = Bootvtlg, probs = c(0.025, 0.975))
## 2.5% 97.5%
## 0.2991803 0.4180328
“Klassischer” Test des Anteilswertes
I Schritt 1: Signifikanzniveau α (hier: 0,05) festlegen.
P
I Schritt 2: Berechne Testfunktionswert in=1 Xi aus der Stichprobe, wobei Xi : Frau
bezahlt die Rechnung
mosaic::count(~sex, data=tips, success="Female")
## n_Female
## 87
I Schritt3 : Lege Verwerfungsbereich mit der Verteilungsfunktion der

Pn
Binomialverteilung fest, da i=1 Xi unter H0 Binomialverteilt mit Parametern n
und π0 , hier 244 und 0,5.
qbinom(c(0.025, 0.975),244, 0.5)
## [1] 107 137
I Da die Teststatistik (87) außerhalb des Verwerfungsbereiches liegt: Verwerfen der

Nullhypothese.
“Klassischer” Test des Anteilswertes
Berechnung des p-Werts und des Konfidenzintervalls unter Verwendung theoretischer

Verteilungsannahmen:
prop.test( ~ sex, # Variable, die gestestet wird

p = 0.5, # hypothetischer Wert p_0
success = "Female", # Auf was soll getestet werden?
alternative = "two.sided", # Alternativhypothese

Ergebnis Test des Anteilswertes
##
## 1-sample proportions test with continuity correction
##
## data: tips$sex [with success = Female]
## X-squared = 19.512, df = 1, p-value = 9.995e-06
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.2971654 0.4205463
## sample estimates:
## p
## 0.3565574

Übung 103: Testergebnis: Stichprobenanteil
Wie hoch ist der Anteil der Frauen unter den Rechnungszahler*innen in der Stichprobe?
A. 19.51%
B. 29.72%
C. 42.05%
D. 35.66%
E. 50.00%

Übung 104: Testergebnis: Testentscheidung
10
Density
5
0.4 0.5 0.6
prop
Kann bzw. muss die Nullhypothese H0 : π = 0.5 verworfen werden? (α = 0.05)

I Ja.
I Nein.

10.2 Test des Unterschieds zweier Anteilswerte

Permutationstest: Sinnbild
Ziehe k simulierte Stichproben,

berechne jeweils Teststatistik
Geschlecht Größe
Geschlecht Größe
M 194 W 194
M 192
M 192
W 158 M 158 d=33
W 162 W 162
… …
… …
Spalte Geschlecht gemischt Teststatistik
Extreme Stichproben
Stichprobenverteilung

Permutationstest: Ablauf
1. Definiere H0 und H A (z. B. H0 : µ A = µ B )

2. Mische Variable (Spalte) X in der empirischen Stichprobe und berechne die
Teststatistik (z. B. Anteilsunterschied oder Mittelwertsunterschied (numerisch;
später))
3. Wiederhole 2. oft
4. Erstelle Verteilung der simulierten Stichproben
5. Vergleiche die empirische Teststatistik mit der simulierten Verteilung

Zusammenhang von Geschlecht und Tageszeit
Hängen Frauenanteil (der Rechungszahler*innen) und Tageszeit (mittags vs. abends)
zusammen?109
prop(sex ~ time, success = "Female", data = tips)
## prop_Female.Dinner prop_Female.Lunch
## 0.2954545 0.5147059
diffdach <- diffprop(sex ~ time, success = "Female", data = tips)

diffdach
## diffprop
## 0.2192513
Anteilsunterschied in der Stichprobe:
π̂Lunch − π̂Dinner = 0.51 − 0.3 = 0.22

109 VideoUsing Randomization to Analyze a Gender Discrimination Study
https://youtu.be/2pHhjx9hyM4
Permutationstest Geschlecht je Tageszeit

- Berechne den Unterschied im Frauenanteil (mittags vs. abends);
- dabei soll das Merkmal Zeit jeweils permutiert werden.
Speichere das Ergebnis im Datensatz "Nullvtlg".
Nullvtlg <- do(10000) * diffprop(sex ~ shuffle(time),

success = "Female", data = tips)
Berechne die Grenzwerte für seltene Ereignisse:
quantile( ~ diffprop, data = Nullvtlg, probs = c(0.025, 0.975))
## 2.5% 97.5%
## -0.1273396 0.1377005
Verteilung unter H0
Simulierte Verteilung des Anteilsunterschieds unter der Annahme der Gleichheit (H0 ):
histogram( ~ diffprop, data = Nullvtlg)
4
Density
−0.2 −0.1 0.0 0.1 0.2 0.3
diffprop
Die vertikalen Linien markieren die jeweils 2.5 % extremsten simulierten Stichproben.

Übung 105: Bestimmung p-Wert
Für welche Hypothese erhalten Sie den p-Wert über:
prop( ~ abs(diffprop) >= abs(diffdach), data = Nullvtlg)
## prop_TRUE
## 0.0014
A. Für H0 : π̂Lunch − π̂Dinner = 0.

B. Für H0 : πLunch − πDinner = 0.

Offene Übung 106: Geschlecht je Tageszeit
Fassen Sie die vorangegangene Analyse zusammen. Wie lautete die Forschungsfrage,
Hypothesen und die Antwort auf die Forschungsfrage.

10.3 Test des Unterschieds von min. zwei Anteilswerten

Anzahl der Raucher*innen je Wochentag
Unterscheidet sich die Raucherquote je nach Wochentag? Anders gefragt: Gibt es einen
Zusammenhang der Merkmale smoker und day?
tally(smoker ~ # abhängige Variable

day, # unabhängige Variable
## day
## smoker Fri Sat Sun Thur
## No 4 45 57 45
## Yes 15 42 19 17

Verteilung Raucher*innen je Wochentag
mosaicplot(smoker ~ day, data = tips)
tips
No Yes
Fri
Sat
day
Sun
Thur
smoker

Exkurs: Chi-Quadrat-Verteilung
I stetige Wahrscheinlichkeitsverteilung über der Menge der nicht negativen reellen
Zahlen
I Summe von unabhängigen quadrierten standardnormalverteilten Zufallsvariablen.
I Quadrierte Summen treten häufig bei Schätzfunktionen, wie der Stichprobenvarianz
auf.
Vergleich von chi^2 Verteilungen
0.4
0.3
Dichte
0.2
0.1
0.0
0 2 4 6 8 10
x Wert
Vergleich von chi^2 Verteilungen

0.4

Chi-Quadrat-Unabhängigkeitstest (χ2-Test)
I Hier greifen wir auf klassischen Test zurück: den

Chi-Quadrat-Unabhängigkeitstest.110
I Der χ2 -Unahängigkeitstest testet u. a. den Zusammenhang zweier kategorialer
(nominaler) Variablen.111
I Dabei werden die beobachteten Häufigkeiten O (observerd) der
Merkmalsausprägungskombinationen mit den unter Unabhängigkeit erwarteten
Werten E (expected) verglichen:
Zeilen X
X Spalten (Oij − Eij )2
χ2 =
Eij
i j
I Nullhypothese: Die beiden nominalen Variablen sind unabhängig voneinander, d. h.,

die Verteilung der einen Variable hängt nicht vom Wert der anderen Variable ab.
Große Werte von χ2 sind unter H0 unwahrscheinlich.112
110 EineSimulation ist aber analog möglich.
111 Esgibt weitere Varianten des χ2 -Tests.
112 Song https://www.causeweb.org: Larry Lesser © Chi-Square For Us

Übung 107: χ2-Teststatistik
Eine Forscherin stellt innerhalb einer Untersuchung eine Abweichung zwischen

beobachtet O und erwartet E von 42 fest.
A. Die Abweichung ist groß.
B. Die Abweichung ist klein.
C. Weiß nicht.

Chi-Quadrat-Test
xchisq.test(smoker ~ day, data = tips)
##
## Pearson’s Chi-squared test
##
## data: x
## X-squared = 25.787, df = 3, p-value = 1.057e-05
##
## 4 45 57 45
## (11.76) (53.84) (47.03) (38.37)
## [5.12] [1.45] [2.11] [1.15]
## <-2.26> <-1.20> < 1.45> < 1.07>
##
## 15 42 19 17
## ( 7.24) (33.16) (28.97) (23.63)
## [8.31] [2.36] [3.43] [1.86]
## < 2.88> < 1.54> <-1.85> <-1.36>
##
## key:
## observed
## (expected)
## [contribution to X-squared]
## <Pearson residual>

Übung 108: Testergebnis: Testentscheidung
Bestätigen die Daten die Nullhypothese?

I Ja.
I Nein.

10.4 Zusammenfassung

Überblick zu den Simulationstechniken für kategoriale Variablen
I Einfache Simulation zur Überprüfung eines Anteils

I Beispiel: Wie hoch ist der Frauenanteil (in der Population)?
I Vorgehen: Simuliere wiederholt Münzwurf (H0 ) und gucke wie wahrscheinlich der
beobachtete Frauenanteil ist.
I Permutationstest zur Überprüfung eines Unterschieds zweier Verteilungen.
I Beispiel: Unterscheidet sich der Frauenanteil (in der Population) mittags von der
abends?
I Vorgehen: Simuliere wiederholt zufällige Zuordnung und gucke wie wahrscheinlich
die beobachtete Differenz der Frauenanteile ist.
I Bootstrap zur Berechnung eines Konfidenzintervalls für einen Anteil oder einen
Anteilsunterschied.
I Beispiel: Was sind plausible Werte für den Frauenanteil bzw. die Differenz in der
Population?
I Vorgehen: Simuliere wiederholt zufällige Stichprobe durch Ziehen mit Zurücklegen
und berechne jeweils Anteil oder Anteilsunterschied.

Alternativen zur simulationsbasierten Inferenz
I Eine Alternative zu den Methoden der simulationsbasierten Inferenz dieses Kapitels

ist jeweils binom.test() bzw. prop.test(), die auf theoretischen bzw.
asymptotisch approximativen Verteilunsanahmen aufbaut.
I Der χ2 -Test (xchisq.test()) testet u. a. den Zusammenhang zweier nominaler
Variablen auch mit mehr als jeweils zwei Ausprägungen; er basiert auf theoretischen
bzw. asymptotisch approximativen Verteilungsannahmen. Darüberhinaus gibt es als
nicht-parametrische Alternative den Fisher-Test (fisher.test()).

Offene Übung 109: Nudelproduktion
Ein Teigwarenhersteller bringt Packungen auf den Markt, in denen sich laut Aufdruck
jeweils 500 Gramm Nudeln befinden sollten. Aus der gesamten Produktionsserie solcher
Packungen wurden eine einfache Stichprobe vom Umfang 8 gezogen.
Nudeln = c(484, 486, 472, 519, 497, 487, 495, 480)

Nudeln
## [1] 484 486 472 519 497 487 495 480
Es soll geklärt werden, ob die Hypothese, der Anteil p der Packungen in der
Produktionsserie mit mehr als 500 Gramm Inhalt sei größer als 0,5, statistisch bestätigt
werden kann.

Offene Übung 110: Neugeborene
Unter 3000 Neugeborenen wurden 1428 Mädchen gezählt. Bestimmen Sie das 95 % und
97.5 % Konfidenzintervall für die Wahrscheinlichkeit einer Mädchengeburt.

Offene Übung 111: Powernap
Anlässlich einer Studie zum Thema “Powernap” soll überprüft werden, ob nach einem
Powernap eher nach etwas Süssem oder etwas Salzigem gegriffen wird. Daher werden im
Rahmen der Studie 41 Probanden nach einem 30-minütigen Powernap gebeten, sich
zwischen einem salzigen und einem süssen Snack zu entscheiden. 28 Probanden haben
sich für einen süßen und 13 Probanden für einen salzigen Snack entschieden. Werden
beide Snacks gleich häufig verwendet, oder gibt es einen signifikanten Unterschied?

Offene Übung 112: Wahlen
Bei den letzten Wahlen entschieden sich 48 % der wahlberechtigen Bevölkerung einer
Stadt mit mehr als 100000 Einwphnern für den Kandidaten A als Bürgermeister. In einer
aktuellen Umfrage unter 3000 zufällig bestimmten Wählern entschieden sich 1380 wieder
für diesen Kandidaten. Kann aus diesem Ergebnis mit einer Irrtumswahrscheinlichkeit
von 5 % auf eine Veränderung des Wähleranteils des Kandidaten A geschlossen werden?

Offene Übung 113: (Klassischer) Binomialtest
Was ist der Binomialtest? Suchen Sie im Internet nach Quellen und führen Sie einen
Test mit R am folgenden Beispiel durch: Mögen Studierende Marketing und Statistik
gleich gerne? Eine zufällige Auswahl von 20 Studierenden ergab, dass 13 lieber
Marketung und 7 lieber Statistik mögen.

Offene Übung 114: Blutdruck
Reduziert Kalcium den Blutdruck bei Männern? In einem Doppelblindversuch wurde 10

Männern ein Kalziumprodukt gegeben, während 11 andere ein Placebo erhielten. Für
jede Person wurde gemessen, ob der Blutdruck gesunken ist. Bei 6 Personen führte die
Kalziumzugabe zu einer Senkung des Blutdrucks und bei 4 Personen die das Placebo
erhielten. Führen Sie einen Permutationstest durch.

Offene Übung 115: Mahlzeit und Rauchen
Untersuchen Sie den Zusammenhang zwischen der Mahlzeit (Tageszeit) und Rauchen
am Tisch.

Offene Übung 117: Kaffee oder Latte Macchiato
Sie haben insgesamt 100 Menschen über und unter 50 Jahren befragt, ob Sie lieber
Filterkaffee (F) oder Latte Macchiato (LM) mögen.
Filterkaffee Latte Macchiato

<50 Jahre 50 20
>50 Jahre 10 20
Gibt es altersspezifische Vorlieben? Bestimmen Sie den Kontingenzkoeffizienten.

11 Inferenz numerischer Daten

11. Inferenz numerischer Daten
Inferenz
Idee: Schluss von einer (zufälligen / randomisierten) Stichprobe auf eine Population:
I Punktschätzung
I Konfidenzintervall
I Hypothesentest
Ziel: Aussagen treffen, die über die Stichprobe hinausgehen – und dabei berücksichtigen,
dass Variation allgegenwärtig ist und Schlussfolgerungen unsicher.113
113 Vgl. Moore, D. (2007) The Basic Practice of Statistics, 4th edn. New York: Freeman, S. xxviii.
Übung 118: Gültigkeit Inferenz
Wann ist aufgrund einer quantitativen Datenanalyse eine Kausalaussage gerechtfertigt?

A. Nie.
B. Bei einer zufälligen Stichprobe.
C. Bei einer randomisierten Zuordnung innerhalb eines Experimentes.
D. Bei einem hohen Stichprobenumfang n.
E. Immer.

Testverfahren für numerische Daten
In diesem Kapitel werden simulationsbasierte Methoden für folgende Situationen
vorgestellt. Die Verteilung hängt vom Mittelwert µ ab, d. h. Gleicheit bzw. Ungleichheit
kann z. B. über µ analysiert werden.
I Test eines Mittelwerts: Testet den Mittelwert eines Merkmals einer Stichprobe
gegen eine hypothetisch richtigen Mittelwert der Population.
I ungerichtet, zweiseitig: H0 : µ = µ0 , vs. H A : µ 6= µ0
I gerichtet, einseitig:
I H0 : µ > µ0 , vs. H A : µ < µ0
I H0 : µ 6 µ0 , vs. H A : µ > µ0
I Vergleich zweier Mittelwerte unabhängiger Stichproben: Testet die
Mittelwerte eines Merkmals zweier Stichproben A, B in der Population114 .
I ungerichtet, zweiseitig: H0 : µ A = µ B ⇔ µ A − µ B = 0,
vs. H A : µ A 6= µ B ⇔ µ A − µ B 6= 0
I H0 : µ A 6 µ B ⇔ µ A − µ B 6 0, vs. H A : µ A > µ B ⇔ µ A − µ B > 0
I H0 : µ A > µ B ⇔ µ A − µ B > 0, vs. H A : µ A < µ B ⇔ µ A − µ B < 0
Dabei kann jeweils auch das Konfidenzintervall bestimmt werden.

114 auch δ0 6= 0 möglich
Verteilungsbasierte Tests
Für folgende zusätzliche Fragestellungen werden verteilungsbasierte Verfahren (kurz)

erläutert:
I Gepaarter Test / t-Test für abhängige Stichproben: Testet die Differenz der
Mittelwerte zweier Merkmale (x1 , x2 ) einer Stichprobe mit einer hypothetisch
richtigen Differenz in der Population115 .
I ungerichtet, zweiseitig: H0 : µ x1 −x2 = δ0 , vs. H A : µ x1 −x2 6= δ0
I H0 : µ x1 −x2 6 δ0 , vs. H A : µ x1 −x2 > δ0
I H0 : µ x1 −x2 > δ0 , vs. H A : µ x1 −x2 < δ0
I Varianzanalyse / Anova: Testet die Gleichheit der Mittelwerte zweier oder mehr
Stichproben (Merkmale) in der Population: H0 : µ1 = µ2 = . . . = µK vs. H A :
mindestens ein Mittelwert unterscheidet sich (µi 6= µ j ).
115 häufig: δ0 = 0
Beispiele zur Inferenz numerischer Werte
I Analyse des mittleren Workloads der Studierenden – ggf. je nach Geschlecht oder
Studiengang
I Untersuchung des Humors116 der Mitarbeiter*innen, ggf. je Geschlecht oder
Abteilung
I Vergleich der Kaufkraft der Kund*innen mit oder ohne Kundenkarte
I Analyse der Rendite von Investitionsalternativen
I Vergleich der Mitarbeiter-Zufriedenheit zwischen Abteilungen
Wo können Sie die Verfahren einsetzen?
116 latente Variable, daher Operationalisierung erforderlich

11.1 Test eines Mittelwerts

Vorbereitungen
Einlesen der Tipping117 Daten sowie Laden des Pakets mosaic:

library(mosaic) # Paket laden
117 Bryant,
Übung 119: Statistik Rechnungshöhe
Durch welche Statistik kann die zentrale Tendenz der Variable Rechnungshöhe sinnvoll
beschieben werden?
A. Anteil.
B. Arithmetischer Mittelwert.

Übung 120: Visualisierung Rechnungshöhe
Durch welche Grafik kann die Verteilung der Variable Rechnungshöhe nicht sinnvoll
dargestellt werden?
A. Balkendiagramm.
B. Histogramm.
C. Boxplot.

Deskriptive Analyse Rechnungshöhe
histogram( ~ total_bill, data = tips)
0.05
0.04
Density 0.03
0.02
0.01
0.00
10 20 30 40 50
total_bill
favstats( ~ total_bill, data = tips)

## 3.07 13.3475 17.795 24.1275 50.81 19.78594 8.902412 244 0

Übung 121: Verteilung Rechnungshöhe
0.05
0.04
0.03
Density
0.02
0.01
0.00
10 20 30 40 50
total_bill

A. Die Rechnungshöhe ist gleichverteilt.
B. Die Rechnungshöhe ist multimodal.
C. Die Rechnungshöhe ist normalverteilt.
D. Die Rechnungshöhe ist linksschief.
E. Die Rechnungshöhe ist rechtsschief.

Beträgt die mittlere Rechnungshöhe signifikant mehr als 15$?
H0 : Die mittlere Rechnungshöhe (total_bill) beträgt nicht mehr als 15 $; µ 6 15.

H A : Die mittlere Rechnungshöhe ist größer als 15 $; µ > 15.
Annahme: Das Merkmal Rechnungshöhe ist normalverteilt mit µ = 15 und
σ = sd = 8.9118 . Das Signifikanzniveau betrage α = 5%.

- Berechne den Mittelwert von n=244 normalverteilten
Zufallsvariablen mit Mittelwert 15 und
Standardabweichung 8.90
Speichere das Ergebnis im Datasatz"Nullvtlg".
set.seed(1896)
Nullvtlg <- do(10000) * mean(rnorm(mean = 15,
sd = 8.90,
n =244))
118 Hier nicht erfüllt, siehe oben.
p-Wert zur Überprüfung der mittleren Rechnungshöhe
histogram(~mean, Nullvtlg)
0.6
0.4
Density
0.2
0.0
13 14 15 16 17
mean
Anteil der Simulationen unter H0 : µ = 15 mit einem mindestens so großem Mittelwert

wie in der Stichprobe (µ̂ = x̄ = 19.79):
prop(~ mean >= mosaic::mean(~total_bill, data = tips), data = Nullvtlg)
## prop_TRUE
## 0
Die H0 muss verworfen werden. Das beobachtete Stichprobenerereignis ist selten

(p < 0.0001) in den simulierten Verteilungen im Modell H0 .
Verteilungsbasierte Alternative: t-Test
x̄−µ x̄−µ0
I Einstichproben-t-Test: eine Stichprobe, ein Merkmal: t = q 0
sd2
= se .
n
I t-Test für abhängige Stichproben, gepaarter t-Test: eine Stichprobe, zwei
Merkmale, es wird die Differenz je Beobachtung analysiert.
I t-Test für unabhängige Stichproben: zwei Stichproben, ein Merkmal.
I Idee119 : Setze Differenz der Mittelwerte ins Verhältnis zur Streuung der Schätzung
(Standardfehler, se):
( x̄ − x̄ B )
t= rA
sd2A sd2B
nA + nB
Große Werte von |t|120 sind unter der Nullhypothese unwahrscheinlich.

I Voraussetzung: Daten innerhalb der Stichprobe(n) unabhängig, identisch,
normalverteilt.121
119 hierim Fall für zwei unabhängige Stichproben, analog für die anderen Fälle
120 imzweiseitigen Fall
121 Überprüfung z. B. über Q-Q-Plot (xqqmath()).

Exkurs: t-Verteilung
I Sind X und Y unabhängige Zufallsvariablen, wobei X ∼ N (0, 1) und Y ∼ χ2n verteilt

sind, so besitzt der Quotient
X
p ∼ tn
Y /n
eine t-Verteilung mit n Freiheitsgraden.
Vergleich von t Verteilungen

0.40
Verteilungen
df=1
0.35
df=5
df=10
df=30
normal
0.30
0.25
Dichte
0.20
0.15
0.10
0.05
−2 −1 0 1 2
x Wert

Einstichproben-t-Test
t.test( ~ total_bill, # Variable, die analysiert wird

mu = 15, # Wert für mu0
alternative = "greater", # ein- oder zweiseitiger Test
##
## One Sample t-test
##
## data: total_bill
## t = 8.3976, df = 243, p-value = 1.909e-15
## alternative hypothesis: true mean is greater than 15
## 18.84492 Inf
## mean of x
## 19.78594

Übung 122: Testergebnis Rechnungshöhe
Wird die Nullhypothese H0 : µ 6 15 gegen H A : µ > 15 zum Signifikanzniveau α = 5 %

verworfen?
I Ja.
I Nein.

Übung 123: Fehlerart t-Test
Angenommen, in Wirklichkeit gilt µ 6 15. Welcher Fehler wurde begangen?

A. Fehler 1. Art, α-Fehler.
B. Fehler 2. Art, β-Fehler.

Übung 124: p-Wert
Was würde passieren, wenn die vorher festgelegte Hypothese122 nicht H0 : µ 6 15 gegen
H A : µ > 15 sondern H0 : µ 6 19.5 gegen H A : µ > 19.5 lauten würde?
A. Der p-Wert wird kleiner.
B. Der p-Wert wird größer.
C. Der p-Wert ändert sich nicht.
122 Hypothesen dürfen nicht nach der Analyse angepasst werden!

Übung 125: t-Test
Bei einem gerichteten Einstichproben t-Test für
H0 : µ 6 42 vs. H A : µ > 42
komme als Schätzwert der Stichprobe µ̂ = x̄ = 40 raus.

Wird der t-Test die Nullhypothese verwerfen?
A. Ja.
B. Nein.
C. Vielleicht. Hängt von se = sd
√ ab.
n

Wiederholung: Ablauf des Bootstrapping
Vorraussetzungen:
I Zufällige Stichprobe oder zufällige Zuordnung.
I Nicht zu kleine Stichprobe.123
Beispiel: Bootstrap-Perzentil-Intervall124 für eine Stichprobe:

I Ziehe mit Zurücklegen eine Stichprobe vom Umfang n aus der Originalstichprobe.
I Berechne Statistik, z. B. Mittelwert x̄ der Bootstrap-Stichprobe. Analog für andere
Statistiken, z. B. Anteil.
I Zeichne Histogramm der Bootstrap-Verteilung der Statistik.
I Das 95 %-Bootstrap-Perzentil-Intervall sind die mittleren 95 % der
Bootstrap-Verteilung.
123 n > 35
124 Es gibt weitere, teilweise exaktere Bootstrap-Methoden.
Bootstrap Verteilung mittlere Rechnungshöhe
# 10000 Bootstrap Stichproben, Mittelwert berechnen

mosaic::mean( ~ total_bill, data = resample(tips))
histogram( ~ mean, data = Bootvtlg)
0.6
0.4
Density
0.2
0.0
18 19 20 21 22
mean

Übung 126: Verteilung mittlere Rechnungshöhe
0.6
0.4
Density
0.2
0.0
18 19 20 21 22
mean

A. Der Mittelwert der Rechnungshöhe ist gleichverteilt.
B. Der Mittelwert der Rechnungshöhe ist multimodal.
C. Der Mittelwert der Rechnungshöhe ist normalverteilt.
D. Der Mittelwert der Rechnungshöhe ist linksschief.
E. Der Mittelwert der Rechnungshöhe ist rechtsschief.

Übung 127: Konfidenzintervall
0.6
0.4
Density
0.2
0.0
18 19 20 21 22
mean
quantile( ~ mean, probs = c(0.025, 0.975), data = Bootvtlg)
## 2.5% 97.5%
## 18.70401 20.92869
Stimmt die Aussage: Mit 95 % Sicherheit überdeckt der Bereich 18.7 $ bis 20.93 $ eine
zufällig ausgewählte Beobachtung?
I Ja.
I Nein.

11.2 Test des Unterschieds zweier Mittelwerte

Boxplot Rechnungshöhe Raucher / Nichtraucher
Analyse des Unterschieds der Rechnungshöhe zwischen Rauchern und Nichtrauchern:
bwplot(total_bill ~ smoker, data = tips)
50
40
30
total_bill
20
10
No Yes

Differenz mittlere Rechnungshöhe Raucher / Nichtraucher
In der Stichprobe wurden folgende (Mittel-)Werte beobachtet:
# Mittelwert Stichprobe
mosaic::mean(total_bill ~ smoker, data = tips)
## No Yes
## 19.18828 20.75634
# Differenz Mittelwert Stichprobe

diffmean(total_bill ~ smoker, data = tips)
## diffmean
## 1.568066

Übung 128: Differenz mittlere Rechnungshöhe Raucher / Nichtraucher
Welche Aussage stimmt – für die Stichprobe?

A. x̄Smoker Yes − x̄Smoker No = 0
B. x̄Smoker Yes − x̄Smoker No 6= 0

Konfidenzintervall
Berechne das 95%-Konfidenzintervall zur Differenz der mittleren Rechnungshöhe von
Raucher vs Nichtraucher:
diffmean(total_bill ~ smoker, data = resample(tips))
histogram( ~ diffmean, data = Bootvtlg)
0.3
0.2
Density
0.1
0.0
−4 −2 0 2 4 6 8
diffmean
quantile( ~ diffmean, data = Bootvtlg, probs = c(0.025, 0.975))
## 2.5% 97.5%
## -0.7991132
WiSe 21/22 3.9476430 Martin Vogt | Statistik 406
Übung 129: Testverfahren Differenz mittlere Rechnungshöhe Raucher / Nichtraucher
Welches ist das Testverfahren, um zu testen, ob die mittlere Rechnungshöhe in der

Population bei Rauchern und Nichtrauchern gleich ist, d. h., die Forschungsthese lautet:
Es gibt einen Unterschied im Mittelwert der Population?
A. Mittelwertsvergleich, ungerichtet.
B. Mittelwertsvergleich, gerichtet.

Übung 130: Hypothese Differenz mittlere Rechnungshöhe Raucher / Nichtraucher
Wie lautet das richtige Hypothesenpaar?

A. H0 : µSmoker Yes 6= µSmoker No vs. H A : µSmoker Yes = µSmoker No
B. H0 : µSmoker Yes = µSmoker No vs. H A : µSmoker Yes 6= µSmoker No
C. H0 : x̄Smoker Yes 6= x̄Smoker No vs. H A : x̄Smoker Yes = x̄Smoker No
D. H0 : x̄Smoker Yes = x̄Smoker No vs. H A : x̄Smoker Yes 6= x̄Smoker No
E. H0 : πSmoker Yes 6= πSmoker No vs. H A : πSmoker Yes = πSmoker No

Wiederholung Ablauf: Permutations- und Randomisationstest
Vorraussetzung: Zufällige Stichprobe (Permutation) oder zufällige Zuordnung

(Randomisation).
Beispiel: Zwei-Stichproben-Fall:
I Mische die n A + n B Beobachtungen.
I Ordne zufällig n A Beobachtungen der ersten Stichprobe zu, die restlichen der
zweiten.
I Berechne die Differenz der Mittelwerte x̄ A − x̄ B . Analog für andere Teststatistiken,
z. B. Anteil.
I Zeichne Histogramm der Verteilung der Teststatistik des Modells unter
H0 : µ A − µ B = 0. Vergleiche mit dem beobachteten Wert der Teststatistik (der
Stichprobe).
I Der p-Wert ist der Anteil der zufälligen Teststatistiken, die mindestens so groß sind
wie der beobachtete Wert.125
125 Bei ungerichteten, zweiseitigen Tests im Absolutbetrag.

Permutationstest Differenz mittlere Rechnungshöhe Raucher / Nichtraucher
Nullvtlg <- do(10000) *
diffmean(total_bill ~ shuffle(smoker), data = tips)
histogram( ~ diffmean, data = Nullvtlg)
0.3
0.2
Density
0.1
0.0
−4 −2 0 2 4
diffmean

p-Wert für den Permutationstest
# Absolute Abweichung Stichprobe

dm <- abs(diffmean(total_bill ~ smoker, data = tips))
# Anteil Abweichungen unter H_0 größer als in Stichprobe

prop( ~ abs(diffmean) >= dm, data = Nullvtlg)
## prop_TRUE
## 0.1865
Die H0 kann nicht verworfen werden, da p-Wert > 5%.

t-Test Rechnungshöhe Raucher / Nichtraucher
Alternativ kann der t-Test eingesetzt werden:
t.test(total_bill ~ # Abhängige Variable

smoker, # Unabhängige Variable
##
## Welch Two Sample t-test
##
## data: total_bill by smoker
## t = -1.2843, df = 169.63, p-value = 0.2008
## alternative hypothesis: true difference in means is not equal to 0
## -3.9783704 0.8422385
## mean in group No mean in group Yes
## 19.18828 20.75634

Übung 131: Testentscheidung Rechnungshöhe Raucher / Nichtraucher
0.3
0.2
Density
0.1
0.0
−4 −2 0 2 4
diffmean
Sind die Daten unter der Nullhypothese H0 : µSmoker Yes = µSmoker No (sehr)
unwahrscheinlich?
I Ja.
I Nein.

11.3 Zum Einfluss der Stichprobengröße auf den p-Wert

Stichprobengröße n = 100
t.test(total_bill ~ smoker,
data = sample(tips, size = 100))
##
##
## t = 0.26883, df = 71.558, p-value = 0.7888
## -3.437518 4.509063
## 20.24919 19.71342

Stichprobengröße n = 200
t.test(total_bill ~ smoker,
data = sample(tips, size = 200))
##
##
## t = -0.47295, df = 127.15, p-value = 0.6371
## -3.368647 2.068999
## 19.33061 19.98043

Übung 132: Stichprobengröße
Welche Auswirkungen hat, unter sonst gleichen Umständen, ein größerer

Stichprobenumfang n?
A. Das Konfidenzintervall wird schmaler.
B. Das Konfidenzintervall wird breiter.

Cartoon: Stichprobenumfang
“Da Joe der einzige war, der vorab eine Power-Analyse durchgeführt hatte, hatte er als
einziger die nötige Größe, um den gewünschten Effekt zu erzielen.”126
126 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift G. Snow
11.4 Effektgröße

Effektgröße: Vorbereitung
Der p-Wert gibt (nur) die Wahrscheinlichkeit der Teststatistik unter der Nullhypothese
an. Er sagt nicht, wie groß / relevant ein Unterschied ist. Mit größerem
Stichprobenumfang n sinkt der p-Wert.
Cohens d127 ist ein Maß für die Überlappung:
x̄ A − x̄ B
d=
sdpool
mit s
1
sdpool = (n A − 1) · sd2A + (n B − 1) · sd2B
n A + nB − 2
# Einmalige Installation
install.packages("lsr")
# Paket laden
library(lsr)
127 Anwendbarfür den Vergleich zweier Mittelwerte. Es gibt auch weitere Effektgrößen. Siehe z. B.
Paket compute.es.
Effektgröße Rauchen
Daumenregel:
I |d| > 0.2 kleiner Effekt.
I |d| > 0.5 mittlerer Effekt.
I |d| > 0.8 großer Effekt.
cohensD(total_bill ~ smoker, data=tips)
## [1] 0.176426

Beispiel Effektgrößen
−4 −2 0 2 4
d=0.8 d=1.1
0.4
0.3
0.2
0.1
0.0
Density
d=0.2 d=0.5
0.4
0.3
0.2
0.1
0.0
−4 −2 0 2 4

Unter H0 (d. h. d = 0) sind p-Werte gleichverteilt
300
200
pvalue < 0.05

count
FALSE
TRUE
100
0.00 0.25 0.50 0.75 1.00

pvalue

Power-Analyse: Simulation d, n und p-Wert
d=0.2 d=0.5 d=0.8
10000
7500
n=100
5000
2500
pvalue < 0.05

0
count
FALSE
10000 TRUE
7500
n=30
5000
2500
0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00
pvalue

Übung 133: Effektgröße und Power

A. Die Wahrscheinlichkeit einen Fehler 2. Art zu begehen, sinkt mit der Effektgröße.
B. Die Wahrscheinlichkeit einen Fehler 2. Art zu begehen, steigt mit der Effektgröße.
C. Effektgröße und Wahrscheinlichkeit Fehler 2. Art stehen in keinem Zusammenhang.

.5 Test des Unterschieds der Mittelw. von gepaarten Stichpr.

Gepaarter t-Test
Zeigen die Daten, dass die mittlere relative Trinkgeldhöhe signifikant über 10 % liegt?
Betrachte dazu je Beobachtung die Differenz xd = xtip − 0.1 · xtotal_bill :
Differenz bilden:
tips <- tips %>%

mutate(t_diff = tip - 0.1*total_bill)
t-Test der Differenz durchführen:
t.test( ~ t_diff, data=tips, alternative="greater")
##
## One Sample t-test
##
## data: t_diff
## t = 15.602, df = 243, p-value < 2.2e-16
## alternative hypothesis: true mean is greater than 0
## 0.9117688 Inf
## mean of x
## 1.019684

Übung 134: Gepaarter t-Test
Was sagt der p-value < 2.2e-16 aus?

A. Die Wahrscheinlichkeit, dass die Nullhypothese stimmt, ist kleiner als 2.2 · 10−16 .
B. Die Wahrscheinlichkeit, dass die Alternativhypothese stimmt, ist kleiner als
2.2 · 10−16 .
C. Weder A noch B.

11.6 Test des Unterschieds von zwei oder mehr Mittelw.

Zusammenhang Trinkgeld und Wochentag
Anayse der Rechnungshöhe je Wochentag:
xyplot(tip ~ day, data = tips)
10
6
tip
Fri Sat Sun Thur
day

Varianzanalyse (ANOVA)
I Vergleich des Lagemaßes µi bei zwei oder mehr Stichproben. Ein- oder
mehrfaktoriell möglich, bei mehr als einem Einfluss auch Wechselwirkungen.
I Nullhypothese: Lagemaß µi für alle Gruppen gleich.
I Die Gesamtstreuung (SST) wird zerlegt in die Streuung zwischen den
Stichproben/Gruppen (SSG) und die Streuung innerhalb der
Stichproben/Gruppen (SSE):
n
X
n X
K X
K Xj
2 2
( xi − x̄) = n j (x̄ j − x̄) + ( xi,j − x̄ j )2
|i=i {z } |
j=1
{z }
j=1 i=1
| {z }
SST SSG SSE
I Ist das Verhältnis der Streuung zwischen den Gruppen im Verhältnis zur Streuung
innerhalb der Gruppen groß (Teststatistik F), so ist dies unter der Nullhypothese
unwahrscheinlich.
I Voraussetzung: Daten innerhalb der Stichproben / Gruppen unabhängig, identisch,
normalverteilt.

Beispiele F128
A B C
F=6 (a) F=6 (b)

10
−5
−10
F=1 F=60
10
−5
−10
A B C
Gruppe
128 Video https://www.causeweb.org: Crawford S © Use ANOVA

Varianzanalyse in R
# Speichere Ergebnis der Varianzanalyse aov() in "ergaov"

ergaov <- aov(tip ~ # Abhängige Variable
day, # Unabhängige Variable
# Zeige Zusammenfassung von "ergaov"

summary(ergaov)
## Df Sum Sq Mean Sq F value Pr(>F)

## day 3 9.5 3.175 1.672 0.174
## Residuals 240 455.7 1.899

Übung 135: Testentscheidung ANOVA
Wird die Nullhypothese H0 : µFri = µSat = µSun = µThu verworfen, d. h., wird anhand
der Stichprobenunterschiede der Mittelwerte
mosaic::mean(tip ~ day, data=tips)
## Fri Sat Sun Thur

## 2.734737 2.993103 3.255132 2.771452
auf mindestens einen Unterschied in den Mittelwerten in der Population geschlossen

(α = 0.05)?
A. Ja.
B. Nein.
C. Weiß nicht.

Multiples Testen
Wenn man statt einer ANOVA alle 42 = 4·(42−1) = 6 Kombinationen (d. h. Donnerstag

und Freitag, Donnerstag und Samstag usw.) ausprobiert hätte, hätte sich der α-Fehler
kumuliert129 :
P(Fehler 1. Art) = 1 − (1 − 0.05)6 = 0.265
Das globale Signifikanzniveau α = 0.05 wäre nicht eingehalten!130
p-Hacking: Wenn viele Hypothesen getestet werden, werden auch zufällig welche
signifikant sein.
129 hier: α = 0.05

130 Adjustierung z. B. über Funktion p.adjust().
Offene Übung 136: Trinkgeld Mann / Frau
Analysieren Sie die Höhe des Trinkgeldes und inwieweit sich dies zwischen den
Geschlechtern unterscheidet.

11.7 Zusammenfassung

Überblick zu den Simulationstechniken für numerische Variablen
I Einfache Simulation zur Überprüfung eines Mittelwertes.

I Beispiel: Wie hoch ist der Mittelwert der Rechnungshöhe (in der Population)?
I Vorgehen: Simuliere wiederholt Zufallszahlen (unter Annahmen) und gucke wie
wahrscheinlich der beobachtete Mittelwert ist.
I Permutationstest zur Überprüfung eines Unterschieds zweier Verteilungen.
I Beispiel: Unterscheidet sich der Mittelwert der Rechnungshöhe (in der Population)
zwischen Rauchern und Nichtrauchern?
I Vorgehen: Simuliere wiederholt zufällige Zuordnung und gucke wie wahrscheinlich
die beobachtete Differenz der Mittelwerte ist.
I Bootstrap zur Berechnung eines Konfidenzintervalls für einen Mittelwert oder
einen Mittelwertsdifferenz.
I Beispiel: Was sind plausible Werte für den Mittelwert der Rechnungshöhe in der
Population?
I Vorgehen: Simuliere wiederholt zufällige Stichprobe durch Ziehen mit Zurücklegen
und berechne jeweils Mittelwert oder Mittelwertsunterschied.

Alternativen zur simulationsbasierten Inferenz
I Eine Alternative zu den Methoden der simulationsbasierten Inferenz dieses Kapitels

ist jeweils t.test(), der auf theoretischen bzw. asymptotisch approximativen
Verteilungsanahmen aufbaut.
I Die Varianzanalyse aov() testet den Unterschied von zwei oder mehr Gruppen
hinsichtlich eines Mittelwerts; sie basiert auf theoretischen bzw. asymptotisch
approximativen Verteilungsanahmen.
I Überprüfung der Annahmen z. B. über Shapiro-Wilk Test (Normalverteilung,
shapiro.test()) und Bartlett’s Test (gleiche Varianzen, bartlett.test()).
I Darüberhinaus gibt es weitere nicht-parametrische Testverfahren: Wilcoxon Test
(wilcox.test()) bzw. Kruskal-Wallis Test (kruskal.test()).

Offene Übung 137: Abfüllanlage
Eine Gaststätte bezieht die 0,5 Liter Bierflaschen aus einer kleinen Brauerei im
Nachbarort. Nach mehreren Beschwerden seiner Gäste, dass die Flaschen weniger als 0,5
Liter Bier enthalten würden, fordert der Gastwirt den Brauereibesitzer auf, seine
Abfüllanlage überprüfen zu lassen. Zu diesem Zweck wird eine Zufallsstichprobe vom
Umfang n=150 Flaschen ausgewählt. Bei der Untersuchung gaben sich die folgenden
Werte x̄ = 498, 8 ml und s = 3, 5 ml. (Normalverteilung vorausgesetzt).
1. Ist der Verdacht der Besucher der Gaststätte bei einem Signifikanzniveau von 1 %
gerechtfertig?
2. Der Brauereibesitzer behauptet nun, dass das Ergebnis der Stichprobe nicht
widerlegen würde, dass seine Flaschen genau 500 ml enthalten. Überprüfen Sie
diese Behauptung bei α = 0, 01.
3. Ein Jahr später wird nochmals eine Untersuchung durchgeführt, allerdings diesmal
nur mit 20 Flaschen x̄ = 498, 1 und s = 3, 7. Wie lauten die Tests aus 1 und 2
unter Verwendung dieser Werte.

Offene Übung 138: Autos
Der Datensatz data(mtcars) enthält Daten aus einer US Zeitschrift über Autos.
1. Verschaffen Sie sich einen Überblick über die Daten.
2. Sie vermuten, dass die Autos weniger als 22 Meilen pro Gallon fahren. Führen Sie
einen statistischen Test durch.
3. Gibt es einen Unterschied in der Reichweite zwischen Automatik u nd Manueller
Schaltung?

Offene Übung 139: Anova: Iris
Der Datensatz data(iris) enthält Daten von 3 Lilien Arten.

1. Verschaffen Sie sich einen Überblick über die Daten.
2. Erstellen Sie einen boxplot der Kelchlänge je Lilienart.
3. Sind die Unterschiede in den Mittelwerte der Kelchlänge statistisch signifikant?

12 Lineare Regression

12. Lineare Regression
Übung 140: Skalenniveau Trinkgeldhöhe
Welches Skalennvieau hat die Variable Trinkgeldhöhe?

A. Kategorial - nominal.
B. Kategorial - ordinal.
C. Numerisch - Intervallskala.
D. Numerisch - Verhältnisskala.

Modellierung: Lineare Regression
I Überwachtes Lernen (engl.: supervised learning): Kann ein Teil der Variation
einer abhängigen Variable y durch unabhängige Variable(n) x modelliert werden:
y = f (x) + e131
I Schätze fˆ anhand der Daten / Stichprobe
I Annahme: f ist eine lineare Funktion, d. h., f ( x) = β 0 + β 1 · x Hier: y numerisch,
nur eine unabhängige Variable x.
I β 0 : Achsenabschnitt
I β 1 : Steigung, d. h. Änderung des Mittelwerts von y, wenn x eine Einheit größer wird
!
β̂ 0
I Methode der kleinsten Quadrate: Bestimme Vektor β̂ = so, dass für
β̂ 1
P 2
êi = yi − fˆ(xi ) = yi − ( β̂ 0 + β̂ 1 xi ) der Wert êi minimal ist.
131 e: (zufälliger) Fehler, Residuum

Methode der kleinsten Quadrate
Pn 2 Pn
I min i=1 (ei ) =− β 0 − β 1 x i )2
i=1 (yi
P
I Partiell Ableiten β 0 : −2 in=1 (yi − β 0 − β 1 xi ) =! 0
P
I Partiell Ableiten β 1 : −2 in=1 xi (yi − β 0 − β 1 xi ) =! 0
Pn
1 ( xi − x̄)(yi − ȳ)
βˆ1 = i=
P n 2
i=1 ( xi − x̄ )
βˆ0 = ȳ − βˆ1 x̄

Methode der kleinsten Quadrate
x^2
+y^
2
y
x
SchÃ¼ssel

Offene Übung 141: Verkaufte Flaschen
Geschäft i 1 2 3 4 5 6
Flaschenpreis xi 20 16 15 16 13 10
verkaufte Menge yi 0 3 7 4 6 10
1. Zeichnen Sie die Daten in ein Streudiagramm

2. Berechnen Sie die Regressionskoeffizienten
3. Welchen Absatz erwarten Sie für einen Flaschenpreis von 12 Euro?

Offene Übung 142: Babygalerie
Die Babygalerie in Trier [https://www.babygalerie24.de] veröffentlicht Daten die Größe

und das Gewicht von Neugeborenen. Gibt es einen linearen Zusammenhang? Wie Groß
würden Sie ein 2600 Gramm schweres Baby schätzen?
Name Gewicht (gr) Größe (cm)

Zayn 4010 56
Siraj 3870 56
Hadia 2870 51
Joshua 3040 46
Lena 4130 55
Fiona 3160 51

Lineare Regression
I Nullhypothese des Koeffiziententests: Variable x j hat keinen linearen

Zusammenhang mit y, d. h., H0 : β j = 0
I Vorraussetzung:
I kein nicht-linearer Zusammenhang zwischen x und y
I keine (einflussreichen) Ausreißer
I Residuen unabhängig (d. h. keine (Auto)korrelation), identisch (insbesondere
konstante Varianz), normalverteilt
I Das Bestimmtheitsmaß R2 gibt den Anteil der im Modell erklärten Variation von
y an: Pn Pn
2 2
i =1 (ŷi − ȳ) i=1 (yi − ŷi )
R = Pn
2
2
= 1 − P n 2
i=1 (yi − ȳ) i=1 (yi − ȳ)
I Einfachstes Modell: Prognose durch Mittelwert: ŷi = ȳ : R2 = 0.
I Bestes Modell: Prognose ist Beobachtung: ŷi = yi : R2 = 1.

Beispiele
I Modellierung der Klausurpunktzahl eines Studierenden auf Basis z. B. der

Schulnote.
I Analyse des Gehaltes einer Mitarbeiter*in auf Basis von z. B. Ausbildungsdauer.
I Vorhersage der Seitenabrufe auf Basis der Fans, Follower und Art des Inhalts132 .
I Modellierung des Risikos einer Anlage (Betafaktor).
I Vorhersage der Verspätung von Flügen (s. Datensatz nycflights13).
I Vorhersage der Persönlichkeit anhand von Social-Media-Daten (s. dieses Paper).
Wo können Sie dies Verfahren einsetzen?
132 z. B. Gewinnspiel, Rabatt.

Vorbereitung: Trinkgeld und Rechnungshöhe
Einlesen der Tipping133 Daten sowie laden des Pakets mosaic.

133 Bryant,
12.1 Einfache lineare Regression

Streudiagramm: Trinkgeld und Rechnungshöhe
xyplot(tip ~ total_bill, data = tips)
10
6
tip
10 20 30 40 50
total_bill

Übung 143: Korrelation Trinkgeld und Rechnungshöhe
10
tip
4
10 20 30 40 50
total_bill
Welche Aussage stimmt vermutlich für den Korrelationskoeffizient zwischen Trinkgeld

und Rechnungshöhe?
A. Der Korrelationskoeffizient liegt bei r = −0.68.
B. Der Korrelationskoeffizient liegt bei r = −0.23.
C. Der Korrelationskoeffizient liegt bei r = 0.68.
D. Der Korrelationskoeffizient liegt bei r = 0.23.

Übung 144: Zusammenhang Trinkgeld und Rechnungshöhe
Welche Aussage stimmt vermutlich – aus inhaltlichen Gründen?

A. Die Trinkgeldhöhe hängt ab von der Rechnungshöhe.
B. Die Rechnungshöhe hängt ab von der Trinkgeldhöhe.
C. Trinkgeld und Rechnungshöhe sind unabhängig.

Lineare Regression Trinkgeld auf Rechnungshöhe
# Speichere Ergebnis der Regression lm() in "erglm1"
erglm1 <- lm(tip ~ # abhängige Variable
total_bill, # unabhängige Variable(n)
# Zeige Zusammenfassung von "erglm1"

summary(erglm1)
##
## Call:
## lm(formula = tip ~ total_bill, data = tips)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.1982 -0.5652 -0.0974 0.4863 3.7434
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.920270 0.159735 5.761 2.53e-08 ***
## total_bill 0.105025 0.007365 14.260 < 2e-16 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 1.022 on 242 degrees of freedom
## Multiple R-squared: 0.4566, Adjusted R-squared: 0.4544
## F-statistic: 203.4 on 1 and 242 DF, p-value: < 2.2e-16

Regressionsgerade
plotModel(erglm1)
10.0
7.5
tip
5.0
2.5
0 20 40
total_bill

Residuen
10.0
7.5
tip
5.0
2.5
10 20 30 40 50
total_bill

Übung 145: Regression Trinkgeld auf Rechnungshöhe

A. Im Mittelwert steigt mit jedem Dollar Trinkgeld die Rechnungshöhe um 0.92.
B. Im Mittelwert steigt mit jedem Dollar Trinkgeld die Rechnungshöhe um 0.11.
C. Im Mittelwert steigt mit jedem Dollar Rechnungshöhe das Trinkgeld um 0.92.
D. Im Mittelwert steigt mit jedem Dollar Rechnungshöhe das Trinkgeld um 0.11.

Geschätzte Regressionsgleichung
Die geschätzte Gleichung lautet:
ŷ = 0.9203 + 0.105 · x

Übung 146: Prognose der Trinkgeldhöhe aus Rechnungshöhe
Für ein gegebenes x0 = 10 lautet die Prognose ŷ0 = 0.9203 + 0.105 · 10 = 1.9703.
Stimmt die Aussage: Bei einer Rechnungshöhe von 10 $ wird das Trinkgeld mit
Sicherheit bei 1.97 $ liegen?
I Ja.
I Nein.

Prognoseintervalle
predict(erglm1, # Modell
# Neue Beobachtung mit x=10:
newdata = data.frame(total_bill = 10),
# Prognoseintervall:
interval = "prediction")
## fit lwr upr

## 1 1.970515 -0.05184074 3.99287

Übung 147: Bestimmtheitsmaß
Welche Aussage stimmt?134

A. Die Wahrscheinlichkeit, dass das Modell stimmt, liegt bei 46 %.
B. 46 % der Beobachtungen werden richtig modelliert.
C. 46 % der Variation der Rechnungshöhe werden modelliert.
D. 46 % der Variation der Trinkgeldhöhe werden modelliert.
134 R Ausgabe: Multiple R-squared = 0.4566.

R2
Das Bestimmtheitsmaß sagt nicht, ob ein lineares Modell stimmt. Im Falle der
Anscombe Daten gilt in allen Fällen R2 ≈ 0.67:
10
9
8
7
y1
y2
6 5
3
4
3 6 9 12 15 3 6 9 12 15
x1 x2
13
12
11
10
y3
y4
9
8
7
6
5
3 6 9 12 15 10 15 20
x3 x4

Wiederholung: Monte Carlo in R
I Permutationstest, hier: simuliere zufällige Zuordnung135 . Simuliere Verteilung

einer Statistik unter der Annahme, dass kein Zusammenhang vorliegt (Modell H0 ),
u. a. zur Bestimmung von p-Werten.
do(oft) * statistik(y ~ shuffle(x), data = Daten)
I Bootstrap, hier: simuliere zufälliges Ziehen einer Stichprobe136 . Schätze

Verteilung einer Statistik der Stichprobe, u. a. zur Bestimmung von
Konfidenzintervallen oder Standardfehlern.
do(oft) * statistik(y ~ x, data = resample(Daten))
135 d. h. ohne Zurücklegen

136 d. h. mit Zurücklegen
Bootstrap Verteilung Steigungskoeffizient
lm(tip ~ total_bill, data = resample(tips))
histogram( ~ total_bill, data = Bootvtlg)
30
20
Density
10
0.06 0.08 0.10 0.12 0.14 0.16
total_bill
quantile( ~ total_bill, data = Bootvtlg,

probs = c(0.025, 0.975))
## 2.5% 97.5%
## 0.08235625 0.12797229

Permutationstest Verteilung Steigung (I/II)
Wenn H0 : β 1 = 0 gilt, so sollte y in keinem (linearen) Zusammenhang zu x stehen:
Nullvtlg <- do(10000) *
lm(tip ~ shuffle(total_bill), data = tips)

Permutationstest Verteilung Steigung (II/II)
histogram( ~ total_bill, data = Nullvtlg)
40
30
Density
20
10
−0.04 −0.02 0.00 0.02 0.04
total_bill
quantile( ~ total_bill, data = Nullvtlg,

probs = c(0.025, 0.975))
## 2.5% 97.5%
## -0.01876834 0.02000266

Übung 148: Permutationstest Steigung
40
30
Density
20
10
−0.10 −0.05 0.00 0.05 0.10
total_bill

A. Die beobachtete Steigung der Stichprobe β̂ 1 = 0.11 ist unter H0 : β 1 = 0 ein
üblicher Wert.
B. Die beobachtete Steigung der Stichprobe β̂ 1 = 0.11 ist unter H0 : β 1 = 0 kein
üblicher Wert.

12.2 Regressionsannahmen

Annahmen
I Linearität in den Parametern

I Erwartungswert der Störgröße gleich Null
I Berücksichtigung aller relevanten Variablen
I Homoskedastizität der Störgrößen
I Unabhängigkeit der Störgrößen
I keine lineare Abhängigkeit zwischen den unabhängigen Variablen
I Störgrößen sind normalverteilt

Übung 149: Nicht-linearer Zusammenhang
Bei welcher der Abbildungen ist die Annahme keines nicht-linearen Zusammenhangs am
ehesten erfüllt?
A B
2 2
1
1
yb
ya
0
−1
−2 −1
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
x x
C D
3 1.5
1.0
2
0.5
yd
yc
0.0
1
−0.5
0
−1.0
−1.5
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
x x
A. Abbildung A.
B. Abbildung B.
C. Abbildung C.
D. Abbildung D.

Ausreißer
Beobachtungen, die horizontal und vertikal vom üblichen Zusammenhang abweichen,
können die Regressionsgerade und die Modellgüte verändern.
10.0
7.5
tip
5.0
2.5
0.0
0 300 600 900

total_bill

Cartoon: Ausreißer
“Punkte, die von ihren Peers abweichen, sind häufig die interessantesten.”137
137 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift J. Alloway

Verteilung Residuen
Annahme: Residuen sind normalverteilt.
histogram( ~ resid(erglm1))
0.5
0.4
0.3
Density
0.2
0.1
0.0
−4 −2 0 2 4
resid(erglm1)

Q-Q Plot Residuen
Annahme: Residuen sind normalverteilt.
xqqmath( ~ resid(erglm1))
2
resid(erglm1)
−2
−3 −2 −1 0 1 2 3
qnorm

Übung 150: Verteilung Residuen
4
0.5
0.4
2
0.3
resid(erglm1)
Density
0
0.2
0.1
−2
0.0
−4 −2 0 2 4 −3 −2 −1 0 1 2 3
resid(erglm1) qnorm
Stimmt die Aussage: Die Erfüllung der Annahme einer Normalverteilung für die
Residuuen ist hier fragwürdig?
I Ja.
I Nein.

Verteilung Residuen und angepasste Werte
Annahme: Residuen sind identisch verteilt.
xyplot(resid(erglm1) ~ fitted(erglm1))
2
resid(erglm1)
−2
2 3 4 5 6
fitted(erglm1)

Übung 151: Verteilung Residuen und angepasste Werte
resid(erglm1)
0
−2
2 3 4 5 6
fitted(erglm1)

A. Die Varianz der Residuen scheint unabhängig von der Höhe der angepassten Werte
zu sein.
B. Die Varianz der Residuen scheint mit der Höhe der angepassten Werte zu steigen.
C. Die Varianz der Residuen scheint mit der Höhe der angepassten Werte zu fallen.

Extrapolation
Vorsicht bei Vorhersagen für Werte außerhalb des bekannten, üblichen

Wertebereiches.138
predict(erglm1, # Modell
# Neue Beobachtung mit x=1000:
newdata = data.frame(total_bill = 1000),
# Prognoseintervall:
interval = "prediction")
## fit lwr upr

## 1 105.9448 91.58217 120.3074
138 Video https://www.causeweb.org: Posner M © How Far He’ll Go

Regression nur mit Achsenabschnitt
mean(tip~1, data = tips)
## [1] NA
lm(tip~1, data = tips)
##
## Call:
## lm(formula = tip ~ 1, data = tips)
##
## Coefficients:
## (Intercept)
## 2.998

Übung 152: Regression nur mit Achsenabschnitt
Was gilt bei lm(y~1) für das Bestimmtheitsmaß?

A. R2 = 0
B. 0 < R2 < 1
C. R2 = 1

12.3 Regression mit kategorialer unabhängiger Variable

Trinkgeld und Geschlecht
mosaic::mean(tip ~ sex, data = tips)
## Female Male
## 2.833448 3.089618
diffmean(tip ~ sex, data = tips)
## diffmean
## 0.2561696
xyplot(tip ~ sex, data = tips)
10
6
tip
Female Male
sex

Indikatormatrizen
Kategoriale Variablen werden numerisch / logisch kodiert.

Geschlecht (sex):
Male
Female 0
Male 1
Wochentag (day):
Sat Sun Thur
Fri 0 0 0
Sat 1 0 0
Sun 0 1 0
Thur 0 0 1

Regression Trinkgeld auf Geschlecht
erglm2 <- lm(tip ~ sex, data = tips)

summary(erglm2)
##
## Call:
## lm(formula = tip ~ sex, data = tips)
##
## Residuals:
## -2.0896 -1.0896 -0.0896 0.6666 6.9104
##
## Coefficients:
## (Intercept) 2.8334 0.1481 19.137 <2e-16 ***
## sexMale 0.2562 0.1846 1.388 0.166
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## F-statistic: 1.926 on 1 and 242 DF, p-value: 0.1665

Übung 153: Regression Trinkgeld und Geschlecht
Welche Aussage stimmt für die Stichprobe?

A. Im Mittelwert geben Männer 0.26 $ mehr Trinkgeld als Frauen.
B. Im Mittelwert geben Frauen 0.26 $ mehr Trinkgeld als Männer.
C. Männer geben immer 0.26 $ mehr Trinkgeld als Frauen.
D. Frauen geben immer 0.26 $ mehr Trinkgeld als Männer.

Offene Übung 154: Trinkgeld je Geschlecht
Fassen Sie die vorangegangene Analyse zusammen. Wie lautete die Forschungsfrage,
Modell, Hypothesen und die Antwort auf die Forschungsfrage.
1. Think: Überlegen Sie für sich.
2. Pair: Teilen Sie Ihr Ergebnis mit der Nachbar*in.
3. Share: Stellen Sie Ihr Ergebnis im Plenum vor.

Regression eines Anteils
prop(smoker ~ time, success = "Yes", data = tips)
## prop_Yes.Dinner prop_Yes.Lunch
## 0.3977273 0.3382353
diffprop(smoker ~ time, success = "Yes", data = tips)
## diffprop
## -0.05949198
lm( (smoker=="Yes") ~ time, data = tips)
##
## Call:
## lm(formula = (smoker == "Yes") ~ time, data = tips)
##
## Coefficients:
## (Intercept) timeLunch
## 0.39773 -0.05949

Logistische Regression
I Eine Lineare Regression eines Anteils kann nicht so interpretiert werden wie die
/ {0, 1} und
lineare Regression eines numerischen Merkmals.139 Insbesondere ist ŷ ∈
die Annahmen sind verletzt, d. h., p-Werte etc. stimmen nicht.
I Die richtige Herangehensweise wäre z. B. eine Logistische Regression: glm(y~x,
family=binomial).
I Weitere Regressionstypen (Auswahl):
I Multinomiale Regression: multinom() (Nominale abhängige Variable, Paket nnet).
I Proportional Odds Logistische Regression: polr() (Ordinale abhängige Variable,
Paket MASS).
139 β̂, R2

Übung 155: Beurteilung lineares Modell
Woran können Sie primär in einem linearen Modell erkennen, ob Sie ein gutes Modell
haben – bei einer metrischen abhängigen Variable y?
A. An einem kleinen p-Wert.
B. An einem großen p-Wert.
C. An einer im Betrag kleinen geschätzten Steigung.
D. An einer im Betrag großen geschätzten Steigung.
E. An einem großen R2 .

12.4 Multiple Regression

Multiple Regression
Modellgleichung:
yi = β 0 + β 1 · xi1 + β 2 · xi2 + . . . + β p · xip + ei
Interpretation der Koeffizienten (Schätzwerte, p-Werte): unter sonst gleichen

Umständen, d. h., die anderen Variablen bleiben im Modell konstant/unverändert
(ceteris paribus): marginaler Effekt.140
140 Durch Versuchsplanung oder eine vorgelagerte Hauptkomponentenanalyse können unabhängige

erklärende Variablen x j erzeugt werden.
Übung 156: Multiple Regressionskoeffizienten
Können sich die geschätzten Werte und deren p-Werte ändern, wenn Variablen ins
Modell hinzugenommen oder weggenommen werden?
I Ja.
I Nein.

Übung 157: Bestimmtheitsmaß
Kann sich das Bestimmtheitsmaß R2 ändern, wenn Variablen ins Modell

hinzugenommen oder weggenommen werden?
I Ja.
I Nein.

Trinkgeldhöhe als Funktion von Rechnungshöhe und Geschlecht
Modelliere Trinkgeldhöhe als lineare Funktion von Rechnungshöhe und Geschlecht:
erglm3 <- lm(tip ~ # abbhängige Variable

total_bill + sex, # unabhängige Variablen
summary(erglm3)
##
## Call:
## lm(formula = tip ~ total_bill + sex, data = tips)
##
## Residuals:
## -3.1914 -0.5596 -0.0875 0.4845 3.7465
##
## Coefficients:
## (Intercept) 0.933278 0.173756 5.371 1.84e-07 ***
## total_bill 0.105232 0.007458 14.110 < 2e-16 ***
## sexMale -0.026609 0.138334 -0.192 0.848
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##

Modell Multiple Regression
plotModel(erglm3)
10.0
7.5
.color
tip
Female
Male
5.0
2.5
0 20 40
total_bill
Übung 158: Regression Trinkgeld auf Rechnungshöhe und Geschlecht
Stimmt die Aussage: Bei gleicher Rechnungshöhe geben Männer in der Stichprobe im
Mittel mehr Trinkgeld als Frauen.
I Ja.
I Nein.

Bootstrap Multiple Regression
Bootvtlg <- do(10000) * lm(tip ~ total_bill + sex,
data = resample(tips))
confint(Bootvtlg)
## name lower upper level method estimate

## 1 Intercept 0.52516536 1.3474283 0.95 percentile 0.93327849
## 2 total_bill 0.08255927 0.1284278 0.95 percentile 0.10523236
## 3 sexMale -0.26823214 0.2186610 0.95 percentile -0.02660871
## 4 sigma 0.89069928 1.1389718 0.95 percentile 1.02408737
## 5 r.squared 0.33253246 0.5806577 0.95 percentile 0.45670000
## 6 F 60.03312632 166.8547403 0.95 percentile 101.29274612

Übung 159: Inferenz Regression Trinkgeld und Geschlecht
Gegeben die Rechnungshöhe, kann die Nullhypothese β 2 = β sex = 0 zum

Signifikanzniveau α = 5 % verworfen werden?
I Ja.
I Nein.

Übung 160: Interpretation Regression
Welches ist die korrekteste Interpretation von β̂ 1 = β̂ total_bill = 0.11?

A. Mit jedem $ Rechnungshöhe steigt das Trinkgeld um 0.11 $.
B. Mit jedem $ Rechnungshöhe steigt der Mittelwert des Trinkgeldes um 0.11 $.
C. Mit jedem $ Rechnungshöhe steigt der Mittelwert des Trinkgeldes um 0.11 $,
gegeben alle anderen Faktoren bleiben konstant.
D. In einem linearen Modell steigt mit jedem $ Rechnungshöhe der Mittelwert des
Trinkgeldes um 0.11 $, gegeben alle anderen Faktoren bleiben konstant.
E. In der Stichprobe steigt in einem linearen Modell mit jedem $ Rechnungshöhe der
Mittelwert des Trinkgeldes um 0.11 $, gegeben alle anderen Faktoren bleiben
konstant.

12.5 Wechselwirkung

Wechselwirkung, Interaktion
Hängt evt. auch die Steigung in Richtung Rechnungshöhe mit dem Geschlecht
zusammen – d. h. wirkt sich das Geschlecht auf den Zusammenhang zwischen
Rechnungshöhe und Trinkgeld aus?
erglm4 <- lm(tip ~

total_bill + sex + total_bill:sex,
data = tips)
plotModel(erglm4)
10.0
7.5
.color
tip
Female
Male
5.0
2.5
0 20 40
total_bill

Übung 161: Wechselwirkung
10.0
7.5
.color
tip
Female
Male
5.0
2.5
0 20 40
total_bill
Welches Geschlecht gibt im Mittelwert, unter sonst gleichen Umständen, mit

zunehmender Rechnungshöhe mehr zusätzliches Trinkgeld?
A. Frauen.
B. Männer.
C. Beide gleich.

Ergebnis Wechselwirkung
summary(erglm4)
##
## Call:
## lm(formula = tip ~ total_bill + sex + total_bill:sex, data = tips)
##
## Residuals:
## -3.2232 -0.5660 -0.0977 0.4796 3.6675
##
## Coefficients:
## (Intercept) 1.048020 0.272498 3.846 0.000154 ***
## total_bill 0.098878 0.013808 7.161 9.75e-12 ***
## sexMale -0.195872 0.338954 -0.578 0.563892
## total_bill:sexMale 0.008983 0.016417 0.547 0.584778
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##

Übung 162: Vorteilhaftigkeit
In der Stichprobe, in dem Modell: die Rechnungshöhe liegt bei 15 $. Ist es im Mittelwert
für den Kellner besser wenn eine Frau zahlt?
A. Ja.
B. Nein.
C. Egal.

ANOVA Tabelle Wechselwirkung
anova(erglm4)
## Analysis of Variance Table

##
## Response: tip
## Df Sum Sq Mean Sq F value Pr(>F)
## total_bill 1 212.424 212.424 201.9597 <2e-16 ***
## sex 1 0.039 0.039 0.0369 0.8478
## total_bill:sex 1 0.315 0.315 0.2994 0.5848
## Residuals 240 252.435 1.052
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Übung 163: Inferenz Regression Trinkgeld und Geschlecht
Ist die Wechselwirkung zwischen Geschlecht und Rechnungshöhe signifikant (α = 0.05)?

I Ja.
I Nein.

R Formeln formula()
Formeln bieten innerhalb der Modellierung in R viele Möglichkeiten:

I +: Hinzunahme von Variablen
I .: Alle unabhängigen Variablen des Datensatzes im Modell
I -: Herausnahme von Variablen (-1 für Achsenabschnitt)
I :: Wechselwirkung von Variablen
I *: Hinzunahme von Variablen und deren Wechselwirkung
I /: hierarchisch untergeordnet (engl.: nested)
I I(): Arithmetische Operationen der Variablen

12.6 Modellwahl

Übung 164: Multiple Regression
Woran können Sie am ehesten erkennen, dass eine Variable x j zur Modellierung von y
beiträgt?
A. An einem kleinen | β̂ j |.
B. An einem großen | β̂ j |.
C. An einem kleinen p-Wert.
D. An einem großen p-Wert.

Variablenselektion
Die Wahl der wichtigen Variablen im Modell ist nicht trivial. Dabei wird ein Kritierum
wie z. B. AIC141 zur Modellevaluierung verwendet. Mögliche Herangehensweisen z. B.
I Vorwärts Auswahl: Fange nur mit Achsenabschnitt an und füge schrittweise neue
Variablen hinzu, bis sich die Modellgüte nicht mehr verbessert.142
I Rückwärts Auswahl: Fange mit allen Variablen an und eliminiere schrittweise
einzelne Variablen, bis sich die Modellgüte nicht mehr verbessert.
In R: z. B. step()
Achtung: Eine Interpretation von p-Werten ist nach einer Variablenselektion nicht direkt
möglich.
141 Akaike
Informations Kriterium, siehe z. B. https://otexts.org/fpp2/selecting-predictors.html
142 Das
normale R2 steigt mit jeder Variablen im Modell – auch wenn diese nicht mit y
zusammenhängt.
Modellkomplexität
Schätzen (auf Basis von n = 100 Beobachtungen: Training) und Testen (auf Basis von
n = 10000: Test) des Polynoms143
y = −x3 + 8x2 − 9x − 18 + e
143 In R: lm(y ~ I(xˆ3) + I(x ˆ2) + x)

Übung 165: Modellkomplexität (I / II)
Stimmt die Aussage: Je komplexer144 ein Modell ist, desto besser erklärt es die
vorhandenen Daten?
I Ja.
I Nein.
144 Hier: Grad des Polynoms.

Übung 166: Modellkomplexität (II / II)
Stimmt die Aussage: Je komplexer145 ein Modell ist, desto besser erklärt es zukünftige
Daten?
I Ja.
I Nein.
145 Hier: Grad des Polynoms.

Modellierung
[. . . ] In general, when building statistical models, we must not forget that the
aim is to understand something about the real world. Or predict, choose an
action, make a decision, summarize evidence, and so on, but always about the
real world, not an abstract mathematical world: our models are not the reality
– a point well made by George Box in his oft-cited remark that “all models are
wrong, but some are useful” [. . . ]146
Zwei mögliche Ziele dabei:147

I Erklärung: Fokus fˆ.
I Vorhersage: Fokus ŷ
146 Hand, D. J. (2014). Wonderful Examples, but Let’s not Close Our Eyes. Statistical Science 29(1),
98-100 https://projecteuclid.org/euclid.ss/1399645735
147 Shmueli, G. (2015) To Explain or to Predict? Statistical Science 25(3), 289-310
https://projecteuclid.org/euclid.ss/1294167961
Offene Übung 167: Verlobungsring
Sie möchten Ihrer Freundin einen Verlobungsring kaufen, kennen aber ihre Ringgröße
nicht. Es ist aber zu verdächtig, sie direkt zu fragen. Sie wissen aber, dass kleinere
Frauen tendenziell auch kleinere Ringgrößen haben, und nach ihrer Körpergröße können
Sie sie ohne Bedenken fragen. Sie ist 172 cm groß. Was nun?
Sie haben die folgenden Größen und Ringgrößen von Bekannten:
Person i 1 2 3 4 5 6 7 8 9 10
Körpergröße 156.3 158.9 160.8 179.6 156.6 165.1 165.9 156.7 167.8 160.8
Ringgröße 47.1 46.8 49.3 53.2 47.7 49.0 50.6 47.1 51.7 47.8

Offene Übung 168: Hypothesenzinssatz
Für 6 verschiedene Monate liegen die Daten über den Hypothekenzinssatz x (in%) sowie
über den saisonbereinigten Auftragseingang y (in Mio EUR) im Bauhauptgewerbe, der
auf den privaten Wohnungsbau entfällt, vor:
Monat i 1 2 3 4 5 6
Zinssatz x 6 5 7 7 8 9
Aufträge y 3000 3200 2500 2300 2000 2000

Offene Übung 169: Auto
I Was ist dieses Auto wert?
I Volkswagen Golf VII, 51590 km, 10/2015, 150 PS
I Bitte schicken Sie mir Ihren Tip (inklusive Lösungsskizze) per E-Mail (Betreff:
Preis: XXX ).
I Die Person, die dem Preis am nächsten kommt, erhält einen Preis.

Offene Übung 170: Rechnungshöhe
Modellieren Sie die Rechnungshöhe als Funktion der Anzahl Personen sowie der
Tageszeit.

Offene Übung 171: Immobilienpreise
Was beeinflusst den Wert einer Immobilie? Natürlich die Größe und die Lage. Aber was
ist wirklich relevant, was ist signifikant? Im Rahmen einer Sutide wurden 1978 mögliche
Einflussfaktoren auf Immobilienwerte (medv) in Boston untersucht (n=506)
Beobachtungen:
library(MASS)
data(Boston)
Welche Variablen sind in dem Datensatz enthalten? Führen Sie eine multiple lineare
Regression des Immobilienwertes auf die anderen Variablen durch und interpretieren Sie
das Ergebnis.

13 Grundlagen Zeitreihenanalyse

13. Grundlagen Zeitreihenanalyse
Zerlegung einer Zeitreihe
CO2 Konzentration
360
350
340
co2
330
320
1960 1970 1980 1990
Zeit
Ziel: Modellierung der Variation eines numerischen Merkmals y durch die Zeit t.
Eine Zeitreihe, d. h. hier ein regelmäßig beobachtes Merkmal yt , kann in verschiedene
Komponenten zerlegt werden:148
I Trend: mt
I Saisonkomponenten: st
I Rest-/ Fehlerkomponenten: et
Damit sind verschiedene Modelle möglich:

I Additives Modell: yt = mt + st + et
I Multiplikatives Modell: yt = mt · st · et
148 Literaturempfehlung: Rob J Hyndman, George Athanasopoulos: Forecasting: Principles and
Practice http://otexts.org/fpp2/
Beispiele
I Zeitliche Entwicklung von BIP, Beschäftigungszahlen etc..

I Umsatzverlauf von z. B. Kerzen, Mückenspray, Toilettenpapier.
I Bedarfsprognose von Statistikbüchern.
I Analyse der Entwicklung von Persönlichkeitsmerkmalen im Laufe der Zeit.
I Vorhersage des Strombedarfs.
I Analyse von Kursverläufen.
Wo können Sie dies Verfahren einsetzen?

Cartoon: Zeitreihe
“Immer dasselbe: Kurz vor der Klausur gibt es eine Spitze in den Lehrbuchverkäufen.”149
149 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift K. Lübke

Arbeitslose
I Die Abbildung zeigt die Arbeitslosenzahlen in Deutschland.

Arbeitslosentabelle
Jahr Monat AL Jahr Monat AL Jahr Monat AL
2019 Feb 2373 2017 Okt 2389 2016 Jun 2614
2019 Jan 2406 2017 Sep 2449 2016 Mai 2664
2018 Dez 2210 2017 Aug 2545 2016 Apr 2744
2018 Nov 2186 2017 Jul 2518 2016 Mrz 2845
2018 Okt 2204 2017 Jun 2473 2016 Feb 2911
2018 Sep 2256 2017 Mai 2498 2016 Jan 2920
2018 Aug 2351 2017 Apr 2569 2015 Dez 2681
2018 Jul 2325 2017 Mrz 2662 2015 Nov 2633
2018 Jun 2276 2017 Feb 2762 2015 Okt 2649
2018 Mai 2315 2017 Jan 2777 2015 Sep 2708
2018 Apr 2384 2016 Dez 2568 2015 Aug 2796
2018 Mrz 2458 2016 Nov 2532 2015 Jul 2773
2018 Feb 2546 2016 Okt 2540 2015 Jun 2711
2018 Jan 2570 2016 Sep 2608 2015 Mai 2762
2017 Dez 2385 2016 Aug 2684 2015 Apr 2843
2017 Nov 2368 2016 Jul 2661 2015 Mrz 2932

CO2 Konzentration
Dr. Pieter Tans, NOAA/ESRL150 und Dr. Ralph Keeling, Scripps Institution of
Oceanography151 stellen aktuelle Daten zur CO2 Konzentration zur Verfügung:
https://www.esrl.noaa.gov/gmd/ccgg/trends/data.html
Hinweis: Sollte das Herunterladen nicht klappen, können Sie auch einfach über
data(co2) historische Daten verwenden.
150 www.esrl.noaa.gov/gmd/ccgg/trends/
151 scrippsco2.ucsd.edu/

Aktuelle CO2 Daten beziehen
# URL der Daten

#urlco2 <- "ftp://aftp.cmdl.noaa.gov/products/trends/co2/co2_mm_mlo.txt
# Datei herunterladen
#data <- read.table(file=url(urlco2))
data<-read.table(file="CO2.txt")
# Relevante Spalte als Monatliche Zeitreihe definieren
co2 <- ts(data$V5, start = c(data$V1[1], data$V2[1]), frequency = 12)

Zeitreihe plotten
plot(co2) 400
380
co2
360
340
320
1960 1970 1980 1990 2000 2010 2020
Time

Übung 172: CO2 Konzentration
400
380
co2
360
340
320
1960 1970 1980 1990 2000 2010 2020
Time
Stimmt die Aussage: Es scheint saisonale Schwankungen in der CO2 Konzentration zu

geben?
I Ja.
I Nein.

Glätten durch gleitende Durchschnitte
Gleitende Durchschnitte (engl.: moving-average) glätten eine Zeitreihe, z. B. um

saisonale Schwankungen, damit der Trend erkannt werden kann.
q
1 X
ŷq,t = y t+ j
p
j=−q
mit p = 2q + 1. D. h., yˆt ist der Mittelwert von yt und der q vorhergehenden und
nachfolgenden Beobachtungen
# Einmalig installieren
install.packages("forecast")
# Paket laden
library(forecast)

ma()
Gleitende Durchschnitte berechnen, plotten:
forecast::ma(co2, order=11) %>% # p=11

plot() 400
380
360
.
340
320
1960 1970 1980 1990 2000 2010 2020
Time

Übung 173: Gleitende Durchschnitte
Stimmt die Aussage: Je größer p (order), desto glatter wird die geglättete Zeitreihe?
I Ja.
I Nein.

Übung 174: Gleitende Durchschnitte 2
I Glätten Sie die Zeitreihe der Arbeitslosen mit einem 5-Gliedrigen Gleitenden
Durchschnitt von Feb 2019 bis Dez 2017

Trendbereinigung
I Trend: mt
I Saisonkomponenten: st
I Rest-/ Fehlerkomponenten: et
I Additives Modell: yt = mt + st + et
I Trendbereinigung: yt − mt = st + et

Saisonbereinigung
I yt − mt − st = et
I Saison von Restkomponente trennen
Arithmetischen Mittelwert der trendbereinigten Werte je Monat.

Saisonbereinigung
I Mittelwert der trendbereinigten Werte eines Monats

1 Pm−1 (y
I st = st+k = st+2k , . . . , := m j=0 t+ jk − mt+ jk )
I Beispiel: 1/3· (Februar 2018 + Februar 2017 + Februar 2016)
I Normierte Saisonkomponente: Saisonkomponente - Mittelwert(Saisonkomponenten)

Übung 175: Saisonbereinigung Arbeitslose
I Führen Sie für die Zeitreihe der Arbeitslosen von Feb 2019 - März 2015 eine
Saisonbereinigung durch.
I Benutzen Sie Gleitende Durchschnitte der Ordnung 12

Zeitreihe zerlegen
Gleitende Durchschnitte zerlegen, plotten:
stl(co2, s.window = 11) %>%
plot()
400
data
360
320
3
2
seasonal
1
−1 0
−3
320 340 360 380 400
trend
1.0
0.5
remainder
0.0
−0.5
1960 1970 1980 1990 2000 2010 2020
time

Übung 176: Gleitende Durchschnitte
stl(co2, s.window = 11) %>% seasonal() %>% tail(n=12)
## Jan Feb Mar Apr May Jun

## 2017 2.9237320 3.3856720 2.3071124
## 2018 0.2820312 0.7378223 1.5429104
## Jul Aug Sep Oct Nov Dec
## 2017 0.3831252 -1.9297449 -3.5640763 -3.4010871 -1.9791248 -0.6965159
## 2018

A. Die CO2 Konzentration ist im Juni höher als im Dezember.
B. Die CO2 Konzentration ist im Juni geringer als im Dezember.
C. Die CO2 Konzentration ist im Juni ungefähr so hoch wie im Dezember.

Vorhersagen
Ausblick:152
stl(co2, s.window = 11) %>% # Zerlegung
predict() %>% # Prognosen
plot() # Abbildung
Forecasts from STL + ETS(A,A,N)

400
380
360
340
320
1960 1970 1980 1990 2000 2010 2020
152 vgl. Literatur

Offene Übung 177: Zeitreihenanalyse
Führen Sie eine Analyse des Datensatzes AirPassengers153 durch.
153 interner R Datensatz. Hilfe: ?AirPassengers

14 Datenhandling

14. Datenhandling
Cartoon: Datenbereinigung
“Vergiss nicht, Deine schmutzigen Daten aufzuräumen.”154
154 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift J. A. Morrow

14. Datenhandling
Datenvorverarbeitung
Häufig müssen Daten vor der eigentlichen Analyse vorverarbeitet werden, z. B.:
I Variablen auswählen: select()
I Beobachtungen auswählen: filter()
I Variablen verändern, neu erzeugen: mutate()
I Beobachtungen zusammenfassen: summarise()
I ...
Das Paket dplyr155 bietet dazu viele Möglichkeiten.
Umfangreiche Dokumentation: http://dplyr.tidyverse.org/index.html
155 wird mit mosaic installiert und geladen

14. Datenhandling
Vorbereitung
Einlesen der Tipping156 Daten sowie laden des Pakets mosaic.

156 Bryant,
14. Datenhandling
Variablen auswählen: select()
tips %>%
select(sex, total_bill) %>%
inspect()
##
## name class levels n missing
## 1 sex factor 2 244 0
## distribution
## 1 Male (64.3%), Female (35.7%)
##
## name class min Q1 median Q3 max mean
## ...1 total_bill numeric 3.07 13.3475 17.795 24.1275 50.81 19.78594
## sd n missing
## ...1 8.902412 244 0

14. Datenhandling
Logik
I Logisches Und (∧): &: Eine und Verknüpfung von zwei Aussagen ist genau dann
wahr, wenn beide Aussagen wahr sind.
I Logisches Oder (∨): |: Eine oder Verknüpfung von zwei Aussagen ist genau dann
wahr, wenn mindestens eine Aussage wahr ist.
I Logische Verneinung (¬): !
I Wahr: TRUE, Falsch: FALSE
Dabei wird vektorelementweise verglichen. Zusammenfassung durch Klammern.157
x <- c(TRUE, TRUE)
y <- c(TRUE, FALSE)
x & y
## [1] TRUE FALSE
x | y
## [1] TRUE TRUE
x | (!y)
## [1] TRUE TRUE

157 Über all() (∀) und any() (∃) lassen sich Wahrheitsvektoren zusammenfassen.
14. Datenhandling
Übung 178: Logik
Was ergibt: (TRUE|FALSE) & (FALSE)

A. FALSE
B. TRUE

14. Datenhandling
Übung 179: Mengenlehre
Hundeliebhaber*in
Katzenliebhaber*in
20 10 15
Stimmt die Aussage: Wenn Beobachtungen anhand einer Und (∧) Verknüpfung
ausgewählt werden, so werden mindestens so viele Beobachtungen wie bei einer Oder
(∨) Verknüpfung ausgewählt?
I Ja.
I Nein.
14. Datenhandling
Vergleichen
I gleich, (=): ==
I ungleich (6=): !=
I kleiner, kleiner gleich (<, 6): <, <=
I größer, größer gleich (>, >): >, >=
4 == 5
## [1] FALSE
4 != 5
## [1] TRUE
4 <= 5
## [1] TRUE
4 > 5
## [1] FALSE
14. Datenhandling
Beobachtungen auswählen: filter()
tips %>%
filter(sex=="Female" & total_bill>20) %>%
inspect()
##
## name class levels n missing
## 1 sex factor 2 27 0
## 2 smoker factor 2 27 0
## 3 day factor 4 27 0
## 4 time factor 2 27 0
## distribution
## 1 Female (100%), Male (0%)
## 2 No (63%), Yes (37%)
## 3 Sat (48.1%), Sun (25.9%), Thur (22.2%) ...
## 4 Dinner (77.8%), Lunch (22.2%)
##
## ...2 tip numeric 1.50 2.900 3.61 5.000 6.5 3.800370
## ...3 size integer 2.00 2.000 3.00 4.000 6.0 3.259259
## sd n missing
## ...1 6.594811 27 0
## ...2 1.191278 27 0
## ...3 1.227649 27 0

14. Datenhandling
Offene Übung 180: Datensatz auswählen
Erzeugen Sie einen Datensatz, der nur die Variable tip enthält, und zwar für die Tische,
an denen zum Dinner geraucht wurde.

14. Datenhandling
Variablen verändern/erzeugen: mutate()
tips %>%
mutate(paid=total_bill+tip) %>%
select(paid) %>%
inspect()
##
## name class min Q1 median Q3 max mean sd n
## ...1 paid numeric 4.07 15.475 20.6 27.7225 60.81 22.78422 9.890116 244
## missing
## ...1 0

14. Datenhandling
Übung 181: Relative Trinkgeldhöhe
tip
Wie viele Beobachtungen haben eine relative Trinkgeldhöhe total_bill über 10%?
A. 244
B. 217
C. 27

14. Datenhandling
Variablen verändern: case_when()
tips %>%
mutate(bill = case_when(total_bill <= 10 ~ "low",
total_bill <= 20 ~ "middle",
total_bill > 20 ~ "high")) %>%
select(bill) %>%
table()
## .
## high low middle
## 97 17 130
Hinweis: Anstelle der letzten Abfrage (total_bill > 20) hätte auch einfach TRUE
verwendet werden können.

14. Datenhandling
Übung 182: Variablen erzeugen
Welcher Befehl ist richtig, wenn die Personen, die Raucher sind und Dinner gegessen
haben, eine Gruppe sein sollen, alle anderen eine andere?
A.
tips %>%
mutate(party = case_when((smoker=="Yes" & time=="Dinner")
~ "Party",
TRUE ~ "No Party"))
B.
tips %>%
mutate(party = case_when((smoker=="Yes" | time=="Dinner")
~ "No Party",
TRUE ~ "Party"))

14. Datenhandling
Daten zusammenfassen: summarise()
tips %>%
dplyr::summarise(mean_bill=mean(total_bill), n=n())
## mean_bill n
## 1 19.78594 244

14. Datenhandling
Nach Gruppen zusammenfassen: group_by()
tips %>%
group_by(sex, time) %>%
dplyr::summarise(mean_bill=mean(total_bill), n=n())
## # A tibble: 4 x 4
## # Groups: sex [2]
## sex time mean_bill n
## <fct> <fct> <dbl> <int>
## 1 Female Dinner 19.2 52
## 2 Female Lunch 16.3 35
## 3 Male Dinner 21.5 124
## 4 Male Lunch 18.0 33

14. Datenhandling
Übung 183: Datenvorverarbeitung
Mit welchem Befehl können Beobachtungen mit bestimmten Eigenschaften ausgewählt

werden?
A. select()
B. filter()
C. mutate()
D. summarise()

14. Datenhandling
Die obersten n Beobachtungen: top_n()
tips %>%
group_by(sex) %>%
top_n(n=3, tip) %>%
arrange(-tip)
## total_bill tip sex smoker day time size
## <dbl> <dbl> <fct> <fct> <fct> <fct> <int>
## 1 50.8 10 Male Yes Sat Dinner 3
## 2 48.3 9 Male No Sat Dinner 4
## 3 39.4 7.58 Male No Sat Dinner 4
## 4 28.2 6.5 Female Yes Sat Dinner 3
## 5 34.8 5.2 Female No Sun Dinner 4
## 6 34.8 5.17 Female No Thur Lunch 4
Hinweis: Auf diese Art und Weise können auch Datensätze balanciert werden.158
158 Vgl. geschichtete Stichprobe: group_by() %>% sample_n()
14. Datenhandling
Spalten sortieren: arrange()
tips %>%
group_by(sex) %>%
top_n(n=3, tip) %>%
arrange(sex)
## total_bill tip sex smoker day time size
## <dbl> <dbl> <fct> <fct> <fct> <fct> <int>
## 1 34.8 5.2 Female No Sun Dinner 4
## 2 34.8 5.17 Female No Thur Lunch 4
## 3 28.2 6.5 Female Yes Sat Dinner 3
## 4 39.4 7.58 Male No Sat Dinner 4
## 5 50.8 10 Male Yes Sat Dinner 3
## 6 48.3 9 Male No Sat Dinner 4

14. Datenhandling
Verknüpfen von Daten
# ID (Zeilennummer, Schlüssel) erzeugen
tipsID <- tips %>%
dplyr::mutate(ID=row_number())
# Zwei (Teil-)Datensätze erzeugen

tips1 <- tipsID %>%
select(ID, total_bill)
tips2 <- tipsID %>%
select(ID, tip)
# Matche beide Tabellen, so dass nur Zeile von tip1 übrigbleiben,

# die eine korrespondiere Zeile in tips2 haben
tips1 %>%
inner_join(tips2, by = "ID") %>%
inspect()
##
## ...1 ID integer 1.00 61.7500 122.500 183.2500 244.00 122.500000
## ...3 tip numeric 1.00 2.0000 2.900 3.5625 10.00 2.998279
## sd n missing
## ...1 70.580923 244 0
## ...2 8.902412 244 0
## ...3 1.383638 244 0

14. Datenhandling
Offene Übung 184: Daten zusammenfassen
Berechnen Sie den Mittelwert und die Standardabweichung der relativen Trinkgeldhöhe,
je nachdem ob es sich um eine “Party” oder nicht gehandelt hat.

14. Datenhandling
Ergebnisse von mosaic-Befehlen als Tabelle ausgeben lassen
Häufig ist es sinnvoll, sich die Ergebnisse einer statistischen Analyse in Tabellenform159
ausgeben zu lassen. So erwartet z. B. die Diagrammbefehle gf_XXX160 eine Tabelle als
Eingabe. Die Funktion df_stats161 leistet das:
df_stats( tip ~ sex+smoker, data = tips, mean, sd)
## sex smoker mean_tip sd_tip

## 1 Female No 2.773519 1.128425
## 2 Male No 3.113402 1.489559
## 3 Female Yes 2.931515 1.219916
## 4 Male Yes 3.051167 1.500120
159 genauer:Als Dataframe

160 Paket ggformula
161 über mosaic geladen

14. Datenhandling
Ausblick: Tidy Data
Tidy data:162
I Jede Variable ist eine Spalte.
I Jede Beobachtung ist eine Zeile.
I Jeder Wert ist eine Zelle.
Herausforderungen:
I Breiter Datensatz: Eine Variable über mehrere Spalten.
I Langer Datensatz: Eine Beobachtung über mehrere Zeilen.
# Ggfs. einmalig installieren

install.packages("tidyr")
# Paket laden
library(tidyr)
162 Wickham, H. (2014). Tidy data. Journal of Statistical Software, 59(10), 1-23.
14. Datenhandling
Langer Datensatz über gather()
Überführt einen breiten Datensatz in einen langen:
tips_long <- tips %>%

dplyr::mutate(id = row_number()) %>%
dplyr::select(id, tip, total_bill) %>%
gather(key = "Variable", value = "Wert", -id)
str(tips_long)

## $ id : int 1 2 3 4 5 6 7 8 9 10 ...
## $ Variable: chr "tip" "tip" "tip" "tip" ...
## $ Wert : num 1.01 1.66 3.5 3.31 3.61 4.71 2 3.12 1.96 3.23 ...

14. Datenhandling
Breiter Datensatz über spread()
Überführt einen langen Datensatz in einen breiten:
tips_wide <- tips_long %>%

spread(key = "Variable", value="Wert")
str(tips_wide)

## $ id : int 1 2 3 4 5 6 7 8 9 10 ...
## $ tip : num 1.01 1.66 3.5 3.31 3.61 4.71 2 3.12 1.96 3.23 ...
## $ total_bill: num 17 10.3 21 23.7 24.6 ...

14. Datenhandling
Übung 185: Datenvorverarbeitung
Welcher Datensatz hat mehr Zeilen?

A. Ein langer.
B. Ein breiter.
C. Beide gleich.

15 Wahrscheinlichkeitsrechnung

15. Wahrscheinlichkeitsrechnung
Unsicherheit
Unsicherheit entsteht durch die Möglichkeit von Alternativen:

A. Wird es morgen regnen?
B. Wer wird nächste Saison Deutscher Fußballmeister?
C. Ist die Angeklagte schuldig?
D. Hilft Lernen beim Klausurerfolg?
E. Wann wurde Dschingis Khan geboren?
F. Wenn der Prager Fenstersturz nicht passiert wäre, wäre der 30jährige Krieg dann
vermieden worden?
G. Kann ich beim Mensch-ärgere-Dich-nicht Spiel mit dem nächsten Wurf
rauskommen?
Unsicherheit von Aussagen kann also die Vergangenheit, Gegenwart und Zukunft
betreffen. Teilweise (E) kann sie auch aus Unwissenheit entstehen.
Wo begegnet Ihnen Unsicherheit?

Zufallsexperiment
I Ein Zufallsexperiment ist ein Vorgang bei dem unter (scheinbar) gleichen
Voraussetzungen unterschiedliche Ereignisse eintreten können.
I Sei ωi (gr.: omega) ein einzelnes Elementarereignis (Realisation), z. B.
ωi =“Hannover 96” oder ωi =“Der DAX steigt morgen um 5 %”, oder ωi =“Die
Münze zeigt Kopf”.
I Ω (gr.: Omega) ist die Menge aller Elementarereignisse, z. B.
Ω = {("Die Münze zeigt Kopf"), ("Die Münze zeigt Zahl")}, oder für die Anzahl
Kunden Ω = N0 = {0, 1, 2, . . .}.
I Sei A ein Ereignis, welches aus mehreren Elementarereignissen zusammengesetzt
sein kann. z. B. Wurf eines Würfels mit Ω = {ω1 , ω2 , . . . ω6 } wobei ωi : “Würfel
zeigt i” und A = {ω2 , ω4 , ω6 }. Das gegenteilige Ergeignis (Komplement) ist dann
A C = {ω ⊂ Ω : ω ∈ / A}.
I W sei unser (Vor-)wissen, z. B. ein fairer, sechs seitiger Würfel.

Übung 186: Ereignis
Wie würden Sie das Ereignis AC zu A = {ω2 , ω4 , ω6 } beim Würfeln beschreiben?

A. Der Würfel zeigt eine gerade Zahl.
B. Der Würfel zeigt eine ungerade Zahl.

Notation von Ereignissen
I Ω ist das sichere Ereignis163 , ∅ ist das ausgeschlossene Ereignis.

I A ∪ B heißt A oder B (oder beides): A ∪ B = {w ∈ Ω : ω ∈ A ∨ ω ∈ B}164 .
I A ∩ B heißt A und B: A ∩ B = {w ∈ Ω : ω ∈ A ∧ ω ∈ B}165 .
I A und B heißen disjunkt, wenn A ∩ B = ∅ (leere Menge) gilt.
I Beispiel: A ∩ AC = ∅, A ∪ AC = Ω.
163 Irgendwaswird passieren. . .

164 Vereinigung, ∨: logisches oder.
165 Durchschnitt, ∧: logisches und.

Venn-Diagramm
Alle: Ω
65000
Katzenliebhaber*in: B
10000 10000 15000
Hundeliebhaber*in: A
I Es gibt 10000 Hunde- und Katzenliebhaber*innen: A ∩ B.

I Es gibt 35000 Hunde- oder Katzenliebhaber*innen: A ∪ B.
I Es gibt 30000, die weder Hunde- noch Katzenliebhaber*innen sind: ( A ∪ B)C .

Wahrscheinlichkeit
Die Wahrscheinlichkeit P eines Ereignisses ist ein Maß für die Unsicherheit:
P( A|W ) ∈ [0, 1], die Wahrscheinlichkeit von A, vor unserem Wissenshintergrund W.
Wenn W klar ist, wird es ggfs. nicht angegeben.
Für eine Wahrscheinlichkeit gelten folgende Axiome:
I 0 6 P( A|W ) 6 1.
I P(Ω|W ) = 1.
I P( A ∪ B|W ) = P( A|W ) + P( B|W ) wenn A ∩ B = ∅ gilt.

Übung 187: Teilmenge
Was gilt, wenn A eine Teilmenge von B ist, d. h., A ⊂ B166 ?

A. P( A|W ) 6 P( B|W )
B. P( A|W ) > P( B|W )
166 A ⊂ B: ∀ω ∈ A : ω ∈ B (∀: Für alle.)

Übung 188: Komplement
Stimmt die Aussage: P( AC |W ) = 1 − P( A|W )?

I Ja.
I Nein.

Übung 189: Interpretation Wahrscheinlichkeit
Welche Alternative beschreibt die Aussage “Die Regenwahrscheinlichkeit für Dortmund

liegt morgen bei 10 %” am Besten?
A. Es wird 10 % der Zeit in Dortmund regnen.
B. Es wird auf 10 % des Stadtgebietes von Dortmund regnen.
C. Bei einer Wetterlage und -prognose wie heute, hat es in 10 % der Fälle morgen
geregnet.

Cartoon: Wahrscheinlichkeit
“Na, das nenne ich mal eine 25 % Chance für gutes Wetter!”167
167 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift M. Huberty

Bedingte Wahrscheinlichkeit
I Die bedingte Wahrscheinlichkeit von A gegeben B, d. h., von A unter der

Bedingung B, ist die Wahrscheinlichkeit von A, wenn wir wissen, dass B
eingetreten ist:
P( A ∩ B|W )
P( A| B, W ) =
P( B|W )
I Umgestellt:
P( A ∩ B|W ) = P( A| B, W ) · P( B|W )
.
Sei W ein fairer, sechseitiger Würfel mit Ω = {ω1 , ω2 , . . . ω6 }: Mit B = {ω2 , ω4 , ω6 }
1
und A = {ω2 } gilt P( A| B, W ) = 6
1 = 1
3 Wenn der Würfel eine gerade Zahl zeigt, ist dies
2
in einem von drei Fällen eine 2.

Übung 190: Bedingte Wahrscheinlichkeit
Was gilt für die bedingte Wahrscheinlichkeit?

A. P( A| B, W ) 6 P( A|W )
B. P( A| B, W ) > P( A|W )
C. Keine pauschale Aussage möglich.

Unabhängigkeit
I Zwei Ereignisse sind unabhängig, wenn gilt:
P( A ∩ B|W ) = P( A|W ) · P( B|W )
I Wenn zwei Ereignisse unabhängig sind, gilt:
P( A| B, W ) = P( A|W ), P( B| A, W ) = P( B|W )
D. h., dadurch, dass ein Ereignis eingetreten ist, ändert sich nicht die
Wahrscheinlichkeit des anderen.168
168 Eine harte Forderung: Wenn in China ein Sack Reis umfällt. . .
Übung 191: Unabhängigkeit
Welche Ereignisse sind vermutlich unabhängig?

A. Wiederholtes Werfen einer fairen Münze.
B. Größe und Gewicht einer Person.
C. Lernen und Klausurerfolg.
D. Bildungsabschluss und Gehalt.

Cartoon: Unabhängigkeit
“Nachdem Sie am selben Tag das Lotto 6 aus 49 und den Eurojackpot gewannen gingen
Hans und Peter feiern.”169
169 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift Michael Albers

(Übersetzung / Anpassung KL)
Das Gesetz der großen Zahl
Wenn ein Zufallsexperiment beliebig oft wiederholt werden kann170 , dann nähert sich
die empirische Wahrscheinlichkeit171 der theoretischen Wahrscheinlichkeit172 an.
1.0
0.8
0.6 Wurf einer fairen MÃ¼nze
Anteil Kopf
0.4
0.2
0.0
0 100 200 300 400 500
WÃ¼rfe
170 z. B. beim (wiederholten) Glücksspiel

171 d. h. die relative Häufigkeit des Ereignisses
172 z. B. bestimmbar, wenn alle Elementarereignisse die gleiche Wahrscheinlichkeit haben

Übung 192: Ziegenproblem
Nehmen Sie an, Sie wären in einer Spielshow und hätten die Wahl zwischen drei
Toren. Hinter einem der Tore ist ein Auto, hinter den anderen sind Ziegen. Sie
wählen ein Tor, sagen wir, Tor Nummer 1, und der Showmaster, der weiß, was
hinter den Toren ist, öffnet ein anderes Tor, sagen wir, Nummer 3, hinter dem
eine Ziege steht. Er fragt Sie nun: “Möchten Sie das Tor Nummer 2?”" Ist es
von Vorteil, die Wahl des Tores zu ändern?173
A. Ja, wechseln erhöht die Gewinnwahrscheinlichkeit.

B. Nein, wechseln senkt die Gewinnwahrscheinlichkeit.
C. Es ist egal ob ich wechsel.
173 Craig F. Whitaker: Ask Marilyn. Parade Magazine, 9. September 1990, S. 16.
Totale Wahrscheinlichkeit
5 % der Bauteile von Lieferant “Gut und teuer” sind defekt, 20 % der Bauteile von
“Schnell und billig”. Sie bekommen 90 % der Bauteile von “Schnell und billig” (W). Wie
groß ist die Wahrscheinlichkeit, dass ein Bauteil defekt ist.
I Angenommen Sie bekommen 10000 Teile. Dann sind 9000 = 10000 · 0, 9 von
“Schnell und billig”, 1000 = 10000 · (1 − 0, 9) von “Gut und teuer”.
I Von den 9000 “Schnell und billig” sind 9000 · 0, 2 = 1800 defekt, von den 1000
“Gut und teuer” sind es 1000 · 0, 05 = 50. Macht zusammen 1800 + 50 = 1850 von
10000, also P(Defekt|W ) = 10000
1850 = 0, 185: Man kann also aus den bedingten
Einzelwahrscheinlichkeiten die Gesamtwahrscheinlichkeit berechnen: Satz von der

totalen Wahrscheinlichkeit174
P( A|W ) = P( A| B, W ) · P( B|W ) + P( A| BC , W ) · P( BC |W )
174 Funktioniert analog für mehrere Ereignisse Bi mit Ω = ∪i Bi mit Bi ∩ Bj = ∅∀i 6= j.

Übung 193: Totale Wahrscheinlichkeit
Wofür steht das A im Beispiel zur totalen Wahrscheinlichkeit?

A. Dafür, dass ein Bauteil von “Gut und teuer” kommt.
B. Dafür, dass ein Bauteil von “Schnell und billig” kommt.
C. Dafür, dass ein Bauteil defekt ist.
D. Dafür, dass ein Bauteil nicht defekt ist.

Übung 194: Gegenwahrscheinlichkeit
Wie groß ist im Beispiel P( AC |W )?

A. P( AC |W ) = 0, 8
B. P( AC |W ) = 0, 2
C. P( AC |W ) = 0, 05
D. P( AC |W ) = 0, 185
E. P( AC |W ) = 0, 815

Satz von Bayes
P( B| A, W ) · P( A|W )
P( A| B, W ) =
P( B|W )
I P( A| B, W ): Bedingte Wahrscheinlichkeit von A gegeben B.

I P( B| A, W ): Bedingte Wahrscheinlichkeit von B gegeben A.
I P( A|W ), P( B|W ): Unbedingte Wahrscheinlichkeit175 von A bzw. B.
Mit Hilfe des Satzes von Bayes können Sie die Bedingungen umkehren!
Tipp: Statt mit Wahrscheinlichkeiten absolute Häufigkeiten verwenden.
175 auch marginale Wahrscheinlickeit.

Spambeispiel (I/II)
I A: eine Spam-Email, AC : keine Spam-Email.

I B: das Wort “Viagra” in der Email, BC : das Wort “Viagra” nicht in der Email.
I P( B| A, W ) = 0, 5, d. h., 50 % der Spamemails enthalten das Wort “Viagra”,
P( B| AC , W ) = 0, 001, d. h. nur eine von 1000 Nicht-Spam Emails enthält das Wort
“Viagra”.
I P( A|W ) = 0, 2, d. h., die unbedingte Wahrscheinlichkeit für Spam liegt bei 20 % (A
priori).
I Gesucht: P( A| B, W ), d. h. die Wahrscheinlichkeit, dass es sich um Spam handelt,
wenn das Wort “Viagra” in der Email vorkommt (A posteriori).

Spambeispiel (II/II)
1. Bestimmung der Wahrscheinlichkeit, dass das Wort “Viagra” in einer Email ist:
Satz von der totalen Wahrscheinlichkeit:
P( B|W ) = P( B| A, W ) · P( A|W ) + P( B| AC , W ) · P( AC |W )
= 0, 5 · 0, 2 + 0, 001 · (1 − 0, 2)
= 0, 10008
2. Bestimmung der Wahrscheinlichkeit, dass es sich um eine Spam-Email handelt,

wenn das Wort “Viagra” in einer Email ist: Satz von Bayes:
P( B| A, W ) · P( A|W )
P( A| B, W ) =
P( B|W )
0, 5 · 0, 2
=
0, 10008
= 0, 9992006
Die Wahrscheinlichkeit, dass es sich bei der Email mit dem Wort “Viagra” um
Spam handelt liegt bei über 99,9%!
Übung 195: Satz von Bayes
Ein Test schlägt immer Alarm, wenn ein Fall, z. B. Krankheit, vorliegt, und es gibt nur
in 5 % der Fälle einen Fehlalarm. A priori ist einer von 1000 ein Fall, d. h. z. B. krank.
Wie hoch ist die Wahrscheinlichkeit, dass ein Fall, d. h. z. B. Krankheit, vorliegt, wenn
ein Alarm erfolgt?
A. ≈ 100%
B. ≈ 95%
C. ≈ 50%
D. ≈ 2%

Offene Übung 196: Risk Literacy
Bitte nehmen Sie an folgendem Test teil:

http://www.riskliteracy.org/

Sensitivität (True positive) und Spezifität (True negative)
I Sensitivität: Anteil der richtig positiven Testergebnisse, z. B. Krankheit korrekt

erkannt (True positive).176
I Spezifität: Anteil der richtig negativen Testergebnisse, z. B. Gesundheit korrekt
erkannt (True negative).177
I Prävalenz: Anteil der an einem Stichtag erkrankten Personen.
176 False positive sind diejenigen, die als krank diagnostiziert werden, es aber nicht sind.
177 False negative sind diejenigen, die als gesund diagnostiziert werden, es aber nicht sind.
Übung 197: Sensitivität
Was bedeutet die Aussage: “Der Test hat eine Sensitivität von 95 %”?
A. Von 100 Kranken werden 5 fälschlicherweise als gesund eingestuft.
B. Von 100 Gesunden werden 5 fälschlicherweise als krank eingestuft.

Odds und Odds Ratio
Angenommen in einem Kurs sitzen 100 Studierende, 90 arbeiten mit, 10 nicht. Von den
90, die mitarbeiten, bestehen 80 die Klausur, von den 10, die nicht mitarbeiten, 1.178
I Die Chance (engl. odds) die Klausur zu bestehen, wenn mitgearbeitet wird, liegt
bei 80 : 10 = 8
P( A| B, W )
Odds( A| B, W ) =
1 − P( A| B, W )
.
I Die Chance zu bestehen, wenn nicht mitarbeitet wird, liegt bei 1 : 9.
I Das Chancenverhältnis (Quotenverhältnis, engl. odds ratio, OR), liegt bei
8 : 19 = 72 - d. h. die Chance die Klausur zu bestehen ist 72 mal höher, wenn
mitgearbeitet wird als wenn nicht mitgearbeitet wird.
Odds( A| B, W ) P( A| B, W ) · (1 − P( A| BC , W )
OddsRatio = =
Odds( A| BC , W ) P( A| BC , W ) · (1 − P( A| B, W )
178 Rein fiktive Zahlen!

Odds Ratio aus Vierfeldertafel
Test positiv Test negativ Summe

Realität positiv n11 n12 n 1·
Realität negativ n21 n22 n 2·
Summe n ·1 n ·2 n
n11
n21
OddsRatio = n12
n22
I Sensitivität179 : nn11
1·
I Spezifität180 : nn22
2·
179 True positive rate, TPR

180 True negative rate, TNR
Offene Übung 198: Gesichtserkennung
Angenommen 1 % der Bevölkerung sind (schwere) Straftäter*innen. Eine
Gesichterkennungssoftware erkennt mit 70 % Genauigkeit
Straftäter*innen wieder, und nur in 1 % der Fälle wird jemand fälschlich verdächtigt181 .
Gehen Sie von einer Besucheranzahl von 100000 Personen aus. Füllen Sie bitte die
Vierfeldertafel.
Gesichtserkennung Gesichtserkennung
Alarm kein Alarm Summe
Straftäter*in n11 = n12 = n 1· =
kein(e) n21 = n22 = n 2· =

Straftäter*in
Summe n ·1 = n ·2 = n = 100000
181 https://www.bmi.bund.de/SharedDocs/kurzmeldungen/DE/2017/12/sicherheitsbahnhof-
verlaengerung.html
Offene Übung 199: Präzision Gesichtserkennung
Wie hoch ist der Anteil der richtig erkannten Straftäter*innen, d. h. wie viele der Alarme
sind berechtigt, d. h. a posteriori Wahrscheinlichkeit ein(e) Straftäter*in zu sein, wenn
ein Alarm vorliegt?

Offene Übung 200: Odds Ratio Gesichtserkennung
Wie ändert sich die Chance ein(e) Straftäter*in zu sein, wenn ein Alarm vorliegt?

16 Normalverteilung

16. Normalverteilung
10 Deutsche Mark

Zentraler Grenzwertsatz

Zentraler Grenzwertsatz
P
Verteilung der Summe X = in=1 Xi von unabhängigen, identisch verteilten
Zufallsvariablen Xi , i = 1, ...n einer beliebigen Verteilung jeweils mit Erwartungswert µ
und Standardabweichung
√
σ nähert sich für immer größere n immer besser der
N (nµ, σ n)-Verteilung an.
Dies ist eine Erklärung für die Bedeutung der Normalverteilung.

Zufallsvariable
I Eine Zufallsvariable X ist eine Variable, deren Wert x vom Zufall abhängt.
I Beobachtungen xi können aufgefasst werden als Realisationen von Zufallsvariablen
X.
I Die Verteilungsfunktion F( x) sagt, wie wahrscheinlich es ist, einen Wert 6 x zu
beobachten: F(x) = P(X 6 x), und damit 0 6 F(x) 6 1.
I Durch eine zufällige Stichprobe oder eine zufällige Zuordnung im Rahmen eines
Experimentes soll sichergestellt werden, dass die Beobachtungen xi , i = 1, . . . , n
unabhängig und identisch verteilt sind.

Normalverteilung
Die Punkte einer Klausur seien normalverteilt mit µ = 55 (Mittelwert der
Population / Erwartungswert) und σ = 15 (Standardabweichung Population).
Dichtefunktion
0.02
f(x)=F'(x)
0.01
0.00
25 50 75 100
Punkte
Verteilungsfunktion
1.00
0.75
F(x)=P(X ≤ x)
0.50
0.25
0.00
25 50 75 100
Punkte

Dichte- und Verteilungsfunktion der Normalverteilung
I Dichtefunktion:
1 ( x − µ )2
−
f ( x) = √ e 2σ2
2πσ2
I Verteilungsfunktion:
Zx ( u − µ )2
1 −
F( x) = √ e 2σ2 du
−∞ 2πσ2
Lage und Streuung:
R∞
I µ = E(X ) = −∞ x · f (x)dx: Mittelwert der Verteilung (Erwartungswert).
R∞
I σ2 = Var(X ) = −∞ ( x − µ)2 · f ( x)dx: Varianz der Verteilung.
Unter der Annahme einer Normalverteilung können abhängig von den Parametern µ und
σ Wahrscheinlichkeiten berechnet werden.

Parameter Normalverteilung
Dichtefunktion mit µ=10 und σ=5
0.15
f(x)=F'(x)
0.10
0.05
0.00
−10 0 10 20 30
x
Dichtefunktion mit µ=15 und σ=5
0.15
f(x)=F'(x)
0.10
0.05
0.00
−10 0 10 20 30
x
Dichtefunktion mit µ=15 und σ=2.5
0.15
f(x)=F'(x)
0.10
0.05
0.00
−10 0 10 20 30
x

Verteilungsfunktion
Angenommen, unter 45 Punkten, d. h., mit 44.5 Punkten oder weniger, fällt Mensch
leider durch, dann liegt die Durchfallwahrscheinlichkeit bei 0.24:
p = F ( x ) = P( X 6 x )
xpnorm(44.5, mean = 55, sd = 15)
0.03
z = −0.7
0.02
density
0.01
0.00
0 30 60 90 120
x
## [1] 0.2419637

Übung 201: Eigenschaften Verteilungsfunktion I
Stimmt die Aussage: Die Verteilungsfunktion ist monoton steigend, d. h., mit größerem
x wird F(x) zumindest nicht kleiner?
I Ja.
I Nein.

Übung 202: Eigenschaften Verteilungsfunktion II
Was gilt für x → ∞?

A. F(x) geht gegen 0.
B. F(x) geht gegen 1.
C. F(x) geht gegen Unendlich.
D. Kann nicht beantwortet werden.

Standardisierung, z-Transformation
z-Transformation, Standardisierung: Überführung einer beliebigen Verteilung in eine

mit µ = 0 und σ = 1:
x−µ
z=
σ
.182
zscore(c(0,1,2))
## [1] -1 0 1
zscore(c(100,200,300))
## [1] -1 0 1
182 Symbol für die Verteilungsfunktion einer Standardnormalverteilung: Φ(·).

Übung 203: z-Wert
Welche der Interpretationen von z = −2 ist falsch?

A. Der Wert ist unterdurchschnittlich.
B. Der Wert liegt 2 Standardabweichungen vom Mittelwert entfernt.
C. x183 ist kleiner als 0.
183 x = z·σ+µ
Übung 204: Verteilungsfunktion (I/II)
Ein Studierender hat 60 Punkte erreicht:
xpnorm(60, mean = 55, sd = 15)
0.03
z = 0.33
0.02
density
0.01
0.00
0 30 60 90 120
x
## [1] 0.6305587

Übung 204: Verteilungsfunktion (II/II)

A. ca. 37% der Population schneiden schlechter ab als er.
B. ca. 63% der Population schneiden besser ab als er.
C. Er ist 13 Standardabweichungen über dem Durchschnitt.
D. Keine der Antworten A–C stimmt.

68-95-99,7 % Regel
Bei einer Normalverteilung liegen ca.
I 68% der Werte im Bereich µ ± 1 · σ
I 95% der Werte im Bereich µ ± 2 · σ
I 99, 7% der Werte im Bereich µ ± 3 · σ.
xpnorm(c(-2,2)) # Standardnormalverteilung
0.4
0.3
probability
density
A:0.0228
0.2
B:0.9545
C:0.0228
0.1
0.0
−4 −2 0 2 4
## [1] 0.02275013 0.97724987

Übung 205: 68-95-99,7 % Regel
Die Daten seien normalverteilt mit µ = 100 und σ = 15. Ist dann x = 150 ein üblicher
Wert?
I Ja.
I Nein.

Offene Übung 206: Standardisierung
Welchen z-Wert184 hat ein Kandidat mit x = 130, wenn µ = 100 und σ = 15 ist?
184 standardisiert, z-transformiert

Quantilsfunktion
Man gehört zu den 10% besten185 ab 74 Punkten:
q = F−1 ( p)
xqnorm(0.9, mean = 55, sd = 15)
0.03
z = 1.28
0.02
density
0.01
0.00
0 30 60 90 120
x
## [1] 74.22327
185 90% sind nicht besser
Übung 207: Quantilsfunktion
Welche Aussage stimmt? (p: Wahrscheinlichkeit, dass q nicht überschritten wird)

A. Je kleiner p, desto kleiner q.
B. Je kleiner p, desto größer q.
C. p und q stehen in keinem Zusammenhang.

Übung 208: Quantil berechnen
Mit bis zu wie vielen Punkten zählt man zu dem oberen Drittel der Klausur?
A. xqnorm(1/3, mean = 55, sd = 15): 49 Punkte.
B. xqnorm(2/3, mean = 55, sd = 15): 61 Punkte.

Überprüfung Normalverteilungsannahme
Ein Q-Q Plot (gf_qq()) vergleicht die Quantile einer Verteilung z. B. mit den
theoretischen einer Normalverteilung. Bei einer guten Übereinstimmung liegen die
Punkte auf der Diagonalen.186
2
0.4
1
0.3
sample
density
0
0.2
−1
0.1
−2
0.0
−3 −2 −1 0 1 2 −3 −2 −1 0 1 2 3
xnorm theoretical
0.20
15
0.15
10
sample
density
0.10
0.05
0
0.00 −5
0 5 10 15 −3 −2 −1 0 1 2 3
xchi2 theoretical
186 Formale Überprüfung z. B. über Shapiro-Wilk Test (shapiro.test()).

Six Sigma
Ein Fertigungsprozess funktioniere zum sog. 3σ Niveau, d. h., die erlaubten

Abweichungen (Toleranz) sind innerhalb von 3 Standardabweichungen um den
Mittelwert:
x3 <- pnorm(-3)
Dann wird bei 1.000.000 = 106 Produkten ein Ausschuss von
(2*x3) * 1e06
## [1] 2699.796
erwartet.187
187 Innerhalb von Six Sigma wird zur Berechnung des erwarteten Fehleranteils (“DPMO”) zusätzlich
eine langfristige Mittelwertsberschiebung um 1.5σ berücksichtigt, die hier ignoriert wird.
Übung 209: Six Sigma
Wie viele Fehler pro Million werden erwartet, wenn der akzeptierte Bereich innerhalb
von 6σ liegt?188
A. ≈ 2700
B. ≈ 65
C. ≈1
D. < 0.1
188 Ohne Berücksichtigung der Mittelwertsverschiebung.

Übung 210: Score
Gabi und Klaus haben zwei verschiedene Tests geschrieben. Dabei hat Gabi bei Test A
(µ = 60, σ = 10) 75 Punkte erreicht, Klaus bei Test B (µ = 250, σ = 25) 275 Punkte.
Beide Tests sollen das Gleiche testen und die Testergebnisse seien normalverteilt. Wer
von beiden hat besser abgeschnitten?
A. Gabi
B. Klaus
C. Beide gleich gut.

Offene Übung 211: Value-at-Risk I/II
Zahlreiche Fonds (etwa viele sogenannte UCITS) müssen täglich einen Value-at-Risk
(VaR) berechnen. Die Europäische Wertpapier- und Marktaufsichtsbehörde (ESMA)
gibt hierzu in den Richtlinien 10/788 die folgende Erklärung:
“The VaR approach measures the maximum potential loss at a given confidence level
(probability) over a specific time period under normal market conditions. For example if
the VaR (1 day, 99%) of a UCITS equals $4 million, this means that, under normal
market conditions, the UCITS can be 99 % confident that a change in the value of its
portfolio would not result in a decrease of more than $4 million in 1 day.”

Offene Übung 211: Value-at-Risk II/II
1. Interpretieren Sie die Erklärung und das Beispiel der ESMA in Bezug auf den VaR.
2. Sie möchten den VaR für ihr Portfolio berechnen. Dieses bestehe aus 100 Aktien
der Firma Autokomplex mit einem momentanen Wert von je 46 Euro. Eine häufig
gemachte Annahme in der Finanzwelt ist, dass die 1-Tages-Verluste der Aktien
annähernd normalverteilt sind. Sie haben erfahren, dass die Standardabweichung
der 1-Tages Verluste 0,017 und der Erwartungswert 0 beträgt. Berechnen Sie den
1-Tages VaR mit 99 % Konfidenzlevel Ihres Portolios und interpretieren Sie den
Wert.
3. Wo sehen Sie allgemein Schwierigkeiten bei der Berechnung des VaR für
Portfolios/Fonds?

17 Organisatorisches

Literatur (Auswahl)
I David M. Diez, Christopher D. Barr, Mine Çetinkaya-Rundel (2014): Introductory

Statistics with Randomization and Simulation,
https://www.openintro.org/stat/textbook.php?stat_book=isrs
I Nicholas J. Horton, Randall Pruim, Daniel T. Kaplan (2018): Project MOSAIC
Little Books A Student’s Guide to R, https://github.com/ProjectMOSAIC/
LittleBooks/raw/master/StudentGuide/MOSAIC-StudentGuide.pdf
I Chester Ismay, Albert Y. Kim (2018): ModernDive – An Introduction to Statistical
and Data Sciences via R, http://moderndive.com/
I Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani (2013): An
Introduction to Statistical Learning – with Applications in R,
http://www-bcf.usc.edu/~gareth/ISL/

Lernergebnisse
Die Studierenden können nach erfolgreichem Abschluss des Moduls:

I die Grundlagen deskriptiver und induktiver Statistik erklären und anwenden,
I beurteilen, für welche Fragestellungen in Theorie und Praxis qualitative oder
quantitative Herangehensweisen geeignet sind,
I empirische Analysen konzipieren und vorbereiten,
I statistische Verfahren der quantitativen Datenanalyse anwenden,
I die Statistik-Software R zur Datenanalyse verwenden,
I selbständig ein passendes Forschungsdesign für wirtschaftswissenschaftliche
Fragestellungen auswählen.

Motivation: Statistik
Statistik begegnet uns beinahe täglich!
Fotos: Pixabay.com

Themen der Vorlesung


189 Induktion

Prüfungsleistung / Workload
Prüfung:
I Klausur 90 Minuten. Zur Vergabe von Credit Points muss die Klausur mit einer
mindestens ausreichenden Leistung bestanden werden.

Lizenz / Version
Diese Folien basieren auf Folien, die von Autor*innen der FOM https://www.fom.de/
unter der Lizenz CC-BY-SA-NC 3.0 de:
https://creativecommons.org/licenses/by-nc-sa/3.0/de/ entwickelt wurden.
Der verwendete Code sowie das Beamer Template basieren auf dem von Norman
Markgraf in dem NPBT-Projekt entwickelten unter der Lizenz GNU General Public
License v3.0 veröffentlichten Vorlagen.
I Datum erstellt: 2021-09-29
I R Version: 3.5.2
I mosaic Version: 1.5.0

Klausur
I Prüfungsrelevant ist der gesamte Stoff der Vorlesung. Für die

Wiederholungsprüfung gelten die gleichen Rahmendbedingungen wie für den
regulären Prüfungstermin.
I Lesen Sie sich erst die ganze Klausur in Ruhe durch und fangen Sie mit den
Aufgaben an, die Sie sicher können.
I Halten Sie sich nicht zu lange mit Aufgaben auf, die wenig Punkte bringen.
Viel Erfolg!

Statistik Trier Studierendenversion

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Statistik Trier Studierendenversion

Hochgeladen von

Copyright:

Verfügbare Formate

0.

4 Einführung R 13 Grundlagen Zeitreihenanalyse

5 Explorative Datenanalyse 14 Datenhandling

6 Explorative Datenanalyse mit R 15 Wahrscheinlichkeitsrechnung

7 Disparitäts- und 16 Normalverteilung

WiSe 21/22 Martin Vogt | Statistik 2

WiSe 21/22 Martin Vogt | Statistik 3

I David M. Diez, Christopher D. Barr, Mine Çetinkaya-Rundel (2014): Introductory

WiSe 21/22 Martin Vogt | Statistik 4

Die Studierenden können nach erfolgreichem Abschluss des Moduls:

WiSe 21/22 Martin Vogt | Statistik 5

Statistik begegnet uns beinahe täglich!

WiSe 21/22 Martin Vogt | Statistik 6

WiSe 21/22 Martin Vogt | Statistik 7

I Die deskriptive Statistik fasst Daten einer Stichprobe zusammen.

WiSe 21/22 Martin Vogt | Statistik 8

WiSe 21/22 Martin Vogt | Statistik 9

WiSe 21/22 Martin Vogt | Statistik 10

Prof. Dr. Martin Vogt

WiSe 21/22 Martin Vogt | Statistik 11

I Stellen Sie ein Namensschild auf.

WiSe 21/22 Martin Vogt | Statistik 12

Bleiben Sie dran!

WiSe 21/22 Martin Vogt | Statistik 13

Tipps von (fiktiven) Studierenden:

WiSe 21/22 Martin Vogt | Statistik 15

I Zahlreiche Wissenschaftler treten in Talk Shows auf (Virologen, Ethiker,. . . ).

WiSe 21/22 Martin Vogt | Statistik 16

Science is a particular way of knowing about the world. In science, explanations

8 Hier: Natur- und Sozialwissenschaften.

WiSe 21/22 Martin Vogt | Statistik 18

WiSe 21/22 Martin Vogt | Statistik 19

I Eine Theorie ist eine strukturierte Sammlung von Hypothesen.

WiSe 21/22 Martin Vogt | Statistik 20

Welche Theorien kennen Sie?

WiSe 21/22 Martin Vogt | Statistik 21

WiSe 21/22 Martin Vogt | Statistik 22

Generalisierung von in der Realität beobachteten Regelmäßigkeiten zu einer

WiSe 21/22 Martin Vogt | Statistik 23

I Induktion: Erschließen von allgemeinen Regeln aus dem Einzelfall

WiSe 21/22 Martin Vogt | Statistik 24

WiSe 21/22 Martin Vogt | Statistik 25

I Induktionsproblematik: Kann durch Induktion von Einzelbeobachtungen sicher

WiSe 21/22 Martin Vogt | Statistik 26

WiSe 21/22 Martin Vogt | Statistik 27

I Planung: Formulierung der Forschungsfrage: Forschungsidee,

WiSe 21/22 Martin Vogt | Statistik 28

An welcher Stelle des Forschungsprozesses ist Literaturrecherche besonders zentral?

WiSe 21/22 Martin Vogt | Statistik 29

Gütekriterien für Forschung:

WiSe 21/22 Martin Vogt | Statistik 30

Was ist ein unabdingbares Merkmal wissenschaftlichen Arbeitens?

WiSe 21/22 Martin Vogt | Statistik 31

WiSe 21/22 Martin Vogt | Statistik 32

WiSe 21/22 Martin Vogt | Statistik 33

WiSe 21/22 Martin Vogt | Statistik 34

11 Hand, D. J. (2016): Measurement: A Very Short Introduction, Oxford University Press.

12 Candace Schau: Survey of Attitudes Toward Statistics, SATS-36

Offene Frage: Was folgt daraus?

WiSe 21/22 Martin Vogt | Statistik 37

I Genauigkeit, d. h. Exaktheit einer Messung, z. B. “Umsatz hoch / niedrig” oder in

WiSe 21/22 Martin Vogt | Statistik 38

I hohe Varianz der Messergebnisse: geringe Reliabilität

WiSe 21/22 Martin Vogt | Statistik 39