Beruflich Dokumente
Kultur Dokumente
Statistik
Hochschule Trier – WiSe 21/22
Martin Vogt
Inhaltsverzeichnis
9 Inferenzstatistik
1 Organisatorisches
10 Inferenz kategorialer Daten
2 Wissenschaftliche Grundlagen
11 Inferenz numerischer Daten
3 Grundlagen Quantitativer
Datenanalyse 12 Lineare Regression
Fotos: Pixabay.com
Deskriptivstatistik Inferenzstatistik
1 Induktion
Prüfung:
I Klausur 90 Minuten. Zur Vergabe von Credit Points muss die Klausur mit einer
mindestens ausreichenden Leistung bestanden werden.
Diese Folien basieren auf Folien, die von Autor*innen der FOM https://www.fom.de/
unter der Lizenz CC-BY-SA-NC 3.0 de:
https://creativecommons.org/licenses/by-nc-sa/3.0/de/ entwickelt wurden.
Der verwendete Code sowie das Beamer Template basieren auf dem von Norman
Markgraf in dem NPBT-Projekt entwickelten unter der Lizenz GNU General Public
License v3.0 veröffentlichten Vorlagen.
I Datum erstellt: 2021-09-29
I R Version: 3.5.2
I mosaic Version: 1.5.0
2 Siehe z. B. Nguyen, K., & McDaniel, M. A. (2015). Using quizzing to assist student learning in the
classroom: the good, the bad, and the ugly. Teaching of Psychology, 42(1), 87-92.
3 Siehe z. B. Sana, F., Weston, T., & Cepeda, N. J. (2013). Laptop multitasking hinders classroom
learning for both users and nearby peers. Computers & Education, 62, 24-31.
4 Installationsanleitung hier
Optimizing learning in college: tips from cognitive psychology. Perspectives on Psychological Science,
11(5), 652-660.
WiSe 21/22 Martin Vogt | Statistik 14
2 Wissenschaftliche Grundlagen
Quelle: https://www.bosch-stiftung.de/de/news/hohe-wertschaetzung-fuer-
wissenschaftler-zeiten-von-corona
Law9 : A descriptive generalization about how some aspect of the natural world
behaves under stated circumstances.
Theory: In science, a well-substantiated explanation of some aspect of the nat-
uralworld that can incorporate facts, laws, inferences, and tested hypotheses.
Quelle: Science and Creationism: A View from the National Academy of Sciences,
Second Edition (1999)10
9 Hier: Modell.
10 https://doi.org/10.17226/6024
Stimmt die Aussage: Daten und deren Analyse sind ein zentraler Bestandteil natur- und
sozialwissenschaftlicher Argumentation?
I Ja.
I Nein.
Eine Hypothese ist eine aus der Theorie oder Beobachtung abgeleitete Aussage.
I Sie sind weniger umfangreich als Theorien.
I Sie stellen Vermutungen über einen Sachverhalt an.
I Sie ist eine provisorische Antwort auf ein wissenschaftliches Problem.
I Sie lassen sich überprüfen (sind also potentiell “falsifizierbar”, man kann zeigen,
dass sie falsch sind). Hypothesen sind (nach Karl Popper) nie
beweisbar/bestätigbar, man kann höchstens zeigen, dass sie falsch sind.
Kennzeichen einer wissenschaftlichen Hypothese:
I Sie ist eine allgemeingültige über den Einzelfall hinausgehende Behauptungen.
I Häufig: Formalstruktur eines Konditionalsatz, Implikation: wenn x (Antezedens),
dann y (Konsequenz).
I Induktion:
Ableitung von Aussagen aus anderen (allgemeineren) Aussagen mit Hilfe logischer
Regeln.
Häufig: Hypothesenprüfung.
Eine Dozentin hat mehrfach beobachtet, dass ihre Studierenden interessiert am Fach
Statistik sind. Nun schließt sie, dass alle Studierenden interessiert am Fach Statistik
sind. Welche Schlussart liegt vor?
A. Induktion.
B. Deduktion.
Hat sie die Aussage “alle Studierenden sind interessiert an Statistik” endgültig bewiesen?
A. Ja.
B. Nein.
C. Vielleicht.
Das Forschungsergebnis der Dozentin “Statistik weckt das Interesse der Studierenden”
kann nicht reproduziert werden. Welcher Aspekt wissenschaftlichen Arbeitens könnte
verletzt sein?
A. Nur Objektivität.
B. Nur interne Validität.
C. Nur externe Validität.
D. Alle in A – C genannten.
I Beim Messen wird einer Eigenschaft eines Objektes ein Wert zugewiesen. Dabei
sollte die Beziehung der Werte der Beziehung der Eigenschaften der Objekte
entsprechen. Pragmatisch: Definition des zu Messenden und gleichzeitig
Beschreibung des Messvorgangs.11
I Manifeste Variablen können direkt gemessen werden, z. B. Größe.
I Latente Variablen / Konstrukte können nicht direkt gemessen werden, sie
müssen erst operationalisiert werden, z. B. Intelligenz.
Bsp. Schwierigkeit beim Verständnis von Statistik. Multi-Item Likert-Skala: Auf einer
Skala von 1 (trifft überhaupt nicht zu) über 4 (weder zutreffend, noch unzutreffend) bis
7 (trifft voll und ganz zu) werden folgende Aussagen bewertet:12
I Statistische Formeln sind leicht zu verstehen.
I Statistik ist ein kompliziertes Fach.*
I Statistik ist ein Fach, das die meisten Menschen schnell lernen.
I Das Lernen von Statistik erfordert sehr viel Disziplin.*
I Statistik beinhaltet sehr umfangreiche Rechnungen.*
I Statistik ist eine sehr technische Materie.*
I Die meisten Menschen müssen lernen anders zu denken, um Statistik anwenden zu
können.*
Die Items mit Sternchen * sind sogenannte inverse Items, bei denen die Zustimmung
eine höhere Schwierigkeit im Umgang mit Statistik bedeutet.
Stimmt die Aussage: Das “Interesse der Studierenden” ist eine latente Variable?
I Ja.
I Nein.
Varianz Verzerrung
Welches Kriterium ist verletzt, wenn die Dozentin statt “Interesse der Studierenden”
“Angst vor der Klausur” gemessen hat?
A. Genauigkeit.
B. Objektivität.
C. Reliabilität.
D. Validität.
Am 15.9. sei es in Dortmund 20 °C, am 15.3. 10 °C. Stimmt die Aussage: Am 15.9. war
es in Dortmund doppelt so warm wie am 15.3.?
I Ja.
I Nein.
Weitere Unterscheidung:
I stetig: beliebige Zwischenwerte im Intervall sind möglich, bspw. Größe.
I diskret: höchstens abzählbar viele Werte sind möglich, bspw. Anzahl Kinder.
13 Auch Ratioskala
WiSe 21/22 Martin Vogt | Statistik 43
3. Grundlagen Quantitativer Datenanalyse
Übung 11: Skalenniveau (I / II)
I Zeilen: Beobachtungen
I Spalten: Variablen
I Merkmal: Eigenschaft, die untersucht wird: z. B. Geschlecht
I Merkmalsträger: Objekte, die untersucht werden, z. B. Ahmet
I Merkmalsausprägung: Werte, die das Merkmal annehmen kann, z. B. 180
I Abhängige Variable (endogen, erklärt, AV): Wert hängt von der / den
unabhängige(n) Variable ab (“y”).
I Unabhängige Variable (exogen, erklärend, UV): Wert hängt von keiner anderen
Variable ab (“x”).
I Kovariablen/ Störvariablen: Variablen, deren Wert ebenfalls auf die abhängige
Variable einwirkt und / oder den Zusammenhang zwischen unabhängigen und
abhängigen Variablen beeinflusst (“z”).15
Hinweis: x steht in Zusammenhang mit y heißt nicht zwangsläufig, dass x kausal
(ursächlich) für y sein muss!
I in der Mathematik: y = f ( x). Für ein x genau ein y.
I in der Statistik / in R: y ∼ x. Für ein x sind mehrere y möglich: x wird zur
Modellierung von y verwendet.
Admitted Rejected
Male
Gender
Female
Admit
Höherer Frauenanteil bei den Nicht-Zugelassenen als bei den Zugelassenen, vgl. Höhe
der Rechtecke: Diskriminierung?
16 Bickel,
P. J., Hammel, E. A., and O’Connell, J. W. (1975). Sex bias in graduate admissions: Data
from Berkeley. Science, 187, 398–403. https://doi.org/10.1126/science.187.4175.398
WiSe 21/22 Martin Vogt | Statistik 50
3. Grundlagen Quantitativer Datenanalyse
Simpson-Paradoxon (II / II)
Zulassungen an der UC Berkeley
Department A Department B Department C
Admitted Rejected Admitted Rejected Admitted Rejected
Male
Male
Sex
Sex
Sex
Male
Female
Female
Female
Admit Admit Admit
Male
Male
Male
Sex
Sex
Sex
Female
Female
Female
Je nach Department17 mal mehr mal weniger Frauen bei den Nicht-Zugelassenen als bei
den Zugelassenen. Aber Frauen haben sich mehr für Fächer beworben, in denen der
Anteil der Zugelassenen geringer war, vgl. Breite der Rechtecke.
17 Kovariable!
Die Dozentin stellt fest, dass die Motivation der Studierenden mit der Uhrzeit
zusammenhängt, und zwar unterschiedlich für Frauen und Männer. Welche Aussage
stimmt?
A. Es gibt eine abhängige Variable (Motivation), eine unabhängige Variable (Uhrzeit)
und eine Kovariable (Geschlecht).
B. Es gibt eine abhängige Variable (Uhrzeit), eine unabhängige Variable (Motivation)
und eine Kovariable (Geschlecht).
C. Es gibt zwei abhängige Variable (Motivation und Geschlecht) und eine unabhängige
Variable (Uhrzeit).
D. Es gibt eine abhängige Variable (Geschlecht) und zwei unabhängige Variablen
(Motivation und Uhrzeit).
I Population: die Menge, über die eine Aussage getroffen werden soll: die ganze
Suppe im Suppentopf.
I Stichprobe: Teilmenge der Population, die zur Analyse ausgewählt wurde: der
Löffel voll Suppe.
I Stichprobenverfahren: der Prozess, mit dem die Teilmenge ausgewählt wurde.
Z. B. zufällig: der Auswahlprozess, wo und wie der Löffel aus dem Suppentopf
gefüllt wurde.
I Repräsentative Stichprobe: Ist die Verteilung der Eigenschaften der Stichprobe
ähnlich der in der Population? Wenn der Löffel anders schmeckt als die Suppe, war
der Löffel nicht repräsentativ.
I Bias / Verzerrung: Ein Teil der Population wird bevorzugt: nur Fleischbällchen auf
dem Löffel.
I Generalisierbarkeit: Inwieweit kann von der Stichprobe auf die Grundgesamtheit
geschlossen werden? Wenn wir gut umgerührt haben, sollten die Verteilung der
Gewürze etc. auf dem Löffel ähnlich der im Topf sein und wir können vom Löffel
auf den Topf schließen.
19 symbolisiert
häufig durch griechische Buchstaben: µ, . . .
20 symbolisiert
häufig durch lateinische Buchstaben: x̄, . . .
21 Formal: Beobachtung x ist Realisation einer Zufallsvariable X.
Kann die Dozentin von den Studierenden, die die Vorlesung besuchen22 , unverzerrt auf
das Interesse aller Studierenden schließen, die für die Vorlesung angemeldet sind23 ?
I Ja.
I Nein.
22 Stichprobe
23 Population
3
2
1
3
2
1
3
2
1
Die Dozentin stellt fest, dass die Motivation der Studierenden mit der Uhrzeit
zusammenhängt, und zwar unterschiedlich für Frauen und Männer. Welche Aussage
stimmt?
A. Es handelt sich um eine Beobachtungsstudie.
B. Es handelt sich um ein randomisiertes Experiment.
Warum ist die interne Validität bei einem randomisierten Experiment höher als z. B. bei
Beobachtungsstudien?
1. Think: Überlegen Sie für sich.
2. Pair: Teilen Sie Ihr Ergebnis mit der Nachbar*in.
3. Share: Stellen Sie Ihr Ergebnis im Plenum vor.
“Mal sehen, was das Rad der nicht-ursächlichen Beziehungen diesmal als stärksten
Prädiktor für die Krankheit X ausgibt.”27
27 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift M. Posner
WiSe 21/22 Martin Vogt | Statistik 68
3. Grundlagen Quantitativer Datenanalyse
Datenschutz
I α: alpha, i. d. R. Symbol für das Signifikanzniveau eines Tests, auch Zeichen für
Fehler 1. Art.
I β: beta, i. d. R. Symbol für Regressionskoeffizienten, auch Zeichen für Fehler 2. Art.
I δ: delta, i. d. R. Symbol für allgemeine zusammenfassende Statistik (Kennzahl).
I e: epsilon, i. d. R. Symbol für Residuum.
I µ: my, i. d. R. Symbol für den Populationsmittelwert.
I σ: sigma, i. d. R. Symbol für die Populationsstandardabweichung.
I π: pi, i. d. R. Symbol für den Populationsanteil.
I χ: chi, i. d. R. Symbol für zusammenfassende Statistik im χ2 -Test.
Geben Sie bitte für die folgenden Merkmale das jeweilige Skalenniveau und mögliche
Merkmalsausprägungen an. Unterscheiden Sie die Merkmale ferner in diskrete und
stetige und diskutieren Sie dabei Probleme der Messgenauigkeit.
1. Gewicht
2. Akademischer Grad (Hochschulabschluss).
3. Jahreszahlen.
4. Anzahl Regentage pro Jahr
5. Transportmittel
Anfang des Jahres 2014 stand der ADAC in der Kritik Statistiken manipuliert zu haben.
Dabei wurde bei der Wahl des Lieblingsautos der Deutschen getäuscht. Die Anzahl der
abgegebenen Stimmen bei der Wahl zum Autopreis Gelber Engel wurde vom ADAC
wesentlich höher angegeben, als tatsächlich Stimmen abgegeben wurden.
Denken Sie im Zusammenhang mit der Manipulation des ADAC über das folgenden
Zitat von Walter Krämer (Statistiker) nach:
Jede Statistik, die von einer interessierten Seite selbst erstellt und verbreitet
wird, ist bis zum Beweis des Gegenteils als manipuliert zu betrachten.28
“Auch wenn die Zeit für das ‘Einsetzen von Zahlen in Formeln’ und das ’Abbildungen
zeichnen per Hand‘ gekommen ist: die Ideen und Konzepte leben weiter – in unseren
Computerprogrammen.”29
29 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift K. Lübke
WiSe 21/22 Martin Vogt | Statistik 77
4. Einführung R
Warum R?
[. . . ] she was also following a wider trend: for many academics [. . . ] R is the
data-analysis tool of choice.30
30 Tippmann, S.. Programming tools (2015): Adventures with R. A guide to the popular, free
statistics and visualization software that gives scientists control of their own data analysis. Nature, 517,
S. 109–110. https://doi.org/10.1038%2F517109a
WiSe 21/22 Martin Vogt | Statistik 78
4. Einführung R
Vorteile R
31 Siehe z. B. https://cran.r-project.org/web/views/
WiSe 21/22 Martin Vogt | Statistik 79
4. Einführung R
Übung 22: R in der Wissenschaft
I Statistik ist das Auto, mit dem der Weg von der Forschungsfrage zur vorläufigen
Antwort bestritten werden kann.
I R ist ein Motor, der das Auto antreiben kann.
I Rstudio Desktop ist das Cockpit, mit dem der Motor gesteuert werden kann.
I mosaic ist eine Zusatzausstattung, um die Motorsteuerung zu vereinfachen.
1. R (https://www.r-project.org/)
2. RStudio Desktop (https://www.rstudio.com/)
3. Installation von Zusatzpaketen in RStudio:
install.packages("mosaic")
Ich glaube, dass die Fähigkeit zum Programmieren eine der Basisfähigkeiten
von jungen Menschen wird, neben Lesen, Schreiben, Rechnen. Die werden nicht
wegfallen. Aber Programmieren wird nochmal dazu kommen.32
Der Prozess, eine komplexe Aufgabe auf eine Reihe einfacher Anweisungen zu
reduzieren - genau darum geht es beim Programmieren -, ist eine Fähigkeit, die
in vielen Aspekten des modernen Lebens nützlich ist, nicht nur für professionelle
Informatiker und Programmierer.33
In the past few years, the startling realization that many modern scientific find-
ings cannot be replicated has been highlighted [. . . ]. Many factors have been
identified, including publication bias, reporting bias, conflicts of interest, and in-
sufficient statistical power. This last factor can be remedied by encouraging the
replication of studies and then conducting subsequent meta-analyses. In order
for a scientific study to be replicated, however, the method of statistical analysis
must be entirely reproducible. Teaching reproducible analysis in an introductory
statistics course not only makes students aware of these issues, but also paves
the way toward making them valuable contributors to modern data analysis.
These future contributions could be made as part of academic research or for a
data-centric enterprise that needs to conduct daily analysis on new data.35
Don’t fence off students from the computation pool, throw them in! Computing
skills are essential to working with data in the 21st century. Given this fact,
we feel that to shield students from computing is to ultimately do them a
disservice.36
install.packages("mosaic")
library(mosaic)
data(Alcohol)
?Alcohol
Daten betrachten:
View(Alcohol)
WiSe 21/22 Martin Vogt | Statistik 92
4. Einführung R
Datenvorverarbeitung
Häufig müssen Daten vor der eigentlichen Analyse vorverarbeitet werden, z. B.:
I Variablen auswählen: select()
I Beobachtungen auswählen: filter()
I Variablen verändern, neu erzeugen: mutate()
I ...
Das Paket dplyr37 bietet dazu viele Möglichkeiten. Mehr dazu im Abschnitt
Datenhandling.
View(Alcohol.Ger)
View(Alcohol.2008)
View(Alcohol.2008.sort)
View(Alcohol.2008.rang)
Alcohol.2008.rang %>%
filter(country == "Germany")
Ist Deutschland in der Stichprobe in dem Jahr das Land mit dem 160. geringsten oder
höchsten Alkoholkonsum?
A. Geringsten.
B. Höchsten.
str(Alcohol)
Ein Datensatz (data.frame) kann aus mehreren Variablen (Spalten) mit gleicher
Anzahl Beobachtungen (Zeilen) bestehen. Für Variablen gibt es verschiedene Typen,
u. a.:
I Zeichenketten (character) und Faktoren (factor)38 .
I Gleitkommazahlen (numeric bzw. double) und Ganze Zahlen (integer).
38 Faktoren
sind Zeichenketten, die eine definierte Menge an Werten (Ausprägungen, levels)
annehmen können.
WiSe 21/22 Martin Vogt | Statistik 99
4. Einführung R
Übung 24: Variablentyp
Was gibt R jeweils nach folgenden Zeilen aus? Überprüfen Sie Ihre Antwort in R.
Studenten[1, 3]
Studenten[1:3, c(1, 4)]
Studenten[2, ]
Studenten[, 4]
Studenten$Note
Studenten[, 3:5]
Studenten[note < 2.5, ]
I Erzeugen Sie einen Data Frame der folgenden 7 Kinder gemäß der Datentabelle
I Generieren Sie in R einen Data Frame des Alters und des Taschengeldes aller
Kinder mit höchstens 7 Jahren.
I Berechnen Sie in R die Summe des Taschengelds aller Fahrradbesitzer.
I Mit welchem Verkehrsmittel sind Sie heute zur Hochschule gekommen? (Auto,
ÖPNV, Fahrrad, zu Fuß)
I Sind Sie in einer Fahrgemeinschaft gekommen? (Ja / Nein)
I Wie weit war heute Ihr Weg? (km)
I Wie lange haben Sie gebraucht? (min)
39 bei kategorialen oder metrisch diskreten Merkmalen ggfs. verwackeln (engl.: jitter)
40 siehe z. B. Regel 20 von https://robjhyndman.com/hyndsight/graphics/
WiSe 21/22 Martin Vogt | Statistik 108
5. Explorative Datenanalyse
Visualisierung (Tipps)
Länge und Breite des Kelch- und Blütenblattes von drei verschiedenen
Schwertlilienarten.41
50
40
30
count
20
10
tos
a lor ica
se rsico gin
ve vir
Species
30
Percent of Total
20
10
4 5 6 7 8
Sepal.Length
Bei ungleichen Intervallbreiten wird auf der Y-Achse die Dichte, der Quotient aus
Häufigkeit und Klassenbreite, angezeigt.
WiSe 21/22 Martin Vogt | Statistik 112
5. Explorative Datenanalyse
Übung 27: Histogramm
30
Percent of Total
20
10
4 5 6 7 8
Sepal.Length
Wie lange brauchen Studierende zur Hochschule? Skizzieren Sie das Histogramm.
Bestimmen Sie den Anteil derjenigen, die maximal 30min. zum Studienzentrum
brauchen.
Die Verteilung gibt an, wie häufig bzw. wahrscheinlich bestimmte Werte oder
Wertebereiche sind.
Für numerische Variablen:
I Schiefe: Bei rechtsschiefen (linkssteilen) Verteilungen sind mehr Werte im
unteren Wertebereich, bei linksschiefen (rechtssteilen) im oberen.
I Bei symmetrische Verteilungen verteilen sich die Daten symmetrisch um eine
zentrale Lage.
I Bei mehrgipfligen Verteilungen gibt es mehr als nur ein Zentrum, um das die
Werte streuen.
−4 −2 0 2 4
0.8
0.6
0.4
0.2
0.0
Density
0.8
0.6
0.4
0.2
0.0
−4 −2 0 2 4 −4 −2 0 2 4
x
WiSe 21/22 Martin Vogt | Statistik 116
5. Explorative Datenanalyse
Übung 29: Verteilungsform
Anzahl Beobachtungen 6 x
Fn (x) =
n
10 facher Münzwurf
0.25
0.20
Relative Häuigkeit
0.15
0.10
0.05
0.00
0.0 2.5 5.0 7.5 10.0
Anzahl Kopf
1.00
0.75
Verteilungsfunktion
0.50
0.25
0.00
0 4 8 12
Anzahl Kopf
42 Neben der empirischen Verteilungsfunktion gibt es auch eine theoretische Verteilungsfunktion F(x).
WiSe 21/22 Martin Vogt | Statistik 118
5. Explorative Datenanalyse
Übung 30: Verteilungsfunktion
Bei einem 10 fachen Münzwurf gilt für die Anzahl Kopf: F(8) = 0.9892578. Welche
Aussage stimmt?
A. Die relative Häufigkeit bei 10 Würfen 8 mal Kopf zu werfen liegt bei 0.9892578.
B. Die relative Häufigkeit bei 10 Würfen mehr als 8 mal Kopf zu werfen liegt bei
0.9892578.
C. Die relative Häufigkeit bei 10 Würfen höchstens 8 mal Kopf zu werfen liegt bei
0.9892578.
Wann war Ihr erster Kuss? Skizzieren Sie die Verteilungsfunktion. Bestimmen Sie den
Anteil derjenigen, die Ihren ersten Kuss vor dem 16. Geburtstag erhalten haben.
Visualisiert die gemeinsame Verteilung von zwei kategorialen Variablen. Dabei entspricht
die Höhe und Breite der Rechtecke der jeweiligen relativen Häufigkeit.
Yes
Class
No
Survived
Yes
Class
Stimmt die Aussage: Der Anteil der Überlebenden ist in der 1. Klasse größer als in den
unteren Klassen?
I Ja.
I Nein.
4.5
4.0
3.5
Sepal.Width
3.0
2.5
2.0
5 6 7 8
Sepal.Length
CO2−Konzentration
360
350
340
co2
330
320
Zeit
Mit welchem Verfahren kann die Verteilung des Merkmals Stundenlohn sinnvoll
visualisiert werden?
A. Balkendiagramm.
B. Histogramm.
C. Streudiagramm.
Stimmt die Aussage: Die Berechnung des arithmetischen Mittelwertes ist bei nominalen
Merkmalen nicht sinnvoll?
I Ja.
I Nein.
Daten: 20; 18; 24; 40; 24; 22; 21; 23; 20; 28 (n = 10)
I Minimum, Maximum, Modus: xmin = 18, xmax = 40, xmod = {20; 24}
I Median: 18; 20; 20; 21; 22;
| {z23} ; 24; 24; 28; 40
x0,5 = 22+23
2 =22,5
I Arithmetischer Mittelwert: x̄ = 10 1 (20 + 18 + 24 + · · · + 28) = 240 = 24
10
I 45
25%-Quantil: x0,25 = 20
Stimmt die Aussage: Der Median ist das 50 % Quantil einer Verteilung?
I Ja.
I Nein.
46 ZurEinschätzung ob die Abweichung groß oder klein ist wird die Streuung (s. u.) der Daten
herangezogen.
WiSe 21/22 Martin Vogt | Statistik 133
5. Explorative Datenanalyse
Arithmetischer Mittelwert und Median
3
Note
MW = 2.33
1 2 3 4
ID der Studierenden
X
n X
n X
n
( xi − x̄) = xi − x̄ = n · x̄ − n · x̄ = 0
i=1 i=1 i=1
0.30
0.25
Density
0.20
0.15
0.10
0.05
0.00
−10 −5 0
0.4
Density
0.3
0.2
0.1
0.0
−2 0 2
0.20
Density
0.15
0.10
0.05
0.00
0 5 10 15
47 1/ nist nicht falsch, 1/(n − 1) ist aus Gründen, die außerhalb dieser Vorlesung liegen, besser, wenn
von einer Stichprobe verallgemeinert werden soll. Der Unterschied ist bei großem n klein.
WiSe 21/22 Martin Vogt | Statistik 138
5. Explorative Datenanalyse
Beispielrechnung Streuungsmaße
Daten: 20; 18; 24; 40; 24; 22; 21; 23; 20; 28, n = 10, x̄ = 24
Varianz: s2 = 101−1 (20 − 24√)2 + (18 − 24)2 + . . . + (28 − 24)2 ) = 354
I 9 ≈ 39, 33
I Standardabweichung: sd = 39, 33 = 6, 27
I Interquartilsabstand:48 IQR = 24 − 20 = 4
I Spannweite: 40 − 18 = 22.
4
Note
MW = 2.33
1 2 3 4
Nummer der Studierenden
Während Klaus sehr regelmäßig einkauft (kleine Streuung), kauft Gabi zwar genau so
oft, aber unregelmäßiger ein:
Klaus
Personen
Gabi
0 50 100 150
Zeitpunkte
Beide waren seit 30 Tagen nicht mehr einkaufen: Aufgrund der größeren Streuung der
Kaufintervalle ist dies bei Gabi üblicher als bei Klaus.
Wieviele Stunden haben Sie heute Nacht geschlafen haben (5 Studierende befragen).
Berechnen Sie arithmetischen Mittelwert, Median und Standardabweichung.49
0.4
Density
0.3
0.2
0.1
0.0
−4 −2 0 2 4
0.20
0.15
Density
0.10
0.05
0.00
−4 −2 0 2 4
0.08
Density
0.06
0.04
0.02
0.00
−4 −2 0 2 4
Visualisiert die Verteilung von deskriptiven Kennzahlen und mögliche Ausreißer einer
numerischen Variable.
Sepal.Width
I Die untere Linie der Box ist das untere Quartil (Q1).
I Die obere Linie der Box ist das obere Quartil (Q3).
I Der Punkt in der Box (häufig auch eine Linie) ist der Median.
I Sollten Punkte außerhalb der Antennen sein, sind dies mögliche Ausreißer.
Maximale Reichweite der Antennen: Bis zu der Beobachtung, die maximal
1,5 · IQR vom oberen bzw. unteren Quartil entfernt liegt. Sollte das Maximum
bzw. das Minimum der Daten kleiner bzw. größer sein, wird dies genommen.50
0 5 10
51 Alternative: Spearman.
52 Scheinkorrelation, siehe z. B. http://www.tylervigen.com/spurious-correlations
WiSe 21/22 Martin Vogt | Statistik 150
5. Explorative Datenanalyse
Beispiele Kovariation
I Lagemaße: x̄ = 120 35
5 = 24; ȳ = 5 = 7
I Streuungsmaße:
√ √
s2x = 62
4 = 15,5; s 2 = 14 = 3,5;
y 4 s x = 15,5 = 3,94; s y = 3,5 = 1,87
I Kovarianz: s xy = 28 4 =7
I Korrelation: r = 3,947·1,87 = 0, 9553
−1 −0.9 −0.75
−0.3 0 0.3
0.75 0.9 1
y
1
−2 −1 0 1 2
Anscombe Daten
5 10 15
3 4
12
10
1 2
y
12
10
5 10 15
Die Verteilung von x und y unterscheidet sich sichtbar. Aber die deskriptiven Kennzahlen
I x̄ = 9; ȳ = 7,5
I sd x ≈ 3,31; sdy ≈ 2,03
I r ≈ 0,82
“Ich weiß, dass Datenvisualisierung ein heißes Thema ist, aber gehst Du hier nicht ein
wenig zu weit?”55
55 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift B. Osyk
WiSe 21/22 Martin Vogt | Statistik 159
5. Explorative Datenanalyse
Offene Übung 45: Miete
Lebenswerartung Männer
Land (Jahre) BSP ($) je Einwohner
Afghanistan 43,12 208
Brasilien 68,02 3454
Deutschland 75,81 36233
Indien 63,90 749
Italien 76,88 28940
Namibia 44,46 2464
Singapur 79,13 25876
Thailand 69,95 2975
USA 75,02 48437
Lebenswerartung Männer
Land (Jahre) BSP ($) je Einwohner
Afghanistan 43,12 208
Brasilien 68,02 3454
Deutschland 75,81 36233
Indien 63,90 749
Italien 76,88 28940
Namibia 44,46 2464
Singapur 79,13 25876
Thailand 69,95 2975
USA 75,02 48437
1. Suchen Sie im Internet KIIDs für verschiedene Fonds und machen Sie sich ein Bild
des jeweiligen SRRIs.
2. Erläutern Sie die Grundidee der Formel zur Berechnung des SRRIs.
3. Wo sehen Sie Schwierigkeiten bei der Berechnung und Interpretation?
# Herunterladen
download.file("https://goo.gl/whKjnl", destfile = "tips.csv")
# Einlesen in R
tips <- read.csv2("tips.csv")
Tipp: Über den Befehl getwd() wird das aktuelle Verzeichnis ausgegeben.
57 Bryant,
P. G. and Smith, M (1995) Practical Data Analysis: Case Studies in Business Statistics.
Homewood, IL: Richard D. Irwin Publishing
WiSe 21/22 Martin Vogt | Statistik 167
6. Explorative Datenanalyse mit R
csv Datei
Dateiaufbau tips.csv58 :
I Erste Zeile: Variablennamen59
I Datenfeldtrennzeichen der Variablen: ; (Semikolon)
I Dezimaltrennzeichen: , (Komma)
I Textkennzeichen: "(Anführungszeichen)
Hinweis: Der Einlesebefehl in R hängt vom Dateiformat der Datei ab. Siehe z. B.
?read.table oder Paket readr.
58 Eine solche csv Datei kann z. B. durch Export aus Tabellenkalkulationsprogrammen erzeugt
werden.
59 Tipp: Mit Buchstaben beginnen, keine Leer- oder Sonderzeichen, Umlaute vermeiden.
Ein Kellner sammelte über mehrere Monate Daten über sein Trinkgeld:
I total_bill: Rechnungshöhe in Dollar
I tip: Trinkgeld in Dollar
I sex: Geschlecht des Rechnungszahlenden
I smoker: Gab es Raucher*innen am Tisch?
I day: Wochentag
I time: Tageszeit / Mahlzeit
I size: Anzahl Personen am Tisch
inspect(tips)
##
## categorical variables:
## name class levels n missing distribution
## 1 sex factor 2 244 0 Male (64.3%), Female (35.7%)
## 2 smoker factor 2 244 0 No (61.9%), Yes (38.1%)
## 3 day factor 4 244 0 Sat (35.7%), Sun (31.1%), Thur (25.4%) ...
## 4 time factor 2 244 0 Dinner (72.1%), Lunch (27.9%)
##
## quantitative variables:
## name class min Q1 median Q3 max mean sd n missing
## 1 total_bill numeric 3.07 13.3475 17.795 24.1275 50.81 19.785943 8.9024120 244 0
## 2 tip numeric 1.00 2.0000 2.900 3.5625 10.00 2.998279 1.3836382 244 0
## 3 size integer 1.00 2.0000 2.000 3.0000 6.00 2.569672 0.9510998 244 0
Was vermuten Sie: Um welche Form der Datenerhebung handelt es sich hier?
A. Beobachtungsstudie.
B. Experiment.
Was folgt daraus?
I bargraph(): Balkendiagramm
I histogram(): Histogramm
I bwplot(): Boxplot
I xyplot(): Streudiagramm
I mosaicplot(): Mosaikplot
150
100
count
50
m ale Ma
le
Fe
sex
150
100
count
50
le le
ma Ma
Fe
sex
## prop_Female
## 0.3565574
## sex
## Female Male
## 87 157
hi
Relative Häufigkeit f i = n:
## sex
## Female Male
## 0.3565574 0.6434426
WiSe 21/22 Martin Vogt | Statistik 180
6. Explorative Datenanalyse mit R
Gruppiertes Balkendiagramm
Dinner Lunch
100
count
50
male Ma
le
ma
le
Ma
le
Fe Fe
sex
Dinner Lunch
100
count
50
le le le le
ma Ma ma Ma
Fe Fe
sex
## time
## sex Dinner Lunch
## Female 52 35
## Male 124 33
## time
## sex Dinner Lunch
## Female 0.2954545 0.5147059
## Male 0.7045455 0.4852941
Welcher Befehl führt eine Kreuztabellierung der Anteile der Raucher je Wochentag
durch?
A. tally( ~ smoker | day, format = 'proportion', data = tips)
B. tally( ~ day | smoker, format = 'proportion', data = tips)
## day
## smoker Fri Sat Sun Thur
## No 0.2105263 0.5172414 0.7500000 0.7258065
## Yes 0.7894737 0.4827586 0.2500000 0.2741935
## smoker
## day No Yes
## Fri 0.02649007 0.16129032
## Sat 0.29801325 0.45161290
## Sun 0.37748344 0.20430108
## Thur 0.29801325 0.18279570
WiSe 21/22 Martin Vogt | Statistik 185
6. Explorative Datenanalyse mit R
Relative Häuigkeiten
Achtung: (Confusion of the inverse): Wovon wird die relative Häufigkeit angegeben?
I Der relative Anteil der Raucher am Freitag entspricht nicht dem relativen Anteil
des Freitags der Raucher.
I Der Papst ist ein Mann, aber nur die allerwenigsten Männer sind Papst.60
I Die Wahrscheinlichkeit krank zu sein, wenn das Testergebnis positiv ist, ist nicht
dasselbe wie die Wahrscheinlichkeit, dass das Testergebnis positiv ist, wenn man
krank ist.
60 Auch wenn es zwei Päpste geben würde, hätte sich zwar die relative Häufigkeit der Männer, die
Papst sind verdoppelt, wäre absolut aber immer noch sehr klein.
WiSe 21/22 Martin Vogt | Statistik 186
6. Explorative Datenanalyse mit R
Übung 54: Fehler
0.05
0.04
0.03
Density
0.02
0.01
0.00
10 20 30 40 50
total_bill
0.05
0.04
0.03
Density
0.02
0.01
0.00
10 20 30 40 50
total_bill
0.8
0.6
Density
0.4
0.2
0.0
1 2 3 4
log(total_bill)
nint= 2 nint=10
0.015 0.06
0.05
0.010 0.04
Density
Density
0.03
0.005 0.02
0.01
0.000 0.00
−20 0 20 40 60 10 20 30 40 50
total_bill total_bill
nint=25 nint=50
0.06
0.06
0.04
Density
Density
0.04
0.02 0.02
0.00 0.00
10 20 30 40 50 10 20 30 40 50
total_bill total_bill
10 20 30 40 50
Female Male
0.06
0.04
Density
0.02
0.00
10 20 30 40 50
total_bill
10 20 30 40 50
Female Male
0.06
0.04
Density
0.02
0.00
10 20 30 40 50
total_bill
50
40
30
total_bill
20
10
Female Male
50
40
30
total_bill
20
10
Female Male
X
n
( xi − x̄)2 = (n − 1) · sd2 = (244 − 1) · 8.9024122 = 1.925846 × 104 .
i=1
n
X
K Xj
X
K
2
( xi,j − x̄ j ) = (n j − 1)sd2j = 1.211054 × 104
j=1 i=i j=1
Bei der Analyse total_bill~size ist der Rest kleiner als bei der Analyse
total_bill~1 (ohne erklärende Variable).
Für dieses Reduzierung des Restes wird ein Preis gezahlt: In den einzelnen Gruppen sind
weniger Beobachtungen: weniger Freiheitsgrade (engl: degrees of freedom, df).
WiSe 21/22 Martin Vogt | Statistik 203
6. Explorative Datenanalyse mit R
Zusammenhang Trinkgeld und Rechnungshöhe
Analysiere über Streudiagramm:
xyplot( tip # abhängige Variable
~ total_bill, # unabhängige Variable
data = tips) # Datensatz
10
6
tip
10 20 30 40 50
total_bill
10
tip
4
10 20 30 40 50
total_bill
## [1] 0.6757341
Streudiagramm:
0.6
0.4
rel_tip
0.2
10 20 30 40 50
total_bill
0.6
0.4
rel_tip
0.2
10 20 30 40 50
total_bill
Was können Sie über die Verteilung der Rechnungshöhe für Raucher bzw. Nichtraucher
aussagen?63
ausgaben <- c(10, 64.63, 88.50, 31.50, 3.50, 10.50, 16.60, 25.80, 32.55,
61.70, 24.85, 30.50, 6.00, 5.15, 27.00, 40.00, 46.00, 14.4
einnahmen <- c(84, 72.75, 113, 2.80, 0, 16.50, 22.50, 26.65, 32.95,
45.65, 17.80, 45.00, 1.95, 0.600, 55.60, 4.20, 17.10, 13.
# Vektorelemente bennenen
names(ausgaben) <- verein
names(einnahmen) <- verein
Verteilen sich die Einnahmen und Ausgaben gleichmäßig auf die Vereine?
# Einmalig installieren
install.packages("ineq")
# Pakete laden
library(ineq)
library(mosaic)
Lc(ausgaben) %>%
plot()
Lorenz curve
1.0
0.8
0.6
L(p)
0.4
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0
ausgaben <- c(10, 64.63, 88.50, 31.50, 3.50, 10.50, 16.60, 25.80, 32.55,
61.70, 24.85, 30.50, 6.00, 5.15, 27.00, 40.00, 46.00, 14.4
AnteilMannschaften=rep(0,19)
AnteilAusgaben=rep(0,19)
sausgaben=sort(ausgaben)/sum(ausgaben)
for (i in 2:19){AnteilMannschaften[i]=(i-1)/18}
AnteilAusgaben[2]=sausgaben[1]
for(i in 3:19){AnteilAusgaben[i]=(AnteilAusgaben[i-1]+sausgaben[i-1])}
plot(Anteil,AnteilAusgaben, type="l",main="Lorenzkurve")
abline(0,1,col="red")
Lorenzkurve
1.0
0.8
0.6
AnteilAusgaben
0.4
0.2
0.0
AnteilMannschaften
Der Gini Koeffizient G misst die Ungleichheit und ist die Fläche zwischen der
Lorenzkurve und der “Gleichheitslinie” dividiert durch die Fläche des Dreiecks unter der
Gleichheitslinie. Dabei gilt: 0 6 G < 1.
Berechnung: Pn Pn
j=1 | xi − xj|
1
n2 i=1
G=
2x̄
Es gilt 0 < G < n−1 .
n
ineq(ausgaben)
## [1] 0.4062239
65 https://www.bundesnetzagentur.de
Sie haben die Lorenzkurve und den Gini-Koeffizienten kennengelernt und beschließen,
diese näher zu analysieren, um diese noch besser zu verstehen.
1. Überlegen Sie sich jeweils einen Datensatz, für den der Gini-Koeffizient den Wert 0
bzw. 0,75 annimmt.
2. Können sich Lorenzkurven schneiden? Überlegen Sie sich, ob dies möglich ist.
3. Welche allgemeinen Aussagen über die Form der Lorenzkurve können Sie treffen?
Angenommen vor zwei Jahren haben Sie für eine Party 2 Flaschen Korn für je 10 e und
2 Flaschen Cola je 1 e eingekauft. Heute kaufen Sie nur 1 Flasche Korn für 10,50 e,
dafür 3 Cola für je 1,10 e.
Wie haben sich die Preise entwickelt?
I Früher kostete die Party 22 e, heute nur noch 13,80 e. Damit beträgt der
e
Partypreisindex 13,80
22 e = 0,6275.
I Wenn Sie heute genau so viel Korn kaufen würden wie früher, würde die Party
heute 2 · 10,50 e + 2 · 1,10 e = 23,20 e kosten. Damit würde die
e
Partypreisentwicklung 23,20
22 e = 1,0545 betragen.
I Wenn Sie früher schon so bescheiden gewesen wären, hätte die Party damals
1 · 10 e + 3 · 1 e = 13 e gekostet. Damit hätte die Partypreisentwicklung
13,80 e
13 e = 1,0615 betragen.
Nicht nur die Preise pi , auch die Mengen qi haben sich im Lauf der Zeit (von 0 bis t)
verändert und damit auch der Einfluss der Produkte auf den Warenkorb:67
P
I Der Umsatzindex korrigiert nicht die verschiedenen Mengen: U0t = P qqti ppti .
0i 0i
I Der Preisindex nach Laspeyres68 zeigt, wie viel der Warenkorb der Basisperiode
0 in der Berichtsperiode t kostet, d. h., der Quotient der hypothetischen
Gesamtausgaben der Berichtsperiode geteilt P durch die tatsächlichen
L P q p
Gesamtausgaben der Basisperiode: P0t = q 0i p ti .
0i 0i
I Der Preisindex nach Paasche69 ist der Quotient der tatsächlichen
Gesamtausgaben in der Berichtsperiode t geteilt durch die fiktiven
P Ausgaben der
P P qti pti
Basisperiode 0 für den Warenkorb der Berichtsperiode: P0t = q p .
ti 0i
Indexzahlen werden häufig über einen längeren Zeitraum bestimmt. Welche Aussage
stimmt?
A. Der Umsatzindex ist am einfachsten zu erheben.
B. Der Preisindex nach Laspeyres ist am einfachsten zu erheben.
C. Der Preisindex nach Paasche ist am einfachsten zu erheben.
D. Alle Indexzahlen sind gleich aufwendig zu erheben.
Angenommen die Preise aller Güter sind gestiegen. Stimmt die Aussage: Es gilt immer
U0t > 1?
I Ja.
I Nein.
Eine Drogerie stellt das Sortiment um: Während vor einem Jahr zu 80 % eher preiswerte
Marken und Produkte im Durchschnitt zu 5 e verkauft wurden und 20 % hochpreisige
Marken im Durchschnitt zu 50 e, werden heute 50 % preiswerte Produkte zu 5,50 e und
50 % hochpreisige zu 45 e verkauft.
Bestimmen Sie zur Analyse der Preisentwicklung eine Indexzahl Ihrer Wahl.
Berechnen Sie die Preisindices von Laspeyres und Paasche für die folgenden Partypreise.
**Produkt* p0 q0 pt qt
Würstchen 1,50 40 1,80 45
Bier 5 10 5 12
Apfelschorle 1 8 1 10
Tische 4 5 5 5
Stühle 2 30 2 30
Es wird doch eh alles teurer! Häufig haben Leute das Gefühl, dass es extreme
Preisteigerungen gibt, obwil die gemessene Inflation moderat ist. Wie passt das
zusammen?
1. Überlegen Sie sich, warum wahrgenommene und gemessene Inflation nicht
übereinstimmen könnten.
2. Was ist wichtiger, gemessene oder wahrgenommene Inflation? Überlegen Sie sich
welche Auswirkungen Unterschiede haben könnten.
3. Überlegen Sie sich wie der VPI Ihre persönliche Inflation misst. Wird diese akkurat
wiedergegeben?
Jemand lädt Sie zu einem Glücksspiel ein: Die Person wirft eine Münze 10 Mal. Bei
Kopf gewinnt die Person, bei Zahl gewinnen Sie. Die andere Person gewinnt 8 der 10
Würfe. Unterstützen die Daten den Schluss, dass die Münze gezinkt ist?
Spielen Sie im Hörsaal den Versuch mit einer fairen Münze nach und zählen die Anzahl
Kopf!
Zählen Sie dann aus, ob das Ereignis (min.) 8 von 10 Kopf selten ist oder häufig.
Falls das Ereignis selten ist, so sprechen die Daten gegen die Unschuldsvermutung, dass
die Münze im Glücksspiel fair war.
20
count
10
0 1 2 3 4 5 6 7 8 9 10
heads
Das ist die Verteilung der Statistik (hier: Anteil p), wie sie sich gemäß eines
hypothetischen Modells (hier: “Die Münze ist fair” π = 0.5) ergibt.
20
count
10
0 1 2 3 4 5 6 7 8 9 10
heads
72 Daten=Modell+Rest
Deskriptivstatistik Inferenzstatistik
73 Induktion
Idee: Schluss von einer (zufälligen / randomisierten) Stichprobe auf eine Population:
I Punktschätzung
I Konfidenzintervall
I Hypothesentest
Ziel: Aussagen treffen, die über die Stichprobe hinausgehen – und dabei berücksichtigen,
dass Variation allgegenwärtig ist und Schlussfolgerungen unsicher.74
74 Vgl. Moore, D. (2007) The Basic Practice of Statistics, 4th edn. New York: Freeman, S. xxviii.
WiSe 21/22 Martin Vogt | Statistik 249
9. Inferenzstatistik
Dreieckstest
I Drei gleichaussehende Proben, zwei sind gleich, eine zufällige ist anders.
I Der / die Kandidat*in muss herausfinden, welche Probe anders ist.75
75 vgl.
ISO 4120 https://www.iso.org/standard/33495.html. Vgl. auch Single-Choice Klausur: 3
Antwortalternativen, 1 richtig.
WiSe 21/22 Martin Vogt | Statistik 250
9. Inferenzstatistik
Übung 78: Skalenniveau
Welches Skalenniveau hat das Merkmal “Probe” mit den Werten “falsch” und “richtig”?
A. Kategorial
B. Numerisch
Berechne das Integral der Fläche unter der Kurve Führe Experiment oft aus; berechne jeweils Teststatistik
Extreme Stichproben
1 (x−µ)2
−
relative Häufigkeit
Wahrscheinlichkeit
f(x|µ,σ2) = e 2σ2
2
2πσ
60 60
30 40 50 60 70 30 40 50 60 70
Anzahl Treffer bei 100 fairen Münzwürfen Anzahl Treffer bei 100 fairen Münzwürfen
Der Wert der Stichprobe wird häufig als Punktschätzer (engl.: (point) estimate) für
den interessierenden Wert der Population verwendet, z. B.:
I Anteil (kategoriale Daten): Population π, Stichprobe p, Punktschätzer π̂ = p.
I Arithmetischer Mittelwert (numerische Daten): Population µ, Stichprobe x̄,
Punktschätzer µ̂ = x̄.
Das Symbol Dach (ˆ) zeigt, dass der unbekannte, wahre Wert geschätzt wurde.
Punktschätzer sind Funktionen der Stichprobe.
I Ja.
I Nein.
## prop_r
## 0.3529412
Dann variiert auch der Anteil in der Stichprobe: sample (n = 34):
prop( ~ sample(population, size = 34), success = "r")
prop( ~ sample(population, size = 34), success = "r")
## prop_r
## 0.3235294
## prop_r
## 0.2941176
WiSe 21/22 Martin Vogt | Statistik 263
9. Inferenzstatistik
Stichprobenverteilung (II/III)
Simulation von 10000 zufälligen Stichproben aus der Population:
Setze Zufallszahlengenerator
Stiprovtlg soll sein:
Wiederhole 10000 Mal:
- Berechne den Anteil "r",
- Ziehe dafür eine Stichprobe vom Umfang 34 aus der Population
set.seed(1896) # Reproduzierbarkeit
Stiprovtlg <- do(10000)* prop( ~ sample(population, size = 34),
success = "r")
Simulierter Standardfehler:
## [1] 0.08111993
1500
1000
count
500
1500
1000
count
500
Wenn in der Population gilt π = 12 . Welcher Anteil p kommt dann in den Stichproben
34
am häufigsten vor?
A. p = 1
2
B. p = 1
3
C. p = 12
34
## 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
## f f f f f f f f f f f f f f f f f f f f f f r r
## 25 26 27 28 29 30 31 32 33 34
## r r r r r r r r r r
## Levels: f r
resample(stipro)
## 1 1 2 4 5 5 5 6 7 9 11 13 15 16 17 18 18 19 20 20 20 21 22 23
## f f f f f f f f f f f f f f f f f f f f f f f r
## 24 25 25 27 28 29 34 34 34 34
## r r r r r r r r r r
## Levels: f r
77 Genau genommen haben wir sie hier ja auch nur simuliert.
WiSe 21/22 Martin Vogt | Statistik 267
9. Inferenzstatistik
Resampling Anteil
set.seed(1896) # Reproduzierbarkeit
do(3)* prop( ~ resample(stipro), success = "r")
## prop_r
## 1 0.2941176
## 2 0.3529412
## 3 0.2647059
{Abbildung: Quelle: Lock, Robin, Patti Frazer Lock, Kari Lock Morgan, Eric F. Lock, and
Dennis F. Lock (2012): Statistics: UnLOCKing the Power of Data. Wiley.}
Vorraussetzungen:
I Zufällige Stichprobe oder zufällige Zuordnung.
I Nicht zu kleine Stichprobe.78
78 n > 35
79 Es gibt weitere, teilweise exaktere Bootstrap-Methoden.
WiSe 21/22 Martin Vogt | Statistik 270
9. Inferenzstatistik
Übung 82: Bootstrap
Stimmt die Aussage: beim Resamplen kann eine Beobachtung mehrfach in einer
Bootstrap-Stichprobe vorkommen?
I Ja.
I Nein.
Setze Zufallszahlengenerator
Bootvtlg soll sein:
Wiederhole 10000 Mal:
- Berechne den Anteil "r",
- Der Datensatz "stipro" soll dabei jedes Mal resampelt werden.
set.seed(1896)
Bootvtlg <- do(10000)* prop( ~ resample(stipro),
success = "r")
1500
1000
count
500
Stichprobenverteilung
1500
1000
count
500
0
0.2 0.4 0.6
prop_r
Bootstrap−Verteilung
1500
1000
count
500
0
0.2 0.4 0.6
prop_r
80 Die
ja i. d. R. unbekannt ist! Wir können aber hoffen, dass die empirische Verteilung Fn mit
zunehmenden Stichprobenumfang n der theoretischen F immer ähnlicher wird.
WiSe 21/22 Martin Vogt | Statistik 274
9. Inferenzstatistik
Bootstrap-Konfidenzintervall
I Ein Teil der Unsicherheit in statistischen Ergebnissen liegt in der Zufälligkeit der
konkreten Stichprobe begründet.
I Wir simulieren die zufällige Stichprobe (Sampling) durch zufälliges Resampling.
I Das 95 % Konfidenzintervall ist der Bereich in dem 95 % unser wiederholten
Stichprobenkennzahlen liegen:
## 2.5% 97.5%
## 0.2058824 0.5007353
## 2.5% 97.5%
## 0.2058824 0.5007353
I Ja.
I Nein.
I Ein Konfidenzintervall gibt einem Bereich an, der den wahren, unbekannten Wert
der Population mit einer gegebenen Sicherheit (z. B. 95 % = 1 − α = 100 % − 5 %)
überdeckt, d. h., den Anteil der so konstruierten Konfidenzintervalle, die den Wert
enthalten.81
I Je größer die Sicherheit (z. B. 99 % statt 95 %), desto breiter ist das Intervall.82
I Je größer der Stichprobenumfang, desto kleiner das Konfidenzintervall (unter sonst
gleichen Umständen): der Standardfehler se fällt mit n.
Stimmt die Aussage: Die Breite eines Konfidenzintervalls hängt nicht von der Streuung
der Beobachtungen ab?
I Ja.
I Nein.
n = 10
1
estimate
−1
0 25 50 75 100
sample
Wie groß ist die Wahrscheinlichkeit π, zufällig, d. h., ohne einen Unterschied zu
schmecken, auf die richtige (sprich abweichende) Probe zu tippen?
A. π =0
B. π = 1/3
C. π = 1/2
D. π = 2/3
E. π =1
##
## Flipping 34 coins [ Prob(Heads) = 0.333333333333333 ] ...
##
## H H T T H H T T T T T H T T T T T T T T T H H T T T T H T T T H
## H H
##
## Number of Heads: 11 [Proportion Heads: 0.323529411764706]
Setze Zufallszahlengenerator
Nullvtlg soll sein:
Wiederhole 10000 Mal:
- Wirf 34 Mal eine dreiseitige Münze,
- zähle die Anzahl der Treffer.
set.seed(1896)
Nullvtlg <- do(10000) * rflip(n = 34, prob = 1/3)
1500
1000
count
500
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
heads
WiSe 21/22 Martin Vogt | Statistik 286
9. Inferenzstatistik
Übung 87: Simulation (I/II)
1500
1000
count
500
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
heads
1500
1000
count
500
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
heads
Bei welchem Wert für x würden Sie bei n = 34 sich am stärksten vermuten, dass ein
Geschmacksunterschied vorliegt, d. h., dass π > 31 ist?
A. Bei x = 5.
B. Bei x = 10.
C. Bei x = 15.
D. Bei x = 20.
85 http://allendowney.blogspot.de/2016/06/there-is-still-only-one-test.html
1000
heads >= 12
count
FALSE
TRUE
500
5 10 15 20
heads
## prop_TRUE
## 0.471
WiSe 21/22 Martin Vogt | Statistik 293
9. Inferenzstatistik
Übung 89: p-Wert
Liefern die Daten (starke) Indizien dafür, dass die Nullhypothese nicht gilt?
I Ja.
I Nein.
I Wir gehen von H0 aus: der Angeklagte ist unschuldig, da ist nichts.
I Wenn die Indizien (Daten) gegen den Angeklagten (H0 ) sprechen87 , haben wir
berechtigten Zweifel an der Unschuld (H0 ).
I Wenn die Daten nicht ausreichen, um zu zeigen, dass der Angeklagte schuldig ist,
so sagen wir nicht: er ist unschuldig. Daher nie: wir bestätigen die Nullhypothese,
sondern nur, wir können die Nullhypothese nicht verwerfen. Die Abwesenheit von
Belegen belegt nicht die Abwesenheit.
p−Wert Dreieckstest
mit simulierten Stichproben
1500
1000
Anzahl Stichproben
500
0
]
5]
5]
5]
5]
5]
5]
5]
]
05
,1
0.
.1
.2
.3
0.
.6
.7
.8
.9
5
.
,0
5,
,0
,0
,0
5,
,0
,0
,0
,0
.9
(0
.0
.1
.2
.3
.4
.6
.7
.8
.9
(0
(0
(0
(0
(0
(0
(0
(0
(0
(0
p−Werte
Im Dreieckstest: was ist eine sinnvolle Alternativhypothese für die Fragestellung ob ein
Unterschied vorliegt?
A. H A : π < 13
B. H A : π > 13
C. H A : π 6= 13
90 Auch α-Fehler genannt. Die Wahrscheinlichkeit dieses Fehlers wird durch das Signifikanzniveau
nach oben beschränkt.
91 Auch β-Fehler genannt. Die Wahrscheinlichkeit dieses Fehlers ist schwieriger zu bestimmen, aber
siehe z. B. Paket pwr. Bei guten Tests sinkt sie mit größerem Stichprobenumfang n.
WiSe 21/22 Martin Vogt | Statistik 300
9. Inferenzstatistik
Übung 91: Fehlerart
Mit einem p-Wert von 0.47 kann die Nullhypothese H0 : π = 13 zum Signifikanzniveau
α = 0.05 nicht verworfen werden. Angenommen, es gelte die Alternativhypothese
H A : π > 31 . Welche Aussage stimmt?
A. Es liegt ein Fehler 1. Art vor.
B. Es liegt ein Fehler 2. Art vor.
C. Es liegt kein Fehler vor.
92 Dannkann bei symmetrischen Verteilungen z. B. der Betrag der Teststatistik verwendet werden.
Ansonsten einseitigen p-Wert verdoppeln.
WiSe 21/22 Martin Vogt | Statistik 303
9. Inferenzstatistik
Beispiel Inferenz: Geschlecht und Klausurpunkte
94 Eine gerichtete Hypothese muss aber inhaltlich (z. B. Literatur) begründet sein!
95 Abhängig vom Stichprobenumfang.
WiSe 21/22 Martin Vogt | Statistik 305
9. Inferenzstatistik
Cartoon: Signifikanz
I Das Konfidenzintervall gibt auf Basis der Stichprobe einen Wertebereich für den
Wert (δ) an: 1 − α der Werte aus den Resampling-Stichproben liegen darin.
I Anhand der Verteilung unter dem Modell der Nullhypothese (δ = δ0 ) können wir
einen Wertebereich für Werte der Stichprobe (δ∗ ) bestimmen, wenn dieses Modell
gilt: 1 − α der unter H0 simulierten Werte liegen darin.
I Häufig97 entspricht der Bereich des Konfidenzintervalls dem Bereich für δ, für den
H0 : δ = δ0 nicht verworfen wird.
97 Hängt u. a. vom Verfahren ab. Es ist aber theoretisch möglich äquivalente Bereiche zu konstruieren.
WiSe 21/22 Martin Vogt | Statistik 307
9. Inferenzstatistik
Übung 92: Konfidenzinterval und Hypothesentest
## 2.5% 97.5%
## 0.2058824 0.5007353
I Ja.
I Nein.
98 Dawir nicht exakt gerechnet, sondern auf Basis einer kleinen Stichprobe simuliert haben.
99 Hypothesen werden aus der Theorie hergeleitet. Hier z. B. 50% schmecken den Unterschied, die
anderen raten.
WiSe 21/22 Martin Vogt | Statistik 308
9.6 Zusammenfassung
“Am Anfang ein bisschen schwer zu verdauen, aber sehr nahrhaft und voll mit
Vitaminen α, π̂, x̄ und besonders µ und σ.”100
100 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift G. Baugher
WiSe 21/22 Martin Vogt | Statistik 310
9. Inferenzstatistik
Verteilungen
Allgemein sagt eine Verteilung, wie wahrscheinlich bzw. häufig Werte bzw.
Wertebereiche sind.
I Verteilung in der Population
Z. B. unter allen Studierenden: Wurde die Vorlesung nachgearbeitet? Wie hoch ist
der Anteil derjenigen, die die Vorlesung nacharbeiten, unter allen Studierenden: π.
I Verteilung in der Stichprobe
Z. B. in den vorliegenden Daten: Wurde die Vorlesung nachgearbeitet? Wie hoch ist
der Anteil derjenigen, die die Vorlesung nacharbeiten, in der Stichprobe: p.
I Stichprobenverteilung (Verteilung einer Statistik der Stichprobe)
Z. B.: Wie hoch ist der Anteil p derjenigen, die nacharbeiten, in den zufälligen
Stichproben?
I Resampling-Verteilung (Schätzung der Verteilung einer Statistik der Stichprobe)
Z. B.: Wie hoch ist der Anteil p derjenigen, die nacharbeiten, in den zufälligen
Resamples der Stichprobe?
I Verteilung unter H0 (Wie sieht die Verteilung einer Statistik der Stichprobe aus,
wenn das Modell der Nullhypothese stimmt?)
Z. B.: Verteilung von p, dem Anteil derjenigen, die nacharbeiten, in einer
Stichprobe, wenn in der Population (hypothetisch) π = 0.8 gilt.
WiSe 21/22 Martin Vogt | Statistik 311
9. Inferenzstatistik
Übung 93: Verteilungen
unbekannt Varianzen?
Wilcoxon-Vorzeichenrangtest [MS213;
abhängig Verteilung? gleich SC87;BLB259]
Verteilungsformen Normalrangtests [MM342]
beliebig
?
Vorzeichentest [MS170; W344; SC80;BLB256]
verschieden Permutationstest [SC95]
Fishers exakter Test [MM326]
eine Stichprobe,
χ2-Test [H328]
normalverteilt
[B] Bortz, J. (1993). Statistik für Sozialwissenschaftler (4. Aufl.). Berlin: Springer. [MD] Maxwell, S. E. & Delaney, H. D. (1990).Designing experiments and analyzing data.Belmont, CA: Wadsworth.
[BLB] Bortz, J., Lienert, G. & Boehnke, K. (1990). Verteilungsfreie Methoden in der Biostatistik. Berlin: Springer. [SC] Siegel, S. & Castellan, N. J., Jr. (1988). Nonparametric statistics for the behavioral sciences (2. Aufl.). New York:
McGraw-Hill.
[GF] Guilford, J. P. & Fruchter, B. (1978). Fundamental statistics in psychology and education (6. Aufl.). New York: McGraw-
Hill. [WT] Wickens, T. D. (1989). Multiway contingency tables analysis for the social sciences.Hillsdale, NJ: Lawrence Erlbaum.
[H] Hays, W. L. (1994). Statistics (5. Aufl.). Fort Worth, FL: Harcourt Brace College Publishers. [W] Wilcox, R. R. (1996). Statistics for the social sciences. San Diego, CA: Academic Press.
[Ka] Kirk, R. E. (1982). Experimental design (2. Aufl.). Belmont, CA: Brooks/Cole. [WBM] Winer, B. J., Brown, D. R. & Michels , K. M. (1991). Statistical principles in experimental design (3. Aufl.). New York:
McGraw-Hill.
[Kb] Kirk, R. E. (1990). Statistics: An introduction. Fort Worth, FL: Holt, Rinehard, and Winston.
[Z] Zar, J. H. (1996). Biostatistical analysis (3. Aufl.). Upper Saddle River, NJ: Prentice Hall.
[MM] Marascuilo, L. A. & McSweeney, M. (1977). Nonparametric and distribution-free methods for the social sciences.
Monterey, CA: Brooks/Cole.
Y X Teststatistik
kategorial - binär Anteil p
kategorial Verhältnisvergleich beobachtet und
erwartet: χ2
numerisch Mittelwert x̄
kategorial - binär kategorial - binär Differenz Anteile p B − p A
numerisch kategorial - binär Differenz Mittelwerte x̄ B − x̄ A
kategorial kategorial Verhältnisvergleich beobachtet und
erwartet: χ2
numerisch kategorial Streuungsvergleich zwischen
Gruppen und innerhalb Gruppen: F
numerisch numerisch Korrelationskoefizient r oder
Steigung β̂ lineare Regression
kategorial numerisch Steigung β̂ logistische oder
multinomiale Regression
104 Verteilungsannahmen!
Die Berechnung des Value-at-Risk (siehe Übungsaufgabe zu VaR oben) basiert auf
zahlreichen Modellannahmen. Diese müssen in der Praxis nicht immer erfüllt sein. Um
die Qualität des Modells zu überprüfen wird deshalb häufig der 1-Tages
99%-Value-at-Risk (Vorhersage des maximalen Verlustes) mit dem am nächsten Tag
wirklich eingestretenen Verlust verglichen. Dieses Verfahren wird als Backtesting
bezeichnet.
Einige Fonds (etwa viele sogenannte UCITS) müssen ein solches Backtesting
durchführen. Gemäß den ESMA Richtlinien 10/788 müssen diese an das Senior
Management berichten, falls:
The number of overshootings for each UCITS for the most recent 250 business
days exceeds 4 in the case of a 99 % confidence interval. Where an overshooting
is a one-day change in the portfolio’s value that exceeds the related one-day
value-at-risk measure calculated by the model.
Der öffentliche Nahverkehr geht seit einer Weile von 5 % Schwarzfahrern aus. Er hat
momentan genau so viele Fahrkartenkontrolleure eingestellt, um mit diesem Anteil an
Schwarzfahrern bestmöglich zurechtzukommen. Er möchte nun testen, ob sich der
Anteil verringert hat, ob er also kleiner als 5 % ist, und falls das so ist, die Anzahl der
eingesetzten Kontrolleure verringern. In einer Stichprobe waren unter 100 Fahrern 3
Schwarzfahrer.
Helfen Sie dem Nahverkehr diese Frage zu beantworten.
Durch welche Statistik kann die Verteilung der Variable Essenzeit (Lunch / Dinner)
sinvoll beschrieben werden?
A. Anteil.
B. Arithmetischer Mittelwert.
Durch welche Grafik kann die Verteilung der Variable Essenzeit (Lunch / Dinner) sinnvoll
dargestellt werden?
A. Balkendiagramm.
B. Histogramm.
C. Boxplot.
Wann ist aufgrund einer quantitativen Datenanalyse eine Aussage über die Population
gerechtfertigt?
A. Nie.
B. Bei einer zufälligen Stichprobe.
C. Bei einer randomisierten Zuordnung innerhalb eines Experimentes.
D. Bei einem hohen Stichprobenumfang n.
E. Immer.
I Analyse des Anteils der Studierenden, die die Vorlesung nachbereiten – ggf. je nach
Geschlecht oder Studiengang.
I Untersuchung des Anteils der Mitarbeiter*innen, die während der Arbeit
SocialMedia nutzen – ggf. je nach Geschlecht.
I Analyse des Anteils der betrügerischen Versicherungsvorgänge – ggf. je nach
Vertragsart.
I Vergleich des Anteils der Dividendenzahlenden Unternehmen je Index.
I Anteil von “Blockbuster-Movies” pro Film-Genre (s. Datensatz ggplot2movies).
106 http://allendowney.blogspot.de/2016/06/there-is-still-only-one-test.html
107 Bspw. Binomial- oder χ2 −Verteilungen.
WiSe 21/22 Martin Vogt | Statistik 332
10. Inferenz kategorialer Daten
Wiederholung: Schema Bootstrap
{Abbildung: Quelle: Lock, Robin, Patti Frazer Lock, Kari Lock Morgan, Eric F. Lock, and
Dennis F. Lock (2012): Statistics: UnLOCKing the Power of Data. Wiley.}
# Herunterladen
download.file("https://goo.gl/whKjnl", destfile = "tips.csv")
# Einlesen in R
tips <- read.csv2("tips.csv")
108 Bryant,
P. G. and Smith, M (1995) Practical Data Analysis: Case Studies in Business Statistics.
Homewood, IL: Richard D. Irwin Publishing
WiSe 21/22 Martin Vogt | Statistik 334
10. Inferenz kategorialer Daten
Frauenanteil der Rechnungszahler*innen: Deskriptive Analyse
Tabelle:
## sex
## Female Male
## 87 157
Balkendiagramm:
60
40
percent
20
ale Mal
e
Fem
sex
Welches ist das richtige Testverfahren, um die Forschungsthese zu untersuchen, dass der
Anteil der Rechnungszahlerinnen , d. h. sex=="Female", nicht bei 50 % liegt – in der
Population?
A. Test eines Anteilswertes.
B. Test zweier Anteilswerte.
Wie lautet das korrekte Hypothesenpaar für die Forschungsfrage, ob der Anteil der
Frauen unter den Rechnungszahlenden nicht bei 50 % liegt?
A. H0 : π = 0.5 vs. H A : π =6 0.5
B. H0 : π 6= 0.5 vs. H A : π = 0.5
10
Density
prop
## prop_Female
## 0.3565574
## 2.5% 97.5%
## 0.4385246 0.5614754
Density
5
prop
set.seed(1896) # Reproduzierbarkeit
Bootvtlg <- do(10000) *
prop( ~ sex, data = resample(tips), success = "Female")
10
Density
prop_Female
95 % Bootstrap Konfidenzintervall:
quantile( ~ prop_Female, data = Bootvtlg, probs = c(0.025, 0.975))
## 2.5% 97.5%
## 0.2991803 0.4180328
WiSe 21/22 Martin Vogt | Statistik 344
10. Inferenz kategorialer Daten
“Klassischer” Test des Anteilswertes
I Schritt 1: Signifikanzniveau α (hier: 0,05) festlegen.
P
I Schritt 2: Berechne Testfunktionswert in=1 Xi aus der Stichprobe, wobei Xi : Frau
bezahlt die Rechnung
## n_Female
## 87
##
## 1-sample proportions test with continuity correction
##
## data: tips$sex [with success = Female]
## X-squared = 19.512, df = 1, p-value = 9.995e-06
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.2971654 0.4205463
## sample estimates:
## p
## 0.3565574
Wie hoch ist der Anteil der Frauen unter den Rechnungszahler*innen in der Stichprobe?
A. 19.51%
B. 29.72%
C. 42.05%
D. 35.66%
E. 50.00%
10
Density
5
prop
Geschlecht Größe
Geschlecht Größe
M 194 W 194
M 192
M 192
W 158 M 158 d=33
W 162 W 162
… …
… …
Extreme Stichproben
Stichprobenverteilung
## prop_Female.Dinner prop_Female.Lunch
## 0.2954545 0.5147059
## diffprop
## 0.2192513
set.seed(1896) # Reproduzierbarkeit
## 2.5% 97.5%
## -0.1273396 0.1377005
WiSe 21/22 Martin Vogt | Statistik 354
10. Inferenz kategorialer Daten
Verteilung unter H0
Simulierte Verteilung des Anteilsunterschieds unter der Annahme der Gleichheit (H0 ):
4
Density
diffprop
Die vertikalen Linien markieren die jeweils 2.5 % extremsten simulierten Stichproben.
## prop_TRUE
## 0.0014
Fassen Sie die vorangegangene Analyse zusammen. Wie lautete die Forschungsfrage,
Hypothesen und die Antwort auf die Forschungsfrage.
Unterscheidet sich die Raucherquote je nach Wochentag? Anders gefragt: Gibt es einen
Zusammenhang der Merkmale smoker und day?
## day
## smoker Fri Sat Sun Thur
## No 4 45 57 45
## Yes 15 42 19 17
tips
No Yes
Fri
Sat
day
Sun
Thur
smoker
0.2
0.1
0.0
0 2 4 6 8 10
x Wert
Zeilen X
X Spalten (Oij − Eij )2
χ2 =
Eij
i j
##
## Pearson’s Chi-squared test
##
## data: x
## X-squared = 25.787, df = 3, p-value = 1.057e-05
##
## 4 45 57 45
## (11.76) (53.84) (47.03) (38.37)
## [5.12] [1.45] [2.11] [1.15]
## <-2.26> <-1.20> < 1.45> < 1.07>
##
## 15 42 19 17
## ( 7.24) (33.16) (28.97) (23.63)
## [8.31] [2.36] [3.43] [1.86]
## < 2.88> < 1.54> <-1.85> <-1.36>
##
## key:
## observed
## (expected)
## [contribution to X-squared]
## <Pearson residual>
Ein Teigwarenhersteller bringt Packungen auf den Markt, in denen sich laut Aufdruck
jeweils 500 Gramm Nudeln befinden sollten. Aus der gesamten Produktionsserie solcher
Packungen wurden eine einfache Stichprobe vom Umfang 8 gezogen.
Es soll geklärt werden, ob die Hypothese, der Anteil p der Packungen in der
Produktionsserie mit mehr als 500 Gramm Inhalt sei größer als 0,5, statistisch bestätigt
werden kann.
Unter 3000 Neugeborenen wurden 1428 Mädchen gezählt. Bestimmen Sie das 95 % und
97.5 % Konfidenzintervall für die Wahrscheinlichkeit einer Mädchengeburt.
Anlässlich einer Studie zum Thema “Powernap” soll überprüft werden, ob nach einem
Powernap eher nach etwas Süssem oder etwas Salzigem gegriffen wird. Daher werden im
Rahmen der Studie 41 Probanden nach einem 30-minütigen Powernap gebeten, sich
zwischen einem salzigen und einem süssen Snack zu entscheiden. 28 Probanden haben
sich für einen süßen und 13 Probanden für einen salzigen Snack entschieden. Werden
beide Snacks gleich häufig verwendet, oder gibt es einen signifikanten Unterschied?
Bei den letzten Wahlen entschieden sich 48 % der wahlberechtigen Bevölkerung einer
Stadt mit mehr als 100000 Einwphnern für den Kandidaten A als Bürgermeister. In einer
aktuellen Umfrage unter 3000 zufällig bestimmten Wählern entschieden sich 1380 wieder
für diesen Kandidaten. Kann aus diesem Ergebnis mit einer Irrtumswahrscheinlichkeit
von 5 % auf eine Veränderung des Wähleranteils des Kandidaten A geschlossen werden?
Was ist der Binomialtest? Suchen Sie im Internet nach Quellen und führen Sie einen
Test mit R am folgenden Beispiel durch: Mögen Studierende Marketing und Statistik
gleich gerne? Eine zufällige Auswahl von 20 Studierenden ergab, dass 13 lieber
Marketung und 7 lieber Statistik mögen.
Untersuchen Sie den Zusammenhang zwischen der Mahlzeit (Tageszeit) und Rauchen
am Tisch.
Sie haben insgesamt 100 Menschen über und unter 50 Jahren befragt, ob Sie lieber
Filterkaffee (F) oder Latte Macchiato (LM) mögen.
Idee: Schluss von einer (zufälligen / randomisierten) Stichprobe auf eine Population:
I Punktschätzung
I Konfidenzintervall
I Hypothesentest
Ziel: Aussagen treffen, die über die Stichprobe hinausgehen – und dabei berücksichtigen,
dass Variation allgegenwärtig ist und Schlussfolgerungen unsicher.113
113 Vgl. Moore, D. (2007) The Basic Practice of Statistics, 4th edn. New York: Freeman, S. xxviii.
WiSe 21/22 Martin Vogt | Statistik 378
11. Inferenz numerischer Daten
Übung 118: Gültigkeit Inferenz
115 häufig: δ0 = 0
WiSe 21/22 Martin Vogt | Statistik 381
11. Inferenz numerischer Daten
Beispiele zur Inferenz numerischer Werte
I Analyse des mittleren Workloads der Studierenden – ggf. je nach Geschlecht oder
Studiengang
I Untersuchung des Humors116 der Mitarbeiter*innen, ggf. je Geschlecht oder
Abteilung
I Vergleich der Kaufkraft der Kund*innen mit oder ohne Kundenkarte
I Analyse der Rendite von Investitionsalternativen
I Vergleich der Mitarbeiter-Zufriedenheit zwischen Abteilungen
117 Bryant,
P. G. and Smith, M (1995) Practical Data Analysis: Case Studies in Business Statistics.
Homewood, IL: Richard D. Irwin Publishing
WiSe 21/22 Martin Vogt | Statistik 384
11. Inferenz numerischer Daten
Übung 119: Statistik Rechnungshöhe
Durch welche Statistik kann die zentrale Tendenz der Variable Rechnungshöhe sinnvoll
beschieben werden?
A. Anteil.
B. Arithmetischer Mittelwert.
Durch welche Grafik kann die Verteilung der Variable Rechnungshöhe nicht sinnvoll
dargestellt werden?
A. Balkendiagramm.
B. Histogramm.
C. Boxplot.
0.05
0.04
Density 0.03
0.02
0.01
0.00
10 20 30 40 50
total_bill
0.05
0.04
0.03
Density
0.02
0.01
0.00
10 20 30 40 50
total_bill
set.seed(1896)
Nullvtlg <- do(10000) * mean(rnorm(mean = 15,
sd = 8.90,
n =244))
118 Hier nicht erfüllt, siehe oben.
WiSe 21/22 Martin Vogt | Statistik 389
11. Inferenz numerischer Daten
p-Wert zur Überprüfung der mittleren Rechnungshöhe
histogram(~mean, Nullvtlg)
0.6
0.4
Density
0.2
0.0
13 14 15 16 17
mean
## prop_TRUE
## 0
x̄−µ x̄−µ0
I Einstichproben-t-Test: eine Stichprobe, ein Merkmal: t = q 0
sd2
= se .
n
I t-Test für abhängige Stichproben, gepaarter t-Test: eine Stichprobe, zwei
Merkmale, es wird die Differenz je Beobachtung analysiert.
I t-Test für unabhängige Stichproben: zwei Stichproben, ein Merkmal.
I Idee119 : Setze Differenz der Mittelwerte ins Verhältnis zur Streuung der Schätzung
(Standardfehler, se):
( x̄ − x̄ B )
t= rA
sd2A sd2B
nA + nB
119 hierim Fall für zwei unabhängige Stichproben, analog für die anderen Fälle
120 imzweiseitigen Fall
121 Überprüfung z. B. über Q-Q-Plot (xqqmath()).
Verteilungen
df=1
0.35
df=5
df=10
df=30
normal
0.30
0.25
Dichte
0.20
0.15
0.10
0.05
−2 −1 0 1 2
x Wert
##
## One Sample t-test
##
## data: total_bill
## t = 8.3976, df = 243, p-value = 1.909e-15
## alternative hypothesis: true mean is greater than 15
## 95 percent confidence interval:
## 18.84492 Inf
## sample estimates:
## mean of x
## 19.78594
Was würde passieren, wenn die vorher festgelegte Hypothese122 nicht H0 : µ 6 15 gegen
H A : µ > 15 sondern H0 : µ 6 19.5 gegen H A : µ > 19.5 lauten würde?
A. Der p-Wert wird kleiner.
B. Der p-Wert wird größer.
C. Der p-Wert ändert sich nicht.
H0 : µ 6 42 vs. H A : µ > 42
Vorraussetzungen:
I Zufällige Stichprobe oder zufällige Zuordnung.
I Nicht zu kleine Stichprobe.123
123 n > 35
124 Es gibt weitere, teilweise exaktere Bootstrap-Methoden.
WiSe 21/22 Martin Vogt | Statistik 398
11. Inferenz numerischer Daten
Bootstrap Verteilung mittlere Rechnungshöhe
set.seed(1896) # Reproduzierbarkeit
0.6
0.4
Density
0.2
0.0
18 19 20 21 22
mean
0.6
0.4
Density
0.2
0.0
18 19 20 21 22
mean
0.6
0.4
Density
0.2
0.0
18 19 20 21 22
mean
## 2.5% 97.5%
## 18.70401 20.92869
Stimmt die Aussage: Mit 95 % Sicherheit überdeckt der Bereich 18.7 $ bis 20.93 $ eine
zufällig ausgewählte Beobachtung?
I Ja.
I Nein.
50
40
30
total_bill
20
10
No Yes
# Mittelwert Stichprobe
mosaic::mean(total_bill ~ smoker, data = tips)
## No Yes
## 19.18828 20.75634
## diffmean
## 1.568066
0.3
0.2
Density
0.1
0.0
−4 −2 0 2 4 6 8
diffmean
## 2.5% 97.5%
## -0.7991132
WiSe 21/22 3.9476430 Martin Vogt | Statistik 406
11. Inferenz numerischer Daten
Übung 129: Testverfahren Differenz mittlere Rechnungshöhe Raucher / Nichtraucher
set.seed(1896) # Reproduzierbarkeit
Nullvtlg <- do(10000) *
diffmean(total_bill ~ shuffle(smoker), data = tips)
0.3
0.2
Density
0.1
0.0
−4 −2 0 2 4
diffmean
## prop_TRUE
## 0.1865
##
## Welch Two Sample t-test
##
## data: total_bill by smoker
## t = -1.2843, df = 169.63, p-value = 0.2008
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -3.9783704 0.8422385
## sample estimates:
## mean in group No mean in group Yes
## 19.18828 20.75634
0.2
Density
0.1
0.0
−4 −2 0 2 4
diffmean
Sind die Daten unter der Nullhypothese H0 : µSmoker Yes = µSmoker No (sehr)
unwahrscheinlich?
I Ja.
I Nein.
set.seed(1896) # Reproduzierbarkeit
t.test(total_bill ~ smoker,
data = sample(tips, size = 100))
##
## Welch Two Sample t-test
##
## data: total_bill by smoker
## t = 0.26883, df = 71.558, p-value = 0.7888
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -3.437518 4.509063
## sample estimates:
## mean in group No mean in group Yes
## 20.24919 19.71342
set.seed(1896) # Reproduzierbarkeit
t.test(total_bill ~ smoker,
data = sample(tips, size = 200))
##
## Welch Two Sample t-test
##
## data: total_bill by smoker
## t = -0.47295, df = 127.15, p-value = 0.6371
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -3.368647 2.068999
## sample estimates:
## mean in group No mean in group Yes
## 19.33061 19.98043
“Da Joe der einzige war, der vorab eine Power-Analyse durchgeführt hatte, hatte er als
einziger die nötige Größe, um den gewünschten Effekt zu erzielen.”126
126 https://www.CAUSEweb.org/ © J. B. Landers, Überschrift G. Snow
WiSe 21/22 Martin Vogt | Statistik 418
11.4 Effektgröße
# Einmalige Installation
install.packages("lsr")
# Paket laden
library(lsr)
127 Anwendbarfür den Vergleich zweier Mittelwerte. Es gibt auch weitere Effektgrößen. Siehe z. B.
Paket compute.es.
WiSe 21/22 Martin Vogt | Statistik 420
11. Inferenz numerischer Daten
Effektgröße Rauchen
Daumenregel:
I |d| > 0.2 kleiner Effekt.
I |d| > 0.5 mittlerer Effekt.
I |d| > 0.8 großer Effekt.
## [1] 0.176426
−4 −2 0 2 4
d=0.8 d=1.1
0.4
0.3
0.2
0.1
0.0
Density
d=0.2 d=0.5
0.4
0.3
0.2
0.1
0.0
−4 −2 0 2 4
300
200
FALSE
TRUE
100
10000
7500
n=100
5000
2500
FALSE
10000 TRUE
7500
n=30
5000
2500
0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00
pvalue
##
## One Sample t-test
##
## data: t_diff
## t = 15.602, df = 243, p-value < 2.2e-16
## alternative hypothesis: true mean is greater than 0
## 95 percent confidence interval:
## 0.9117688 Inf
## sample estimates:
## mean of x
## 1.019684
10
6
tip
day
I Vergleich des Lagemaßes µi bei zwei oder mehr Stichproben. Ein- oder
mehrfaktoriell möglich, bei mehr als einem Einfluss auch Wechselwirkungen.
I Nullhypothese: Lagemaß µi für alle Gruppen gleich.
I Die Gesamtstreuung (SST) wird zerlegt in die Streuung zwischen den
Stichproben/Gruppen (SSG) und die Streuung innerhalb der
Stichproben/Gruppen (SSE):
n
X
n X
K X
K Xj
2 2
( xi − x̄) = n j (x̄ j − x̄) + ( xi,j − x̄ j )2
|i=i {z } |
j=1
{z }
j=1 i=1
| {z }
SST SSG SSE
I Ist das Verhältnis der Streuung zwischen den Gruppen im Verhältnis zur Streuung
innerhalb der Gruppen groß (Teststatistik F), so ist dies unter der Nullhypothese
unwahrscheinlich.
I Voraussetzung: Daten innerhalb der Stichproben / Gruppen unabhängig, identisch,
normalverteilt.
A B C
−5
−10
F=1 F=60
10
−5
−10
A B C
Gruppe
Wird die Nullhypothese H0 : µFri = µSat = µSun = µThu verworfen, d. h., wird anhand
der Stichprobenunterschiede der Mittelwerte
Wenn man statt einer ANOVA alle 42 = 4·(42−1) = 6 Kombinationen (d. h. Donnerstag
und Freitag, Donnerstag und Samstag usw.) ausprobiert hätte, hätte sich der α-Fehler
kumuliert129 :
P(Fehler 1. Art) = 1 − (1 − 0.05)6 = 0.265
Das globale Signifikanzniveau α = 0.05 wäre nicht eingehalten!130
p-Hacking: Wenn viele Hypothesen getestet werden, werden auch zufällig welche
signifikant sein.
Analysieren Sie die Höhe des Trinkgeldes und inwieweit sich dies zwischen den
Geschlechtern unterscheidet.
Eine Gaststätte bezieht die 0,5 Liter Bierflaschen aus einer kleinen Brauerei im
Nachbarort. Nach mehreren Beschwerden seiner Gäste, dass die Flaschen weniger als 0,5
Liter Bier enthalten würden, fordert der Gastwirt den Brauereibesitzer auf, seine
Abfüllanlage überprüfen zu lassen. Zu diesem Zweck wird eine Zufallsstichprobe vom
Umfang n=150 Flaschen ausgewählt. Bei der Untersuchung gaben sich die folgenden
Werte x̄ = 498, 8 ml und s = 3, 5 ml. (Normalverteilung vorausgesetzt).
1. Ist der Verdacht der Besucher der Gaststätte bei einem Signifikanzniveau von 1 %
gerechtfertig?
2. Der Brauereibesitzer behauptet nun, dass das Ergebnis der Stichprobe nicht
widerlegen würde, dass seine Flaschen genau 500 ml enthalten. Überprüfen Sie
diese Behauptung bei α = 0, 01.
3. Ein Jahr später wird nochmals eine Untersuchung durchgeführt, allerdings diesmal
nur mit 20 Flaschen x̄ = 498, 1 und s = 3, 7. Wie lauten die Tests aus 1 und 2
unter Verwendung dieser Werte.
Der Datensatz data(mtcars) enthält Daten aus einer US Zeitschrift über Autos.
1. Verschaffen Sie sich einen Überblick über die Daten.
2. Sie vermuten, dass die Autos weniger als 22 Meilen pro Gallon fahren. Führen Sie
einen statistischen Test durch.
3. Gibt es einen Unterschied in der Reichweite zwischen Automatik u nd Manueller
Schaltung?
I Überwachtes Lernen (engl.: supervised learning): Kann ein Teil der Variation
einer abhängigen Variable y durch unabhängige Variable(n) x modelliert werden:
y = f (x) + e131
I Schätze fˆ anhand der Daten / Stichprobe
I Annahme: f ist eine lineare Funktion, d. h., f ( x) = β 0 + β 1 · x Hier: y numerisch,
nur eine unabhängige Variable x.
I β 0 : Achsenabschnitt
I β 1 : Steigung, d. h. Änderung des Mittelwerts von y, wenn x eine Einheit größer wird
!
β̂ 0
I Methode der kleinsten Quadrate: Bestimme Vektor β̂ = so, dass für
β̂ 1
P 2
êi = yi − fˆ(xi ) = yi − ( β̂ 0 + β̂ 1 xi ) der Wert êi minimal ist.
Pn 2 Pn
I min i=1 (ei ) =− β 0 − β 1 x i )2
i=1 (yi
P
I Partiell Ableiten β 0 : −2 in=1 (yi − β 0 − β 1 xi ) =! 0
P
I Partiell Ableiten β 1 : −2 in=1 xi (yi − β 0 − β 1 xi ) =! 0
Pn
1 ( xi − x̄)(yi − ȳ)
βˆ1 = i=
P n 2
i=1 ( xi − x̄ )
βˆ0 = ȳ − βˆ1 x̄
x^2
+y^
2
y
x
Schüssel
Geschäft i 1 2 3 4 5 6
Flaschenpreis xi 20 16 15 16 13 10
verkaufte Menge yi 0 3 7 4 6 10
133 Bryant,
P. G. and Smith, M (1995) Practical Data Analysis: Case Studies in Business Statistics.
Homewood, IL: Richard D. Irwin Publishing
WiSe 21/22 Martin Vogt | Statistik 452
12.1 Einfache lineare Regression
10
6
tip
10 20 30 40 50
total_bill
10
tip
4
10 20 30 40 50
total_bill
##
## Call:
## lm(formula = tip ~ total_bill, data = tips)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.1982 -0.5652 -0.0974 0.4863 3.7434
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.920270 0.159735 5.761 2.53e-08 ***
## total_bill 0.105025 0.007365 14.260 < 2e-16 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 1.022 on 242 degrees of freedom
## Multiple R-squared: 0.4566, Adjusted R-squared: 0.4544
## F-statistic: 203.4 on 1 and 242 DF, p-value: < 2.2e-16
plotModel(erglm1)
10.0
7.5
tip
5.0
2.5
0 20 40
total_bill
10.0
7.5
tip
5.0
2.5
10 20 30 40 50
total_bill
ŷ = 0.9203 + 0.105 · x
Für ein gegebenes x0 = 10 lautet die Prognose ŷ0 = 0.9203 + 0.105 · 10 = 1.9703.
Stimmt die Aussage: Bei einer Rechnungshöhe von 10 $ wird das Trinkgeld mit
Sicherheit bei 1.97 $ liegen?
I Ja.
I Nein.
predict(erglm1, # Modell
# Neue Beobachtung mit x=10:
newdata = data.frame(total_bill = 10),
# Prognoseintervall:
interval = "prediction")
Das Bestimmtheitsmaß sagt nicht, ob ein lineares Modell stimmt. Im Falle der
Anscombe Daten gilt in allen Fällen R2 ≈ 0.67:
10
9
8
7
y1
y2
6 5
3
4
3 6 9 12 15 3 6 9 12 15
x1 x2
13
12
11
10
y3
y4
9
8
7
6
5
3 6 9 12 15 10 15 20
x3 x4
set.seed(1896) # Reproduzierbarkeit
Bootvtlg <- do(10000) *
lm(tip ~ total_bill, data = resample(tips))
30
20
Density
10
total_bill
## 2.5% 97.5%
## 0.08235625 0.12797229
set.seed(1896) # Reproduzierbarkeit
Nullvtlg <- do(10000) *
lm(tip ~ shuffle(total_bill), data = tips)
40
30
Density
20
10
total_bill
## 2.5% 97.5%
## -0.01876834 0.02000266
30
Density
20
10
total_bill
1
1
yb
ya
0
−1
−2 −1
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
x x
C D
3 1.5
1.0
2
0.5
yd
yc
0.0
1
−0.5
0
−1.0
−1.5
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
x x
A. Abbildung A.
B. Abbildung B.
C. Abbildung C.
D. Abbildung D.
10.0
7.5
tip
5.0
2.5
0.0
“Punkte, die von ihren Peers abweichen, sind häufig die interessantesten.”137
0.5
0.4
0.3
Density
0.2
0.1
0.0
−4 −2 0 2 4
resid(erglm1)
2
resid(erglm1)
−2
−3 −2 −1 0 1 2 3
qnorm
4
0.5
0.4
2
0.3
resid(erglm1)
Density
0
0.2
0.1
−2
0.0
−4 −2 0 2 4 −3 −2 −1 0 1 2 3
resid(erglm1) qnorm
Stimmt die Aussage: Die Erfüllung der Annahme einer Normalverteilung für die
Residuuen ist hier fragwürdig?
I Ja.
I Nein.
xyplot(resid(erglm1) ~ fitted(erglm1))
2
resid(erglm1)
−2
2 3 4 5 6
fitted(erglm1)
resid(erglm1)
0
−2
2 3 4 5 6
fitted(erglm1)
predict(erglm1, # Modell
# Neue Beobachtung mit x=1000:
newdata = data.frame(total_bill = 1000),
# Prognoseintervall:
interval = "prediction")
## [1] NA
##
## Call:
## lm(formula = tip ~ 1, data = tips)
##
## Coefficients:
## (Intercept)
## 2.998
## Female Male
## 2.833448 3.089618
## diffmean
## 0.2561696
10
6
tip
Female Male
sex
##
## Call:
## lm(formula = tip ~ sex, data = tips)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.0896 -1.0896 -0.0896 0.6666 6.9104
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.8334 0.1481 19.137 <2e-16 ***
## sexMale 0.2562 0.1846 1.388 0.166
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 1.381 on 242 degrees of freedom
## Multiple R-squared: 0.007896, Adjusted R-squared: 0.003797
## F-statistic: 1.926 on 1 and 242 DF, p-value: 0.1665
## prop_Yes.Dinner prop_Yes.Lunch
## 0.3977273 0.3382353
## diffprop
## -0.05949198
##
## Call:
## lm(formula = (smoker == "Yes") ~ time, data = tips)
##
## Coefficients:
## (Intercept) timeLunch
## 0.39773 -0.05949
I Eine Lineare Regression eines Anteils kann nicht so interpretiert werden wie die
/ {0, 1} und
lineare Regression eines numerischen Merkmals.139 Insbesondere ist ŷ ∈
die Annahmen sind verletzt, d. h., p-Werte etc. stimmen nicht.
I Die richtige Herangehensweise wäre z. B. eine Logistische Regression: glm(y~x,
family=binomial).
I Weitere Regressionstypen (Auswahl):
I Multinomiale Regression: multinom() (Nominale abhängige Variable, Paket nnet).
I Proportional Odds Logistische Regression: polr() (Ordinale abhängige Variable,
Paket MASS).
139 β̂, R2
Woran können Sie primär in einem linearen Modell erkennen, ob Sie ein gutes Modell
haben – bei einer metrischen abhängigen Variable y?
A. An einem kleinen p-Wert.
B. An einem großen p-Wert.
C. An einer im Betrag kleinen geschätzten Steigung.
D. An einer im Betrag großen geschätzten Steigung.
E. An einem großen R2 .
Modellgleichung:
Können sich die geschätzten Werte und deren p-Werte ändern, wenn Variablen ins
Modell hinzugenommen oder weggenommen werden?
I Ja.
I Nein.
summary(erglm3)
##
## Call:
## lm(formula = tip ~ total_bill + sex, data = tips)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.1914 -0.5596 -0.0875 0.4845 3.7465
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.933278 0.173756 5.371 1.84e-07 ***
## total_bill 0.105232 0.007458 14.110 < 2e-16 ***
## sexMale -0.026609 0.138334 -0.192 0.848
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 1.024 on 241 degrees of freedom
## Multiple R-squared: 0.4567, Adjusted R-squared: 0.4522
## F-statistic: 101.3 on 2 and 241 DF, p-value: < 2.2e-16
plotModel(erglm3)
10.0
7.5
.color
tip
Female
Male
5.0
2.5
0 20 40
total_bill
WiSe 21/22 Martin Vogt | Statistik 498
12. Lineare Regression
Übung 158: Regression Trinkgeld auf Rechnungshöhe und Geschlecht
Stimmt die Aussage: Bei gleicher Rechnungshöhe geben Männer in der Stichprobe im
Mittel mehr Trinkgeld als Frauen.
I Ja.
I Nein.
set.seed(1896) # Reproduzierbarkeit
Bootvtlg <- do(10000) * lm(tip ~ total_bill + sex,
data = resample(tips))
confint(Bootvtlg)
10.0
7.5
.color
tip
Female
Male
5.0
2.5
0 20 40
total_bill
10.0
7.5
.color
tip
Female
Male
5.0
2.5
0 20 40
total_bill
##
## Call:
## lm(formula = tip ~ total_bill + sex + total_bill:sex, data = tips)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.2232 -0.5660 -0.0977 0.4796 3.6675
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.048020 0.272498 3.846 0.000154 ***
## total_bill 0.098878 0.013808 7.161 9.75e-12 ***
## sexMale -0.195872 0.338954 -0.578 0.563892
## total_bill:sexMale 0.008983 0.016417 0.547 0.584778
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 1.026 on 240 degrees of freedom
## Multiple R-squared: 0.4574, Adjusted R-squared: 0.4506
## F-statistic: 67.43 on 3 and 240 DF, p-value: < 2.2e-16
In der Stichprobe, in dem Modell: die Rechnungshöhe liegt bei 15 $. Ist es im Mittelwert
für den Kellner besser wenn eine Frau zahlt?
A. Ja.
B. Nein.
C. Egal.
anova(erglm4)
Woran können Sie am ehesten erkennen, dass eine Variable x j zur Modellierung von y
beiträgt?
A. An einem kleinen | β̂ j |.
B. An einem großen | β̂ j |.
C. An einem kleinen p-Wert.
D. An einem großen p-Wert.
Die Wahl der wichtigen Variablen im Modell ist nicht trivial. Dabei wird ein Kritierum
wie z. B. AIC141 zur Modellevaluierung verwendet. Mögliche Herangehensweisen z. B.
I Vorwärts Auswahl: Fange nur mit Achsenabschnitt an und füge schrittweise neue
Variablen hinzu, bis sich die Modellgüte nicht mehr verbessert.142
I Rückwärts Auswahl: Fange mit allen Variablen an und eliminiere schrittweise
einzelne Variablen, bis sich die Modellgüte nicht mehr verbessert.
In R: z. B. step()
Achtung: Eine Interpretation von p-Werten ist nach einer Variablenselektion nicht direkt
möglich.
141 Akaike
Informations Kriterium, siehe z. B. https://otexts.org/fpp2/selecting-predictors.html
142 Das
normale R2 steigt mit jeder Variablen im Modell – auch wenn diese nicht mit y
zusammenhängt.
WiSe 21/22 Martin Vogt | Statistik 513
12. Lineare Regression
Modellkomplexität
Schätzen (auf Basis von n = 100 Beobachtungen: Training) und Testen (auf Basis von
n = 10000: Test) des Polynoms143
y = −x3 + 8x2 − 9x − 18 + e
Stimmt die Aussage: Je komplexer144 ein Modell ist, desto besser erklärt es die
vorhandenen Daten?
I Ja.
I Nein.
Stimmt die Aussage: Je komplexer145 ein Modell ist, desto besser erklärt es zukünftige
Daten?
I Ja.
I Nein.
[. . . ] In general, when building statistical models, we must not forget that the
aim is to understand something about the real world. Or predict, choose an
action, make a decision, summarize evidence, and so on, but always about the
real world, not an abstract mathematical world: our models are not the reality
– a point well made by George Box in his oft-cited remark that “all models are
wrong, but some are useful” [. . . ]146
146 Hand, D. J. (2014). Wonderful Examples, but Let’s not Close Our Eyes. Statistical Science 29(1),
98-100 https://projecteuclid.org/euclid.ss/1399645735
147 Shmueli, G. (2015) To Explain or to Predict? Statistical Science 25(3), 289-310
https://projecteuclid.org/euclid.ss/1294167961
WiSe 21/22 Martin Vogt | Statistik 517
12. Lineare Regression
Offene Übung 167: Verlobungsring
Sie möchten Ihrer Freundin einen Verlobungsring kaufen, kennen aber ihre Ringgröße
nicht. Es ist aber zu verdächtig, sie direkt zu fragen. Sie wissen aber, dass kleinere
Frauen tendenziell auch kleinere Ringgrößen haben, und nach ihrer Körpergröße können
Sie sie ohne Bedenken fragen. Sie ist 172 cm groß. Was nun?
Sie haben die folgenden Größen und Ringgrößen von Bekannten:
Person i 1 2 3 4 5 6 7 8 9 10
Körpergröße 156.3 158.9 160.8 179.6 156.6 165.1 165.9 156.7 167.8 160.8
Ringgröße 47.1 46.8 49.3 53.2 47.7 49.0 50.6 47.1 51.7 47.8
Für 6 verschiedene Monate liegen die Daten über den Hypothekenzinssatz x (in%) sowie
über den saisonbereinigten Auftragseingang y (in Mio EUR) im Bauhauptgewerbe, der
auf den privaten Wohnungsbau entfällt, vor:
Monat i 1 2 3 4 5 6
Zinssatz x 6 5 7 7 8 9
Aufträge y 3000 3200 2500 2300 2000 2000
I Bitte schicken Sie mir Ihren Tip (inklusive Lösungsskizze) per E-Mail (Betreff:
Preis: XXX ).
I Die Person, die dem Preis am nächsten kommt, erhält einen Preis.
Modellieren Sie die Rechnungshöhe als Funktion der Anzahl Personen sowie der
Tageszeit.
Was beeinflusst den Wert einer Immobilie? Natürlich die Größe und die Lage. Aber was
ist wirklich relevant, was ist signifikant? Im Rahmen einer Sutide wurden 1978 mögliche
Einflussfaktoren auf Immobilienwerte (medv) in Boston untersucht (n=506)
Beobachtungen:
library(MASS)
data(Boston)
Welche Variablen sind in dem Datensatz enthalten? Führen Sie eine multiple lineare
Regression des Immobilienwertes auf die anderen Variablen durch und interpretieren Sie
das Ergebnis.
360
350
340
co2
330
320
1960 1970 1980 1990
Zeit
Ziel: Modellierung der Variation eines numerischen Merkmals y durch die Zeit t.
Eine Zeitreihe, d. h. hier ein regelmäßig beobachtes Merkmal yt , kann in verschiedene
Komponenten zerlegt werden:148
I Trend: mt
I Saisonkomponenten: st
I Rest-/ Fehlerkomponenten: et
“Immer dasselbe: Kurz vor der Klausur gibt es eine Spitze in den Lehrbuchverkäufen.”149
Dr. Pieter Tans, NOAA/ESRL150 und Dr. Ralph Keeling, Scripps Institution of
Oceanography151 stellen aktuelle Daten zur CO2 Konzentration zur Verfügung:
https://www.esrl.noaa.gov/gmd/ccgg/trends/data.html
Hinweis: Sollte das Herunterladen nicht klappen, können Sie auch einfach über
data(co2) historische Daten verwenden.
150 www.esrl.noaa.gov/gmd/ccgg/trends/
151 scrippsco2.ucsd.edu/
# Datei herunterladen
#data <- read.table(file=url(urlco2))
data<-read.table(file="CO2.txt")
# Relevante Spalte als Monatliche Zeitreihe definieren
co2 <- ts(data$V5, start = c(data$V1[1], data$V2[1]), frequency = 12)
plot(co2) 400
380
co2
360
340
320
Time
400
380
co2
360
340
320
1960 1970 1980 1990 2000 2010 2020
Time
q
1 X
ŷq,t = y t+ j
p
j=−q
mit p = 2q + 1. D. h., yˆt ist der Mittelwert von yt und der q vorhergehenden und
nachfolgenden Beobachtungen
# Einmalig installieren
install.packages("forecast")
# Paket laden
library(forecast)
340
320
Time
Stimmt die Aussage: Je größer p (order), desto glatter wird die geglättete Zeitreihe?
I Ja.
I Nein.
I Glätten Sie die Zeitreihe der Arbeitslosen mit einem 5-Gliedrigen Gleitenden
Durchschnitt von Feb 2019 bis Dez 2017
I Trend: mt
I Saisonkomponenten: st
I Rest-/ Fehlerkomponenten: et
I Additives Modell: yt = mt + st + et
I Trendbereinigung: yt − mt = st + et
I yt − mt − st = et
I Saison von Restkomponente trennen
I Führen Sie für die Zeitreihe der Arbeitslosen von Feb 2019 - März 2015 eine
Saisonbereinigung durch.
I Benutzen Sie Gleitende Durchschnitte der Ordnung 12
3
2
seasonal
1
−1 0
−3
320 340 360 380 400
trend
1.0
0.5
remainder
0.0
−0.5
1960 1970 1980 1990 2000 2010 2020
time
Häufig müssen Daten vor der eigentlichen Analyse vorverarbeitet werden, z. B.:
I Variablen auswählen: select()
I Beobachtungen auswählen: filter()
I Variablen verändern, neu erzeugen: mutate()
I Beobachtungen zusammenfassen: summarise()
I ...
Das Paket dplyr155 bietet dazu viele Möglichkeiten.
Umfangreiche Dokumentation: http://dplyr.tidyverse.org/index.html
156 Bryant,
P. G. and Smith, M (1995) Practical Data Analysis: Case Studies in Business Statistics.
Homewood, IL: Richard D. Irwin Publishing
WiSe 21/22 Martin Vogt | Statistik 548
14. Datenhandling
Variablen auswählen: select()
tips %>%
select(sex, total_bill) %>%
inspect()
##
## categorical variables:
## name class levels n missing
## 1 sex factor 2 244 0
## distribution
## 1 Male (64.3%), Female (35.7%)
##
## quantitative variables:
## name class min Q1 median Q3 max mean
## ...1 total_bill numeric 3.07 13.3475 17.795 24.1275 50.81 19.78594
## sd n missing
## ...1 8.902412 244 0
x | y
x | (!y)
Hundeliebhaber*in
Katzenliebhaber*in
20 10 15
Stimmt die Aussage: Wenn Beobachtungen anhand einer Und (∧) Verknüpfung
ausgewählt werden, so werden mindestens so viele Beobachtungen wie bei einer Oder
(∨) Verknüpfung ausgewählt?
I Ja.
I Nein.
WiSe 21/22 Martin Vogt | Statistik 552
14. Datenhandling
Vergleichen
I gleich, (=): ==
I ungleich (6=): !=
I kleiner, kleiner gleich (<, 6): <, <=
I größer, größer gleich (>, >): >, >=
4 == 5
## [1] FALSE
4 != 5
## [1] TRUE
4 <= 5
## [1] TRUE
4 > 5
## [1] FALSE
WiSe 21/22 Martin Vogt | Statistik 553
14. Datenhandling
Beobachtungen auswählen: filter()
tips %>%
filter(sex=="Female" & total_bill>20) %>%
inspect()
##
## categorical variables:
## name class levels n missing
## 1 sex factor 2 27 0
## 2 smoker factor 2 27 0
## 3 day factor 4 27 0
## 4 time factor 2 27 0
## distribution
## 1 Female (100%), Male (0%)
## 2 No (63%), Yes (37%)
## 3 Sat (48.1%), Sun (25.9%), Thur (22.2%) ...
## 4 Dinner (77.8%), Lunch (22.2%)
##
## quantitative variables:
## name class min Q1 median Q3 max mean
## ...1 total_bill numeric 20.27 22.585 26.41 29.995 44.3 27.726667
## ...2 tip numeric 1.50 2.900 3.61 5.000 6.5 3.800370
## ...3 size integer 2.00 2.000 3.00 4.000 6.0 3.259259
## sd n missing
## ...1 6.594811 27 0
## ...2 1.191278 27 0
## ...3 1.227649 27 0
Erzeugen Sie einen Datensatz, der nur die Variable tip enthält, und zwar für die Tische,
an denen zum Dinner geraucht wurde.
tips %>%
mutate(paid=total_bill+tip) %>%
select(paid) %>%
inspect()
##
## quantitative variables:
## name class min Q1 median Q3 max mean sd n
## ...1 paid numeric 4.07 15.475 20.6 27.7225 60.81 22.78422 9.890116 244
## missing
## ...1 0
tip
Wie viele Beobachtungen haben eine relative Trinkgeldhöhe total_bill über 10%?
A. 244
B. 217
C. 27
tips %>%
mutate(bill = case_when(total_bill <= 10 ~ "low",
total_bill <= 20 ~ "middle",
total_bill > 20 ~ "high")) %>%
select(bill) %>%
table()
## .
## high low middle
## 97 17 130
Hinweis: Anstelle der letzten Abfrage (total_bill > 20) hätte auch einfach TRUE
verwendet werden können.
tips %>%
mutate(party = case_when((smoker=="Yes" & time=="Dinner")
~ "Party",
TRUE ~ "No Party"))
B.
tips %>%
mutate(party = case_when((smoker=="Yes" | time=="Dinner")
~ "No Party",
TRUE ~ "Party"))
tips %>%
dplyr::summarise(mean_bill=mean(total_bill), n=n())
## mean_bill n
## 1 19.78594 244
tips %>%
group_by(sex, time) %>%
dplyr::summarise(mean_bill=mean(total_bill), n=n())
## # A tibble: 4 x 4
## # Groups: sex [2]
## sex time mean_bill n
## <fct> <fct> <dbl> <int>
## 1 Female Dinner 19.2 52
## 2 Female Lunch 16.3 35
## 3 Male Dinner 21.5 124
## 4 Male Lunch 18.0 33
tips %>%
group_by(sex) %>%
top_n(n=3, tip) %>%
arrange(-tip)
## # A tibble: 6 x 7
## # Groups: sex [2]
## total_bill tip sex smoker day time size
## <dbl> <dbl> <fct> <fct> <fct> <fct> <int>
## 1 50.8 10 Male Yes Sat Dinner 3
## 2 48.3 9 Male No Sat Dinner 4
## 3 39.4 7.58 Male No Sat Dinner 4
## 4 28.2 6.5 Female Yes Sat Dinner 3
## 5 34.8 5.2 Female No Sun Dinner 4
## 6 34.8 5.17 Female No Thur Lunch 4
Hinweis: Auf diese Art und Weise können auch Datensätze balanciert werden.158
158 Vgl. geschichtete Stichprobe: group_by() %>% sample_n()
WiSe 21/22 Martin Vogt | Statistik 563
14. Datenhandling
Spalten sortieren: arrange()
tips %>%
group_by(sex) %>%
top_n(n=3, tip) %>%
arrange(sex)
## # A tibble: 6 x 7
## # Groups: sex [2]
## total_bill tip sex smoker day time size
## <dbl> <dbl> <fct> <fct> <fct> <fct> <int>
## 1 34.8 5.2 Female No Sun Dinner 4
## 2 34.8 5.17 Female No Thur Lunch 4
## 3 28.2 6.5 Female Yes Sat Dinner 3
## 4 39.4 7.58 Male No Sat Dinner 4
## 5 50.8 10 Male Yes Sat Dinner 3
## 6 48.3 9 Male No Sat Dinner 4
##
## quantitative variables:
## name class min Q1 median Q3 max mean
## ...1 ID integer 1.00 61.7500 122.500 183.2500 244.00 122.500000
## ...2 total_bill numeric 3.07 13.3475 17.795 24.1275 50.81 19.785943
## ...3 tip numeric 1.00 2.0000 2.900 3.5625 10.00 2.998279
## sd n missing
## ...1 70.580923 244 0
## ...2 8.902412 244 0
## ...3 1.383638 244 0
Berechnen Sie den Mittelwert und die Standardabweichung der relativen Trinkgeldhöhe,
je nachdem ob es sich um eine “Party” oder nicht gehandelt hat.
Häufig ist es sinnvoll, sich die Ergebnisse einer statistischen Analyse in Tabellenform159
ausgeben zu lassen. So erwartet z. B. die Diagrammbefehle gf_XXX160 eine Tabelle als
Eingabe. Die Funktion df_stats161 leistet das:
Tidy data:162
I Jede Variable ist eine Spalte.
I Jede Beobachtung ist eine Zeile.
I Jeder Wert ist eine Zelle.
Herausforderungen:
I Breiter Datensatz: Eine Variable über mehrere Spalten.
I Langer Datensatz: Eine Beobachtung über mehrere Zeilen.
162 Wickham, H. (2014). Tidy data. Journal of Statistical Software, 59(10), 1-23.
WiSe 21/22 Martin Vogt | Statistik 568
14. Datenhandling
Langer Datensatz über gather()
str(tips_long)
str(tips_wide)
I Ein Zufallsexperiment ist ein Vorgang bei dem unter (scheinbar) gleichen
Voraussetzungen unterschiedliche Ereignisse eintreten können.
I Sei ωi (gr.: omega) ein einzelnes Elementarereignis (Realisation), z. B.
ωi =“Hannover 96” oder ωi =“Der DAX steigt morgen um 5 %”, oder ωi =“Die
Münze zeigt Kopf”.
I Ω (gr.: Omega) ist die Menge aller Elementarereignisse, z. B.
Ω = {("Die Münze zeigt Kopf"), ("Die Münze zeigt Zahl")}, oder für die Anzahl
Kunden Ω = N0 = {0, 1, 2, . . .}.
I Sei A ein Ereignis, welches aus mehreren Elementarereignissen zusammengesetzt
sein kann. z. B. Wurf eines Würfels mit Ω = {ω1 , ω2 , . . . ω6 } wobei ωi : “Würfel
zeigt i” und A = {ω2 , ω4 , ω6 }. Das gegenteilige Ergeignis (Komplement) ist dann
A C = {ω ⊂ Ω : ω ∈ / A}.
I W sei unser (Vor-)wissen, z. B. ein fairer, sechs seitiger Würfel.
Alle: Ω
65000
Katzenliebhaber*in: B
Hundeliebhaber*in: A
Die Wahrscheinlichkeit P eines Ereignisses ist ein Maß für die Unsicherheit:
P( A|W ) ∈ [0, 1], die Wahrscheinlichkeit von A, vor unserem Wissenshintergrund W.
Wenn W klar ist, wird es ggfs. nicht angegeben.
Für eine Wahrscheinlichkeit gelten folgende Axiome:
I 0 6 P( A|W ) 6 1.
I P(Ω|W ) = 1.
I P( A ∪ B|W ) = P( A|W ) + P( B|W ) wenn A ∩ B = ∅ gilt.
“Na, das nenne ich mal eine 25 % Chance für gutes Wetter!”167
P( A| B, W ) = P( A|W ), P( B| A, W ) = P( B|W )
D. h., dadurch, dass ein Ereignis eingetreten ist, ändert sich nicht die
Wahrscheinlichkeit des anderen.168
168 Eine harte Forderung: Wenn in China ein Sack Reis umfällt. . .
WiSe 21/22 Martin Vogt | Statistik 585
15. Wahrscheinlichkeitsrechnung
Übung 191: Unabhängigkeit
“Nachdem Sie am selben Tag das Lotto 6 aus 49 und den Eurojackpot gewannen gingen
Hans und Peter feiern.”169
1.0
0.8
0.6 Wurf einer fairen Münze
Anteil Kopf
0.4
0.2
0.0
Würfe
Nehmen Sie an, Sie wären in einer Spielshow und hätten die Wahl zwischen drei
Toren. Hinter einem der Tore ist ein Auto, hinter den anderen sind Ziegen. Sie
wählen ein Tor, sagen wir, Tor Nummer 1, und der Showmaster, der weiß, was
hinter den Toren ist, öffnet ein anderes Tor, sagen wir, Nummer 3, hinter dem
eine Ziege steht. Er fragt Sie nun: “Möchten Sie das Tor Nummer 2?”" Ist es
von Vorteil, die Wahl des Tores zu ändern?173
173 Craig F. Whitaker: Ask Marilyn. Parade Magazine, 9. September 1990, S. 16.
WiSe 21/22 Martin Vogt | Statistik 589
15. Wahrscheinlichkeitsrechnung
Totale Wahrscheinlichkeit
5 % der Bauteile von Lieferant “Gut und teuer” sind defekt, 20 % der Bauteile von
“Schnell und billig”. Sie bekommen 90 % der Bauteile von “Schnell und billig” (W). Wie
groß ist die Wahrscheinlichkeit, dass ein Bauteil defekt ist.
I Angenommen Sie bekommen 10000 Teile. Dann sind 9000 = 10000 · 0, 9 von
“Schnell und billig”, 1000 = 10000 · (1 − 0, 9) von “Gut und teuer”.
I Von den 9000 “Schnell und billig” sind 9000 · 0, 2 = 1800 defekt, von den 1000
“Gut und teuer” sind es 1000 · 0, 05 = 50. Macht zusammen 1800 + 50 = 1850 von
10000, also P(Defekt|W ) = 10000
1850 = 0, 185: Man kann also aus den bedingten
P( A|W ) = P( A| B, W ) · P( B|W ) + P( A| BC , W ) · P( BC |W )
P( B| A, W ) · P( A|W )
P( A| B, W ) =
P( B|W )
Mit Hilfe des Satzes von Bayes können Sie die Bedingungen umkehren!
Tipp: Statt mit Wahrscheinlichkeiten absolute Häufigkeiten verwenden.
1. Bestimmung der Wahrscheinlichkeit, dass das Wort “Viagra” in einer Email ist:
Satz von der totalen Wahrscheinlichkeit:
P( B|W ) = P( B| A, W ) · P( A|W ) + P( B| AC , W ) · P( AC |W )
= 0, 5 · 0, 2 + 0, 001 · (1 − 0, 2)
= 0, 10008
Die Wahrscheinlichkeit, dass es sich bei der Email mit dem Wort “Viagra” um
Spam handelt liegt bei über 99,9%!
WiSe 21/22 Martin Vogt | Statistik 595
15. Wahrscheinlichkeitsrechnung
Übung 195: Satz von Bayes
Ein Test schlägt immer Alarm, wenn ein Fall, z. B. Krankheit, vorliegt, und es gibt nur
in 5 % der Fälle einen Fehlalarm. A priori ist einer von 1000 ein Fall, d. h. z. B. krank.
Wie hoch ist die Wahrscheinlichkeit, dass ein Fall, d. h. z. B. Krankheit, vorliegt, wenn
ein Alarm erfolgt?
A. ≈ 100%
B. ≈ 95%
C. ≈ 50%
D. ≈ 2%
176 False positive sind diejenigen, die als krank diagnostiziert werden, es aber nicht sind.
177 False negative sind diejenigen, die als gesund diagnostiziert werden, es aber nicht sind.
WiSe 21/22 Martin Vogt | Statistik 598
15. Wahrscheinlichkeitsrechnung
Übung 197: Sensitivität
Was bedeutet die Aussage: “Der Test hat eine Sensitivität von 95 %”?
A. Von 100 Kranken werden 5 fälschlicherweise als gesund eingestuft.
B. Von 100 Gesunden werden 5 fälschlicherweise als krank eingestuft.
Angenommen in einem Kurs sitzen 100 Studierende, 90 arbeiten mit, 10 nicht. Von den
90, die mitarbeiten, bestehen 80 die Klausur, von den 10, die nicht mitarbeiten, 1.178
I Die Chance (engl. odds) die Klausur zu bestehen, wenn mitgearbeitet wird, liegt
bei 80 : 10 = 8
P( A| B, W )
Odds( A| B, W ) =
1 − P( A| B, W )
.
I Die Chance zu bestehen, wenn nicht mitarbeitet wird, liegt bei 1 : 9.
I Das Chancenverhältnis (Quotenverhältnis, engl. odds ratio, OR), liegt bei
8 : 19 = 72 - d. h. die Chance die Klausur zu bestehen ist 72 mal höher, wenn
mitgearbeitet wird als wenn nicht mitgearbeitet wird.
Odds( A| B, W ) P( A| B, W ) · (1 − P( A| BC , W )
OddsRatio = =
Odds( A| BC , W ) P( A| BC , W ) · (1 − P( A| B, W )
n11
n21
OddsRatio = n12
n22
I Sensitivität179 : nn11
1·
I Spezifität180 : nn22
2·
Gesichtserkennung Gesichtserkennung
Alarm kein Alarm Summe
Straftäter*in n11 = n12 = n 1· =
181 https://www.bmi.bund.de/SharedDocs/kurzmeldungen/DE/2017/12/sicherheitsbahnhof-
verlaengerung.html
WiSe 21/22 Martin Vogt | Statistik 602
15. Wahrscheinlichkeitsrechnung
Offene Übung 199: Präzision Gesichtserkennung
Wie hoch ist der Anteil der richtig erkannten Straftäter*innen, d. h. wie viele der Alarme
sind berechtigt, d. h. a posteriori Wahrscheinlichkeit ein(e) Straftäter*in zu sein, wenn
ein Alarm vorliegt?
Wie ändert sich die Chance ein(e) Straftäter*in zu sein, wenn ein Alarm vorliegt?
P
Verteilung der Summe X = in=1 Xi von unabhängigen, identisch verteilten
Zufallsvariablen Xi , i = 1, ...n einer beliebigen Verteilung jeweils mit Erwartungswert µ
und Standardabweichung
√
σ nähert sich für immer größere n immer besser der
N (nµ, σ n)-Verteilung an.
Dies ist eine Erklärung für die Bedeutung der Normalverteilung.
I Eine Zufallsvariable X ist eine Variable, deren Wert x vom Zufall abhängt.
I Beobachtungen xi können aufgefasst werden als Realisationen von Zufallsvariablen
X.
I Die Verteilungsfunktion F( x) sagt, wie wahrscheinlich es ist, einen Wert 6 x zu
beobachten: F(x) = P(X 6 x), und damit 0 6 F(x) 6 1.
I Durch eine zufällige Stichprobe oder eine zufällige Zuordnung im Rahmen eines
Experimentes soll sichergestellt werden, dass die Beobachtungen xi , i = 1, . . . , n
unabhängig und identisch verteilt sind.
Dichtefunktion
0.02
f(x)=F'(x)
0.01
0.00
25 50 75 100
Punkte
Verteilungsfunktion
1.00
0.75
F(x)=P(X ≤ x)
0.50
0.25
0.00
25 50 75 100
Punkte
I Dichtefunktion:
1 ( x − µ )2
−
f ( x) = √ e 2σ2
2πσ2
I Verteilungsfunktion:
Zx ( u − µ )2
1 −
F( x) = √ e 2σ2 du
−∞ 2πσ2
Lage und Streuung:
R∞
I µ = E(X ) = −∞ x · f (x)dx: Mittelwert der Verteilung (Erwartungswert).
R∞
I σ2 = Var(X ) = −∞ ( x − µ)2 · f ( x)dx: Varianz der Verteilung.
Unter der Annahme einer Normalverteilung können abhängig von den Parametern µ und
σ Wahrscheinlichkeiten berechnet werden.
0.15
f(x)=F'(x)
0.10
0.05
0.00
−10 0 10 20 30
x
0.15
f(x)=F'(x)
0.10
0.05
0.00
−10 0 10 20 30
x
0.15
f(x)=F'(x)
0.10
0.05
0.00
−10 0 10 20 30
x
p = F ( x ) = P( X 6 x )
0.03
z = −0.7
0.02
density
0.01
0.00
0 30 60 90 120
x
## [1] 0.2419637
Stimmt die Aussage: Die Verteilungsfunktion ist monoton steigend, d. h., mit größerem
x wird F(x) zumindest nicht kleiner?
I Ja.
I Nein.
zscore(c(0,1,2))
## [1] -1 0 1
zscore(c(100,200,300))
## [1] -1 0 1
183 x = z·σ+µ
WiSe 21/22 Martin Vogt | Statistik 617
16. Normalverteilung
Übung 204: Verteilungsfunktion (I/II)
Ein Studierender hat 60 Punkte erreicht:
0.03
z = 0.33
0.02
density
0.01
0.00
0 30 60 90 120
x
## [1] 0.6305587
xpnorm(c(-2,2)) # Standardnormalverteilung
0.4
0.3
probability
density
A:0.0228
0.2
B:0.9545
C:0.0228
0.1
0.0
−4 −2 0 2 4
Die Daten seien normalverteilt mit µ = 100 und σ = 15. Ist dann x = 150 ein üblicher
Wert?
I Ja.
I Nein.
Welchen z-Wert184 hat ein Kandidat mit x = 130, wenn µ = 100 und σ = 15 ist?
0.03
z = 1.28
0.02
density
0.01
0.00
0 30 60 90 120
x
## [1] 74.22327
185 90% sind nicht besser
WiSe 21/22 Martin Vogt | Statistik 623
16. Normalverteilung
Übung 207: Quantilsfunktion
Mit bis zu wie vielen Punkten zählt man zu dem oberen Drittel der Klausur?
A. xqnorm(1/3, mean = 55, sd = 15): 49 Punkte.
B. xqnorm(2/3, mean = 55, sd = 15): 61 Punkte.
2
0.4
1
0.3
sample
density
0
0.2
−1
0.1
−2
0.0
−3 −2 −1 0 1 2 −3 −2 −1 0 1 2 3
xnorm theoretical
0.20
15
0.15
10
sample
density
0.10
0.05
0
0.00 −5
0 5 10 15 −3 −2 −1 0 1 2 3
xchi2 theoretical
x3 <- pnorm(-3)
(2*x3) * 1e06
## [1] 2699.796
erwartet.187
187 Innerhalb von Six Sigma wird zur Berechnung des erwarteten Fehleranteils (“DPMO”) zusätzlich
eine langfristige Mittelwertsberschiebung um 1.5σ berücksichtigt, die hier ignoriert wird.
WiSe 21/22 Martin Vogt | Statistik 627
16. Normalverteilung
Übung 209: Six Sigma
Wie viele Fehler pro Million werden erwartet, wenn der akzeptierte Bereich innerhalb
von 6σ liegt?188
A. ≈ 2700
B. ≈ 65
C. ≈1
D. < 0.1
Gabi und Klaus haben zwei verschiedene Tests geschrieben. Dabei hat Gabi bei Test A
(µ = 60, σ = 10) 75 Punkte erreicht, Klaus bei Test B (µ = 250, σ = 25) 275 Punkte.
Beide Tests sollen das Gleiche testen und die Testergebnisse seien normalverteilt. Wer
von beiden hat besser abgeschnitten?
A. Gabi
B. Klaus
C. Beide gleich gut.
Zahlreiche Fonds (etwa viele sogenannte UCITS) müssen täglich einen Value-at-Risk
(VaR) berechnen. Die Europäische Wertpapier- und Marktaufsichtsbehörde (ESMA)
gibt hierzu in den Richtlinien 10/788 die folgende Erklärung:
“The VaR approach measures the maximum potential loss at a given confidence level
(probability) over a specific time period under normal market conditions. For example if
the VaR (1 day, 99%) of a UCITS equals $4 million, this means that, under normal
market conditions, the UCITS can be 99 % confident that a change in the value of its
portfolio would not result in a decrease of more than $4 million in 1 day.”
1. Interpretieren Sie die Erklärung und das Beispiel der ESMA in Bezug auf den VaR.
2. Sie möchten den VaR für ihr Portfolio berechnen. Dieses bestehe aus 100 Aktien
der Firma Autokomplex mit einem momentanen Wert von je 46 Euro. Eine häufig
gemachte Annahme in der Finanzwelt ist, dass die 1-Tages-Verluste der Aktien
annähernd normalverteilt sind. Sie haben erfahren, dass die Standardabweichung
der 1-Tages Verluste 0,017 und der Erwartungswert 0 beträgt. Berechnen Sie den
1-Tages VaR mit 99 % Konfidenzlevel Ihres Portolios und interpretieren Sie den
Wert.
3. Wo sehen Sie allgemein Schwierigkeiten bei der Berechnung des VaR für
Portfolios/Fonds?
Fotos: Pixabay.com
Deskriptivstatistik Inferenzstatistik
189 Induktion
Prüfung:
I Klausur 90 Minuten. Zur Vergabe von Credit Points muss die Klausur mit einer
mindestens ausreichenden Leistung bestanden werden.
Diese Folien basieren auf Folien, die von Autor*innen der FOM https://www.fom.de/
unter der Lizenz CC-BY-SA-NC 3.0 de:
https://creativecommons.org/licenses/by-nc-sa/3.0/de/ entwickelt wurden.
Der verwendete Code sowie das Beamer Template basieren auf dem von Norman
Markgraf in dem NPBT-Projekt entwickelten unter der Lizenz GNU General Public
License v3.0 veröffentlichten Vorlagen.
I Datum erstellt: 2021-09-29
I R Version: 3.5.2
I mosaic Version: 1.5.0
Viel Erfolg!