6 Stats Univariate II

Statistik I
Thema: Univariate Deskriptivstatistik

für metrische Variablen
Tobias Koch
Psychologische Hochschule Berlin
Sommersemester 2019
Mittwoch 12-14 Uhr (c.t.)
Literatur
Kapitel 6.4 aus
Eid, M., Gollwitzer, M. & Schmitt, M.

(2015, 4. Aufl.). Statistik und
Forschungsmethoden. Weinheim:
Beltz.
Koch | Statistik I & 2

Überblick I
• Darstellung der Verteilung
• Histogramm
• Polygonzug
• Verteilungsformen
• Lagemaße
• Modus
• Median
• Arithmetisches Mittel

Überblick II
• Dispersionsmaße
• Streubereich und Variationsbreite (Spannweite, Range)
• Interquartilsabstand
• Box-Plot
• Varianz
• Standardabweichung
• Quantile
• Schiefe und Exzeß
• z-Transformation und Zentrierung

Univariate Deskriptivstatistik
für metrische Variablen

Beispiel: metrische Variablen
• Messung der Reaktionszeiten zur Beantwortung von Stimmungsitems

Beispiel: metrische Variablen
Interessante Fragen:
1. Wie schnell beantworten Personen im Mittel ihre Stimmungen?
2. Unterscheiden sich Personen in ihren Reaktionszeiten?
3. Welche Reaktionszeiten kommen besonders häufig vor, sind
„typisch“?
4. Welche Reaktionszeiten sind eher selten bzw. ungewöhnlich?

Nachteile eines Säulendiagramms
• Auszug aus der Urliste (n = 88)
2,98166666666667
5,42833333333333
3,15041666666667
4,87541666666667
…

Darstellung der Häufigkeitsverteilung
stetiger bzw. quasistetiger Variablen
• Zur Darstellung der Häufigkeitsverteilung bei stetigen (bzw.
quasistetigen Variablen) greift man häufig auf drei
Darstellungsformen zurück:
1. Stamm-Blatt-Diagramme (Stem-leaf displays)
2. Histogramme
Im Folgenden werden wir diese Darstellungsformen genauer behandeln.
3. Polygonzug
Koch | Statistik I & 147,153 9

Histogramm
Koch | Statistik I & 147-148 10

Fun Fact!

Histogramm
• Ein Histogramm stellt die Häufigkeitsverteilung kategorisierter (gruppierter)
Daten dar.
• Für die Gruppierung werden als Kategorien benachbarte Intervalle gewählt:
[c0; c1[, [c1; c2[ , …, [cj-1; cj[, …, [cq-1; cq[
• Die Flächen der Histogrammsäulen sind gleich oder proportional zu den
absoluten bzw. relativen Häufigkeiten.
• Fläche = Breite · Höhe
• Breite einer Kategorie: d = cj – cj-1
• Kategorienmitte: (cj + cj-1)/2
• Reduktionslage: untere Kategoriengrenze der ersten Kategorie

Histogramm
Kategorienbreite
0,5s
Kategorienmitte
Reduktionslage
(0,999+1,499)/2=1,245
Histogramm
• Der optische Eindruck wird durch die Breite bzw. die Anzahl der
Kategorien stark beeinflusst.
• Empfehlungen für die Anzahl q der Kategorien, Beispiele :

• 10 ≤ q ≤ 20
• 𝑞= 𝑘 k: Anzahl der Merkmalsausprägungen
• theoretische Festlegung
Koch | Statistik I & 146 14

Histogramm
• Es gibt somit verschiedene Möglichkeiten, für einen gegebenen
Datensatz Histogramme zu bilden.
• Die Festlegung der Kategoriengrenzen und –breiten aufgrund
theoretischer Überlegungen kann die Interpretation erleichtern.
• In R:
hist(dat$alter, breaks=15)
ggplot2 ggplot(dat, aes(x=age))+

geom_histogram(binwidth = 5, fill =
"royalblue",color = "black")+theme_bw()
Histogramm
Reduktionslage:
untere
Kategoriengrenze der
ersten Kategorie
hier: 29,5

Histogramm

Polygonzug

Einige Verteilungsformen
schmalgipflig breitgipflig bimodal

symmetrisch linksgipflig unsymmetrisch
U-förmig L-förmig J-förmig

Lagemaße für metrische Variablen
• Modus
• Median
• Mittelwert

Modalwert (Modus)
• Modus (Mo): Merkmalsausprägung, die am häufigsten vorkommt.
• Der Modus ist dann nicht eindeutig bestimmbar, wenn jede
Merkmalsausprägung nur einmal vorkommt.

Median
• Median (Md): Wert, der eine Reihe geordneter Beobachtungswerte in
zwei annähernd große Teile teilt.
• Mindestens 50% der Merkmalsträger haben kleinere Werte als oder
gleich große Werte wie der Median.
• Mindestens 50% der Merkmalsträger haben größere Werte als oder
gleich große Werte wie der Median.
𝑀𝑑 = 𝑥 '() für n ungerade
*
+
𝑀𝑑 = (𝑥 ' +𝑥 '
/+
) für n gerade
, * *
Koch | Statistik I & 139-140; 154-155 22

Median
Beispiel 1 (gerades n):
2 4 5 6 8 9 9 9 Md =
Beispiel 2 (gerades n):

2 4 5 6 8 100 1000 10000 Md =
Beispiel 3 (ungerades n):

12 14 15 17 18 20 20 Md =
Koch | Statistik I & 139-140; 154-155 23

Eigenschaften des Median
• Die Summe der Abweichungsbeträge aller Meßwerte vom Median ist kleiner als die
Summe der Abweichungsbeträge von irgend einem anderen Wert:
3
0 𝑥1 − 𝑀𝑑 = 𝑚𝑖𝑛
12+
• Beispiel: 5 6 8 100 Md = 7 𝑥=29,75

̅ (Mittelwert)
3
0 𝑥1 − 𝑀𝑑 = 5 − 7 + 6 − 7 + 8 − 7 + 100 − 7 = 2 + 1 + 1 + 93 = 97
12+
3
0 𝑥1 − 𝑥̅ = 5 − 29,75 + |6 − 29,75| + |8 − 29,75| + |100 − 29,75| = 140,5
12+

Arithmetisches Mittel
• Das arithmetische Mittel wird üblicherweise mit M, Mx oder
bezeichnet.
• Das arithmetische Mittel ist gleich der Summe aller beobachteten
Merkmalswerte dividiert durch die Anzahl der Beobachtungen:
3
1
𝑥̅ = 0 𝑥1
𝑛
12+
• Beispiel: 5 6 8 100
𝑥̅ =
• Kommt eine Merkmalsausprägung mehrmals vor, so kann das
arithmetische Mittel auch wie folgt bestimmt werden:
• aj bezeichnet hier eine Merkmalausprägung

∑GF2+ 𝑎F I 𝑛F • k: Anzahl der Merkmalsausprägungen
𝑥̅ =
𝑛 • nj: absolute Häufigkeit
• n: Anzahl der Personen
• Hinweis: Die beiden Formeln zur Berechnung des Mittelwerts fühen

nicht zwangsläufig zu denselben Ergebnissen.
∑GF2+ 𝑎F I 𝑛F
𝑥̅ =
𝑛
Beispiel:
aj 5 6 8 100
nj 2 5 3 1
𝑥̅ =

Eigenschaften des arithmetischen Mittels
Eigenschaften Formel
3
1. Die Summe der Abweichungen aller Messwerte vom
Mittelwert beträgt stets 0: 0 (𝑥1 − 𝑥)̅ = 0
12+
2. Die Summe der quadrierten Abweichungen der Messwerte 3
vom Mittelwert ist stets kleiner als die Summe der 0 (𝑥1 − 𝑥)̅ , = 𝑚𝑖𝑛
quadrierten Abweichungen von irgendeinem anderen Wert: 12+
3. Wird zu jedem Messwert xm eine additive Konstante a addiert,

verändert sich auch das arithmetische Mittel additiv um diese 𝑦1 = 𝑥1 + 𝑎 ⟹ 𝑦M + 𝑥̅ + 𝑎
Konstante:
4. Wird jeder Messwert xm mit einer Konstanten b multipliziert,
𝑦1 = 𝑏 I 𝑥1 ⟹ 𝑦M + 𝑏 I 𝑥̅
verändert sich auch das arithmetische Mittel multiplikativ um
diese Konstante:
Vergleich von Modus, Median und Mittelwert
Koch | Statistik I & Quelle: https://tinyurl.com/v5q3xxl 29

Vergleich von Mittelwert und Median
• Der Median repräsentiert die Lage einer Verteilung nach dem Kriterium der
kleinsten Absolutabweichung.
• Das arithmetische Mittel repräsentiert die Lage einer Verteilung nach dem
Kriterium der kleinsten Quadrate.
• Das arithmetische Mittel ist bei symmetrischen unimodalen Verteilungen am
aussagekräftigsten.
• Das arithmetische Mittel ist bei schiefen Verteilungen weniger aussagekräftig.
• Das arithmetische Mittel reagiert sehr sensitiv auf extreme Werte und sollte,
wenn extreme Werte vorliegen, nur sehr vorsichtig interpretiert werden.
• Falls extreme Werte („Ausreißer“, „outlier“) vorhanden sind, repräsentiert der
Median die Lage der Verteilung meist angemessener.

Beispiel für extreme Werte und
ihren Einfluss auf das arithmetische Mittel
• Gewünschte Anzahl von Sexualpartnern bezogen auf das gesamte Leben (n = 105 Männer)
(Pedersen et al., 2002)
aj 0 1 2 3 4 5 6 7 8 9 10
nj 5 49 4 5 9 4 4 1 1 2 3
aj 11 12 13 15 18 19 30 40 45 150 6000
nj 2 3 1 2 1 2 2 1 1 2 1
𝑥̅ = 64,9
Mo =
Md =
Quelle: Wilcox, Rand R. (2002). Applying Contemporary Statistical Techniques. Amsterdam: Academic Press (p. 59).
Robuste Kenntwerte
• Getrimmtes Mittel (eng. “trimmed mean”)
• Es werden eine bestimmte Anzahl (häufig 5%) von kleinsten und größten Werte
entfernt und das arithmetische Mittel berechnet
• Beispiel: 80€, 100€, 100€, 200€, 220€, 360€, 380€, 400€, 410€, 2500€
• 𝛿 = 0,20 à0,20*10 = 2 Werte oben und unten entfernen
• 𝑥̅P =(100+200+220+360+380+400)/6=276,67€
• Winsorisiertes Mittel
• Es werden keine Extremwerte entfernt, sondern auf den niedrigsten bzw. Höchsten
Wert festgelegt.
• Beispiel: 100€, 100€, 100€, 200€, 220€, 360€, 380€, 400€, 400€, 400€
• 𝑥̅Q =(100+100+100+200+220+360+380+400+400+400)/10=266,00€
Koch | Multivariate Statistik & 158 32

Dispersionsmaße für metrische Variablen
• Streubereich und Variationsbreite (Spannweite, Range)
• Interquartilsabstand
• Box-Plot
• Varianz
• Standardabweichung

Streubereich und Variationsbreite
• Streubereich: Wertebereich, in dem alle beobachteten Werte liegen:
𝑆𝐵 = [𝑥𝑚𝑖𝑛; 𝑥𝑚𝑎𝑥 ]
• Variationsbreite (Spannweite, Range): 𝑣 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
• Bearbeitungszeiten für Stimmungsitems
• Streubereich (gesamt): [1,347; 6,728], vgesamt = 6,728 – 1,347 = 5,381
• Streubereich (Frauen): [1,347; 6,415], vFrauen = 6,415 – 1,347 = 5,068
• Streubereich (Männer): [1,401; 6,728], vMänner = 6,728 – 1,401 = 5,327
• Gewünschte Anzahl von Sexualpartnern
• Streubereich: [0; 6000], v = 6000 – 0 = 6000

Interquartilsabstand
• Interquartilsabstand: IQA = Q3 – Q1
• Verschiedene Bücher/Computerprogramme verwenden unterschiedliche
Definitionen von Quartilen.
• Berechnung von Q1:
• Q1 = xq, falls n·0,25 keine ganze Zahl ist (q ist die
nächste ganze Zahl, die auf n·0,25 folgt),
• Q1 = 0,5 (xq + xq+1) , falls n·0,25 eine ganze Zahl ist (q = n·0,25).
• Q3 = xq, falls n·0,75 keine ganze Zahl ist (q ist die
nächste ganze Zahl, die auf n·0,75 folgt),
• Q3 = 0,5 (xq + xq+1) , falls n·0,75 eine ganze Zahl ist (q = n·0,75).
Koch | Statistik I & 141,161 35

• Beispiel: Bearbeitungszeit von Stimmungsitems (n = 88)

• Q1 = 0,5·(x22 + x23)= 0,5·(3,127 + 3,134) = 3,131,
da 88·0,25 eine ganze Zahl (22) ist.

• Q3 = 0,5·(x66 + x67) = 0,5·(4,762 + 4,770) = 4,766 ,
da 88·0,75 eine ganze Zahl (66) ist.
• Berechnung des Interquartilsabstandes:

• IQA = Q3 – Q1 = 4,766 – 3,131 = 1,635

• Bereich zwischen Q1 und Q3 liegen ca. 50 % der Daten.
• Kleiner Interquartilsabstand: geringe Streuung im mittleren Bereich

der Verteilung
• Großer Interquartilsabstand: große Streuung im mittleren Bereich

der Verteilung

Fünf-Punkte-Zusammenfassung
1. xmin
2. Q1
3. Md
4. Q3
5. xmax
Beispiel: Bearbeitungszeiten von Stimmungsitems
xmin = 1,347; Q1 = 3,131; Md = 4,060; Q3 = 4,766; xmax = 6,728
Beispiel: Gewünschte Anzahl von Sexualpartnern:
xmin = 0; Q1 = 1; Md = 1; Q3 = 6; xmax = 6000

Box-Plot (Box-Whisker-Plot)
Extremwert
(Q3 + 1,5 · IQA)

bzw. Wert
Q3
direkt darunter
Median IQA
(Q1 – 1,5 · IQA)

Q1
bzw. Wert
direkt darüber

Beispiele
Box-Plot 1: Bearbeitungszeiten von Stimmungsitems Box-Plot 2: Anzahl gewünschter Sexualpartner

Varianz (empirische Varianz)
• Die Varianz ist das arithmetische Mittel der quadrierten
Abweichungen der Messwerte vom Mittelwert (mittlere quadratische
Abweichung)
∑ 3 ,
,
(𝑥
12+ 1 − 𝑥)
̅
𝑠Y =
𝑛
Beispiel: 5 6 8 100 𝑥̅ = 29,75
𝑠Y, =

Standardabweichung
(empirische Standardabweichung)
• Die Standardabweichung ist die positive Quadratwurzel aus der
Varianz.
∑312+(𝑥1 − 𝑥)̅ ,
𝑠Y = 𝑠Y, =
𝑛
• Beispiel:
𝑠Y = 1646,19 = 40,57

Varianz und Standardabweichung
• Vorteil der Standardabweichung: gleiche Maßeinheit wie die Werte
selbst
Beispiel: Bearbeitungszeiten von Stimmungsitems:

• 𝑠Y, = 1,290; 𝑠𝑥 = 1,135
Beispiel: Gewünschte Anzahl von Sexualpartnern:

• 𝑠Y, = 339154,77; sx = 582,37

Eigenschaften der Varianz & der SD
1. Reagieren empfindlich auf Ausreißer.
2. Addition einer Konstanten zu den Messwerten ändert die Varianz
und Standardabweichung nicht:
𝑦1 = 𝑥1 + 𝑎 à 𝑠Z, = 𝑠Y,
3. Multiplikation der Messwerte mit einer Konstanten b führt zu einer
Erhöhung der Varianz um den Faktor b2 und eine Erhöhung der
Standardabweichung um den Faktor b:
𝑦1 = 𝑏 I 𝑥1 à 𝑠Z, = 𝑏 , I 𝑠Y, , 𝑠Z = 𝑏 I 𝑠Y

Weitere Maße für metrische Variable
• Quantile
• z-Transformation
• Schiefe und Exzeß (Kurtosis)

Quantile
• p-Quantil:
Wert xp (0 < p < 1), für den gilt, dass mindestens ein Anteil p ·100% der
Daten kleiner oder gleich xp und mindestens ein Anteil (1 – p) ·100%
der Daten größer oder gleich xp ist.
Beispiele:
• Median: Md = x0,50
• Quartile: Q1 = x0,25, Q2 = x0,50, Q3 = x0,75
• Dezile: x0,10, x0,20, …, x0,90
• Perzentile: P1 = x0,01, P2 = x0,02, …, P99 = x0,99

Quantile
• Berechnung von xp:
• xp = xq, falls n·p keine ganze Zahl ist (q ist die
nächste ganze Zahl, die auf n·p folgt),
• xp = 0,5·(xq + xq+1) , falls n·p eine ganze Zahl ist (q = n·p).
Beispiel: Berechnung der Quartile

Quantile
• Nutzung der Quantile als Maß der Streuung
• Bestimmung eingeschränkter Streubereiche und Variationsbreiten
Beispiel: Interdezilabstand: IDA = P90 - P10
Beispiel: Gewünschte Anzahl von Sexualpartnern
• Variationsbreite: V = 6000
• Interdezilabstand: IDA - 15 – 1 = 14
• Vorteil: Robust gegenüber Ausreißern

Standardwerte und z-Transformation
• z-Transformation:
𝑥1 − 𝑥̅
𝑧1 =
𝑠Y
• Die Verteilung z-transformierter Werte hat einen Mittelwert von 0

und eine Standardabweichung von 1 (standardisierte Werte).

Beispiel 1
• Vergleich von Messwerten in Bezug auf eine Vergleichsgruppe
Beispiel: Lebenszufriedenheit
• USA: 𝑥̅ = 23,67, s = 6,72 China: 𝑥=
̅ 16,46, s = 5,65
• Hr. Miller: x1 = 20, Hr. Li: x2 = 20
• Hr. Miller: z1 = Hr. Li: z2 =

Beispiel 2
• Vergleich von Messwerten, die mit unterschiedlichen
Messinstrumenten gewonnen wurden
Beispiel: Schulleistung
• Max hat 20 Aufgaben eines Mathematiktests (𝑥=22,
̅ s=5) gelöst
und fünf Rechtschreibfehler im Diktat (𝑥=10,
̅ s=3) gemacht.
• Bewertung der Mathematikleistung von Max: z1
• Bewertung der Rechtschreibleistung von Max: z2

Schiefe und Kurtosis
• Nur sinnvoll interpretierbar bei eingipfligen Häufigkeitsverteilungen
• Schiefe (Asymmetrie):
n
å (x m - x )
3 • Sch = 0: symmetrisch
Sch = m =1 • Sch > 0: rechtsschief, linksgipflig
n × s x2 • Sch < 0: linksschief, rechtsgipflig
• Kurtosis(Wölbung):
n • Ku > 0: schmalgipflig
∑ (x m − x) 4
• Ku < 0: breitgipflig
Ku2 = m=1
−3 • Normalverteilung: Ku2 = 0
n⋅s 4
x

Schiefe
eingipflig eingipflig eingipflig

asymmetrisch symmetrisch asymmetrisch
linksschief rechtsschief
rechtsgipflig/ linksgipflig/
rechtssteil linkssteil
Quelle: Amyotte, L. (2002). Méthodes quantitatives. Saint-Laurent: Editions du Renouveau Pédagogique.

Lernfragen
1. Was ist der wesentliche Unterschied zwischen einem Histogramm und
einem Säulendiagramm?
2. Wie wird ein Box-Plot korrekt interpretiert? Beschriften Sie ein Box-Plot.
3. Was ist eine Fünf-Punkt-Zusammenfassung?
4. Nennen Sie vier Eigenschaften des Mittelwerts.
5. In welchen Fällen ist der Median aussagekräftiger als das arithmetische
Mittel? (Stichwort: Vergleich von Median und Mittelwert)
6. Was sind p-Quantile und wie werden diese berechnet und interpretiert?
7. Was versteht man unter einer z-Transformation? Wann werden diese
typischerweise berechnet?
Leitfragen der nächsten Vorlesung
Lesen Sie Kapitel 16.1-16.3.4!
1. Wie kann man Verteilungen von
zwei Variablen gleichzeitig
beschreiben?
2. Was versteht man unter einer
Korrelation?
3. Warum gibt es mehrere
Korrelationskoeffizienten?

Vielen Dank für Ihre Aufmerksamkeit

6 Stats Univariate II

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

6 Stats Univariate II

Hochgeladen von

Copyright:

Verfügbare Formate

Statistik I

Thema: Univariate Deskriptivstatistik

Eid, M., Gollwitzer, M. & Schmitt, M.

Koch | Statistik I & 2

Koch | Statistik I & 3

Koch | Statistik I & 4

Koch | Statistik I & 5

Koch | Statistik I & 6

Koch | Statistik I & 7

Koch | Statistik I & 8

Koch | Statistik I & 147,153 9

Koch | Statistik I & 147-148 10

Koch | Statistik I & 11

Koch | Statistik I & 147-148 12

• Empfehlungen für die Anzahl q der Kategorien, Beispiele :

Koch | Statistik I & 146 14

ggplot2 ggplot(dat, aes(x=age))+

Koch | Statistik I & 146 16

Koch | Statistik I & 148 17

Koch | Statistik I & 148 18

schmalgipflig breitgipflig bimodal

U-förmig L-förmig J-förmig

Koch | Statistik I & 149 19

Koch | Statistik I & 20

Koch | Statistik I & 153-154 21

Koch | Statistik I & 139-140; 154-155 22

Beispiel 2 (gerades n):

Beispiel 3 (ungerades n):

Koch | Statistik I & 139-140; 154-155 23

• Beispiel: 5 6 8 100 Md = 7 𝑥=29,75

Koch | Statistik I & 155 24

• aj bezeichnet hier eine Merkmalausprägung

• Hinweis: Die beiden Formeln zur Berechnung des Mittelwerts fühen

Koch | Statistik I & 27

3. Wird zu jedem Messwert xm eine additive Konstante a addiert,

Koch | Statistik I & Quelle: https://tinyurl.com/v5q3xxl 29

Koch | Statistik I & 156 30

Koch | Multivariate Statistik & 158 32

Koch | Statistik I & 160-164 33

Koch | Statistik I & 160 34

Koch | Statistik I & 141,161 35

• Berechnung von Q1:

• Berechnung von Q3:

• Berechnung des Interquartilsabstandes:

Koch | Statistik I & 141 36

• Kleiner Interquartilsabstand: geringe Streuung im mittleren Bereich

• Großer Interquartilsabstand: große Streuung im mittleren Bereich

Koch | Statistik I & 161 37

Koch | Statistik I & 153 38

(Q3 + 1,5 · IQA)

(Q1 – 1,5 · IQA)

Koch | Statistik I & 149-153 39

Box-Plot 1: Bearbeitungszeiten von Stimmungsitems Box-Plot 2: Anzahl gewünschter Sexualpartner

Koch | Statistik I & 40

Beispiel: 5 6 8 100 𝑥̅ = 29,75

Koch | Statistik I & 162 41

Koch | Statistik I & 162 42

Beispiel: Bearbeitungszeiten von Stimmungsitems:

Beispiel: Gewünschte Anzahl von Sexualpartnern:

Koch | Statistik I & 162 43

Koch | Statistik I & 163 44

Koch | Statistik I & 45

Koch | Statistik I & 159-160 46