Sie sind auf Seite 1von 56

Statistik I

Thema: Univariate Deskriptivstatistik


für metrische Variablen

Tobias Koch
Psychologische Hochschule Berlin
Sommersemester 2019
Mittwoch 12-14 Uhr (c.t.)
Literatur
Kapitel 6.4 aus

Eid, M., Gollwitzer, M. & Schmitt, M.


(2015, 4. Aufl.). Statistik und
Forschungsmethoden. Weinheim:
Beltz.

Koch | Statistik I & 2


Überblick I
• Darstellung der Verteilung
• Histogramm
• Polygonzug
• Verteilungsformen
• Lagemaße
• Modus
• Median
• Arithmetisches Mittel

Koch | Statistik I & 3


Überblick II
• Dispersionsmaße
• Streubereich und Variationsbreite (Spannweite, Range)
• Interquartilsabstand
• Box-Plot
• Varianz
• Standardabweichung
• Quantile
• Schiefe und Exzeß
• z-Transformation und Zentrierung

Koch | Statistik I & 4


Univariate Deskriptivstatistik
für metrische Variablen

Koch | Statistik I & 5


Beispiel: metrische Variablen
• Messung der Reaktionszeiten zur Beantwortung von Stimmungsitems

Koch | Statistik I & 6


Beispiel: metrische Variablen
Interessante Fragen:
1. Wie schnell beantworten Personen im Mittel ihre Stimmungen?
2. Unterscheiden sich Personen in ihren Reaktionszeiten?
3. Welche Reaktionszeiten kommen besonders häufig vor, sind
„typisch“?
4. Welche Reaktionszeiten sind eher selten bzw. ungewöhnlich?

Koch | Statistik I & 7


Nachteile eines Säulendiagramms
• Auszug aus der Urliste (n = 88)

2,98166666666667
5,42833333333333
3,15041666666667
4,87541666666667

Koch | Statistik I & 8


Darstellung der Häufigkeitsverteilung
stetiger bzw. quasistetiger Variablen
• Zur Darstellung der Häufigkeitsverteilung bei stetigen (bzw.
quasistetigen Variablen) greift man häufig auf drei
Darstellungsformen zurück:
1. Stamm-Blatt-Diagramme (Stem-leaf displays)

2. Histogramme
Im Folgenden werden wir diese Darstellungsformen genauer behandeln.
3. Polygonzug

Koch | Statistik I & 147,153 9


Histogramm

Koch | Statistik I & 147-148 10


Fun Fact!

Koch | Statistik I & 11


Histogramm
• Ein Histogramm stellt die Häufigkeitsverteilung kategorisierter (gruppierter)
Daten dar.
• Für die Gruppierung werden als Kategorien benachbarte Intervalle gewählt:
[c0; c1[, [c1; c2[ , …, [cj-1; cj[, …, [cq-1; cq[
• Die Flächen der Histogrammsäulen sind gleich oder proportional zu den
absoluten bzw. relativen Häufigkeiten.
• Fläche = Breite · Höhe
• Breite einer Kategorie: d = cj – cj-1
• Kategorienmitte: (cj + cj-1)/2
• Reduktionslage: untere Kategoriengrenze der ersten Kategorie

Koch | Statistik I & 147-148 12


Histogramm

Kategorienbreite

0,5s
Kategorienmitte

Reduktionslage

(0,999+1,499)/2=1,245
Koch | Statistik I & 13
Histogramm
• Der optische Eindruck wird durch die Breite bzw. die Anzahl der
Kategorien stark beeinflusst.

• Empfehlungen für die Anzahl q der Kategorien, Beispiele :


• 10 ≤ q ≤ 20
• 𝑞= 𝑘 k: Anzahl der Merkmalsausprägungen
• theoretische Festlegung

Koch | Statistik I & 146 14


Histogramm
• Es gibt somit verschiedene Möglichkeiten, für einen gegebenen
Datensatz Histogramme zu bilden.
• Die Festlegung der Kategoriengrenzen und –breiten aufgrund
theoretischer Überlegungen kann die Interpretation erleichtern.
• In R:
hist(dat$alter, breaks=15)

ggplot2 ggplot(dat, aes(x=age))+


geom_histogram(binwidth = 5, fill =
"royalblue",color = "black")+theme_bw()
Koch | Statistik I & 147-148 15
Histogramm
Reduktionslage:

untere
Kategoriengrenze der
ersten Kategorie

hier: 29,5

Koch | Statistik I & 146 16


Histogramm

Koch | Statistik I & 148 17


Polygonzug

Koch | Statistik I & 148 18


Einige Verteilungsformen

schmalgipflig breitgipflig bimodal


symmetrisch linksgipflig unsymmetrisch

U-förmig L-förmig J-förmig

Koch | Statistik I & 149 19


Lagemaße für metrische Variablen
• Modus
• Median
• Mittelwert

Koch | Statistik I & 20


Modalwert (Modus)
• Modus (Mo): Merkmalsausprägung, die am häufigsten vorkommt.
• Der Modus ist dann nicht eindeutig bestimmbar, wenn jede
Merkmalsausprägung nur einmal vorkommt.

Koch | Statistik I & 153-154 21


Median
• Median (Md): Wert, der eine Reihe geordneter Beobachtungswerte in
zwei annähernd große Teile teilt.
• Mindestens 50% der Merkmalsträger haben kleinere Werte als oder
gleich große Werte wie der Median.
• Mindestens 50% der Merkmalsträger haben größere Werte als oder
gleich große Werte wie der Median.
𝑀𝑑 = 𝑥 '() für n ungerade
*
+
𝑀𝑑 = (𝑥 ' +𝑥 '
/+
) für n gerade
, * *

Koch | Statistik I & 139-140; 154-155 22


Median
Beispiel 1 (gerades n):
2 4 5 6 8 9 9 9 Md =

Beispiel 2 (gerades n):


2 4 5 6 8 100 1000 10000 Md =

Beispiel 3 (ungerades n):


12 14 15 17 18 20 20 Md =

Koch | Statistik I & 139-140; 154-155 23


Eigenschaften des Median
• Die Summe der Abweichungsbeträge aller Meßwerte vom Median ist kleiner als die
Summe der Abweichungsbeträge von irgend einem anderen Wert:
3
0 𝑥1 − 𝑀𝑑 = 𝑚𝑖𝑛
12+

• Beispiel: 5 6 8 100 Md = 7 𝑥=29,75


̅ (Mittelwert)
3
0 𝑥1 − 𝑀𝑑 = 5 − 7 + 6 − 7 + 8 − 7 + 100 − 7 = 2 + 1 + 1 + 93 = 97
12+
3
0 𝑥1 − 𝑥̅ = 5 − 29,75 + |6 − 29,75| + |8 − 29,75| + |100 − 29,75| = 140,5
12+

Koch | Statistik I & 155 24


Arithmetisches Mittel
• Das arithmetische Mittel wird üblicherweise mit M, Mx oder
bezeichnet.
• Das arithmetische Mittel ist gleich der Summe aller beobachteten
Merkmalswerte dividiert durch die Anzahl der Beobachtungen:
3
1
𝑥̅ = 0 𝑥1
𝑛
12+
• Beispiel: 5 6 8 100
𝑥̅ =
Koch | Statistik I & 155 25
Arithmetisches Mittel
• Kommt eine Merkmalsausprägung mehrmals vor, so kann das
arithmetische Mittel auch wie folgt bestimmt werden:

• aj bezeichnet hier eine Merkmalausprägung


∑GF2+ 𝑎F I 𝑛F • k: Anzahl der Merkmalsausprägungen
𝑥̅ =
𝑛 • nj: absolute Häufigkeit
• n: Anzahl der Personen

• Hinweis: Die beiden Formeln zur Berechnung des Mittelwerts fühen


nicht zwangsläufig zu denselben Ergebnissen.
Koch | Statistik I & 155 26
Arithmetisches Mittel
∑GF2+ 𝑎F I 𝑛F
𝑥̅ =
𝑛
Beispiel:

aj 5 6 8 100

nj 2 5 3 1

𝑥̅ =

Koch | Statistik I & 27


Eigenschaften des arithmetischen Mittels
Eigenschaften Formel
3
1. Die Summe der Abweichungen aller Messwerte vom
Mittelwert beträgt stets 0: 0 (𝑥1 − 𝑥)̅ = 0
12+
2. Die Summe der quadrierten Abweichungen der Messwerte 3
vom Mittelwert ist stets kleiner als die Summe der 0 (𝑥1 − 𝑥)̅ , = 𝑚𝑖𝑛
quadrierten Abweichungen von irgendeinem anderen Wert: 12+

3. Wird zu jedem Messwert xm eine additive Konstante a addiert,


verändert sich auch das arithmetische Mittel additiv um diese 𝑦1 = 𝑥1 + 𝑎 ⟹ 𝑦M + 𝑥̅ + 𝑎
Konstante:
4. Wird jeder Messwert xm mit einer Konstanten b multipliziert,
𝑦1 = 𝑏 I 𝑥1 ⟹ 𝑦M + 𝑏 I 𝑥̅
verändert sich auch das arithmetische Mittel multiplikativ um
diese Konstante:
Koch | Statistik I & 155-156 28
Vergleich von Modus, Median und Mittelwert

Koch | Statistik I & Quelle: https://tinyurl.com/v5q3xxl 29


Vergleich von Mittelwert und Median
• Der Median repräsentiert die Lage einer Verteilung nach dem Kriterium der
kleinsten Absolutabweichung.
• Das arithmetische Mittel repräsentiert die Lage einer Verteilung nach dem
Kriterium der kleinsten Quadrate.
• Das arithmetische Mittel ist bei symmetrischen unimodalen Verteilungen am
aussagekräftigsten.
• Das arithmetische Mittel ist bei schiefen Verteilungen weniger aussagekräftig.
• Das arithmetische Mittel reagiert sehr sensitiv auf extreme Werte und sollte,
wenn extreme Werte vorliegen, nur sehr vorsichtig interpretiert werden.
• Falls extreme Werte („Ausreißer“, „outlier“) vorhanden sind, repräsentiert der
Median die Lage der Verteilung meist angemessener.

Koch | Statistik I & 156 30


Beispiel für extreme Werte und
ihren Einfluss auf das arithmetische Mittel
• Gewünschte Anzahl von Sexualpartnern bezogen auf das gesamte Leben (n = 105 Männer)
(Pedersen et al., 2002)

aj 0 1 2 3 4 5 6 7 8 9 10
nj 5 49 4 5 9 4 4 1 1 2 3
aj 11 12 13 15 18 19 30 40 45 150 6000
nj 2 3 1 2 1 2 2 1 1 2 1

𝑥̅ = 64,9
Mo =
Md =

Quelle: Wilcox, Rand R. (2002). Applying Contemporary Statistical Techniques. Amsterdam: Academic Press (p. 59).
Koch | Statistik I & 31
Robuste Kenntwerte
• Getrimmtes Mittel (eng. “trimmed mean”)
• Es werden eine bestimmte Anzahl (häufig 5%) von kleinsten und größten Werte
entfernt und das arithmetische Mittel berechnet
• Beispiel: 80€, 100€, 100€, 200€, 220€, 360€, 380€, 400€, 410€, 2500€
• 𝛿 = 0,20 à0,20*10 = 2 Werte oben und unten entfernen
• 𝑥̅P =(100+200+220+360+380+400)/6=276,67€
• Winsorisiertes Mittel
• Es werden keine Extremwerte entfernt, sondern auf den niedrigsten bzw. Höchsten
Wert festgelegt.
• Beispiel: 100€, 100€, 100€, 200€, 220€, 360€, 380€, 400€, 400€, 400€
• 𝑥̅Q =(100+100+100+200+220+360+380+400+400+400)/10=266,00€

Koch | Multivariate Statistik & 158 32


Dispersionsmaße für metrische Variablen
• Streubereich und Variationsbreite (Spannweite, Range)
• Interquartilsabstand
• Box-Plot
• Varianz
• Standardabweichung

Koch | Statistik I & 160-164 33


Streubereich und Variationsbreite
• Streubereich: Wertebereich, in dem alle beobachteten Werte liegen:
𝑆𝐵 = [𝑥𝑚𝑖𝑛; 𝑥𝑚𝑎𝑥 ]
• Variationsbreite (Spannweite, Range): 𝑣 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
• Bearbeitungszeiten für Stimmungsitems
• Streubereich (gesamt): [1,347; 6,728], vgesamt = 6,728 – 1,347 = 5,381
• Streubereich (Frauen): [1,347; 6,415], vFrauen = 6,415 – 1,347 = 5,068
• Streubereich (Männer): [1,401; 6,728], vMänner = 6,728 – 1,401 = 5,327
• Gewünschte Anzahl von Sexualpartnern
• Streubereich: [0; 6000], v = 6000 – 0 = 6000

Koch | Statistik I & 160 34


Interquartilsabstand
• Interquartilsabstand: IQA = Q3 – Q1
• Verschiedene Bücher/Computerprogramme verwenden unterschiedliche
Definitionen von Quartilen.
• Berechnung von Q1:
• Q1 = xq, falls n·0,25 keine ganze Zahl ist (q ist die
nächste ganze Zahl, die auf n·0,25 folgt),
• Q1 = 0,5 (xq + xq+1) , falls n·0,25 eine ganze Zahl ist (q = n·0,25).
• Berechnung von Q3:
• Q3 = xq, falls n·0,75 keine ganze Zahl ist (q ist die
nächste ganze Zahl, die auf n·0,75 folgt),
• Q3 = 0,5 (xq + xq+1) , falls n·0,75 eine ganze Zahl ist (q = n·0,75).

Koch | Statistik I & 141,161 35


Interquartilsabstand
• Beispiel: Bearbeitungszeit von Stimmungsitems (n = 88)

• Berechnung von Q1:


• Q1 = 0,5·(x22 + x23)= 0,5·(3,127 + 3,134) = 3,131,
da 88·0,25 eine ganze Zahl (22) ist.

• Berechnung von Q3:


• Q3 = 0,5·(x66 + x67) = 0,5·(4,762 + 4,770) = 4,766 ,
da 88·0,75 eine ganze Zahl (66) ist.

• Berechnung des Interquartilsabstandes:


• IQA = Q3 – Q1 = 4,766 – 3,131 = 1,635

Koch | Statistik I & 141 36


Interquartilsabstand
• Bereich zwischen Q1 und Q3 liegen ca. 50 % der Daten.

• Kleiner Interquartilsabstand: geringe Streuung im mittleren Bereich


der Verteilung

• Großer Interquartilsabstand: große Streuung im mittleren Bereich


der Verteilung

Koch | Statistik I & 161 37


Fünf-Punkte-Zusammenfassung
1. xmin
2. Q1
3. Md
4. Q3
5. xmax
Beispiel: Bearbeitungszeiten von Stimmungsitems
xmin = 1,347; Q1 = 3,131; Md = 4,060; Q3 = 4,766; xmax = 6,728
Beispiel: Gewünschte Anzahl von Sexualpartnern:
xmin = 0; Q1 = 1; Md = 1; Q3 = 6; xmax = 6000

Koch | Statistik I & 153 38


Box-Plot (Box-Whisker-Plot)
Extremwert

(Q3 + 1,5 · IQA)


bzw. Wert
Q3
direkt darunter

Median IQA

(Q1 – 1,5 · IQA)


Q1
bzw. Wert
direkt darüber

Koch | Statistik I & 149-153 39


Beispiele

Box-Plot 1: Bearbeitungszeiten von Stimmungsitems Box-Plot 2: Anzahl gewünschter Sexualpartner

Koch | Statistik I & 40


Varianz (empirische Varianz)
• Die Varianz ist das arithmetische Mittel der quadrierten
Abweichungen der Messwerte vom Mittelwert (mittlere quadratische
Abweichung)
∑ 3 ,
,
(𝑥
12+ 1 − 𝑥)
̅
𝑠Y =
𝑛

Beispiel: 5 6 8 100 𝑥̅ = 29,75

𝑠Y, =

Koch | Statistik I & 162 41


Standardabweichung
(empirische Standardabweichung)
• Die Standardabweichung ist die positive Quadratwurzel aus der
Varianz.
∑312+(𝑥1 − 𝑥)̅ ,
𝑠Y = 𝑠Y, =
𝑛
• Beispiel:

𝑠Y = 1646,19 = 40,57

Koch | Statistik I & 162 42


Varianz und Standardabweichung
• Vorteil der Standardabweichung: gleiche Maßeinheit wie die Werte
selbst

Beispiel: Bearbeitungszeiten von Stimmungsitems:


• 𝑠Y, = 1,290; 𝑠𝑥 = 1,135

Beispiel: Gewünschte Anzahl von Sexualpartnern:


• 𝑠Y, = 339154,77; sx = 582,37

Koch | Statistik I & 162 43


Eigenschaften der Varianz & der SD
1. Reagieren empfindlich auf Ausreißer.
2. Addition einer Konstanten zu den Messwerten ändert die Varianz
und Standardabweichung nicht:
𝑦1 = 𝑥1 + 𝑎 à 𝑠Z, = 𝑠Y,
3. Multiplikation der Messwerte mit einer Konstanten b führt zu einer
Erhöhung der Varianz um den Faktor b2 und eine Erhöhung der
Standardabweichung um den Faktor b:
𝑦1 = 𝑏 I 𝑥1 à 𝑠Z, = 𝑏 , I 𝑠Y, , 𝑠Z = 𝑏 I 𝑠Y

Koch | Statistik I & 163 44


Weitere Maße für metrische Variable
• Quantile
• z-Transformation
• Schiefe und Exzeß (Kurtosis)

Koch | Statistik I & 45


Quantile
• p-Quantil:
Wert xp (0 < p < 1), für den gilt, dass mindestens ein Anteil p ·100% der
Daten kleiner oder gleich xp und mindestens ein Anteil (1 – p) ·100%
der Daten größer oder gleich xp ist.
Beispiele:
• Median: Md = x0,50
• Quartile: Q1 = x0,25, Q2 = x0,50, Q3 = x0,75
• Dezile: x0,10, x0,20, …, x0,90
• Perzentile: P1 = x0,01, P2 = x0,02, …, P99 = x0,99

Koch | Statistik I & 159-160 46


Quantile
• Berechnung von xp:
• xp = xq, falls n·p keine ganze Zahl ist (q ist die
nächste ganze Zahl, die auf n·p folgt),
• xp = 0,5·(xq + xq+1) , falls n·p eine ganze Zahl ist (q = n·p).

Beispiel: Berechnung der Quartile

Koch | Statistik I & 159 47


Quantile
• Nutzung der Quantile als Maß der Streuung
• Bestimmung eingeschränkter Streubereiche und Variationsbreiten
Beispiel: Interdezilabstand: IDA = P90 - P10
Beispiel: Gewünschte Anzahl von Sexualpartnern
• Variationsbreite: V = 6000
• Interdezilabstand: IDA - 15 – 1 = 14
• Vorteil: Robust gegenüber Ausreißern

Koch | Statistik I & 159 48


Standardwerte und z-Transformation
• z-Transformation:

𝑥1 − 𝑥̅
𝑧1 =
𝑠Y

• Die Verteilung z-transformierter Werte hat einen Mittelwert von 0


und eine Standardabweichung von 1 (standardisierte Werte).

Koch | Statistik I & 165-166 49


Beispiel 1
• Vergleich von Messwerten in Bezug auf eine Vergleichsgruppe
Beispiel: Lebenszufriedenheit
• USA: 𝑥̅ = 23,67, s = 6,72 China: 𝑥=
̅ 16,46, s = 5,65
• Hr. Miller: x1 = 20, Hr. Li: x2 = 20
• Hr. Miller: z1 = Hr. Li: z2 =

Koch | Statistik I & 50


Beispiel 2
• Vergleich von Messwerten, die mit unterschiedlichen
Messinstrumenten gewonnen wurden
Beispiel: Schulleistung
• Max hat 20 Aufgaben eines Mathematiktests (𝑥=22,
̅ s=5) gelöst
und fünf Rechtschreibfehler im Diktat (𝑥=10,
̅ s=3) gemacht.
• Bewertung der Mathematikleistung von Max: z1
• Bewertung der Rechtschreibleistung von Max: z2

Koch | Statistik I & 51


Schiefe und Kurtosis
• Nur sinnvoll interpretierbar bei eingipfligen Häufigkeitsverteilungen
• Schiefe (Asymmetrie):
n
å (x m - x )
3 • Sch = 0: symmetrisch
Sch = m =1 • Sch > 0: rechtsschief, linksgipflig
n × s x2 • Sch < 0: linksschief, rechtsgipflig

• Kurtosis(Wölbung):
n • Ku > 0: schmalgipflig
∑ (x m − x) 4
• Ku < 0: breitgipflig
Ku2 = m=1
−3 • Normalverteilung: Ku2 = 0
n⋅s 4
x

Koch | Statistik I & 164-165 52


Schiefe

eingipflig eingipflig eingipflig


asymmetrisch symmetrisch asymmetrisch
linksschief rechtsschief
rechtsgipflig/ linksgipflig/
rechtssteil linkssteil

Quelle: Amyotte, L. (2002). Méthodes quantitatives. Saint-Laurent: Editions du Renouveau Pédagogique.


Koch | Statistik I & 53
Lernfragen
1. Was ist der wesentliche Unterschied zwischen einem Histogramm und
einem Säulendiagramm?
2. Wie wird ein Box-Plot korrekt interpretiert? Beschriften Sie ein Box-Plot.
3. Was ist eine Fünf-Punkt-Zusammenfassung?
4. Nennen Sie vier Eigenschaften des Mittelwerts.
5. In welchen Fällen ist der Median aussagekräftiger als das arithmetische
Mittel? (Stichwort: Vergleich von Median und Mittelwert)
6. Was sind p-Quantile und wie werden diese berechnet und interpretiert?
7. Was versteht man unter einer z-Transformation? Wann werden diese
typischerweise berechnet?
Koch | Statistik I & 54
Leitfragen der nächsten Vorlesung
Lesen Sie Kapitel 16.1-16.3.4!
1. Wie kann man Verteilungen von
zwei Variablen gleichzeitig
beschreiben?
2. Was versteht man unter einer
Korrelation?
3. Warum gibt es mehrere
Korrelationskoeffizienten?

Koch | Statistik I & 55


Vielen Dank für Ihre Aufmerksamkeit
Koch | Statistik I & 56

Das könnte Ihnen auch gefallen