Sie sind auf Seite 1von 24

Streuungsparameter Seite 1

Gliederung des Kurses:


I
II

Allgemeine Grundlagen
Statistische Analyse eines einzelnen Merkmals

Analyse/Beschreibung eines einzelnen Merkmals


Ziel: Verdichtung (Komprimierung) einer
unberschaubaren Datenmenge

Komprimierende Beschreibung mittels:


1. Hufigkeitsverteilung (Tabellen und Grafen)
2. Termin
2. Lageparameter
3. Termin
3. Streuungsmae bzw. -parameter
4. Termin
4. Konzentration der Verteilung
5. Termin

Gliederung Termin IV:


II. Statistische Analyse eines einzelnen Merkmals
1.
Eindimensionale HK-Verteilung & ihre Darstellung
(S.37 bis S. 53)
2.
Lageparameter (S.54 bis S.64)
3.
Streuungsparameter/ -mae (S.64 bis S.84)
3.1
3.2
3.3
3.4
3.5
3.6

Spannweite
Quartilsabweichung und p-Quantile
Mittlere absolute Abweichung
Varianz und Standardabweichung
Variationskoeffizient
Schiefe und Exze

Streuungsparameter Seite 2

3 Streuungsparameter
Arten von Parametern:
1. Lageparameter (Mittelwerte)
2. Streuungsparameter
messen die Gre der Abweichungen der
einzelnen Merkmalswerte vom Mittelwert

Beispiel (Abb. III.9):


Hufigkeitsverteilungen mit gleichem Mittelwert
aber verschiedenen Streuungen
f(x)

X
X

Streuungsparameter Seite 3

3.1

Spannweite R

Spannweite (Range) R
= Differenz zwischen dem grten und dem
kleinsten Merkmalswert
Berechnung:
ohne Klassen: R = x max x min = x ( n ) x (1)
mit Klassen: Verwendung der
Klassengrenzen (!) der Randklassen
Nachteil:
- Verwendung der extremen Werte
mgliche Verzerrung durch Ausreier
- nur 2 Werte werden bercksichtigt
Beispiele:
a) Krpergren:
172, 178, 164, 167, 171 [cm]

xmax = x( 5) = x2 = 178
xmin = x(1) = x3 = 164
R = xmax xmin = 178 164 = 14 cm

Streuungsparameter Seite 4

b) Quadratmeter x (Umfrage 2009)


Klasse

Meter

x iu < x x io
0 10
10 15
15 20
20 30
30 50
Insgesamt

1
2
3
4
5

Abs.
HK
ni

Rel.
HK
hi

39
210
213
132
100
694

0,0562
0,3026
0,3069
0,1902
0,1441
1,0000

R = 50 0 = 50

Streuungsparameter Seite 5

3.2

Quartilsabweichung und
p-Quantile

Grundlage fr Berechnung: Quartile


x0,25: 25% aller Merkmalswerte liegen
unterhalb dieses Wertes
x0,50: 50% aller Merkmalswerte liegen
unterhalb dieses Wertes (=Median)
x0,75: 75% aller Merkmalswerte liegen
unterhalb dieses Wertes
Berechnung:
Quartilsabweichung QA:
1
QA = ( x 0,75 x 0,25 )
2
Interquartilsabstand IQA:

IQA = x 0,75 x 0,25


Verallgemeinerung: p-Quantile
xp: p% aller Merkmalswerte liegen
unterhalb dieses Wertes
Besondere p-Quantile:
a) Median: p = 0,50
b) Quartile: p = 0,25 ; 0,50 ; 0,75
c) Quintile: p = 0,20 ; 0,40 ; 0,60 ; 0,80
d) Dezile:
p = 0,10 ; 0,20 ; ; 0,90

Streuungsparameter Seite 6

Berechnung der p-Quantile:


WICHTIG: Sortierung des Datenmaterials
x (1) .... x ( n)
a) Datenmaterial ohne Klassen
x( K)

xp =
1
2 x( K) + x( K+1)

,falls n p keineganze Zahl ist

(Kist dann dieauf n pfolgendeganze Zahl)


,falls n peineganze Zahl ist
(dann ist K = n p)

b) Datenmaterial mit Klassen


Unterhalb welchen Wertes liegen p% aller
Merkmalsausprgungen?
gegeben: F(x) = p
gesucht: x
Interpolationsformel 2 :
al lg emein :
konkret :

x = x iu +

F ( x ) F ( x iu )

x p = x iu +

h ( xi )

p F ( x iu )
h ( xi )

x i

x i

Streuungsparameter Seite 7

Beispiele:
a) ohne Klassen:
Monatsgehlter in der Fa. DALLES & Co.
Mnner: geordnete Werte
1520, 1650, 1670, 1840, 2030 (n = 5)

x 0,25 : n p = 5 0,25 = 1,25


keine ganze Zahl
K = 2: x0,25 = x(2) = 1650 DM
x 0,75 : n p = 5 0,75 = 3,75

keine ganze Zahl


K = 4: x0,75 = x(4) = 1840 DM
Quartilsabweichung:
1
1
QA = ( x0,75 x0,25 ) = (1840 1650 ) = 95
2
2
In einem Intervall von (durchschnittlich) 95
DM um den Median befinden sich 50% der
Gehlter.

Streuungsparameter Seite 8

Frauen: geordnete Werte


1490, 1710, 1960, 2570

(n = 4)

x 0,25 : n p = 4 0,25 = 1
ganze Zahl: K = 1

x 0,25 =

1
1
x (1) + x ( 2) = (1490 + 1710 ) = 1600 DM
2
2

x 0,75 : n p = 4 0,75 = 3
ganze Zahl: K = 3
x 0,75 = 2 ( x (3) + x ( 4) ) = 2 (1960 + 2570 ) = 2265 DM
1

Quartilsabweichung:
1
1
QA = ( x0,75 x0,25 ) = ( 2265 1600) = 332,5
2
2
In einem Intervall von (durchschnittlich)
332,50 DM um den Median befinden sich
50% der Gehlter.

Streuungsparameter Seite 9

Beispiel: Quadratmeter x (Umfrage 2009)


Klasse Meter Klassen- Abs. Rel. Verteilungsbreite HK HK
funktion
ni
F ( xio )
i
hi
x iu < x x io x i
1
0 10
10
39 0,0562 0,0562
2
10 15
5
210 0,3026 0,3588
3
15 20
5
213 0,3069 0,6657
4
20 30
10
132 0,1902 0,8559
5
30 50
20
100 0,1441 1,0000
Insgesamt
694 1,0000
x0,25: Klasse 2
x 0,25 = x iu +
= 10 +

x0,75: Klasse 4
x 0,75 = x iu +
= 20 +

0, 25 F ( x iu )
h ( xi )

x i

0, 25 0, 0562
5 = 13, 20
0,3026
0, 75 F ( x iu )
h ( xi )

x i

0, 75 0, 6657
10 = 24, 43
0,1902

Quartilsabweichung:
QA =

1
1
x

x
=
( 24,34 13, 20 ) = 5,57
(
0,75
0,25 )
2
2

In einem Intervall von (durchschnittlich) 332,50


DM um den Median befinden sich 50% der Gehlter.

Streuungsparameter Seite 10

3.3

Mittlere absolute Abweichung d

Grundlage fr Berechnung:
Abweichung der Merkmalswerte zu

x : (x x)
i

Mgliche Kennzahlen:

1 n
(1) ( x i x )
n i =1

= 0 (Schwerpunkt-ES)
Ungeeignet!

1 n
(2) d = x i x Mittlere absolute
n i=1
Abweichung d
1 n
2
2
(3) s = ( x i x ) Mittlere quadratische
n i=1
Abweichung s
Varianz

Streuungsparameter Seite 11

Berechnung von d (Mittlere absolute


Abweichung)
a) Ungruppiertes Datenmaterial
1 n
d = xi x
n i =1

b) Gruppiertes Datenmaterial
(1) Ohne Klassen
k
k
1 k
ni
d = xi x ni = xi x = xi x hi ,
n i=1
n i=1
i =1

(2) Mit Klassen


k
k
1 k *
ni
*
d = x i x n i = x i x = x *i x h i ,
n i=1
n i=1
i =1

Beispiele:
(a) Temperaturen:

-6, 18, 12, 3[C]

1
27
6
18
12
3

+
+
+
=
= 6,75C
(
)
4
4
1 n
1
d = xi x = { 6 6,75 + 18 6,75 + 12 6,75 + 3 6,75 }
n i=1
4
1
1
= (12,75 +11,25 + 5,25 + 3,75) = ( 33) = 8,25
4
4

x=

Die Merkmalswerte weichen (im Schnitt) um


8,25 vom arithmetischen Mittel von 6,75 ab.

Streuungsparameter Seite 12

(b) Quadratmeter x (Umfrage 2009)


Klasse
i
1
2
3
4
5

Meter

Klassenmitte Abs. Rel.


HK HK
ni
xi*
hi
x iu < x x io
0 10
5
39 0,0562
10 15
12,5
210 0,3026
15 20
17,5
213 0,3069
20 30
25
132 0,1902
30 50
40
100 0,1441
Insgesamt
694 1,0000

x = 19,95
n

d = x *i x h i
i =1

= 5 19,95 0, 0562 + 12,5 19,95 0,3026


+ 17,5 19,95 0,3069 + 25 19,95 0,1902
+ 40 19,95 0,1441
= 7, 696

Die Merkmalswerte weichen (im Schnitt) um


7,696 m vom arithmetischen Mittel von 19,95 m
ab.

Streuungsparameter Seite 13

3.4 Mittl. quadratische Abweichung:


Varianz und Standardabweichung
Formeln
(1) Varianz
Allgemeine Formel:
1 n
2
s = ( xi x )
n i =1
1 n 2
2
s = xi x 2
n i =1
2

ODER

a) Ungruppiertes Datenmaterial
siehe Allgemeine Formel
b) Gruppiertes Datenmaterial
1 k *
s = (x i x) 2 n i
n i=1
2

1 k * 2
s = ( xi ) ni x 2
n i=1
2

(2) Standardabweichung

s = s2

ODER

Streuungsparameter Seite 14

Anmerkungen
- Interpretation:
Varianz: nicht interpretierbar
Standardabweichung:
Nicht eindeutig interpretierbar. Am besten
sagt man: Die Werte streuen mit einer
Standardabweichung von XXX um das
arithmetische Mittel.
- Standardabweichung ist gebruchlicher, da sie
die gleiche Dimension wie die Merkmalswerte
aufweist.
- Bei der Varianz werden grere Abweichungen
strker gewichtet als kleinere Abweichungen
Grund: Quadrierung

Streuungsparameter Seite 15

Beweis, dass
1 n
2
s = ( xi x )
n i =1
2

s =
2

=
=
=
=

1 n 2
s = xi x 2
n i =1
2

1 n
1 n
2
( x i x ) = ( x i2 2x i x + x 2 )

n i =1
n i =1
n
1 n 2 1
1 n 2
x i 2x x i + x

n i =1
n i =1
n i =1
1 n 2 1
1 2

+
x
2x
nx
nx

i
n i =1
n
n
1 n 2
x i 2x 2 + x 2

n i =1
1 n 2
xi x 2

n i =1

Streuungsparameter Seite 16

Beispiele:
(a) Temperaturen:

i
1
2
3
4
Summe

xi
-6
18
12
3
27

( xi x )
-12,75
11,25
5,25
-3,75
0,00

( xi x )

162,5625
126,5625
27,5625
14,0625
330,7500

xi2
36
324
144
9
513

x = 6, 75
Formel I:
1 n
2
s = ( xi x )
n i =1
1
= 330, 75 = 82, 6875
4
s = 82, 6875 = 9, 09
2

Formel II (vereinfachte Formel):


1 n 2
s = xi x 2
n i =1
1
= 513 6, 752 = 82, 6875
4
s = 82, 6875 = 9, 09
2

Streuungsparameter Seite 17

(b) Quadratmeter x (Umfrage 2009)

Klasse Meter
u
o x* n
i
xi x < xi i
i
1
2
3
4
5

0 10
10 15
15 20
20 30
30 50

Insgesamt

5
12,5
17,5
25
40

39
210
213
132
100

hi
0,0562
0,3026
0,3069
0,1902
0,1441

694 1,0000

(x *i x) 2 n i
( 5-19,9532) *39 = 8720,33
(12,5-19,9532)*210 = 11665,54
(17,5-19,9532)*213 = 1281,87
(25-19,9532) *132 = 3362,07
(40-19,9532) *100 = 40187,42
65217,23

(x *i ) 2 n i
25*39
=
975
156,25*210= 32812,5
306,25*213= 65231,25
625*132 = 82500
1600*100 =160000
341518,75

x = 19,9532
Formel I:

Formel II (vereinfachte Formel):

1 k *
s = (x i x) 2 n i
n i =1
1
=
65217, 23 = 93,97
694
s = 93,97 = 9, 69

1 k * 2
s = ( xi ) ni x 2
n i =1
1
=
341518, 75 19,95322 = 93,97
694

s = 93,97 = 9, 69

Streuungsparameter Seite 18

3.5

Variationskoeffizient

Anwendung:
Vergleich der Standardabweichungenen
verschiedener Merkmale
Beispiel
Monatseinkommen Jahreseinkommen
(in )
(in )
1000

12000

2000

24000

3000

36000

4000

48000

1118,03

13416,41

2500

30000

V= s

0,447
0,447
x
Relative Streuung ist bei beiden Merkmalen
gleich!

Formel:

s Standardabweichung
V= =
x
Mittelwert

Streuungsparameter Seite 19

3.6

Konzept der Momente,


Schiefe und Exze

Definition Momente :
- Verallgemeinerungen des
Varianzkonzeptes
- Durchschnittliche potenzierte
Abweichungen der Merkmalswerte
von einem Bezugspunkt (a)
Bezugspunkte:
(1) Null: Momente um Null
Momente um das arithm.Mittel
(2) x :
Formeln :
Zentrale Momente (Grundformel)

1
m =
n
a
r

(x
i =1

a)

Streuungsparameter Seite 20

Das r-te Moment um Null


1 n
1 n r
r
m = ( xi 0 ) = xi
n i =1
n i =1

( ungruppierte Daten )

0
r

r
r
1 k
1 k
*
m = ( xi 0 ) ni = ( xi* ) ni
n i =1
n i =1
0
r

( gruppierte Daten )

Es gilt:
fr r = 1: Arithmetisches Mittel
Das r-te Moment um das arithmetische
Mittel x
1 n
r
mr = ( xi x )
n i =1
r
1 K *
mr = ( xi x ) ni
n i =1

Es gilt:
fr r = 1:
fr r = 2:
fr r = 3:
fr r = 4:

( ungruppierte Daten )
( gruppierte Daten )

m1 = 0 (Schwerpunkteigenschaft)
Varianz
Schiefe (Skewness)
Exze (Kurtosis, Wlbung)

Streuungsparameter Seite 21

Schiefe
Def.:

Die Schiefe misst die Asymmetrie


einer Verteilung
Formel: Das 3. Moment um x :
1 n
3
m3 = ( x i x )
n i =1

Interpretation:
Ist m3 negativ: rechtssteil (linksschief)
Ist m3 positiv: linkssteil (rechtsschief)
Standardisierte Schiefe:
Anwendung: Vergleich der Schiefe zweier
Merkmale
m3
sm
=
3
Formel:
s3
Interpretation:
je strker negativ, desto rechtssteiler (linksschiefer)
je strker positiv, desto linkssteiler (rechtsschiefer)

Streuungsparameter Seite 22

Exze (Kurtosis, Wlbung)


Def.:

Der Exze misst, wie flach eine


Verteilung ist (Wlbung)
Formel:
1 n
4
( xi x )
Das 4. Moment um x : m 4 = n
i =1
Interpretation:
Bei gleichem x gilt: Je grer der Exze, desto
flacher die Verteilung (Werte weit ab vom
Mittelwert werden besonders gewichtet)
Standardisierter Exze:
Anwendung: Vergleich des Exzesses zweier
Merkmale
sm 4 =

m4
s4

Formel:
Interpretation:
je grer, desto gewlbter die Verteilung
Vergleich mit der Normalverteilungskurve:
sm*4 =

m4
3
s4

- positiv: gewlbter als Normalverteilung


- negativ: flacher als Normalverteilung

Streuungsparameter Seite 23

Exkurs: Grafische Darstellungen eines


Merkmals
(a) Hufigkeitsfunktion und Verteilungsfunktion
(b) Boxplot
Beispiel: Quadratmeter (Umfrage 2009)

Box:
Darstellung der drei Quartile
Whiskers: Minimaler bzw. maximaler Wert
Ausnahme: Es gibt Werte jenseits der Grenzen:
x 0,25 1,5 IQA bzw.
x 0,75 + 1,5 IQA

Dann: Whiskers bis zu diesen Grenzen


Ausreier: Werte auerhalb dieser Grenzen
Extreme Ausreier: Werte auerhalb 3*IQA

Streuungsparameter Seite 24

(c) Stem-and-Leaf Diagramm


Beispiel: Quadratmeter (Umfrage 2006)
Frequency
3,00
26,00
31,00
24,00
10,00
17,00
19,00
6,00
2,00
3,00
5,00
5,00
Stem width:
Each leaf:

Stem &
0
1
1
2
2
3
3
4
4
5
5
6

Leaf

.
.
.
.
.
.
.
.
.
.
.
.

799
00222233333334444444444444
5555555556666666666777777888889
000000000000111222234444
5555666899
00000000000122234
5555555555555555589
000004
58
000
55777
00002
10
1 case(s)

Stem width (10):


Each Leaf (1 case):
Frequency:

Der Stamm steht fr Zehner


Jedes Blatt steht fr einen
Fall
Hufigkeit