Statistik 2019 LehrbuchPrasentation InklKSA

Statistik
Prof. Dr. Marc Piazolo

2019
Prof. Dr. Marc Piazolo 1

Inhaltsverzeichnis
1. Bedeutung der Statistik und ihre Grundlagen
1.1 Statistische Grundbegriffe und Ablauf einer statistischen Untersuchung
1.2 Mathematische Hilfsmittel der Statistik
2. Deskriptive (Beschreibende) Statistik
2.1 Eindimensionale Häufigkeitsverteilungen
2.1.1 Eindimensionale Verteilungsfunktion
2.1.2 Klassifizierte Häufigkeitsverteilungen
2.1.3 Darstellung eindimensionaler Häufigkeitsverteilungen
2.2. Zweidimensionale Häufigkeitsverteilungen
2.2.1 Zweidimensionale Verteilungsfunktion
2.2.2 Darstellung zweidimensionaler Häufigkeitsverteilungen
2.3 Tücken der graphischen Aufbereitung
2.4 Parameter eindimensionaler Häufigkeitsverteilungen
2.4.1 Lageparameter
2.4.1.1 Modus
2.4.1.2 Median
2.4.1.3 Arithmetisches Mittel
2.4.1.4 Gewichtetes arithmetisches Mittel
2.4.1.5 Harmonisches Mittel
2.4.1.6 Geometrisches Mittel
2.4.1.7 Quartile

2.4.2 Streuungsparameter
2.4.2.1 Spannweite und Interquartilsspanne
2.4.2.2 Varianz und Standardabweichung
2.4.2.3 Variationskoeffizien
2.4.3 Microsoft Excel-Anwendungen
2.4.3.1 Mittelwerte
2.4.3.2 Streuungsmaße
2.4.4 Konzentrationsmaße
2.4.5 Zusammenhang zwischen Merkmalen
2.4.5.1 Kovarianz
2.4.5.2 Korrelationskoeffizient nach Bravais-Pearson
2.4.5.3 Rangkorrelation nach Spearman
2.4.6 Einfache lineare Regressionsanalyse
2.4.6.1 Bestimmung einer optimalen Regressionsfunktion
2.4.6.2 Qualität der Regressionsfunktion
2.4.7 Einfache nicht-lineare Regressionsanalyse
2.4.7.1 Homogene Potenzfunktion
2.4.7.2 Logarithmische und andere Funktionen
2.4.8 Excel-Anwendungen in der Korrelations- und Regressionsanalyse

3. Wahrscheinlichkeitsrechnung und -verteilungen
3.1 Grundlagen der Wahrscheinlichkeitsrechnung
3.1.1 Wahrscheinlichkeitsdefinitionen
3.1.2 Grundregeln der Wahrscheinlichkeitsrechnung
3.2 Wahrscheinlichkeitsverteilungen für diskrete Zufallsvariablen
3.2.1 Was ist eine Zufallsvariable?
3.2.2 Parameter der Verteilung einer diskreten Zufallsvariablen
3.2.3 Binominalverteilung
3.2.4 Hypergeometrische Verteilung
3.2.5 Poissonverteilung
3.3 Wahrscheinlichkeitsverteilungen für stetige Zufallsvariablen
3.3.1 Gleichverteilung
3.3.2 Normalverteilung
3.3.3 Exponentialverteilung

4. Induktive (schließende) Statistik
4.1 Stichprobenverfahren und Prüfverteilungen
4.1.1 Die Normalverteilung
4.1.2 Die Chiquadratverteilung (2-Verteilung)
4.1.3 Die Student-t-Verteilung
4.1.4 Die F-Verteilung
4.2 Schätzverfahren
4.2.1 Grundlagen
4.2.2 Punktschätzung
4.2.3 Intervallschätzung für Mittelwerte
4.2.3.1 Stichprobenverteilung und zentraler Grenzwertsatz
4.2.3.2 Intervallschätzungen für Mittelwerte bei bekannter Varianz 2
4.2.3.3 Intervallschätzungen für Mittelwerte bei unbekannter Varianz 2
4.2.4 Intervallschätzungen für Anteilswerte
4.2.5 Intervallschätzung für Varianz und Standardabweichung
4.2.6 Bestimmung des notwendigen Stichprobenumfangs

4.3 Hypothesentests
4.3.1 Grundlagen
4.3.2 Parametertests
4.3.2.1 Mittelwerttests
4.3.2.2 Anteilswerttests
4.3.2.3 Vergleich von zwei Mittelwerten
4.3.2.4 Vergleich von zwei Anteilswerten
4.3.3 Einfache Varianzanalyse
4.3.4 Anpassungstests
4.3.5 Unabhängigkeitstest

2. Deskriptive (Beschreibende) Statistik
2.1 Eindimensionale Häufigkeitsverteilungen
Gewicht
Sparbetrag
Größe
Nettoeinkommen
Vermögen Augenfarbe
Berufsgruppe Körperumfang
Familienstand
Nationalität
Schuhgröße
Abb. 5: Merkmalskranz einer natürlichen Person

Symbolik in der Statistik :
 Die Untersuchungsmerkmale werden meist mit einem Großbuchstaben wie X, Y
oder Z bezeichnet;
 die Ausprägungen eines Merkmals X mit indizierten Kleinbuchstaben, d.h. mit x1,
x2, ..., xr;
 r Anzahl der betrachteten Ausprägungen (bei diskreten Merkmalen) bzw. Anzahl
der betrachteter Klassen (bei stetigen Merkmalen);
 n Anzahl der Untersuchungseinheiten, für die ein Datenbefund vorliegt;
 hi absoluter Beobachtungshäufigkeit der i-ten Ausprägung oder Klasse (i = 1, 2, ...,
r), wobei  hi  n ;
i 1
 fi relative Beobachtungshäufigkeit der i-ten Ausprägung oder Klasse
( i = 1, 2, ..., r), wobei f i  hi .
n

Häufigkeitsfunktion
Auszählung der Häufigkeiten für das Untersuchungsmerkmal X Augenfarbe
Ausprägung Strichliste absolute Häufigkeit relative Häufigkeit ( )

(xi) (hi) hi
fi 
n
x1 blau   h1 = 6 f1 = 0,30
x2 grau  h2 = 3 f2 = 0,15
x3 grün  h3 = 3 f3 = 0,15
x4 braun   h4 = 6 f4 = 0,30
x5 sonstige  h5 = 2 f5 = 0,10
Summe: n = 20 1,0
Tab. 3: Augenfarbe

2.1.1 Eindimensionale Verteilungsfunktion
Geschwindigkeit von Autos in km/h zwischen 9.45-10.00 Uhr
absolute relative
Lfd. Nr. Ausprägung absolute kumulierte relative kumulierte
xi (in km/h) Häufigkeit Häufigkeit Häufigkeit Häufigkeit
hi Hi fi Fi
1 x1 = 46 h1 = 4 4 f1 = 0,0500 0,0500
2 x2 = 47 h2 = 3 7 f2 = 0,0375 0,0875
3 x3 = 48 h3 = 9 16 f3 = 0,1125 0,2000
4 x4 = 49 h4 = 8 24 f4 = 0,1000 0,3000
5 x5 = 50 h5 = 12 36 f5 = 0,1500 0,4500
6 x6 = 51 h6 = 14 50 f6 = 0,1750 0,6250
7 x7 = 52 h7 = 9 59 f7 = 0,1125 0,7375
8 x8 = 53 h8 = 15 74 f8 = 0,1875 0,9250
9 x9 = 54 h9 = 6 80 f9 = 0,0750 1,000
Summe: n = 80 1,0
Tab. 4: Geschwindigkeitsmessung in Zweibrücken

i
• absolute kumulierte Häufigkeit: Hi  h
j 1
j
i ihj 1 i
  
Hi
• relative kumulierte Häufigkeit: Fi  fj   hj 
j 1 j 1
n n j 1
n
Der Vorgang des Aufaddierens bis zu einem bestimmten Punkt wird als Kumulieren
bzw. als Kumulation bezeichnet. Die Häufigkeiten, die durch Kumulation entstehen,
werden als kumulierte Häufigkeiten bezeichnet. Wir verwenden hierbei die Symbole
Hi für absolute kumulierte Häufigkeiten und Fi für relative kumulierte Häufigkeiten.

2.1.2 Klassifizierte Häufigkeitsverteilungen
FuE-Ausgaben in Prozent der Einnahmen
Firma Prozent Firma Prozent Firma Prozent Firma Prozent

1 13,5 14 9,5 27 8,2 40 7,5
2 8,4 15 8,1 28 6,9 41 7,1
3 10,5 16 13,5 29 7,2 42 13,2
4 9,0 17 9,9 30 8,2 43 7,7
5 9,2 18 6,9 31 9,6 44 5,9
6 9,7 19 7,5 32 7,2 45 5,2
7 6,6 20 11,1 33 8,8 46 5,6
8 10,6 21 8,2 34 11,3 47 11,7
9 10,1 22 8,0 35 8,5 48 6,0
10 7,1 23 7,7 36 9,4 49 7,8
11 8,0 24 7,4 37 10,5 50 6,5
12 7,9 25 6,5 38 6,9
13 6,8 26 9,5 39 6,5
Quelle: McClave/Benson/Sincich 2001, S. 38
Tab. 5: FuE-Ausgaben
Rohdaten / Ursprungsdaten können unübersichtlich sein.

Klassifizierte Häufigkeitsverteilungen der FuE-Ausgaben in Prozent
Kumulierte Kumulierte
Klasse Klassen- Klassen- Relative absolute relative
kj ausprägung häufigkeit Häufigkeit Häufigkeit Häufigkeit
hi fi Hi Fi
k1 5,15 - 6,24 4 0,08 4 0,08

k2 6,25 - 7,34 12 0,24 16 0,32
k3 7,35 - 8,44 14 0,28 30 0,60
k4 8,45 - 9,54 7 0,14 37 0,74
k5 9,55 - 10,64 7 0,14 44 0,88
k6 10,65 - 3 0,06 47 0,94
11,74
k7 11,75 - 0 0,00 47 0,94
12,84
k8 12,85 - 3 0,06 50 1,00
13,94
Summe: n = 50 1,00
Tab. 6: Klassifizierte Häufigkeitsverteilung der FuE-Ausgaben

2.1.3 Darstellung eindimensionaler
Häufigkeitsverteilungen
(1) Das Stem-Leaf-Diagramm (dt. Stängel Blatt

Stängel-Blatt-Diagramm) gilt als 5 269
einfaches, aber sehr wirkungs- 6 055568999
volles Werkzeug zur Analyse und 7 11224557789
Darstellung metrischer Daten. 8 001222458
9 02455679
10 1556
(2) Bei der höhenproportionalen 11 137
Darstellung werden die beobach- 12
teten Häufigkeiten in einem 13 255
rechtwinkligen Koordinatensys-
Tab. 7: Stem-Leaf-Diagram I
tem als Strecken senkrecht zur
Abszisse festgehalten. Die Länge Häufigkeitsverteilung der FuE-Ausgaben
der jeweiligen Strecke ist propor-

tional zu der zugehörigen
Beobachtungshäufigkeit.

(2) Höhenproportionale Darstellung – Stabdiagramm
7
6
5
4
3
2
1
0
blau grau grün braun sonstige
Abb. 6: Augenfarbe von 20 Studierenden – Häufigkeitsfunktion der absoluten Häufigkeiten hi
0,2
0,15
0,1
0,05
0
46 47 48 49 50 51 52 53 54
Abb. 7: Geschwindigkeitsmessung in Zweibrücken – Häufigkeitsfunktion der relativen Häufigkeiten fi

(3) Flächenproportionale Darstellung
Bei der flächenproportionalen Darstellung werden die Beobachtungshäufigkeiten als

. Flächen abgebildet, wobei die Flächeninhalte proportional zu den beobachteten
Häufigkeiten sind.

h  360
i  i
n
bzw.
i  f i  360
Abb. 8: Augenfarbe von 20 Studierenden (Anteile in %) – Häufigkeitsfunktion der relativen Häufigkeiten fi
Kuchendiagramm / Pie Chart

Kreisdiagramm mit Detailansicht
Länder und Regionen
Übrige Welt
5%
Kaiserslautern
43%
Deutschland Übriges Deutschland

USA 63%
32% 20%
Abb. 9: Herkunft der Teilnehmer des Internetexperimentes zum Ultimatum Bargaining Game (Anteile in %)
Kaiserslautern = im Umkreis von 100 km; übrige Welt – vor allem Österreich, Schweiz, Ungarn.
Piazolo (2010) Dividing up an Inheritance Successfully – Significant International Variations, Proceedings, 8th International
Conference on Management, Enterprise and Benchmarking, Budapest (June 2010) p. 315-324 – p. 316
Klassifizierte Häufigkeitsfunktionen mit unterschiedlichen Klassenbreiten
11-20 21-25 26-30 31-40 41-50 51-70
Abb. 11: Alter der Teilnehmer des Internetexperimentes zum Ultimatum Bargaining Game (Anteile in %)
hi
ei  „Höhe der Säule i”
di
n = 120
n = 240
n = 720
Abb. 12: Effekt der Zunahme der Grundgesamtheit (n) auf Histogramme

Abb. 16: Polygonzug für die Geschwindigkeitsmessung in Zweibrücken (km/h)

a) Karosserie b) Zubehör
Abb. 17: Fehlerquellen in der Automobilproduktion eines Tages (Anzahl)

Better lives
Worldwide improvements over past 30 years
80 0 0 100 100 100 300
700
50 90 90 80
325
70 50 800
80 80
100 60
Improvement
Improvement
900 350
150 70 70
60 100 40
200 1000 60 60 375
20
50 150 250 50 50
400
life infant under-5 under- adult primary secondary children

expectancy mortality mortality nourished literacy rate not in school
at birth, rate, rate, people, estimated, % gross estimated, m
years per 1,000 per 1,000 m
live births live births
enrolment
ratio, %
Source: UNEP, GEO3
Aufgabe 16: Welche Probleme (Vorteile) ergeben sich aus dieser Darstellung des Economists?
Zusammenfassung:
Die Häufigkeitsverteilung eines Merkmals (eindimensional) zeigt, wie bedeutsam die

verschiedenen Merkmalsausprägungen sind. Als Häufigkeitsfunktion bezeichnen wir
die tabellarische Zusammenstellung der Ausprägungen mit ihren absoluten wie
relativen Beobachtungshäufigkeiten. Stellen wir die kumulierten absoluten bzw.
relativen Häufigkeiten zusammen, dann erhalten wir die Verteilungsfunktion des
Merkmals. Sobald uns ein stetiges Merkmal vorliegt, ist es sinnvoll dieses in Klassen
zu unterteilen. Daraus ermitteln wir klassifizierte Häufigkeitsverteilungen
(Häufigkeits- und Verteilungsfunktion). Über höhen- und flächenproportionale
Darstellungen lassen sich die Daten auf einen Blick gut präsentieren und
interpretieren. Aber Vorsicht: graphische Verzerrungen sind leicht möglich und recht
weit verbreitet. Für überschaubare (metrische) Datenmengen bietet das Stem-Leaf-
Diagramm den größten Informationsgehalt.

2.2. Zweidimensionale Häufigkeitsverteilungen
Abb. 19: Einfache Kontingenztabelle für die Passstrasse nach Madrid
Randhäufigkeit:

Merkmalsausprägungen von Y
y1 y2 . . . yc 
x1 h11 h12 . . . h1c h1
Merkmalsausprägungen x2 h21 h22 . . . h2c h2
von X . . . . .
. . . . .
. . . . .
xr hr1 hr2
. . . hrc hr
 h1 h2
. . . hc h
Tab. 7: Zweidimensionale Häufigkeitsfunktion in allgemeiner Form
Aktie Y
Aktie X Y1 Y2 = -4% Y3 Y4 Y5 
X1 = -4% 0 6 7 4 3 20
0,000 0,058 0,067 0,038 0,029 0,192
X2 = 0% 4 11 25 18 3 61
0,038 0,106 0,240 0,173 0,029 0,587
X3 = +4% 5 7 6 3 2 23
0,048 0,067 0,058 0,029 0,019 0,221
 9 24 38 25 8 104
0,087 0,231 0,365 0,240 0,077 1,000
Tab. 8: Wochenrenditen zweier Aktien in Prozent
Zusammenhang zwischen den gemeinsamen Häufigkeiten und den Randhäufigkeiten (bedingte relative Häufigkeit):
hij hij
f1(xiyj) = bzw. f2(yjxi) = Beispiel: f1(x1y2) = 6 / 24 = 25%
h j hi
Wahrscheinlichkeit Kurseinbruch von Aktie X,
wenn auch Aktie Y um 4% einbricht. 25
2.2.1 Zweidimensionale Verteilungsfunktion
Mit Hij bezeichnen wir die kumulierten Häufigkeiten der Verteilungsfunktion i j

der absoluten Beobachtungshäufigkeiten. Mit Fij diejenige der relativen H ij   hkl
Beobachtungshäufigkeiten. k 1 l 1
2.2.2 Darstellung zweidimensionaler

Anzahl der Läden
Umsatz
in Mio. € 1 2 3 
<20 2 10 3 15
>20 8 21 6 35
 10 31 9 50
Tab. 10: Lebensmitteldiscounter

Abb. 20: Zweidimensionale Häufigkeits- und Verteilungsfunktion
Umsatz in Mio. € und Anzahl der Ladengeschäfte (pro Lebensmitteldiscounter)

Abb. 22: Streudiagramm einer drei- bzw. vierdimensionalen Häufigkeitsfunktion – Gapminder Desktop
Quelle: FAZ 2005 a
Abb. 25: Frankreich begibt die erste Staatsanleihe über 50 Jahre

Quelle: ARD-Sendung: Harald Schmidt Show vom 19. 01.2005
Abb. 26: Einschaltquoten in Millionen Zuschauer (Durchschnitte)

Quelle: Meadows ad al 1973, S. 40
Abb. 29: Landwirtschaftlich nutzbares Land (Club of Rome)
Quelle: Economist 1998

Abb. 28: Auswirkungen einer unterschiedlichen Bezugsgröße

Quelle: FAZ (Hrsg.) 08.02.2006
Abb. 27: Weniger Unternehmen insolvent

Zusammenfassung:
Mit Hilfe der Datenkosmetik kann Zahlenmaterial in einer Weise aufbereitet werden,
dass die zentrale Aussage direkt ins Auge springt und der Leser diese aufnimmt ohne
zu reflektieren, ob die grafische Darstellung seriösen wissenschaftlichen Standards
entspricht oder alle relevanten Informationen Berücksichtigung fanden. Die
Skalierung, maßstabsgetreue Flächeninhalte, korrekte Bezuggrößen und
Berichtszeiträume, das Fehlen wichtiger Informationen, die Wahl der richtigen
Schaubildtyps sowie die treffende Beschriftung sind die Prüfpunkte jeder
wissenschaftlich seriösen Darstellung. Die Gratwanderung zwischen Aussagekraft und
Übersichtlichkeit einer grafischen Aufbereitung wird erst mit Erfahrung zu meistern
sein.

2.4 Parameter eindimensionaler
10 10
8 8
6
6
4
4
2
2
0
1 2 3 4 5 6 7 8 9 10 11 12 13 0
11
13
15
17
1
9
Abb. 32: Darstellung von Lage-Unterschieden einer Häufigkeitsfunktion
25 10
20 8
15 6
10 4
5 2
0 0
1 2 3 4 5 1 2 3 4 5 6 7 8 9
Abb. 33: Darstellung einer geringen und einer großen Streuung von Häufigkeitsfunktionen

Parameter einer Häufigkeitsfunktion
Lageparameter Streuungsparameter
Modus Spannweite
Median Varianz
Arithmetisches Mittel Standardabweichung
Harmonisches Mittel Variationskoeffizient
Geometrisches Mittel
Quartile
2.4.1 Lageparameter
2.4.1.1 Modus
Der Modus einer Häufigkeitsfunktion ist die Merkmalsausprägung xi, welche die größte
Beobachtungshäufigkeit hi aufweist.
Stem Leaf
5 269
6 055568999
7 11224557789
8 001222458
9 02455679
10 1556
11 137
12
13 255

2.4.1.2 Median
Median bzw. Zentralwert ist der Wert des mittleren Elements; d.h. der Zentralwert charakte-
risiert die Lage einer Häufigkeitsfunktion durch den Merkmalswert desjenigen Untersuchungs-
objektes, das die geordnete Reihe von Untersuchungsobjekten genau in zwei gleiche Hälften teilt.
Stem Leaf
5 269
6 055568999
7 11224557789
8 001222458
9 02455679
10 1556
11 137
12
13 255
Hier n = 50

(1) Median bei diskreten Merkmalen:
Der Zentralwert ist bei diskreten Merkmalen durch diejenige Ausprägung gegeben,
deren kumulierte Häufigkeit als erste die 50 % Marke überschreitet.
Anzahl Personen im Haushalt Häufigkeit

in der Bundesrepublik (2009) in 1.000 in Prozent
1 15.378 38,5
2 14.060 35,2
3 5.113 12,8
4 3.914 9,8
5 1.358 3,4
6 und mehr 120 0,3
 38.943 100,0
Quelle: Statistisches Bundesamt (Hrsg.) 2010, Tab. A.11.2

Tab. 13: Haushaltsgröße

(2) Median bei klassifizierten Merkmalen: Bei gruppierten Werten eines stetigen
Merkmals liegt der Median in der Merkmalsklasse, in der sich das Medianelement mit
der Ordnungsziffer n  1 bzw. n befindet.
2 2

Klasse Ausprägung Häufigkeitsfunktion Verteilungsfunktion
kj (Punkte) hj Hj
k1 kleiner als 7,0 2 2
k2 7,1-13,2 3 5
k3 13,3-19,4 8 13
k4 19,5-25,6 9 22
k5 25,7-31,8 8 30
k6 31,9-38,0 22 52
k7 38,1-44,2 19 71
k8 44,3-50,4 22 93
k9 50,5-56,6 10 103
k10 56,7-62,8 11 114
k11 62,9 und größer 6 120
Tab. 14: Punkteverteilung einer Statistikklausur
100,0% 25
90,0%
80,0% 20
70,0%
60,0% 15
50,0%
40,0% 10
30,0%
20,0% 5
10,0%
,0% 0
bis 7 bis bis bis bis bis 38 bis bis bis bis ab
13,2 19,4 25,6 31,8 44,2 50,4 56,6 62,8 62,9
Abb. 34: Statistik-Klausur – Polygonzug der Verteilungsfunktion und Ermittlung des

feinberechneten Medians
2.4.1.3 Arithmetisches Mittel
Das arithmetische Mittel bzw. der arithmetische Mittelwert ist die Summe aller
beobachteten Merkmalsausprägungen, geteilt durch deren Anzahl. Es entspricht
umgangssprachlich dem Durchschnittswert und ist nur für metrisch skalierte
Merkmale sinnvoll anwendbar.
n
 xi
X i1
n Stichprobe
1 n n
X   xi  xi  n  X
n i1 i 1
n
 xi
Grundgesamtheit
 i1
N

a) symetrisch (Mo = Me = ) b) positive Schiefe (Mo < Me < )
c) negative Schiefe ( < Me < Mo)
Abb. 35: Beziehung zwischen Mittelwert, Median und Modus

Arithmetische Mittelwert einer klassifizierten Häufigkeitsfunktion:
m x ' j  hj
X 
j 1 n
Klasse Merkmalsausprägung typische Ausprägung Häufigkeit

x'j hj
kj (Punkte)
k1 kleiner als 7,0* 3,95 2
k2 7,1-13,2 10,15 3
k3 13,3-19,4 16,35 8
k4 19,5-25,6 22,55 9
k5 25,7-31,8 28,75 8
k6 31,9-38,0 34,95 22
k7 38,1-44,2 41,15 19
k8 44,3-50,4 47,35 22
k9 50,5-56,6 53,55 10
k10 56,7-62,8 59,75 11
k11 62,9 und größer* 65,95 6
* die erste und die elfte Klasse sind keine offenen Klassen: k1 (0,9-7,0); k11 (62,9-69).
Tab. 15: Statistik-Klausur – Klassenmittelwerte

2.4.1.4 Gewichtetes arithmetisches Mittel
Das gewichtete Mittel ist ein arithmetischer Mittelwert, für den jeder Wert
entsprechend seiner Bedeutung unter den Beobachtungselementen gewichtet wird.
Auch hier sind die Formeln für das gewichtete Mittel der Grundgesamtheit und für
den gewichteten Stichprobenmittelwert identisch.
n
 (wi  xi )
μw oder Xw  i 1
n ; d.h. jeder Wert der Merkmalsausprägungen (xi)

i 1
wi
Wertpapier Rendite in % Anlagevolumen in € wi  xi

(xi) (wi)
A 4,2 30.000 1.260
B 5,5 20.000 1.100
C 7,4 5.000 370
D 10,1 3.000 303
 58.000 3.033
Tab. 16: Portfolio eines Privatkunden

2.4.1.5 Harmonisches Mittel
Wollen Sie Beziehungszahlen mitteln, bei denen Zähler und Nenner 1
unterschiedliche Dimensionen, wie bei Stückkosten oder Geschwin- X harm 
w1 w
 ...  n
digkeit , aufweisen, dann müssen Sie auf das harmonische Mittel x1 xn
Zurückgreifen.
2.4.1.6 Geometrisches Mittel

Falls die zu mittelnden Größen dimensionslose Zuwachsfaktoren  n 
bzw. Wachstumsraten wie Zinsen, Inflation oder BIP-Wachstum 
X geom   n xi  1 100 in %
 i 1 
sind, dann ist das geometrische Mittel geom zu verwenden.  
2.4.1.7 Quartile
Quartile teilen eine Menge von geordneten Elementen nach Häufigkeitsanteilen.
oder

Wie hoch liegt das durchschnittliche Wirtschaftswachstum p.a.?
Abb. 27: Südafrika in Zahlen (FAZ vom 26.9.2005)
Geometrisches Mittel berechnen

 n 
X geom   n x  1 100 in %
 i 1 i 
 
X geom   5 1,027 1,036 1,019 1,026 1,033
Prof. Dr. Marc

Piazolo 1  100  2,818% ( p.a.) 46
2.4.2 Streuungsparameter
2.4.2.1 Spannweite und Interquartilsspanne
Die Spannweite oder Range liefert die einfachste Antwort auf die Frage nach der
Streuungsbreite einer Verteilung. Sie ist sehr leicht zu berechnen, da wir nur die
Differenz zwischen dem höchsten und dem niedrigsten Wert eines geordneten,
ungruppierten Datensatzes nehmen müssen.
R  xmax  xmin RStatistik Klausur  69  7  62  Punkte ;

 
RRadarkontrolle  54  46  8  km  .
 h 
Welche Methode ziehen
Gewinn bzw. Verluste Methode A Methode B Sie vor?
(in %) (Zahl der Bauvorhaben) (Zahl der Bauvorhaben)
30-40 15 5 Wie unterscheiden sich
20-30 20 15 die beiden Methoden?
10-20 30 60
0-10 20 15 Bilden Sie die Daten
-10-0 15 5 mit Hilfe eines
Histogramms ab.
Tab. 17: Profitabilität von Bauvorhaben

2.4.2.2 Varianz und Standardabweichung
• Wir bilden den Betrag der Abweichungen vom Mittelwert und erhalten somit die
mittlere absolute Abweichung. Durch die Betragsbildung vermeiden wir, dass sich
positive und negative Abweichungen gegenseitig aufheben:
1 n x X
n 
i 1
i
• Anstatt den Betrag zu bilden, können wir auch auf die Summe der quadrierten
Abweichungen vom Mittelwert zurückgreifen und umgehen damit das Problem
der gegenseitigen Aufrechnung. Folglich ergibt sich die Varianz – entweder einer
Grundgesamtheit (σ²) oder der Stichprobe (s²) – aus:
2 n 2
 2  1   xi   
N 1
N i1
s 
2
 x  X 
n 1 i1  i 

Grundgesamtheit (N) Stichprobe (n)

Standardabweichung
1 N  n 
N
 x 2  2
s 1 
 xi  n  X 
2 2
i1
i
n 1 i1 

1  m  m x ' j hj
s 

n 1  j 1
xj  n X 
'2 2

X 
j 1 n
 
Diese Quadratwurzel wird als Standardabweichung (σ bzw. s) bezeichnet.

Sie lässt sich nun direkt mit dem Mittelwert vergleichen.

2.4.2.3 Variationskoeffizient
Stichprobe: CV  s 100
X
Grundgesamtheit CV   100

Der Vergleich der Standardabweichungen – d.h. der absoluten Streuungsmaße – kann
öfter zu falschen Schlüssen führen. Daher führen wir den Variationskoeffizienten
bzw. den Coefficient of Variation (CV) als Maß der relativen Streuung ein. Er gibt an,
um wie viel Prozent des Mittelwertes die Merkmalswerte im Durchschnitt um den
Mittelwert streuen.

Die Häufigkeiten lässt sich wie folgt errechnen:

• Markieren Sie den Ergebnisbereich C1:C12,
• rufen Sie die Funktion HÄUFIGKEIT in der Kategorie Statistik auf (über den
Assistenten in der Funktionsleiste),
• in dem Dialogfeld Daten geben Sie ein A1:A16
• in dem Dialogfeld Klassen geben Sie ein B1:B11
• danach klicken Sie folgende Tastenkombination „Control+Shift+Return”, jetzt
stehen in dem Ergebnisbereich C1:C12 jeweils die absoluten Häufigkeiten der
einzelnen Notenschritte.
• Achtung: falls Sie vor dem letzten Schritt „Return” geklickt haben, taucht in Zelle
C1 die Häufigkeit für die erste Merkmalsausprägung (Note 1,0) – hier eine 2 – auf.
Die anderen Häufigkeiten fehlen.

2.4.3.1 Mittelwerte
Excel verfügt über integrierte Funktionen für fast alle behandelten Lageparameter, d.h.
für den Modus (MODALWERT), den Median (MEDIAN), das arithmetische Mittel
(MITTELWERT), den geometrische Mittelwert (GEOMITTEL), das gestutzte Mittel
(GESTUTZMITTEL) und das harmonische Mittel (HARMITTEL).
2.4.3.2 Streuungsmaße
Für die in Kapitel 2.4.2 vorgestellten Parameter zur Variabilität einer Häufigkeits-
verteilung liefert Excel nur in einigen Fällen eine sofort anwendbare Funktion;
mehrere der Streuungsmaße müssen durch Verknüpfung verschiedener Funktionen
abgeleitet werden. Direkte Funktionen bietet Excel nur für die Varianz und die
Standardabweichung, wobei Sie selbst bestimmen müssen, ob sich die
Streuungsparameter auf eine Stichprobe bzw. die Grundgesamtheit beziehen:
• Auf Basis einer Stichprobe ermittelt Excel die Varianz s² bzw. die Standardabweichung s
über die Funktionen VARIANZ und STABW .
• Liegt eine Grundgesamtheit vor, dann sind die Excel Funktionen VARIANZEN und
STABWN anzuwenden.

Zusammenfassung:
Statistische Parameter erlauben es uns, aussagekräftige Kennzahlen über einen Datensatz zu

ermitteln. Lageparameter kennzeichnen diejenige Ausprägung eines Untersuchungsmerkmals,
die für die Häufigkeitsverteilungen am typischsten ist – typisch in dem Sinne: Wo liegt das
Zentrum der Beobachtungswerte? Hierzu gehören Modus, Median, Quartile und das
arithmetische bzw. geometrische bzw. harmonische Mittel. Der arithmetische Mittelwert ist uns
als „gewöhnlicher Durchschnittswert“ wohlbekannt – sein einziger Nachteil: Ausreißer verzerren
den Gesamteindruck. Mit dem Median als Zentralwert der geordneten Beobachtungswerte lässt
sich dies vermeiden. Sobald Wachstumsraten vorliegen, muss das geometrische Mittel
berechnet werden. Liegen Beziehungszahlen vor, bei denen Zähler und Nenner unterschiedlicher
Dimension sind, dann greifen wir auf das harmonische Mittel zurück.

Streuungsparameter kennzeichnen, wie dicht die Beobachtungswerte um ihr Zentrum zusammen
liegen bzw. ob diese weit verstreut sind. Die Streuung geben wir entweder in absoluter
(Spannweite, Interquartilsspanne) oder relativer Größe an. Die Varianz bzw. die
Standardabweichung sind die wichtigsten Streuungsmaße. Damit berechnen wir die
durchschnittliche Abweichung der Beobachtungswerte von ihrem arithmetischen Mittelwert. Die
Standardabweichung hat – als Wurzel der Varianz – die gleiche Dimension wie das arithmetische
Mittel. Es ist üblich, metrisch skalierte Merkmale mit der Angabe von Durchschnittswert (Lage)
und der dazugehörigen Standardabweichung (Streuung) zu beschreiben. Der
Variationskoeffizient erlaubt den sinnvollen Vergleich der relativen Streuung zweier
Beobachtungsreihen.
Mit Hilfe von Microsoft Excel können wir rasch einen Datensatz (Urmaterial) strukturieren und
die meisten der genannten Parameter über integrierte Funktionen in Sekundenschnelle
berechnen. Bei den Streuungsparametern Varianz und Standardabweichung ist jedoch Vorsicht
geboten: Excel unterscheidet zwischen Daten aus einer Stichprobe bzw. aus der
Grundgesamtheit.

2.4.4 Konzentrationsmaße
Mit Hilfe der Streuungsmaße stellen wir fest, wie breit die einzelnen
Merkmalsausprägungen um den zentralen Wert verteilt sind. Konzentrationsmaße
beschreiben mit Blick auf den Anteil, den eine einzelne statistische Einheit an der
Gesamtsumme der Merkmalswerte hat, eine ähnliche Struktureigenschaft. Denn es
kann ja sein, dass die Summe der Merkmalswerte größtenteils auf ganz wenige
Merkmalsträger konzentriert ist.
Deutschland Utopia
xj hj xj hj
j hj fj  j h fj 
(in tsd. EUR) n (in tsd. EUR) j
n
1 1
1 1 1 1 3 1
5 5
1 1
2 2 1 5
2 3 1 5
1 1
3 3 1 5
3 3 1 5
1 1
4 4 1 4 3 1
5 5
1 1
5 5 1 5 3 1
5 5
Tab. 22: Einkommensverteilung in Deutschland und Utopia
fj fj
1
1/5
1 2 3 4 5 x 1 2 3 4 5 x
Deutschland Utopia
Abb. 32: Stabdiagramme der Einkommensverteilung

Relativzahlen:
i

j 1
nj
Die relative kumulierte Häufigkeit pj 
n
i
 nj  xj
Die relative kumulierte Merkmalsanteil qj  J 1
r

j 1
nj  xj

Tab. 23: Relative kumulierte Häufigkeiten und Merkmalsanteile für Deutschland und Utopia
qj qj
F F
Deutschland 1 Utopia 1
E 4/5
Fläche Q
E 10/15
D
3/5
6/15 C 2/5
D
C 3/15 B 1/5
B 1/15
A A
0 0
0 1/5 2/5 3/5 4/5 1 0 1/5 2/5 3/5 4/5 1
pj pj
Abb. 37: Einkommensverteilung – Deutschland und Utopia

Der Streckenzug, der die verschiedenen Punktepaare (pj, qj) im Koordinatensystem
miteinander verbindet - hier ABCDEF - wird zu Ehren des Wirtschaftsstatistikers
Lorenz (1905) als Lorenz-Kurve bezeichnet. Sie gibt zu jedem Anteilswert der
statistischen Einheiten den dazugehörigen Anteilswert an der Merkmalssumme an.
Multiplizieren wir die Anteilswerte jeweils mit dem Faktor 100, erhalten wir die
jeweiligen Prozentsätze.
0  Q  12
K  2Q
Ginikoeffizient: gibt das Verhältnis der Fläche Q zwischen der Hauptdiagonalen und
der Lorenz-Kurve zur Fläche des gesamten Dreiecks unter der Hauptdiagonalen an.
GK  
  ( p j1  p j ) j  1
nj  xj
j r
j n j  x j
Tab. 24: Hilfswerte zur Berechnung der Ginikoeffizienten für Deutschland und Utopia
GKDeutschland = 95/75 – 1 = 0,27

Sachverständigenrat (November 2015) S. 233 61
Sachverständigenrat (November 2016) S. 407 62
FAZ, Deutsche sind die Ärmsten in Europa, Wirtschaft (10.04.2013)
EZB zögert Studie über Reichtum hinaus, FAZ (12. März 2013)
FAZ, Spanier ein Drittel reicher als Deutsche, Wirtschaft (21.03.2013)
Sachverständigenrat, Jahresgutachten (November 2017)

Sachverständigenrat, Jahresgutachten (November 2017)

n
Herfindahl-Hirschman-Index: HHI   qi2 mit qi  xi n
i 1

i 1
xi
Aus der Summe der quadrierten Marktanteile aller Merkmalsträger (Unternehmen)

eines bestimmten Marktes oder Branche berechnet. Die Festlegung auf eine
bestimmte Anzahl der größten Merkmalsträger wird beim Herfindahl-Hirschman-
Index vermieden.
2005 Anzahl Banken CR5 in % HHI in %
Belgien 100 85 21,1
Deutschland 2.089 22 1,7
Finnland 363 83 27,3
Frankreich 854 54 7,6
Italien 792 27 2,3
Niederlande 401 85 18,0
Spanien 348 42 4,9
Quelle: Deutsche Bundesbank (Hrsg.) 2006, S. 95.
Tab. 25: Bankenkonzentration in Europa (gemessen an der Bilanzsumme)
Konzentrationsrate: CR5 = prozentuale Marktanteil der fünf größten Anbieter

Zusammenfassung:
Der Ginikoeffizient (GK) und die Lorenzkurve als grafische Darstellung spiegeln die
relative Konzentration wider. Für die Einkommens- oder Vermögensverteilung finden
sie Anwendung. Entfällt jedoch ein hoher Anteil der Merkmalssumme auf eine kleine
absolute Anzahl von Merkmalsträgern, dann sind absolute Konzentrationsmaße
sinnvoll und üblich. Hierzu gehören die Konzentrationsrate (CR) sowie der Herfindahl-
Hirschman-Index (HHI). Im Zusammenhang mit branchenspezifischen
Wettbewerbsfragen sind diese Konzentrationsmaße verbreitet.

2.4.5 Zusammenhang zwischen Merkmalen
Gibt es zwischen den verschiedenen Merkmalen einen Zusammenhang, und wie stark
ist dieser? In der Realität vermuten wir häufig zwischen zwei Untersuchungs-
merkmalen ein bestimmtes kausales Abhängigkeitsverhältnis. So kennen Sie folgende
Modellannahme aus der Mikroökonomie (VWL): Bei normalen Gütern besteht ein
inverser Zusammenhang zwischen dem Preis eines Gutes und seiner Absatzmenge;
daraus ergibt sich die fallende Nachfragefunktion.
Die Abhängigkeit zwischen zwei Merkmalen kann ganz unterschiedlich eng ausfallen.
Dabei unterscheiden wir zwischen einer funktionalen und einer zufallsbedingten
Abhängigkeit:
• Funktionale Abhängigkeit: Y = C + S
• Zufallsbedingte bzw. stochastische Abhängigkeit: In diesen Fällen besteht nur eine
Vermutung über die Art des Zusammenhangs. Folglich kann selbst bei Bekanntheit
des einen Merkmals keine exakte Voraussage bzgl. des zweiten Merkmals
getroffen werden.

Zusammenhang zwischen Merkmalen
Kovarianz Korrelationskoeffizient
nach Bravais-Pearson
Rangkorrelation Kontingenztafeltest
nach Spearman

2.4.5.1 Kovarianz
• Die Kovarianz stellt das arithmetische Mittel des Produktes der Abweichungen
beider Merkmale von ihrem jeweiligen (arithmetischen) Mittelwert dar. Sind die
Ausprägungen des Merkmals X (x1, x2, ..., xn) sowie die Ausprägungen des
Merkmals Y (y1, y2, ..., yn) gegeben und die jeweiligen arithmetischen Mittel ( , )
errechnet, dann gilt:
n n
1 1
cov( X ,Y )    ( xi  X )  ( yi  Y )    xi  yi  X  Y
n i1 n i1
• Bei einer Stichprobe ist die Summe des Produktes anstatt durch n durch n–1 zu
teilen. Diese wird allgemein als empirische Kovarianz (sxy) bezeichnet.
Zigarettenlänge in cm
(Merkmal Y)
Nikotingehalt y1 y2 y3 
in mg 8 10 12
(Merkmal X) 0,8  700  8,5  300
x1 0,8 150 250 300 700 X  3,11
1.000
x2 8,5 150 50 100 300 8  300  10  300  12  400
 300 300 400 1.000 Y  10, 2
1.000
Tab. 26: Raucherpräferenzen (Häufigkeitsfunktion)
(0,8  8  150  0,8 10  250  0,8 12  300  8,5  8 150  8,5 10  50  8,5  12  100)
cov( X , Y )   3,11  10, 2
1.000
30490
cov( X , Y )   31,722  1, 232 Prof. Dr. Marc Piazolo 72
1.000
2.4.5.2 Korrelationskoeffizient nach
Bravais-Pearson
r  ( xi  X )  ( yi  Y ) bzw.
SS xy
Korrelationskoeffizienten (r):
Abb. 1
 ( xi  X )2   ( yi  Y )2 SS xx  SS yy
y y y cov( X ,Y ) s
r  xy
sx  s y sx  s y
x x x
r < 0: y fällt, wenn x steigt r = 0: keine Abhängigkeit r > 0: y steigt, wenn x steigt
zwischen y und x
y y
x x
r = +1: perfekte Gleichläufigkeit r = -1: perfekte Gegenläufigkeit
73
Abb. 38: Werte des Korrelationskoeffizienten und der Zusammenhang zwischen Merkmal x und y
Ausgangsinformation
Jahr Kundenberater Fondsvolumen
x y xi 2 yi 2 xi  yi
1990 15 1,35 225 1,8225 20,25
1991 18 1,63 324 2,6569 29,34
1992 24 2,33 576 5,4289 55,92
1993 22 2,41 484 5,8081 53,02
1994 25 2,63 625 6,9169 65,75
1995 29 2,93 841 8,5849 84,97
1996 30 3,41 900 11,6281 102,30
1997 32 3,26 1.024 10,6276 104,32
1998 35 3,63 1.225 13,1769 127,05
1999 38 4,15 1.444 17,2225 157,70
 268 27,73 7.668 83,8733 800,62
Tab. 28: Hilfsgrößen zur Berechnung des Korrelationskoeffizienten
( xi )  ( yi )
SS xy   xi yi   800,62  268  27,73  57,456
n 10
2 ( xi )
2 2
268 SS xy
SS xx   xi   7.668   485,6 r  57,456  0,99
n 10 SS xx  SS yy 485,6  6,97801
2 ( yi )
2 2
SS yy   yi   83,8733  27,73  6,97801
n 10
Korrelationskoeffizient für die Raucherpräferenzen

cov  X , Y  1, 232
r   0, 21
 (x i  X )2  (y i  Y )2 12, 45  2,76 Prof. Dr. Marc Piazolo 74
Bitte berechnen Sie den
Unternehmung i Jahresumsatz xi (Mio. €) Anzahl Beschäftigte
Korrelationskoeffizienten
1 5 5
2 15 20
3 25 30 Summen
4 28 32 Umsatz = 338
5 35 27 Mitarbeiter = 343
6 36 26 Umsatz² = 13.768
7 41 48 Mitarbeiter² = 14.383
8 45 50 Umsatz * Mitarbeiter = 13.865
9 49 40
10 59 65
Tab. 11: Mittelständler – Umsatz und Beschäftigte r = + 0,92
70
60
50
Anzahl 40
Beschäftigte
30
20
10
0
0 20 40 60 80
Jahresumsatz in Mio. €
Abb. 21: Streudiagramm einer zweidimensionalen Häufigkeitsfunktion

2.4.5.3 Rangkorrelation nach Spearman
• An n Merkmalsträgern werden die Merkmale X und Y beobachtet; d.h. es liegen
die Merkmalswerte xi und yi für i = 1, 2, ..., n vor. Diesen Werten werden der
Größenordnung nach Ränge r(xi) bzw. r(yi) zugewiesen. Dann ist der
Rangkorrelationskoeffizient nach Spearman gegeben durch
6   di 2
rSP  1 
n  (n2 1)
• Hierbei stellt di die Differenz der Ränge eines i-ten Merkmalsträgers zwischen den
Merkmalen X und Y dar; d.h. di = r(xi) – r(yi).
Professoren Punkte in Punkte in Rang in Rang in

Gruppe A Gruppe B Gruppe A Gruppe B di
A 310 334 2,5 3 -0,5
B 310 359 2,5 2 0,5
C 346 367 1 1 0
D 222 315 4 5 -1
E 201 318 5 4 1
Tab. 29: Rangkorrelation der didaktischen Fähigkeiten
6  (0,5)2  0,52  02  (1)2  12 

rSP  1     0,875
5  (25 1)
1 5 5
2 15 20
3 25 30 Summen
4 28 32 Umsatz = 338
6 36 26 Umsatz² = 13.768
7 41 48 Mitarbeiter² = 14.383
9 49 40
10 59 65
70
60 Bitte berechnen Sie den

50 Rangkorrelationskoeffizienten
Anzahl 40
Beschäftigte
30 Summe
20 Rangdifferenzen² = 24
10
0 rSP = + 0,85
0 20 40 60 80
Jahresumsatz in Mio. €
Abb. 21: Streudiagramm einer zweidimensionalen Häufigkeitsfunktion

Y metrisch ordinal nominal
X
Kovarianz
metrisch Bravais-Pearson
Korrelations-
koeffizient
ordinal Rangkorrelation
nach Spearman
nominal Kontingenz-
koeffizient
In Anlehnung an Bamberg et al. 2007, S. 36

Abb. 39: Zusammenhangsmaße und Datenqualität (metrisch, ordinal und nominal skalierte Merkmale)

Zusammenfassung:
Den Zusammenhang zweier Merkmale messen wir mit Hilfe statistischer Parameter.
Die Qualität der Datenreihen (metrisch, ordinal, nominal) bestimmt nicht nur die
Wahl des verwendbaren Zusammenhangsmaßes, sondern auch die Interpretations-
tiefe des Zusammenhangs. Die Kovarianz und der Korrelationskoeffizient nach
Bravais-Pearson setzen metrisch skalierte Merkmale voraus. Die Stärke des positiven
bzw. negativen Zusammenhangs lässt sich mit dem Korrelationskoeffizienten
bestimmen.
Sobald ein Merkmal „nur“ ordinal skaliert ist, greifen wir auf den
Rangkorrelationskoeffizienten nach Spearman zurück.
Nominal skalierte Merkmale überprüfen wir auf Unabhängigkeit. Der Kontingenzkoef-

fizient fließt dabei in einen Unabhängigkeitstest (Hypothesentest) ein, den wir Ihnen
in Kapitel 4.3.5 vorstellen. Die Korrelation zweier Merkmale sagt jedoch noch lange
nichts über deren kausale Abhängigkeiten aus. Korrelationen sind daher theoretisch
zur begründen, bevor wir sie als empirischen Beleg für Kausalzusammenhänge
heranziehen.
2.4.6 Einfache lineare Regressionsanalyse
Die Bestimmung derartiger Funktionen zur Beschreibung der Form des

(durchschnittlichen) Zusammenwirkens von Merkmalen ist Gegenstand der
Regressionsanalyse.
800
600
Zahl der Betriebe
400
200
0
0 200 400 600 800 1.000 1.200
Umsatz in Mio. DM (1999)
Abb. 40: Die größten Unternehmen der Gastronomie in Deutschland (1999)

2.4.6.1 Bestimmung einer optimalen Regressionsfunktion
Streudiagramm und stochastisches Regressionsmodell
Monat Werbeausgaben x Geschäftsumsatz y
(in 1.000 EUR) (in 10.000 EUR)
1 1 1
2 2 1
3 3 2
4 4 2
5 5 4
Tab. 32: Werbeausgaben und Umsatz eines Haushaltswarengeschäftes
Werbeausgaben Umsatz
y  1  x ( yi  y )
x y (yi – y )2
1 1 0 (1 – 0) = 1 1
2 1 1 (1 – 1) = 0 0
3 2 2 (2 – 2) = 0 0
4 2 3 (2 – 3) = -1 1
5 4 4 (4 – 4) = 0 0
0 SSE = 2
Tab. 33: Vergleich der Beobachtungswerte mit den Schätzwerten der augenscheinlichen Funktion

5
Umsat z in 10.000 EUR

4
3
2
1
4 0
0 1 2 3 4 5 6
Werbeausgaben in 1.000 EUR
Abb. 41: Streudiagramm für Werbeaufgaben (X) und Umsatz eines Haushaltswarengeschäfts (Y)
Umsatz in 10.000 EUR
5
4
3 ~y  1  x
2
1
0
-1
0 1 2 3 4 5 6
Abb. 42: Augenscheinlich festgestellte lineare Regressionsfunktion

Methode der kleinsten Quadrate
• Weil die Summe der Fehlerquadrate minimiert werden soll, wird die Methode zur
Bestimmung der optimalen linearen Regressionsfunktion als Methode der
kleinsten Quadrate bzw. KQ-Methode bezeichnet.
y1  0  1  x1  1
yn  0  1  xn   n
• wobei
y = die abhängige Variable
x = die unabhängige Variable
 i = der Fehlerterm bzw. das Residuum
0 = der Schnittpunkt mit der y-Achse bzw. der Absolutwert
1 = die Steigung der linearen Funktion bzw. der Koeffizient der unabhängigen
Variablen x

1 x y
ˆ1 
 i i n  i  i  SSxy
x  y 
 
2 SS xx
2 1
Die Schätzwerte für die Koeffizienten lauten: i ni
x  x
ˆ0  1  yi  ˆ1  1  xi  Y  ˆ1  X

n n
xi yi x i2 xi  yi
1 1 1 1
2 1 4 2
3 2 9 6
4 2 16 8
5 4 25 20
 xi  15  yi  10  xi2  55  xi  yi  37
Tab. 34: Hilfsberechnungen für Werbung und Umsatz eines Haushaltswarengeschäftes
(15 10)
SS xy   xi yi  1 ( xi )( yi )  37  7 ˆ1 
SS xy 7
  0,7
n 5 SS xx 10
(15)2
SS xx   xi2  1 ( xi )2  55   10
n 5 ˆ0  Y  ˆ1  X  10  0,7  15  2  2,1  0,1
5 5
yî  ˆ0  ˆ1  xi  0,1  0,7 xi

5
yî  ˆ0  ˆ1  xi  0,1  0,7 xi

0
0 1 2 3 4 5 6
Abb. 43: Umsatz und Werbeausgaben eines Haushaltwarengeschäftes inkl. KQ-Trendgerade

x y yˆ  0,1  0,7  x ( yi  yˆ ) (yi – ŷ)2
1 1 0,6 (1 – 0,6) = 0,4 0,16
2 1 1,3 (1 – 1,3) = -0,3 0,09
3 2 2,0 (2 – 2,0) = 0,0 0,00
4 2 2,7 (2 – 2,7) = -0,7 0,49
5 4 3,4 (4 – 3,4) = 0,6 0,36
0 SSE = 1,10
Tab. 35: Berechnung der Summe der Fehlerquadrate (SSE) auf Grundlage der KQ-Geraden
Regressionsgerade auf Basis der KQ-Methode läuft nur durch den

Beobachtungswert (3,2); trotzdem ist die Summe der Fehlerquadrate (SSE)
mit 1,1 deutlich geringer als die der y -Funktion (SSE = 2).
Regressionsmodell in seiner allgemeinen Form: y  0  1  x  

1 5 5
2 15 20
3 25 30 Summen
4 28 32 Umsatz = 338
6 36 26 Umsatz² = 13.768
7 41 48 Mitarbeiter² = 14.383
9 49 40
10 59 65
70
Y = 0,8677x + 4,0395
Jahresumsatz in Mio. EUR (Y)
60
R² = 0,841
50
40 Berechnen Sie das einfache

Regressionsmodell.
30
20 … oder nutzen Sie die

10 Excel-Funktion dafür.
0
0 10 20 30 40 50 60 70
Anzahl Beschäftigte (X)

Modellannahmen
(1) Mittelwert der Wahrscheinlichkeitsverteilung des Fehlerterms = Null
(2) Die Varianz des Fehlerterms ist konstant (unabhängig von X)
(3) Die Wahrscheinlichkeitsverteilung des Fehlerterms ist symmetrisch und normal (Abb. 44)
(4) Die einzelnen Fehlerterme sind unabhängig voneinander.
Abb. 44: Die Wahrscheinlichkeitsverteilung der Zufallsfehler 

Die eingezeichnete Gerade stellt die Linie der arithmetischen Mittel der y-Variablen
dar.
Schätzer für die Varianz ²
Da wir zwei Freiheitsgrade für die Schätzung des Absolutwertes und der Steigung
benötigen, bleiben (n – 2) Freiheitsgrade übrig. Schätzer von ²:
s 2  SSE
n2

SSE  ( y  yˆ )  SS  ˆ  SS
2
i i yy 1 xy Prof. Dr. Marc Piazolo 88
2.4.6.2 Qualität der Regressionsfunktion
Qualitätsmerkmale einer Regression
Korrelation t-Test F-Test

(Regressionsmodell) (Regressionskoeffizienten) (Regressionsmodell)
bei multipler Regression
Bestimmtheitsmaß
Korrelationskoeffizient
nach Bravais-Pearson

2.4.6.2. Qualität der Regressionsfunktion
I. t-Test für den Regressionskoeffizienten ˆ1  1

t
Errechnet sich als sˆ
1
t  t 2
ˆ1  0 ˆ1 0,7
Teststatistik: t  
s
  3,7 Ablehnungsbereich: oder
sˆ 0,19 t  t 2
1 SS xx
sˆ  s 
0,61
 0,19 SSE 1,1
s2    0,367
1 SS xx 10 n2 3
II. Bestimmtheitsmaß – R²: Güte des gesamten Modells.

Um die Qualität der Prognose zu messen, bilden wir die uns schon bekannte Summe
der quadrierten Abweichungen von diesem Schätzwert für y:
SS yy   ( yi  Y )2   yi 2  1  ( yi )2 SSE   ( yi  yî )  SS yy  ˆ1  SS xy

2
n
2 SSE  6  0,7  7  1,1
SS yy  26  10  6
5
a) Streudiagramm der Beobachtungswerte b) Unabhängige Variable X enthält keine
Informationen in Bezug auf Y, d. h. ŷ  Y
y y
x
x
c) Variable X enthält Informationen in Bezug auf Y, d.h. ŷ  ˆ0  ˆ1  x

y
Abb. 45: Der Informationsgehalt der unabhängigen x-Variablen in Bezug auf Y

SSE   ( yi  yî )  SS yy  ˆ1  SS xy
2
SS yy   ( yi  Y )2   ( yi  yî )2  SSE
Wir ziehen von der Gesamtvariation der y-Werte um ihr arithmetisches Mittel (SSyy)
die, unter Berücksichtigung der Informationen der x-Variablen, übrig bleibende und
somit unerklärte Variation (SSE) ab. Diese Differenz stellen wir als Anteil an der
Gesamtvariation dar. Folglich repräsentiert der Term im Zähler die aufgrund des
Regressionsmodells erklärte Stichprobenvariation.
SS yy  SSE
R2   1  SSE
SS yy SS yy
Die Teststatistik enthält den Korrelationskoeffizienten der Stichprobe r; sie ist mit n –
2 Freiheitsgraden Student-t-verteilt.
t  r
2 1 r 2
n2
III. Korrelationskoeffizient
r  R2 Prof. Dr. Marc Piazolo 92
Anwendungsbeispiel der Regressionsanalyse I
Entfernung zur Brandschaden Entfernung zur Brandschaden

Feuerwache y Feuerwache y
x (in km) (1.000 EUR) x (in km) (1.000 EUR)
3,4 26,2 2,6 19,6
1,8 17,8 4,3 31,3
4,6 31,3 2,1 24,0
2,3 23,1 1,1 17,3
3,1 27,5 6,1 43,2
5,5 36,0 4,8 36,4
0,7 14,1 3,8 26,1
3,0 22,3
Tab. 36: Brandschäden im letzten Jahr
Schritt 1:
Visualisierung
der Daten
Abb. 46: Brandschaden und Entfernung zur nächsten Feuerwache

93
Anwendungsbeispiel der Regressionsanalyse II
Schritt 2:
• Wir formulieren ein Regressionsmodell und legen dabei fest, welches die
abhängige und welches die unabhängige Variable ist.
y  0  1  x  
Schritt 3:
• Anhand des Datenmaterials der Stichprobe von 15 Schadensfällen des letzten

Jahres können wir die unbekannten Regressionsparameter mithilfe der Methode
der kleinsten Quadrate schätzen.
2
SS xx   xi2  1  ( xi )2  196,16  49,2  34,784
n 15
2
SS yy   yi2  1  ( yi )2  11.376,48  396,2  911,5173334
n 15
SS xy   xi  yi  1  ( xi )  ( yi )  1.470,65  49,2  396,2  171,114
n 15
SS xy 171,114
ˆ1    4,919331
SS xx 34,784
ˆ0  Y  ˆ1  X  396,2  4,919331 49,2  10,277927
15 15
yˆ  10,278  4,919  x
Anwendungsbeispiel der Regressionsanalyse III
Schritt 4:
• Wir gehen der Einfachheit halber davon aus, dass die Annahmen bzgl. des Fehlerterms 
immer gelten. Infolgedessen können wir die Varianz bzw. die Standardabweichung der
Residuen aus der Stichprobe berechnen.
SSE   ( yi  yî )2  SS yy  ˆ1  SS xy s 2  SSE  69,750929  5,3655
n2 13
SSE  911,517334  4,919331171,114  69,750929 s  2,32
Schritt 5:
• Mithilfe der geschätzten Standardabweichung können wir nun die Güte des
Regressionsmodells bestimmen.
ˆ1  0 ˆ1 4,919

t    12,5 > t/2-Wert von 3,012 aus Tabelle 9
sˆ s SS xx 2,32 34,784
1
SS xy 171,114
r   0,96
SS xx  SS yy 34,784  911,517
R 2  (r )2  0,92
Schritt 6:
• Aufgrund der guten Qualität unseres Regressionsmodells wollen wir es für
Prognosezwecke einsetzen. Z.B. durchschnittlicher Brandschaden für ein Haus,
das 3,5 km von der nächsten Feuerwache entfernt steht.
yˆ  ˆ0  ˆ1  x p  10,278  (4,919  3,5)  27,5 (in tausend Euro)

95
Zusammenfassend sollten Sie bei der Anwendung eines Regressionsmodells folgende
Einschränkungen beachten:
• Ein y-Wert kann nicht korrekt geschätzt (prognostiziert) werden, wenn der xp-Wert
außerhalb der Spannweite der Werte liegt, die als Grundlage für die
Regressionsfunktion gedient haben;
• eine Prognose oder ein Konfidenzintervall beruht auf der Annahme, dass die
Verteilungen von Y – d.h. auch diejenigen der Residuen – normalverteilt sind und
konstante Varianzen haben;
• je größer die Stichprobe ist, desto genauer fallen die Prognosen aus;
• ein signifikanter Korrelationskoeffizient sagt noch nicht unbedingt etwas über die
Kausalität zwischen X und Y aus;
• bisher haben wir der Einfachheit halber unterstellt, dass der Zusammenhang
zwischen den beiden Variablen linear sei. Diese Einschränkung wollen wir im
Anschluss an die Kontrollaufgaben aufheben.

2.4.7 Einfache nichtlineare Regressionsanalyse
2.4.7.1 Homogene Potenzfunktion
Potenzfunktion: y  0  x 1
In eine lineare Schreibweise transformieren: log( y)  log(0 )  1  log( x)
Gefundene lineare Schreibweise: y*  0*  1  x*

Preis EUR/kg Absatzmenge (Laib)
i xi yi
1 3,0 800
2 3,2 760
3 3,6 600
4 4,0 430
5 4,6 330
6 5,0 250
Tab. 39: Preis je kg Brot und Absatzmenge

Abb. 47: Streudiagramm der Absatzmenge und des Preises von Vollkornbrot
Preis 2
Absatzmenge
i xi x  log( xi )
*
i
x  log( xi ) 
*2
i yi yi*  log( yi ) xi*  yi*
1 3,0 0,4771 0,2276 800 2,9031 1,3851

2 3,2 0,5051 0,2551 760 2,8808 1,4551
3 3,6 0,5563 0,3095 600 2,7782 1,5455
4 4,0 0,6021 0,3625 430 2,6335 1,5856
5 4,6 0,6628 0,4393 330 2,5185 1,6693
6 5,0 0,6990 0,4886 250 2,3979 1,6761
 3,5024 2,0826 16,1120 9,3167
Tab. 40: Arbeitstabelle für die Absatzmengen und Preise

Quelle: Kobelt/Steinhausen 2006, S. 117.
Abb. 48: Homogene Potenzfunktion in der Preis-Absatz-Darstellung

2.4.7.2 Logarithmische und andere Funktionen
Quelle: Vgl. Cremers 1998, S. 52

Abb. 49: CD-Absatz und Bruttomonatseinkommen (Durchschnittswerte)

Exponentialfunktion
5 5
4 4

y = 0,6156e0,3466x y = 0,7x - 0,1
R² = 0,8929 R² = 0,8167
3 3
2 2
1 1
0 0
0 1 2 3 4 5 6 0 1 2 3 4 5 6
Werbeausgaben in 1.000 EUR Werbeausgaben in 1.000 EUR
Abb. 50: Geschäftsumsatz und Werbeausgaben – (nicht-)lineare Regressionsmodelle

Quelle: Cremers 1998, S. 51
Tab. 42: Transformationsmöglichkeiten nichtlinearer Funktionen

2.4.8 Excel-Anwendungen in der Korrelations-
und Regressionsanalyse
Multiple Regressionsmodelle
Yi   0  1  X 1   2  X 2   n  X n   i
bzw.
Yˆ  ˆ0  ˆ1  X 1  ˆ2  X 2   ˆn  X n
IV. F-Test bei multipler Regressionsfunktion

H 0 : 1  2   k  0
H1 : zumindest ein i  0
Teststatistik: ( SS yy  SSE ) / k R2 / k
F 
SSE /  n   k  1  1  R 2  /  n   k  1 
mit Freiheitsgrad des Zählers von k und Freiheitsgrad des Nenners von [n-(k+1)]
Ablehnungsbereich: F  F bzw. F-kritisch kleiner als 0,1

(10%-Irrtumswahrscheinlichkeit; α)

2.4.8 Excel-Anwendungen in der Korrelations-
und Regressionsanalyse
Multiple Regressionsmodelle
Yi   0  1  X 1   2  X 2   n  X n   i
bzw.
Yˆ  ˆ0  ˆ1  X 1  ˆ2  X 2   ˆn  X n
Multipler Korrelationskoeffizient 0,85

Bestimmtheitsmaß 0,73
Beobachtungen 18
Prüfgröße F
20,3
Koeffizienten Standardfehler t-Statistik

Schnittpunkt 6,84 6,72 1,01
Tore 0,71 0,19 3,83
Jahresbudget in Mio. EUR 0,14 0,17 0,81
Tab. 44: Bestimmungsgründe für Bundesligapunkte zum Saisonabschluss 2008/2009

Regressionsanalyse zum Studienerfolg der

Absolventen des FB BW 2004
Regressions-Statistik
Multipler Korrelationskoeffizient 0,88
Bestimmtheitsmaß 0,77
Beobachtungen 119
Prüfgröße (F) F k rit

40,82 5,9659E-31
Koeffizienten Standardfehler t-Statistik

Schnittpunkt 0,81 0,19 4,27
Frau 0,03 0,05 0,61
Diplomarbeitsnote 0,39 0,04 10,86
VWL-Note 0,09 0,03 3,41
Studiendauer 0,03 0,02 1,43
Prüfungsordnung 1995 0,17 0,06 2,79
Saarländer -0,01 0,05 -0,29
Studiengang Winfo -0,17 0,05 -3,40
Hiwi/Ausland -0,06 0,06 -0,99
Statistiknote 0,06 0,02 2,54
105
Zusammenfassung:
Die funktionale Form des Zusammenhangs zweier Merkmale können wir über die
Berechnung eines einfachen Regressionsmodells auf Grundlage der Methode der
kleinsten Quadrate feststellen. Die KQ-Methode minimiert die Fehlerquadrate und
ermittelt die optimale lineare Regressionsfunktion. Die Qualität des Regressions-
modells halten wir anhand des Bestimmtheitsmaßes (R²) sowie der t-Statistik des
Koeffizienten fest. Falls das einfache Streudiagramm auf einen nichtlinearen
Zusammenhang hinweist, dann müssen wir die X und/oder die Y-Variable
transformieren, bevor wir die KQ-Methode anwenden. Um zu testen, ob mehrere
unabhängige Variablen die abhängige Größe (signifikant) beeinflussen, verwenden
wir das multiple Regressionsmodell. Excel unterstützt uns dabei mit seinen Analyse-
Funktionen. Welche der verschiedenen Variablen als Abhängige gewählt wird, muss
uns (theoretisch) plausibel erscheinen. Ein einfaches „Drauflosberechnen“ ist
unseriös.

3. Wahrscheinlichkeitsrechnung und –verteilungen
3.1 Grundlagen der Wahrscheinlichkeitsrechnung
• Die Wahrscheinlichkeitsrechnung versucht den Einfluss des Zufalls auf bestimmte
Vorgänge zu erfassen. Sie beschreibt und bestimmt Vorgänge in Wirtschaft,
Technik und Natur, die vom Zufall abhängen oder zumindest vom Zufall beeinflusst
werden. Einen vom Zufall abhängigen bzw. stochastischen Vorgang wollen wir
anhand eines mathematischen Modells beschreiben.
• Das Wesen eines stochastischen Vorgangs liegt somit in der Ungewissheit des
Ergebnisses bis zu seiner konkreten Realisierung. Den Versuch, den ihr
Kommilitone unternimmt, bezeichnet man als Zufallsexperiment, da dessen
Ergebnis – in diesem Fall das Ziehen einer roten oder schwarzen Spielkarte – vom
Zufall abhängt.
• Gesamtheit aller möglichen unterscheidbaren Ergebnisse x1, x2, x3, ... , xn eines
Zufallsexperiments als endliche oder unendliche Menge für n  
   x1, x2 , x3 , , xn 
107
3.1.1 Wahrscheinlichkeitsdefinitionen
• Klassische Ansatz: Laplace-Wahrscheinlichkeit des Ereignisses A ergibt sich durch

Anzahlder ElementederMenge A A
W ( A)  
Anzahlder Elementeder Menge  
• Statistische Ansatz: nimmt Bezug auf relative Häufigkeit eines Ereignisses

Anzahldergünstigen Ereignisse A n( A)
W ( A)  
Stichprobengröße n
hn ( A)
W ( A)  nlim
 n
• Subjektive Ansatz: macht auf eine Schwäche der bisherigen Wahrscheinlichkeiten

aufmerksam. Sowohl der klassische als auch der statistische Ansatz suggerieren
aufgrund ihrer formal exakten Definition eine objektive Präzision.
-> es liegen jedoch zufallsabhängige Phänomene vor.

3.1.2 Grundregeln der Wahrscheinlichkeitsrechnung
• Jede Wahrscheinlichkeit kann nur Werte zwischen Null und Eins annehmen
0  W ( A)  1
Schmidt u.a. 1988, S. 69

Abb. 51: Konjunktion
Abb. 52: Disjunktion
Abb. 53: Negation

• Lehrsatz 1 (Additionssatz für sich ausschließende Ereignisse)
W( A  B )  W( A ) W( B )
• Lehrsatz 2
Abb. 11 W ( A)  1  W ( A) W ( A  A)  W ( A)  W ( A)  1  W ()
A
A

Abb. 54: Venn-Diagramm für sich ausschließende Ereignisse

• Lehrsatz 3 (allgemeinen Additionssatz der Wahrscheinlichkeitsrechnung)
Abb . 12
W( A  B )  W( A ) W( B ) W( A  B )
A B A B

A  B A  B
Abb. 55: Allgemeiner Additionssatz für zwei sich nicht gegenseitig ausschließende Ereignisse
Wenn es keine Schnittmenge gibt, d.h. W(AB) = 0, dann folgt daraus automatisch,
dass W(AB) = W(A) + W(B).
• Lehrsatz 4 W( D )  W( B  A )  W( B ) W( A  B )
W( A  B )
• Lehrsatz 5 W( A B )  Bedingte Wahrscheinlichkeit
W( B )
Kaufinteresse (K) W( K  F )
W( K F )  ?
vorhanden nicht vorhanden W( F )
vorhanden 0,2 0,1
Finanzmittel (F)
Nicht vorhanden 0,4 0,3 W( K F )  0,2  0,67
0,3
Tab. 45: Wahrscheinlichkeiten eines Immobilienkunden
111
• Lehrsatz 6 (Gemeinsame Auftreten der Ereignisse A und B möglich.)
W( A B )  W( A B )
Wenn Ereignisse A und B voneinander stochastisch unabhängig W( A B )  W( A )
• Lehrsatz 7 (Multiplikationssatz der Wahrscheinlichkeitsrechnung bei Unabhän-

gigkeit der Ereignisse. Wahrscheinlichkeit, dass sowohl das Ereignis A als auch das
Ereignis B eintreten.)
W( A  B )  W( A ) W( B )
• Lehrsatz 8 (Allgemeinen Multiplikationssatz der Wahrscheinlichkeitsrechnung.)

W( A  B )  W( A ) W( B A ) bzw. W( A  B )  W( B ) W( A B )
• Lehrsatz 9 (Lehrsatz der totalen Wahrscheinlichkeit.)

A1  A2   An   mit Ai  Aj  
Ereignis B als Teilmenge von: B  ( A1  B)  ( A2  B)   ( An  B)
W ( B)  W ( A1  B)  W ( A2  B)   W ( An  B) W ( Ai  B)  W ( Ai ) W ( B Ai ) für i  1,2, , n
n
W( B )  W( A ) W( B A )
i 1
i i
112
Lehrsatz 10 (Bayessches Theorem )
W( Aj  B )
Für die bedingte Wahrscheinlichkeit W( Aj B ) 
W( B )
Für W(AjB) im Zähler
W( Aj  B )  W( Aj ) W( B Aj )
W( Aj ) W( B Aj )
W( Aj B )  mit j=1,2,...., n
W( A ) W( B A )
i j
Wahrscheinlichkeit für das Eintreffen des Ereignisses Aj, wenn bereits bekannt ist,
dass zuvor Ereignis B eingetreten ist. Wichtiger Spezialfall ergibt sich für den Fall,
dass die relevante Zerlegung des Ergebnisraumes nur aus den Ereignissen A und A
besteht.

3.2 Wahrscheinlichkeitsverteilungen
für diskrete Zufallsvariablen
3.2.1 Was ist eine Zufallsvariable?
Eine Zufallsvariable ist ein numerisches Ergebnis, dessen Wert durch einen Zufalls
prozess bestimmt wird. Wir kennzeichnen die Zufallsvariablen mit Großbuchstaben,
die Werte der Zufallsvariablen hingegen mit indizierten Kleinbuchstaben. Eine
Zufallsvariable X lässt sich somit allgemein darstellen als X={x1, x2, ..., xn}.
Zwei Arten: diskrete und stetige Zufallsvariable.
Linker Scheinwerfer
L L 
Rechter Scheinwerfer R 0,81 0,09 0,90
R 0,09 0,01 0,10
 0,90 0,10 1,00
Quelle: Kobelt/Steinhausen 2006, S. 195

Tab. 46: Eintrittswahrscheinlichkeiten für Zufallsvariable X (Scheinwerferbirne)

Die Verteilungsfunktion F(xj) gibt hierbei an, wie groß die Wahrscheinlichkeit ist, dass
Werte der Zufallsvariablen auftreten, die kleiner sind als xj oder höchstens so groß wie
xj. Somit können wir dafür schreiben W(X xj) = F(xj). Zur Ermittlung der Werte der
Verteilungsfunktion werden alle Eintrittswahrscheinlichkeiten nach dem Additionssatz
bei Ausschließlichkeit bis zu derjenigen für den Wert xj aufaddiert.
Zufallsvariable X: „Anzahl defekter Scheinwerfer“

j xj f(xj) F(xj)
1 0 0,81 0,81
2 1 0,18 0,99
3 2 0,01 1,00
 1,00
Tab. 47: Wahrscheinlichkeits- und Verteilungsfunktion
x0
Verteilungsfunktion F(x0): F ( x0 )  W ( X  x0 ) 

 f (x)dx
d F ( x)
Dichtefunktion aus der Differentiation: f ( x) 
dx

3.2.2 Parameter der Verteilung
einer diskreten Zufallsvariablen
n
• Erwartungswert oder (langfristige) Mittelwert E( X )   x  f (x )  
i 1
i i
E ( X )  x1  f ( x1)  x2  f ( x2 )  x3  f ( x3 )
E ( X )  0  0,81  1 0,18  2  0,01  0,2 (Scheinwerferbeispiel)
• Als Streuungsparameter dienen Varianz und Standardabweichung der Funktionen

einer Zufallsvariable.
• Varianz V(X) bzw. ² ist ein Maß für die Kompaktheit der Funktionen der
Zufallsvariablen, in dem sie die durchschnittliche quadrierte Abweichung der
Funktionswerte xi der Zufallsvariablen von deren E(X) errechnet.
• Standardabweichung  ergibt sich als Quadratwurzel der Varianz.
n
V (X )   ( xi  E ( X ))2  f ( xi )   2
Bitte berechnen Sie die Varianz und Standardabweichung
i 1 V ( X )  (0  0, 2)²  0,81  (1  0, 2)²  0,18  (2  0, 2)²  0, 01  0,18
V (X )  E ( xi2 )  [ E ( X )2 ]   2
  0,18  0, 42
und
0, 42
  V (X ) CV   100  210%
0, 2
Wahrscheinlichkeitsverteilungen
Diskrete Zufallsvariablen Stetige Zufallsvariablen
Binominalverteilung Gleichverteilung
Hypergeometrische Verteilung Normalverteilung
Poissonverteilung Standardnormalverteilung
Exponentialverteilung

3.2.3 Binomialverteilung
Eine diskrete Wahrscheinlichkeitsverteilung, die als Modell für Entscheidungs-

situationen, in denen die Stichprobenziehung nach einem Bernoulli-Prozess verläuft,
eingesetzt werden kann.
Binominalverteilung wird anhand der Parameter  und n eindeutig festgelegt:
n n x  n n!
W ( X  x)      (1  )
x
wobei   
 x  x x! (n  x)!
x n
W (X 
 x)    v  (1  )nv
v 0  x 
Parameter der Lage und der Streuung: Erwartungswert, Varianz, Standardabweichung:

E( X )    n   Die Wahrscheinlichkeit, dass ein zufällig ausgewählter
potenzieller Kunde eine Lebensversicherung abschließt, beträgt
V ( X )   2  n    (1  ) 20%. Ein Außendienstmitarbeiter besucht sechs Kunden. Wie
und hoch ist die Wahrscheinlichkeit, dass
  n    (1  ) … er genau vier Abschlüsse tätigt?
… er bis zu vier Abschlüsse tätigt?
Ziehen mit Zurücklegen … er mehr als vier Abschlüsse tätigt?
3.2.4 Hypergeometrische Verteilung
Die Hypergeometrische Verteilung ist diskret, und der endliche Ereignisraum, der dem
Zufallsexperiment zugrunde liegt, enthält nur 2 sich ausschließende Zufallsereignisse.
Anhand der Größen N, M und n eindeutig festgelegt:
Ziehen ohne Zurücklegen
M  N M 
  
 x   n  x  M  M!
W (X  x)  wobei   
N x  x! (M  x)!
 
n 
M  N M  Drei von sechs Angestellten arbeiten seit fünf Jahren oder länger
  
x v  n  v  in der Volksbank Einöd. Vier Angestellte werden zufällig
   
W (X  x) 
v 0
 N ausgewählt. Wie hoch ist die Wahrscheinlichkeit, dass
 
n 
… genau zwei Angestellte seit fünf Jahren oder mehr dabei sind?
  … bis zu zwei Angestellte seit fünf Jahren oder mehr dabei sind?
E ( X )    n   M 
N  … keine Angestellte seit fünf Jahren oder mehr dabei ist?
V ( X )   2  n   M   1  M   N  n
   
N   N  N 1
und
  n   M   1  M   N  n
   
 N   N  N 1
3.2.5 Poissonverteilung
Die Zufallsvariable ist diskret, und in dem Ereignisraum des zugrunde liegenden
Experimentes existieren nur zwei sich ausschließende Zufallsereignisse. Im Gegensatz
zum Bernoulli-Prozess treten die Ereignisse in einem Kontinuum (z.B. Zeitintervall) ein
und es gibt keine einzelnen Versuche.

W ( X  x)    e
x
wobei e  2,7183
x!
W ( X  x)  
x
 v
 e 
v 0 v!
Die Parameter der Lage und der Streuung – der Erwartungswert, die Varianz und die
Standardabweichung – ergeben sich aus :
E( X )     Die Reparaturabteilung von Saturn erhält im Schnitt fünf Service-
anfragen pro Stunde. Wie hoch ist die Wahrscheinlichkeit, dass in
V ( X )   2   und    einer zufällig ausgewählten Stunde
… genau drei Anrufe eingehen?

Seltene Ereignisse … bis zu drei Anrufe eingehen?

3.3 Wahrscheinlichkeitsverteilungen
für stetige Zufallsvariablen
3.3.1 Gleichverteilung
Gleichverteilung: Modell einer Zufallsvariablen, die sich innerhalb eines bestimmten
Intervalls gleichmäßig verteilt. Es liegen somit keinerlei Häufungen (Cluster) an
bestimmten Werten der Zufallsvariablen vor.
Dichtefunktion f(x) und deren Parameter:
f ( x)  1 (c  x  d ) Das Walzwerk der Dillinger Hütte (Saarland) produziert Stahlblech
d c
für die Ford-Werke Dillingen. Die Stärke der Stahlbleche liegt
  cd zwischen 150 mm – 175 mm und ist gleichverteilt.
2
 2  (d  c) bzw.   d  c
2
12 12 Ford nimmt Stahlbleche nur in einer Stärke von 150 – 170 mm ab.
Wie hoch ist der Ausschuss des Walzwerkes (Anteil in %)?
f(x)
1/(d-c)
c d x
Abb. 56: Gleichverteilung 121

3.3.2 Normalverteilung
Stetige Wahrscheinlichkeitsverteilung, die sowohl symmetrisch als auch normalgipflig

ist. Weist daraufhin, dass Dichtefunktion einer normalverteilten Zufallsvariablen X
weder flach noch spitz verläuft, sondern glockenförmig. Normalverteilung nimmt eine
wichtige Stellung in der statistischen Inferenz ein:
(1) Viele Zufallsprozesse sind normalverteilt;
(2) die Normalverteilung eignet sich unter bestimmten Voraussetzungen zur
Approximation anderer Wahrscheinlichkeitsverteilungen;
(3) falls eine große Stichprobe vorliegt, sind die Verteilungen statistischer Parameter,
wie dem Stichprobenmittelwert, normalverteilt – unabhängig davon, wie die
Grundgesamtheit tatsächlich verteilt ist.
2
 
 1  x

f ( x)  f N ( x;  , 2 )  1 e 2  
für    x   und   0
  2
2
x   
 1  x

F ( x)  FN ( x;  , 2 )  1  dv für    x   und   0
 e
2  
  2
Wobei  = 3,1416; e = 2,7183,  der Mittelwert der Verteilung und  die

Standardabweichung der Verteilung ist.
a) Dichtefunktion
fN (x,=1.000,)
0,025 E( X )  
0,02 V ( X )   2 und    2
0,015
0,01
0,005
900 950 1.000 1.050 1.100 1.150 1.200
b) Verteilungsfunktion
FN(x,=1.000,)
0,5

Abb. 51: Normalverteilungen mit
900 950 1.000 1.050 1.100 1.150 1.200 unterschiedlicher Streuung
Die hohe Bedeutung der Standardnormalverteilung liegt in der Tatsache begründet,
dass jeder x-Wert einer beliebig normalverteilten Zufallsvariablen X mithilfe von
x   in den z-Wert der Standardnormalverteilung transformiert werden kann.
z

Mit einer aufgeladenen Batterie

kann ein E-Bike - laut
Herstellerinformation – im
Schnitt 40 km weit fahren. Die
Standardabweichung beträgt
10 km (normalverteilt).
Wie wahrscheinlich ist es, dass

ein (zufällig) ausgesuchtes E-
x Bike mindestens 55 km weit
 - 3  - 2 -   +  +2  +3 fährt?
z
Wie wahrscheinlich ist es, dass
-3 -2 -1 0 1 2 3
ein E-Bike zwischen 35 km und
45 km weit fährt?
Abb. 52: Standardnormalverteilung – Zusammenhang zwischen x- und z-Werten
Berechnung des z-Wertes Wert in Tabelle 5 Berechnung des z-Wertes Wert in Tabelle 7
0,9332 0,3829
z
x

55  40
 1,50
Gesuchter Anteil z  45  40  0,50 Gesuchter Anteil
 10
1 – 0,9332 = 0,0668
bzw. 6,68 %
10 38,29 %
124
3.3.3 Exponentialverteilung
Treten Ereignisse in einem Poisson-Prozess auf, dann folgt der zeitliche oder räumliche
Abstand zwischen aufeinander folgenden Ereignissen einer Exponentialverteilung.
f ( x)    e  x für x  0 F(X) = W (X  x) = 1 – e–x
1 F‘(X) = f(x) = (– )  (–e–x) =   e–x

 2  12 bzw.   1 W = (X > x) = 1 – W(X  x) = e–x
 
f(x)
1,5
0,5
x
0 1 2 3 4
Abb. 59: Exponentialverteilungen 125
Zusammenfassung:
Die Wahrscheinlichkeitsrechnung beschäftigt sich mit Zufallsereignissen; d.h. mit

stochastischen Vorgängen, deren Ergebnisse ungewiss sind und damit dem Zufall
unterliegen. Häufig kennen wir jedoch vor Beginn eines Zufallexperimentes alle
denkbaren Ergebnisse sowie deren Eintrittswahrscheinlichkeiten. In einem ersten
Schritt haben Sie die verschiedenen Lehrsätze der Wahrscheinlichkeitsrechnung
kennen gelernt. In dem zweiten Schritt stellten wir Ihnen die Wahrscheinlichkeits-
verteilungen unterschiedlicher Zufallsvariablen vor. Die Werte einer Zufallsvariablen
werden durch einen Zufallsprozess bestimmt. Unterschieden wird dabei zwischen
diskreten und stetigen Zufallsvariablen. Bei Letzteren ist die Menge der möglichen
Funktionswerte nicht abzählbar. Als Parameter lassen sich für eine Zufallsvariable der
Erwartungswert und die Standardabweichung berechnen. Die Wahrscheinlichkeits-
verteilungen finden Sie in der Tabellensammlung:
(a) diskrete Wahrscheinlichkeitsverteilungen sind die Binominal-, Poisson- sowie die
hypergeometrische Verteilung;
(b) als stetige Zufallsvariablen haben sich die Gleich-, Normal- und
Exponentialverteilung kennen gelernt. Hierbei übernimmt die Standardnormal-
verteilung – später auch Prüfverteilung – eine ganz zentrale Rolle.
126
4. Induktive (schließende) Statistik
4.1 Stichprobenverfahren und Prüfverteilungen
Die Methoden der Induktiven bzw. Schließenden Statistik erlauben es, auf Basis von
Stichproben Informationen über die Grundgesamtheit zu gewinnen; d.h. wir können
aufgrund von Stichproben Rückschlüsse auf bestimmte Eigenschaften der Grundge-
samtheit ziehen. Zwei Verfahrensweisen: Parametertests und Hypothesentests.
Ein Statistiker oft die Aufgabe, Informationen über bestimmte Eigenschaften einer
ganzen Grundgesamtheit zu ermitteln. Methoden zur Ermittlung der Parameter :
(1) Vollerhebungen
Jedes einzelne Element der Grundgesamtheit wird erfasst und mit in die
Untersuchung einbezogen. Dieses Verfahren liefert das exakteste Ergebnis. Als das
bekannteste Beispiel einer Vollerhebung sei hier die Volkszählung genannt.

(2) Teilerhebungen
Nur eine bestimmte, repräsentative Teilmenge der Grundgesamtheit wird untersucht.
Ergebnisse, welche die Untersuchung aller Stichprobenelemente liefert, können
benutzt werden, um Aussagen über die unbekannten Eigenschaften der Grundgesamt-
heit zu machen. Von den Stichprobenergebnissen wird also auf bestimmte Parameter
der Grundgesamtheit geschlossen. Dieser Schluss von der Stichprobe auf die
Grundgesamtheit wird als Repräsentationsschluss oder indirekter Schluss bezeichnet.
Grundge- Entnahmen Stich- Berechnungen Stichproben-

samtheit parameter
probe
Repräsentationsrückschluss auf den Parameter der

Grundgesamtheit
Abb. 60: Teilerhebung

Um den Nachteil der Ungenauigkeit des Stichprobenergebnisses gering zu halten,
müssen bei der Durchführung von Untersuchungen auf Stichprobenbasis folgende
Dinge beachtet werden:
(1) Stichprobe muss repräsentativ sein
Auswahlverfahren
Zufallsauswahl Bewusste Auswahl
Einfache Geschichtete Klumpen- Typische Systematische Quoten-

Auswahl Auswahl auswahl Auswahl Auswahl auswahl
Abb. 61: Auswahlverfahren
(2) Auswahl muss so vorgenommen werden, dass ihre Auswertung mit statistisch-
mathematischen Methoden durchgeführt werden kann.
Abb. 62: Stichprobenverfahren

4.1.1 Die Normalverteilung
(1) Transformationseigenschaft: Zufallsgröße X mit dem Erwartungswert  und der

Varianz  normalverteilt, so kann sie durch die Transformation Z  X  

auf die Standardnormalverteilung zurückgeführt werden.
x
- 3 - 2 -   + +2 +3
z
-3 -2 -1 0 1 2 3
Abb. 63: Normalverteilung – z-Skala und x-Skala

(2) Reproduktionseigenschaft:
Ist die Grundgesamtheit bzgl. einer Merkmalsausprägung normalverteilt (z.B. die
Körpergröße aller Menschen in Deutschland), so ist auch eine Stichprobe aus
dieser Grundgesamtheit hinsichtlich dieses Merkmals normalverteilt (z.B. die Kör-
pergröße der Einwohner von München).
(3) Approximationseigenschaft:
Manche Zufallsvariablen sind nicht normalverteilt. Allerdings nähert sich deren
Verteilung unter gewissen Prämissen einer Normalverteilung an, d.h. die
Verteilung lässt sich durch eine Normalverteilung approximieren. Aufgrund des
zentralen Grenzwertsatzes nimmt die Stichprobenverteilung des Mittelwertes
oder anderer Stichprobenparameter die Form der Normalverteilung an, wenn die
Stichprobe wächst. Dies gilt unabhängig von der Verteilungsform der
Grundgesamtheit, aus der die Stichprobe stammt.

4.1.2 Die Chiquadratverteilung (2-Verteilung)
Die Größe X2 ist chiquadratverteilt mit  Freiheitsgraden X 2  X12  X 22  X 32 ...  X2

Spielt im Zusammenhang mit dem Schätzen und Testen von Varianzen eine Rolle.
Anwendung
Intervallschätzung für Varianz
Anpassungstests
Unabhängigkeitstest
Anzahl Freiheitsgrade
 (griechisches n, ausgesprochen "nü")
Abb. 64: Einige Chiquadratverteilungen
132
Abb. 65:  2-Verteilung – kritischer x-Wert

4.1.3 Die Student-t-Verteilung
Bei Schätzungen und Tests von Mittelwerten gebraucht. Studentverteilte Zufallsgrößen

sind in der Regel Quotienten zweier Zufallsvariablen, wobei eine davon
chiquadratverteilt ist. Kennzeichen der t-Verteilung:
(1) Parameter, der Studentverteilung kennzeichnet, ist die Zahl der Freiheitsgrade ,
welche Anzahl der unabhängigen Zufallsvariablen angibt   n 1
(2) Verlauf der Studentverteilung ähnelt dem der Normalverteilung
fS (x,)
0,4 Anwendung
Signifikanz der
 2 Regressionskoeffizienten
0,3 (Regressionsanalyse)
 1
0,2 Normalverteilung
0,1
x
-2 -1 0 1 2
Abb. 66: Studentverteilung und Normalverteilung 134

4.1.4 Die F-Verteilung
Dient der Überprüfung der Gleichheit zweier Varianzen. Eine F-verteilte Zufallsvariable
Ist ein Quotient aus zwei Zufallsvariablen, wobei BEIDE chiquadratverteilt sind.
X 2  X12  X 22  ...  X n21 X2
v 2 v
Y 2  Y12  Y22  ...  Yn22 F  12  X 2  2
Y Y v1
v2
fF (1=30,2=11)
0,8
Anwendung
0,6 Varianzanalyse
(Mehrstichprobe)
0,4
0,2
z
1 2 2,57 3
Abb. 67: Beispiel einer F-Verteilung
4.2 Schätzverfahren
4.2.1 Grundlagen
Analoger
Parameter in der
Parameter in Bedeutung dieses Parameters
Stichprobe
der GG
n N Anzahl der Elemente in der jeweiligen Gesamtheit
X  Arithmetisches Mittel des Untersuchungsmerkmals
p  Anteilswert (rel. Häufigkeit) des Untersuchungsmerkmals
s  Standardabweichung der Merkmalsausprägung
Tab. 48: Größenbezeichnung der Parameter
Schätzverfahren
Punktschätzungen Intervallschätzungen
Abb. 68: Schätzverfahren
136
4.2.3 Intervallschätzung für Mittelwerte
Bei einer Intervallschätzung wird ein die Punktschätzung einschließender Bereich
ermittelt, in dem mit „sehr großer“ Wahrscheinlichkeit der Parameter der
Grundgesamtheit liegt. Diesen Bereich bezeichnen wir als Vertrauens- oder auch
Konfidenzintervall.
„Aufgrund des Stichprobenmittelwertes von schließen wir darauf, dass der Mittelwert
der Grundgesamtheit mit einer Wahrscheinlichkeit von 95 % im Bereich zwischen
31,9    36,1 liegt.“
Diese Wahrscheinlichkeit wird als Vertrauenswahrscheinlichkeit oder auch als

Konfidenzniveau bezeichnet. Analog heißt die Wahrscheinlichkeit, dass diese
Prognose falsch ist Irrtumswahrscheinlichkeit oder auch Signifikanzniveau (hier 5 %).
Bei diesen Schätzungen gehen wir in der Regel so vor, dass wir uns ein bestimmtes
Konfidenzniveau vorgeben und danach die Intervallgrenzen berechnen, in denen sich
der Grundgesamtheitsparameter wahrscheinlich bewegt.
Wie berechnen wir dieses Intervall?

4.2.3.1 Stichprobenverteilung und zentraler
Grenzwertsatz
Wir haben eine Grundgesamtheit der Größe N mit dem Mittelwert  und der Varianz 2.
Daraus ziehen wir eine Stichprobe, indem wir nacheinander n Elemente auswählen.
Bezeichnen wir mit X1 das Ergebnis des ersten Zuges, so ist X1 eine Zufallsvariable die
nach diesem ersten Zug die konkrete Realisation x1 annimmt.
Element Nr.: 1 2 ... i ... n
ergibt als Merkmalswert
x1 x2 ... xi ... xn
die konkrete Realisation
der Zufallsvariablen X1 X2 ... Xi ... Xn
Tab. 49: Bildung von Zufallsvariablen
n
Zufallsvariable, die selbst aus n Zufallsvariablen besteht: X  1 ( X1  X 2  ...  X n )  1  X i
n n i 1
Realisierte Stichprobe mit den Merkmalsausprägungen xi

n
besitzt das arithmetische Mittel: X  1  xi
n i 1
Für den Erwartungswert von X gilt: E( X )  
Für die Standardabweichung von X gilt:  X    NN 1n

n
EKF 138
Interessant ist hier: Ist die Standardabweichung der Grundgesamtheit bekannt, so
kann mit ihr die Standardabweichung der Stichprobenverteilung von X berechnet
werden. Hinweis: Der Wurzelausdruck heißt Endlichkeitskorrekturfaktor (EKF). Durch
seine Verwendung soll beim Ziehen ohne Zurücklegen (wie bei Stichprobe) die
Endlichkeit der Grundgesamtheit berücksichtigt werden. Allerdings können wir den
EKF auch weggelassen, wenn gilt: n  0.05
N
f ( X ,  , )
X
X
- 3 - 2 -   + +2 +3
Z X 

-3 -2 -1 0 1 2 3 X
Abb. 69: Verteilung des arithmetischen Mittels

4.2.3.2 Intervallschätzungen für Mittelwerte
bei bekannter Varianz 2
Abb. 70: Konfidenzintervall für den Stichprobenmittelwert
Zufallsvariable Z nach X aufgelöst: W (  z   X  X    z   X )  1  

X  linke Grenze: X   1,96   X
Z X    z  X
X rechte Grenze: X    1,96   X
Konfidenzintervall für : X  z  X    X  z  X X    N n
n N 1
W ( X  z  X    X  z  X )  1 
140
Beispiel – Intervallschätzung Mittelwert (σ bekannt)
Im WS 2015/16 waren an der HS KL 6.500 Studierende (= N) eingeschrieben.
Für die Schätzung der Durchschnittsgröße wurde eine Stichprobe gezogen (n = 60).
Diese ergab eine durchschnittliche Körperlänge von 175 cm.
Annahme: Die Standardabweichung der Grundgesamtheit beläuft sich auf 8 cm (= σ).
In welchem Bereich liegt der Mittelwert der Grundgesamtheit (µ), wenn die Irrtumswahrscheinlichkeit
auf ein Prozent (α = 0,01) festgelegt wird?
(1) Berechnung der Standardabweichung des Stichprobenmittelwertes

 N n 8
X     1, 03 EKF kann entfallen
n N 1 60
(2) Ermittlung des z-Wertes aus Tabelle 7
Die Vertrauenswahrscheinlichkeit (1 – α) = 0,99

Den z-Wert findet man beim Flächeninhalt 0,9901: z = 2,58
(3) Intervall zusammensetzen

X  z  X    X  z  X
175  1, 03  2,58    175  1, 03  2,58
W (172,3    177, 7)  0,99

4.2.3.3 Intervallschätzungen für Mittelwerte
bei unbekannter Varianz 2
(1) Berechnung der Standardabweichung des Stichprobenmittelwertes ˆ

X
Der erste Wurzelausdruck wird Bessel-Korrekturfaktor (BKF) genannt;
Endlichkeitskorrekturfaktor (EKF).
ˆ  s  n  N n ˆ X  ˆ  N  n ˆ X  s  N  n
n 1 N 1 N 1
BKF EKF
n
n N 1
X 
(2) Ermittlung des z-Wertes für 1   = 0,95 Z
ˆ X
(3) Zusammensetzen des Intervalls für  X  z  X    X  z  X
Zufallsvariable einer Stichprobe kann nach dem zentralen Grenzwertsatz dann durch die
Normalverteilung approximiert werden, wenn der Stichprobenumfang n genügend groß ist.
Bei einem Stichprobenumfang n > 30 (Faustregel) kann wieder die Tabelle der Normalverteilung
benutzt werden. Sie müssen dabei die Student-t-Verteilung nur für den Fall kleiner Stichproben
anwenden, bei denen Sie den Standardfehler geschätzt haben (Abbildung 72).
142
Beispiel – Intervallschätzung Mittelwert (σ unbekannt)
Im WS 2015/16 waren an der HS KL 6.500 Studierende (= N) eingeschrieben.
Für die Schätzung der Durchschnittsgröße wurde eine Stichprobe gezogen (n = 20).
Diese ergab eine durchschnittliche Körperlänge von 175 cm bei einer Standardabweichung von 8 cm.
In welchem Bereich liegt der Mittelwert der Grundgesamtheit (µ), wenn die Irrtumswahrscheinlichkeit
auf ein Prozent (α = 0,01) festgelegt wird?
(1) Berechnung der Standardabweichung des Stichprobenmittelwertes

s N n 8
ˆ X     1, 79 EKF kann entfallen
n N 1 20
(2) Ermittlung des z-Wertes aus Tabelle 9 (Student-t-Verteilung)

Der Freiheitsgrad ѵ = n – 1 = 19

X  z  ˆ X    X  z  ˆ X
175  1, 79  2,861    175  1, 79  2,861
W (169,9    180,1)  0,99

Stichprobe
 der GG bekannt  der GG unbekannt
n  30 n  30
z-Wert in Tabelle der

z-Wert in Tabelle der
Student-t-Verteilung
Normalverteilung
mit
  n 1
Abb. 72: Wahl der Tabelle in Abhängigkeit von der Stichprobengröße

4.2.4 Intervallschätzungen für Anteilswerte
Zufallsvariable für den Anteilswert, den eine Stichprobe liefert, bezeichnen wir mit P.
(1) Für den Erwartungswert von P gilt: E ( P)  
  (1  ) N  n
(2) Für die Standardabweichung von P gilt:  P  n

N 1
  (1  ) N  n
Damit können wir wieder durch die Transformation Z  P   mit  P  
N 1
P n
die normalverteilte Größe P auf eine Standardnormalverteilung zurückführen.

Analog zu der Mittelwertschätzung benötigen wird diese Größe indirekt zur Ermittlung
des notwendigen Konfidenzintervalls [ p  z  P ; p  z  P ]
Für dieses Intervall gilt wie für das Mittelwertintervall: W ( p  z  P    p  z  P )  1 
Standardfehler als Schätzwert aus dem Stichprobenergebnis ableiten:
ˆ P  p  (1  p)  N  n
n 1 N 1
Schätzung des Standardfehlers aus dem Stichprobenergebnis ist die Zufallsvariable:
p
Z
ˆ P
Beispiel – Intervallschätzung Anteilswert
Für die Bevölkerung der Stadt Homburg (Saar) mit 26.000 Haushalten soll der Anteil der Haushalte
mit mehr als einem PKW geschätzt werden.
Dazu wird eine Stichprobe von 100 Haushalten erhoben.
40 Haushalte sind im Besitz von mehr als einem Fahrzeug.
Bestimmen Sie das 95%-Konfidenzintervall für den Anteil θ der Haushalte, die mehr als einen PKW
besitzen.
(1) Berechnung der Standardabweichung des Stichprobenanteilswertes

40
p  0, 4
100
p  (1  p) 0, 4  0, 6
ˆ p    0, 0492 EKF kann entfallen
n 1 99
(2) Ermittlung des z-Wertes aus Tabelle 7 (Normalverteilung)

p  z  ˆ p    p  z  ˆ p
0, 4  1,96  0, 0492    0, 4  1,96  0, 0492
W (0,304    0, 496)  0,95
4.2.5 Intervallschätzung für Varianz und
Standardabweichung
 (n 1)  s ² (n 1)  s² 
n W   ²  1  
 ( xi  X )² 

1
2
 2
2


Stichprobenvarianz s²  i 1
Intervalle
n 1  (n 1)  s ² (n 1)  s ² 
W    1  
Bei der Firma Bosch (Homburg/Saar) wird eine
Stichprobe von 25 geringfügig Beschäftigten erhoben.


 2
1  2
2


Der Durchschnittsverdienst liegt bei 510 EUR mit

einer Varianz von 30 EUR. 12  F (1 
2 ; n  1)
1
2
Schätzen Sie die Varianz der Grundgesamtheit aller

geringfügig Beschäftigten (N = 300) bei einem Fehler-  22  F ( ; n  1)
2
risiko von 10%. 2
2
(1) Ablesen der beiden Werte der Verteilungsfunktion (Tabelle 14)

12  F (1 
2 ; n  1)  F 2 (0,95; 24)  36, 42
1
2 1

 22  F ( ; n  1)  F (0, 05; 24)  13,85
2 2
2
2 2
(2) Intervall zusammensetzen für die Varianz [Standardabweichung]

24  30 24  30
² 
36, 42 13,85
W (19, 77   ²  51,99)  0,90
[4, 45    7, 21] Prof. Dr. Marc Piazolo 147
4.2.6 Bestimmung des notwendigen Stichprobenumfangs
Heterograden Fall (-Mittelwert) Homograden Fall (-Anteilswert)
n
z ²  N  ²
²   ( N 1)  z ²   ²
n
z ²  ²
²  n
 
z ²   1     N

z ²  1  
²  N 1  z ²   1  
n
 ²
nv N  nv
ˆ  sv nv N  nv
nv 1 N 1   (1  )  pv 1 pv   
nv 1 N 1
Ein Meinungsforschungsinstitut soll die Sonntagsfrage für eine Bundestagswahl erstellen.
In einer Vorstichprobe (nv) hat es 100 Wahlberechtigte befragt und 25 als Anhänger der SPD
ermittelt.
Wie groß muss die Stichprobe ausfallen, wenn die Intervallbreite bei +/- 2 Prozentpunkte und die
Irrtumswahrscheinlichkeit bei 5% liegen soll?
(1) Ermittlung des Schätzwertes für die Varianz des Anteilswertes der SPD
  (1  )  pv 1  pv   v  0, 25  0, 75   0,189
n 100
nv 1 99
(2) Bestimmung des z-Wertes (Tabelle 7) und der Intervallbreite z-Wert = 1,96
  0, 02
(3) Stichprobenumfang
n

z ²  1      1,96²  0,189  1.815, 2
 ² 0, 02²
Aus einer großen Grundgesamtheit an Beobachtungswerten wird eine Stichprobe
gezogen. Hieraus ermitteln wir die Stichprobenparameter Mittel- bzw. Anteilswert und
deren Standardabweichung. Die entsprechenden Parameterwerte der Grundgesamt-
heit bleiben unbekannt. Nun lässt sich mit Hilfe von Schätzverfahren berechnen, dass
mit einer bestimmten Vertrauenswahrscheinlichkeit die tatsächlichen Parameterwerte
der Grundgesamtheit in einem Intervall um den Stichprobenparameterwert liegen. Die
Breite des Konfidenzintervalls um den Stichprobenparameter ist abhängig von
folgenden Faktoren:
(1) Umfang der Stichprobe; sobald die Stichprobe mehr als 30 Elemente enthält, greift
der zentrale Grenzwertsatz;
(2) Umfang der Stichprobe im Verhältnis zur Grundgesamtheit
(Endlichkeitskorrekturfaktor);
(3) Kenntnis über die Standardabweichung der Grundgesamtheit ().
In der Marktforschung fällt zudem die Frage nach dem nötigen Umfang einer Stich-
probe an. Der Stichprobenumfang lässt sich bei Festlegung der zulässigen
Intervallbreite und der Vertrauenswahrscheinlichkeit berechnen. Dafür benötigen wir
ebenfalls die Kenntnis über die Varianz der Grundgesamtheit bzgl. Mittel- bzw.
Anteilswert. Letztere fehlt uns in der Regel. Deshalb müssen wir die Varianz im
Rahmen einer Vorstichprobe schätzen. 149
4.3 Hypothesentests
4.3.1 Grundlagen
Mit einer Hypothese treffe Sie eine Aussage über die Grundgesamtheit. Folglich sind
Hypothesentests bzw. „Testverfahren“ dazu da, eine Entscheidung über die Annahme
oder Ablehnung einer Hypothese über eine Eigenschaft der Grundgesamtheit zu
treffen.
• Einstichproben- und Mehrstichproben-Testverfahren.
• Testverfahren nach der Art der aufgestellten Hypothesen:
1. Hypothesen über Parameter einer Grundgesamtheit, z.B. über Mittelwerte, Anteilswerte,
Varianzen usw. Hier kommen Parametertests zur Anwendung;
2. Hypothesen zu Unterschieden eines Parameter zwischen mehreren Stichproben
(Varianzanalyse);
3. Hypothesen über bestimmte Verteilungsannahmen in der Grundgesamtheit, z.B.: „Die
Merkmale in der Grundgesamtheit sind normalverteilt.“ Zur Prüfung derartiger Hypothesen
wird ein Anpassungstest verwendet;
4. Hypothesen über die Abhängigkeit bzw. Unabhängigkeit zwischen zwei Merkmalen in der
Grundgesamtheit. Hier werden Unabhängigkeitstests eingesetzt.

Fehlerquellen bei Hypothesentestverfahren
Abb. 73: Entscheidungsmatrix bei Hypothesentests

Diese Fläche entspricht der Wahrscheinlichkeit,
die richtige Nullhypothese abzulehnen (α-Fehler)
In Anlehnung an Kobelt/Steinhausen 2006, S. 271

Abb. 74: Darstellung von - und -Fehler
152
Abb. 75: Verringerung des - und des -Fehlers bei höherem Stichprobenumfang (n)
n
 ( xi  X )²
Stichprobenvarianz s²  i 1
n 1

Beispiel – standardisierter Mittelwerttest
Körpergröße von Männern zu Beginn des 20. Jahrhunderts: 175 cm. Sind Männer heute (2016) größer?
Wir ziehen eine Stichprobe mit 80 Männer, die im Schnitt 180 cm groß sind. Die Standardabweichung der
Grundgesamtheit sei mit 12 cm gegeben. Die Irrtumswahrscheinlichkeit beträgt 1%.
(1) Formulierung der Hypothesen

H0:   175 (cm)
H1:  > 175 (cm)
(2) Testverfahren und Prüfgröße X 
zb 
X X   N n
Mittelwerttest (einseitig) mit Prüfgröße n N 1 (EKF kann entfallen)
(3) Prüfverteilung und kritischer Wert (zc)
Bei Gültigkeit der Nullhypothese ist angegebene Prüfgröße zb annähernd standardnormalverteilt.
Wie lautet der kritische z-Wert? [Tabelle 5 mit α = 0,01 bzw. 1-α = 0,99] zc = 2,33
(4) Berechnung der Prüfgröße in der Stichprobe
X   N  n 12
  1,342
n N 1 80
180  175
zb   3, 73
1,342
(5) Entscheidung: z  oder  z H0 wird verworfen; d.h. die heutige Männer sind signifikant
b c
größer als diejenigen vor mehr als hundert Jahren.
zb  zc

fN (z,=0,=1)
Ablehnungsbereich
Annahmebereich der Nullhypothese der Nullhypothese
 = 0,01
1 – = 0,99
Z
0 zc = 2,33
Abb. 76: Darstellung der Entscheidungssituation für das Beispiel Körpergröße
bei zweiseitiger bei einseitiger

Fragestellung Fragestellung
H1:   0 H1:  < 0 H1:  > 0
die Nullhypothese
z b  zc z b  zc z b  zc
wenn muss beibehalten
werden
z b  zc z b  zc z b  zc die Nullhypothese
wenn muss verworfen
werden
Kobelt/Steinhausen 2006, S. 275
Tab. 50: Darstellung der möglichen Entscheidungskriterien – abhängig vom Testergebnis 155
4.3.2 Parametertests
4.3.2.1 Mittelwerttests
fN (z,=0,=1)
linke Hälfte des rechte Hälfte des

Ablehnungsbereichs Ablehnungsbereichs
der Nullhypothese der Nullhypothese
1    0, 95

 0, 025

 0, 025
2 2
Annahmebereich der Nullhypothese
Z
Kobelt/Steinhausen 2006, S.276

Abb. 77: Zweiseitiger bzw. beidseitiger Mittelwerttest
x  E( X ) x  
z 
V (X ) x
156
fN (z,=0,=1)
Ablehnungsbereich
Annahmebereich der Nullhypothese der Nullhypothese
  0,05
1   = 0,95
Z
0 zc = 1,65
Abb. 78: Einseitiger Mittelwerttest – H0:   0
fN (z,=0,=1)
  0,05
1  = 0,95
Kobelt/Steinhausen 2006, S.276

Abb. 79: Einseitiger Mittelwerttest – H0:   0 157
Beispiel – standardisierter Mittelwerttest: Brenndauer von Projektionslampen
Die Brenndauer eines Modells an Projektionslampen sei normalverteilt mit μ = 1.000 Std. und σ = 60 Std.
Der Hersteller experimentiert mit eine r neuen Glühfadenlegierung, um die Brenndauer zu erhöhen.
Er zieht eine Stichprobe mit 200 Lampen, deren durchschnittliche Brenndauer bei 1.015 Std. liegt.
Kann mit einer Vertrauenswahrscheinlichkeit von 95% gesagt werden, dass sich die Brenndauer
signifikant erhöht hat?

H0:   1.000 Die durchschnittliche Brenndauer hat sich nicht erhöht.
H1:  > 1.000 Die durchschnittliche Brenndauer hat sich erhöht.
(2) Testverfahren (Mittelwerttest) und Prüfgröße
X 
zb  fN (z,=0,=1)
X Ablehnungsbereich der
(3) Prüfverteilung Annahmebereich der Nullhypothese
Nullhypothese
Prüfgröße zb ist
Standardnormalverteilt; zc = 1,65.
(4) Berechnung der Prüfgröße 1    0,95   0, 05
X   N n 60 zb = 3,54
  4, 24
n N 1 200
0 zc = 1,65
Z z
1.015  1.000
zb   3,54
4, 24 x
 = 1.000 xc  1.006,6 xb  1.015
(5) Entscheidung zb > zc
Xc  
zc   X c  zc  X    1,65  4,24  1.000  1.007 Abb. 80: Entscheidungssituation bei
X Prof. Dr. Marc Piazolo 158
einseitigem Mittelwerttest – Projektionslampen
Bisher war Standardabweichung der Grundgesamtheit  gegeben. Häufig stehen wir
jedoch bei Mittelwerttests vor dem Problem, dass wir zwar eine Hypothese über den
Mittelwert der Grundgesamtheit aufstellen können, aber uns die Varianz des
Untersuchungsmerkmals in der Grundgesamtheit nicht bekannt ist. In diesen Fällen
lässt sich der Standardfehler des Mittelwertes nicht so einfach berechnen. Hier
müssen wir den Standardfehler als schätzen. Teilweise finden Sie in der Literatur für
den geschätzten Standardfehler auch das Symbol . Aufgrund dessen verändern sich
aber die für den Test wichtigen Verteilungsannahmen. Die Prüfgröße:
X  X  N n
zb 
ˆ X
oder t  ˆ X  s
sX n N 1

Beispiel – Mittelwerttest mit konkretisierter Alternativhypothese
Dem Lebensmitteldiscounter Aldi werden 5.000 Stück „Echter Schwarzwälder Kochschinken“ geliefert.
Vertraglich ist ein Durchschnittsgewicht von 2,5 kg/Stück zugesichert.
Der Einkäufer von Aldi vermutet jedoch, dass die Großschlachterei den Schinken mit einem deutlich
geringeren Gewicht von 2,1 kg/Stück anliefert. Zur Kontrolle zieht der Einkäufer eine Stichprobe von
100 Schinken und lässt diese nachwiegen: im Schnitt lag das Gewicht bei 2,4 kg/Stück und deren
Standardabweichung bei 1,2 kg. Prüfen Sie, ob der Abnehmer (Aldi) mit 95%iger Sicherheit davon
ausgehen kann übers Ohr gehauen zu sein.

H0: 0 = 2,5 kg Die Kochschinken haben das vertraglich zugesicherte Gewicht.
H1: 1 = 2,1 kg Die Kochschinken haben das vom Einkäufer vermutete Gewicht.
(2) Testverfahren (Mittelwerttest) und Prüfgröße X 
zb 
X
(3) Prüfverteilung
Prüfgröße zb ist standardnormalverteilt; es interessiert nur die untere Seite der Verteilung ;
daher findet man den kritischen z-Wert in Tabelle 5: zc = -1,65.
(4) Berechnung der Prüfgröße N  n 1, 2
ˆ X  s   0,12
n N 1 100
2, 4  2,5
zb   0,833
0,12
(5) Entscheidung |zb| < |zc|
Ablehnungsbereich der Annahmebereich der Nullhypothese
Nullhypothese
fN(z,0,1)
1 1 = 0,95
 = 0,05 
Z
-3.496 zc=-1,65 0
X
μ1=2,1 xc=2,302 μ1=2,5
Abb. 82: Entscheidungssituation bei konkretisierter Alternativhypothese –

Kochschinken

Ein -Fehler besteht darin, dass der Einkäufer eine in Wirklichkeit ordnungsgemäße
Lieferung zurückweist. Da hier der Lieferant als Verkäufer des Kochschinkens der
Leidtragende der fehlerhaften Entscheidung wäre, wird das Risiko eines -Fehlers
auch als das Verkäuferrisiko bezeichnet. Entsprechend läge ein -Fehler vor, wenn der
Einkäufer die in Wirklichkeit nicht ausreichende Sendung als ordnungsgemäß
akzeptieren würde. Der Fehler ginge zu seinen Lasten, weswegen wir die
Wahrscheinlichkeit, einen -Fehler zu begehen, auch als Käuferrisiko bezeichnen. In
unserem Beispiel könnte – da die Lieferung nicht abzulehnen ist – folglich nur ein
Käuferrisiko vorliegen.

4.3.2.2 Anteilswerttests
Eine Volkspartei vermutet, dass sie bei der nächsten Bundestagswahl von 40% der Wahlberechtigten
gewählt wird. Um dies zu überprüfen, gibt der Generalsekretär eine Meinungsumfrage in Auftrag.
Von 1.800 Teilnehmern präferieren 780 diese Volkspartei. Kann die Parteiführung mit einer
Wahrscheinlichkeit von 95% schlussfolgern, dass ihre Ausgangshypothese zu halten ist?

H0: θ = 0,4 Der Anteil der Anhänger der Partei liegt bei 40 %.
H1: θ  0,4 Der Anteil der Anhänger der Partei liegt nicht bei 40 %.
(2) Testverfahren (Anteilswerttest) und Prüfgröße
p 
zb 
p fN (z,=0,=1)
(3) Prüfverteilung
annähernd normalverteilt
zc = 1,96 linke Hälfte des rechte Hälfte des
der Nullhypothese
(4) Berechnung der Prüfgröße der Nullhypothese
 1    N  n
1    0, 95
0, 4  0, 6 
p    0, 0115 
 0, 025  0, 025
n N 1 1800 2 2
p   0, 433  0, 4 Z
zb    2,90
p 0, 0115
zc = - 1,96 0 zc = 1,96
0,4
(5) Entscheidung zb > zc pc = 0,3775 pc = 0,4225
p
pc  zc  p    1,96  0,0115  0,4  0,4225 Abb. 81: Entscheidungssituation bei zweiseitigem 163
Anteilswerttest – Parteipräferenz
4.3.2.3 Vergleich von zwei Mittelwerten
• Differenz d zwischen den Mittelwerten zweier Stichproben X  X   d

1 2
• 2 2
Standardfehler der Mittelwertdifferenzen D  1  2
n1 n2
• Standardfehler der Mittelwertdifferenzen
D  1  1
n1 n2
• Gepoolte Schätzer der Standardabweichung der Grundgesamtheit
ˆ 
 n1 1  s12   n2 1  s22
n1  n2  2
• Bestimmung des z-Wertes zum Hypothesentest einer Mittelwertdifferenz, je

nachdem, ob die Standardabweichungen der Grundgesamtheiten bekannt sind
oder nicht d X1  X 2 d
z  bzw. z
D D ˆ D

Beispiel – Mittelwertdifferenzentest
Die Volkswagen AG bezieht Dieselmotoren aus zwei Werken der Firma Bosch – Homburg/Saar und
China. Kunden hatten sich bei VW über Mängel an den Motoren beschwert, daher unterzog Wolfsburg
nun je 40 Motoren aus beiden Werken einem Dauertest.
Die Motoren aus Werk I (Homburg) kommen auf eine durchschnittliche Laufleistung von 184.000 km, bei
einer Standardabweichung von 1.450 km.
Im Auslandswerk (Werk II) lag die Laufleistung bei 175.000 km im Schnitt, bei einer
Standardabweichung von 1.550 km.
Prüfen Sie, ob – mit Blick auf die Laufleistung – die beiden Boschwerke Dieselmotoren unterschiedlicher
Qualität liefern. Die Irrtumswahrscheinlichkeit legen Sie auf 5% fest.

H0: µ1 - µ2 = 0 Beide Stichproben stammen aus der gleichen Grundgesamtheit
H1: µ1 - µ2  0 Die Stichproben stammen nicht aus der derselben Grundgesamtheit
(2) Testverfahren (Mittelwertdifferenzentest) und Prüfgröße d X1  X 2
z 
(3) Prüfverteilung ˆ D ˆ D
annähernd normalverteilt : zc = 1,96
(4) Berechnung der Prüfgröße ˆ D  ˆ 1  1  1.500,8 
1

1
 335, 6
n1 n2 40 40
ˆ 
 40 1 1.450²   40 1 1.550²  1.500,8 km d 184.000 175.000
40  40  2 zb    26,8
ˆ D 335,6
fN (z,=0,=1)
linke Hälfte des rechte Hälfte des

der Nullhypothese der Nullhypothese
1    0,95

 0, 025

 0,025
2 2
Z
zc = - 1,
1,96 0 zc = 1,96
D
dc=-657,8 0 dc=+657,8
Abb. 83: Entscheidungssituation bei zweiseitigem Mittelwert-Differenzentest – Motorleistung

4.3.2.4 Vergleich von zwei Anteilswerten
Differenzentests im homograden Fall . Differenz zwischen zwei Stichproben-
Anteilswerten p1 und p2 p1  p2  r
R   1  
1 1
Standardfehler 
n1 n2
Grundgesamtheit ˆ  n1  p1  n2  p2

n1  n2  2
z-Statistik für den Test der Nullhypothese besagt, dass es keinen Unterschied zwischen
den relativen Häufigkeiten zweier Grundgesamtheiten gibt
r p1  p2
z 
R R

Beispiel – Anteilswertdifferenzentest
Der ADAC untersucht, ob sich die Reparaturanfälligkeit der beiden meistverkauften PKW-Modelle
innerhalb der ersten beiden Jahre grundsätzlich unterscheidet. Hierfür werden 400 Besitzer von PKW I
und 500 Besitzer von PKW II befragt. 45 Autobesitzer des ersten Modells und 88 Besitzer des zweiten
Modells sagen aus, dass sie während der letzten zwei Jahre für Reparaturen von mehr als 500 EUR in
die Werkstatt mussten.
Prüfen Sie bei einer Irrtumswahrscheinlichkeit von 10%, ob die relative Reparaturanfälligkeit zwischen
den beiden Modellen gleich hoch ist.

H0: Ѳ1 - Ѳ2 = 0 Es besteht kein Unterschied in der Reparaturanfälligkeit.
H1: Ѳ1 - Ѳ2  0 Es besteht ein Unterschied in der Reparaturanfälligkeit.
(2) Testverfahren (Anteilswertdifferenzentest) und Prüfgröße r p p
zb   1 2
(3) Prüfverteilung ˆ R ˆ R
annähernd normalverteilt (Tabelle 7): zc = 1,65
(4) Berechnung der Prüfgröße ˆ  400  0,1125  500  0,176  0,1481

400  500  2
45 88
p1   0,1125 p2   0,1760 1 1
400 500 ˆ R  0,1481  0,8519    0, 0238
400 500
d 0,1125  0,176
zb    2,67
ˆ R 0,0238
4.3.3 Einfache Varianzanalyse
Mit Hilfe der einfachen Varianzanalyse können wir die Analyse auf mehr als zwei
Stichproben ausweiten; d.h. es geht in diesem Abschnitt um den Vergleich mehrerer
arithmetischer Mittelwerte. Da für die Prüfgröße dieses Testverfahrens Varianzen eine
entscheidende Rolle übernehmen, sprechen wir von der Varianzanalyse.
Herr Meyer besitzt einen Gartengrundstück mit einer 1.300 m² Rasenfläche, die er als Liebhaber
englischer Gärten akribisch mit einem kleinen Benzinrasenmäher regelmäßig schneidet.
Alle 2 Monate füllt er den 10 l Kanister an der Tankstelle seines Nachbarn auf. Laut Angabe tankt
Herr Meyer immer genau 10 Liter Benzin. Je nach Zapfsäule stellt er jedoch fest, dass der Kanister
gar nicht bis zum Rand gefüllt ist. Dies berichtet er dem Tankstellenpächter.
Sie wollen nun überprüfen, ob ein Fehler in der Eichung der Zapfsäulen vorliegt. Hierzu ziehen sie
gemeinsam an den vier Zapfsäule je vier Proben und messen diese haargenau nach. Das
Signifikanzniveau legen sie auf 1% fest.
169
Stichprobeninhalte bei einer Anzeige von genau 10 l
bzw. in Deziliter (dl)
Probe in dl Zapfsäule 1 Zapfsäule 2 Zapfsäule 3 Zapfsäule 4
i x1i x2i x3i x4i
1 101 97 101 94
2 102 96 99 91
3 98 94 98 90
4 99 98 98 95
Für Zapfsäule 1: X1  100

Für Zapfsäule 2: X 2  96,25
H 0 : 1  2  3  4
Für Zapfsäule 3: X 3  99
H1 : mindestens zwei der  j sind verschieden. Für Zapfsäule 4: X 4  92,5
Sieht aus, wie der F-Test bei multiplen Regressionsmodellen

(2) Testverfahren (Anpassungstest) und Prüfgröße
r 2
X X
n  s X2   j
j 1 


Fb  2 mit s X2  Varianz der beobachten Stichprobenmittelwerte
s pool r 1
 
r n 2
Freiheitsgrade 
j 1 i 1
x ji  X j
s 2pool  . gepoolte Varianz der Einzelbeobachtungen
1  r 1 r   n 1
 2  r  (n  1)
170
(3) Prüfverteilung – F-Verteilung (Tabellen 11-13)
Fc  Fnr*1r [1   ] bzw. Frr(1n1)[1   ]

allgemein: n* = ∑ni bei unterschiedlichen Stichprobenumfängen
speziell (hier) n = Anzahl der Beobachtungswerte einer Zapfsäule (bei gleicher Stichprobe/Säule)
1  4  1  3
Signifikanzniveau: 1% (Tabelle 13) mit Freiheitsgrade
 2  4  (4  1)  12
Fc  F123 [0,99] =5,95
(4) Berechnung der Prüfgröße
r Stichprobenmittelwert

j 1
Xj
X1  X 2  X 3  X 4 100  96,25  99  92,5
X X   96,94.
r r 4
Varianz der beobachteten Stichprobenmittelwerte
r 2
X X
  j
j 1 

 100  96,94  96,25  96,94  99  96,94   92,5  96,94 
2 2 2 2
s X2  s2   11,26.
r 1 X 4 1

…
Hilfsrechnung zur Ermittlung der gepoolten Varianz der Einzelbeobachtungen
Zapfsäule 1: 101 100   102 100   98 100   99 100   10;
2 2 2 2
Zapfsäule 2: 97  96,25  96  96,25  94  96,25   98  96, 25  8,75;
2 2 2 2
Zapfsäule 3: 101  99   99  99   98  99   98  99   6;

2 2 2 2
Zapfsäule 4: 94  92,5  91  92,5  90  92,5  95  92,5  17.
2 2 2 2
   
r n 2 r n 2

j 1 i 1
x ji  X j 
j 1 i 1
x ji  X j
10  8,75  6 17
s 2pool  . s 2pool    3,48.
r   n 1 r   n 1 4   4 1

n  s X2 4  11, 26
sX2  11,26 s 2pool  3,48 Fb  2   12,94
s pool 3, 48
(5) Entscheidung
n  s X2
2
 Fb  Fc  Fnr*1r [1   ] bzw. Frr(1n1)[1   ] Fb  12,94  5,95  Fc
s pool

4.3.4 Anpassungstests
Uns liegt eine Hypothese über das erwartete Häufigkeitsmuster einer Gruppe von
Kategorien einer bestimmten Datenmenge vor. Nun können wir mit einem
Anpassungstest prüfen, ob unser theoretisches Modell geeignet ist, die beobachteten
Daten angemessen zu erklären; d.h. wir vergleichen die empirische gewonnene
Verteilung der Stichprobenergebnisse mit einer vorgegebenen theoretischen
Verteilung F0. Als theoretische Verteilungen bieten sich je nach Sachverhalt u.a. die
Gleichverteilung, die Poissonverteilung oder die Normalverteilung an. Mit dem
Anpassungstest stellen wir fest, ob die empirische Verteilung so stark von der
theoretischen Verteilung abweicht, dass die Nullhypothese H0: F = F0 abzulehnen ist.
Die unbekannte Wahrscheinlichkeitsverteilung F bildet die tatsächlich beobachteten
Daten aus einer Zufallsstichprobe ab.
Klasse oder Kategorie 1 2 3 … r Summe
Beobachtete Anzahl n1 n2 n3 … nr n
Wahrscheinlichkeiten unter H0 p1 p2 p3 … pr 1
Erwartete Anzahl unter H0 E1  n  p1 E2  n  p2 E3  n  p3 … Er  n  pr n
Tab. 53: Realisierte und theoretische Werte als Grundlage für Anpassungstests
173
Beispiel – Anpassungstest mit n > 50
Sie spielen mit einem Kumpel „Mensch ärgere Dich nicht“. Nach mehrmaligen Verlieren vermuten
Sie, dass ihr Freund mit einem manipulierten Würfel spielt. Falls der Würfel fair ist, dann müsste jede
Augenzahl gleichwahrscheinlich auftreten. Somit kann man auf Gleichverteilung einer sechswertigen
Variablen testen. Ihr Kumpel willigt dem Test ein, da er sich keiner Schuld bewusst ist. Zu 5% dürfen
sich die beiden irren. Nach 120 Würfen können Sie das folgende Ergebnis festhalten.
Augenzahl des Würfels 1 2 3 4 5 6

beobachtete Anzahl 17 23 16 22 14 28
Wahrscheinlichkeiten P1=0,167 P2=0,167 P3=0,167 P4=0,167 P5=0,167 P6=0,167
(unter H0)
erwartete Anzahl (H0) E1=20 20 20 20 20 20

H0: p1 = p2 = … = p6 Der Würfel ist fair.
H1: p1  pi … Die Würfelaugen sind nicht gleichverteilt.
(2) Testverfahren (Anpassungstest) und Prüfgröße
r (n j  E j ) 2 r (h j  h ' j ) 2

j 1 Ej
bzw. 
j 1 h '
 b2
(3) Prüfverteilung j
χ²-verteilt mit ν = r – 1 Freiheitsgrade (ν = 5) | aus Tabelle 14 ergibt dies χ²c = 11,1

Beispiel – Anpassungstest mit n > 50
Augenzahl des Würfels 1 2 3 4 5 6

beobachtete Anzahl 17 23 16 22 14 28
Wahrscheinlichkeiten P1=0,167 P2=0,167 P3=0,167 P4=0,167 P5=0,167 P6=0,167
(unter H0)
erwartete Anzahl (H0) E1=20 20 20 20 20 20

r (h j  h ' j ) 2

j 1 h'j
 b2
(n j  E j )2 17  20   23  20  16  20   22  20  14  20   28  20 

2 2 2 2 2 2
r

j 1 E j

20

20

20

20

20

20
 6,9  b2
9 9 16 4 36 64
     
20 20 20 20 20 20
(5) Entscheidung b2  6,9  11,1  c2

Falls der Umfang der Stichprobe geringer als n = 50 ist und die Anpassung an eine
Normalverteilung N überprüft wird, dann bietet sich statt des χ²-Anpassungstestes der
Kolmogorow-Smirnow-Anpassungstest (KSA-Test) an.
Kolmogorow-Smirnow-Anpassungstest (KSA-Test)
• Stichprobe weniger als 50 TeilnehmerInnen umfasst (n < 50)
• Verteilung als normalverteilt angenommen wird.
Normalverteilung bedeutet, dass man eine Hypothese zu µ (Mittelwert) und zu σ

(Standardabweichung) bilden kann:
N (µ, σ)
Beispiel – Verweildauer bei einer bestimmten Waschmittelmarke
1. Hypothese formulieren
H0: Verweildauer ist normalverteilt mit N ( µ = 60 Tage, σ = 10 Tage)
H1: Verweildauer ist nicht normalverteilt wie angenommen.
Marktforschungsinstitut benutzt 10 Test-Haushalte (n = 10) mit folgender

Verweildauer in Tagen:
67, 69, 58, 62, 55, 59, 60, 59, 60, 66
2. Testverfahren: KSA-Test mit Prüfgröße Db = max |d1(xi), d2 (xi)|

Quelle: Kobelt / Steinhausen (2006) 176
Kolmogorow-Smirnow-Anpassungstest (KSA-Test) II
3. Kritischer Wert für KSA-Test
Annahme: Irrtumswahrscheinlichkeit von 5 %
d.h. (1-α) = 0,95 aus Tabelle 16, Dc (n = 10, α = 0,05) = 0,409
4. Berechnete Prüfgröße Db = max |d1(xi), d2 (xi)|

mit d1(xi) = |Fth(xi) – Fb (xi)| und d2(xi) = |Fth(xi) – Fb (xi-1)|
Fth(xi) - theoretischer Wert aus der Normalverteilungsfunktion (Tab. 5) für xi
Hilfstabelle wird aufgestellt: Wir suchen dort nach der maximalen Abweichung
Db max => hier Db = 0,3207
5. Entscheidung
Db < Dc
0,3207 < 0,409; H0 wird beibehalten
Ergebnis: mit Irrtumswahrscheinlichkeit von 5% folgt die Verweildauer bei einer

bestimmten Waschmittelmarke N (60 Tage, 10 Tage).
Kolmogorow-Smirnow-Anpassungstest (KSA-Test) III
Hilfstabelle
xi hi f(xi) Fb(xi) zi Fth(xi) d1(xi) d2(xi)
aus Tab. 5
55 1 0,1 0,1 -0,5 0,3085 0,2085 0,3085
58 1 0,1 0,2 -0,2 0,4207 0,2207 0,3207
59 2 0,2 0,4 -0,1 0,4602 0,0602 0,2602
60 2 0,2 0,6 0 0,5000 0,1000 0,1000
62 1 0,1 0,7 0,2 0,5793 0,1207 0,0202
66 1 0,1 0,8 0,6 0,7257 0,0743 0,0257
67 1 0,1 0,9 0,7 0,7580 0,1420 0,0420
69 1 0,1 1,0 0,9 0,8159 0,1841 0,0841
Summe 10 kumuliert
d1(xi) = |Fth(xi) – Fb (xi)| bzw. d2(xi) = |Fth(xi) – Fb (xi-1)|

4.3.5 Unabhängigkeitstest
Merkmalsausprägungen
von Y
Merkmalsaus y1 y2 . . . yc 
-prägungen x1 h11 h12 . . . h1c h1•
von X x2 h21 h22 . . . h2c h2•
. . . . .
. . . . .
. . . . .
xr hr1 hr2 . . . hrc hr•
 h•1 h•2 . . . h•c h••
Tab. 55: Kontingenztabelle zweier Variablen X und Y (absolute Häufigkeiten)
Für absolute Häufigkeiten lässt sich für jedes Feld der Kontingenztabelle aus den
Randhäufigkeiten ein theoretischer Wert berechnen: hth  h j  hi
ij
n
 
2
r c hij  hijth
Quadratischen Kontingenz (QK) QK  
i 1 j 1 hijth
mit r = Anzahl der Zeilen und c = Anzahl der Spalten.
Testregel: Falls QK  (2r 1)(c1) 1     H 0 verwerfen.

Beispiel – Kontingenztafeltest – Pepsi-Coke-Test
Bevorzugte Marke der BLINDTEST Verköstung

Testpersonen Pepsi Coca-Cola Summe
Pepsi 21 12 33 blind vs. offen
OFFENER TEST Coca-Cola 6 14 20
Summe 27 26 53 α = 0,01 bzw. 1%
Tab. 56: Geschmackstest in der Marktforschung – blind versus offen

H : Es besteht Unabhängigkeit zwischen dem Blindtest und dem offenen Test
0
H : Es besteht ein Zusammenhang bzw. keine Unabhängigkeit

1
(2) Testverfahren und Prüfgröße

h  h 
2
th
r c
Prüfgröße: quadratische Kontingenz (QK) QK  
ij ij
 b2
i 1 j 1 hijth
(3) Prüfverteilung und Angabe des kritischen Wertes
χ²-verteilt mit ν = (r –1) (c – 1) | Freiheitsgrade : ν = (2 - 1) (2 – 1) = 1

aus Tabelle 14 ergibt dies für α = 0,01: χ²c = 6,63
180
Beispiel – Kontingenztafeltest – Pepsi-Coke-Test
(4) Berechnung der Prüfgröße aus den Beobachtungswerten

Bevorzugte Marke der BLINDTEST
Testpersonen Pepsi Coca-Cola Summe
Pepsi 16,2 33 Berechnung der
33  27
OFFENER 16,8 theoretischen Werte
53
TEST
Coca-Cola 10,2 9,8 20
bei Unabhängigkeit
Summe 27 26 n = 53
Tab. 57: Geschmackstest in der Marktforschung – blind versus offen (theoretische Werte)
 2116,8
2
(12 16,2)2 (6 10,2)2 (14  9,8)2
QK      5,66  zb
16,8 16,2 10,2 9,8
(5) Entscheidung
b2  5, 66  6, 63  c2
181

Statistik 2019 LehrbuchPrasentation InklKSA

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Statistik 2019 LehrbuchPrasentation InklKSA

Hochgeladen von

Copyright:

Verfügbare Formate

Statistik

Prof. Dr. Marc Piazolo

Prof. Dr. Marc Piazolo 1

Prof. Dr. Marc Piazolo 2

Prof. Dr. Marc Piazolo 3

Prof. Dr. Marc Piazolo 4

Prof. Dr. Marc Piazolo 5

Prof. Dr. Marc Piazolo 6

Abb. 5: Merkmalskranz einer natürlichen Person

Prof. Dr. Marc Piazolo 7

Prof. Dr. Marc Piazolo 8

Auszählung der Häufigkeiten für das Untersuchungsmerkmal X Augenfarbe

Ausprägung Strichliste absolute Häufigkeit relative Häufigkeit ( )

Prof. Dr. Marc Piazolo 9

Geschwindigkeit von Autos in km/h zwischen 9.45-10.00 Uhr

Prof. Dr. Marc Piazolo 10

Prof. Dr. Marc Piazolo 11

FuE-Ausgaben in Prozent der Einnahmen

Firma Prozent Firma Prozent Firma Prozent Firma Prozent

Rohdaten / Ursprungsdaten können unübersichtlich sein.

Prof. Dr. Marc Piazolo 12

k1 5,15 - 6,24 4 0,08 4 0,08

Prof. Dr. Marc Piazolo 13

(1) Das Stem-Leaf-Diagramm (dt. Stängel Blatt

der jeweiligen Strecke ist propor-

Prof. Dr. Marc Piazolo 14

Abb. 6: Augenfarbe von 20 Studierenden – Häufigkeitsfunktion der absoluten Häufigkeiten hi

Abb. 7: Geschwindigkeitsmessung in Zweibrücken – Häufigkeitsfunktion der relativen Häufigkeiten fi

Bei der flächenproportionalen Darstellung werden die Beobachtungshäufigkeiten als

Abb. 8: Augenfarbe von 20 Studierenden (Anteile in %) – Häufigkeitsfunktion der relativen Häufigkeiten fi

Kuchendiagramm / Pie Chart

Prof. Dr. Marc Piazolo 16

Länder und Regionen

Deutschland Übriges Deutschland

11-20 21-25 26-30 31-40 41-50 51-70

Prof. Dr. Marc Piazolo 19

Prof. Dr. Marc Piazolo 20

Abb. 17: Fehlerquellen in der Automobilproduktion eines Tages (Anzahl)

Prof. Dr. Marc Piazolo 21

80 0 0 100 100 100 300

200 1000 60 60 375

life infant under-5 under- adult primary secondary children

Source: UNEP, GEO3

Die Häufigkeitsverteilung eines Merkmals (eindimensional) zeigt, wie bedeutsam die

Prof. Dr. Marc Piazolo 23

Abb. 19: Einfache Kontingenztabelle für die Passstrasse nach Madrid

Prof. Dr. Marc Piazolo 24

Mit Hij bezeichnen wir die kumulierten Häufigkeiten der Verteilungsfunktion i j

2.2.2 Darstellung zweidimensionaler

Tab. 10: Lebensmitteldiscounter

Prof. Dr. Marc Piazolo 26

Umsatz in Mio. € und Anzahl der Ladengeschäfte (pro Lebensmitteldiscounter)

Prof. Dr. Marc Piazolo 27

Prof. Dr. Marc Piazolo 29

Prof. Dr. Marc Piazolo 30

Quelle: Economist 1998

Prof. Dr. Marc Piazolo 31

Prof. Dr. Marc Piazolo 32

Prof. Dr. Marc Piazolo 33

Prof. Dr. Marc Piazolo 34

Arithmetisches Mittel Standardabweichung

Harmonisches Mittel Variationskoeffizient

Prof. Dr. Marc Piazolo 36

Prof. Dr. Marc Piazolo 37