Sie sind auf Seite 1von 181

Statistik

Prof. Dr. Marc Piazolo


2019

Prof. Dr. Marc Piazolo 1


Inhaltsverzeichnis
1. Bedeutung der Statistik und ihre Grundlagen
1.1 Statistische Grundbegriffe und Ablauf einer statistischen Untersuchung
1.2 Mathematische Hilfsmittel der Statistik
2. Deskriptive (Beschreibende) Statistik
2.1 Eindimensionale Häufigkeitsverteilungen
2.1.1 Eindimensionale Verteilungsfunktion
2.1.2 Klassifizierte Häufigkeitsverteilungen
2.1.3 Darstellung eindimensionaler Häufigkeitsverteilungen
2.2. Zweidimensionale Häufigkeitsverteilungen
2.2.1 Zweidimensionale Verteilungsfunktion
2.2.2 Darstellung zweidimensionaler Häufigkeitsverteilungen
2.3 Tücken der graphischen Aufbereitung
2.4 Parameter eindimensionaler Häufigkeitsverteilungen
2.4.1 Lageparameter
2.4.1.1 Modus
2.4.1.2 Median
2.4.1.3 Arithmetisches Mittel
2.4.1.4 Gewichtetes arithmetisches Mittel
2.4.1.5 Harmonisches Mittel
2.4.1.6 Geometrisches Mittel
2.4.1.7 Quartile

Prof. Dr. Marc Piazolo 2


2.4.2 Streuungsparameter
2.4.2.1 Spannweite und Interquartilsspanne
2.4.2.2 Varianz und Standardabweichung
2.4.2.3 Variationskoeffizien
2.4.3 Microsoft Excel-Anwendungen
2.4.3.1 Mittelwerte
2.4.3.2 Streuungsmaße
2.4.4 Konzentrationsmaße
2.4.5 Zusammenhang zwischen Merkmalen
2.4.5.1 Kovarianz
2.4.5.2 Korrelationskoeffizient nach Bravais-Pearson
2.4.5.3 Rangkorrelation nach Spearman
2.4.6 Einfache lineare Regressionsanalyse
2.4.6.1 Bestimmung einer optimalen Regressionsfunktion
2.4.6.2 Qualität der Regressionsfunktion
2.4.7 Einfache nicht-lineare Regressionsanalyse
2.4.7.1 Homogene Potenzfunktion
2.4.7.2 Logarithmische und andere Funktionen
2.4.8 Excel-Anwendungen in der Korrelations- und Regressionsanalyse

Prof. Dr. Marc Piazolo 3


3. Wahrscheinlichkeitsrechnung und -verteilungen
3.1 Grundlagen der Wahrscheinlichkeitsrechnung
3.1.1 Wahrscheinlichkeitsdefinitionen
3.1.2 Grundregeln der Wahrscheinlichkeitsrechnung
3.1.3 Microsoft Excel-Anwendungen
3.2 Wahrscheinlichkeitsverteilungen für diskrete Zufallsvariablen
3.2.1 Was ist eine Zufallsvariable?
3.2.2 Parameter der Verteilung einer diskreten Zufallsvariablen
3.2.3 Binominalverteilung
3.2.4 Hypergeometrische Verteilung
3.2.5 Poissonverteilung
3.3 Wahrscheinlichkeitsverteilungen für stetige Zufallsvariablen
3.3.1 Gleichverteilung
3.3.2 Normalverteilung
3.3.3 Exponentialverteilung

Prof. Dr. Marc Piazolo 4


4. Induktive (schließende) Statistik
4.1 Stichprobenverfahren und Prüfverteilungen
4.1.1 Die Normalverteilung
4.1.2 Die Chiquadratverteilung (2-Verteilung)
4.1.3 Die Student-t-Verteilung
4.1.4 Die F-Verteilung
4.2 Schätzverfahren
4.2.1 Grundlagen
4.2.2 Punktschätzung
4.2.3 Intervallschätzung für Mittelwerte
4.2.3.1 Stichprobenverteilung und zentraler Grenzwertsatz
4.2.3.2 Intervallschätzungen für Mittelwerte bei bekannter Varianz 2
4.2.3.3 Intervallschätzungen für Mittelwerte bei unbekannter Varianz 2
4.2.4 Intervallschätzungen für Anteilswerte
4.2.5 Intervallschätzung für Varianz und Standardabweichung
4.2.6 Bestimmung des notwendigen Stichprobenumfangs

Prof. Dr. Marc Piazolo 5


4.3 Hypothesentests
4.3.1 Grundlagen
4.3.2 Parametertests
4.3.2.1 Mittelwerttests
4.3.2.2 Anteilswerttests
4.3.2.3 Vergleich von zwei Mittelwerten
4.3.2.4 Vergleich von zwei Anteilswerten
4.3.3 Einfache Varianzanalyse
4.3.4 Anpassungstests
4.3.5 Unabhängigkeitstest

Prof. Dr. Marc Piazolo 6


2. Deskriptive (Beschreibende) Statistik
2.1 Eindimensionale Häufigkeitsverteilungen
Gewicht
Sparbetrag

Größe

Nettoeinkommen

Vermögen Augenfarbe

Berufsgruppe Körperumfang

Familienstand
Nationalität

Schuhgröße

Abb. 5: Merkmalskranz einer natürlichen Person

Prof. Dr. Marc Piazolo 7


Symbolik in der Statistik :
 Die Untersuchungsmerkmale werden meist mit einem Großbuchstaben wie X, Y
oder Z bezeichnet;
 die Ausprägungen eines Merkmals X mit indizierten Kleinbuchstaben, d.h. mit x1,
x2, ..., xr;
 r Anzahl der betrachteten Ausprägungen (bei diskreten Merkmalen) bzw. Anzahl
der betrachteter Klassen (bei stetigen Merkmalen);
 n Anzahl der Untersuchungseinheiten, für die ein Datenbefund vorliegt;
 hi absoluter Beobachtungshäufigkeit der i-ten Ausprägung oder Klasse (i = 1, 2, ...,
r), wobei  hi  n ;
i 1
 fi relative Beobachtungshäufigkeit der i-ten Ausprägung oder Klasse
( i = 1, 2, ..., r), wobei f i  hi .
n

Prof. Dr. Marc Piazolo 8


Häufigkeitsfunktion

Auszählung der Häufigkeiten für das Untersuchungsmerkmal X Augenfarbe

Ausprägung Strichliste absolute Häufigkeit relative Häufigkeit ( )


(xi) (hi) hi
fi 
n
x1 blau   h1 = 6 f1 = 0,30
x2 grau  h2 = 3 f2 = 0,15
x3 grün  h3 = 3 f3 = 0,15
x4 braun   h4 = 6 f4 = 0,30
x5 sonstige  h5 = 2 f5 = 0,10
Summe: n = 20 1,0

Tab. 3: Augenfarbe

Prof. Dr. Marc Piazolo 9


2.1.1 Eindimensionale Verteilungsfunktion

Geschwindigkeit von Autos in km/h zwischen 9.45-10.00 Uhr

absolute relative
Lfd. Nr. Ausprägung absolute kumulierte relative kumulierte
xi (in km/h) Häufigkeit Häufigkeit Häufigkeit Häufigkeit
hi Hi fi Fi

1 x1 = 46 h1 = 4 4 f1 = 0,0500 0,0500
2 x2 = 47 h2 = 3 7 f2 = 0,0375 0,0875
3 x3 = 48 h3 = 9 16 f3 = 0,1125 0,2000
4 x4 = 49 h4 = 8 24 f4 = 0,1000 0,3000
5 x5 = 50 h5 = 12 36 f5 = 0,1500 0,4500
6 x6 = 51 h6 = 14 50 f6 = 0,1750 0,6250
7 x7 = 52 h7 = 9 59 f7 = 0,1125 0,7375
8 x8 = 53 h8 = 15 74 f8 = 0,1875 0,9250
9 x9 = 54 h9 = 6 80 f9 = 0,0750 1,000
Summe: n = 80 1,0
Tab. 4: Geschwindigkeitsmessung in Zweibrücken

Prof. Dr. Marc Piazolo 10


i
• absolute kumulierte Häufigkeit: Hi  h
j 1
j

i ihj 1 i

  
Hi
• relative kumulierte Häufigkeit: Fi  fj   hj 
j 1 j 1
n n j 1
n

Der Vorgang des Aufaddierens bis zu einem bestimmten Punkt wird als Kumulieren
bzw. als Kumulation bezeichnet. Die Häufigkeiten, die durch Kumulation entstehen,
werden als kumulierte Häufigkeiten bezeichnet. Wir verwenden hierbei die Symbole
Hi für absolute kumulierte Häufigkeiten und Fi für relative kumulierte Häufigkeiten.

Prof. Dr. Marc Piazolo 11


2.1.2 Klassifizierte Häufigkeitsverteilungen

FuE-Ausgaben in Prozent der Einnahmen

Firma Prozent Firma Prozent Firma Prozent Firma Prozent


1 13,5 14 9,5 27 8,2 40 7,5
2 8,4 15 8,1 28 6,9 41 7,1
3 10,5 16 13,5 29 7,2 42 13,2
4 9,0 17 9,9 30 8,2 43 7,7
5 9,2 18 6,9 31 9,6 44 5,9
6 9,7 19 7,5 32 7,2 45 5,2
7 6,6 20 11,1 33 8,8 46 5,6
8 10,6 21 8,2 34 11,3 47 11,7
9 10,1 22 8,0 35 8,5 48 6,0
10 7,1 23 7,7 36 9,4 49 7,8
11 8,0 24 7,4 37 10,5 50 6,5
12 7,9 25 6,5 38 6,9
13 6,8 26 9,5 39 6,5
Quelle: McClave/Benson/Sincich 2001, S. 38
Tab. 5: FuE-Ausgaben

Rohdaten / Ursprungsdaten können unübersichtlich sein.

Prof. Dr. Marc Piazolo 12


Klassifizierte Häufigkeitsverteilungen der FuE-Ausgaben in Prozent

Kumulierte Kumulierte
Klasse Klassen- Klassen- Relative absolute relative
kj ausprägung häufigkeit Häufigkeit Häufigkeit Häufigkeit
hi fi Hi Fi

k1 5,15 - 6,24 4 0,08 4 0,08


k2 6,25 - 7,34 12 0,24 16 0,32
k3 7,35 - 8,44 14 0,28 30 0,60
k4 8,45 - 9,54 7 0,14 37 0,74
k5 9,55 - 10,64 7 0,14 44 0,88
k6 10,65 - 3 0,06 47 0,94
11,74
k7 11,75 - 0 0,00 47 0,94
12,84
k8 12,85 - 3 0,06 50 1,00
13,94
Summe: n = 50 1,00
Tab. 6: Klassifizierte Häufigkeitsverteilung der FuE-Ausgaben

Prof. Dr. Marc Piazolo 13


2.1.3 Darstellung eindimensionaler
Häufigkeitsverteilungen

(1) Das Stem-Leaf-Diagramm (dt. Stängel Blatt


Stängel-Blatt-Diagramm) gilt als 5 269
einfaches, aber sehr wirkungs- 6 055568999
volles Werkzeug zur Analyse und 7 11224557789
Darstellung metrischer Daten. 8 001222458
9 02455679
10 1556
(2) Bei der höhenproportionalen 11 137
Darstellung werden die beobach- 12
teten Häufigkeiten in einem 13 255
rechtwinkligen Koordinatensys-
Tab. 7: Stem-Leaf-Diagram I
tem als Strecken senkrecht zur
Abszisse festgehalten. Die Länge Häufigkeitsverteilung der FuE-Ausgaben

der jeweiligen Strecke ist propor-


tional zu der zugehörigen
Beobachtungshäufigkeit.

Prof. Dr. Marc Piazolo 14


(2) Höhenproportionale Darstellung – Stabdiagramm

7
6
5
4
3
2
1
0
blau grau grün braun sonstige

Abb. 6: Augenfarbe von 20 Studierenden – Häufigkeitsfunktion der absoluten Häufigkeiten hi

0,2

0,15

0,1

0,05

0
46 47 48 49 50 51 52 53 54

Abb. 7: Geschwindigkeitsmessung in Zweibrücken – Häufigkeitsfunktion der relativen Häufigkeiten fi


Prof. Dr. Marc Piazolo 15
(3) Flächenproportionale Darstellung

Bei der flächenproportionalen Darstellung werden die Beobachtungshäufigkeiten als


. Flächen abgebildet, wobei die Flächeninhalte proportional zu den beobachteten
Häufigkeiten sind.

h  360
i  i
n
bzw.

i  f i  360

Abb. 8: Augenfarbe von 20 Studierenden (Anteile in %) – Häufigkeitsfunktion der relativen Häufigkeiten fi

Kuchendiagramm / Pie Chart

Prof. Dr. Marc Piazolo 16


Kreisdiagramm mit Detailansicht

Länder und Regionen

Übrige Welt
5%
Kaiserslautern
43%

Deutschland Übriges Deutschland


USA 63%
32% 20%

Abb. 9: Herkunft der Teilnehmer des Internetexperimentes zum Ultimatum Bargaining Game (Anteile in %)

Kaiserslautern = im Umkreis von 100 km; übrige Welt – vor allem Österreich, Schweiz, Ungarn.
Piazolo (2010) Dividing up an Inheritance Successfully – Significant International Variations, Proceedings, 8th International
Conference on Management, Enterprise and Benchmarking, Budapest (June 2010) p. 315-324 – p. 316
Klassifizierte Häufigkeitsfunktionen mit unterschiedlichen Klassenbreiten

11-20 21-25 26-30 31-40 41-50 51-70

Abb. 11: Alter der Teilnehmer des Internetexperimentes zum Ultimatum Bargaining Game (Anteile in %)

hi
ei  „Höhe der Säule i”
di
Prof. Dr. Marc Piazolo 18
n = 120

n = 240
n = 720

Abb. 12: Effekt der Zunahme der Grundgesamtheit (n) auf Histogramme

Prof. Dr. Marc Piazolo 19


Abb. 16: Polygonzug für die Geschwindigkeitsmessung in Zweibrücken (km/h)

Prof. Dr. Marc Piazolo 20


a) Karosserie b) Zubehör

Abb. 17: Fehlerquellen in der Automobilproduktion eines Tages (Anzahl)

Prof. Dr. Marc Piazolo 21


Better lives
Worldwide improvements over past 30 years

80 0 0 100 100 100 300

700
50 90 90 80
325
70 50 800
80 80
100 60

Improvement

Improvement
900 350
150 70 70
60 100 40

200 1000 60 60 375

20
50 150 250 50 50
400

life infant under-5 under- adult primary secondary children


expectancy mortality mortality nourished literacy rate not in school
at birth, rate, rate, people, estimated, % gross estimated, m
years per 1,000 per 1,000 m
live births live births
enrolment
ratio, %

Source: UNEP, GEO3

Aufgabe 16: Welche Probleme (Vorteile) ergeben sich aus dieser Darstellung des Economists?
Zusammenfassung:

Die Häufigkeitsverteilung eines Merkmals (eindimensional) zeigt, wie bedeutsam die


verschiedenen Merkmalsausprägungen sind. Als Häufigkeitsfunktion bezeichnen wir
die tabellarische Zusammenstellung der Ausprägungen mit ihren absoluten wie
relativen Beobachtungshäufigkeiten. Stellen wir die kumulierten absoluten bzw.
relativen Häufigkeiten zusammen, dann erhalten wir die Verteilungsfunktion des
Merkmals. Sobald uns ein stetiges Merkmal vorliegt, ist es sinnvoll dieses in Klassen
zu unterteilen. Daraus ermitteln wir klassifizierte Häufigkeitsverteilungen
(Häufigkeits- und Verteilungsfunktion). Über höhen- und flächenproportionale
Darstellungen lassen sich die Daten auf einen Blick gut präsentieren und
interpretieren. Aber Vorsicht: graphische Verzerrungen sind leicht möglich und recht
weit verbreitet. Für überschaubare (metrische) Datenmengen bietet das Stem-Leaf-
Diagramm den größten Informationsgehalt.

Prof. Dr. Marc Piazolo 23


2.2. Zweidimensionale Häufigkeitsverteilungen

Abb. 19: Einfache Kontingenztabelle für die Passstrasse nach Madrid

Randhäufigkeit:

Prof. Dr. Marc Piazolo 24


Merkmalsausprägungen von Y

y1 y2 . . . yc 
x1 h11 h12 . . . h1c h1
Merkmalsausprägungen x2 h21 h22 . . . h2c h2
von X . . . . .
. . . . .
. . . . .
xr hr1 hr2
. . . hrc hr
 h1 h2
. . . hc h
Tab. 7: Zweidimensionale Häufigkeitsfunktion in allgemeiner Form

Aktie Y

Aktie X Y1 Y2 = -4% Y3 Y4 Y5 
X1 = -4% 0 6 7 4 3 20
0,000 0,058 0,067 0,038 0,029 0,192
X2 = 0% 4 11 25 18 3 61
0,038 0,106 0,240 0,173 0,029 0,587
X3 = +4% 5 7 6 3 2 23
0,048 0,067 0,058 0,029 0,019 0,221
 9 24 38 25 8 104
0,087 0,231 0,365 0,240 0,077 1,000
Tab. 8: Wochenrenditen zweier Aktien in Prozent
Zusammenhang zwischen den gemeinsamen Häufigkeiten und den Randhäufigkeiten (bedingte relative Häufigkeit):
hij hij
f1(xiyj) = bzw. f2(yjxi) = Beispiel: f1(x1y2) = 6 / 24 = 25%
h j hi
Wahrscheinlichkeit Kurseinbruch von Aktie X,
wenn auch Aktie Y um 4% einbricht. 25
2.2.1 Zweidimensionale Verteilungsfunktion

Mit Hij bezeichnen wir die kumulierten Häufigkeiten der Verteilungsfunktion i j


der absoluten Beobachtungshäufigkeiten. Mit Fij diejenige der relativen H ij   hkl
Beobachtungshäufigkeiten. k 1 l 1

2.2.2 Darstellung zweidimensionaler


Häufigkeitsverteilungen
Anzahl der Läden
Umsatz
in Mio. € 1 2 3 
<20 2 10 3 15

>20 8 21 6 35

 10 31 9 50

Tab. 10: Lebensmitteldiscounter

Prof. Dr. Marc Piazolo 26


Abb. 20: Zweidimensionale Häufigkeits- und Verteilungsfunktion

Umsatz in Mio. € und Anzahl der Ladengeschäfte (pro Lebensmitteldiscounter)

Prof. Dr. Marc Piazolo 27


Abb. 22: Streudiagramm einer drei- bzw. vierdimensionalen Häufigkeitsfunktion – Gapminder Desktop
Quelle: FAZ 2005 a
Abb. 25: Frankreich begibt die erste Staatsanleihe über 50 Jahre

Prof. Dr. Marc Piazolo 29


Quelle: ARD-Sendung: Harald Schmidt Show vom 19. 01.2005
Abb. 26: Einschaltquoten in Millionen Zuschauer (Durchschnitte)

Prof. Dr. Marc Piazolo 30


Quelle: Meadows ad al 1973, S. 40
Abb. 29: Landwirtschaftlich nutzbares Land (Club of Rome)

Quelle: Economist 1998


Abb. 28: Auswirkungen einer unterschiedlichen Bezugsgröße

Prof. Dr. Marc Piazolo 31


Quelle: FAZ (Hrsg.) 08.02.2006
Abb. 27: Weniger Unternehmen insolvent

Prof. Dr. Marc Piazolo 32


Zusammenfassung:

Mit Hilfe der Datenkosmetik kann Zahlenmaterial in einer Weise aufbereitet werden,
dass die zentrale Aussage direkt ins Auge springt und der Leser diese aufnimmt ohne
zu reflektieren, ob die grafische Darstellung seriösen wissenschaftlichen Standards
entspricht oder alle relevanten Informationen Berücksichtigung fanden. Die
Skalierung, maßstabsgetreue Flächeninhalte, korrekte Bezuggrößen und
Berichtszeiträume, das Fehlen wichtiger Informationen, die Wahl der richtigen
Schaubildtyps sowie die treffende Beschriftung sind die Prüfpunkte jeder
wissenschaftlich seriösen Darstellung. Die Gratwanderung zwischen Aussagekraft und
Übersichtlichkeit einer grafischen Aufbereitung wird erst mit Erfahrung zu meistern
sein.

Prof. Dr. Marc Piazolo 33


2.4 Parameter eindimensionaler
Häufigkeitsverteilungen

10 10
8 8
6
6
4
4
2
2
0
1 2 3 4 5 6 7 8 9 10 11 12 13 0

11

13

15

17
1

9
Abb. 32: Darstellung von Lage-Unterschieden einer Häufigkeitsfunktion

25 10

20 8

15 6

10 4

5 2

0 0

1 2 3 4 5 1 2 3 4 5 6 7 8 9

Abb. 33: Darstellung einer geringen und einer großen Streuung von Häufigkeitsfunktionen

Prof. Dr. Marc Piazolo 34


Parameter einer Häufigkeitsfunktion

Lageparameter Streuungsparameter

Modus Spannweite

Median Varianz

Arithmetisches Mittel Standardabweichung

Harmonisches Mittel Variationskoeffizient

Geometrisches Mittel

Quartile
Prof. Dr. Marc Piazolo 35
2.4.1 Lageparameter
2.4.1.1 Modus
Der Modus einer Häufigkeitsfunktion ist die Merkmalsausprägung xi, welche die größte
Beobachtungshäufigkeit hi aufweist.

Stem Leaf
5 269
6 055568999
7 11224557789
8 001222458
9 02455679
10 1556
11 137
12
13 255

Prof. Dr. Marc Piazolo 36


2.4.1.2 Median
Median bzw. Zentralwert ist der Wert des mittleren Elements; d.h. der Zentralwert charakte-
risiert die Lage einer Häufigkeitsfunktion durch den Merkmalswert desjenigen Untersuchungs-
objektes, das die geordnete Reihe von Untersuchungsobjekten genau in zwei gleiche Hälften teilt.

Stem Leaf
5 269
6 055568999
7 11224557789
8 001222458
9 02455679
10 1556
11 137
12
13 255

Hier n = 50

Prof. Dr. Marc Piazolo 37


(1) Median bei diskreten Merkmalen:
Der Zentralwert ist bei diskreten Merkmalen durch diejenige Ausprägung gegeben,
deren kumulierte Häufigkeit als erste die 50 % Marke überschreitet.

Anzahl Personen im Haushalt Häufigkeit


in der Bundesrepublik (2009) in 1.000 in Prozent
1 15.378 38,5
2 14.060 35,2
3 5.113 12,8
4 3.914 9,8
5 1.358 3,4
6 und mehr 120 0,3
 38.943 100,0

Quelle: Statistisches Bundesamt (Hrsg.) 2010, Tab. A.11.2


Tab. 13: Haushaltsgröße

Prof. Dr. Marc Piazolo 38


(2) Median bei klassifizierten Merkmalen: Bei gruppierten Werten eines stetigen
Merkmals liegt der Median in der Merkmalsklasse, in der sich das Medianelement mit
der Ordnungsziffer n  1 bzw. n befindet.
2 2

Prof. Dr. Marc Piazolo 39


Klasse Ausprägung Häufigkeitsfunktion Verteilungsfunktion
kj (Punkte) hj Hj
k1 kleiner als 7,0 2 2
k2 7,1-13,2 3 5
k3 13,3-19,4 8 13
k4 19,5-25,6 9 22
k5 25,7-31,8 8 30
k6 31,9-38,0 22 52
k7 38,1-44,2 19 71
k8 44,3-50,4 22 93
k9 50,5-56,6 10 103
k10 56,7-62,8 11 114
k11 62,9 und größer 6 120
Tab. 14: Punkteverteilung einer Statistikklausur

100,0% 25
90,0%
80,0% 20
70,0%
60,0% 15
50,0%
40,0% 10
30,0%
20,0% 5
10,0%
,0% 0
bis 7 bis bis bis bis bis 38 bis bis bis bis ab
13,2 19,4 25,6 31,8 44,2 50,4 56,6 62,8 62,9

Abb. 34: Statistik-Klausur – Polygonzug der Verteilungsfunktion und Ermittlung des


feinberechneten Medians
Prof. Dr. Marc Piazolo 40
2.4.1.3 Arithmetisches Mittel

Das arithmetische Mittel bzw. der arithmetische Mittelwert ist die Summe aller
beobachteten Merkmalsausprägungen, geteilt durch deren Anzahl. Es entspricht
umgangssprachlich dem Durchschnittswert und ist nur für metrisch skalierte
Merkmale sinnvoll anwendbar.
n
 xi
X i1
n Stichprobe
1 n n
X   xi  xi  n  X
n i1 i 1

n
 xi
Grundgesamtheit
 i1
N

Prof. Dr. Marc Piazolo 41


a) symetrisch (Mo = Me = ) b) positive Schiefe (Mo < Me < )

c) negative Schiefe ( < Me < Mo)

Abb. 35: Beziehung zwischen Mittelwert, Median und Modus

Prof. Dr. Marc Piazolo 42


Arithmetische Mittelwert einer klassifizierten Häufigkeitsfunktion:
m x ' j  hj
X 
j 1 n

Klasse Merkmalsausprägung typische Ausprägung Häufigkeit


x'j hj
kj (Punkte)
k1 kleiner als 7,0* 3,95 2
k2 7,1-13,2 10,15 3
k3 13,3-19,4 16,35 8
k4 19,5-25,6 22,55 9
k5 25,7-31,8 28,75 8
k6 31,9-38,0 34,95 22
k7 38,1-44,2 41,15 19
k8 44,3-50,4 47,35 22
k9 50,5-56,6 53,55 10
k10 56,7-62,8 59,75 11
k11 62,9 und größer* 65,95 6
* die erste und die elfte Klasse sind keine offenen Klassen: k1 (0,9-7,0); k11 (62,9-69).
Tab. 15: Statistik-Klausur – Klassenmittelwerte

Prof. Dr. Marc Piazolo 43


2.4.1.4 Gewichtetes arithmetisches Mittel

Das gewichtete Mittel ist ein arithmetischer Mittelwert, für den jeder Wert
entsprechend seiner Bedeutung unter den Beobachtungselementen gewichtet wird.
Auch hier sind die Formeln für das gewichtete Mittel der Grundgesamtheit und für
den gewichteten Stichprobenmittelwert identisch.
n
 (wi  xi )
μw oder Xw  i 1
n ; d.h. jeder Wert der Merkmalsausprägungen (xi)

i 1
wi

Wertpapier Rendite in % Anlagevolumen in € wi  xi


(xi) (wi)
A 4,2 30.000 1.260
B 5,5 20.000 1.100
C 7,4 5.000 370
D 10,1 3.000 303
 58.000 3.033

Tab. 16: Portfolio eines Privatkunden

Prof. Dr. Marc Piazolo 44


2.4.1.5 Harmonisches Mittel
Wollen Sie Beziehungszahlen mitteln, bei denen Zähler und Nenner 1
unterschiedliche Dimensionen, wie bei Stückkosten oder Geschwin- X harm 
w1 w
 ...  n
digkeit , aufweisen, dann müssen Sie auf das harmonische Mittel x1 xn
Zurückgreifen.

2.4.1.6 Geometrisches Mittel


Falls die zu mittelnden Größen dimensionslose Zuwachsfaktoren  n 
bzw. Wachstumsraten wie Zinsen, Inflation oder BIP-Wachstum 
X geom   n xi  1 100 in %
 i 1 
sind, dann ist das geometrische Mittel geom zu verwenden.  

2.4.1.7 Quartile
Quartile teilen eine Menge von geordneten Elementen nach Häufigkeitsanteilen.

oder

Prof. Dr. Marc Piazolo 45


Wie hoch liegt das durchschnittliche Wirtschaftswachstum p.a.?

Abb. 27: Südafrika in Zahlen (FAZ vom 26.9.2005)

Geometrisches Mittel berechnen


 n 
X geom   n x  1 100 in %
 i 1 i 
 
X geom   5 1,027 1,036 1,019 1,026 1,033
Prof. Dr. Marc

Piazolo 1  100  2,818% ( p.a.) 46
2.4.2 Streuungsparameter
2.4.2.1 Spannweite und Interquartilsspanne
Die Spannweite oder Range liefert die einfachste Antwort auf die Frage nach der
Streuungsbreite einer Verteilung. Sie ist sehr leicht zu berechnen, da wir nur die
Differenz zwischen dem höchsten und dem niedrigsten Wert eines geordneten,
ungruppierten Datensatzes nehmen müssen.

R  xmax  xmin RStatistik Klausur  69  7  62  Punkte ;


 
RRadarkontrolle  54  46  8  km  .
 h 
Welche Methode ziehen
Gewinn bzw. Verluste Methode A Methode B Sie vor?
(in %) (Zahl der Bauvorhaben) (Zahl der Bauvorhaben)
30-40 15 5 Wie unterscheiden sich
20-30 20 15 die beiden Methoden?
10-20 30 60
0-10 20 15 Bilden Sie die Daten
-10-0 15 5 mit Hilfe eines
Histogramms ab.
Tab. 17: Profitabilität von Bauvorhaben

Prof. Dr. Marc Piazolo 47


2.4.2.2 Varianz und Standardabweichung

• Wir bilden den Betrag der Abweichungen vom Mittelwert und erhalten somit die
mittlere absolute Abweichung. Durch die Betragsbildung vermeiden wir, dass sich
positive und negative Abweichungen gegenseitig aufheben:
1 n x X
n 
i 1
i

• Anstatt den Betrag zu bilden, können wir auch auf die Summe der quadrierten
Abweichungen vom Mittelwert zurückgreifen und umgehen damit das Problem
der gegenseitigen Aufrechnung. Folglich ergibt sich die Varianz – entweder einer
Grundgesamtheit (σ²) oder der Stichprobe (s²) – aus:

2 n 2
 2  1   xi   
N 1
N i1
s 
2
 x  X 
n 1 i1  i 

Grundgesamtheit (N) Stichprobe (n)

Prof. Dr. Marc Piazolo 48


Standardabweichung

1 N  n 
N
 x 2  2
s 1 
 xi  n  X 
2 2
i1
i
n 1 i1 

1  m  m x ' j hj
s 

n 1  j 1
xj  n X 
'2 2

X 
j 1 n
 

Diese Quadratwurzel wird als Standardabweichung (σ bzw. s) bezeichnet.


Sie lässt sich nun direkt mit dem Mittelwert vergleichen.

Prof. Dr. Marc Piazolo 49


2.4.2.3 Variationskoeffizient

Stichprobe: CV  s 100
X

Grundgesamtheit CV   100

Der Vergleich der Standardabweichungen – d.h. der absoluten Streuungsmaße – kann
öfter zu falschen Schlüssen führen. Daher führen wir den Variationskoeffizienten
bzw. den Coefficient of Variation (CV) als Maß der relativen Streuung ein. Er gibt an,
um wie viel Prozent des Mittelwertes die Merkmalswerte im Durchschnitt um den
Mittelwert streuen.

Prof. Dr. Marc Piazolo 50


2.4.3 Microsoft Excel-Anwendungen

Die Häufigkeiten lässt sich wie folgt errechnen:


• Markieren Sie den Ergebnisbereich C1:C12,
• rufen Sie die Funktion HÄUFIGKEIT in der Kategorie Statistik auf (über den
Assistenten in der Funktionsleiste),
• in dem Dialogfeld Daten geben Sie ein A1:A16
• in dem Dialogfeld Klassen geben Sie ein B1:B11
• danach klicken Sie folgende Tastenkombination „Control+Shift+Return”, jetzt
stehen in dem Ergebnisbereich C1:C12 jeweils die absoluten Häufigkeiten der
einzelnen Notenschritte.
• Achtung: falls Sie vor dem letzten Schritt „Return” geklickt haben, taucht in Zelle
C1 die Häufigkeit für die erste Merkmalsausprägung (Note 1,0) – hier eine 2 – auf.
Die anderen Häufigkeiten fehlen.

Prof. Dr. Marc Piazolo 51


2.4.3.1 Mittelwerte
Excel verfügt über integrierte Funktionen für fast alle behandelten Lageparameter, d.h.
für den Modus (MODALWERT), den Median (MEDIAN), das arithmetische Mittel
(MITTELWERT), den geometrische Mittelwert (GEOMITTEL), das gestutzte Mittel
(GESTUTZMITTEL) und das harmonische Mittel (HARMITTEL).

2.4.3.2 Streuungsmaße
Für die in Kapitel 2.4.2 vorgestellten Parameter zur Variabilität einer Häufigkeits-
verteilung liefert Excel nur in einigen Fällen eine sofort anwendbare Funktion;
mehrere der Streuungsmaße müssen durch Verknüpfung verschiedener Funktionen
abgeleitet werden. Direkte Funktionen bietet Excel nur für die Varianz und die
Standardabweichung, wobei Sie selbst bestimmen müssen, ob sich die
Streuungsparameter auf eine Stichprobe bzw. die Grundgesamtheit beziehen:

• Auf Basis einer Stichprobe ermittelt Excel die Varianz s² bzw. die Standardabweichung s
über die Funktionen VARIANZ und STABW .
• Liegt eine Grundgesamtheit vor, dann sind die Excel Funktionen VARIANZEN und
STABWN anzuwenden.

Prof. Dr. Marc Piazolo 52


Zusammenfassung:

Statistische Parameter erlauben es uns, aussagekräftige Kennzahlen über einen Datensatz zu


ermitteln. Lageparameter kennzeichnen diejenige Ausprägung eines Untersuchungsmerkmals,
die für die Häufigkeitsverteilungen am typischsten ist – typisch in dem Sinne: Wo liegt das
Zentrum der Beobachtungswerte? Hierzu gehören Modus, Median, Quartile und das
arithmetische bzw. geometrische bzw. harmonische Mittel. Der arithmetische Mittelwert ist uns
als „gewöhnlicher Durchschnittswert“ wohlbekannt – sein einziger Nachteil: Ausreißer verzerren
den Gesamteindruck. Mit dem Median als Zentralwert der geordneten Beobachtungswerte lässt
sich dies vermeiden. Sobald Wachstumsraten vorliegen, muss das geometrische Mittel
berechnet werden. Liegen Beziehungszahlen vor, bei denen Zähler und Nenner unterschiedlicher
Dimension sind, dann greifen wir auf das harmonische Mittel zurück.

Prof. Dr. Marc Piazolo 53


Streuungsparameter kennzeichnen, wie dicht die Beobachtungswerte um ihr Zentrum zusammen
liegen bzw. ob diese weit verstreut sind. Die Streuung geben wir entweder in absoluter
(Spannweite, Interquartilsspanne) oder relativer Größe an. Die Varianz bzw. die
Standardabweichung sind die wichtigsten Streuungsmaße. Damit berechnen wir die
durchschnittliche Abweichung der Beobachtungswerte von ihrem arithmetischen Mittelwert. Die
Standardabweichung hat – als Wurzel der Varianz – die gleiche Dimension wie das arithmetische
Mittel. Es ist üblich, metrisch skalierte Merkmale mit der Angabe von Durchschnittswert (Lage)
und der dazugehörigen Standardabweichung (Streuung) zu beschreiben. Der
Variationskoeffizient erlaubt den sinnvollen Vergleich der relativen Streuung zweier
Beobachtungsreihen.
Mit Hilfe von Microsoft Excel können wir rasch einen Datensatz (Urmaterial) strukturieren und
die meisten der genannten Parameter über integrierte Funktionen in Sekundenschnelle
berechnen. Bei den Streuungsparametern Varianz und Standardabweichung ist jedoch Vorsicht
geboten: Excel unterscheidet zwischen Daten aus einer Stichprobe bzw. aus der
Grundgesamtheit.

Prof. Dr. Marc Piazolo 54


2.4.4 Konzentrationsmaße
Mit Hilfe der Streuungsmaße stellen wir fest, wie breit die einzelnen
Merkmalsausprägungen um den zentralen Wert verteilt sind. Konzentrationsmaße
beschreiben mit Blick auf den Anteil, den eine einzelne statistische Einheit an der
Gesamtsumme der Merkmalswerte hat, eine ähnliche Struktureigenschaft. Denn es
kann ja sein, dass die Summe der Merkmalswerte größtenteils auf ganz wenige
Merkmalsträger konzentriert ist.
Deutschland Utopia
xj hj xj hj
j hj fj  j h fj 
(in tsd. EUR) n (in tsd. EUR) j
n
1 1
1 1 1 1 3 1
5 5
1 1
2 2 1 5
2 3 1 5
1 1
3 3 1 5
3 3 1 5
1 1
4 4 1 4 3 1
5 5
1 1
5 5 1 5 3 1
5 5
Tab. 22: Einkommensverteilung in Deutschland und Utopia
Prof. Dr. Marc Piazolo 55
fj fj
1

1/5

1 2 3 4 5 x 1 2 3 4 5 x

Deutschland Utopia

Abb. 32: Stabdiagramme der Einkommensverteilung

Prof. Dr. Marc Piazolo 56


Relativzahlen:
i

j 1
nj
Die relative kumulierte Häufigkeit pj 
n

i
 nj  xj
Die relative kumulierte Merkmalsanteil qj  J 1
r

j 1
nj  xj

Prof. Dr. Marc Piazolo 57


Tab. 23: Relative kumulierte Häufigkeiten und Merkmalsanteile für Deutschland und Utopia

qj qj
F F
Deutschland 1 Utopia 1

E 4/5
Fläche Q
E 10/15
D
3/5

6/15 C 2/5
D

C 3/15 B 1/5

B 1/15
A A
0 0
0 1/5 2/5 3/5 4/5 1 0 1/5 2/5 3/5 4/5 1
pj pj

Abb. 37: Einkommensverteilung – Deutschland und Utopia


Prof. Dr. Marc Piazolo 58
Der Streckenzug, der die verschiedenen Punktepaare (pj, qj) im Koordinatensystem
miteinander verbindet - hier ABCDEF - wird zu Ehren des Wirtschaftsstatistikers
Lorenz (1905) als Lorenz-Kurve bezeichnet. Sie gibt zu jedem Anteilswert der
statistischen Einheiten den dazugehörigen Anteilswert an der Merkmalssumme an.
Multiplizieren wir die Anteilswerte jeweils mit dem Faktor 100, erhalten wir die
jeweiligen Prozentsätze.
0  Q  12

K  2Q

Ginikoeffizient: gibt das Verhältnis der Fläche Q zwischen der Hauptdiagonalen und
der Lorenz-Kurve zur Fläche des gesamten Dreiecks unter der Hauptdiagonalen an.

GK  
  ( p j1  p j ) j  1
nj  xj
j r
j n j  x j
Prof. Dr. Marc Piazolo 59
Tab. 24: Hilfswerte zur Berechnung der Ginikoeffizienten für Deutschland und Utopia

GKDeutschland = 95/75 – 1 = 0,27

Prof. Dr. Marc Piazolo 60


Sachverständigenrat (November 2015) S. 233 61
Sachverständigenrat (November 2016) S. 407 62
Prof. Dr. Marc Piazolo 63
FAZ, Deutsche sind die Ärmsten in Europa, Wirtschaft (10.04.2013)
EZB zögert Studie über Reichtum hinaus, FAZ (12. März 2013)
Prof. Dr. Marc Piazolo 64
Prof. Dr. Marc Piazolo 65
FAZ, Spanier ein Drittel reicher als Deutsche, Wirtschaft (21.03.2013)
Sachverständigenrat, Jahresgutachten (November 2017)

Prof. Dr. Marc Piazolo 66


Sachverständigenrat, Jahresgutachten (November 2017)

Prof. Dr. Marc Piazolo 67


n
Herfindahl-Hirschman-Index: HHI   qi2 mit qi  xi n
i 1

i 1
xi

Aus der Summe der quadrierten Marktanteile aller Merkmalsträger (Unternehmen)


eines bestimmten Marktes oder Branche berechnet. Die Festlegung auf eine
bestimmte Anzahl der größten Merkmalsträger wird beim Herfindahl-Hirschman-
Index vermieden.
2005 Anzahl Banken CR5 in % HHI in %
Belgien 100 85 21,1
Deutschland 2.089 22 1,7
Finnland 363 83 27,3
Frankreich 854 54 7,6
Italien 792 27 2,3
Niederlande 401 85 18,0
Spanien 348 42 4,9
Quelle: Deutsche Bundesbank (Hrsg.) 2006, S. 95.
Tab. 25: Bankenkonzentration in Europa (gemessen an der Bilanzsumme)

Konzentrationsrate: CR5 = prozentuale Marktanteil der fünf größten Anbieter

Prof. Dr. Marc Piazolo 68


Zusammenfassung:

Der Ginikoeffizient (GK) und die Lorenzkurve als grafische Darstellung spiegeln die
relative Konzentration wider. Für die Einkommens- oder Vermögensverteilung finden
sie Anwendung. Entfällt jedoch ein hoher Anteil der Merkmalssumme auf eine kleine
absolute Anzahl von Merkmalsträgern, dann sind absolute Konzentrationsmaße
sinnvoll und üblich. Hierzu gehören die Konzentrationsrate (CR) sowie der Herfindahl-
Hirschman-Index (HHI). Im Zusammenhang mit branchenspezifischen
Wettbewerbsfragen sind diese Konzentrationsmaße verbreitet.

Prof. Dr. Marc Piazolo 69


2.4.5 Zusammenhang zwischen Merkmalen

Gibt es zwischen den verschiedenen Merkmalen einen Zusammenhang, und wie stark
ist dieser? In der Realität vermuten wir häufig zwischen zwei Untersuchungs-
merkmalen ein bestimmtes kausales Abhängigkeitsverhältnis. So kennen Sie folgende
Modellannahme aus der Mikroökonomie (VWL): Bei normalen Gütern besteht ein
inverser Zusammenhang zwischen dem Preis eines Gutes und seiner Absatzmenge;
daraus ergibt sich die fallende Nachfragefunktion.
Die Abhängigkeit zwischen zwei Merkmalen kann ganz unterschiedlich eng ausfallen.
Dabei unterscheiden wir zwischen einer funktionalen und einer zufallsbedingten
Abhängigkeit:
• Funktionale Abhängigkeit: Y = C + S
• Zufallsbedingte bzw. stochastische Abhängigkeit: In diesen Fällen besteht nur eine
Vermutung über die Art des Zusammenhangs. Folglich kann selbst bei Bekanntheit
des einen Merkmals keine exakte Voraussage bzgl. des zweiten Merkmals
getroffen werden.

Prof. Dr. Marc Piazolo 70


Zusammenhang zwischen Merkmalen
Kovarianz Korrelationskoeffizient
nach Bravais-Pearson

Rangkorrelation Kontingenztafeltest
nach Spearman

Prof. Dr. Marc Piazolo 71


2.4.5.1 Kovarianz
• Die Kovarianz stellt das arithmetische Mittel des Produktes der Abweichungen
beider Merkmale von ihrem jeweiligen (arithmetischen) Mittelwert dar. Sind die
Ausprägungen des Merkmals X (x1, x2, ..., xn) sowie die Ausprägungen des
Merkmals Y (y1, y2, ..., yn) gegeben und die jeweiligen arithmetischen Mittel ( , )
errechnet, dann gilt:
n n
1 1
cov( X ,Y )    ( xi  X )  ( yi  Y )    xi  yi  X  Y
n i1 n i1
• Bei einer Stichprobe ist die Summe des Produktes anstatt durch n durch n–1 zu
teilen. Diese wird allgemein als empirische Kovarianz (sxy) bezeichnet.
Zigarettenlänge in cm
(Merkmal Y)
Nikotingehalt y1 y2 y3 
in mg 8 10 12
(Merkmal X) 0,8  700  8,5  300
x1 0,8 150 250 300 700 X  3,11
1.000
x2 8,5 150 50 100 300 8  300  10  300  12  400
 300 300 400 1.000 Y  10, 2
1.000
Tab. 26: Raucherpräferenzen (Häufigkeitsfunktion)
(0,8  8  150  0,8 10  250  0,8 12  300  8,5  8 150  8,5 10  50  8,5  12  100)
cov( X , Y )   3,11  10, 2
1.000
30490
cov( X , Y )   31,722  1, 232 Prof. Dr. Marc Piazolo 72
1.000
2.4.5.2 Korrelationskoeffizient nach
Bravais-Pearson
r  ( xi  X )  ( yi  Y ) bzw.
SS xy
Korrelationskoeffizienten (r):
Abb. 1
 ( xi  X )2   ( yi  Y )2 SS xx  SS yy

y y y cov( X ,Y ) s
r  xy
sx  s y sx  s y

x x x
r < 0: y fällt, wenn x steigt r = 0: keine Abhängigkeit r > 0: y steigt, wenn x steigt
zwischen y und x
y y

x x
r = +1: perfekte Gleichläufigkeit r = -1: perfekte Gegenläufigkeit

73
Abb. 38: Werte des Korrelationskoeffizienten und der Zusammenhang zwischen Merkmal x und y
Ausgangsinformation
Jahr Kundenberater Fondsvolumen
x y xi 2 yi 2 xi  yi
1990 15 1,35 225 1,8225 20,25
1991 18 1,63 324 2,6569 29,34
1992 24 2,33 576 5,4289 55,92
1993 22 2,41 484 5,8081 53,02
1994 25 2,63 625 6,9169 65,75
1995 29 2,93 841 8,5849 84,97
1996 30 3,41 900 11,6281 102,30
1997 32 3,26 1.024 10,6276 104,32
1998 35 3,63 1.225 13,1769 127,05
1999 38 4,15 1.444 17,2225 157,70
 268 27,73 7.668 83,8733 800,62
Tab. 28: Hilfsgrößen zur Berechnung des Korrelationskoeffizienten

( xi )  ( yi )
SS xy   xi yi   800,62  268  27,73  57,456
n 10
2 ( xi )
2 2
268 SS xy
SS xx   xi   7.668   485,6 r  57,456  0,99
n 10 SS xx  SS yy 485,6  6,97801
2 ( yi )
2 2
SS yy   yi   83,8733  27,73  6,97801
n 10

Korrelationskoeffizient für die Raucherpräferenzen


cov  X , Y  1, 232
r   0, 21
 (x i  X )2  (y i  Y )2 12, 45  2,76 Prof. Dr. Marc Piazolo 74
Bitte berechnen Sie den
Unternehmung i Jahresumsatz xi (Mio. €) Anzahl Beschäftigte
Korrelationskoeffizienten
1 5 5
2 15 20
3 25 30 Summen
4 28 32 Umsatz = 338
5 35 27 Mitarbeiter = 343
6 36 26 Umsatz² = 13.768
7 41 48 Mitarbeiter² = 14.383
8 45 50 Umsatz * Mitarbeiter = 13.865
9 49 40
10 59 65
Tab. 11: Mittelständler – Umsatz und Beschäftigte r = + 0,92
70

60

50
Anzahl 40
Beschäftigte
30

20

10

0
0 20 40 60 80

Jahresumsatz in Mio. €

Abb. 21: Streudiagramm einer zweidimensionalen Häufigkeitsfunktion


Prof. Dr. Marc Piazolo 75
2.4.5.3 Rangkorrelation nach Spearman
• An n Merkmalsträgern werden die Merkmale X und Y beobachtet; d.h. es liegen
die Merkmalswerte xi und yi für i = 1, 2, ..., n vor. Diesen Werten werden der
Größenordnung nach Ränge r(xi) bzw. r(yi) zugewiesen. Dann ist der
Rangkorrelationskoeffizient nach Spearman gegeben durch
6   di 2
rSP  1 
n  (n2 1)
• Hierbei stellt di die Differenz der Ränge eines i-ten Merkmalsträgers zwischen den
Merkmalen X und Y dar; d.h. di = r(xi) – r(yi).

Professoren Punkte in Punkte in Rang in Rang in


Gruppe A Gruppe B Gruppe A Gruppe B di
A 310 334 2,5 3 -0,5
B 310 359 2,5 2 0,5
C 346 367 1 1 0
D 222 315 4 5 -1
E 201 318 5 4 1
Tab. 29: Rangkorrelation der didaktischen Fähigkeiten

6  (0,5)2  0,52  02  (1)2  12 


rSP  1     0,875
5  (25 1)
Prof. Dr. Marc Piazolo 76
Bitte berechnen Sie den
Unternehmung i Jahresumsatz xi (Mio. €) Anzahl Beschäftigte
Korrelationskoeffizienten
1 5 5
2 15 20
3 25 30 Summen
4 28 32 Umsatz = 338
5 35 27 Mitarbeiter = 343
6 36 26 Umsatz² = 13.768
7 41 48 Mitarbeiter² = 14.383
8 45 50 Umsatz * Mitarbeiter = 13.865
9 49 40
10 59 65
Tab. 11: Mittelständler – Umsatz und Beschäftigte r = + 0,92
70

60 Bitte berechnen Sie den


50 Rangkorrelationskoeffizienten
Anzahl 40
Beschäftigte
30 Summe
20 Rangdifferenzen² = 24
10

0 rSP = + 0,85
0 20 40 60 80

Jahresumsatz in Mio. €

Abb. 21: Streudiagramm einer zweidimensionalen Häufigkeitsfunktion


Prof. Dr. Marc Piazolo 77
Y metrisch ordinal nominal
X
Kovarianz
metrisch Bravais-Pearson
Korrelations-
koeffizient
ordinal Rangkorrelation
nach Spearman

nominal Kontingenz-
koeffizient

In Anlehnung an Bamberg et al. 2007, S. 36


Abb. 39: Zusammenhangsmaße und Datenqualität (metrisch, ordinal und nominal skalierte Merkmale)

Prof. Dr. Marc Piazolo 78


Zusammenfassung:
Den Zusammenhang zweier Merkmale messen wir mit Hilfe statistischer Parameter.
Die Qualität der Datenreihen (metrisch, ordinal, nominal) bestimmt nicht nur die
Wahl des verwendbaren Zusammenhangsmaßes, sondern auch die Interpretations-
tiefe des Zusammenhangs. Die Kovarianz und der Korrelationskoeffizient nach
Bravais-Pearson setzen metrisch skalierte Merkmale voraus. Die Stärke des positiven
bzw. negativen Zusammenhangs lässt sich mit dem Korrelationskoeffizienten
bestimmen.

Sobald ein Merkmal „nur“ ordinal skaliert ist, greifen wir auf den
Rangkorrelationskoeffizienten nach Spearman zurück.

Nominal skalierte Merkmale überprüfen wir auf Unabhängigkeit. Der Kontingenzkoef-


fizient fließt dabei in einen Unabhängigkeitstest (Hypothesentest) ein, den wir Ihnen
in Kapitel 4.3.5 vorstellen. Die Korrelation zweier Merkmale sagt jedoch noch lange
nichts über deren kausale Abhängigkeiten aus. Korrelationen sind daher theoretisch
zur begründen, bevor wir sie als empirischen Beleg für Kausalzusammenhänge
heranziehen.
Prof. Dr. Marc Piazolo 79
2.4.6 Einfache lineare Regressionsanalyse

Die Bestimmung derartiger Funktionen zur Beschreibung der Form des


(durchschnittlichen) Zusammenwirkens von Merkmalen ist Gegenstand der
Regressionsanalyse.

800

600
Zahl der Betriebe

400

200

0
0 200 400 600 800 1.000 1.200

Umsatz in Mio. DM (1999)

Abb. 40: Die größten Unternehmen der Gastronomie in Deutschland (1999)

Prof. Dr. Marc Piazolo 80


2.4.6.1 Bestimmung einer optimalen Regressionsfunktion
Streudiagramm und stochastisches Regressionsmodell
Monat Werbeausgaben x Geschäftsumsatz y
(in 1.000 EUR) (in 10.000 EUR)
1 1 1
2 2 1
3 3 2
4 4 2
5 5 4
Tab. 32: Werbeausgaben und Umsatz eines Haushaltswarengeschäftes

Werbeausgaben Umsatz
y  1  x ( yi  y )
x y (yi – y )2
1 1 0 (1 – 0) = 1 1
2 1 1 (1 – 1) = 0 0
3 2 2 (2 – 2) = 0 0
4 2 3 (2 – 3) = -1 1
5 4 4 (4 – 4) = 0 0
0 SSE = 2
Tab. 33: Vergleich der Beobachtungswerte mit den Schätzwerten der augenscheinlichen Funktion

Prof. Dr. Marc Piazolo 81


5

Umsat z in 10.000 EUR


4
3
2
1
4 0
0 1 2 3 4 5 6
Werbeausgaben in 1.000 EUR
Abb. 41: Streudiagramm für Werbeaufgaben (X) und Umsatz eines Haushaltswarengeschäfts (Y)
Umsatz in 10.000 EUR

5
4
3 ~y  1  x
2
1
0
-1
0 1 2 3 4 5 6
Werbeausgaben in 1.000 EUR

Abb. 42: Augenscheinlich festgestellte lineare Regressionsfunktion

Prof. Dr. Marc Piazolo 82


Methode der kleinsten Quadrate

• Weil die Summe der Fehlerquadrate minimiert werden soll, wird die Methode zur
Bestimmung der optimalen linearen Regressionsfunktion als Methode der
kleinsten Quadrate bzw. KQ-Methode bezeichnet.
y1  0  1  x1  1

yn  0  1  xn   n

• wobei
y = die abhängige Variable
x = die unabhängige Variable
 i = der Fehlerterm bzw. das Residuum
0 = der Schnittpunkt mit der y-Achse bzw. der Absolutwert
1 = die Steigung der linearen Funktion bzw. der Koeffizient der unabhängigen
Variablen x

Prof. Dr. Marc Piazolo 83


1 x y
ˆ1 
 i i n  i  i  SSxy
x  y 

 
2 SS xx
2 1
Die Schätzwerte für die Koeffizienten lauten: i ni
x  x

ˆ0  1  yi  ˆ1  1  xi  Y  ˆ1  X


n n

Werbeausgaben Umsatz
xi yi x i2 xi  yi
1 1 1 1
2 1 4 2
3 2 9 6
4 2 16 8
5 4 25 20
 xi  15  yi  10  xi2  55  xi  yi  37
Tab. 34: Hilfsberechnungen für Werbung und Umsatz eines Haushaltswarengeschäftes

(15 10)
SS xy   xi yi  1 ( xi )( yi )  37  7 ˆ1 
SS xy 7
  0,7
n 5 SS xx 10
(15)2
SS xx   xi2  1 ( xi )2  55   10
n 5 ˆ0  Y  ˆ1  X  10  0,7  15  2  2,1  0,1
5 5

yˆi  ˆ0  ˆ1  xi  0,1  0,7 xi

Prof. Dr. Marc Piazolo 84


5

yˆi  ˆ0  ˆ1  xi  0,1  0,7 xi


Umsatz in 10.000 EUR

0
0 1 2 3 4 5 6
Werbeausgaben in 1.000 EUR

Abb. 43: Umsatz und Werbeausgaben eines Haushaltwarengeschäftes inkl. KQ-Trendgerade


Werbeausgaben Umsatz
x y yˆ  0,1  0,7  x ( yi  yˆ ) (yi – ŷ)2
1 1 0,6 (1 – 0,6) = 0,4 0,16
2 1 1,3 (1 – 1,3) = -0,3 0,09
3 2 2,0 (2 – 2,0) = 0,0 0,00
4 2 2,7 (2 – 2,7) = -0,7 0,49
5 4 3,4 (4 – 3,4) = 0,6 0,36
0 SSE = 1,10

Tab. 35: Berechnung der Summe der Fehlerquadrate (SSE) auf Grundlage der KQ-Geraden

Regressionsgerade auf Basis der KQ-Methode läuft nur durch den


Beobachtungswert (3,2); trotzdem ist die Summe der Fehlerquadrate (SSE)
mit 1,1 deutlich geringer als die der y -Funktion (SSE = 2).

Regressionsmodell in seiner allgemeinen Form: y  0  1  x  

Prof. Dr. Marc Piazolo 86


Bitte berechnen Sie den
Unternehmung i Jahresumsatz xi (Mio. €) Anzahl Beschäftigte
Korrelationskoeffizienten
1 5 5
2 15 20
3 25 30 Summen
4 28 32 Umsatz = 338
5 35 27 Mitarbeiter = 343
6 36 26 Umsatz² = 13.768
7 41 48 Mitarbeiter² = 14.383
8 45 50 Umsatz * Mitarbeiter = 13.865
9 49 40
10 59 65
Tab. 11: Mittelständler – Umsatz und Beschäftigte r = + 0,917
70
Y = 0,8677x + 4,0395
Jahresumsatz in Mio. EUR (Y)

60
R² = 0,841
50

40 Berechnen Sie das einfache


Regressionsmodell.
30

20 … oder nutzen Sie die


10 Excel-Funktion dafür.
0
0 10 20 30 40 50 60 70
Anzahl Beschäftigte (X)

Prof. Dr. Marc Piazolo 87


Modellannahmen
(1) Mittelwert der Wahrscheinlichkeitsverteilung des Fehlerterms = Null
(2) Die Varianz des Fehlerterms ist konstant (unabhängig von X)
(3) Die Wahrscheinlichkeitsverteilung des Fehlerterms ist symmetrisch und normal (Abb. 44)
(4) Die einzelnen Fehlerterme sind unabhängig voneinander.

Abb. 44: Die Wahrscheinlichkeitsverteilung der Zufallsfehler 


Die eingezeichnete Gerade stellt die Linie der arithmetischen Mittel der y-Variablen
dar.
Schätzer für die Varianz ²

Da wir zwei Freiheitsgrade für die Schätzung des Absolutwertes und der Steigung
benötigen, bleiben (n – 2) Freiheitsgrade übrig. Schätzer von ²:
s 2  SSE
n2

SSE  ( y  yˆ )  SS  ˆ  SS
2
i i yy 1 xy Prof. Dr. Marc Piazolo 88
2.4.6.2 Qualität der Regressionsfunktion

Qualitätsmerkmale einer Regression

Korrelation t-Test F-Test


(Regressionsmodell) (Regressionskoeffizienten) (Regressionsmodell)
bei multipler Regression

Bestimmtheitsmaß

Korrelationskoeffizient
nach Bravais-Pearson

Prof. Dr. Marc Piazolo 89


2.4.6.2. Qualität der Regressionsfunktion

I. t-Test für den Regressionskoeffizienten ˆ1  1


t
Errechnet sich als sˆ
1

t  t 2
ˆ1  0 ˆ1 0,7
Teststatistik: t  
s
  3,7 Ablehnungsbereich: oder
sˆ 0,19 t  t 2
1 SS xx

sˆ  s 
0,61
 0,19 SSE 1,1
s2    0,367
1 SS xx 10 n2 3

II. Bestimmtheitsmaß – R²: Güte des gesamten Modells.


Um die Qualität der Prognose zu messen, bilden wir die uns schon bekannte Summe
der quadrierten Abweichungen von diesem Schätzwert für y:

SS yy   ( yi  Y )2   yi 2  1  ( yi )2 SSE   ( yi  yˆi )  SS yy  ˆ1  SS xy


2
n
2 SSE  6  0,7  7  1,1
SS yy  26  10  6
5
Prof. Dr. Marc Piazolo 90
a) Streudiagramm der Beobachtungswerte b) Unabhängige Variable X enthält keine
Informationen in Bezug auf Y, d. h. ŷ  Y
y y

x
x

c) Variable X enthält Informationen in Bezug auf Y, d.h. ŷ  ˆ0  ˆ1  x


y

Abb. 45: Der Informationsgehalt der unabhängigen x-Variablen in Bezug auf Y

Prof. Dr. Marc Piazolo 91


SSE   ( yi  yˆi )  SS yy  ˆ1  SS xy
2

SS yy   ( yi  Y )2   ( yi  yˆi )2  SSE

Wir ziehen von der Gesamtvariation der y-Werte um ihr arithmetisches Mittel (SSyy)
die, unter Berücksichtigung der Informationen der x-Variablen, übrig bleibende und
somit unerklärte Variation (SSE) ab. Diese Differenz stellen wir als Anteil an der
Gesamtvariation dar. Folglich repräsentiert der Term im Zähler die aufgrund des
Regressionsmodells erklärte Stichprobenvariation.

SS yy  SSE
R2   1  SSE
SS yy SS yy

Die Teststatistik enthält den Korrelationskoeffizienten der Stichprobe r; sie ist mit n –
2 Freiheitsgraden Student-t-verteilt.

t  r
2 1 r 2
n2
III. Korrelationskoeffizient
r  R2 Prof. Dr. Marc Piazolo 92
Anwendungsbeispiel der Regressionsanalyse I

Entfernung zur Brandschaden Entfernung zur Brandschaden


Feuerwache y Feuerwache y
x (in km) (1.000 EUR) x (in km) (1.000 EUR)
3,4 26,2 2,6 19,6
1,8 17,8 4,3 31,3
4,6 31,3 2,1 24,0
2,3 23,1 1,1 17,3
3,1 27,5 6,1 43,2
5,5 36,0 4,8 36,4
0,7 14,1 3,8 26,1
3,0 22,3
Tab. 36: Brandschäden im letzten Jahr

Schritt 1:
Visualisierung
der Daten

Abb. 46: Brandschaden und Entfernung zur nächsten Feuerwache


93
Anwendungsbeispiel der Regressionsanalyse II
Schritt 2:
• Wir formulieren ein Regressionsmodell und legen dabei fest, welches die
abhängige und welches die unabhängige Variable ist.
y  0  1  x  
Schritt 3:

• Anhand des Datenmaterials der Stichprobe von 15 Schadensfällen des letzten


Jahres können wir die unbekannten Regressionsparameter mithilfe der Methode
der kleinsten Quadrate schätzen.
2
SS xx   xi2  1  ( xi )2  196,16  49,2  34,784
n 15
2
SS yy   yi2  1  ( yi )2  11.376,48  396,2  911,5173334
n 15
SS xy   xi  yi  1  ( xi )  ( yi )  1.470,65  49,2  396,2  171,114
n 15
SS xy 171,114
ˆ1    4,919331
SS xx 34,784
ˆ0  Y  ˆ1  X  396,2  4,919331 49,2  10,277927
15 15

yˆ  10,278  4,919  x
Prof. Dr. Marc Piazolo 94
Anwendungsbeispiel der Regressionsanalyse III
Schritt 4:
• Wir gehen der Einfachheit halber davon aus, dass die Annahmen bzgl. des Fehlerterms 
immer gelten. Infolgedessen können wir die Varianz bzw. die Standardabweichung der
Residuen aus der Stichprobe berechnen.
SSE   ( yi  yˆi )2  SS yy  ˆ1  SS xy s 2  SSE  69,750929  5,3655
n2 13
SSE  911,517334  4,919331171,114  69,750929 s  2,32
Schritt 5:
• Mithilfe der geschätzten Standardabweichung können wir nun die Güte des
Regressionsmodells bestimmen.

ˆ1  0 ˆ1 4,919


t    12,5 > t/2-Wert von 3,012 aus Tabelle 9
sˆ s SS xx 2,32 34,784
1

SS xy 171,114
r   0,96
SS xx  SS yy 34,784  911,517
R 2  (r )2  0,92

Schritt 6:
• Aufgrund der guten Qualität unseres Regressionsmodells wollen wir es für
Prognosezwecke einsetzen. Z.B. durchschnittlicher Brandschaden für ein Haus,
das 3,5 km von der nächsten Feuerwache entfernt steht.

yˆ  ˆ0  ˆ1  x p  10,278  (4,919  3,5)  27,5 (in tausend Euro)


95
Zusammenfassend sollten Sie bei der Anwendung eines Regressionsmodells folgende
Einschränkungen beachten:
• Ein y-Wert kann nicht korrekt geschätzt (prognostiziert) werden, wenn der xp-Wert
außerhalb der Spannweite der Werte liegt, die als Grundlage für die
Regressionsfunktion gedient haben;
• eine Prognose oder ein Konfidenzintervall beruht auf der Annahme, dass die
Verteilungen von Y – d.h. auch diejenigen der Residuen – normalverteilt sind und
konstante Varianzen haben;
• je größer die Stichprobe ist, desto genauer fallen die Prognosen aus;
• ein signifikanter Korrelationskoeffizient sagt noch nicht unbedingt etwas über die
Kausalität zwischen X und Y aus;
• bisher haben wir der Einfachheit halber unterstellt, dass der Zusammenhang
zwischen den beiden Variablen linear sei. Diese Einschränkung wollen wir im
Anschluss an die Kontrollaufgaben aufheben.

Prof. Dr. Marc Piazolo 96


2.4.7 Einfache nichtlineare Regressionsanalyse
2.4.7.1 Homogene Potenzfunktion
Potenzfunktion: y  0  x 1

In eine lineare Schreibweise transformieren: log( y)  log(0 )  1  log( x)

Gefundene lineare Schreibweise: y*  0*  1  x*


Preis EUR/kg Absatzmenge (Laib)
i xi yi
1 3,0 800
2 3,2 760
3 3,6 600
4 4,0 430
5 4,6 330
6 5,0 250
Tab. 39: Preis je kg Brot und Absatzmenge

Prof. Dr. Marc Piazolo 97


Abb. 47: Streudiagramm der Absatzmenge und des Preises von Vollkornbrot

Preis 2
Absatzmenge
i xi x  log( xi )
*
i
x  log( xi ) 
*2
i yi yi*  log( yi ) xi*  yi*

1 3,0 0,4771 0,2276 800 2,9031 1,3851


2 3,2 0,5051 0,2551 760 2,8808 1,4551
3 3,6 0,5563 0,3095 600 2,7782 1,5455
4 4,0 0,6021 0,3625 430 2,6335 1,5856
5 4,6 0,6628 0,4393 330 2,5185 1,6693
6 5,0 0,6990 0,4886 250 2,3979 1,6761
 3,5024 2,0826 16,1120 9,3167
Tab. 40: Arbeitstabelle für die Absatzmengen und Preise

Prof. Dr. Marc Piazolo 98


Quelle: Kobelt/Steinhausen 2006, S. 117.
Abb. 48: Homogene Potenzfunktion in der Preis-Absatz-Darstellung

Prof. Dr. Marc Piazolo 99


2.4.7.2 Logarithmische und andere Funktionen

Quelle: Vgl. Cremers 1998, S. 52


Abb. 49: CD-Absatz und Bruttomonatseinkommen (Durchschnittswerte)

Prof. Dr. Marc Piazolo 100


Exponentialfunktion
5 5

4 4
Umsatz in 10.000 EUR

Umsatz in 10.000 EUR


y = 0,6156e0,3466x y = 0,7x - 0,1
R² = 0,8929 R² = 0,8167
3 3

2 2

1 1

0 0
0 1 2 3 4 5 6 0 1 2 3 4 5 6
Werbeausgaben in 1.000 EUR Werbeausgaben in 1.000 EUR

Abb. 50: Geschäftsumsatz und Werbeausgaben – (nicht-)lineare Regressionsmodelle


Quelle: Cremers 1998, S. 51
Tab. 42: Transformationsmöglichkeiten nichtlinearer Funktionen

Prof. Dr. Marc Piazolo 102


2.4.8 Excel-Anwendungen in der Korrelations-
und Regressionsanalyse
Multiple Regressionsmodelle
Yi   0  1  X 1   2  X 2   n  X n   i
bzw.
Yˆ  ˆ0  ˆ1  X 1  ˆ2  X 2   ˆn  X n

IV. F-Test bei multipler Regressionsfunktion


H 0 : 1  2   k  0
H1 : zumindest ein i  0

Teststatistik: ( SS yy  SSE ) / k R2 / k
F 
SSE /  n   k  1  1  R 2  /  n   k  1 

mit Freiheitsgrad des Zählers von k und Freiheitsgrad des Nenners von [n-(k+1)]

Ablehnungsbereich: F  F bzw. F-kritisch kleiner als 0,1


(10%-Irrtumswahrscheinlichkeit; α)

Prof. Dr. Marc Piazolo 103


2.4.8 Excel-Anwendungen in der Korrelations-
und Regressionsanalyse

Multiple Regressionsmodelle

Yi   0  1  X 1   2  X 2   n  X n   i
bzw.
Yˆ  ˆ0  ˆ1  X 1  ˆ2  X 2   ˆn  X n

Multipler Korrelationskoeffizient 0,85


Bestimmtheitsmaß 0,73
Beobachtungen 18
Prüfgröße F
20,3

Koeffizienten Standardfehler t-Statistik


Schnittpunkt 6,84 6,72 1,01
Tore 0,71 0,19 3,83
Jahresbudget in Mio. EUR 0,14 0,17 0,81
Tab. 44: Bestimmungsgründe für Bundesligapunkte zum Saisonabschluss 2008/2009

Prof. Dr. Marc Piazolo 104


Prof. Dr. Marc Piazolo

Regressionsanalyse zum Studienerfolg der


Absolventen des FB BW 2004
Regressions-Statistik
Multipler Korrelationskoeffizient 0,88
Bestimmtheitsmaß 0,77
Beobachtungen 119

Prüfgröße (F) F k rit


40,82 5,9659E-31

Koeffizienten Standardfehler t-Statistik


Schnittpunkt 0,81 0,19 4,27
Frau 0,03 0,05 0,61
Diplomarbeitsnote 0,39 0,04 10,86
VWL-Note 0,09 0,03 3,41
Studiendauer 0,03 0,02 1,43
Prüfungsordnung 1995 0,17 0,06 2,79
Saarländer -0,01 0,05 -0,29
Studiengang Winfo -0,17 0,05 -3,40
Hiwi/Ausland -0,06 0,06 -0,99
Statistiknote 0,06 0,02 2,54

105
Zusammenfassung:

Die funktionale Form des Zusammenhangs zweier Merkmale können wir über die
Berechnung eines einfachen Regressionsmodells auf Grundlage der Methode der
kleinsten Quadrate feststellen. Die KQ-Methode minimiert die Fehlerquadrate und
ermittelt die optimale lineare Regressionsfunktion. Die Qualität des Regressions-
modells halten wir anhand des Bestimmtheitsmaßes (R²) sowie der t-Statistik des
Koeffizienten fest. Falls das einfache Streudiagramm auf einen nichtlinearen
Zusammenhang hinweist, dann müssen wir die X und/oder die Y-Variable
transformieren, bevor wir die KQ-Methode anwenden. Um zu testen, ob mehrere
unabhängige Variablen die abhängige Größe (signifikant) beeinflussen, verwenden
wir das multiple Regressionsmodell. Excel unterstützt uns dabei mit seinen Analyse-
Funktionen. Welche der verschiedenen Variablen als Abhängige gewählt wird, muss
uns (theoretisch) plausibel erscheinen. Ein einfaches „Drauflosberechnen“ ist
unseriös.

Prof. Dr. Marc Piazolo 106


3. Wahrscheinlichkeitsrechnung und –verteilungen
3.1 Grundlagen der Wahrscheinlichkeitsrechnung
• Die Wahrscheinlichkeitsrechnung versucht den Einfluss des Zufalls auf bestimmte
Vorgänge zu erfassen. Sie beschreibt und bestimmt Vorgänge in Wirtschaft,
Technik und Natur, die vom Zufall abhängen oder zumindest vom Zufall beeinflusst
werden. Einen vom Zufall abhängigen bzw. stochastischen Vorgang wollen wir
anhand eines mathematischen Modells beschreiben.

• Das Wesen eines stochastischen Vorgangs liegt somit in der Ungewissheit des
Ergebnisses bis zu seiner konkreten Realisierung. Den Versuch, den ihr
Kommilitone unternimmt, bezeichnet man als Zufallsexperiment, da dessen
Ergebnis – in diesem Fall das Ziehen einer roten oder schwarzen Spielkarte – vom
Zufall abhängt.

• Gesamtheit aller möglichen unterscheidbaren Ergebnisse x1, x2, x3, ... , xn eines
Zufallsexperiments als endliche oder unendliche Menge für n  
   x1, x2 , x3 , , xn 

107
3.1.1 Wahrscheinlichkeitsdefinitionen

• Klassische Ansatz: Laplace-Wahrscheinlichkeit des Ereignisses A ergibt sich durch


Anzahlder ElementederMenge A A
W ( A)  
Anzahlder Elementeder Menge  

• Statistische Ansatz: nimmt Bezug auf relative Häufigkeit eines Ereignisses


Anzahldergünstigen Ereignisse A n( A)
W ( A)  
Stichprobengröße n
hn ( A)
W ( A)  nlim
 n

• Subjektive Ansatz: macht auf eine Schwäche der bisherigen Wahrscheinlichkeiten


aufmerksam. Sowohl der klassische als auch der statistische Ansatz suggerieren
aufgrund ihrer formal exakten Definition eine objektive Präzision.
-> es liegen jedoch zufallsabhängige Phänomene vor.

Prof. Dr. Marc Piazolo 108


3.1.2 Grundregeln der Wahrscheinlichkeitsrechnung

• Jede Wahrscheinlichkeit kann nur Werte zwischen Null und Eins annehmen
0  W ( A)  1

Schmidt u.a. 1988, S. 69


Abb. 51: Konjunktion

Abb. 52: Disjunktion

Abb. 53: Negation


Prof. Dr. Marc Piazolo 109
• Lehrsatz 1 (Additionssatz für sich ausschließende Ereignisse)
W( A  B )  W( A ) W( B )

• Lehrsatz 2
Abb. 11 W ( A)  1  W ( A) W ( A  A)  W ( A)  W ( A)  1  W ()

A
A

Abb. 54: Venn-Diagramm für sich ausschließende Ereignisse

Prof. Dr. Marc Piazolo 110


• Lehrsatz 3 (allgemeinen Additionssatz der Wahrscheinlichkeitsrechnung)
Abb . 12
W( A  B )  W( A ) W( B ) W( A  B )

A B A B


A  B A  B

Abb. 55: Allgemeiner Additionssatz für zwei sich nicht gegenseitig ausschließende Ereignisse

Wenn es keine Schnittmenge gibt, d.h. W(AB) = 0, dann folgt daraus automatisch,
dass W(AB) = W(A) + W(B).
• Lehrsatz 4 W( D )  W( B  A )  W( B ) W( A  B )

W( A  B )
• Lehrsatz 5 W( A B )  Bedingte Wahrscheinlichkeit
W( B )
Kaufinteresse (K) W( K  F )
W( K F )  ?
vorhanden nicht vorhanden W( F )
vorhanden 0,2 0,1
Finanzmittel (F)
Nicht vorhanden 0,4 0,3 W( K F )  0,2  0,67
0,3
Tab. 45: Wahrscheinlichkeiten eines Immobilienkunden
111
• Lehrsatz 6 (Gemeinsame Auftreten der Ereignisse A und B möglich.)
W( A B )  W( A B )
Wenn Ereignisse A und B voneinander stochastisch unabhängig W( A B )  W( A )

• Lehrsatz 7 (Multiplikationssatz der Wahrscheinlichkeitsrechnung bei Unabhän-


gigkeit der Ereignisse. Wahrscheinlichkeit, dass sowohl das Ereignis A als auch das
Ereignis B eintreten.)
W( A  B )  W( A ) W( B )

• Lehrsatz 8 (Allgemeinen Multiplikationssatz der Wahrscheinlichkeitsrechnung.)


W( A  B )  W( A ) W( B A ) bzw. W( A  B )  W( B ) W( A B )

• Lehrsatz 9 (Lehrsatz der totalen Wahrscheinlichkeit.)


A1  A2   An   mit Ai  Aj  
Ereignis B als Teilmenge von: B  ( A1  B)  ( A2  B)   ( An  B)
W ( B)  W ( A1  B)  W ( A2  B)   W ( An  B) W ( Ai  B)  W ( Ai ) W ( B Ai ) für i  1,2, , n
n
W( B )  W( A ) W( B A )
i 1
i i
112
Lehrsatz 10 (Bayessches Theorem )
W( Aj  B )
Für die bedingte Wahrscheinlichkeit W( Aj B ) 
W( B )
Für W(AjB) im Zähler
W( Aj  B )  W( Aj ) W( B Aj )

W( Aj ) W( B Aj )
W( Aj B )  mit j=1,2,...., n
W( A ) W( B A )
i j

Wahrscheinlichkeit für das Eintreffen des Ereignisses Aj, wenn bereits bekannt ist,
dass zuvor Ereignis B eingetreten ist. Wichtiger Spezialfall ergibt sich für den Fall,
dass die relevante Zerlegung des Ergebnisraumes nur aus den Ereignissen A und A
besteht.

Prof. Dr. Marc Piazolo 113


3.2 Wahrscheinlichkeitsverteilungen
für diskrete Zufallsvariablen
3.2.1 Was ist eine Zufallsvariable?
Eine Zufallsvariable ist ein numerisches Ergebnis, dessen Wert durch einen Zufalls
prozess bestimmt wird. Wir kennzeichnen die Zufallsvariablen mit Großbuchstaben,
die Werte der Zufallsvariablen hingegen mit indizierten Kleinbuchstaben. Eine
Zufallsvariable X lässt sich somit allgemein darstellen als X={x1, x2, ..., xn}.
Zwei Arten: diskrete und stetige Zufallsvariable.

Linker Scheinwerfer
L L 
Rechter Scheinwerfer R 0,81 0,09 0,90
R 0,09 0,01 0,10
 0,90 0,10 1,00

Quelle: Kobelt/Steinhausen 2006, S. 195


Tab. 46: Eintrittswahrscheinlichkeiten für Zufallsvariable X (Scheinwerferbirne)

Prof. Dr. Marc Piazolo 114


Die Verteilungsfunktion F(xj) gibt hierbei an, wie groß die Wahrscheinlichkeit ist, dass
Werte der Zufallsvariablen auftreten, die kleiner sind als xj oder höchstens so groß wie
xj. Somit können wir dafür schreiben W(X xj) = F(xj). Zur Ermittlung der Werte der
Verteilungsfunktion werden alle Eintrittswahrscheinlichkeiten nach dem Additionssatz
bei Ausschließlichkeit bis zu derjenigen für den Wert xj aufaddiert.

Zufallsvariable X: „Anzahl defekter Scheinwerfer“


j xj f(xj) F(xj)
1 0 0,81 0,81
2 1 0,18 0,99
3 2 0,01 1,00
 1,00
Quelle: Kobelt/Steinhausen 2006, S. 195
Tab. 47: Wahrscheinlichkeits- und Verteilungsfunktion
x0
Verteilungsfunktion F(x0): F ( x0 )  W ( X  x0 ) 

 f (x)dx
d F ( x)
Dichtefunktion aus der Differentiation: f ( x) 
dx

Prof. Dr. Marc Piazolo 115


3.2.2 Parameter der Verteilung
einer diskreten Zufallsvariablen
n
• Erwartungswert oder (langfristige) Mittelwert E( X )   x  f (x )  
i 1
i i

E ( X )  x1  f ( x1)  x2  f ( x2 )  x3  f ( x3 )
E ( X )  0  0,81  1 0,18  2  0,01  0,2 (Scheinwerferbeispiel)

• Als Streuungsparameter dienen Varianz und Standardabweichung der Funktionen


einer Zufallsvariable.
• Varianz V(X) bzw. ² ist ein Maß für die Kompaktheit der Funktionen der
Zufallsvariablen, in dem sie die durchschnittliche quadrierte Abweichung der
Funktionswerte xi der Zufallsvariablen von deren E(X) errechnet.
• Standardabweichung  ergibt sich als Quadratwurzel der Varianz.
n
V (X )   ( xi  E ( X ))2  f ( xi )   2
Bitte berechnen Sie die Varianz und Standardabweichung
i 1 V ( X )  (0  0, 2)²  0,81  (1  0, 2)²  0,18  (2  0, 2)²  0, 01  0,18
V (X )  E ( xi2 )  [ E ( X )2 ]   2
  0,18  0, 42
und
0, 42
  V (X ) CV   100  210%
0, 2
Prof. Dr. Marc Piazolo 116
Wahrscheinlichkeitsverteilungen

Diskrete Zufallsvariablen Stetige Zufallsvariablen

Binominalverteilung Gleichverteilung

Hypergeometrische Verteilung Normalverteilung

Poissonverteilung Standardnormalverteilung

Exponentialverteilung

Prof. Dr. Marc Piazolo 117


3.2.3 Binomialverteilung

Eine diskrete Wahrscheinlichkeitsverteilung, die als Modell für Entscheidungs-


situationen, in denen die Stichprobenziehung nach einem Bernoulli-Prozess verläuft,
eingesetzt werden kann.
Binominalverteilung wird anhand der Parameter  und n eindeutig festgelegt:
n n x  n n!
W ( X  x)      (1  )
x
wobei   
 x  x x! (n  x)!
x n
W (X 
 x)    v  (1  )nv
v 0  x 

Parameter der Lage und der Streuung: Erwartungswert, Varianz, Standardabweichung:


E( X )    n   Die Wahrscheinlichkeit, dass ein zufällig ausgewählter
potenzieller Kunde eine Lebensversicherung abschließt, beträgt
V ( X )   2  n    (1  ) 20%. Ein Außendienstmitarbeiter besucht sechs Kunden. Wie
und hoch ist die Wahrscheinlichkeit, dass
  n    (1  ) … er genau vier Abschlüsse tätigt?
… er bis zu vier Abschlüsse tätigt?
Ziehen mit Zurücklegen … er mehr als vier Abschlüsse tätigt?
Prof. Dr. Marc Piazolo 118
3.2.4 Hypergeometrische Verteilung

Die Hypergeometrische Verteilung ist diskret, und der endliche Ereignisraum, der dem
Zufallsexperiment zugrunde liegt, enthält nur 2 sich ausschließende Zufallsereignisse.
Anhand der Größen N, M und n eindeutig festgelegt:
Ziehen ohne Zurücklegen
M  N M 
  
 x   n  x  M  M!
W (X  x)  wobei   
N x  x! (M  x)!
 
n 

M  N M  Drei von sechs Angestellten arbeiten seit fünf Jahren oder länger
  
x v  n  v  in der Volksbank Einöd. Vier Angestellte werden zufällig
   
W (X  x) 
v 0
 N ausgewählt. Wie hoch ist die Wahrscheinlichkeit, dass
 
n 
… genau zwei Angestellte seit fünf Jahren oder mehr dabei sind?
  … bis zu zwei Angestellte seit fünf Jahren oder mehr dabei sind?
E ( X )    n   M 
N  … keine Angestellte seit fünf Jahren oder mehr dabei ist?

V ( X )   2  n   M   1  M   N  n
   
N   N  N 1
und

  n   M   1  M   N  n
   
 N   N  N 1
Prof. Dr. Marc Piazolo 119
3.2.5 Poissonverteilung

Die Zufallsvariable ist diskret, und in dem Ereignisraum des zugrunde liegenden
Experimentes existieren nur zwei sich ausschließende Zufallsereignisse. Im Gegensatz
zum Bernoulli-Prozess treten die Ereignisse in einem Kontinuum (z.B. Zeitintervall) ein
und es gibt keine einzelnen Versuche.

W ( X  x)    e
x
wobei e  2,7183
x!
W ( X  x)  
x
 v
 e 

v 0 v!

Die Parameter der Lage und der Streuung – der Erwartungswert, die Varianz und die
Standardabweichung – ergeben sich aus :
E( X )     Die Reparaturabteilung von Saturn erhält im Schnitt fünf Service-
anfragen pro Stunde. Wie hoch ist die Wahrscheinlichkeit, dass in
V ( X )   2   und    einer zufällig ausgewählten Stunde

… genau drei Anrufe eingehen?


Seltene Ereignisse … bis zu drei Anrufe eingehen?

Prof. Dr. Marc Piazolo 120


3.3 Wahrscheinlichkeitsverteilungen
für stetige Zufallsvariablen
3.3.1 Gleichverteilung
Gleichverteilung: Modell einer Zufallsvariablen, die sich innerhalb eines bestimmten
Intervalls gleichmäßig verteilt. Es liegen somit keinerlei Häufungen (Cluster) an
bestimmten Werten der Zufallsvariablen vor.
Dichtefunktion f(x) und deren Parameter:
f ( x)  1 (c  x  d ) Das Walzwerk der Dillinger Hütte (Saarland) produziert Stahlblech
d c
für die Ford-Werke Dillingen. Die Stärke der Stahlbleche liegt
  cd zwischen 150 mm – 175 mm und ist gleichverteilt.
2
 2  (d  c) bzw.   d  c
2

12 12 Ford nimmt Stahlbleche nur in einer Stärke von 150 – 170 mm ab.
Wie hoch ist der Ausschuss des Walzwerkes (Anteil in %)?

f(x)

1/(d-c)

c d x

Abb. 56: Gleichverteilung 121


3.3.2 Normalverteilung

Stetige Wahrscheinlichkeitsverteilung, die sowohl symmetrisch als auch normalgipflig


ist. Weist daraufhin, dass Dichtefunktion einer normalverteilten Zufallsvariablen X
weder flach noch spitz verläuft, sondern glockenförmig. Normalverteilung nimmt eine
wichtige Stellung in der statistischen Inferenz ein:
(1) Viele Zufallsprozesse sind normalverteilt;
(2) die Normalverteilung eignet sich unter bestimmten Voraussetzungen zur
Approximation anderer Wahrscheinlichkeitsverteilungen;
(3) falls eine große Stichprobe vorliegt, sind die Verteilungen statistischer Parameter,
wie dem Stichprobenmittelwert, normalverteilt – unabhängig davon, wie die
Grundgesamtheit tatsächlich verteilt ist.
2
 
 1  x

f ( x)  f N ( x;  , 2 )  1 e 2  
für    x   und   0
  2
2
x   
 1  x

F ( x)  FN ( x;  , 2 )  1  dv für    x   und   0
 e
2  

  2

Wobei  = 3,1416; e = 2,7183,  der Mittelwert der Verteilung und  die


Standardabweichung der Verteilung ist.
Prof. Dr. Marc Piazolo 122
a) Dichtefunktion
fN (x,=1.000,)

0,025 E( X )  
0,02 V ( X )   2 und    2
0,015

0,01

0,005

900 950 1.000 1.050 1.100 1.150 1.200

b) Verteilungsfunktion
FN(x,=1.000,)

0,5

Quelle: Kobelt/Steinhausen 2006, S. 218


Abb. 51: Normalverteilungen mit
900 950 1.000 1.050 1.100 1.150 1.200 unterschiedlicher Streuung
Prof. Dr. Marc Piazolo 123
Die hohe Bedeutung der Standardnormalverteilung liegt in der Tatsache begründet,
dass jeder x-Wert einer beliebig normalverteilten Zufallsvariablen X mithilfe von
x   in den z-Wert der Standardnormalverteilung transformiert werden kann.
z

Mit einer aufgeladenen Batterie


kann ein E-Bike - laut
Herstellerinformation – im
Schnitt 40 km weit fahren. Die
Standardabweichung beträgt
10 km (normalverteilt).

Wie wahrscheinlich ist es, dass


ein (zufällig) ausgesuchtes E-
x Bike mindestens 55 km weit
 - 3  - 2 -   +  +2  +3 fährt?
z
Wie wahrscheinlich ist es, dass
-3 -2 -1 0 1 2 3
ein E-Bike zwischen 35 km und
45 km weit fährt?
Abb. 52: Standardnormalverteilung – Zusammenhang zwischen x- und z-Werten
Berechnung des z-Wertes Wert in Tabelle 5 Berechnung des z-Wertes Wert in Tabelle 7
0,9332 0,3829

z
x

55  40
 1,50
Gesuchter Anteil z  45  40  0,50 Gesuchter Anteil
 10
1 – 0,9332 = 0,0668
bzw. 6,68 %
Prof. Dr. Marc Piazolo
10 38,29 %
124
3.3.3 Exponentialverteilung

Treten Ereignisse in einem Poisson-Prozess auf, dann folgt der zeitliche oder räumliche
Abstand zwischen aufeinander folgenden Ereignissen einer Exponentialverteilung.
f ( x)    e  x für x  0 F(X) = W (X  x) = 1 – e–x
1 F‘(X) = f(x) = (– )  (–e–x) =   e–x

 2  12 bzw.   1 W = (X > x) = 1 – W(X  x) = e–x
 
f(x)

1,5

0,5

x
0 1 2 3 4
Abb. 59: Exponentialverteilungen 125
Zusammenfassung:

Die Wahrscheinlichkeitsrechnung beschäftigt sich mit Zufallsereignissen; d.h. mit


stochastischen Vorgängen, deren Ergebnisse ungewiss sind und damit dem Zufall
unterliegen. Häufig kennen wir jedoch vor Beginn eines Zufallexperimentes alle
denkbaren Ergebnisse sowie deren Eintrittswahrscheinlichkeiten. In einem ersten
Schritt haben Sie die verschiedenen Lehrsätze der Wahrscheinlichkeitsrechnung
kennen gelernt. In dem zweiten Schritt stellten wir Ihnen die Wahrscheinlichkeits-
verteilungen unterschiedlicher Zufallsvariablen vor. Die Werte einer Zufallsvariablen
werden durch einen Zufallsprozess bestimmt. Unterschieden wird dabei zwischen
diskreten und stetigen Zufallsvariablen. Bei Letzteren ist die Menge der möglichen
Funktionswerte nicht abzählbar. Als Parameter lassen sich für eine Zufallsvariable der
Erwartungswert und die Standardabweichung berechnen. Die Wahrscheinlichkeits-
verteilungen finden Sie in der Tabellensammlung:
(a) diskrete Wahrscheinlichkeitsverteilungen sind die Binominal-, Poisson- sowie die
hypergeometrische Verteilung;
(b) als stetige Zufallsvariablen haben sich die Gleich-, Normal- und
Exponentialverteilung kennen gelernt. Hierbei übernimmt die Standardnormal-
verteilung – später auch Prüfverteilung – eine ganz zentrale Rolle.
126
4. Induktive (schließende) Statistik
4.1 Stichprobenverfahren und Prüfverteilungen

Die Methoden der Induktiven bzw. Schließenden Statistik erlauben es, auf Basis von
Stichproben Informationen über die Grundgesamtheit zu gewinnen; d.h. wir können
aufgrund von Stichproben Rückschlüsse auf bestimmte Eigenschaften der Grundge-
samtheit ziehen. Zwei Verfahrensweisen: Parametertests und Hypothesentests.
Ein Statistiker oft die Aufgabe, Informationen über bestimmte Eigenschaften einer
ganzen Grundgesamtheit zu ermitteln. Methoden zur Ermittlung der Parameter :

(1) Vollerhebungen
Jedes einzelne Element der Grundgesamtheit wird erfasst und mit in die
Untersuchung einbezogen. Dieses Verfahren liefert das exakteste Ergebnis. Als das
bekannteste Beispiel einer Vollerhebung sei hier die Volkszählung genannt.

Prof. Dr. Marc Piazolo 127


(2) Teilerhebungen
Nur eine bestimmte, repräsentative Teilmenge der Grundgesamtheit wird untersucht.
Ergebnisse, welche die Untersuchung aller Stichprobenelemente liefert, können
benutzt werden, um Aussagen über die unbekannten Eigenschaften der Grundgesamt-
heit zu machen. Von den Stichprobenergebnissen wird also auf bestimmte Parameter
der Grundgesamtheit geschlossen. Dieser Schluss von der Stichprobe auf die
Grundgesamtheit wird als Repräsentationsschluss oder indirekter Schluss bezeichnet.

Grundge- Entnahmen Stich- Berechnungen Stichproben-


samtheit parameter
probe

Repräsentationsrückschluss auf den Parameter der


Grundgesamtheit

Abb. 60: Teilerhebung

Prof. Dr. Marc Piazolo 128


Um den Nachteil der Ungenauigkeit des Stichprobenergebnisses gering zu halten,
müssen bei der Durchführung von Untersuchungen auf Stichprobenbasis folgende
Dinge beachtet werden:
(1) Stichprobe muss repräsentativ sein
Auswahlverfahren

Zufallsauswahl Bewusste Auswahl

Einfache Geschichtete Klumpen- Typische Systematische Quoten-


Auswahl Auswahl auswahl Auswahl Auswahl auswahl

Abb. 61: Auswahlverfahren

(2) Auswahl muss so vorgenommen werden, dass ihre Auswertung mit statistisch-
mathematischen Methoden durchgeführt werden kann.

Abb. 62: Stichprobenverfahren

Prof. Dr. Marc Piazolo 129


4.1.1 Die Normalverteilung

(1) Transformationseigenschaft: Zufallsgröße X mit dem Erwartungswert  und der


Varianz  normalverteilt, so kann sie durch die Transformation Z  X  

auf die Standardnormalverteilung zurückgeführt werden.

x
- 3 - 2 -   + +2 +3
z
-3 -2 -1 0 1 2 3

Abb. 63: Normalverteilung – z-Skala und x-Skala

Prof. Dr. Marc Piazolo 130


(2) Reproduktionseigenschaft:
Ist die Grundgesamtheit bzgl. einer Merkmalsausprägung normalverteilt (z.B. die
Körpergröße aller Menschen in Deutschland), so ist auch eine Stichprobe aus
dieser Grundgesamtheit hinsichtlich dieses Merkmals normalverteilt (z.B. die Kör-
pergröße der Einwohner von München).

(3) Approximationseigenschaft:
Manche Zufallsvariablen sind nicht normalverteilt. Allerdings nähert sich deren
Verteilung unter gewissen Prämissen einer Normalverteilung an, d.h. die
Verteilung lässt sich durch eine Normalverteilung approximieren. Aufgrund des
zentralen Grenzwertsatzes nimmt die Stichprobenverteilung des Mittelwertes
oder anderer Stichprobenparameter die Form der Normalverteilung an, wenn die
Stichprobe wächst. Dies gilt unabhängig von der Verteilungsform der
Grundgesamtheit, aus der die Stichprobe stammt.

Prof. Dr. Marc Piazolo 131


4.1.2 Die Chiquadratverteilung (2-Verteilung)

Die Größe X2 ist chiquadratverteilt mit  Freiheitsgraden X 2  X12  X 22  X 32 ...  X2


Spielt im Zusammenhang mit dem Schätzen und Testen von Varianzen eine Rolle.

Anwendung
Intervallschätzung für Varianz
Anpassungstests
Unabhängigkeitstest

Anzahl Freiheitsgrade
 (griechisches n, ausgesprochen "nü")

Abb. 64: Einige Chiquadratverteilungen

132
Abb. 65:  2-Verteilung – kritischer x-Wert

Prof. Dr. Marc Piazolo 133


4.1.3 Die Student-t-Verteilung

Bei Schätzungen und Tests von Mittelwerten gebraucht. Studentverteilte Zufallsgrößen


sind in der Regel Quotienten zweier Zufallsvariablen, wobei eine davon
chiquadratverteilt ist. Kennzeichen der t-Verteilung:
(1) Parameter, der Studentverteilung kennzeichnet, ist die Zahl der Freiheitsgrade ,
welche Anzahl der unabhängigen Zufallsvariablen angibt   n 1
(2) Verlauf der Studentverteilung ähnelt dem der Normalverteilung

fS (x,)

0,4 Anwendung
Signifikanz der
 2 Regressionskoeffizienten
0,3 (Regressionsanalyse)
 1
0,2 Normalverteilung

0,1

x
-2 -1 0 1 2

Abb. 66: Studentverteilung und Normalverteilung 134


4.1.4 Die F-Verteilung

Dient der Überprüfung der Gleichheit zweier Varianzen. Eine F-verteilte Zufallsvariable
Ist ein Quotient aus zwei Zufallsvariablen, wobei BEIDE chiquadratverteilt sind.
X 2  X12  X 22  ...  X n21 X2
v 2 v
Y 2  Y12  Y22  ...  Yn22 F  12  X 2  2
Y Y v1
v2

fF (1=30,2=11)

0,8

Anwendung
0,6 Varianzanalyse
(Mehrstichprobe)
0,4

0,2

z
1 2 2,57 3
Abb. 67: Beispiel einer F-Verteilung
Prof. Dr. Marc Piazolo 135
4.2 Schätzverfahren
4.2.1 Grundlagen
Analoger
Parameter in der
Parameter in Bedeutung dieses Parameters
Stichprobe
der GG
n N Anzahl der Elemente in der jeweiligen Gesamtheit
X  Arithmetisches Mittel des Untersuchungsmerkmals
p  Anteilswert (rel. Häufigkeit) des Untersuchungsmerkmals
s  Standardabweichung der Merkmalsausprägung
Tab. 48: Größenbezeichnung der Parameter

Schätzverfahren

Punktschätzungen Intervallschätzungen

Abb. 68: Schätzverfahren

136
4.2.3 Intervallschätzung für Mittelwerte
Bei einer Intervallschätzung wird ein die Punktschätzung einschließender Bereich
ermittelt, in dem mit „sehr großer“ Wahrscheinlichkeit der Parameter der
Grundgesamtheit liegt. Diesen Bereich bezeichnen wir als Vertrauens- oder auch
Konfidenzintervall.

„Aufgrund des Stichprobenmittelwertes von schließen wir darauf, dass der Mittelwert
der Grundgesamtheit mit einer Wahrscheinlichkeit von 95 % im Bereich zwischen
31,9    36,1 liegt.“

Diese Wahrscheinlichkeit wird als Vertrauenswahrscheinlichkeit oder auch als


Konfidenzniveau bezeichnet. Analog heißt die Wahrscheinlichkeit, dass diese
Prognose falsch ist Irrtumswahrscheinlichkeit oder auch Signifikanzniveau (hier 5 %).
Bei diesen Schätzungen gehen wir in der Regel so vor, dass wir uns ein bestimmtes
Konfidenzniveau vorgeben und danach die Intervallgrenzen berechnen, in denen sich
der Grundgesamtheitsparameter wahrscheinlich bewegt.
Wie berechnen wir dieses Intervall?

Prof. Dr. Marc Piazolo 137


4.2.3.1 Stichprobenverteilung und zentraler
Grenzwertsatz
Wir haben eine Grundgesamtheit der Größe N mit dem Mittelwert  und der Varianz 2.
Daraus ziehen wir eine Stichprobe, indem wir nacheinander n Elemente auswählen.
Bezeichnen wir mit X1 das Ergebnis des ersten Zuges, so ist X1 eine Zufallsvariable die
nach diesem ersten Zug die konkrete Realisation x1 annimmt.
Element Nr.: 1 2 ... i ... n
ergibt als Merkmalswert
x1 x2 ... xi ... xn
die konkrete Realisation
der Zufallsvariablen X1 X2 ... Xi ... Xn
Tab. 49: Bildung von Zufallsvariablen

n
Zufallsvariable, die selbst aus n Zufallsvariablen besteht: X  1 ( X1  X 2  ...  X n )  1  X i
n n i 1

Realisierte Stichprobe mit den Merkmalsausprägungen xi


n
besitzt das arithmetische Mittel: X  1  xi
n i 1

Für den Erwartungswert von X gilt: E( X )  

Für die Standardabweichung von X gilt:  X    NN 1n


n
EKF 138
Interessant ist hier: Ist die Standardabweichung der Grundgesamtheit bekannt, so
kann mit ihr die Standardabweichung der Stichprobenverteilung von X berechnet
werden. Hinweis: Der Wurzelausdruck heißt Endlichkeitskorrekturfaktor (EKF). Durch
seine Verwendung soll beim Ziehen ohne Zurücklegen (wie bei Stichprobe) die
Endlichkeit der Grundgesamtheit berücksichtigt werden. Allerdings können wir den
EKF auch weggelassen, wenn gilt: n  0.05
N

f ( X ,  , )
X

X
- 3 - 2 -   + +2 +3
Z X 

-3 -2 -1 0 1 2 3 X

Abb. 69: Verteilung des arithmetischen Mittels

Prof. Dr. Marc Piazolo 139


4.2.3.2 Intervallschätzungen für Mittelwerte
bei bekannter Varianz 2

Abb. 70: Konfidenzintervall für den Stichprobenmittelwert

Zufallsvariable Z nach X aufgelöst: W (  z   X  X    z   X )  1  


X  linke Grenze: X   1,96   X
Z X    z  X
X rechte Grenze: X    1,96   X

Konfidenzintervall für : X  z  X    X  z  X X    N n
n N 1

W ( X  z  X    X  z  X )  1 
140
Beispiel – Intervallschätzung Mittelwert (σ bekannt)
Im WS 2015/16 waren an der HS KL 6.500 Studierende (= N) eingeschrieben.
Für die Schätzung der Durchschnittsgröße wurde eine Stichprobe gezogen (n = 60).
Diese ergab eine durchschnittliche Körperlänge von 175 cm.

Annahme: Die Standardabweichung der Grundgesamtheit beläuft sich auf 8 cm (= σ).

In welchem Bereich liegt der Mittelwert der Grundgesamtheit (µ), wenn die Irrtumswahrscheinlichkeit
auf ein Prozent (α = 0,01) festgelegt wird?

(1) Berechnung der Standardabweichung des Stichprobenmittelwertes


 N n 8
X     1, 03 EKF kann entfallen
n N 1 60
(2) Ermittlung des z-Wertes aus Tabelle 7

Die Vertrauenswahrscheinlichkeit (1 – α) = 0,99


Den z-Wert findet man beim Flächeninhalt 0,9901: z = 2,58

(3) Intervall zusammensetzen


X  z  X    X  z  X
175  1, 03  2,58    175  1, 03  2,58
W (172,3    177, 7)  0,99

Prof. Dr. Marc Piazolo 141


4.2.3.3 Intervallschätzungen für Mittelwerte
bei unbekannter Varianz 2

(1) Berechnung der Standardabweichung des Stichprobenmittelwertes ˆ


X
Der erste Wurzelausdruck wird Bessel-Korrekturfaktor (BKF) genannt;
Endlichkeitskorrekturfaktor (EKF).

ˆ  s  n  N n ˆ X  ˆ  N  n ˆ X  s  N  n
n 1 N 1 N 1
BKF EKF
n
n N 1

X 
(2) Ermittlung des z-Wertes für 1   = 0,95 Z
ˆ X

(3) Zusammensetzen des Intervalls für  X  z  X    X  z  X

Zufallsvariable einer Stichprobe kann nach dem zentralen Grenzwertsatz dann durch die
Normalverteilung approximiert werden, wenn der Stichprobenumfang n genügend groß ist.
Bei einem Stichprobenumfang n > 30 (Faustregel) kann wieder die Tabelle der Normalverteilung
benutzt werden. Sie müssen dabei die Student-t-Verteilung nur für den Fall kleiner Stichproben
anwenden, bei denen Sie den Standardfehler geschätzt haben (Abbildung 72).
142
Beispiel – Intervallschätzung Mittelwert (σ unbekannt)
Im WS 2015/16 waren an der HS KL 6.500 Studierende (= N) eingeschrieben.
Für die Schätzung der Durchschnittsgröße wurde eine Stichprobe gezogen (n = 20).
Diese ergab eine durchschnittliche Körperlänge von 175 cm bei einer Standardabweichung von 8 cm.

In welchem Bereich liegt der Mittelwert der Grundgesamtheit (µ), wenn die Irrtumswahrscheinlichkeit
auf ein Prozent (α = 0,01) festgelegt wird?

(1) Berechnung der Standardabweichung des Stichprobenmittelwertes


s N n 8
ˆ X     1, 79 EKF kann entfallen
n N 1 20
(2) Ermittlung des z-Wertes aus Tabelle 9 (Student-t-Verteilung)

Die Vertrauenswahrscheinlichkeit (1 – α) = 0,99


Der Freiheitsgrad ѵ = n – 1 = 19
Den z-Wert findet man beim Flächeninhalt 0,990: z = 2,861

(3) Intervall zusammensetzen


X  z  ˆ X    X  z  ˆ X
175  1, 79  2,861    175  1, 79  2,861
W (169,9    180,1)  0,99

Prof. Dr. Marc Piazolo 143


Stichprobe

 der GG bekannt  der GG unbekannt

n  30 n  30

z-Wert in Tabelle der


z-Wert in Tabelle der
Student-t-Verteilung
Normalverteilung
mit
  n 1

Abb. 72: Wahl der Tabelle in Abhängigkeit von der Stichprobengröße

Prof. Dr. Marc Piazolo 144


4.2.4 Intervallschätzungen für Anteilswerte
Zufallsvariable für den Anteilswert, den eine Stichprobe liefert, bezeichnen wir mit P.
(1) Für den Erwartungswert von P gilt: E ( P)  
  (1  ) N  n
(2) Für die Standardabweichung von P gilt:  P  n

N 1

  (1  ) N  n
Damit können wir wieder durch die Transformation Z  P   mit  P  
N 1
P n

die normalverteilte Größe P auf eine Standardnormalverteilung zurückführen.


Analog zu der Mittelwertschätzung benötigen wird diese Größe indirekt zur Ermittlung
des notwendigen Konfidenzintervalls [ p  z  P ; p  z  P ]
Für dieses Intervall gilt wie für das Mittelwertintervall: W ( p  z  P    p  z  P )  1 
Standardfehler als Schätzwert aus dem Stichprobenergebnis ableiten:
ˆ P  p  (1  p)  N  n
n 1 N 1

Schätzung des Standardfehlers aus dem Stichprobenergebnis ist die Zufallsvariable:

p
Z
ˆ P
Prof. Dr. Marc Piazolo 145
Beispiel – Intervallschätzung Anteilswert
Für die Bevölkerung der Stadt Homburg (Saar) mit 26.000 Haushalten soll der Anteil der Haushalte
mit mehr als einem PKW geschätzt werden.
Dazu wird eine Stichprobe von 100 Haushalten erhoben.
40 Haushalte sind im Besitz von mehr als einem Fahrzeug.

Bestimmen Sie das 95%-Konfidenzintervall für den Anteil θ der Haushalte, die mehr als einen PKW
besitzen.

(1) Berechnung der Standardabweichung des Stichprobenanteilswertes


40
p  0, 4
100
p  (1  p) 0, 4  0, 6
ˆ p    0, 0492 EKF kann entfallen
n 1 99
(2) Ermittlung des z-Wertes aus Tabelle 7 (Normalverteilung)

Die Vertrauenswahrscheinlichkeit (1 – α) = 0,95


Den z-Wert findet man beim Flächeninhalt 0,95: z = 1,96

(3) Intervall zusammensetzen

p  z  ˆ p    p  z  ˆ p
0, 4  1,96  0, 0492    0, 4  1,96  0, 0492
W (0,304    0, 496)  0,95
Prof. Dr. Marc Piazolo 146
4.2.5 Intervallschätzung für Varianz und
Standardabweichung
 (n 1)  s ² (n 1)  s² 
n W   ²  1  
 ( xi  X )² 

1
2
 2
2


Stichprobenvarianz s²  i 1
Intervalle
n 1  (n 1)  s ² (n 1)  s ² 
W    1  
Bei der Firma Bosch (Homburg/Saar) wird eine
Stichprobe von 25 geringfügig Beschäftigten erhoben.


 2
1  2
2


Der Durchschnittsverdienst liegt bei 510 EUR mit

einer Varianz von 30 EUR. 12  F (1 
2 ; n  1)
1
2
Schätzen Sie die Varianz der Grundgesamtheit aller

geringfügig Beschäftigten (N = 300) bei einem Fehler-  22  F ( ; n  1)
2
risiko von 10%. 2
2
(1) Ablesen der beiden Werte der Verteilungsfunktion (Tabelle 14)

12  F (1 
2 ; n  1)  F 2 (0,95; 24)  36, 42
1
2 1


 22  F ( ; n  1)  F (0, 05; 24)  13,85
2 2
2
2 2

(2) Intervall zusammensetzen für die Varianz [Standardabweichung]


24  30 24  30
² 
36, 42 13,85
W (19, 77   ²  51,99)  0,90
[4, 45    7, 21] Prof. Dr. Marc Piazolo 147
4.2.6 Bestimmung des notwendigen Stichprobenumfangs
Heterograden Fall (-Mittelwert) Homograden Fall (-Anteilswert)
n
z ²  N  ²
²   ( N 1)  z ²   ²
n
z ²  ²
²  n
 
z ²   1     N

z ²  1  
²  N 1  z ²   1  
n
 ²
nv N  nv
ˆ  sv nv N  nv
nv 1 N 1   (1  )  pv 1 pv   
nv 1 N 1
Ein Meinungsforschungsinstitut soll die Sonntagsfrage für eine Bundestagswahl erstellen.
In einer Vorstichprobe (nv) hat es 100 Wahlberechtigte befragt und 25 als Anhänger der SPD
ermittelt.

Wie groß muss die Stichprobe ausfallen, wenn die Intervallbreite bei +/- 2 Prozentpunkte und die
Irrtumswahrscheinlichkeit bei 5% liegen soll?

(1) Ermittlung des Schätzwertes für die Varianz des Anteilswertes der SPD

  (1  )  pv 1  pv   v  0, 25  0, 75   0,189
n 100
nv 1 99
(2) Bestimmung des z-Wertes (Tabelle 7) und der Intervallbreite z-Wert = 1,96
  0, 02
(3) Stichprobenumfang
n

z ²  1      1,96²  0,189  1.815, 2
 ² 0, 02²
Prof. Dr. Marc Piazolo 148
Aus einer großen Grundgesamtheit an Beobachtungswerten wird eine Stichprobe
gezogen. Hieraus ermitteln wir die Stichprobenparameter Mittel- bzw. Anteilswert und
deren Standardabweichung. Die entsprechenden Parameterwerte der Grundgesamt-
heit bleiben unbekannt. Nun lässt sich mit Hilfe von Schätzverfahren berechnen, dass
mit einer bestimmten Vertrauenswahrscheinlichkeit die tatsächlichen Parameterwerte
der Grundgesamtheit in einem Intervall um den Stichprobenparameterwert liegen. Die
Breite des Konfidenzintervalls um den Stichprobenparameter ist abhängig von
folgenden Faktoren:
(1) Umfang der Stichprobe; sobald die Stichprobe mehr als 30 Elemente enthält, greift
der zentrale Grenzwertsatz;
(2) Umfang der Stichprobe im Verhältnis zur Grundgesamtheit
(Endlichkeitskorrekturfaktor);
(3) Kenntnis über die Standardabweichung der Grundgesamtheit ().
In der Marktforschung fällt zudem die Frage nach dem nötigen Umfang einer Stich-
probe an. Der Stichprobenumfang lässt sich bei Festlegung der zulässigen
Intervallbreite und der Vertrauenswahrscheinlichkeit berechnen. Dafür benötigen wir
ebenfalls die Kenntnis über die Varianz der Grundgesamtheit bzgl. Mittel- bzw.
Anteilswert. Letztere fehlt uns in der Regel. Deshalb müssen wir die Varianz im
Rahmen einer Vorstichprobe schätzen. 149
4.3 Hypothesentests
4.3.1 Grundlagen

Mit einer Hypothese treffe Sie eine Aussage über die Grundgesamtheit. Folglich sind
Hypothesentests bzw. „Testverfahren“ dazu da, eine Entscheidung über die Annahme
oder Ablehnung einer Hypothese über eine Eigenschaft der Grundgesamtheit zu
treffen.
• Einstichproben- und Mehrstichproben-Testverfahren.
• Testverfahren nach der Art der aufgestellten Hypothesen:
1. Hypothesen über Parameter einer Grundgesamtheit, z.B. über Mittelwerte, Anteilswerte,
Varianzen usw. Hier kommen Parametertests zur Anwendung;
2. Hypothesen zu Unterschieden eines Parameter zwischen mehreren Stichproben
(Varianzanalyse);
3. Hypothesen über bestimmte Verteilungsannahmen in der Grundgesamtheit, z.B.: „Die
Merkmale in der Grundgesamtheit sind normalverteilt.“ Zur Prüfung derartiger Hypothesen
wird ein Anpassungstest verwendet;
4. Hypothesen über die Abhängigkeit bzw. Unabhängigkeit zwischen zwei Merkmalen in der
Grundgesamtheit. Hier werden Unabhängigkeitstests eingesetzt.

Prof. Dr. Marc Piazolo 150


Fehlerquellen bei Hypothesentestverfahren

Abb. 73: Entscheidungsmatrix bei Hypothesentests

Prof. Dr. Marc Piazolo 151


Diese Fläche entspricht der Wahrscheinlichkeit,
die richtige Nullhypothese abzulehnen (α-Fehler)

In Anlehnung an Kobelt/Steinhausen 2006, S. 271


Abb. 74: Darstellung von - und -Fehler

152
Abb. 75: Verringerung des - und des -Fehlers bei höherem Stichprobenumfang (n)

n
 ( xi  X )²
Stichprobenvarianz s²  i 1
n 1

Prof. Dr. Marc Piazolo 153


Beispiel – standardisierter Mittelwerttest

Körpergröße von Männern zu Beginn des 20. Jahrhunderts: 175 cm. Sind Männer heute (2016) größer?
Wir ziehen eine Stichprobe mit 80 Männer, die im Schnitt 180 cm groß sind. Die Standardabweichung der
Grundgesamtheit sei mit 12 cm gegeben. Die Irrtumswahrscheinlichkeit beträgt 1%.

(1) Formulierung der Hypothesen


H0:   175 (cm)
H1:  > 175 (cm)
(2) Testverfahren und Prüfgröße X 
zb 
X X   N n
Mittelwerttest (einseitig) mit Prüfgröße n N 1 (EKF kann entfallen)
(3) Prüfverteilung und kritischer Wert (zc)
Bei Gültigkeit der Nullhypothese ist angegebene Prüfgröße zb annähernd standardnormalverteilt.
Wie lautet der kritische z-Wert? [Tabelle 5 mit α = 0,01 bzw. 1-α = 0,99] zc = 2,33
(4) Berechnung der Prüfgröße in der Stichprobe
X   N  n 12
  1,342
n N 1 80
180  175
zb   3, 73
1,342
(5) Entscheidung: z  oder  z H0 wird verworfen; d.h. die heutige Männer sind signifikant
b c
größer als diejenigen vor mehr als hundert Jahren.
zb  zc

Prof. Dr. Marc Piazolo 154


fN (z,=0,=1)

Ablehnungsbereich
Annahmebereich der Nullhypothese der Nullhypothese

 = 0,01
1 – = 0,99

Z
0 zc = 2,33

Abb. 76: Darstellung der Entscheidungssituation für das Beispiel Körpergröße

bei zweiseitiger bei einseitiger


Fragestellung Fragestellung
H1:   0 H1:  < 0 H1:  > 0
die Nullhypothese
z b  zc z b  zc z b  zc
wenn muss beibehalten
werden
z b  zc z b  zc z b  zc die Nullhypothese
wenn muss verworfen
werden
Kobelt/Steinhausen 2006, S. 275
Tab. 50: Darstellung der möglichen Entscheidungskriterien – abhängig vom Testergebnis 155
4.3.2 Parametertests
4.3.2.1 Mittelwerttests

fN (z,=0,=1)

linke Hälfte des rechte Hälfte des


Ablehnungsbereichs Ablehnungsbereichs
der Nullhypothese der Nullhypothese

1    0, 95

 0, 025

 0, 025
2 2
Annahmebereich der Nullhypothese
Z

Kobelt/Steinhausen 2006, S.276


Abb. 77: Zweiseitiger bzw. beidseitiger Mittelwerttest
x  E( X ) x  
z 
V (X ) x

156
fN (z,=0,=1)
Ablehnungsbereich
Annahmebereich der Nullhypothese der Nullhypothese

  0,05
1   = 0,95

Z
0 zc = 1,65

Abb. 78: Einseitiger Mittelwerttest – H0:   0

fN (z,=0,=1)

Annahmebereich der Nullhypothese

  0,05

1  = 0,95

Kobelt/Steinhausen 2006, S.276


Abb. 79: Einseitiger Mittelwerttest – H0:   0 157
Beispiel – standardisierter Mittelwerttest: Brenndauer von Projektionslampen

Die Brenndauer eines Modells an Projektionslampen sei normalverteilt mit μ = 1.000 Std. und σ = 60 Std.
Der Hersteller experimentiert mit eine r neuen Glühfadenlegierung, um die Brenndauer zu erhöhen.
Er zieht eine Stichprobe mit 200 Lampen, deren durchschnittliche Brenndauer bei 1.015 Std. liegt.
Kann mit einer Vertrauenswahrscheinlichkeit von 95% gesagt werden, dass sich die Brenndauer
signifikant erhöht hat?

(1) Formulierung der Hypothesen


H0:   1.000 Die durchschnittliche Brenndauer hat sich nicht erhöht.
H1:  > 1.000 Die durchschnittliche Brenndauer hat sich erhöht.
(2) Testverfahren (Mittelwerttest) und Prüfgröße
X 
zb  fN (z,=0,=1)
X Ablehnungsbereich der
(3) Prüfverteilung Annahmebereich der Nullhypothese
Nullhypothese
Prüfgröße zb ist
Standardnormalverteilt; zc = 1,65.
(4) Berechnung der Prüfgröße 1    0,95   0, 05

X   N n 60 zb = 3,54
  4, 24
n N 1 200
0 zc = 1,65
Z z

1.015  1.000
zb   3,54
4, 24 x
 = 1.000 xc  1.006,6 xb  1.015
(5) Entscheidung zb > zc
Xc  
zc   X c  zc  X    1,65  4,24  1.000  1.007 Abb. 80: Entscheidungssituation bei
X Prof. Dr. Marc Piazolo 158
einseitigem Mittelwerttest – Projektionslampen
Bisher war Standardabweichung der Grundgesamtheit  gegeben. Häufig stehen wir
jedoch bei Mittelwerttests vor dem Problem, dass wir zwar eine Hypothese über den
Mittelwert der Grundgesamtheit aufstellen können, aber uns die Varianz des
Untersuchungsmerkmals in der Grundgesamtheit nicht bekannt ist. In diesen Fällen
lässt sich der Standardfehler des Mittelwertes nicht so einfach berechnen. Hier
müssen wir den Standardfehler als schätzen. Teilweise finden Sie in der Literatur für
den geschätzten Standardfehler auch das Symbol . Aufgrund dessen verändern sich
aber die für den Test wichtigen Verteilungsannahmen. Die Prüfgröße:

X  X  N n
zb 
ˆ X
oder t  ˆ X  s
sX n N 1

Prof. Dr. Marc Piazolo 159


Beispiel – Mittelwerttest mit konkretisierter Alternativhypothese

Dem Lebensmitteldiscounter Aldi werden 5.000 Stück „Echter Schwarzwälder Kochschinken“ geliefert.
Vertraglich ist ein Durchschnittsgewicht von 2,5 kg/Stück zugesichert.

Der Einkäufer von Aldi vermutet jedoch, dass die Großschlachterei den Schinken mit einem deutlich
geringeren Gewicht von 2,1 kg/Stück anliefert. Zur Kontrolle zieht der Einkäufer eine Stichprobe von
100 Schinken und lässt diese nachwiegen: im Schnitt lag das Gewicht bei 2,4 kg/Stück und deren
Standardabweichung bei 1,2 kg. Prüfen Sie, ob der Abnehmer (Aldi) mit 95%iger Sicherheit davon
ausgehen kann übers Ohr gehauen zu sein.

(1) Formulierung der Hypothesen


H0: 0 = 2,5 kg Die Kochschinken haben das vertraglich zugesicherte Gewicht.
H1: 1 = 2,1 kg Die Kochschinken haben das vom Einkäufer vermutete Gewicht.
(2) Testverfahren (Mittelwerttest) und Prüfgröße X 
zb 
X
(3) Prüfverteilung
Prüfgröße zb ist standardnormalverteilt; es interessiert nur die untere Seite der Verteilung ;
daher findet man den kritischen z-Wert in Tabelle 5: zc = -1,65.
(4) Berechnung der Prüfgröße N  n 1, 2
ˆ X  s   0,12
n N 1 100
2, 4  2,5
zb   0,833
0,12
(5) Entscheidung |zb| < |zc|
Prof. Dr. Marc Piazolo 160
Ablehnungsbereich der Annahmebereich der Nullhypothese

Nullhypothese
fN(z,0,1)

1 1 = 0,95

 = 0,05 

Z
-3.496 zc=-1,65 0
X
μ1=2,1 xc=2,302 μ1=2,5

Abb. 82: Entscheidungssituation bei konkretisierter Alternativhypothese –


Kochschinken

Prof. Dr. Marc Piazolo 161


Ein -Fehler besteht darin, dass der Einkäufer eine in Wirklichkeit ordnungsgemäße
Lieferung zurückweist. Da hier der Lieferant als Verkäufer des Kochschinkens der
Leidtragende der fehlerhaften Entscheidung wäre, wird das Risiko eines -Fehlers
auch als das Verkäuferrisiko bezeichnet. Entsprechend läge ein -Fehler vor, wenn der
Einkäufer die in Wirklichkeit nicht ausreichende Sendung als ordnungsgemäß
akzeptieren würde. Der Fehler ginge zu seinen Lasten, weswegen wir die
Wahrscheinlichkeit, einen -Fehler zu begehen, auch als Käuferrisiko bezeichnen. In
unserem Beispiel könnte – da die Lieferung nicht abzulehnen ist – folglich nur ein
Käuferrisiko vorliegen.

Prof. Dr. Marc Piazolo 162


4.3.2.2 Anteilswerttests
Eine Volkspartei vermutet, dass sie bei der nächsten Bundestagswahl von 40% der Wahlberechtigten
gewählt wird. Um dies zu überprüfen, gibt der Generalsekretär eine Meinungsumfrage in Auftrag.

Von 1.800 Teilnehmern präferieren 780 diese Volkspartei. Kann die Parteiführung mit einer
Wahrscheinlichkeit von 95% schlussfolgern, dass ihre Ausgangshypothese zu halten ist?

(1) Formulierung der Hypothesen


H0: θ = 0,4 Der Anteil der Anhänger der Partei liegt bei 40 %.
H1: θ  0,4 Der Anteil der Anhänger der Partei liegt nicht bei 40 %.
(2) Testverfahren (Anteilswerttest) und Prüfgröße
p 
zb 
p fN (z,=0,=1)
(3) Prüfverteilung
annähernd normalverteilt
zc = 1,96 linke Hälfte des rechte Hälfte des
Ablehnungsbereichs Ablehnungsbereichs
der Nullhypothese
(4) Berechnung der Prüfgröße der Nullhypothese

 1    N  n
1    0, 95
0, 4  0, 6 
p    0, 0115 
 0, 025  0, 025
n N 1 1800 2 2

p   0, 433  0, 4 Z
zb    2,90
p 0, 0115
zc = - 1,96 0 zc = 1,96
Annahmebereich der Nullhypothese
0,4
(5) Entscheidung zb > zc pc = 0,3775 pc = 0,4225
p

pc  zc  p    1,96  0,0115  0,4  0,4225 Abb. 81: Entscheidungssituation bei zweiseitigem 163
Anteilswerttest – Parteipräferenz
4.3.2.3 Vergleich von zwei Mittelwerten

• Differenz d zwischen den Mittelwerten zweier Stichproben X  X   d


1 2

• 2 2
Standardfehler der Mittelwertdifferenzen D  1  2
n1 n2
• Standardfehler der Mittelwertdifferenzen
D  1  1
n1 n2

• Gepoolte Schätzer der Standardabweichung der Grundgesamtheit

ˆ 
 n1 1  s12   n2 1  s22
n1  n2  2

• Bestimmung des z-Wertes zum Hypothesentest einer Mittelwertdifferenz, je


nachdem, ob die Standardabweichungen der Grundgesamtheiten bekannt sind
oder nicht d X1  X 2 d
z  bzw. z
D D ˆ D

Prof. Dr. Marc Piazolo 164


Beispiel – Mittelwertdifferenzentest
Die Volkswagen AG bezieht Dieselmotoren aus zwei Werken der Firma Bosch – Homburg/Saar und
China. Kunden hatten sich bei VW über Mängel an den Motoren beschwert, daher unterzog Wolfsburg
nun je 40 Motoren aus beiden Werken einem Dauertest.

Die Motoren aus Werk I (Homburg) kommen auf eine durchschnittliche Laufleistung von 184.000 km, bei
einer Standardabweichung von 1.450 km.
Im Auslandswerk (Werk II) lag die Laufleistung bei 175.000 km im Schnitt, bei einer
Standardabweichung von 1.550 km.

Prüfen Sie, ob – mit Blick auf die Laufleistung – die beiden Boschwerke Dieselmotoren unterschiedlicher
Qualität liefern. Die Irrtumswahrscheinlichkeit legen Sie auf 5% fest.

(1) Formulierung der Hypothesen


H0: µ1 - µ2 = 0 Beide Stichproben stammen aus der gleichen Grundgesamtheit
H1: µ1 - µ2  0 Die Stichproben stammen nicht aus der derselben Grundgesamtheit
(2) Testverfahren (Mittelwertdifferenzentest) und Prüfgröße d X1  X 2
z 
(3) Prüfverteilung ˆ D ˆ D
annähernd normalverteilt : zc = 1,96
(4) Berechnung der Prüfgröße ˆ D  ˆ 1  1  1.500,8 
1

1
 335, 6
n1 n2 40 40

ˆ 
 40 1 1.450²   40 1 1.550²  1.500,8 km d 184.000 175.000
40  40  2 zb    26,8
ˆ D 335,6
(5) Entscheidung zb > zc
Prof. Dr. Marc Piazolo 165
fN (z,=0,=1)

linke Hälfte des rechte Hälfte des


Ablehnungsbereichs Ablehnungsbereichs
der Nullhypothese der Nullhypothese

1    0,95

 0, 025

 0,025
2 2
Annahmebereich der Nullhypothese
Z
zc = - 1,
1,96 0 zc = 1,96

D
dc=-657,8 0 dc=+657,8

Abb. 83: Entscheidungssituation bei zweiseitigem Mittelwert-Differenzentest – Motorleistung

Prof. Dr. Marc Piazolo 166


4.3.2.4 Vergleich von zwei Anteilswerten
Differenzentests im homograden Fall . Differenz zwischen zwei Stichproben-
Anteilswerten p1 und p2 p1  p2  r

R   1  
1 1
Standardfehler 
n1 n2

Grundgesamtheit ˆ  n1  p1  n2  p2

n1  n2  2

z-Statistik für den Test der Nullhypothese besagt, dass es keinen Unterschied zwischen
den relativen Häufigkeiten zweier Grundgesamtheiten gibt
r p1  p2
z 
R R

Prof. Dr. Marc Piazolo 167


Beispiel – Anteilswertdifferenzentest
Der ADAC untersucht, ob sich die Reparaturanfälligkeit der beiden meistverkauften PKW-Modelle
innerhalb der ersten beiden Jahre grundsätzlich unterscheidet. Hierfür werden 400 Besitzer von PKW I
und 500 Besitzer von PKW II befragt. 45 Autobesitzer des ersten Modells und 88 Besitzer des zweiten
Modells sagen aus, dass sie während der letzten zwei Jahre für Reparaturen von mehr als 500 EUR in
die Werkstatt mussten.

Prüfen Sie bei einer Irrtumswahrscheinlichkeit von 10%, ob die relative Reparaturanfälligkeit zwischen
den beiden Modellen gleich hoch ist.

(1) Formulierung der Hypothesen


H0: Ѳ1 - Ѳ2 = 0 Es besteht kein Unterschied in der Reparaturanfälligkeit.
H1: Ѳ1 - Ѳ2  0 Es besteht ein Unterschied in der Reparaturanfälligkeit.
(2) Testverfahren (Anteilswertdifferenzentest) und Prüfgröße r p p
zb   1 2
(3) Prüfverteilung ˆ R ˆ R
annähernd normalverteilt (Tabelle 7): zc = 1,65
(4) Berechnung der Prüfgröße ˆ  400  0,1125  500  0,176  0,1481

400  500  2
45 88
p1   0,1125 p2   0,1760 1 1
400 500 ˆ R  0,1481  0,8519    0, 0238
400 500
(5) Entscheidung zb > zc
d 0,1125  0,176
zb    2,67
ˆ R 0,0238
Prof. Dr. Marc Piazolo 168
4.3.3 Einfache Varianzanalyse

Mit Hilfe der einfachen Varianzanalyse können wir die Analyse auf mehr als zwei
Stichproben ausweiten; d.h. es geht in diesem Abschnitt um den Vergleich mehrerer
arithmetischer Mittelwerte. Da für die Prüfgröße dieses Testverfahrens Varianzen eine
entscheidende Rolle übernehmen, sprechen wir von der Varianzanalyse.

Herr Meyer besitzt einen Gartengrundstück mit einer 1.300 m² Rasenfläche, die er als Liebhaber
englischer Gärten akribisch mit einem kleinen Benzinrasenmäher regelmäßig schneidet.

Alle 2 Monate füllt er den 10 l Kanister an der Tankstelle seines Nachbarn auf. Laut Angabe tankt
Herr Meyer immer genau 10 Liter Benzin. Je nach Zapfsäule stellt er jedoch fest, dass der Kanister
gar nicht bis zum Rand gefüllt ist. Dies berichtet er dem Tankstellenpächter.

Sie wollen nun überprüfen, ob ein Fehler in der Eichung der Zapfsäulen vorliegt. Hierzu ziehen sie
gemeinsam an den vier Zapfsäule je vier Proben und messen diese haargenau nach. Das
Signifikanzniveau legen sie auf 1% fest.

169
Stichprobeninhalte bei einer Anzeige von genau 10 l
bzw. in Deziliter (dl)
Probe in dl Zapfsäule 1 Zapfsäule 2 Zapfsäule 3 Zapfsäule 4
i x1i x2i x3i x4i
1 101 97 101 94
2 102 96 99 91
3 98 94 98 90
4 99 98 98 95

Für Zapfsäule 1: X1  100


(1) Formulierung der Hypothesen
Für Zapfsäule 2: X 2  96,25
H 0 : 1  2  3  4
Für Zapfsäule 3: X 3  99
H1 : mindestens zwei der  j sind verschieden. Für Zapfsäule 4: X 4  92,5

Sieht aus, wie der F-Test bei multiplen Regressionsmodellen


(2) Testverfahren (Anpassungstest) und Prüfgröße
r 2
X X
n  s X2   j
j 1 


Fb  2 mit s X2  Varianz der beobachten Stichprobenmittelwerte
s pool r 1

 
r n 2
Freiheitsgrade 
j 1 i 1
x ji  X j
s 2pool  . gepoolte Varianz der Einzelbeobachtungen
1  r 1 r   n 1
 2  r  (n  1)
170
(3) Prüfverteilung – F-Verteilung (Tabellen 11-13)

Fc  Fnr*1r [1   ] bzw. Frr(1n1)[1   ]


allgemein: n* = ∑ni bei unterschiedlichen Stichprobenumfängen
speziell (hier) n = Anzahl der Beobachtungswerte einer Zapfsäule (bei gleicher Stichprobe/Säule)

1  4  1  3
Signifikanzniveau: 1% (Tabelle 13) mit Freiheitsgrade
 2  4  (4  1)  12
Fc  F123 [0,99] =5,95
(4) Berechnung der Prüfgröße
r Stichprobenmittelwert

j 1
Xj
X1  X 2  X 3  X 4 100  96,25  99  92,5
X X   96,94.
r r 4
Varianz der beobachteten Stichprobenmittelwerte
r 2
X X
  j
j 1 

 100  96,94  96,25  96,94  99  96,94   92,5  96,94 
2 2 2 2

s X2  s2   11,26.
r 1 X 4 1

Prof. Dr. Marc Piazolo 171



Hilfsrechnung zur Ermittlung der gepoolten Varianz der Einzelbeobachtungen

Zapfsäule 1: 101 100   102 100   98 100   99 100   10;
2 2 2 2

Zapfsäule 2: 97  96,25  96  96,25  94  96,25   98  96, 25  8,75;
2 2 2 2

Zapfsäule 3: 101  99   99  99   98  99   98  99   6;


2 2 2 2

Zapfsäule 4: 94  92,5  91  92,5  90  92,5  95  92,5  17.
2 2 2 2

   
r n 2 r n 2

j 1 i 1
x ji  X j 
j 1 i 1
x ji  X j
10  8,75  6 17
s 2pool  . s 2pool    3,48.
r   n 1 r   n 1 4   4 1

(4) Berechnung der Prüfgröße


n  s X2 4  11, 26
sX2  11,26 s 2pool  3,48 Fb  2   12,94
s pool 3, 48

(5) Entscheidung
n  s X2
2
 Fb  Fc  Fnr*1r [1   ] bzw. Frr(1n1)[1   ] Fb  12,94  5,95  Fc
s pool

Prof. Dr. Marc Piazolo 172


4.3.4 Anpassungstests
Uns liegt eine Hypothese über das erwartete Häufigkeitsmuster einer Gruppe von
Kategorien einer bestimmten Datenmenge vor. Nun können wir mit einem
Anpassungstest prüfen, ob unser theoretisches Modell geeignet ist, die beobachteten
Daten angemessen zu erklären; d.h. wir vergleichen die empirische gewonnene
Verteilung der Stichprobenergebnisse mit einer vorgegebenen theoretischen
Verteilung F0. Als theoretische Verteilungen bieten sich je nach Sachverhalt u.a. die
Gleichverteilung, die Poissonverteilung oder die Normalverteilung an. Mit dem
Anpassungstest stellen wir fest, ob die empirische Verteilung so stark von der
theoretischen Verteilung abweicht, dass die Nullhypothese H0: F = F0 abzulehnen ist.
Die unbekannte Wahrscheinlichkeitsverteilung F bildet die tatsächlich beobachteten
Daten aus einer Zufallsstichprobe ab.
Klasse oder Kategorie 1 2 3 … r Summe
Beobachtete Anzahl n1 n2 n3 … nr n
Wahrscheinlichkeiten unter H0 p1 p2 p3 … pr 1
Erwartete Anzahl unter H0 E1  n  p1 E2  n  p2 E3  n  p3 … Er  n  pr n

Tab. 53: Realisierte und theoretische Werte als Grundlage für Anpassungstests

173
Beispiel – Anpassungstest mit n > 50

Sie spielen mit einem Kumpel „Mensch ärgere Dich nicht“. Nach mehrmaligen Verlieren vermuten
Sie, dass ihr Freund mit einem manipulierten Würfel spielt. Falls der Würfel fair ist, dann müsste jede
Augenzahl gleichwahrscheinlich auftreten. Somit kann man auf Gleichverteilung einer sechswertigen
Variablen testen. Ihr Kumpel willigt dem Test ein, da er sich keiner Schuld bewusst ist. Zu 5% dürfen
sich die beiden irren. Nach 120 Würfen können Sie das folgende Ergebnis festhalten.

Augenzahl des Würfels 1 2 3 4 5 6


beobachtete Anzahl 17 23 16 22 14 28
Wahrscheinlichkeiten P1=0,167 P2=0,167 P3=0,167 P4=0,167 P5=0,167 P6=0,167
(unter H0)
erwartete Anzahl (H0) E1=20 20 20 20 20 20

(1) Formulierung der Hypothesen


H0: p1 = p2 = … = p6 Der Würfel ist fair.
H1: p1  pi … Die Würfelaugen sind nicht gleichverteilt.
(2) Testverfahren (Anpassungstest) und Prüfgröße
r (n j  E j ) 2 r (h j  h ' j ) 2

j 1 Ej
bzw. 
j 1 h '
 b2
(3) Prüfverteilung j

χ²-verteilt mit ν = r – 1 Freiheitsgrade (ν = 5) | aus Tabelle 14 ergibt dies χ²c = 11,1

Prof. Dr. Marc Piazolo 174


Beispiel – Anpassungstest mit n > 50

Augenzahl des Würfels 1 2 3 4 5 6


beobachtete Anzahl 17 23 16 22 14 28
Wahrscheinlichkeiten P1=0,167 P2=0,167 P3=0,167 P4=0,167 P5=0,167 P6=0,167
(unter H0)
erwartete Anzahl (H0) E1=20 20 20 20 20 20

(4) Berechnung der Prüfgröße


r (h j  h ' j ) 2

j 1 h'j
 b2

(n j  E j )2 17  20   23  20  16  20   22  20  14  20   28  20 


2 2 2 2 2 2
r

j 1 E j

20

20

20

20

20

20

 6,9  b2
9 9 16 4 36 64
     
20 20 20 20 20 20

(5) Entscheidung b2  6,9  11,1  c2


Falls der Umfang der Stichprobe geringer als n = 50 ist und die Anpassung an eine
Normalverteilung N überprüft wird, dann bietet sich statt des χ²-Anpassungstestes der
Kolmogorow-Smirnow-Anpassungstest (KSA-Test) an.
Prof. Dr. Marc Piazolo 175
Kolmogorow-Smirnow-Anpassungstest (KSA-Test)
• Stichprobe weniger als 50 TeilnehmerInnen umfasst (n < 50)
• Verteilung als normalverteilt angenommen wird.

Normalverteilung bedeutet, dass man eine Hypothese zu µ (Mittelwert) und zu σ


(Standardabweichung) bilden kann:
N (µ, σ)
Beispiel – Verweildauer bei einer bestimmten Waschmittelmarke
1. Hypothese formulieren
H0: Verweildauer ist normalverteilt mit N ( µ = 60 Tage, σ = 10 Tage)
H1: Verweildauer ist nicht normalverteilt wie angenommen.

Marktforschungsinstitut benutzt 10 Test-Haushalte (n = 10) mit folgender


Verweildauer in Tagen:
67, 69, 58, 62, 55, 59, 60, 59, 60, 66

2. Testverfahren: KSA-Test mit Prüfgröße Db = max |d1(xi), d2 (xi)|


Quelle: Kobelt / Steinhausen (2006) 176
Kolmogorow-Smirnow-Anpassungstest (KSA-Test) II
3. Kritischer Wert für KSA-Test
Annahme: Irrtumswahrscheinlichkeit von 5 %
d.h. (1-α) = 0,95 aus Tabelle 16, Dc (n = 10, α = 0,05) = 0,409

4. Berechnete Prüfgröße Db = max |d1(xi), d2 (xi)|


mit d1(xi) = |Fth(xi) – Fb (xi)| und d2(xi) = |Fth(xi) – Fb (xi-1)|
Fth(xi) - theoretischer Wert aus der Normalverteilungsfunktion (Tab. 5) für xi

Hilfstabelle wird aufgestellt: Wir suchen dort nach der maximalen Abweichung
Db max => hier Db = 0,3207
5. Entscheidung
Db < Dc
0,3207 < 0,409; H0 wird beibehalten

Ergebnis: mit Irrtumswahrscheinlichkeit von 5% folgt die Verweildauer bei einer


bestimmten Waschmittelmarke N (60 Tage, 10 Tage).
Quelle: Kobelt / Steinhausen (2007) 177
Kolmogorow-Smirnow-Anpassungstest (KSA-Test) III
Hilfstabelle
xi hi f(xi) Fb(xi) zi Fth(xi) d1(xi) d2(xi)
aus Tab. 5
55 1 0,1 0,1 -0,5 0,3085 0,2085 0,3085
58 1 0,1 0,2 -0,2 0,4207 0,2207 0,3207
59 2 0,2 0,4 -0,1 0,4602 0,0602 0,2602
60 2 0,2 0,6 0 0,5000 0,1000 0,1000
62 1 0,1 0,7 0,2 0,5793 0,1207 0,0202
66 1 0,1 0,8 0,6 0,7257 0,0743 0,0257
67 1 0,1 0,9 0,7 0,7580 0,1420 0,0420
69 1 0,1 1,0 0,9 0,8159 0,1841 0,0841
Summe 10 kumuliert

d1(xi) = |Fth(xi) – Fb (xi)| bzw. d2(xi) = |Fth(xi) – Fb (xi-1)|

Quelle: Kobelt / Steinhausen (2007) 178


4.3.5 Unabhängigkeitstest
Merkmalsausprägungen
von Y

Merkmalsaus y1 y2 . . . yc 
-prägungen x1 h11 h12 . . . h1c h1•
von X x2 h21 h22 . . . h2c h2•
. . . . .
. . . . .
. . . . .
xr hr1 hr2 . . . hrc hr•
 h•1 h•2 . . . h•c h••
Tab. 55: Kontingenztabelle zweier Variablen X und Y (absolute Häufigkeiten)

Für absolute Häufigkeiten lässt sich für jedes Feld der Kontingenztabelle aus den
Randhäufigkeiten ein theoretischer Wert berechnen: hth  h j  hi
ij
n
 
2
r c hij  hijth
Quadratischen Kontingenz (QK) QK  
i 1 j 1 hijth
mit r = Anzahl der Zeilen und c = Anzahl der Spalten.
Testregel: Falls QK  (2r 1)(c1) 1     H 0 verwerfen.

Prof. Dr. Marc Piazolo 179


Beispiel – Kontingenztafeltest – Pepsi-Coke-Test

Bevorzugte Marke der BLINDTEST Verköstung


Testpersonen Pepsi Coca-Cola Summe
Pepsi 21 12 33 blind vs. offen
OFFENER TEST Coca-Cola 6 14 20
Summe 27 26 53 α = 0,01 bzw. 1%
Tab. 56: Geschmackstest in der Marktforschung – blind versus offen

(1) Formulierung der Hypothesen


H : Es besteht Unabhängigkeit zwischen dem Blindtest und dem offenen Test
0

H : Es besteht ein Zusammenhang bzw. keine Unabhängigkeit


1

(2) Testverfahren und Prüfgröße


h  h 
2
th
r c
Prüfgröße: quadratische Kontingenz (QK) QK  
ij ij
 b2
i 1 j 1 hijth

(3) Prüfverteilung und Angabe des kritischen Wertes

χ²-verteilt mit ν = (r –1) (c – 1) | Freiheitsgrade : ν = (2 - 1) (2 – 1) = 1


aus Tabelle 14 ergibt dies für α = 0,01: χ²c = 6,63

180
Beispiel – Kontingenztafeltest – Pepsi-Coke-Test

(4) Berechnung der Prüfgröße aus den Beobachtungswerten


Bevorzugte Marke der BLINDTEST
Testpersonen Pepsi Coca-Cola Summe
Pepsi 16,2 33 Berechnung der
33  27
OFFENER 16,8 theoretischen Werte
53
TEST
Coca-Cola 10,2 9,8 20
bei Unabhängigkeit
Summe 27 26 n = 53
Tab. 57: Geschmackstest in der Marktforschung – blind versus offen (theoretische Werte)

 2116,8
2
(12 16,2)2 (6 10,2)2 (14  9,8)2
QK      5,66  zb
16,8 16,2 10,2 9,8

(5) Entscheidung

b2  5, 66  6, 63  c2

181

Das könnte Ihnen auch gefallen