Beruflich Dokumente
Kultur Dokumente
Größe
Nettoeinkommen
Vermögen Augenfarbe
Berufsgruppe Körperumfang
Familienstand
Nationalität
Schuhgröße
Tab. 3: Augenfarbe
absolute relative
Lfd. Nr. Ausprägung absolute kumulierte relative kumulierte
xi (in km/h) Häufigkeit Häufigkeit Häufigkeit Häufigkeit
hi Hi fi Fi
1 x1 = 46 h1 = 4 4 f1 = 0,0500 0,0500
2 x2 = 47 h2 = 3 7 f2 = 0,0375 0,0875
3 x3 = 48 h3 = 9 16 f3 = 0,1125 0,2000
4 x4 = 49 h4 = 8 24 f4 = 0,1000 0,3000
5 x5 = 50 h5 = 12 36 f5 = 0,1500 0,4500
6 x6 = 51 h6 = 14 50 f6 = 0,1750 0,6250
7 x7 = 52 h7 = 9 59 f7 = 0,1125 0,7375
8 x8 = 53 h8 = 15 74 f8 = 0,1875 0,9250
9 x9 = 54 h9 = 6 80 f9 = 0,0750 1,000
Summe: n = 80 1,0
Tab. 4: Geschwindigkeitsmessung in Zweibrücken
i ihj 1 i
Hi
• relative kumulierte Häufigkeit: Fi fj hj
j 1 j 1
n n j 1
n
Der Vorgang des Aufaddierens bis zu einem bestimmten Punkt wird als Kumulieren
bzw. als Kumulation bezeichnet. Die Häufigkeiten, die durch Kumulation entstehen,
werden als kumulierte Häufigkeiten bezeichnet. Wir verwenden hierbei die Symbole
Hi für absolute kumulierte Häufigkeiten und Fi für relative kumulierte Häufigkeiten.
Kumulierte Kumulierte
Klasse Klassen- Klassen- Relative absolute relative
kj ausprägung häufigkeit Häufigkeit Häufigkeit Häufigkeit
hi fi Hi Fi
7
6
5
4
3
2
1
0
blau grau grün braun sonstige
0,2
0,15
0,1
0,05
0
46 47 48 49 50 51 52 53 54
i f i 360
Übrige Welt
5%
Kaiserslautern
43%
Abb. 9: Herkunft der Teilnehmer des Internetexperimentes zum Ultimatum Bargaining Game (Anteile in %)
Kaiserslautern = im Umkreis von 100 km; übrige Welt – vor allem Österreich, Schweiz, Ungarn.
Piazolo (2010) Dividing up an Inheritance Successfully – Significant International Variations, Proceedings, 8th International
Conference on Management, Enterprise and Benchmarking, Budapest (June 2010) p. 315-324 – p. 316
Klassifizierte Häufigkeitsfunktionen mit unterschiedlichen Klassenbreiten
Abb. 11: Alter der Teilnehmer des Internetexperimentes zum Ultimatum Bargaining Game (Anteile in %)
hi
ei „Höhe der Säule i”
di
Prof. Dr. Marc Piazolo 18
n = 120
n = 240
n = 720
Abb. 12: Effekt der Zunahme der Grundgesamtheit (n) auf Histogramme
700
50 90 90 80
325
70 50 800
80 80
100 60
Improvement
Improvement
900 350
150 70 70
60 100 40
20
50 150 250 50 50
400
Aufgabe 16: Welche Probleme (Vorteile) ergeben sich aus dieser Darstellung des Economists?
Zusammenfassung:
Randhäufigkeit:
y1 y2 . . . yc
x1 h11 h12 . . . h1c h1
Merkmalsausprägungen x2 h21 h22 . . . h2c h2
von X . . . . .
. . . . .
. . . . .
xr hr1 hr2
. . . hrc hr
h1 h2
. . . hc h
Tab. 7: Zweidimensionale Häufigkeitsfunktion in allgemeiner Form
Aktie Y
Aktie X Y1 Y2 = -4% Y3 Y4 Y5
X1 = -4% 0 6 7 4 3 20
0,000 0,058 0,067 0,038 0,029 0,192
X2 = 0% 4 11 25 18 3 61
0,038 0,106 0,240 0,173 0,029 0,587
X3 = +4% 5 7 6 3 2 23
0,048 0,067 0,058 0,029 0,019 0,221
9 24 38 25 8 104
0,087 0,231 0,365 0,240 0,077 1,000
Tab. 8: Wochenrenditen zweier Aktien in Prozent
Zusammenhang zwischen den gemeinsamen Häufigkeiten und den Randhäufigkeiten (bedingte relative Häufigkeit):
hij hij
f1(xiyj) = bzw. f2(yjxi) = Beispiel: f1(x1y2) = 6 / 24 = 25%
h j hi
Wahrscheinlichkeit Kurseinbruch von Aktie X,
wenn auch Aktie Y um 4% einbricht. 25
2.2.1 Zweidimensionale Verteilungsfunktion
>20 8 21 6 35
10 31 9 50
Mit Hilfe der Datenkosmetik kann Zahlenmaterial in einer Weise aufbereitet werden,
dass die zentrale Aussage direkt ins Auge springt und der Leser diese aufnimmt ohne
zu reflektieren, ob die grafische Darstellung seriösen wissenschaftlichen Standards
entspricht oder alle relevanten Informationen Berücksichtigung fanden. Die
Skalierung, maßstabsgetreue Flächeninhalte, korrekte Bezuggrößen und
Berichtszeiträume, das Fehlen wichtiger Informationen, die Wahl der richtigen
Schaubildtyps sowie die treffende Beschriftung sind die Prüfpunkte jeder
wissenschaftlich seriösen Darstellung. Die Gratwanderung zwischen Aussagekraft und
Übersichtlichkeit einer grafischen Aufbereitung wird erst mit Erfahrung zu meistern
sein.
10 10
8 8
6
6
4
4
2
2
0
1 2 3 4 5 6 7 8 9 10 11 12 13 0
11
13
15
17
1
9
Abb. 32: Darstellung von Lage-Unterschieden einer Häufigkeitsfunktion
25 10
20 8
15 6
10 4
5 2
0 0
1 2 3 4 5 1 2 3 4 5 6 7 8 9
Abb. 33: Darstellung einer geringen und einer großen Streuung von Häufigkeitsfunktionen
Lageparameter Streuungsparameter
Modus Spannweite
Median Varianz
Geometrisches Mittel
Quartile
Prof. Dr. Marc Piazolo 35
2.4.1 Lageparameter
2.4.1.1 Modus
Der Modus einer Häufigkeitsfunktion ist die Merkmalsausprägung xi, welche die größte
Beobachtungshäufigkeit hi aufweist.
Stem Leaf
5 269
6 055568999
7 11224557789
8 001222458
9 02455679
10 1556
11 137
12
13 255
Stem Leaf
5 269
6 055568999
7 11224557789
8 001222458
9 02455679
10 1556
11 137
12
13 255
Hier n = 50
100,0% 25
90,0%
80,0% 20
70,0%
60,0% 15
50,0%
40,0% 10
30,0%
20,0% 5
10,0%
,0% 0
bis 7 bis bis bis bis bis 38 bis bis bis bis ab
13,2 19,4 25,6 31,8 44,2 50,4 56,6 62,8 62,9
Das arithmetische Mittel bzw. der arithmetische Mittelwert ist die Summe aller
beobachteten Merkmalsausprägungen, geteilt durch deren Anzahl. Es entspricht
umgangssprachlich dem Durchschnittswert und ist nur für metrisch skalierte
Merkmale sinnvoll anwendbar.
n
xi
X i1
n Stichprobe
1 n n
X xi xi n X
n i1 i 1
n
xi
Grundgesamtheit
i1
N
Das gewichtete Mittel ist ein arithmetischer Mittelwert, für den jeder Wert
entsprechend seiner Bedeutung unter den Beobachtungselementen gewichtet wird.
Auch hier sind die Formeln für das gewichtete Mittel der Grundgesamtheit und für
den gewichteten Stichprobenmittelwert identisch.
n
(wi xi )
μw oder Xw i 1
n ; d.h. jeder Wert der Merkmalsausprägungen (xi)
i 1
wi
2.4.1.7 Quartile
Quartile teilen eine Menge von geordneten Elementen nach Häufigkeitsanteilen.
oder
• Wir bilden den Betrag der Abweichungen vom Mittelwert und erhalten somit die
mittlere absolute Abweichung. Durch die Betragsbildung vermeiden wir, dass sich
positive und negative Abweichungen gegenseitig aufheben:
1 n x X
n
i 1
i
• Anstatt den Betrag zu bilden, können wir auch auf die Summe der quadrierten
Abweichungen vom Mittelwert zurückgreifen und umgehen damit das Problem
der gegenseitigen Aufrechnung. Folglich ergibt sich die Varianz – entweder einer
Grundgesamtheit (σ²) oder der Stichprobe (s²) – aus:
2 n 2
2 1 xi
N 1
N i1
s
2
x X
n 1 i1 i
1 N n
N
x 2 2
s 1
xi n X
2 2
i1
i
n 1 i1
1 m m x ' j hj
s
n 1 j 1
xj n X
'2 2
X
j 1 n
Stichprobe: CV s 100
X
Grundgesamtheit CV 100
Der Vergleich der Standardabweichungen – d.h. der absoluten Streuungsmaße – kann
öfter zu falschen Schlüssen führen. Daher führen wir den Variationskoeffizienten
bzw. den Coefficient of Variation (CV) als Maß der relativen Streuung ein. Er gibt an,
um wie viel Prozent des Mittelwertes die Merkmalswerte im Durchschnitt um den
Mittelwert streuen.
2.4.3.2 Streuungsmaße
Für die in Kapitel 2.4.2 vorgestellten Parameter zur Variabilität einer Häufigkeits-
verteilung liefert Excel nur in einigen Fällen eine sofort anwendbare Funktion;
mehrere der Streuungsmaße müssen durch Verknüpfung verschiedener Funktionen
abgeleitet werden. Direkte Funktionen bietet Excel nur für die Varianz und die
Standardabweichung, wobei Sie selbst bestimmen müssen, ob sich die
Streuungsparameter auf eine Stichprobe bzw. die Grundgesamtheit beziehen:
• Auf Basis einer Stichprobe ermittelt Excel die Varianz s² bzw. die Standardabweichung s
über die Funktionen VARIANZ und STABW .
• Liegt eine Grundgesamtheit vor, dann sind die Excel Funktionen VARIANZEN und
STABWN anzuwenden.
1/5
1 2 3 4 5 x 1 2 3 4 5 x
Deutschland Utopia
i
nj xj
Die relative kumulierte Merkmalsanteil qj J 1
r
j 1
nj xj
qj qj
F F
Deutschland 1 Utopia 1
E 4/5
Fläche Q
E 10/15
D
3/5
6/15 C 2/5
D
C 3/15 B 1/5
B 1/15
A A
0 0
0 1/5 2/5 3/5 4/5 1 0 1/5 2/5 3/5 4/5 1
pj pj
K 2Q
Ginikoeffizient: gibt das Verhältnis der Fläche Q zwischen der Hauptdiagonalen und
der Lorenz-Kurve zur Fläche des gesamten Dreiecks unter der Hauptdiagonalen an.
GK
( p j1 p j ) j 1
nj xj
j r
j n j x j
Prof. Dr. Marc Piazolo 59
Tab. 24: Hilfswerte zur Berechnung der Ginikoeffizienten für Deutschland und Utopia
Der Ginikoeffizient (GK) und die Lorenzkurve als grafische Darstellung spiegeln die
relative Konzentration wider. Für die Einkommens- oder Vermögensverteilung finden
sie Anwendung. Entfällt jedoch ein hoher Anteil der Merkmalssumme auf eine kleine
absolute Anzahl von Merkmalsträgern, dann sind absolute Konzentrationsmaße
sinnvoll und üblich. Hierzu gehören die Konzentrationsrate (CR) sowie der Herfindahl-
Hirschman-Index (HHI). Im Zusammenhang mit branchenspezifischen
Wettbewerbsfragen sind diese Konzentrationsmaße verbreitet.
Gibt es zwischen den verschiedenen Merkmalen einen Zusammenhang, und wie stark
ist dieser? In der Realität vermuten wir häufig zwischen zwei Untersuchungs-
merkmalen ein bestimmtes kausales Abhängigkeitsverhältnis. So kennen Sie folgende
Modellannahme aus der Mikroökonomie (VWL): Bei normalen Gütern besteht ein
inverser Zusammenhang zwischen dem Preis eines Gutes und seiner Absatzmenge;
daraus ergibt sich die fallende Nachfragefunktion.
Die Abhängigkeit zwischen zwei Merkmalen kann ganz unterschiedlich eng ausfallen.
Dabei unterscheiden wir zwischen einer funktionalen und einer zufallsbedingten
Abhängigkeit:
• Funktionale Abhängigkeit: Y = C + S
• Zufallsbedingte bzw. stochastische Abhängigkeit: In diesen Fällen besteht nur eine
Vermutung über die Art des Zusammenhangs. Folglich kann selbst bei Bekanntheit
des einen Merkmals keine exakte Voraussage bzgl. des zweiten Merkmals
getroffen werden.
Rangkorrelation Kontingenztafeltest
nach Spearman
y y y cov( X ,Y ) s
r xy
sx s y sx s y
x x x
r < 0: y fällt, wenn x steigt r = 0: keine Abhängigkeit r > 0: y steigt, wenn x steigt
zwischen y und x
y y
x x
r = +1: perfekte Gleichläufigkeit r = -1: perfekte Gegenläufigkeit
73
Abb. 38: Werte des Korrelationskoeffizienten und der Zusammenhang zwischen Merkmal x und y
Ausgangsinformation
Jahr Kundenberater Fondsvolumen
x y xi 2 yi 2 xi yi
1990 15 1,35 225 1,8225 20,25
1991 18 1,63 324 2,6569 29,34
1992 24 2,33 576 5,4289 55,92
1993 22 2,41 484 5,8081 53,02
1994 25 2,63 625 6,9169 65,75
1995 29 2,93 841 8,5849 84,97
1996 30 3,41 900 11,6281 102,30
1997 32 3,26 1.024 10,6276 104,32
1998 35 3,63 1.225 13,1769 127,05
1999 38 4,15 1.444 17,2225 157,70
268 27,73 7.668 83,8733 800,62
Tab. 28: Hilfsgrößen zur Berechnung des Korrelationskoeffizienten
( xi ) ( yi )
SS xy xi yi 800,62 268 27,73 57,456
n 10
2 ( xi )
2 2
268 SS xy
SS xx xi 7.668 485,6 r 57,456 0,99
n 10 SS xx SS yy 485,6 6,97801
2 ( yi )
2 2
SS yy yi 83,8733 27,73 6,97801
n 10
60
50
Anzahl 40
Beschäftigte
30
20
10
0
0 20 40 60 80
Jahresumsatz in Mio. €
0 rSP = + 0,85
0 20 40 60 80
Jahresumsatz in Mio. €
nominal Kontingenz-
koeffizient
Sobald ein Merkmal „nur“ ordinal skaliert ist, greifen wir auf den
Rangkorrelationskoeffizienten nach Spearman zurück.
800
600
Zahl der Betriebe
400
200
0
0 200 400 600 800 1.000 1.200
Werbeausgaben Umsatz
y 1 x ( yi y )
x y (yi – y )2
1 1 0 (1 – 0) = 1 1
2 1 1 (1 – 1) = 0 0
3 2 2 (2 – 2) = 0 0
4 2 3 (2 – 3) = -1 1
5 4 4 (4 – 4) = 0 0
0 SSE = 2
Tab. 33: Vergleich der Beobachtungswerte mit den Schätzwerten der augenscheinlichen Funktion
5
4
3 ~y 1 x
2
1
0
-1
0 1 2 3 4 5 6
Werbeausgaben in 1.000 EUR
• Weil die Summe der Fehlerquadrate minimiert werden soll, wird die Methode zur
Bestimmung der optimalen linearen Regressionsfunktion als Methode der
kleinsten Quadrate bzw. KQ-Methode bezeichnet.
y1 0 1 x1 1
yn 0 1 xn n
• wobei
y = die abhängige Variable
x = die unabhängige Variable
i = der Fehlerterm bzw. das Residuum
0 = der Schnittpunkt mit der y-Achse bzw. der Absolutwert
1 = die Steigung der linearen Funktion bzw. der Koeffizient der unabhängigen
Variablen x
2 SS xx
2 1
Die Schätzwerte für die Koeffizienten lauten: i ni
x x
Werbeausgaben Umsatz
xi yi x i2 xi yi
1 1 1 1
2 1 4 2
3 2 9 6
4 2 16 8
5 4 25 20
xi 15 yi 10 xi2 55 xi yi 37
Tab. 34: Hilfsberechnungen für Werbung und Umsatz eines Haushaltswarengeschäftes
(15 10)
SS xy xi yi 1 ( xi )( yi ) 37 7 ˆ1
SS xy 7
0,7
n 5 SS xx 10
(15)2
SS xx xi2 1 ( xi )2 55 10
n 5 ˆ0 Y ˆ1 X 10 0,7 15 2 2,1 0,1
5 5
0
0 1 2 3 4 5 6
Werbeausgaben in 1.000 EUR
Tab. 35: Berechnung der Summe der Fehlerquadrate (SSE) auf Grundlage der KQ-Geraden
60
R² = 0,841
50
Da wir zwei Freiheitsgrade für die Schätzung des Absolutwertes und der Steigung
benötigen, bleiben (n – 2) Freiheitsgrade übrig. Schätzer von ²:
s 2 SSE
n2
SSE ( y yˆ ) SS ˆ SS
2
i i yy 1 xy Prof. Dr. Marc Piazolo 88
2.4.6.2 Qualität der Regressionsfunktion
Bestimmtheitsmaß
Korrelationskoeffizient
nach Bravais-Pearson
t t 2
ˆ1 0 ˆ1 0,7
Teststatistik: t
s
3,7 Ablehnungsbereich: oder
sˆ 0,19 t t 2
1 SS xx
sˆ s
0,61
0,19 SSE 1,1
s2 0,367
1 SS xx 10 n2 3
x
x
SS yy ( yi Y )2 ( yi yˆi )2 SSE
Wir ziehen von der Gesamtvariation der y-Werte um ihr arithmetisches Mittel (SSyy)
die, unter Berücksichtigung der Informationen der x-Variablen, übrig bleibende und
somit unerklärte Variation (SSE) ab. Diese Differenz stellen wir als Anteil an der
Gesamtvariation dar. Folglich repräsentiert der Term im Zähler die aufgrund des
Regressionsmodells erklärte Stichprobenvariation.
SS yy SSE
R2 1 SSE
SS yy SS yy
Die Teststatistik enthält den Korrelationskoeffizienten der Stichprobe r; sie ist mit n –
2 Freiheitsgraden Student-t-verteilt.
t r
2 1 r 2
n2
III. Korrelationskoeffizient
r R2 Prof. Dr. Marc Piazolo 92
Anwendungsbeispiel der Regressionsanalyse I
Schritt 1:
Visualisierung
der Daten
yˆ 10,278 4,919 x
Prof. Dr. Marc Piazolo 94
Anwendungsbeispiel der Regressionsanalyse III
Schritt 4:
• Wir gehen der Einfachheit halber davon aus, dass die Annahmen bzgl. des Fehlerterms
immer gelten. Infolgedessen können wir die Varianz bzw. die Standardabweichung der
Residuen aus der Stichprobe berechnen.
SSE ( yi yˆi )2 SS yy ˆ1 SS xy s 2 SSE 69,750929 5,3655
n2 13
SSE 911,517334 4,919331171,114 69,750929 s 2,32
Schritt 5:
• Mithilfe der geschätzten Standardabweichung können wir nun die Güte des
Regressionsmodells bestimmen.
SS xy 171,114
r 0,96
SS xx SS yy 34,784 911,517
R 2 (r )2 0,92
Schritt 6:
• Aufgrund der guten Qualität unseres Regressionsmodells wollen wir es für
Prognosezwecke einsetzen. Z.B. durchschnittlicher Brandschaden für ein Haus,
das 3,5 km von der nächsten Feuerwache entfernt steht.
Preis 2
Absatzmenge
i xi x log( xi )
*
i
x log( xi )
*2
i yi yi* log( yi ) xi* yi*
4 4
Umsatz in 10.000 EUR
2 2
1 1
0 0
0 1 2 3 4 5 6 0 1 2 3 4 5 6
Werbeausgaben in 1.000 EUR Werbeausgaben in 1.000 EUR
Teststatistik: ( SS yy SSE ) / k R2 / k
F
SSE / n k 1 1 R 2 / n k 1
mit Freiheitsgrad des Zählers von k und Freiheitsgrad des Nenners von [n-(k+1)]
Multiple Regressionsmodelle
Yi 0 1 X 1 2 X 2 n X n i
bzw.
Yˆ ˆ0 ˆ1 X 1 ˆ2 X 2 ˆn X n
105
Zusammenfassung:
Die funktionale Form des Zusammenhangs zweier Merkmale können wir über die
Berechnung eines einfachen Regressionsmodells auf Grundlage der Methode der
kleinsten Quadrate feststellen. Die KQ-Methode minimiert die Fehlerquadrate und
ermittelt die optimale lineare Regressionsfunktion. Die Qualität des Regressions-
modells halten wir anhand des Bestimmtheitsmaßes (R²) sowie der t-Statistik des
Koeffizienten fest. Falls das einfache Streudiagramm auf einen nichtlinearen
Zusammenhang hinweist, dann müssen wir die X und/oder die Y-Variable
transformieren, bevor wir die KQ-Methode anwenden. Um zu testen, ob mehrere
unabhängige Variablen die abhängige Größe (signifikant) beeinflussen, verwenden
wir das multiple Regressionsmodell. Excel unterstützt uns dabei mit seinen Analyse-
Funktionen. Welche der verschiedenen Variablen als Abhängige gewählt wird, muss
uns (theoretisch) plausibel erscheinen. Ein einfaches „Drauflosberechnen“ ist
unseriös.
• Das Wesen eines stochastischen Vorgangs liegt somit in der Ungewissheit des
Ergebnisses bis zu seiner konkreten Realisierung. Den Versuch, den ihr
Kommilitone unternimmt, bezeichnet man als Zufallsexperiment, da dessen
Ergebnis – in diesem Fall das Ziehen einer roten oder schwarzen Spielkarte – vom
Zufall abhängt.
• Gesamtheit aller möglichen unterscheidbaren Ergebnisse x1, x2, x3, ... , xn eines
Zufallsexperiments als endliche oder unendliche Menge für n
x1, x2 , x3 , , xn
107
3.1.1 Wahrscheinlichkeitsdefinitionen
• Jede Wahrscheinlichkeit kann nur Werte zwischen Null und Eins annehmen
0 W ( A) 1
• Lehrsatz 2
Abb. 11 W ( A) 1 W ( A) W ( A A) W ( A) W ( A) 1 W ()
A
A
A B A B
A B A B
Abb. 55: Allgemeiner Additionssatz für zwei sich nicht gegenseitig ausschließende Ereignisse
Wenn es keine Schnittmenge gibt, d.h. W(AB) = 0, dann folgt daraus automatisch,
dass W(AB) = W(A) + W(B).
• Lehrsatz 4 W( D ) W( B A ) W( B ) W( A B )
W( A B )
• Lehrsatz 5 W( A B ) Bedingte Wahrscheinlichkeit
W( B )
Kaufinteresse (K) W( K F )
W( K F ) ?
vorhanden nicht vorhanden W( F )
vorhanden 0,2 0,1
Finanzmittel (F)
Nicht vorhanden 0,4 0,3 W( K F ) 0,2 0,67
0,3
Tab. 45: Wahrscheinlichkeiten eines Immobilienkunden
111
• Lehrsatz 6 (Gemeinsame Auftreten der Ereignisse A und B möglich.)
W( A B ) W( A B )
Wenn Ereignisse A und B voneinander stochastisch unabhängig W( A B ) W( A )
W( Aj ) W( B Aj )
W( Aj B ) mit j=1,2,...., n
W( A ) W( B A )
i j
Wahrscheinlichkeit für das Eintreffen des Ereignisses Aj, wenn bereits bekannt ist,
dass zuvor Ereignis B eingetreten ist. Wichtiger Spezialfall ergibt sich für den Fall,
dass die relevante Zerlegung des Ergebnisraumes nur aus den Ereignissen A und A
besteht.
Linker Scheinwerfer
L L
Rechter Scheinwerfer R 0,81 0,09 0,90
R 0,09 0,01 0,10
0,90 0,10 1,00
E ( X ) x1 f ( x1) x2 f ( x2 ) x3 f ( x3 )
E ( X ) 0 0,81 1 0,18 2 0,01 0,2 (Scheinwerferbeispiel)
Binominalverteilung Gleichverteilung
Poissonverteilung Standardnormalverteilung
Exponentialverteilung
Die Hypergeometrische Verteilung ist diskret, und der endliche Ereignisraum, der dem
Zufallsexperiment zugrunde liegt, enthält nur 2 sich ausschließende Zufallsereignisse.
Anhand der Größen N, M und n eindeutig festgelegt:
Ziehen ohne Zurücklegen
M N M
x n x M M!
W (X x) wobei
N x x! (M x)!
n
M N M Drei von sechs Angestellten arbeiten seit fünf Jahren oder länger
x v n v in der Volksbank Einöd. Vier Angestellte werden zufällig
W (X x)
v 0
N ausgewählt. Wie hoch ist die Wahrscheinlichkeit, dass
n
… genau zwei Angestellte seit fünf Jahren oder mehr dabei sind?
… bis zu zwei Angestellte seit fünf Jahren oder mehr dabei sind?
E ( X ) n M
N … keine Angestellte seit fünf Jahren oder mehr dabei ist?
V ( X ) 2 n M 1 M N n
N N N 1
und
n M 1 M N n
N N N 1
Prof. Dr. Marc Piazolo 119
3.2.5 Poissonverteilung
Die Zufallsvariable ist diskret, und in dem Ereignisraum des zugrunde liegenden
Experimentes existieren nur zwei sich ausschließende Zufallsereignisse. Im Gegensatz
zum Bernoulli-Prozess treten die Ereignisse in einem Kontinuum (z.B. Zeitintervall) ein
und es gibt keine einzelnen Versuche.
W ( X x) e
x
wobei e 2,7183
x!
W ( X x)
x
v
e
v 0 v!
Die Parameter der Lage und der Streuung – der Erwartungswert, die Varianz und die
Standardabweichung – ergeben sich aus :
E( X ) Die Reparaturabteilung von Saturn erhält im Schnitt fünf Service-
anfragen pro Stunde. Wie hoch ist die Wahrscheinlichkeit, dass in
V ( X ) 2 und einer zufällig ausgewählten Stunde
12 12 Ford nimmt Stahlbleche nur in einer Stärke von 150 – 170 mm ab.
Wie hoch ist der Ausschuss des Walzwerkes (Anteil in %)?
f(x)
1/(d-c)
c d x
f ( x) f N ( x; , 2 ) 1 e 2
für x und 0
2
2
x
1 x
F ( x) FN ( x; , 2 ) 1 dv für x und 0
e
2
2
0,025 E( X )
0,02 V ( X ) 2 und 2
0,015
0,01
0,005
b) Verteilungsfunktion
FN(x,=1.000,)
0,5
z
x
55 40
1,50
Gesuchter Anteil z 45 40 0,50 Gesuchter Anteil
10
1 – 0,9332 = 0,0668
bzw. 6,68 %
Prof. Dr. Marc Piazolo
10 38,29 %
124
3.3.3 Exponentialverteilung
Treten Ereignisse in einem Poisson-Prozess auf, dann folgt der zeitliche oder räumliche
Abstand zwischen aufeinander folgenden Ereignissen einer Exponentialverteilung.
f ( x) e x für x 0 F(X) = W (X x) = 1 – e–x
1 F‘(X) = f(x) = (– ) (–e–x) = e–x
2 12 bzw. 1 W = (X > x) = 1 – W(X x) = e–x
f(x)
1,5
0,5
x
0 1 2 3 4
Abb. 59: Exponentialverteilungen 125
Zusammenfassung:
Die Methoden der Induktiven bzw. Schließenden Statistik erlauben es, auf Basis von
Stichproben Informationen über die Grundgesamtheit zu gewinnen; d.h. wir können
aufgrund von Stichproben Rückschlüsse auf bestimmte Eigenschaften der Grundge-
samtheit ziehen. Zwei Verfahrensweisen: Parametertests und Hypothesentests.
Ein Statistiker oft die Aufgabe, Informationen über bestimmte Eigenschaften einer
ganzen Grundgesamtheit zu ermitteln. Methoden zur Ermittlung der Parameter :
(1) Vollerhebungen
Jedes einzelne Element der Grundgesamtheit wird erfasst und mit in die
Untersuchung einbezogen. Dieses Verfahren liefert das exakteste Ergebnis. Als das
bekannteste Beispiel einer Vollerhebung sei hier die Volkszählung genannt.
(2) Auswahl muss so vorgenommen werden, dass ihre Auswertung mit statistisch-
mathematischen Methoden durchgeführt werden kann.
x
- 3 - 2 - + +2 +3
z
-3 -2 -1 0 1 2 3
(3) Approximationseigenschaft:
Manche Zufallsvariablen sind nicht normalverteilt. Allerdings nähert sich deren
Verteilung unter gewissen Prämissen einer Normalverteilung an, d.h. die
Verteilung lässt sich durch eine Normalverteilung approximieren. Aufgrund des
zentralen Grenzwertsatzes nimmt die Stichprobenverteilung des Mittelwertes
oder anderer Stichprobenparameter die Form der Normalverteilung an, wenn die
Stichprobe wächst. Dies gilt unabhängig von der Verteilungsform der
Grundgesamtheit, aus der die Stichprobe stammt.
Anwendung
Intervallschätzung für Varianz
Anpassungstests
Unabhängigkeitstest
Anzahl Freiheitsgrade
(griechisches n, ausgesprochen "nü")
132
Abb. 65: 2-Verteilung – kritischer x-Wert
fS (x,)
0,4 Anwendung
Signifikanz der
2 Regressionskoeffizienten
0,3 (Regressionsanalyse)
1
0,2 Normalverteilung
0,1
x
-2 -1 0 1 2
Dient der Überprüfung der Gleichheit zweier Varianzen. Eine F-verteilte Zufallsvariable
Ist ein Quotient aus zwei Zufallsvariablen, wobei BEIDE chiquadratverteilt sind.
X 2 X12 X 22 ... X n21 X2
v 2 v
Y 2 Y12 Y22 ... Yn22 F 12 X 2 2
Y Y v1
v2
fF (1=30,2=11)
0,8
Anwendung
0,6 Varianzanalyse
(Mehrstichprobe)
0,4
0,2
z
1 2 2,57 3
Abb. 67: Beispiel einer F-Verteilung
Prof. Dr. Marc Piazolo 135
4.2 Schätzverfahren
4.2.1 Grundlagen
Analoger
Parameter in der
Parameter in Bedeutung dieses Parameters
Stichprobe
der GG
n N Anzahl der Elemente in der jeweiligen Gesamtheit
X Arithmetisches Mittel des Untersuchungsmerkmals
p Anteilswert (rel. Häufigkeit) des Untersuchungsmerkmals
s Standardabweichung der Merkmalsausprägung
Tab. 48: Größenbezeichnung der Parameter
Schätzverfahren
Punktschätzungen Intervallschätzungen
136
4.2.3 Intervallschätzung für Mittelwerte
Bei einer Intervallschätzung wird ein die Punktschätzung einschließender Bereich
ermittelt, in dem mit „sehr großer“ Wahrscheinlichkeit der Parameter der
Grundgesamtheit liegt. Diesen Bereich bezeichnen wir als Vertrauens- oder auch
Konfidenzintervall.
„Aufgrund des Stichprobenmittelwertes von schließen wir darauf, dass der Mittelwert
der Grundgesamtheit mit einer Wahrscheinlichkeit von 95 % im Bereich zwischen
31,9 36,1 liegt.“
n
Zufallsvariable, die selbst aus n Zufallsvariablen besteht: X 1 ( X1 X 2 ... X n ) 1 X i
n n i 1
f ( X , , )
X
X
- 3 - 2 - + +2 +3
Z X
-3 -2 -1 0 1 2 3 X
Konfidenzintervall für : X z X X z X X N n
n N 1
W ( X z X X z X ) 1
140
Beispiel – Intervallschätzung Mittelwert (σ bekannt)
Im WS 2015/16 waren an der HS KL 6.500 Studierende (= N) eingeschrieben.
Für die Schätzung der Durchschnittsgröße wurde eine Stichprobe gezogen (n = 60).
Diese ergab eine durchschnittliche Körperlänge von 175 cm.
In welchem Bereich liegt der Mittelwert der Grundgesamtheit (µ), wenn die Irrtumswahrscheinlichkeit
auf ein Prozent (α = 0,01) festgelegt wird?
ˆ s n N n ˆ X ˆ N n ˆ X s N n
n 1 N 1 N 1
BKF EKF
n
n N 1
X
(2) Ermittlung des z-Wertes für 1 = 0,95 Z
ˆ X
Zufallsvariable einer Stichprobe kann nach dem zentralen Grenzwertsatz dann durch die
Normalverteilung approximiert werden, wenn der Stichprobenumfang n genügend groß ist.
Bei einem Stichprobenumfang n > 30 (Faustregel) kann wieder die Tabelle der Normalverteilung
benutzt werden. Sie müssen dabei die Student-t-Verteilung nur für den Fall kleiner Stichproben
anwenden, bei denen Sie den Standardfehler geschätzt haben (Abbildung 72).
142
Beispiel – Intervallschätzung Mittelwert (σ unbekannt)
Im WS 2015/16 waren an der HS KL 6.500 Studierende (= N) eingeschrieben.
Für die Schätzung der Durchschnittsgröße wurde eine Stichprobe gezogen (n = 20).
Diese ergab eine durchschnittliche Körperlänge von 175 cm bei einer Standardabweichung von 8 cm.
In welchem Bereich liegt der Mittelwert der Grundgesamtheit (µ), wenn die Irrtumswahrscheinlichkeit
auf ein Prozent (α = 0,01) festgelegt wird?
n 30 n 30
(1 ) N n
Damit können wir wieder durch die Transformation Z P mit P
N 1
P n
p
Z
ˆ P
Prof. Dr. Marc Piazolo 145
Beispiel – Intervallschätzung Anteilswert
Für die Bevölkerung der Stadt Homburg (Saar) mit 26.000 Haushalten soll der Anteil der Haushalte
mit mehr als einem PKW geschätzt werden.
Dazu wird eine Stichprobe von 100 Haushalten erhoben.
40 Haushalte sind im Besitz von mehr als einem Fahrzeug.
Bestimmen Sie das 95%-Konfidenzintervall für den Anteil θ der Haushalte, die mehr als einen PKW
besitzen.
p z ˆ p p z ˆ p
0, 4 1,96 0, 0492 0, 4 1,96 0, 0492
W (0,304 0, 496) 0,95
Prof. Dr. Marc Piazolo 146
4.2.5 Intervallschätzung für Varianz und
Standardabweichung
(n 1) s ² (n 1) s²
n W ² 1
( xi X )²
1
2
2
2
Stichprobenvarianz s² i 1
Intervalle
n 1 (n 1) s ² (n 1) s ²
W 1
Bei der Firma Bosch (Homburg/Saar) wird eine
Stichprobe von 25 geringfügig Beschäftigten erhoben.
2
1 2
2
Der Durchschnittsverdienst liegt bei 510 EUR mit
einer Varianz von 30 EUR. 12 F (1
2 ; n 1)
1
2
Schätzen Sie die Varianz der Grundgesamtheit aller
geringfügig Beschäftigten (N = 300) bei einem Fehler- 22 F ( ; n 1)
2
risiko von 10%. 2
2
(1) Ablesen der beiden Werte der Verteilungsfunktion (Tabelle 14)
12 F (1
2 ; n 1) F 2 (0,95; 24) 36, 42
1
2 1
22 F ( ; n 1) F (0, 05; 24) 13,85
2 2
2
2 2
Wie groß muss die Stichprobe ausfallen, wenn die Intervallbreite bei +/- 2 Prozentpunkte und die
Irrtumswahrscheinlichkeit bei 5% liegen soll?
(1) Ermittlung des Schätzwertes für die Varianz des Anteilswertes der SPD
(1 ) pv 1 pv v 0, 25 0, 75 0,189
n 100
nv 1 99
(2) Bestimmung des z-Wertes (Tabelle 7) und der Intervallbreite z-Wert = 1,96
0, 02
(3) Stichprobenumfang
n
z ² 1 1,96² 0,189 1.815, 2
² 0, 02²
Prof. Dr. Marc Piazolo 148
Aus einer großen Grundgesamtheit an Beobachtungswerten wird eine Stichprobe
gezogen. Hieraus ermitteln wir die Stichprobenparameter Mittel- bzw. Anteilswert und
deren Standardabweichung. Die entsprechenden Parameterwerte der Grundgesamt-
heit bleiben unbekannt. Nun lässt sich mit Hilfe von Schätzverfahren berechnen, dass
mit einer bestimmten Vertrauenswahrscheinlichkeit die tatsächlichen Parameterwerte
der Grundgesamtheit in einem Intervall um den Stichprobenparameterwert liegen. Die
Breite des Konfidenzintervalls um den Stichprobenparameter ist abhängig von
folgenden Faktoren:
(1) Umfang der Stichprobe; sobald die Stichprobe mehr als 30 Elemente enthält, greift
der zentrale Grenzwertsatz;
(2) Umfang der Stichprobe im Verhältnis zur Grundgesamtheit
(Endlichkeitskorrekturfaktor);
(3) Kenntnis über die Standardabweichung der Grundgesamtheit ().
In der Marktforschung fällt zudem die Frage nach dem nötigen Umfang einer Stich-
probe an. Der Stichprobenumfang lässt sich bei Festlegung der zulässigen
Intervallbreite und der Vertrauenswahrscheinlichkeit berechnen. Dafür benötigen wir
ebenfalls die Kenntnis über die Varianz der Grundgesamtheit bzgl. Mittel- bzw.
Anteilswert. Letztere fehlt uns in der Regel. Deshalb müssen wir die Varianz im
Rahmen einer Vorstichprobe schätzen. 149
4.3 Hypothesentests
4.3.1 Grundlagen
Mit einer Hypothese treffe Sie eine Aussage über die Grundgesamtheit. Folglich sind
Hypothesentests bzw. „Testverfahren“ dazu da, eine Entscheidung über die Annahme
oder Ablehnung einer Hypothese über eine Eigenschaft der Grundgesamtheit zu
treffen.
• Einstichproben- und Mehrstichproben-Testverfahren.
• Testverfahren nach der Art der aufgestellten Hypothesen:
1. Hypothesen über Parameter einer Grundgesamtheit, z.B. über Mittelwerte, Anteilswerte,
Varianzen usw. Hier kommen Parametertests zur Anwendung;
2. Hypothesen zu Unterschieden eines Parameter zwischen mehreren Stichproben
(Varianzanalyse);
3. Hypothesen über bestimmte Verteilungsannahmen in der Grundgesamtheit, z.B.: „Die
Merkmale in der Grundgesamtheit sind normalverteilt.“ Zur Prüfung derartiger Hypothesen
wird ein Anpassungstest verwendet;
4. Hypothesen über die Abhängigkeit bzw. Unabhängigkeit zwischen zwei Merkmalen in der
Grundgesamtheit. Hier werden Unabhängigkeitstests eingesetzt.
152
Abb. 75: Verringerung des - und des -Fehlers bei höherem Stichprobenumfang (n)
n
( xi X )²
Stichprobenvarianz s² i 1
n 1
Körpergröße von Männern zu Beginn des 20. Jahrhunderts: 175 cm. Sind Männer heute (2016) größer?
Wir ziehen eine Stichprobe mit 80 Männer, die im Schnitt 180 cm groß sind. Die Standardabweichung der
Grundgesamtheit sei mit 12 cm gegeben. Die Irrtumswahrscheinlichkeit beträgt 1%.
Ablehnungsbereich
Annahmebereich der Nullhypothese der Nullhypothese
= 0,01
1 – = 0,99
Z
0 zc = 2,33
fN (z,=0,=1)
1 0, 95
0, 025
0, 025
2 2
Annahmebereich der Nullhypothese
Z
156
fN (z,=0,=1)
Ablehnungsbereich
Annahmebereich der Nullhypothese der Nullhypothese
0,05
1 = 0,95
Z
0 zc = 1,65
fN (z,=0,=1)
0,05
1 = 0,95
Die Brenndauer eines Modells an Projektionslampen sei normalverteilt mit μ = 1.000 Std. und σ = 60 Std.
Der Hersteller experimentiert mit eine r neuen Glühfadenlegierung, um die Brenndauer zu erhöhen.
Er zieht eine Stichprobe mit 200 Lampen, deren durchschnittliche Brenndauer bei 1.015 Std. liegt.
Kann mit einer Vertrauenswahrscheinlichkeit von 95% gesagt werden, dass sich die Brenndauer
signifikant erhöht hat?
X N n 60 zb = 3,54
4, 24
n N 1 200
0 zc = 1,65
Z z
1.015 1.000
zb 3,54
4, 24 x
= 1.000 xc 1.006,6 xb 1.015
(5) Entscheidung zb > zc
Xc
zc X c zc X 1,65 4,24 1.000 1.007 Abb. 80: Entscheidungssituation bei
X Prof. Dr. Marc Piazolo 158
einseitigem Mittelwerttest – Projektionslampen
Bisher war Standardabweichung der Grundgesamtheit gegeben. Häufig stehen wir
jedoch bei Mittelwerttests vor dem Problem, dass wir zwar eine Hypothese über den
Mittelwert der Grundgesamtheit aufstellen können, aber uns die Varianz des
Untersuchungsmerkmals in der Grundgesamtheit nicht bekannt ist. In diesen Fällen
lässt sich der Standardfehler des Mittelwertes nicht so einfach berechnen. Hier
müssen wir den Standardfehler als schätzen. Teilweise finden Sie in der Literatur für
den geschätzten Standardfehler auch das Symbol . Aufgrund dessen verändern sich
aber die für den Test wichtigen Verteilungsannahmen. Die Prüfgröße:
X X N n
zb
ˆ X
oder t ˆ X s
sX n N 1
Dem Lebensmitteldiscounter Aldi werden 5.000 Stück „Echter Schwarzwälder Kochschinken“ geliefert.
Vertraglich ist ein Durchschnittsgewicht von 2,5 kg/Stück zugesichert.
Der Einkäufer von Aldi vermutet jedoch, dass die Großschlachterei den Schinken mit einem deutlich
geringeren Gewicht von 2,1 kg/Stück anliefert. Zur Kontrolle zieht der Einkäufer eine Stichprobe von
100 Schinken und lässt diese nachwiegen: im Schnitt lag das Gewicht bei 2,4 kg/Stück und deren
Standardabweichung bei 1,2 kg. Prüfen Sie, ob der Abnehmer (Aldi) mit 95%iger Sicherheit davon
ausgehen kann übers Ohr gehauen zu sein.
Nullhypothese
fN(z,0,1)
= 0,05
Z
-3.496 zc=-1,65 0
X
μ1=2,1 xc=2,302 μ1=2,5
Von 1.800 Teilnehmern präferieren 780 diese Volkspartei. Kann die Parteiführung mit einer
Wahrscheinlichkeit von 95% schlussfolgern, dass ihre Ausgangshypothese zu halten ist?
1 N n
1 0, 95
0, 4 0, 6
p 0, 0115
0, 025 0, 025
n N 1 1800 2 2
p 0, 433 0, 4 Z
zb 2,90
p 0, 0115
zc = - 1,96 0 zc = 1,96
Annahmebereich der Nullhypothese
0,4
(5) Entscheidung zb > zc pc = 0,3775 pc = 0,4225
p
pc zc p 1,96 0,0115 0,4 0,4225 Abb. 81: Entscheidungssituation bei zweiseitigem 163
Anteilswerttest – Parteipräferenz
4.3.2.3 Vergleich von zwei Mittelwerten
• 2 2
Standardfehler der Mittelwertdifferenzen D 1 2
n1 n2
• Standardfehler der Mittelwertdifferenzen
D 1 1
n1 n2
ˆ
n1 1 s12 n2 1 s22
n1 n2 2
Die Motoren aus Werk I (Homburg) kommen auf eine durchschnittliche Laufleistung von 184.000 km, bei
einer Standardabweichung von 1.450 km.
Im Auslandswerk (Werk II) lag die Laufleistung bei 175.000 km im Schnitt, bei einer
Standardabweichung von 1.550 km.
Prüfen Sie, ob – mit Blick auf die Laufleistung – die beiden Boschwerke Dieselmotoren unterschiedlicher
Qualität liefern. Die Irrtumswahrscheinlichkeit legen Sie auf 5% fest.
ˆ
40 1 1.450² 40 1 1.550² 1.500,8 km d 184.000 175.000
40 40 2 zb 26,8
ˆ D 335,6
(5) Entscheidung zb > zc
Prof. Dr. Marc Piazolo 165
fN (z,=0,=1)
1 0,95
0, 025
0,025
2 2
Annahmebereich der Nullhypothese
Z
zc = - 1,
1,96 0 zc = 1,96
D
dc=-657,8 0 dc=+657,8
R 1
1 1
Standardfehler
n1 n2
Grundgesamtheit ˆ n1 p1 n2 p2
n1 n2 2
z-Statistik für den Test der Nullhypothese besagt, dass es keinen Unterschied zwischen
den relativen Häufigkeiten zweier Grundgesamtheiten gibt
r p1 p2
z
R R
Prüfen Sie bei einer Irrtumswahrscheinlichkeit von 10%, ob die relative Reparaturanfälligkeit zwischen
den beiden Modellen gleich hoch ist.
Mit Hilfe der einfachen Varianzanalyse können wir die Analyse auf mehr als zwei
Stichproben ausweiten; d.h. es geht in diesem Abschnitt um den Vergleich mehrerer
arithmetischer Mittelwerte. Da für die Prüfgröße dieses Testverfahrens Varianzen eine
entscheidende Rolle übernehmen, sprechen wir von der Varianzanalyse.
Herr Meyer besitzt einen Gartengrundstück mit einer 1.300 m² Rasenfläche, die er als Liebhaber
englischer Gärten akribisch mit einem kleinen Benzinrasenmäher regelmäßig schneidet.
Alle 2 Monate füllt er den 10 l Kanister an der Tankstelle seines Nachbarn auf. Laut Angabe tankt
Herr Meyer immer genau 10 Liter Benzin. Je nach Zapfsäule stellt er jedoch fest, dass der Kanister
gar nicht bis zum Rand gefüllt ist. Dies berichtet er dem Tankstellenpächter.
Sie wollen nun überprüfen, ob ein Fehler in der Eichung der Zapfsäulen vorliegt. Hierzu ziehen sie
gemeinsam an den vier Zapfsäule je vier Proben und messen diese haargenau nach. Das
Signifikanzniveau legen sie auf 1% fest.
169
Stichprobeninhalte bei einer Anzeige von genau 10 l
bzw. in Deziliter (dl)
Probe in dl Zapfsäule 1 Zapfsäule 2 Zapfsäule 3 Zapfsäule 4
i x1i x2i x3i x4i
1 101 97 101 94
2 102 96 99 91
3 98 94 98 90
4 99 98 98 95
r n 2
Freiheitsgrade
j 1 i 1
x ji X j
s 2pool . gepoolte Varianz der Einzelbeobachtungen
1 r 1 r n 1
2 r (n 1)
170
(3) Prüfverteilung – F-Verteilung (Tabellen 11-13)
1 4 1 3
Signifikanzniveau: 1% (Tabelle 13) mit Freiheitsgrade
2 4 (4 1) 12
Fc F123 [0,99] =5,95
(4) Berechnung der Prüfgröße
r Stichprobenmittelwert
j 1
Xj
X1 X 2 X 3 X 4 100 96,25 99 92,5
X X 96,94.
r r 4
Varianz der beobachteten Stichprobenmittelwerte
r 2
X X
j
j 1
100 96,94 96,25 96,94 99 96,94 92,5 96,94
2 2 2 2
s X2 s2 11,26.
r 1 X 4 1
Zapfsäule 1: 101 100 102 100 98 100 99 100 10;
2 2 2 2
Zapfsäule 2: 97 96,25 96 96,25 94 96,25 98 96, 25 8,75;
2 2 2 2
Zapfsäule 4: 94 92,5 91 92,5 90 92,5 95 92,5 17.
2 2 2 2
r n 2 r n 2
j 1 i 1
x ji X j
j 1 i 1
x ji X j
10 8,75 6 17
s 2pool . s 2pool 3,48.
r n 1 r n 1 4 4 1
(5) Entscheidung
n s X2
2
Fb Fc Fnr*1r [1 ] bzw. Frr(1n1)[1 ] Fb 12,94 5,95 Fc
s pool
Tab. 53: Realisierte und theoretische Werte als Grundlage für Anpassungstests
173
Beispiel – Anpassungstest mit n > 50
Sie spielen mit einem Kumpel „Mensch ärgere Dich nicht“. Nach mehrmaligen Verlieren vermuten
Sie, dass ihr Freund mit einem manipulierten Würfel spielt. Falls der Würfel fair ist, dann müsste jede
Augenzahl gleichwahrscheinlich auftreten. Somit kann man auf Gleichverteilung einer sechswertigen
Variablen testen. Ihr Kumpel willigt dem Test ein, da er sich keiner Schuld bewusst ist. Zu 5% dürfen
sich die beiden irren. Nach 120 Würfen können Sie das folgende Ergebnis festhalten.
6,9 b2
9 9 16 4 36 64
20 20 20 20 20 20
Hilfstabelle wird aufgestellt: Wir suchen dort nach der maximalen Abweichung
Db max => hier Db = 0,3207
5. Entscheidung
Db < Dc
0,3207 < 0,409; H0 wird beibehalten
Merkmalsaus y1 y2 . . . yc
-prägungen x1 h11 h12 . . . h1c h1•
von X x2 h21 h22 . . . h2c h2•
. . . . .
. . . . .
. . . . .
xr hr1 hr2 . . . hrc hr•
h•1 h•2 . . . h•c h••
Tab. 55: Kontingenztabelle zweier Variablen X und Y (absolute Häufigkeiten)
Für absolute Häufigkeiten lässt sich für jedes Feld der Kontingenztabelle aus den
Randhäufigkeiten ein theoretischer Wert berechnen: hth h j hi
ij
n
2
r c hij hijth
Quadratischen Kontingenz (QK) QK
i 1 j 1 hijth
mit r = Anzahl der Zeilen und c = Anzahl der Spalten.
Testregel: Falls QK (2r 1)(c1) 1 H 0 verwerfen.
180
Beispiel – Kontingenztafeltest – Pepsi-Coke-Test
2116,8
2
(12 16,2)2 (6 10,2)2 (14 9,8)2
QK 5,66 zb
16,8 16,2 10,2 9,8
(5) Entscheidung
b2 5, 66 6, 63 c2
181