Schließende Statistik
Grundbegriffe
188
Definition
Eine mathematische Stichprobe vom Umfang n ist ein
zufälliger Vektor (X1, X2, . . . , Xn), dessen Kompo-
nenten Xi Zufallsgrößen sind, die unabhängig und
identisch wie X verteilt sind.
189
Beispiel
Die Auswirkungen einer Veränderung der Arbeits-
bedingungen auf die Arbeitsgeschwindigkeit soll un-
tersucht werden. Dazu wurde nach durchgeführter
Änderung bei n = 25 Arbeitern die Dauer des
zu Grunde liegenden Montageprozesses (in Minuten)
beobachtet. Wir nehmen an, dass die Bearbeitungs-
zeit eine normalverteilte Zufallsgröße ist.
Mathematische Formulierung:
X ∼ N (θ, σ)
(X1, X2, . . . , X25) mathematische Stichprobe
190
1. Aufgabe:
Wir sind an der mittleren Bearbeitungszeit für (alle,
nicht nur die 25 ausgewählten) Arbeiter für den Mon-
tagevorgang interessiert, also an θ ⇒
Parameterschätzung
2. Aufgabe:
Wir wollen überprüfen, ob dieser Wert höher als die
durchschnittliche Dauer vor der Veränderung der Ar-
beitsbedingungen (25.6) ist. Es könnte ja z. B. ein
unglücklicher Zufall“ sein, dass wir bei den 25 aus-
”
gesuchten Arbeitern eine erhöhte Arbeitszeit nach
Veränderung der Arbeitsbedingungen ermittelt ha-
ben ⇒
Prüfen statistischer Hypothesen
191
Parameterschätzungen: Punktschätzungen
Definition
Eine Funktion
192
Beispiel
X ∼ N (θ, σ)
Eine sinnvolle Schätzfunktion für θ ist offenbar
n
1 X
X = T (X1, X2, . . . , Xn) = Xi .
n i=1
Der Schätzwert ergibt sich in obiger Situation dann
25
1 X
als t = xi = 26.9. Er entspricht der in Ab-
25 i=1
schnitt 1 betrachteten Maßzahl x (arithmetischer Mit-
telwert).
193
Definition
Eine Schätzfunktion T (X1, X2, . . . , Xn) heißt erwar-
tungstreu für θ, wenn
194
Beispiel
X ∼ N (θ, σ)
Die Schätzfunktion
n
1 X
X = T (X1, X2, . . . , Xn) = Xi
n i=1
ist erwartungstreu für θ.
Beweis
n
1 X
E(T ) = E(X) = E Xi
n i=1
n n
1 X 1 X
= E(Xi) = θ
n i=1 n i=1
1
= ·n·θ = θ.
n
Bemerkung
Die Normalverteilungseigenschaft haben wir bei die-
sem Beweis gar nicht verwendet.
195
Allgemein gilt der folgende wichtige Satz, der die Be-
deutung des arithmetischen Mittels untermauert (Be-
weis wie oben).
Weitere Anwendung:
Schätzen des Parameters λ einer Poisson-Verteilung
oder Schätzen einer Wahrscheinlichkeit.
196
Schätzen einer Wahrscheinlichkeit
Mathematische Formulierung:
1 Teil Ausschuss
X= P (X = 1) = θ
0 sonst
197
Beim Schätzen der Varianz einer Grundgesamtheit
gibt es Besonderheiten.
198
Ist E(X) dagegen nicht bekannt (das ist die üblicher-
weise vorliegende Situation), dann muss E(X) durch
X geschätzt werden. Die Schätzfunktion
n
X
1
Ŝ 2 = T (X1, X2, . . . , Xn) = (Xi − X)2
n i=1
1 σ 2 , ist also
besitzt allerdings den bias b(σ 2) = − n
nicht erwartungstreu (nur asymptotisch erwartungs-
treu). Die Schätzfunktion
n
X
1
S 2 = T (X1, X2, . . . , Xn) = (Xi − X)2
n − 1 i=1
ist dagegen erwartungstreu, was die Verwendung des
Terms n − 1 in der empirischen Varianz in Abschnitt 1
erklärt.
Anwendung:
Schätzen des Parameters σ 2 einer Normalverteilung.
199
Neben der Erwartungstreue gibt es weitere Gütekrite-
rien für Schätzfunktionen
• Effizienz (Wirksamkeit)
Die VarianzD2(T (X1, X2, . . . , Xn))der Schätz-
funktion soll möglichst klein sein.
• Konsistenz
Die Schätzfunktion muss für große Stichpro-
benumfänge (in einem gewissen Sinne) gegen
den zu schätzenden Parameter konvergieren,
T (X1, X2, . . . , Xn) → θ.
200
Parameterschätzungen: Intervallschätzungen
Beispiel
Die Arbeitszeit nach Veränderung der Arbeitsbedin-
gungen soll untersucht werden. Dazu wird eine Stich-
probe von n = 25 Arbeitern ausgewählt und die zu-
gehörigen Arbeitszeiten werden bestimmt. Das arith-
metische Mittel dieser Werte beträgt x = 26.9, die
empirische Varianz s2 = 4.1 (konkrete Stichprobe
von vorn).
µ x x
201
Wir wissen bereits, dass das arithmetische Mittel 26.9
eine gute Schätzung für µ ist.
µ x x
x µ x
202
Ausgehend von unserer konkreten Stichprobe vom
Umfang 25 stellen sich daher die folgenden Fragen:
203
Konfidenzintervalle
Definition
Sei (X1, X2, . . . , Xn) eine mathematische Stichpro-
be vom Umfang n zur Grundgesamtheit X. Die
Grundgesamtheit X besitze einen Parameter, über
den im folgenden Aussagen zu treffen sind. α sei
gegeben, 0 < α < 1. α wird üblicherweise klein“
”
gewählt (α = 0.05, α = 0.02, α = 0.01).
Ein Konfidenzintervall Iθ für den Parameter θ zum
Konfidenzniveau 1 − α ist ein Intervall (L, U )
mit zufälligen Grenzen L(X1, X2, . . . , Xn) und
U (X1, X2, . . . , Xn) mit der Eigenschaft
P (L < θ < U ) = 1 − α .
Für eine konkrete Stichprobe x1, x2, . . . , xn heißt das
Intervall (L(x1, x2, . . . , xn), U (x1, x2, . . . , xn)) kon-
kretes Konfidenzintervall für θ.
204
Wir setzen im Weiteren voraus, dass die Montagezeit
eine normalverteilte Zufallsgröße x sei, X ∼ N (µ, σ).
205
Konfidenzintervall für den Erwartungswert µ einer
Normalverteilung
206
Mit dieser Information können Wahrscheinlichkeiten,
die mit X zusammenhängen, berechnet werden.
P (L < µ < U ) = 1 − α
interessiert.
L µ X U x
Interpretation
Wenn wir der Grundgesamtheit nacheinander Stich-
proben desselben Umfangs n entnehmen und jedes
mal ein solches Intervall (L, U ) bestimmen, wird µ im
Mittel von (1−α)·100 % dieser Intervalle überdeckt.
207
Strategie:
P (X − δ < µ < X + δ) = 1 − α ,
und wählen dann
L=X −δ and U = X + δ .
208
Damit ist
P (X − δ < µ < X + δ) = 1 − α ,
äquivalent zu
√ √
n n
P (− δ<Z< δ) = 1 − α ,
σ σ
mit einer standardnormalverteilten Zufallsgröße Z
und daraus folgt
√ √
Φ( σ δ) − Φ(− σn δ) = 1 − α
n
√
2Φ( σn δ) − 1 = 1 − α
√
Φ( σn δ) = 1 − α2
√
n
σ δ = z1− 2
α
δ = z1− α · √σn
2
209
Das Resultat
Es gilt
σ σ
P (X − z1− α √ <µ<X+ z1− α √ ) = 1 − α.
| {z
2 n } | {z
2 n }
L U
1−α
L µ X U x
210
Quantile
Definition
Es sei X eine stetige Zufallsgröße mit Dichtefunktion
f (x) und Verteilungsfunktion F (x). Sei q eine reelle
Zahl mit 0 < q < 1. Der Wert xq mit
Zxq
F (xq ) = f (t) dt = q
−∞
heißt q-Quantil (oder Quantil der Ordnung q) der
zugehörigen Verteilung.
f (x)
xq x
F (x)
xq x
211
Wichtige Quantile der Standardnormalverteilung: zq
Beispiel:
Falls die Zufallsgröße Z eine Standardnormalverteilung besitzt, gilt
α z1− α Iµ
2
0.05 1.960 (26.12, 27.68)
0.02 2.326 (25.97, 27.83)
0.01 2.576 (25.87, 27.93)
213
Konfidenzintervalle in anderen Situationen
(ohne Herleitung)
α tn−1,1− α Iµ
2
0.05 2.064 (26.06, 27.74)
0.02 2.492 (25.89, 27.91)
0.01 2.797 (25.77, 28.03)
214
Konfidenzintervall Iσ 2 für die Varianz σ 2 einer
Normalverteilung
wobei χ2 α
n−1,1− 2
und χ 2
α
n−1, 2
die Quantile der χ 2-
α χ2 α
n−1, 2
χ 2
n−1,1− α
Iσ 2
2
0.05 12.40 39.36 (2.50, 7.94)
0.02 10.86 42.98 (2.29, 9.06)
0.01 9.89 45.56 (2.16, 9.95)
215
Konfidenzintervall Iσ für die Standardabweichung
σ 2 einer Normalverteilung (Spezialfall: untere
Grenze Null)
wobei χ2 2
n−1,α das Quantil der χ -Verteilung mit n − 1
Freiheitsgraden der Ordnung α ist.
α χ2
n−1,α Iσ
0.05 13.85 (0, 2.67)
0.02 11 .99 (0, 2.86)
0.01 10.86 (0, 3.01)
216
Wichtige Quantile der t-Verteilung (Student-Verteilung): tm,q
q
m 0.65 0.7 0.75 0.8 0.85 0.9 0.95 0.975 0.99 0.995
1 0.510 0.727 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.656
2 0.445 0.617 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925
3 0.424 0.584 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841
4 0.414 0.569 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604
5 0.408 0.559 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032
6 0.404 0.553 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707
7 0.402 0.549 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499
8 0.399 0.546 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355
9 0.398 0.543 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250
10 0.397 0.542 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169
11 0.396 0.540 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106
12 0.395 0.539 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055
13 0.394 0.538 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012
14 0.393 0.537 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977
15 0.393 0.536 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947
16 0.392 0.535 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921
17 0.392 0.534 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898
18 0.392 0.534 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878
19 0.391 0.533 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861
20 0.391 0.533 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845
21 0.391 0.532 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831
22 0.390 0.532 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819
23 0.390 0.532 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807
24 0.390 0.531 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797
217
25 0.390 0.531 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787
Wichtige Quantile der t-Verteilung (Student-Verteilung): tm,q
Fortsetzung:
q
m 0.65 0.7 0.75 0.8 0.85 0.9 0.95 0.975 0.99 0.995
30 0.389 0.530 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750
40 0.388 0.529 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704
50 0.388 0.528 0.679 0.849 1.047 1.299 1.676 2.009 2.403 2.678
60 0.387 0.527 0.679 0.848 1.045 1.296 1.671 2.000 2.390 2.660
70 0.387 0.527 0.678 0.847 1.044 1.294 1.667 1.994 2.381 2.648
80 0.387 0.526 0.678 0.846 1.043 1.292 1.664 1.990 2.374 2.639
90 0.387 0.526 0.677 0.846 1.042 1.291 1.662 1.987 2.368 2.632
100 0.386 0.526 0.677 0.845 1.042 1.290 1.660 1.984 2.364 2.626
150 0.386 0.526 0.676 0.844 1.040 1.287 1.655 1.976 2.351 2.609
200 0.386 0.525 0.676 0.843 1.039 1.286 1.653 1.972 2.345 2.601
500 0.386 0.525 0.675 0.842 1.038 1.283 1.648 1.965 2.334 2.586
1000 0.385 0.525 0.675 0.842 1.037 1.282 1.646 1.962 2.330 2.581
218
Wichtige Quantile der χ2-Verteilung: χ2
m,q
q
m 0.005 0.01 0.025 0.05 0.9 0.95 0.975 0.99 0.995
1 0.00 0.00 0.00 0.00 2.71 3.84 5.02 6.63 7.88
2 0.01 0.02 0.05 0.10 4.61 5.99 7.38 9.21 10.60
3 0.07 0.11 0.22 0.35 6.25 7.81 9.35 11.34 12.84
4 0.21 0.30 0.48 0.71 7.78 9.49 11.14 13.28 14.86
5 0.41 0.55 0.83 1.15 9.24 11.07 12.83 15.09 16.75
6 0.68 0.87 1.24 1.64 10.64 12.59 14.45 16.81 18.55
7 0.99 1.24 1.69 2.17 12.02 14.07 16.01 18.48 20.28
8 1.34 1.65 2.18 2.73 13.36 15.51 17.53 20.09 21.95
9 1.73 2.09 2.70 3.33 14.68 16.92 19.02 21.67 23.59
10 2.16 2.56 3.25 3.94 15.99 18.31 20.48 23.21 25.19
11 2.60 3.05 3.82 4.57 17.28 19.68 21.92 24.72 26.76
12 3.07 3.57 4.40 5.23 18.55 21.03 23.34 26.22 28.30
13 3.57 4.11 5.01 5.89 19.81 22.36 24.74 27.69 29.82
14 4.07 4.66 5.63 6.57 21.06 23.68 26.12 29.14 31.32
15 4.60 5.23 6.26 7.26 22.31 25.00 27.49 30.58 32.80
16 5.14 5.81 6.91 7.96 23.54 26.30 28.85 32.00 34.27
17 5.70 6.41 7.56 8.67 24.77 27.59 30.19 33.41 35.72
18 6.26 7.01 8.23 9.39 25.99 28.87 31.53 34.81 37.16
19 6.84 7.63 8.91 10.12 27.20 30.14 32.85 36.19 38.58
20 7.43 8.26 9.59 10.85 28.41 31.41 34.17 37.57 40.00
21 8.03 8.90 10.28 11.59 29.62 32.67 35.48 38.93 41.40
22 8.64 9.54 10.98 12.34 30.81 33.92 36.78 40.29 42.80
23 9.26 10.20 11.69 13.09 32.01 35.17 38.08 41.64 44.18
24 9.89 10.86 12.40 13.85 33.20 36.42 39.36 42.98 45.56
219
100 67.33 70.06 74.22 77.93 118.50 124.34 129.56 135.81 140.17
Prüfen statistischer Hypothesen (Tests)
Beispiel
Qualitätskontrolle, Posten mit 100000 Teilen. Eine
konkrete Stichprobe vom Umfang n = 100 liefert
k = 7 fehlerhafte Teile. Der Hersteller behauptet,
dass es in der gesamten Lieferung weniger als 3 %
Ausschuss gibt. Ist das Stichprobenergebnis mit die-
se Behauptung verträglich?
223
Grundidee
Wir untersuchen (unter der Voraussetzung, dass die
Herstellerbehauptung wahr ist) die Wahrscheinlich-
keit, in einer Stichprobe vom Umfang n = 100 min-
destens 7 fehlerhafte Teile zu finden.
Es gibt 2 Möglichkeiten:
1. Diese Wahrscheinlichkeit ist groß“. Falls die
”
Herstellerbehauptung richtig ist, haben wir ein
völlig normales“ Ereignis beobachtet, wir können
”
damit nichts gegen die Herstellerbehauptung
sagen.
2. Diese Wahrscheinlichkeit ist klein“. Falls die Her-
”
stellerbehauptung richtig ist, haben wir ein sehr
seltenes Ereignis beobachtet. Seltene Ereignisse
treten aber naturgemäß selten ein. Wir führen un-
sere Beobachtung daher nicht auf solch ein sel-
tenes Ereignis zurück sondern darauf, dass die
Herstellerbehauptung falsch ist. Dabei besteht
das (kleine) Risiko, die Herstellerbehauptung ab-
zulehnen, obwohl sie eigentlich richtig ist.
224
Konkret:
(
1 Teil Ausschuss
X= P (X = 1) = p
0 sonst
Herstellerbehauptung (Hypothese): p = 0.03.
100
P
Betrachten Z = Xi. Falls die Hypothese rich-
i=1
tig ist, ist Z binomialverteilt mit den Parametern p =
0.03 und n = 100. Die Wahrscheinlichkeit, dass in
einer Stichprobe vom Umfang n = 100 mindestens
k = 7 fehlerhafte Teile sind, beträgt damit
P (Z ≥ 7) = 1 − P (Z < 7)
6 !
X 100
=1− 0.03i · 0.97100−i
i
i=0
= 0.03123
Diese Wahrscheinlichkeit ist klein. Wir gehen deshalb
davon aus, dass die Herstellerbehauptung falsch ist.
Die Wahrscheinlichkeit, dem Hersteller Unrecht zu
”
tun“ (also die Hypothese abzulehnen, obwohl sie rich-
tig ist), beträgt nur 3.123 %.
225
Allgemeines Vorgehen in 4 Schritten
Gegeben sei eine Grundgesamtheit X mit Vertei-
lungsfunktion F (x) sowie eine konkrete Stichprobe
(x1, x2, . . . , xn).
226
Entscheidungsregel
(a) t ∈ K ⇒ Ablehnung von H0
(Test ist signifikant).
(b) t ∈
/ K ⇒ Auf der Basis des durchgeführten
Tests ist nichts gegen H0 einzu-
wenden (Test ist nicht signifikant).
Bemerkungen
zu 1.
H0 heißt Nullhypothese.
Oft wird ein gewisser Verteilungstyp vorausgesetzt
und H0 beschränkt sich auf einen Parameter dieser
Verteilung.
Die hypothetische Verteilung kann eine aus gewis-
sen Erfahrungen heraus vermutete Verteilung sein.
Oft wird auch eine angezweifelte Verteilung gewählt
und man hofft“, dass H0 abgelehnt wird.
”
zu 2.
Testgrößen zu konstruieren ist i. allg. schwierig. Es
existieren vorgefertigte“ Testgrößen für verschiedene
”
Aufgabenstellungen.
227
zu 3.
Die Konstruktion des kritischen Bereichs funktioniert,
da die Verteilung von T bekannt ist, falls H0 richtig
ist.
α heißt Irrtumswahrscheinlichkeit oder Signifikanzni-
veau. Typische Werte sind α = 0.05, α = 0.01 oder
α = 0.005
zu 4.
Die Wahrscheinlichkeit, dass T im kritischen Bereich
liegt, obwohl H0 richtig ist, beträgt α. Das heißt, dass
die Wahrscheinlichkeit, H0 abzulehnen, obwohl H0
richtig ist, ebenfalls gerade α ist.
Eine entsprechende Fehlentscheidung heißt Fehler
erster Art. Sie tritt (bei Wiederholung des Tests) in ca.
α · 100 % aller Fälle auf.
Aus dem Nichtablehnen von H0 folgt i. allg. nicht,
dass H0 richtig ist.
228
Ausführliches Beispiel
Die Zahl der kranheitsbedingten Fehltage X
der Beschäftigten (einbezogen werden nur die
Beschäftigten, die überhaupt krank waren) eines Un-
ternehmens werde als normalverteilt angenommen,
X ∼ N (µ, σ). Weder µ noch σ können als bekannt
vorausgesetzt werden.
Der Erwartungswert der Zahl der entsprechenden
kranheitsbedingten Fehltage für die gesamte Branche
betrage µ0 = 18.50. Es soll getestet werden, ob
sich µ von µ0 unterscheidet.
Eine konkrete Stichprobe im Unternehmen vom
Umfang n = 64 ergebe x = 17.95 und s = 2.325.
Als vorgefertigte Testgröße (siehe Tabelle nach
diesem Beispiel) in dieser Situation kann
X − µ0 √
T = n
S
dienen.
229
Im konkreten Beispiel interessiere die (einseitige) Hy-
pothese
H0 : µ ≥ µ0 = 18.50 .
Es gilt
x − µ0 √ 17.95 − 18.50 √
t= n= 64 = −1.89 .
s 2.325
Es sei α = 0.05. Aus der Quantiltafel der t-Verteilung
mit 63 Freiheitsgraden folgt
t63,0.05 = −t63,1.95 = −1.67
und damit
K = (−∞, tn−1,α) = (−∞, −1.67) .
Damit liegt die Testgröße im kritischen Bereich. H0 ist
abzulehnen.
230
Weitere Testsituationen, zugehörige Testgrößen und
kritische Bereiche finden sich auf der Tabelle der fol-
genden Seite:
231
Zusammenstellung wichtiger Tests
X n −µ0 √
N(µ, σ 2 ) µ ≤ µ0 µ > µ0 T = σ
n T > z1−α = zγ σ 2 ist bekannt
X n −µ0 √
N(µ, σ 2 ) µ ≥ µ0 µ < µ0 T = σ
n T < −z1−α = −zγ σ 2 ist bekannt
X n −µ0 √
N(µ, σ 2 ) µ = µ0 µ = µ0 T = Sn
n |T | > tn−1,1− α2 σ 2 ist unbekannt
X n −µ0 √
N(µ, σ 2 ) µ ≤ µ0 µ > µ0 T = Sn
n T > tn−1,1−α σ 2 ist unbekannt
X n −µ0 √
N(µ, σ 2 ) µ ≥ µ0 µ < µ0 T = Sn
n T < −tn−1,1−α σ 2 ist unbekannt
2
N(µ, σ 2 ) σ 2 = σ02 σ 2 = σ02 T = (n − 1) Sσn2 T < χ2n−1, α µ ist unbekannt
0 2
oder
T > χ2n−1,1− α
2
Sn2
N(µ, σ 2 ) σ 2 ≤ σ02 σ 2 > σ02 T = (n − 1) σ02
T > χ2n−1,1−α µ ist unbekannt
2
N(µ, σ 2 ) σ 2 ≥ σ02 σ 2 < σ02 T = (n − 1) Sσn2 T < χ2n−1,α µ ist unbekannt
0
√
B(1, p) p = p0 p = p0 T = √ X−p0 n |T | > z1−α/2 X : rel. Häufigkeit
p0 (1−p0 )
n muß groß sein
√
B(1, p) p ≤ p0 p > p0 T = √ X−p0 n T > z1−α X : rel. Häufigkeit
p0 (1−p0 )
n muß groß sein
√
B(1, p) p ≥ p0 p < p0 T = √ X−p0 n T < −z1−α X : rel. Häufigkeit
p0 (1−p0 )
n muß groß sein
nA nB
(X A −X B ) nA +nB
N(µA , σA2 ) µA = µB µA = µB T = |T | > tnA +nB −2,1− α2 nA , nB müssen
(nA −1)S 2 +(nB −1)S 2
A B
nA +nB −2
Bezeichnung: X n ≡ X, Sn ≡ S
232