Sie sind auf Seite 1von 30

Statistische Datenanalyse

Induktive Statistik
Induktive Statistik

Beurteilung der
Schätzgenauigkeit

© Statistische Datenanalyse – 3 – Induktive Statistik 1/29


Standardfehler

a Ein naheliegendes Maß zur Beurteilung der


Schätzgenauigkeit ist die Varianz Var θ̂  eines Schätzers
θ̂ für den unbekannten Parameter θ.

a In den meisten Fällen kann die Varianz aber nicht direkt


berechnet werden. Beispielsweise hängt die Varianz des
Schätzers für den Erwartungswert einer Zufallsvariable
2
(µ̂ X) von der Varianz σ ab:
2
σ
Var µ̂ Var X n

© Statistische Datenanalyse – 3 – Induktive Statistik 2/29


Standardfehler
2
a Aus diesem Grund muss der unbekannte Parameter σ in
Var µ̂ geeignet durch

=
n
2 2 1 2
σ̂ S Xi  X 
n1
i 1

geschätzt werden. Dadurch erhalten wir eine Schätzung


der Varianz mit

u µ̂
Var 
σ̂
n
2
S
n
2

a Die geschätzte Standardabweichung des Schätzers


heißt Standardfehler.
×
S2
se µ̂ n
Geschätzte Standardabweichung des Schätzers µ̂ für µ.
© Statistische Datenanalyse – 3 – Induktive Statistik 3/29
Beispiel: Normalverteilung - Dow Jones
Index
Der Standardfehler des Schätzers

µ̂ x 0.027

ist × Ø
2
S 1.1382
se µ̂ n 0.008
22738

© Statistische Datenanalyse – 3 – Induktive Statistik 4/29


Übersicht Standardfehler
Verteilung von X Parameter Schätzer Standardfehler

beliebig mit Ö
S2
E X µ und µ µ̂ X se µ̂
2 n
Var X σ

Ö
2 S2
N µ, σ  µ µ̂ X se µ̂ n

Ö
B 1, π  π π̂ X se π̂ 

X 1 X
n

Ö
X
Po λ λ λ̂ X se λ̂ n

© Statistische Datenanalyse – 3 – Induktive Statistik 5/29


Beispiel: Euro Münzen
Bei 800 2-Euro-Münzwürfen kam 495 mal Zahl.
Der Standardfehler des Schätzers π̂
495
π̂ x 0.62
800
ist gegeben durch
×
0.62 1  0.62
se π̂  0.017
800

© Statistische Datenanalyse – 3 – Induktive Statistik 6/29


Konfidenzintervalle
Bisher betrachtet: Punktschätzer θ̂ für θ

Ziel:

Angabe eines Intervalls (sogenanntes Konfidenzintervall), das


den unbekannten Parameter mit hoher Wahrscheinlichkeit
1  α enthält. α heißt Irrtumswahrscheinlichkeit, z.B.
α 0.05 5 %, α 0.01 1 %.

Interpretation:

Wird das Schätzverfahren häufig wiederholt, dann enthalten


die konstruierten Intervalle den unbekannten Parameter in
95 % der Fälle.

© Statistische Datenanalyse – 3 – Induktive Statistik 7/29


Beispiel: Statistisches
Qualitätsmanagement
Zur Überprüfung, ob die Länge eines bestimmten
Werkstücks den dafür vorgesehenen Sollwert µ0 einhält,
wird eine Stichprobe von Werkstücken vom Umfang n
gezogen.

Da die Länge X eines Werkstücks von zufälligen


Schwankungen im Produktionsprozess abhängt, ist diese eine
Zufallsvariable. Damit sind die Längen X1 , . . . , Xn der
gezogenen Werkstücke auch Zufallsvariablen.

Häufig kann angenommen werden, dass X normalverteilt ist


2
mit Erwartungswert µ und Varianz σ .

Die Varianz wird aufgrund von Erfahrungswerten als bekannt


festgelegt.

© Statistische Datenanalyse – 3 – Induktive Statistik 8/29


Beispiel: Statistisches
Qualitätsmanagement
a Als Schätzer für die durchschnittliche Länge µ der
Werkstücke wird verwendet
1
µ̂ X n X1    Xn 

a Da Xi N 2
µ, σ  gilt
2
σ
µ̂ X N µ, n

und durch Standardisierung


Xµ X  µÓ
Z Ö σ n N 0, 1
σ2
n
Bemerkung: Dieses Ergebnis kommt vom Zentralen Grenzwertsatz, den wir in der letzten Vorlesung,
VO15, näher besprechen.

© Statistische Datenanalyse – 3 – Induktive Statistik 9/29


Beispiel: Statistisches
Qualitätsmanagement
a Damit gilt die Beziehung
X  µÓ
P z1 α
2
& σ n & z1 α
2
1α (1)

wobei z1 α das 1  α


2
-Quantil der
2
Standardnormalverteilung ist.
a Umstellen von (1) liefert
σ σ
P X  z1 α Ó & µ & X  z1 α Ó 1α
2
n 2
n
a Damit ist
σ σ σ
X  z1 α Ó , X  z1 α Ó  oder X  z1 α Ó
2
n 2
n 2
n
ein 1  α Konfidenzintervall oder ein
Konfidenzintervall zum Niveau 1  α.
© Statistische Datenanalyse – 3 – Induktive Statistik 10/29
Beispiel: Statistisches
Qualitätsmanagement
Gehen Sie von einer realisierten Stichprobe vom Umfang
n 10 aus:

x1 2.01, x2 1.95, x3 2.03, x4 2.1, x5 2.04 x6 2.09,


x7 2, x8 2.05, x9 2.01 und x10 2.12.

2 2
Für die bekannte Varianz gelte σ 0.05 .
2 2
Aus der Stichprobe berechnet man x̄ 2.04 und s 0.052 .

Bestimmen Sie ein 95 % Konfidenzintervall für µ.

© Statistische Datenanalyse – 3 – Induktive Statistik 11/29


Beispiel: Statistisches
Qualitätsmanagement
Lösung:

σ σ
KI  X̄  z1 α Ó ; X̄  z1 α Ó 
2
n 2
n
0.05
KI  2.04  z1 0.05 Ó
2
10
0.05
UG 2.04  qnorm 0.975 Ó 2.00901
10
0.05
OG 2.04  qnorm 0.975 Ó 2.07099
10

Das 95% Konfidenzintervall für µ ist daher:

KI  2.01; 2.07

© Statistische Datenanalyse – 3 – Induktive Statistik 12/29


Übersicht: Konfidenzintervalle
1 Konfidenzintervall für den Erwartungswert µ

Voraussetzung: X  N µ, σ , d.h. Normalverteilung,


2

oder beliebige Verteilung und Stichprobenumfang n ' 30.


2
a 1. Fall: Varianz σ bekannt:
σ σ
KI  X̄  z1α©2 Ó , X̄  z1α©2 Ó 
n n

2
a 2. Fall: Varianz σ unbekannt:
S S
KI  X̄  t1α©2 n  1 Ó , X̄  t1α©2 n  1 Ó 
n n
S empirische Standardabweichung, t1α©2 n  1 das
1  α©2-Quantil der t-Verteilung mit df n  1
Freiheitsgraden.

© Statistische Datenanalyse – 3 – Induktive Statistik 13/29


Übersicht: Konfidenzintervalle
Verteilungen
normal
0.4
df=5
df=2
df=1
0.3

0.2

0.1

0.0

−4 −2 0 2 4

Dichten von t-Verteilungen für verschiedene Freiheitsgrade (df )

Die Quantile der Verteilung berechnen wir mit R.

© Statistische Datenanalyse – 3 – Induktive Statistik 14/29


Übersicht: Konfidenzintervalle

2 Konfidenzintervall für den Anteilswert π

Voraussetzung: Stichprobenumfang n ' 30.


× ×
π̂ 1  π̂  π̂ 1  π̂ 
KI  π̂  z1α©2 n , π̂  z1α©2 n 

© Statistische Datenanalyse – 3 – Induktive Statistik 15/29


Beispiel: Statistisches
Qualitätsmanagement
2
Gehen Sie jetzt davon aus, dass die Varianz σ unbekannt ist.
Bestimmen Sie das 95% Konfidenzintervall für µ.

Aus der Angabe:

α 0.05
n 10
x̄ 2.04
2 2
s 0.052

© Statistische Datenanalyse – 3 – Induktive Statistik 16/29


Beispiel: Statistisches
Qualitätsmanagement
Lösung:

S S
KI  X̄  t1 α n  1 Ó ; X̄  t1 α n  1 Ó 
2
n 2
n
0.052
KI  2.04  t1 0.05 10  1 Ó
2
10
0.052
UG 2.04  qt 0.975, 9 Ó 2.002801
10
0.052
OG 2.04  qt 0.975, 9 Ó 2.077199
10

Das 95% Konfidenzintervall für µ ist daher:

KI 2.00; 2.08

© Statistische Datenanalyse – 3 – Induktive Statistik 17/29


Musteraufgabe
Die Regierung will den Anteil der Unternehmen abschätzen,
die durch die Finanzkrise in ernsten wirtschaftlichen
Schwierigkeiten sind. Bei einer Umfrage unter 500 zufällig
ausgewählten Unternehmen gaben 311 an in Schwierigkeiten
zu sein.

Bestimmen sie ein 95% Konfidenzintervall für den Anteil der


Unternehmen in Schwierigkeiten.

© Statistische Datenanalyse – 3 – Induktive Statistik 18/29


Beispiel: Musteraufgabe
311
Lösung: π̂ x̄ 500
× ×
π̂ 1  π̂  π̂ 1  π̂ 
KI  π̂  z1 α n ; π̂  z1 α2 n 
2

Ø
311 311
311 500
1  500

KI   qnorm 0.975
500 500
Ø
311 311
311 500
1  500

UG  qnorm 0.975 0.5794977
500 500
Ø
311 311
311 500
1  500

OG  qnorm 0.975 0.6645023
500 500
Das 95% Konfidenzintervall für π ist daher:
KI  0.5795; 0.6645

© Statistische Datenanalyse – 3 – Induktive Statistik 19/29


Eigenschaften von Konfidenzintervallen
Realisierte Konfidenzintervalle für die Größe der Studentinnen
basierend auf Zufallsstichproben (Semester 2013S, 2013/14W
und 2014S):
90% KI's, n = 30
167.5 168.0 168.5 169.0

0 20 40 60 80 100
Stichprobe

90% KI's, n = 60
167.5 168.0 168.5 169.0

0 20 40 60 80 100
Stichprobe

© Statistische Datenanalyse – 3 – Induktive Statistik 20/29


Eigenschaften von Konfidenzintervallen
Realisierte Konfidenzintervalle für die Größe der Studentinnen
basierend auf Zufallsstichproben (Semester 2013S, 2013/14W
und 2014S):
90% KI's, n = 60
168.8
168.2
167.6

0 20 40 60 80 100
Stichprobe

99% KI's, n = 60
168.8
168.2
167.6

0 20 40 60 80 100
Stichprobe

© Statistische Datenanalyse – 3 – Induktive Statistik 21/29


Konfidenzintervalle

Allgemeine Eigenschaften von


Konfidenzintervallen

a Alle Konfidenzintervalle überdecken mit


Wahrscheinlichkeit 1  α den unbekannten
Parameter.

a Die Länge der Konfidenzintervalle ist in der Regel


zufällig.

a Konfidenzintervalle werden mit wachsendem


Stichprobenumfang im Durchschnitt enger.

© Statistische Datenanalyse – 3 – Induktive Statistik 22/29


Konfidenzintervalle

Eine häufige Fehlinterpretation von KIs


a „Der unbekannte Parameter θ fällt mit
Wahrscheinlichkeit 1  α ins KI.“
Dies ist falsch, denn die Grenzen des KIs sind
zufällig, nicht der unbekannte Parameter θ .
a Sei das berechnete 95% KI für θ : 0.4; 0.6. „Mit
Wahrscheinlichkeit 95% liegt der wahre Parameter
im KI [0.4; 0.6].“ Dies ist eine falsche Aussage,
denn eine Wahrscheinlichkeitsaussage ist nach
Durchführung des Experiments nicht mehr
möglich. Ob der wahre Parameter θ in diesem KI
liegt oder nicht, wissen wir nicht.

© Statistische Datenanalyse – 3 – Induktive Statistik 23/29


Konfidenzintervalle

Eine mögliche Interpretation des KIs


a Sei das berechnete 95% KI für θ : 0.4; 0.6. Wir
gehen davon aus, dass dieses Konfidenzintervall
den wahren Parameter der Grundgesamtheit θ
enthält bzw. überdeckt.

„Davon ausgehen“ bedeutet, wir treffen die


Annahme, dass eine Stichprobe vorliegt, mit der
wir ein Konfidenzintervall berechnet haben, das
den Wert des wahren Parameters enthält.

© Statistische Datenanalyse – 3 – Induktive Statistik 24/29


Konfidenzintervalle
Eine mögliche „Interpretation“ des KIs in
Anlehnung an die Simulation auf Folie 20 und 21
a Bei 95 von 100 erhobenen Stichproben überdeckt
das berechnete 95% KI den wahren Parameter der
Grundgesamtheit (θ ). Bei den restlichen 5
Stichproben überdeckt das Konfidenzintervall den
Populationsparameter nicht.
VOR der Erhebung der Stichprobe liegt die
Wahrscheinlichkeit, dass ein später berechnetes
Konfidenzintervall den Populationsparameter
enthält, z.B. bei 95%.
NACH der Erhebung der Stichprobe jedoch bei 0
oder 1, da die Stichprobe ja bereits erhoben wurde.

© Statistische Datenanalyse – 3 – Induktive Statistik 25/29


Konfidenzintervallsbreite und
Stichprobenumfang
Durch Festlegen des Signifikanzniveaus und der gewünschten
Breite des Konfidenzintervalls sowie durch das Abschätzen
von benötigten Größen (mit Hilfe einer Pilotstichprobe oder
von Erfahrungswerten) kann der notwendige
Stichprobenumfang ermittelt werden.

Veranschaulichung anhand des zweiseitigen


Konfidenzintervalls für den Erwartungswert µ, Varianz
2
σ bekannt:
a Das Konfidenzintervall ist gegeben durch

σ σ
KI  X̄  z1α©2 Ó , X̄  z1α©2 Ó 
n n
σ Standardabweichung, z1α©2 das 1  α©2-Quantil der
Standardnormalverteilung.
© Statistische Datenanalyse – 3 – Induktive Statistik 26/29
Konfidenzintervallsbreite und
Stichprobenumfang
a Damit ist die Konfidenzintervallsbreite
σ
KIB 2 z1α©2 Ó
n
a Wenn nun α und die gewünschte
Konfidenzintervallsbreite festgelegt werden (σ ist
bekannt), dann kann der Stichprobenumfang wie folgt
ermittelt werden:
σ
KIB 2 z1α©2 Ó
n
Ó σ
n ' 2 z1α©2
KIB
σ 2
n ' 2 z1α©2
KIB

© Statistische Datenanalyse – 3 – Induktive Statistik 27/29


Beispiel: Statistisches
Qualitätsmanagement

Bestimmen Sie für α 5% den Stichprobenumfang, wenn die


Konfidenzintervallsbreite 0.05 sein soll.
2 2
Für die bekannte Varianz gelte σ 0.05 .

© Statistische Datenanalyse – 3 – Induktive Statistik 28/29


Beispiel: Statistisches
Qualitätsmanagement
Lösung
σ
KIB 2 z1α©2 Ó
n
Ó σ
n ' 2 z1α©2
KIB
σ 2
n ' 2 z1α©2
KIB

z1α©2 qnorm 0.975


KIB 0.05
n ' 15.3664

Damit muss die Stichprobe mindestens 16 Stück umfassen.

© Statistische Datenanalyse – 3 – Induktive Statistik 29/29

Das könnte Ihnen auch gefallen