Sie sind auf Seite 1von 27

Statistische Datenanalyse

Induktive Statistik
Induktive Statistik

Grundlagen

© Statistische Datenanalyse – 2 – Induktive Statistik 1/24


Einführende Beispiele
Wir betrachten eine Zufallsvariable X (diskret oder stetig),
deren Wahrscheinlichkeitsgesetz von einem unbekannten
Parameter abhängt, zum Beispiel X  B 1, ? oder X  N ?, ?.

Beispiel: Euro Münzen


a Es wird vermutet, dass 2-Euro Münzen nicht fair sind.
Werden die Münzen „gedreht“, so sollen Zahl und Kopf
nicht gleich wahrscheinlich sein.
a X = „Ergebnis einer Münzdrehung“ mit

1 Ergebnis Zahl
X w
0 Ergebnis Kopf

und
X  B 1, π , P X 1 π, P X 0 1π

© Statistische Datenanalyse – 2 – Induktive Statistik 2/24


Einführende Beispiele

a Unbekannter Parameter

π „Wahrscheinlichkeit für Zahl“

a Schätze π aus einer Zufallsstichprobe X1 , X2 , ..., Xn mit

Xi „Ergebnis der i-ten Drehung“

© Statistische Datenanalyse – 2 – Induktive Statistik 3/24


Einführende Beispiele
Beispiel: Normalverteilung - Dow Jones Index
a X = „Tagesrendite beim Dow Jones Index“ N 2
µ, σ 
a Unbekannte Parameter

µ „Durchschnittsrendite“
2
σ „Varianz der Rendite“
2
a Schätze µ und σ aus historischen Daten, betrachte also
eine Zufallsstichprobe X1 , X2 , . . . , Xn mit
Xi = „Rendite am i-ten Handelstag“

© Statistische Datenanalyse – 2 – Induktive Statistik 4/24


Beispiel: Grundgesamtheit
Sei X eine diskrete Zufallsvariable und wir können alle N
Elemente aus der Grundgesamtheit ziehen.
Alle Ausprägungen von X (yi ) kommen gleichwahrscheinlich
vor, dann berechnet sich der Erwartungswert von X

E X y1 P X y1   . . .  yN P X yN 
1 1
y1  . . .  yN
N N
N
1
N
=y i
i 1

© Statistische Datenanalyse – 2 – Induktive Statistik 5/24


Beispiel: Grundgesamtheit

und die Varianz


2
Var X E X  µ
2 2
y1  y P X y1   . . .  yN  y P X yN 
2 1 2 1
y1  y  . . .  yN  y
N N
N
1
N
=y i  y
2

i 1

2
σ

a Man sieht die Analogie der Berechnungsvorschrift für


2
Populationsparameter (µ, σ ) mit den statistischen
2
Kennzahlen einer Stichprobe (x̄, s ).

© Statistische Datenanalyse – 2 – Induktive Statistik 6/24


Schätzung der unbekannten Parameter
a Vor der konkreten Durchführung der Stichprobenziehung
sind die Ergebnisse zufällig, d.h. die Xi sind
Zufallsvariablen.

a Die realisierte Stichprobe bezeichnen wir mit


Kleinbuchstaben,
d.h. x1 , x2 , . . . , xn .

a Die unbekannten Parameter werden nun mit Hilfe der


Stichprobe X1 , X2 , . . . , Xn geschätzt.

a Schätzer für einen unbekannten Parameter werden mit


einem „Dach“ (ˆ) versehen, z.B.
µ̂ für µ
Dadurch wird die Schätzung µ̂ vom Parameter µ
unterschieden.
© Statistische Datenanalyse – 2 – Induktive Statistik 7/24
Beispiel: Gedrehte Euro Münze

a Schätze die Wahrscheinlichkeit für Zahl, π , durch

π̂ X
1
n X1  X2  . . .  Xn 
„Anteil der Zahl Ergebnisse in der Stichprobe“

a Eine Gruppe Münchner Studentinnen und Studenten


führte ein Experiment mit n 800 gedrehten 2-Euro
Münzen durch. Dabei wurde 495 mal das Ergebnis Zahl
erzielt.
a Als Schätzung für π erhalten wir also

495
π̂ x 0.61873
800

© Statistische Datenanalyse – 2 – Induktive Statistik 8/24


Beispiel: Normalverteilung - Dow Jones
Index
a Schätze die Durchschnittsrendite µ durch
1
µ̂ X n X1  X2  . . .  Xn 
„durchschnittliche Rendite in der Stichprobe“
2
a Schätze die Varianz σ durch
2 1 2 2
σ̂  X1  X  . . .  Xn  X 
n1
n

n
1
1
=X i 
2
X
2
S
i 1

a oder (eigentlich naheliegender)

x
n
σ̂
2 1
n =X i  X
2
S
2

i 1

© Statistische Datenanalyse – 2 – Induktive Statistik 9/24


Beispiel: Normalverteilung - Dow Jones
Index
Zum expliziten Berechnen der Schätzer der Parameter
verwenden wir den Datensatz dow_jones.rda, der enthält
n 22738 Tagesrenditen (1.10.1928 bis 28.4.2010) in der
Variablen rprozent.
R> load("./daten/dow_jones.rda")
R> summary(dow_jones$rprozent)
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
-22.610 -0.449 0.043 0.027 0.531 15.342 1
R> mean(dow_jones$rprozent, na.rm=TRUE)
[1] 0.02712
R> var(dow_jones$rprozent, na.rm=TRUE)
[1] 1.294
R> sd(dow_jones$rprozent, na.rm=TRUE)
[1] 1.138
R> length(dow_jones$rprozent)
[1] 22738

© Statistische Datenanalyse – 2 – Induktive Statistik 10/24


Beispiel: Normalverteilung - Dow Jones
Index
a Als realisierte Schätzer für die Durchschnittsrendite
erhalten wir
µ̂ x̄ 0.027
a und für die Varianz
2 2 2
σ̂ s 1.138

© Statistische Datenanalyse – 2 – Induktive Statistik 11/24


Beispiel: Ziehen aus einer
Grundgesamtheit
2
a Wir ziehen zur Schätzung von µ und σ eine
Zufallsstichprobe X1 , X2 , . . . , Xn (mit Zurücklegen) aus der
Grundgesamtheit.
a Als naheliegende Schätzer verwenden wir
µ
1
µ̂ X n X1  . . .  Xn 
2
σ 
n
σ̂
2
S
2
n
1
1
=X i 
2
X
i 1

x
n
σ̂
2
S
2 1
n =X i 
2
X
i 1

© Statistische Datenanalyse – 2 – Induktive Statistik 12/24


Musteraufgabe: Umfrage unter
Teilnehmer:innen der Vorlesung
a Wir interessieren uns für die Körpergröße der
Teilnehmer:innen in der Vorlesung.

a Grundgesamtheit ist die Menge aller Teilnehmer:innen

y1 „Körpergröße von Student:in 1“


y2 „Körpergröße von Student:in 2“


yN „Körpergröße von Student:in N“

a Wir ziehen aus der Grundgesamtheit eine


Zufallsstichprobe X1 , . . . , X10 vom Umfang n 10.

© Statistische Datenanalyse – 2 – Induktive Statistik 13/24


Achtung: Zufallsstichprobe

a Jedes Element in der Grundgesamtheit hat die gleiche


Wahrscheinlichkeit in die Stichprobe zu gelangen.

a Ist oft nicht gegeben. Vgl Projektarbeit

© Statistische Datenanalyse – 2 – Induktive Statistik 14/24


Zufälligkeit von Schätzern
a Vor Durchführung der Stichprobenziehung ist das
Ergebnis zufällig, d.h. die Stichprobenvariablen
X1 , X2 , . . . , Xn sind Zufallsvariablen.

a Die Schätzer, z.B. µ̂ X 1n X1  . . .  Xn , sind damit


auch Zufallsvariablen und deren
wahrscheinlichkeitstheoretische Eigenschaften können
untersucht werden.

a Zum Beispiel können Erwartungswert und Varianz

E µ̂ E X µ
2
σ
Var µ̂ Var X n
für den Schätzer µ̂ im Beispiel vom Dow Jones Index
berechnet werden.
© Statistische Datenanalyse – 2 – Induktive Statistik 15/24
Zufälligkeit von Schätzern
a Die wahrscheinlichkeitstheoretische Betrachtung spielt
eine Schlüsselrolle bei vielen Problemstellungen, z.B.:

- Beurteilung der Schätzgenauigkeit.


x 2
- Vergleich der beiden Schätzer S und S zur Schätzung
2
2

von σ .
- Bestimmung des Stichprobenumfangs n.

© Statistische Datenanalyse – 2 – Induktive Statistik 16/24


Zufälligkeit von Schätzern -
Gedankenexperiment
a Sei die Zufallsvariable X beschrieben durch den
stochastischen Prozess:

X N 0, 1

a Wir ziehen 8 Stichproben.


a Für jede Stichprobe simulieren wir 10 Werte aus einer
standardnormalverteilten Zufallsvariable (n 10).
a Für jede Stichprobe berechnen wir einen Schätzer für µ:

µ̂ x̄

In R:
R> sp1 <- rnorm(10); mean(sp1)
R> sp2 <- rnorm(10); mean(sp2)
usw.
© Statistische Datenanalyse – 2 – Induktive Statistik 17/24
Zufälligkeit von Schätzern -
Gedankenexperiment
Tabelle: Acht Stichproben aus der Standardnormalverteilung mit n 10

1 2 3 4 5 6 7 8
0.59 -0.12 0.78 0.81 1.13 -0.54 0.15 0.06
0.71 1.82 1.46 2.20 -2.38 1.95 -1.34 -0.79
-0.11 0.37 -0.64 2.05 -1.06 0.05 0.55 -1.05
-0.45 0.52 -1.55 1.63 0.94 0.35 1.59 2.33
0.61 -0.75 -1.60 0.25 0.85 -0.67 -0.59 1.40
-1.82 0.82 1.80 0.49 1.46 0.28 -1.83 0.94
0.63 -0.89 -0.48 -0.32 -1.41 0.69 0.89 0.83
-0.28 -0.33 0.62 -1.66 0.57 0.82 1.59 -0.81
-0.28 1.12 0.61 1.77 0.58 2.15 0.52 0.48
-0.92 0.30 -0.16 0.03 -1.31 -2.35 -1.30 1.02
x̄ -0.13 0.29 0.08 0.72 -0.06 0.27 0.02 0.44

© Statistische Datenanalyse – 2 – Induktive Statistik 18/24


Erkenntnisse aus dem
Gedankenexperiment
a Bei jeder der 8 Stichproben ergeben sich andere
Ergebnisse und damit Schätzer µ̂.

a Jede Schätzung ist mit einem Schätzfehler µ̂  µ


behaftet, d.h. es ist zwingend notwendig, zwischen
Schätzung µ̂ und wahrem (aber in der Regel
unbekanntem) Parameter zu unterscheiden.

a Der Schätzfehler kann unter Umständen groß sein (Vgl.


Tabelle: µ̂  µ 0.72  0 0.72).

a Durch die wahrscheinlichkeitstheoretische Betrachtung


ist der Schätzfehler „berechenbar“ und damit in gewissen
Grenzen „kontrollierbar“.

© Statistische Datenanalyse – 2 – Induktive Statistik 19/24


Übersicht über häufig verwendete
Schätzer
a Erwartungswert µ

- Schätzer: µ̂ X
2
σ
- Eigenschaften: E µ̂ µ, Var µ̂ n

2
a Varianz σ

- Schätzer: σ̂ = S
2 2

1
n 1
<n
i 1 Xi  X 2
2 2
- Eigenschaften: E σ̂  = σ

a Anteilswert π

- Schätzer: π̂ = X

- Eigenschaften: E π̂  = π , Var π̂  = 1
n
π 1  π

© Statistische Datenanalyse – 2 – Induktive Statistik 20/24


Musteraufgaben
Bestimmen Sie in den folgenden Fragestellungen jeweils
geeignete Schätzer für die interessierenden Parameter:
a) Die Regierung will den Anteil der Unternehmen
abschätzen, die durch die Finanzkrise in ernsten
wirtschaftlichen Schwierigkeiten sind. Bei einer Umfrage
unter 500 zufällig ausgewählten Unternehmen gaben 311
an in Schwierigkeiten zu sein. Bestimmen Sie den
Schätzer für den Anteil der Unternehmen in
Schwierigkeiten.

© Statistische Datenanalyse – 2 – Induktive Statistik 21/24


Musteraufgaben
Bestimmen Sie in den folgenden Fragestellungen jeweils
geeignete Schätzer für die interessierenden Parameter:
a) Die Regierung will den Anteil der Unternehmen
abschätzen, die durch die Finanzkrise in ernsten
wirtschaftlichen Schwierigkeiten sind. Bei einer Umfrage
unter 500 zufällig ausgewählten Unternehmen gaben 311
an in Schwierigkeiten zu sein. Bestimmen Sie den
Schätzer für den Anteil der Unternehmen in
Schwierigkeiten.

π ?
Stichprobe: n 500, 311 gaben Schwierigkeiten an
311
π̂
0.622 62.2%

500
d.h. der geschätzte Anteil von Unternehmen in
Schwierigkeiten beträgt 62.2%.
© Statistische Datenanalyse – 2 – Induktive Statistik 21/24
Musteraufgaben

b) Die Lebensdauer X eines elektronischen Bauteils (in


Monaten) ist exponentialverteilt mit unbekannter
durchschnittlicher Lebensdauer µ. Die Dichte der
Exponentialverteilung ist
1
µ
exp x©µ x '0
f x w
0 sonst.

Erwartungswert und Varianz sind gegeben durch E X µ


2
und Var X µ . Bei einer Zufallsstichprobe X1 , . . . , X30
vom Umfang n 30 ergaben sich folgende Werte:
30 30
=x i 962.1 =x 2
i 54560.34.
i 1 i 1

Bestimmen sie einen Schätzer für µ.


© Statistische Datenanalyse – 2 – Induktive Statistik 22/24
Musteraufgaben
b) Die Lebensdauer X eines elektronischen Bauteils (in
Monaten) ist exponentialverteilt mit unbekannter
durchschnittlicher Lebensdauer µ.
2
E X µ und Var X µ .
Zufallsstichprobe X1 , . . . , X30 mit:
30 30
=x i 962.1 =x 2
i 54560.34.
i 1 i 1

µ ?
<x
30
Stichprobe: n 30, i 962.1
i 1

962.1
µ̂
32.07 Monate

30
Die geschätzte durchschnittliche Lebensdauer beträgt somit
circa 32 Monate.
© Statistische Datenanalyse – 2 – Induktive Statistik 23/24
Musteraufgaben
c) Ein Bauteil soll eine bestimmte Länge besitzen. Zur
Qualitätssicherung entnimmt der Hersteller bzw. die
Herstellerin fünf Bauteile und erhält folgende Längen:
x1 1.8, x2 2.4, x3 1.3, x4 2.1 und x5 1.4.
Bestimmen sie einen Schätzer für die durchschnittliche
2
Länge µ der Bauteile und die Varianz σ .

© Statistische Datenanalyse – 2 – Induktive Statistik 24/24


Musteraufgaben
c) Ein Bauteil soll eine bestimmte Länge besitzen. Zur
Qualitätssicherung entnimmt der Hersteller bzw. die
Herstellerin fünf Bauteile und erhält folgende Längen:
x1 1.8, x2 2.4, x3 1.3, x4 2.1 und x5 1.4.
Bestimmen sie einen Schätzer für die durchschnittliche
2
Länge µ der Bauteile und die Varianz σ .

2
µ ?, σ ?
1.8  2.4  1.3  2.1  1.4
µ̂ x̄ 1.8
5
µ̂ 1.8 LE
2 2 1 2 2 2
σ̂ s  1.8  1.8  2.4  1.8  1.3  1.8 
51
2 2
 2.1  1.8  1.4  1.8  0.215
Ô
2 2
σ̂ 0.215 LE , σ̂ s σ̂ 2 0.463681 LE
© Statistische Datenanalyse – 2 – Induktive Statistik 24/24

Das könnte Ihnen auch gefallen