Sie sind auf Seite 1von 4

VALIDITÄT

Vorschriften so gefaßt, daß die Messergebnisse genau der theoretischen Definition entsprechen

 

Nicht gruppierte Daten / diskrete Merkmale

   

gruppierte Daten / stetige Merkmale

 

(Gültigkeit)

RELIABILITÄT

kennzeichnet den Grad der Genauigkeit (Präzision), mit der die Vorschrift das Messergebnis liefert

       

Qualitativ: untersch.Arten

(Zuverlässigkeit)

 

Urliste : x i

Sortierte Liste : x

(

     
≠

n

Anzahl der Klassen

2 *

n ≠
n

i

)

 

von Merkmalsauspräg.en

OBJEKTIVITÄT

unabhängig vom Anwender der Vorschrift resultiert das gleiche Ergebnis

 

(

n = Anzahl verschiedener Messwerte)

Quantitativ:besitzen

Zahlen als Ausprägung

Skalenniveaus

Zulässige

Transformation

Nominal

skala

Äquivalenz

funktion

 

x i x j y(x i )y(x j ) und x i = x j y(x i )=y(x j )

 

Verschiedenheit bzw. Gleichheit bleibt erhalten

 

Intervall

skala

   

Lineare Fkt. ( b > 0)

y (x) = a + b x

steigende Gerade

Merkmal quantitativ

       

Verhältnis

   

Lineare Fkt. (a = 0, b > 0)

   
 

Ordinal

Monoton

   

Ordnung bleibt erhalten

   

skala

y (x) = b x

steigende Gerade durch 0

skala

 

steigende

Funktion

 

x i < x j y(x i )< y(x j )

Merkmal qualitativ

 

Absolut

skala

   

Identische

Funktion

 

y (x) = x

nur gleiche Werte

 

Listen

Häufigkeitsverteilung

i

 

n

 

p i = n i / n

F i = F(x i )

 

*p i

 

kumulierter Anteil :

 

Index

Klassen

 

Klassen

 

Klassen

(absolute )

   

Anteil

kumulierter

Höhe =

 

x

i

i

x

i

Anteil aller UEen mit

Grenzen

Mitte

Breite

Häufigkeit

rel.Häuf.

Anteil

Dichte

p

mindestens nominal

1

                                   

F

mindestens ordinal

2

x

x

1

n

n

1

n 1 / n

n 2 / n

 

p

1

p 1 +p 2

x

x

1 *p

2 *p

1

Werten (x i -Wert)

 

i

u

i

o

i

+

x i 2

u

=

i

o

i

b i = o i -u i

 

n

i

 

p i = n i / n

F(o

i

)

h i = p i / b i

x

*p i

i

 

2

2

2

0 F(x) 1

[F(-)=0, F(+)=1]

                       

I

x

I

n

I

n I / n

p 1 +…+p I

x

I

*p

I

 

/

 

/

/

 

n

   

1

F(o n ) = 1

/

x

x i

n

1

/

 

x

   

Graphische

Dichtefunktion

Stabdiagramm (Dichte=p) Kreis- / Netz- / Staffeldiagramm / Stamm – und - Blattdiagramm

 

Histogramm (Dichte=Höhe) -> Fläche = p

 

Darstellung

Stem- and – leaf diagram

 

hi = pi/bi

Verteilungsfunktion

Treppenfunktion mit Sprungstellen

 

Summenpolygon

 

Parameter

Flächentreue: Fläche proportional zur relativen Häufigkeit der KLassen

 

Lage

Bei stetigen Daten (Klassen) ist xi immer die Klassenmitte (zB X (quer) f(mode(X))= max (f(x))
Bei stetigen Daten (Klassen) ist xi immer die Klassenmitte (zB X (quer)
f(mode(X))=
max (f(x))
Extremwerte Minimum bzw. Maximum
min(X)=x ( 1 ) , max(X)=x ( n ) mindest ordinal
Modalwert :Mode (x) = x mod
Wert mit größter Dichte
x
mind.nominal
I
I
arithmetisches Mittel:
x =mean(X)
1
Berechne z:= n*q. Schneide Dezimalstellen von z ab: [z].
x
+
x
+ L +
x
n
1
1
2
n
x =
=
x i ∑
x
=
x p
=
x n
i
i
i
i
Summe aller Differenzen (dS) zum Mittelwert :
n
n
n
i = 1
q-getrimmtes Mittel: Wähle aus der sortierten Liste alle Werte zwischen dem
i = 1
i
=
1
dS:=
(
x
x)
+
(x
− +L+
x)
(x
x)
= 0
1
2
n
geometrisches Mittel
x
mind. Verhältnisskala
[z]-tem und dem (n-[z]+1) –ten aus: x ([z]+1) ,
,
x (n-[z]) ; und berechne darüber x .
G
x ist translationsäquivariant gegenüber linearen
Transformationen: y=a+bx.
mindestens Intervallskaliert
Werden alle Einzelwerte mit konstantem a bzw. b linear
n
x i = Wachstumsfaktor : G / G vorher
q-winsorisiertes Mittel: Ersetze alle Werte x (1) bis x ([z]) durch x ([z]+1) und ersetze
~
x
= n x *x
*
L
*x
=
n
∏ i
x
mind. Verhältnisskala
x
G
1
2
n
transformiert, gilt dies in der Folge auch für die arithm.
alle x (n-[z]+1) bis x ([n]) durch x (n-[z]) ; und berechne für diese modifizierten Werte x .
q
Werte möglichst positiv
i
=
1
Mittel: y = a + bx
Median med(x) mind. ordinal
für n gerade
für n ungerade
Für die Verteilungsfunktion F(x) gilt:
x-Wert, der die Verteilung in zwei Hälften teilt.
1
1
Genauer: x-Wert, für den die beiden Forderungen
gelten:
(
F(med(X))
und
1-F(med(X)) + f(med(X))
x
+ x
)
/ 2
2
2
x (
n
+1
( )
n
(
n
1)
)
+
d.h. der Median liegt dort, wo F(x) erstmals ½ überschreitet
1. mindestens die Hälfte aller Werte ≤ med(X)
2
2
2
2. mindestens die Hälfte aller Werte ≥ med(X)
Quantil zum Quantum q :
z := n*q
-> z = ganze Zahl ?
~
Suche zuerst die ‚aktuelle‘ Klasse, in der das Quantil liegt; das ist die Klasse, in
der F(o i )≥q und F(o i-1 )<q.Bezeichne den Index der ‚aktuellen‘ Klasse mit m.
~
ist der x-Wert, der die Verteilung in zwei Teile teilt,
x
q
Ja:
x
= (x (z) + x (z+1) ) / 2
q
Falls F(o m )=q, dann gilt:
Falls F(o m )>q, dann gilt:
so daß die folgenden beiden Forderungen gelten:
~
x
(q
F(u
))b
der Anteil des ersten Teils enthält mindestens q und
der Anteil des zweiten Teils ist mindestens (1-q)
aller Werte. – mind. ordinal
Nein:
x q = (o m + u m+1 )/2
m
m
q
= x ( [z] + 1)
x
=
u
q
m +
F(o
)
F(u
)
m
m
Hinges / Eights mind. ordinal
Tiefe(Hinges)=([Tiefe(Median)]+1) / 2 -> ganze Zahl?
Tiefe(Eighths)=([Tiefe(Hinges)]+1) / 2 -> ganze Zahl ?
ja:
ja:
e u =
h u {links} = x (Tiefe(Hinges))
x (Tiefe (Eighths))
h o {rechts} = x ( n +1-Tiefe(Hinges) )
e o = x ( n+1-Tiefe (Eighths))
Tiefe(Median)=(n+1) / 2
nein:
h u = (
nein:
x ( [Tiefe(Hinges)] ) + x ( [Tiefe (Hinges)]+1) ) : 2
e u =
e o = (
( x ([Tiefe(Eighths)] ) + x ([Tiefe (Eighths)] +1) ) : 2
h o = ( x ( n+1-[Tiefe(Hinges)]) + x ( n-[Tiefe (Hinges)] ) ) : 2
x ( n+1 - [Tiefe(Eighths] ) + x ( n -[Tiefe(Eights)] ) ) : 2

Streuung / Dispersion / Breite der Verteilung / Skedastizität einer Verteilung

2 2 2 Urliste sq ⎧ 2 Standardfehler d. arith. Mittels : Std( x )
2
2
2
Urliste
sq
2
Standardfehler d. arith. Mittels : Std(
x
)
Varianz:
s
2
n
für s
Var(X) ( = s
bzw.
bzw. s
)
s
: =
* n
n
n-1
mit n
: =
n
n
*
n
2
sq :
=
(
x −
x)
2
2
2
⎪ n − 1 für s
=
x
nx
n-1
‚durchschnittliche‘ quadrierte Abweichung vom Mittelwert.
i
i
Der Standardfehler ist die Standardabweichung der Verteilung aller
denkbaren Mittelwerte, die man erhielte, wenn man etwa sehr viele
i
=
1
i
=
1
Standardabweichung
Verteilung
Std (X) :=
Var(X)
Stichproben ziehen würde (jeweils mit gleichem n).
I
I
2
2
2
1
sq :
=
n
(
x
x
)
p
=
n x
nx
1
Std( X ) = Std(X)/
n
einfacher:
2
( =
s
bzw. s
bzw. s
2
S
=
(
xi − x
) mind. intervall
i
i
i
i
S
=
(
xi x
n
n
1
n
n
− 1
n
i = 1
i
=
1
n − 1
MAD = Med(Abstände)
H-Spread d h / E-Spread d e mind. intervall
Spannweite (range): sp [mind. intervall]
sp:= x (n) – x (1) = max(x) – min(x)
Median der Distanzen aller Werte zum Median
d h :=
h o - h u
~
MAD :
=
Med (
x
− x
, i
=
1,
,
n )
d e := e o - e u
i
0.5
Quantilabstand
d
:= ~ x
− ~ x
q
1
q
q
Quartilabstand (engl. Interquartilrange)
mittlerer Quantilabstand
~
~
Differenz zwischen symmetrischen
Quantilen
d
:=
x
− x
d q : 2
0.25
0.75
0.25
Mittlere Abweichung vom Median
d ~
Mittlere Absolute Abweichung der Werte voneinander (maa)
x
Mittlere quadrierte Abweichung der
Werte voneinander (mqa) mind. intervall
(=d G ) mind. intervall
Mittelwert der Distanzen aller Werte zum Median.
n
n
1
2
Urliste
Verteilung
Urliste:
sortierte Liste:
mqa:=
2
= 2*
s
∑∑
(x
x
)
n
1
i
j
n
n
1
n
n
n
1
~
~
1
2
n(n − 1)
i
=
1
j
=
1
d
~
: =
x
− x
d
~
: =
x
x
p
maa:=
(
)
x
i
0.5
i
| x
x
|
maa =
i(n
i) x
x
x
i
0.5
∑∑
(i
+
1)
(i)
n
i
j
i
=
1
= 2*Var(x)
i
=
1
n(n − 1)
n(n −1)
i
= j = 1
1
i = 1

Dimensionslose Streuungsmaße

Variationskoeffizient v

 

Quartilsdispersionskoeffizient qdk

Modaldispersion mind. nominal

 

qualitative Varianz mind. nominal

 

mindestens Verhältnisskala + positive Werte

Std(X)

 

mindestens Verhältnisskala + positive Werte

~

x

0.75

~ x

0.25

Der Anteil der Werte, die nicht in der Modal-

Ausprägung liegen md:= 1

max (p )

i

qv:= 1

(p

1 2 + +L+

p

2

2

p

= 1- Σ p i ² = Σ p i (1-p i )

2

I

)

=

p 1 (1-p 1 ) +

+

p I (1-p I )

v :=

qdk : =

~

   

i

 
 

Mean(X)

   

x

0.25

+ ~ x

0.75

 

qv und md liegen zwischen

0 und

(I-1) / I (I-Anz. Ausprägungen)

 
 

maximal bei Gleichverteilung der Werte qv bzw. md dann =1- (1 / I) = ( I – 1 ) / I

 

Entropie h(x) (minimalste Anzahl benötigter Fragen) mind nominal

   

Schiefe mind. intervall

   

Entropie (in bits):= {An Stelle von log ln nehmen !!!}

Entropie in nits

 

schiefe(X) =

linksschief: schiefe(x) = negativ symmetrisch: schiefe (x) = 0 rechtsschief: schiefe (x) = positiv ( -1 schiefe(X)1 )

 

I

I

 

I

Mean(X) Med(X)

 

h(X)

 

=−

i=1

p ld(p

i

 

)

=

1

 

ln(p )

i

 

h(X)

 

i = 1

p

 

ln(p )

i

b

i

ln(2)

i

=

1

p

i

=−

i

Std(X)

Box –Plot (bzw. Box-and-Whisker Plot)

=− i Std(X) Box –Plot (bzw. Box-and-Whisker Plot) Extremster Wert außerhalb der äußeren Zäune Extremster

Extremster Wert außerhalb der äußeren Zäune

Extremster Wert innerhalb der inneren Zäune

Zäune Extremster Wert innerhalb der inneren Zäune Extremster Wert innerhalb der äußeren Zäune h u -(h
Zäune Extremster Wert innerhalb der inneren Zäune Extremster Wert innerhalb der äußeren Zäune h u -(h
Zäune Extremster Wert innerhalb der inneren Zäune Extremster Wert innerhalb der äußeren Zäune h u -(h
Zäune Extremster Wert innerhalb der inneren Zäune Extremster Wert innerhalb der äußeren Zäune h u -(h
Zäune Extremster Wert innerhalb der inneren Zäune Extremster Wert innerhalb der äußeren Zäune h u -(h
Zäune Extremster Wert innerhalb der inneren Zäune Extremster Wert innerhalb der äußeren Zäune h u -(h
Zäune Extremster Wert innerhalb der inneren Zäune Extremster Wert innerhalb der äußeren Zäune h u -(h
Zäune Extremster Wert innerhalb der inneren Zäune Extremster Wert innerhalb der äußeren Zäune h u -(h

Extremster Wert innerhalb der äußeren Zäune

Zäune Extremster Wert innerhalb der äußeren Zäune h u -(h o -h u )*3 unterer äußerer
Zäune Extremster Wert innerhalb der äußeren Zäune h u -(h o -h u )*3 unterer äußerer
Zäune Extremster Wert innerhalb der äußeren Zäune h u -(h o -h u )*3 unterer äußerer
Zäune Extremster Wert innerhalb der äußeren Zäune h u -(h o -h u )*3 unterer äußerer
Zäune Extremster Wert innerhalb der äußeren Zäune h u -(h o -h u )*3 unterer äußerer
Zäune Extremster Wert innerhalb der äußeren Zäune h u -(h o -h u )*3 unterer äußerer
Zäune Extremster Wert innerhalb der äußeren Zäune h u -(h o -h u )*3 unterer äußerer
Zäune Extremster Wert innerhalb der äußeren Zäune h u -(h o -h u )*3 unterer äußerer
Zäune Extremster Wert innerhalb der äußeren Zäune h u -(h o -h u )*3 unterer äußerer
Zäune Extremster Wert innerhalb der äußeren Zäune h u -(h o -h u )*3 unterer äußerer

h u -(h o -h u )*3

unterer äußerer

Zaun

h u -(h o -h u )*1,5

unterer innerer

Zaun

Whisker

h u

unterer Hinge

Median

h o

oberer Hinge

h o +(h o -h u )*1,5

Whisker

oberer innerer

Zaun

h o +(h o -h u )*3

oberer äußerer

Zaun

Stichproben Anzahl möglicher Stichproben Merkmalsstichprobenraum (Menge der Merkmalskonstellationen) mit Reihenfolge
Stichproben
Anzahl möglicher Stichproben
Merkmalsstichprobenraum
(Menge der Merkmalskonstellationen)
mit Reihenfolge
=Anzahl
n
⎛ ⎜ n!
N
I n verschiedene Merkmalskonstellationen möglich
= Anzahl der Variationen 8 Farb. 5 Löcher
Merkmal mit I Ausprägungen; Stichprobe der Größe n
n
mal Ziehen MIT
wäre 8 hoch 5
n !n
!
L
n
!
1
2
M + 1
Zurücklegen
ohne Reihenfolge
n
+ −
k
1 ⎞
Einzelziehung: P(X=x) =π x
Möglichkeiten n-Elemente in
k
M+1 Ausprägungen
Ziehen mit Zurücklegen (unabhängige ZV):
Reihenfolge der Elemente wird
berücksichtigt
N(N −1)(N − 2)L(N − n +1)
,X
n =x n )=P(X 1 =x 1 )*P(X 2 =x 2 )*…*P(X n =x n )
=Anzahl der n-Permutationen von N Elementen
n! = Anzahl der Permutationen
Anzahl Reihenfolgen für n-
Elemente, also bei Büchern im
Regal
P(X 1 =x 1 ,X 2 =x 2 ,
=π x 1 *π x 2 *…*π x n
n
mal Ziehen OHNE
Zurücklegen
⎛ N ⎞
N(N 1)(N
2)
L
(N
− +
n
1)
N!
Ziehen ohne Zurücklegen (abhängige ZV):
Reihenfolge der Elemente nicht
berücksichtigen
1 *
2
*
3
*
L
*
n
n!(N
n)!
Permut durch zB 23 personen 2
genau: (23 über 2)*p(treffen
P(X 1 =x 1 ,X 2 =x 2 ,
,X
n
= ⎜ ⎜ ⎝
⎟ ⎟ ⎠ =
hoch 2)*p(nicht treffen hoch 21)
n =x n )=P(X 1 =x 1 )*P(X 2 =x 2 |X 1 =x 1 )*…*
P(X n =x n |X 1 =x 1 ,…,X n-1 =x n-1 )
= Anzahl der Kombinationen
Einfache Zufallsstichprobe: jede Möglichkeit / jeder Repräsentant gleichwahrscheinlich
mit einem Griff die xte und yte: (n über N)* Gegriffene Anzahl
X + X
Zufallsvariablen / Stichprobe: Population -> Stichprobe (Statistik = Stichprobenfkt.) -> konkrete Stichprobe (Wert der Statistik)
1
2
X =
2
-> Stichprobenfunktion (an jeder Stelle konkrete Stichprobenvariablen einsetzen und Mittelwert bilden)
Wahrscheinlichkeit
sicheres Ereignis p=1
unmögliches Ereignis p=0
Elementarereignisse: gleichwahrscheinlich
disjunkte Ereignisse : überschneiden sich nicht
Klassischer Wahrscheinlichkeitsbegriff
Frequentischer Wahrscheinlichkeitsbegriff
alle möglichen Ergebnisse, die denkbar sind
Bsp: Münze (A:Adler)
w
Einzelergebnis
#A w
#A
1
0
0
#A
Anz.günstige Fälle
(w) )
A
w
W: Würfe
P(A) :
=
p lim(p
=
p lim
2
0
0
P(A) =
=
3
1
1
w→∞
w
→∞
w
4
1
2
#M
Anz.mögliche Fälle
5
0
2
P(2er Kontakt bei n Leuten) = 2/ n günstige Ereignisse : n-1 / mögliche Kontakte : (n*n - n) / 2
Baummultiplikationsregel
Erwartungswert ( = Mittelwert der Zufallsvariablen)
I
Varianz
2
Var (X)
=
E((X
E(X))²)
=
(x
E(x ))
P(X
=
x )
=
E(X²)
E²(X)
i
i
i
i
i
=
1
I
(w)
2
E(s² n-1 )=σ²
σ
E(X
) = μ = p lim x
σ
x
Std(X) =
E(X)
=
x *P(X
=
x )
Var(X ) =
n
n
n
i
i
n
n
w→∞
i=1
n − 1
2
2
E (
S
) =
E S
(
)
n
n −1
n
E( E(X) ) = E(X)
n
n
Cov(Y, X) =
1
(
y x
− nyx) =
1
(
x y − nxy) = Cov(X, Y) = s
= s
n
1
i
i
n
1
i
i
XY
YX
i
=
1
i
=
1
Konstantenregel
E(k) = k
Var(k) = 0
Konstantenproduktregel
E(bX) = b*E(X)
Var(bX) = b² Var(X)
Summenregel
E(X+Y) = E(X)+E(Y)
Var(x+Y) = Var(X) + Var(Y) + 2 Cov(X,Y)
Cov(X,Y) = E((X-E(X))((Y-E(Y)))
Linearkombinationsregel
E(a+bX 1 +cX 2 ) = E(a) + E(bX 1 ) + E(cX 2 ) = a+b*E(X 1 )+c*E(X 2 )
Var(a+bX+cY) = b² Var(X)+c² Var(Y)+2abCov(X;Y)
Gesetz der großen Zahlen
lim
P
(
X
μ
<
ε
)
1
je größer die Stichprobe, desto näher ist
n
n →∞
die Tendenz, daß alle Werte um Populationsmittelwert µ liegen.
Die Wahrscheinlichkeit, daß alle Werte in einem Bereich um µ liegen, geht gegen 1.
Zentraler Grenzwertsatz: Die Verteilung des Mittelwerts über die n unabhängig aus der gleichen
Populationsverteilung gezogenen Werte nähert sich bei zunehmendem n der Normalverteilung
X
−μ
n
x
N(0,1)
standardisierte Zufallsvariable
Z =
für n ∞ standardnormalverteilt : Z ~
Std X
(
)
n

Binomialverteilung (n-malige Wiederholung (unabhängig voneinander) eines Bernoulli-Experimentes, betrachtete Zufallsvariable X = Anzahl der Erfolge)

P(k Erfolge bei n Versuchen) = p k * (1-p) n-k * ( n k )

x = π (Anteil = Durchscnitt)

Bernoulli-Experiment (Zufallsexperiment mit 2 möglichen Ergebnissen [Treffer / Nichttreffer])

 

Treffer = 1 mit Wahrscheinlichkeit p ; Nichttreffer = 0 mit P = 1-p E(X) = Σ xi*p(xi) = 0*(1-p)+1*p = p Var(X) = E(X²) – E²(X) = 0² *(1-p)+1² *p – p² = p-p² = p(1-p)

 

P(mind. k Treffer bei n Versuchen) = 1 – P (max. k-1 Treffer)

E(X) = np

Var(X) = np(1-p) (~Anzahl~)

Var(x) = (p*(1-p))/n (~Anteil~)

Dummy Variable/dichotomes Merkmal

Anzahl = n*Anteil

)=µ x =0*π 0 + 1*π 1 =π 1

E(

E(Anz) = nµ x = nπ

X

n

σ² x = π 1 *(1-π 1 )

s

2

n

1 =

n

n x(1

1

x)

Std(X ) =

π(1− π) / n = σ n X
π(1− π) / n = σ
n
X

n

SCHÄTZTHEORIE

Punkt-Schätzer (Wie gut sind Formeln?) -> guter Schätzer Maximum-Likelihood-Schätzer 2 2 n − 1 θ
Punkt-Schätzer
(Wie gut sind Formeln?)
-> guter Schätzer
Maximum-Likelihood-Schätzer
2
2
n
1
θ oder ϑ: Parameter in Population z.B. µ, σ²
erwartungstreu E( Θ ) = θ
bias(Verzerrung)= E ( Θ ) - θ (= 0 möglichst)
E(s
) =
σ
(Parameterwert mit größter Wahrscheinlichkeit der
ˆ
n
n
Realisation = plausibelster)
ˆ
Θ
: Schätzer(Estimator) = Zufallsvariable z.B. S² n-1
ˆ
ˆ
- approximativ (n ∞) normalverteilt
ˆ
effizient Varianz möglichst klein Var( Θ 1 )<Var( Θ 2 ) (schlechtere/bessere)
absolut effizient = der mit kleinster Varianz
relativ effizient = Verhältnis der Varianzen
- konsistent (aber nicht erwartungstreu)
θ
: realisierter Schätzwert(Estimate) der Zufallsvariablen z.B. s² n-1
ˆ
- falls für Parameter effizienter Schätzer existiert
mit ML-Schätztechnik findbar
E( Θ ) = θ Bsp: E( X )=µ
ˆ
- Funktionen von ML-Schätzern sind wieder ML-Schätzer
konsistent wenn gilt P(| Θ
-θ|<ε) 1 für n ∞ ; ε fest vorgegeben
n
(Invarianzprinzip)
Intervallschätzung (Konfidenzintervalle) bei Dummyvariablen gilt: x = π,
für µ
für π ( x entspricht Anteil in Stichprobe)
σ bekannt
σ unbekannt über s n-1 schätzen
n>100
bei 25≤n≤100
t-Verteilung statt z
σ
x
±
t
(df ) s
df=n-1
x(1
x)
x ± 1,96
=
bei Konfidenzzahl 0,95
x ±1,96σˆ
;
0,975
<
x
x
x
σ ˆ =
x
n
1
(Student-t-Verteilung)
x ± z
σ
(Standardnormalverteilung)
2
S
>−∝<
1
x
s =
n −1
standardnormalverteilt
x
n
Hypothesen Testen
Entscheidung auf Grund der Stichprobe
H 0 akzeptieren
H 0 ablehnen / H A akzeptieren
Macht des Tests nur für konkrete H A ermittelbar
W(H A akzeptieren | H A richtig) = P(TW in KB|H A ri.)
Zustand in
H 0 ist richtig
richtige Entscheidung
Konstruktion des Tests
Gesamtheit
Fehler 1.Art = α (möglichst klein)
vor Test festgelegt
W(H 0 ablehnen | H 0 richtig)
1.Null - und Alternativhypothese formulieren
2.Teststatistik (Anteil, Anzahl,Mittelwert)
H A ist richtig
Fehler 2.Art = β (möglichst klein)
= 1-Macht des Tests
W(H 0 akzeptieren | H A richtig)
richtige Entscheidung 1-ß
3.Testverteilung unter Geltung von H 0
4.Kritischer Bereich festlegen (H 0 ablehnen|H A stimmt)
(5.)Überprüfung: Testwert der Teststatistik in KB?
Mittelwerttest (!!!!!!!!!!σ H =σ H /√n !!!!!!!!!!!!) {Falls σ unbekannt T-Verteilung}
Binomialtest (Frage zB exaktes α?)
linksseitig H A <H 0
rechtsseitig H A >H 0
zweiseitig H A ≠H 0
linksseitig H A <H 0
rechtsseitig H A >H 0
bei n*π>15 (zB 80*0,6)
KB
für α z-Wert suchen
α=0,05 z= -1,645
für α z-Wert suchen
α=0,05 z= +1,645
für α / 2 z-Wert suchen
α=0,05 z(α/2)=±1,96
Suche in kum.Tab. bei π 0
und n letzten Wert, der ≤ α
ist ( exaktes α)
Suche in kum.Tab. bei π 0 und
π (1 −π
)
0
0
σ
=
n
ersten Wert, der ≥ 1-α ist
x
n
exaktes α)
z-Wert mit Parametern von H 0 restandardisieren
z-Werte mit Parametern von
H 0 restandardisieren
(
KB bis zu diesem x-Wert
KB ab (x+1)-Wert
x =π+ z ⋅σ
x = z⋅σ +μ
0
1
−∝<
x
H
H
x
= z ⋅σ +μ
0
0
1/ 2
1/ 2
H
H
0
0
standardnormalverteilt
KB bis zu diesem x-Wert
KB ab diesem x-Wert
KB bis x 1 und ab x 2
MdT
dieses x für Parameter von H A nachschauen
nicht möglich
1-β
wird größer,wenn:
x −μ
dieses x für π A und n in
kum.Tab. nachschauen
|H
A -H 0 | sehr groß
H
z =
A
n
größer
σ
H
KB (α) größer
A
β
nicht möglich
1-Macht des Tests
in
kum.Tab. für π A und n Wert
1-Macht des Tests
bei x nachsehen
Konfidenzintervalle und Test von Hypothesen(zweiseitig) : Bereich der akzeptablen Nullhypothese µ 0 in 95%Konfidenzintervall(=Hypothese auf 5%Signifikanzniveau)
x
± 1,96σ
x
Anpassungstest für Verteilungen gefundene den postulierten?
H0: Populationsanteile aufgrund theoretischer Überlegungen bekannt
Likelihood-Ratio-Chi**²
Pearson-Chi**²
I
π
I
2
(p
−π
)
2
i
Kritischen Brereich aus der Tabelle entnehmen! T(df)=I-1
TW
LR
χ =−
2n
p ln
2
P
χ =
n
i
i
i
p
π
i = 1
i
Freiheitsgradmodifikation beim Schätzen von G Parametern
i = 1
i
Testverteilung (n groß): Chi**² mit df=I-1 (I = Anz. Ausprägungen) H0 ablehnen, wenn TW ≥ KB
df = I – G – 1
G= Anzahl der geschätzten Parameter

Vergleich zweier Mittelwerte (x mind. nominal, y mind. Intervall)

verbundene Stichproben

Konfidenzintervalle und Tests

Determinationskoeffizient 1.Art η v ² (0≤η v ²1)

(1-α)-Konfidenzintervall für µ 1 2 (falls σ unbekannt)

d

±

t

>−∝< 1

(df )

mit df = n-1(falls σ unbekannt) d ± t > −∝ < 1 (df ) TW= ( d −

TW=

( d μ

0

) /

S d

n
n

KB= t(df) (?)

linkss.KB

d

≤μ −

0

t

1 −∝<

(df )

s d n
s
d
n

rechtss.KB

d

≥μ +

0

t

1 −∝<

(df )

s d n
s
d
n

zweis.KB

d

≤μ −

0

t

>−∝< 1

(df )

s d n
s
d
n

bzw.

μ +

0

t

>−∝< 1

(df )

s d ≤ d n
s
d
d
n

2

η =

F(O

x

)

F(M

x

)

F(O

x

)

= −

1

F(M

x

)

F(O

x

)

=

ssq(between )

ssq(total)

=

ssq(total) ssq( within )

ssq( total)

ssq(total) /(n 1)

− −

ssq(within ) /(n 1)

ssq(total) /(n 1)

Anteil erklärter Varianz

[total=between+within]

Differenzenwerte: d j :=y 1j - y 2j (y 1j (j =1

n)

Stp 1; y 2j (j=1

d :

=

(d

1

+

d n

) / n

s 1 2 ( ∑ d − nd 2 ) j n d n −
s
1
2
(
∑ d
nd
2 )
j n
d n
− 1
j

n)

Stp.2)

n=1 bei einzelnen

R

y

(MITx) :

ˆ

d

j

:

=

d füralleUEen( j

=

1,

,n)

n

n

F

y

(MITx) :

ssq(d)

= =

∑ ∑

2

r

j

=

j

=

1

j

=

1

(d

j

d)

2

=

j

1

d

2

j

nd

2

n

=

R

F y

y

(OHNEx) : d

(OHNEx) :

2

η =

v

ssq(0)

=

j =

0 für alleUEen( j

ssq(0)

n n

=

∑ ∑

2

r

j

=

j

=

1

j

=

1

(d

ssq(d)

=

n

=

j

1

d

2

j

(

n

j = 1

d

2

j

=

1,

2

j

0)

,n)

nd

2

)

=

nd

y − y ) − d 1 2 z = ( s d n 2
y
y
)
d
1
2
z = (
s
d
n
2 nd ²
wichtig !
2
η
v
= n

j = 1

d

2

j

ssq(0)

n

j = 1

d

2

j

n

=

j

1

d

2

j

unverbundene Stichproben mindestens Intervallskala

y : = (y + + y y 2 1 11 1n ) / n
y
:
=
(y
+
+
y
y 2
1
11
1n
) / n
1
1
für i=1,2
1
n i
2
s
i : =
( ∑
y n
n y
2 )
ij
ij
i
i
n i − 1
j = 1

:

=

(y

21

+ + y

2n

2

) / n

Standardfehler:

2

s / n i i
s
/
n
i
i

Konfidenzintervall für Mittelwertdifferenz (µ 1 2 KI) immer für my, nie für x!!

Hypothesentest zur Mittelwertdifferenz (H 0 : µ 1 2 0 )

σ 1 und σ 2 bekannt

σ 1 = σ 2

homo-

skeda-

stisch

σ 1 und σ 2

hetero-

skeda-

stisch

(y

1

y )

2

±

z

1

> −α <

σ

y

1

y

2

mit

σ

y

1

y

2

=

2 2 σ σ 1 + 2 n n 1 2
2
2
σ
σ
1
+
2
n
n
1
2

TW= (

y y

1

2

)

ggü rest. Z ODER Z-Wert und Z aus->

z : =

(y 1 − y ) −μ 2 0 σ y − y 1 2
(y 1
− y
) −μ
2
0
σ
y
y
1
2

Z ist standardnormalverteilt

(y

1

y ) ±

2

t

> 1 −α <

=

(df)s

y 1

y

2

mit df=n 1 +n 2 – 2und

s

=

y

1

y

2 =

s

pool

1 1 + n n 1 2
1
1
+
n
n
1
2

mit

2 (n

s pool

1

1)s

1

2 +

(n

2

1)s

2

2

=

n

1

+

n

2

2

t(df ) :

=

(y 1

− −μ

y

2

)

0 = TW

=

s y

1

y

2

mit df = n 1 +n 2 – 2

Student-t-verteilt mit df Freiheitsgraden KB für t(df) in Tab. nachsehen

(y

1

y )

2

±

t

> 1 −α <

(df)s

y

1

y

2

s

y

1 y

2 =

2 2 s s 1 2 + n n 1 2
2
2
s
s
1
2
+
n
n
1
2

df =

(

2

2

2 )

2

s 1

n

1 + s

2

n

( 2 ) 2 s n 1 1
(
2
)
2
s
n
1
1

(n

1

1)

+

1 1

)

t(df ) : =

(y 1

− −μ

y

2

)

0 = TW

s

y

1

y

2

Proportional Reduction of Error (PRE-Maß) η² (0≤η²1) - Determinationskoeffizient 1.Art (nicht erwartungstreu) für n Stichproben einfaktorielle VARIANZANALYSE

Stp. i : y ij (j=1, ,n ) n mit i=1,2,…,I i i y: =
Stp. i : y ij (j=1,
,n
)
n
mit i=1,2,…,I
i
i
y:
=
(n y
+ +
n y )/n
2
1
2
s
:
=
(y
y
)
x mind. Ordinal, y mind. Intervall
y
:
=
( y
+
+
y
) / n
mit n = n 1 +
+
n
i
n
1
ij
i
1
1
I
I
I
i
i
i1
in
i
i
j
=
1
R
(OHNE x) : yˆ
:
=
y für alle UEen in allen Gruppen
y
ij
2
R
(
Mit x
) :
y
ˆ
:=
y für alle UEen
Gesamtmittelwertregel
ssq between
(
) =
n y
ny
²
Gruppenmittelwerteregel mit y(dach)1=
,
y(dach)2=….
i
i
y
ij
i
I
n
I
n
I
n
I
n
I
n
I
I
n
I
i
i
i
i
i
i
2
2
2
2
2
2
2
2
2
F
(Mit x) :
=
ssq(within)
=
∑∑ ∑∑
r
=
(y
y )
=
(n
1)s
=
∑∑ ∑
y
n y
F
(OHNE x) :
=
ssq(total)
=
∑∑ ∑∑
r
=
(y
y)
=
∑∑
y
ny
y
ij
ij
i
i
i
ij
i
i
y
ij
ij
ij
i = 1
j
=
1
i
=
1
j
=
1
i
=
1
i
=
1
j
=
1
i
=
1
i=
1
j
=
1
i
=
1
j
=
1
i
=
1
j
=
1
ssq (total) = ssq(within)+ssq(between)
I
2
2
2
n n
2
für n=2
2
2
n y
ny
n y
+
n y
ny
1
2
(y
y )
2
i
i
Fehlerreduktion um η²/100 % bei
1
1
2
2
n
1
2
F
η=
Det.
=
=
2
i
=
1
1
η =
Det.
=
=
n
n
n
n 1
Berücksichtigung des x-Merkmals bei
1
2
2
1
I
n
2
2
2
2
2
2
i
(df 2 / df1)
+
F
∑ ∑
y
+
y
ny
∑ ∑
y
+
y
ny
2
2
∑∑
y
ny
Prädiktion
1j
2j
1j
2j
ij
j = 1
j
=
1
j
=
1
j
=
1
i
=
1
j
=
1
Test der Hypothese, dass alle Mittelwerte gleich H 0 : µ 1 =µ 2 =
I bzw. Det. 1 =0
ANOVA-Tabelle
Konstruktion der Teststatistik (F-Statistik): {VOR.:y ij ~ NV; σ i Homoskedastisch}
Variationsquelle
Sum of Squares
df
Mean Sum of Squares
F-Ratio
2 df 2
Faktor, between
ssq(between)
df1=I-1
msq(between)=ssq(b)/df1
msq(between)
F(df1,df 2) =
F(df 1, df 2) =
ssq ( between ) / df 1
ssq ( within ) / df 2
=
msq ( between )
msq ( within )
=
η = TW
Error, within
ssq(within)
df2=n-I
msq(within)=ssq(w)/df2
msq(within )
2
1 −η
df 1
Total
ssq(total)
n-1
msq(total)=ssq(t) / (n-1)=s² n-1
mit df1=(I-1) und df2=(n-I)
(KB immer von rechts bestimmen KW in Tab. suchen)
I
= Anzahl Gruppen, n = Anzahl UEen insgesamt
adjustierter Determinationskoeffizient 1.Art,da n² zu groß ist -> nicht erwartungstreu
Effektdarstellung
mit symmetrischer Effektrestriktion
Pfaddiagramm
α
2
msq(within)
ssq(within) /(n
I)
2
2
2
µ
i = k+α i
α i = µ i - µ
1
n
1
I
1
η
:
= −
1
= −
1
= −
1
− (1
−η =η −
)
(1
−η
)
μ= x
α 1 +α 2 +
I = 0
1
1
α
msq(total)
ssq(total) /(n 1)
n
− I
n
I
2
k = (µ 1 + µ 2 +
I ) /I =µ
α
I
(k - allgemeines Niveau / ungewichteter Mittelwert)
Y
i =µ+α i x i +e i (mit E(e i )=0 und Var(e i )=σ² e )
k

Regressionsanalyse (gegeben zwei quantitative Merkmale mind. Intervallskaliert)

Y alle NV, x(dach) mit alpha + beta*Xi, linearität, homoskedastzidität

x-Variable = Regressor = unabhängige Variable = Prädiktor y-Variable = Regressand = abhängige Variable = Prädikand

Regressionsgleichung in der Population: µ y (x) = α + βx (σ² y (x) = σ² e )

ˆ

E( β)

VAR(

ˆ

β =

)

σ

2

e

s

2

X

(n

1)

σˆ = s =

e

e

2

2

n

1

2

n

=

i

1

(y

i

i

)

2

=

ssq ( y.x )

2

n

=

n

1

n

2

(

Var(Y)

Cov (X,Y)

Var (X)

2

)

Konfidenzintervall KI:

Test für H 0 : β 0 =0 Erwartungstreu!!!

ˆ

β± t

>

0.95 <

(df )

s e 2 (n − 1)s x
s
e
2
(n
1)s
x
ˆ β−β 0 t(df ) = = TW s e (n − 1)Var ( x
ˆ
β−β
0
t(df ) =
= TW
s
e
(n
1)Var ( x )
Krit.Wert in Tab. nachsehen

df = n-2

Korrelationskoeffizient (-1r1)

r

xy

=

2 Cov (X,Y) r = Det. = s xy = xy 2 s s Var
2
Cov (X,Y)
r
=
Det.
=
s xy
=
xy
2
s
s
Var (X)Var (Y)
x
y

Wenn groß, starker großer Zusammenhang

R

y

( MIT

x )

=

i

:=

a

+

(MIT x )

:= ssq ( y.x ) :

bx

n

i

= 1

ist der Prädiktionswert für die i.te UE

i

r

i

2 = ( y

i

i

)

2

(

= (n 1) Var (Y )

( OHNE

x ) : yˆ

i

:

= y

für alle Ueen

= ssq(total)

=

n

(y

i

1

i

y)

2

=

(n

1)Var(y)

Cov

2 ( X ,Y )

Var ( X )

)

F y

R y

F

y

(OHNE x) :

r

xy

Determinationskoeffizient 2.Art =PRE Maß!!

(r² xy / 100 % der Varianz kann durch die Geradenregel reduziert werden)

2 :=

ssq( total)

ssq ( y.x )

Var ( y)

ssq ( y.x ) /( n 1)

2

Cov (X,Y)

=

=

ssq ( total)

Var ( y)

Var (X)Var (Y)

Fischers z (Transformation)

schon bei kleinen Stp. NV

z(r)

=

1 2 ln

1

1

+ r

r

z ist NV(z(ˆ);

ρ

1

n

3

)

z

1

(r)

=

r(z)

=

e

2z

1

e

2z

+ 1

adjustierter Determinationskoeffizient 2.Art

H 0 : ρ=ρ 0 Beide Merkmale bivariat NV

2

xy

adjust.r

= −

1

ssq(y.x) /(n

2)

ssq(total) /(n 1)

z =

z(r) − z( ρ 0 ) 1 n − 3
z(r)
z(
ρ
0 )
1
n
3

=

⋅

(z(r) z( )) n 3 TW

ρ

0

− =

Geradengleichung (mit a und b als KQ-Schätzer)

b

=

n

i

=

1

y

i

x

i

n

y

x

=

Cov

( X

,

Y

)

s

yx

b = n ∑ i = 1 y i x i − n y x =

n 2

n

x

i

x

2

Var

( X

)

s

2

x

=

i

=

1

a = y bx

Konfidenzintervall für ρ

Konfidenzintervall für z(ρ)

z

1

(

z(r)

± z

>

0.95 <

) 1 n − 3
)
1
n
3

z(r)

± z

>

0.95 <

1 n − 3
1
n
3

x , y , Var ( x ), Var ( y ), Cov ( x. y ), b , a , Rgel , Fehler , x , y , x ², y ² x * y

n

= (

z

2*

* Breite

σ

)

2

n − 2 exakterTes t ρ = 0 : TW = ρ ˆ * 1
n − 2
exakterTes t
ρ
=
0 :
TW
=
ρ
ˆ *
1 −
ρ
ˆ²
Student t verteilt ( KB ) mit df
= n −

2(

beidseitig

!)

Hypothesentests: Mittelwerttest/G Binominaltest Anpassungstest außtest Vergleich 2er Mittelwerte bei verb.
Hypothesentests:
Mittelwerttest/G
Binominaltest
Anpassungstest
außtest
Vergleich 2er
Mittelwerte
bei verb. Stichprob.
Vergleich 2er Mittelwerte
bei unverb. Stichprob.
Fragestellung:
Ist jenes im
Schnitt gleich
welchem?
Wie groß ist die
Stimmen gefundene
Ist jener Durchschnitt gleich
Chance das
?
und theoret. Vert.
Ist jener Durchschnitt
gleich welchem?
welchem?
überein?
1.
Hypothesen
H0: µ0=µ
Ha: µa≠µ0 /
H0: л0=л
H0: л1+
+лI=1
H0: µ1-µ2=µ0
H0: µ1-µ2=µ0
formulieren
H0: Nullhypothese Ha:
H a: л a≠л 0 /
л a>л 0
(Ha: лa1≠л01
)
Ha: µ1-µ2≠µ0
/
Ha: µ1-µ2≠µ0 /
µa>µ0
/
/
µ1-µ2>µ0
/
µ1-µ2>µ0
/
Alternativhyp.
µa<µ0
лa<л0
µ1-µ2<µ0
µ1-µ2<µ0
I
2.
Teststatistik:
standardisierte
Erfolgsanteil/-
π
Mittelwerts-differenzen
2
δ1 & δ2 bekannt → z= (ў1-ў2)-µ0 /δў1-ў2
i
LR
χ =−
2n
p ln
i
p
r Mittelwerte
anzahl pi oder xi
i=1
i
đ=(d1+ +dn)/n
δў1-ў2=√( δ1² /n1+
δ2² /n2)
z=x-µ0 *√n
oder
TW=đ-µ0/sd/√n sd=√( 1 /n-
δ1=δ2 → t(df)= (ў1-ў2)-µ0 /δ=ў1-ў2
2
∑ I (p
−π
)
δx
Umrechnung:
2
i
i
P
χ =
n
1(Σdj²nj-nđ²))
s
= ў1-ў2=√( n1-1)s1²+(n2-1)s2² /n1+n2-2)
π
i
=
1
i
xi/n=лi
*√( 1 /n1+ 1 /n2)
andere → t(df)= (ў1-ў2)-µ0 /δ≠ў1-ў2
s
≠ ў1-ў2=√(s1²/n1+s2²/n2)
3.
Testverteilung:
δ
bekannt →
Binominal-verteilung
χ²-Verteilung Tabelle
δ unbekannt → Student-
Tab. E
Tabelle A/B
G
Normalverteil
t-Verteilung
Tabelle H
bei z → Normalverteilung Tab. E
bei t → Student-t-Verteilung Tab.
H
ung
δ
unbekannt→Ta
b.H Student-t-
Verteilu
4.a) Seitigkeit:
µa≠µ0 →
лa≠л0→ beidseitig
immer rechtsseitig
µ1-µ2≠µ0→beidseitig
µ1-µ2≠µ0→beidseitig
beidseitig
лa>л0→rechtsseitig
µ1-µ2>µ0→rechtsseitig
µ1-µ2>µ0→rechtsseitig
µa>µ0 →
лa<л0→ linksseitig
µ1-µ2<µ0 → linksseitig
µ1-µ2<µ0 → linksseitig
rechtsseitig
µa<µ0 →
linksseitig
b)
Ablehnungsber.
δ
bekannt →
exaktes α (≤0,05) in
Tab A/B
x=χ²>0,05(df)
x= t>1-α<(df)
x=z>1-α< oder
x=t>1-
berechnen:
df=n-1
x=z>1-α<
δ
unbekannt →
nachschauen
df=(I-1)
x=t>1-α<(df)
dortiger x-Wert
α<(df) → KB: x und größer/kleiner
bei δ1=δ2 → df=n1+n2-2
bei anderen →
df=n-1
KB: x und
größer/kleiner
→ KB: x und größer
→ KB: x und
größer/kleiner
df=(s1²/n1+s2²/n2)²/((s1²/n1)²/(n1-
KB: x und
größer/kleiner
1)+(s2²/n2)²/(n2-1))
5. Testwert
(ist
eine
Teststatistik)
Realisation
der
6. Entscheidung
TW im KB?
H0 angenommen
/ abgelehnt?
Hypothesentests:
Vergleich
α-Test und β-Test
ρ-Test
Exakter ρ-Test
mehrerer
Mittelwerte/
Varianzanalyse
Fragestellung:
Sind die
Ist in der Regressionsgleichung
α oder β = 0?
Ist ein Zusammenhang gegeben?
Ist ein exakter Zusammenhang
Mittelwerte
gegeben?
gleich?
1.
Hypothesen
H0: µ1=µ2=
=µI
H0: α0=α
H0: ρ0=ρ
H0: ρ0=ρ
formulieren
Ha: αa≠α0
/
Ha: ρa≠ρ0
/
Ha: ρa≠ρ0
/
H0: Nullhypothese
Ha: H0 ist falsch/
mindestens ein µ
ungleich
αa>α0 /
ρa>ρ0
/
ρa>ρ0
/
Ha: Alternativhyp.
αa<α0
ρa<ρ0
ρa<ρ0
2.
Teststatistik:
F-Statistik
Standardisiertes α der
Standardisierter Korrelationskoeffizient
t(df)=r√( n-2 /1-r²)
F(df1,df2)=η²/1-
Regressionsgleichung
z=(z(r)-z(ρ0))√n-3
Achtung!!
η²*df2/df1
t(df)=(â-α0)/se√(1/n+x²/(1-n)sx²)
z!!
df1=I-1
se= 1 /n-2Σ(yi-yi)²= n-1 /n-2(Var(y)-
df2=n-I
Cov²(x,y) /Var(x))
Standardisiertes β der
Regressionsgleichung
t(df)=(β-β0)/se/√(n-1)sx²
3.
Testverteilung:
F-Verteilung
Student-t-Verteilung Tabelle H
Tabelle F
Standardnormalverteilung
Tabelle E
Student-t-Verteilung Tabelle H
4.a) Seitigkeit:
Immer
αa≠α0→ beidseitig
ρa≠ρ0→ beidseitig
ρa≠ρ0→ beidseitig
rechtsseitig
αa>α0→rechtsseitig
ρa>ρ0→rechtsseitig
ρa>ρ0→rechtsseitig
αa<α0→ linksseitig
ρa<ρ0→ linksseitig
ρa<ρ0→ linksseitig
b)
Ablehnungsber.
x=F>α(df1,df2)
x=t>1-α<(df) df=n-2
→ KB: x und größer/kleiner
x=z>1-α<
berechnen:
→ KB: x und
größer
→ KB: x und größer/kleiner
x=t>1-α<(df) df=n-2
→ KB: x und größer
5.
Testwert
(ist
eine
Teststatistik)
Realisation
der
6.
Entscheidung
TW im KB?
H0 angenommen / abgelehnt?