Sie sind auf Seite 1von 4

VALIDITT (Gltigkeit) RELIABILITT (Zuverlssigkeit) OBJEKTIVITT

Vorschriften so gefat, da die Messergebnisse genau der theoretischen Definition entsprechen kennzeichnet den Grad der Genauigkeit (Przision), mit der die Vorschrift das Messergebnis liefert unabhngig vom Anwender der Vorschrift resultiert das gleiche Ergebnis

Nicht gruppierte Daten / diskrete Merkmale


Urliste : x i
Nominal skala Ordinal skala quivalenz funktion Monoton steigende Funktion
ni n1 n2 nI n pi = ni / n n1 / n n2 / n nI / n 1

gruppierte Daten / stetige Merkmale


n Anzahl der Klassen 2 * n
( Qualitativ: untersch.Arten von Merkmalsausprg.en Quantitativ:besitzen Zahlen als Ausprgung steigende Gerade

Sortierte Liste : x

(i)

= Anzahl verschiedener Messwerte) Lineare Fkt. ( b > 0) Lineare Fkt. (a = 0, b > 0) Identische Funktion
Klassen Breite bi = oi-ui

Skalenniveaus Zulssige Transformation

xi xj y(xi)y(xj) und xi = xj y(xi)=y(xj) xi < xj y(xi)< y(xj)


Fi = F(xi) p1 p1+p2 p 1+ +p I / xi*pi x1*p1 x2*p2 xI*pI

Verschiedenheit bzw. Gleichheit bleibt erhalten Ordnung bleibt erhalten

Merkmal qualitativ
Index
i

Intervall skala Verhltnis skala Absolut skala


Klassen Mitte

y (x) = a + b x y (x) = b x y (x) = x


Anteil rel.Huf. pi = ni / n

Merkmal quantitativ
steigende Gerade durch 0 nur gleiche Werte
kumulierter Anteil F(oi) Hhe = Dichte hi = pi / bi xi*pi

Listen

Hufigkeitsverteilung
p mindestens nominal F mindestens ordinal

i 1 2 I

xi x1 x2 xI xi

kumulierter Anteil : Anteil aller UEen mit Werten (xi -Wert) 0 F(x) 1 [F(-)=0, F(+)=1]

Klassen Grenzen ui oi

(absolute ) Hufigkeit ni

xi =
/

u i +oi 2

F(on) = 1

Graphische Darstellung Parameter Lage

Dichtefunktion Verteilungsfunktion

Stabdiagramm (Dichte=p) Kreis- / Netz- / Staffeldiagramm / Stamm und - Blattdiagramm Treppenfunktion mit Sprungstellen

Histogramm (Dichte=Hhe) -> Flche = p Stem- and leaf diagram hi = pi/bi Summenpolygon

Flchentreue: Flche proportional zur relativen Hufigkeit der KLassen Modalwert :Mode (x) = x mod Wert mit grter Dichte
x + x 2 +L+ x n 1 n x= 1 = xi n n i =1

Extremwerte Minimum bzw. Maximum min(X)=x( 1 ) , max(X)=x( n ) mindest ordinal arithmetisches Mittel:
1 2

f(mode(X))=
mind.nominal

max(f(x)) x
1 I xini n i =1

Bei stetigen Daten (Klassen) ist xi immer die Klassenmitte (zB X (quer)

Summe aller Differenzen (dS) zum Mittelwert : dS:= ( x x ) + ( x x ) + L + ( x x ) = 0


n

=mean(X)

x = x i pi =
i =1

Berechne z:= n*q. Schneide Dezimalstellen von z ab: [z]. q-getrimmtes Mittel: Whle aus der sortierten Liste alle Werte zwischen dem [z]-tem und dem (n-[z]+1) ten aus: x([z]+1) ,..., x(n-[z]) ; und berechne darber

Transformationen: y=a+bx. mindestens Intervallskaliert Werden alle Einzelwerte mit konstantem a bzw. b linear transformiert, gilt dies in der Folge auch fr die arithm. q Mittel: y = a + bx

x ist translationsquivariant gegenber linearen


~ x

geometrisches Mittel x G
xG = n x1 * x2 *L* xn = n xi
i=1 n

mind. Verhltnisskala xi = Wachstumsfaktor : G / G vorher mind. Verhltnisskala Werte mglichst positiv

x.
x.

q-winsorisiertes Mittel: Ersetze alle Werte x(1) bis x([z]) durch x([z]+1) und ersetze alle x(n-[z]+1) bis x([n]) durch x(n-[z]) ; und berechne fr diese modifizierten Werte Fr die Verteilungsfunktion F(x) gilt: F(med(X))

Median med(x) mind. ordinal


x-Wert, der die Verteilung in zwei Hlften teilt. Genauer: x-Wert, fr den die beiden Forderungen gelten: 1. mindestens die Hlfte aller Werte med(X) 2. mindestens die Hlfte aller Werte med(X)

fr n gerade

fr n ungerade

( x( n ) + x( n +1) ) / 2
2 2

x n+1 (2)

1 2

und

1-F(med(X)) + f(med(X))

1 2

d.h. der Median liegt dort, wo F(x) erstmals berschreitet Suche zuerst die aktuelle Klasse, in der das Quantil liegt; das ist die Klasse, in der F(oi)q und F(oi-1)<q.Bezeichne den Index der aktuellen Klasse mit m. Falls F(om)=q, dann gilt: Falls F(om)>q, dann gilt: xq = (om + um+1)/2

Quantil zum Quantum q :

~ ist der x-Wert, der die Verteilung in zwei Teile teilt, xq

so da die folgenden beiden Forderungen gelten: der Anteil des ersten Teils enthlt mindestens q und der Anteil des zweiten Teils ist mindestens (1-q) aller Werte. mind. ordinal

z := n*q -> z = ganze Zahl ? ~ Ja: x q = (x (z) + x (z+1) ) / 2 Nein:

~ =x xq ( [z] + 1)

xq = um +

(q F(u m ))b m F(o m ) F(u m )

Hinges / Eights mind. ordinal


Tiefe(Median)=(n+1) / 2

Tiefe(Hinges)=([Tiefe(Median)]+1) / 2 -> ganze Zahl? ja: hu {links} = x(Tiefe(Hinges)) ho {rechts} = x ( n +1-Tiefe(Hinges) ) nein: hu = ( x ( [Tiefe(Hinges)] ) + x ( [Tiefe (Hinges)]+1) ) : 2 ho = ( x ( n+1-[Tiefe(Hinges)]) + x ( n-[Tiefe (Hinges)] ) ) : 2
2 s 2 bzw. s n -1 n

Tiefe(Eighths)=([Tiefe(Hinges)]+1) / 2 -> ganze Zahl ? ja: eu = x (Tiefe (Eighths)) eo = x ( n+1-Tiefe (Eighths)) nein: eu = ( x ([Tiefe(Eighths)] ) + x ([Tiefe (Eighths)] +1)) : 2 eo = ( x ( n+1 - [Tiefe(Eighths] ) + x ( n -[Tiefe(Eights)] ) ) : 2
n fr s2 n n 1 fr s2-1 n

Streuung / Dispersion / Breite der Verteilung / Skedastizitt einer Verteilung

Varianz: Var(X)

(=

s2

bzw.

Urliste
)

durchschnittliche quadrierte Abweichung vom Mittelwert.

sq := (x i x ) =
2 i =1 i =1
2 I

s 2 :=

sq n*

x i2

nx
I

* mit n :=

Standardfehler d. arith. Mittels : Std( x )


Der Standardfehler ist die Standardabweichung der Verteilung aller denkbaren Mittelwerte, die man erhielte, wenn man etwa sehr viele Stichproben ziehen wrde (jeweils mit gleichem n).

Standardabweichung Std (X) := Var(X) ( =s

Verteilung
2 Sn =

bzw. s n bzw. s n 1 ) mind. intervall

sq := n (x i x ) p i = n i x i2 n x 2
i =1 i =1

1 ( xi x ) n

Std( X ) = Std(X)/

einfacher: S 2

n 1

1 ( xi x ) n 1

Spannweite (range): sp [mind. intervall] sp:= x (n) x (1) = max(x) min(x) Quantilabstand d q := ~ 1 q ~ q x x Differenz zwischen symmetrischen Quantilen Mittlere Abweichung vom Median d ~ x
Mittelwert der Distanzen aller Werte zum Median.

H-Spread dh / E-Spread de mind. intervall dh := ho - hu de := eo - eu Quartilabstand (engl. Interquartilrange)

MAD = Med(Abstnde)
Median der Distanzen aller Werte zum Median

MAD := Med ( x i ~ 0 .5 , i = 1,..., n ) x


mittlerer Quantilabstand

d 0.25 := ~ 0.75 ~ 0.25 x x

dq : 2
Mittlere quadrierte Abweichung der Werte voneinander (mqa) mind. intervall n n 2 1 mqa:= ( x i x j ) 2 = 2* s n 1 n ( n 1) i =1 j=1
= 2*Var(x)

Mittlere Absolute Abweichung der Werte voneinander (maa) (=dG) mind. intervall
Urliste: maa:=
n n 1 | xi x j | n (n 1) i =1 j=1

Urliste

Verteilung

sortierte Liste:

d ~ := x

1 n

i =1

x i ~ 0.5 x

d ~ := x i ~ 0.5 p i x x
i =1

maa =

n 1 2 i(n i) x (i +1) x (i) n (n 1) i =1

Dimensionslose Streuungsmae Variationskoeffizient v Quartilsdispersionskoeffizient qdk


mindestens Verhltnisskala + positive Werte mindestens Verhltnisskala + positive Werte

Modaldispersion mind. nominal


Der Anteil der Werte, die nicht in der ModalAusprgung liegen md:= 1 max ( p )
i i

qualitative Varianz mind. nominal


qv:= 1 (p 2 + p 2 + L + p 2 ) = p1(1-p1) +...+ pI(1-pI) 1 2 I

Std (X) v := Mean (X )

~ ~ x x qdk := ~0.75 ~0.25 x +x


0.25

= 1- pi = pi (1-pi)

0.75

qv und md liegen zwischen 0 und (I-1) / I (I-Anz. Ausprgungen)


maximal bei Gleichverteilung der Werte qv bzw. md dann =1- (1 / I) = ( I 1 ) / I

Entropie h(x) (minimalste Anzahl bentigter Fragen) mind nominal Entropie in nits Entropie (in bits):= {An Stelle von log ln nehmen !!!}

Schiefe mind. intervall schiefe(X) =

h (X) b = p i ld(p i ) = 1
i =1

ln( 2)

p
i =1

ln( p i )

h (X) = p i ln(p i )
i =1

Mean(X) Med(X) Std (X)

linksschief: schiefe(x) = negativ symmetrisch: schiefe (x) = 0 rechtsschief: schiefe (x) = positiv ( -1 schiefe(X) 1 )

Box Plot (bzw. Box-and-Whisker Plot)


Extremster Wert auerhalb der ueren Zune

Extremster Wert innerhalb der inneren Zune


Extremster Wert innerhalb der ueren Zune

hu-(ho-hu)*3
unterer uerer Zaun

hu-(ho-hu)*1,5
unterer innerer Zaun Whisker

hu
unterer Hinge

Median

ho
oberer Hinge Whisker

ho+(ho-hu)*1,5
oberer innerer Zaun

ho+(ho-hu)*3
oberer uerer Zaun

Stichproben
mit Reihenfolge n mal Ziehen MIT Zurcklegen ohne Reihenfolge

Anzahl mglicher Stichproben

Merkmalsstichprobenraum (Menge der Merkmalskonstellationen)

Nn

= Anzahl der Variationen 8 Farb. 5 Lcher

wre 8 hoch 5

n + k 1 k

n! n ! n !L n ! M +1 1 2

=Anzahl

Inverschiedene Merkmalskonstellationen mglich Merkmal mit I Ausprgungen; Stichprobe der Gre n Einzelziehung: P(X=x) =x
Ziehen mit Zurcklegen (unabhngige ZV): P(X1=x1,X2=x2,...,Xn=xn)=P(X1=x1)*P(X2=x2)**P(Xn=xn) =x *x **x
1 2 n

Reihenfolge der Elemente wird bercksichtigt n mal Ziehen OHNE Zurcklegen Reihenfolge der Elemente nicht bercksichtigen

N( N 1)( N 2) L ( N n + 1)
=Anzahl der n-Permutationen von N Elementen
N ( N 1)( N 2 )L( N n +1) 1 * 2 * 3 *L * n

Mglichkeiten n-Elemente in M+1 Ausprgungen n! = Anzahl der Permutationen Anzahl Reihenfolgen fr nElemente, also bei Bchern im Regal Permut durch zB 23 personen 2 genau: (23 ber 2)*p(treffen hoch 2)*p(nicht treffen hoch 21)

N N! = = n!( N n )! n

Ziehen ohne Zurcklegen (abhngige ZV): P(X1=x1,X2=x2,...,Xn=xn)=P(X1=x1)*P(X2=x2|X1=x1)** P(Xn=xn|X1=x1,,Xn-1=xn-1)

= Anzahl der Kombinationen Einfache Zufallsstichprobe: jede Mglichkeit / jeder Reprsentant gleichwahrscheinlich Zufallsvariablen / Stichprobe: Population -> Stichprobe (Statistik = Stichprobenfkt.) -> konkrete Stichprobe (Wert der Statistik) 2 -> Stichprobenfunktion (an jeder Stelle konkrete Stichprobenvariablen einsetzen und Mittelwert bilden) sicheres Ereignis p=1 Elementarereignisse: gleichwahrscheinlich Wahrscheinlichkeit unmgliches Ereignis p=0 Klassischer Wahrscheinlichkeitsbegriff Frequentischer Wahrscheinlichkeitsbegriff alle mglichen Ergebnisse, die denkbar sind
X =
2

mit einem Griff die xte und yte: (n ber N)* Gegriffene Anzahl

X1 + X

disjunkte Ereignisse : berschneiden sich nicht

P (A ) =

#A #M

Anz. gnstige Flle Anz. mgliche Flle

P(A) := p lim (p(Aw ) ) = p lim


w

# Aw w

Bsp: Mnze (A:Adler) W: Wrfe

w 1 2 3 4 5

Einzelergebnis 0 0 1 1 0

#Aw 0 0 1 2 2

P(2er Kontakt bei n Leuten) = 2/ n

gnstige Ereignisse : n-1 / mgliche Kontakte : (n*n - n) / 2

Baummultiplikationsregel

Erwartungswert ( = Mittelwert der Zufallsvariablen)

Varianz

Var (X ) = E (( X E ( X ))) = ( x i E ( x i )) 2 P ( X i = x i ) = E ( X ) E ( X )
i =1

E(X) = x i * P(X = x i ) =
i =1

E ( X n ) = = p lim x (nw )
w

2 Var ( X n ) = n

E(sn-1 )=
E ( S n2 ) = n 1 E ( S n21 ) n
1 n 1

Std ( X) =

x n

E( E(X) ) = E(X) Konstantenregel Konstantenproduktregel Summenregel Linearkombinationsregel E(k) = k E(bX) = b*E(X) E(X+Y) = E(X)+E(Y) E(a+bX1+cX2) = E(a) + E(bX1) + E(cX2) = a+b*E(X1)+c*E(X2)

Cov(Y, X) =

1 n 1

(i =1 y i x i nyx ) =
n

(i =1 x i y i nxy) = Cov(X, Y) = s XY = s YX
n

Var(k) = 0 Var(bX) = b Var(X) Var(x+Y) = Var(X) + Var(Y) + 2 Cov(X,Y) Var(a+bX+cY) = b Var(X)+c Var(Y)+2abCov(X;Y)

Cov(X,Y) = E((X-E(X))((Y-E(Y)))

lim P ( X n < ) 1 je grer die Stichprobe, desto nher ist n die Tendenz, da alle Werte um Populationsmittelwert liegen. Die Wahrscheinlichkeit, da alle Werte in einem Bereich um liegen, geht gegen 1.

Gesetz der groen Zahlen

Zentraler Grenzwertsatz: Die Verteilung des Mittelwerts ber die n unabhngig aus der gleichen
Populationsverteilung gezogenen Werte nhert sich bei zunehmendem n der Normalverteilung X x Z= n standardisierte Zufallsvariable fr n standardnormalverteilt :
Std ( X n )

Z ~ N(0,1)

Binomialverteilung (n-malige Wiederholung (unabhngig voneinander) eines Bernoulli-Experimentes, betrachtete Zufallsvariable X = Anzahl der Erfolge) Bernoulli-Experiment (Zufallsexperiment mit 2 mglichen Ergebnissen [Treffer / Nichttreffer]) k n-k n P(k Erfolge bei n Versuchen) = p * (1-p) * ( ) x = (Anteil = Durchscnitt) k Treffer = 1 mit Wahrscheinlichkeit p ; Nichttreffer = 0 mit P = 1-p P(mind. k Treffer bei n Versuchen) = 1 P (max. k-1 Treffer) E(X) = xi*p(xi) = 0*(1-p)+1*p = p E(X) = np Var(X) = np(1-p) (~Anzahl~) Var(x) = (p*(1-p))/n (~Anteil~) Var(X) = E(X) E(X) = 0 *(1-p)+1 *p p = p-p = p(1-p) E( X )=x=0*0 + 1*1 =1 x = 1*(1-1 ) s 2 = n x (1 x ) Std(X n ) = (1 ) / n = X n n n 1 n 1 Dummy Variable/dichotomes Merkmal Anzahl = n*Anteil
E(Anz) = nx = n

SCHTZTHEORIE
Punkt-Schtzer (Wie gut sind Formeln?)
oder : Parameter in Population z.B. ,

: Schtzer(Estimator) = Zufallsvariable z.B. Sn-1

-> guter Schtzer erwartungstreu E( ) = bias(Verzerrung)= E ( ) - (= 0 mglichst)


n-1

E (s 2 ) = n

n 1 n

Maximum-Likelihood-Schtzer
(Parameterwert mit grter Wahrscheinlichkeit der Realisation = plausibelster) - approximativ (n ) normalverteilt - konsistent (aber nicht erwartungstreu) - falls fr Parameter effizienter Schtzer existiert mit ML-Schtztechnik findbar - Funktionen von ML-Schtzern sind wieder ML-Schtzer (Invarianzprinzip)

: realisierter Schtzwert(Estimate) der Zufallsvariablen z.B. s


E( ) =
Bsp: E( X )=

effizient Varianz mglichst klein Var( 1)<Var( 2) (schlechtere/bessere) absolut effizient = der mit kleinster Varianz relativ effizient = Verhltnis der Varianzen

konsistent wenn gilt P(| -|<)


n

1 fr n

; fest vorgegeben

Intervallschtzung (Konfidenzintervalle) bei Dummyvariablen gilt:


fr bekannt

x = ,
fr ( n>100 df=n-1

unbekannt ber sn-1 schtzen bei Konfidenzzahl 0,95

entspricht Anteil in Stichprobe) bei 25n100 t-Verteilung statt z

x 1,96 x =
Hypothesen Testen

x t 0,975< (df ) s x
(Student-t-Verteilung)

x z >1< x (Standardnormalverteilung)

x 1,96 x ; = x (1 x ) x
n 1
standardnormalverteilt

sx =

2 S n 1 n

Entscheidung auf Grund der Stichprobe Macht des Tests nur fr konkrete HA ermittelbar W(HA akzeptieren | HA richtig) = P(TW in KB|HA ri.) H0 akzeptieren H0 ablehnen / HA akzeptieren Konstruktion des Tests Zustand in H0 ist richtig richtige Entscheidung Fehler 1.Art = (mglichst klein) Gesamtheit 1.Null - und Alternativhypothese formulieren vor Test festgelegt W(H0 ablehnen | H0 richtig) 2.Teststatistik (Anteil, Anzahl,Mittelwert) richtige Entscheidung 1- 3.Testverteilung unter Geltung von H0 HA ist richtig Fehler 2.Art = (mglichst klein) = 1-Macht des Tests 4.Kritischer Bereich festlegen (H0 ablehnen|HA stimmt) W(H0 akzeptieren | HA richtig) (5.)berprfung: Testwert der Teststatistik in KB? Binomialtest (Frage zB exaktes ?) Mittelwerttest (!!!!!!!!!!H=H/n !!!!!!!!!!!!) {Falls unbekannt T-Verteilung} linksseitig HA<H0 rechtsseitig HA>H0 linksseitig HA<H0 rechtsseitig HA>H0 zweiseitig HAH0 bei n*>15 (zB 80*0,6) KB fr z-Wert suchen fr z-Wert suchen fr / 2 z-Wert suchen Suche in kum.Tab. bei 0 Suche in kum.Tab. bei 0 und 0 (1 0 ) x = =0,05 z= -1,645 =0,05 z= +1,645 =0,05 z(/2)=1,96 und n letzten Wert, der n ersten Wert, der 1- ist n ist ( exaktes ) ( exaktes ) z-Werte mit Parametern von z-Wert mit Parametern von H0 restandardisieren H0 restandardisieren KB bis zu diesem x-Wert KB ab (x+1)-Wert x = + z

x = z H0 + H0
x HA HA

x 1 / 2 = z1 / 2 H 0 + H 0

MdT

KB bis zu diesem x-Wert KB ab diesem x-Wert dieses x fr Parameter von HA nachschauen

KB bis x1 und ab x2 nicht mglich

standardnormalverteilt dieses x fr A und n in kum.Tab. nachschauen 1-Macht des Tests 1- wird grer,wenn: |HA-H0| sehr gro n grer KB () grer

1<

z=

1-Macht des Tests

nicht mglich

Konfidenzintervalle und Test von Hypothesen(zweiseitig) : Bereich der akzeptablen Nullhypothese

in kum.Tab. fr A und n Wert bei x nachsehen 0 in 95%Konfidenzintervall(=Hypothese auf 5%Signifikanzniveau) x 1,96 x

Anpassungstest fr Verteilungen gefundene den postulierten?


H0: Populationsanteile aufgrund theoretischer berlegungen bekannt Likelihood-Ratio-Chi** Pearson-Chi** I I (p i ) 2 TW LR2 = 2n pi ln i P 2 = n i pi i i =1 i =1 Testverteilung (n gro): Chi** mit df=I-1 (I = Anz. Ausprgungen) H0 ablehnen, wenn TW KB

Kritischen Brereich aus der Tabelle entnehmen! T(df)=I-1 Freiheitsgradmodifikation beim Schtzen von G Parametern df = I G 1 G= Anzahl der geschtzten Parameter

Vergleich zweier Mittelwerte (x mind. nominal, y mind. Intervall)


verbundene Stichproben Konfidenzintervalle und Tests Determinationskoeffizient 1.Art v (0v1)

Differenzenwerte: dj:=y1j - y2j (y1j(j =1..n) Stp 1; y2j (j=1..n) Stp.2) 1 d := (d1 + ...d n ) / n s ( d 2 n n d 2 ) n=1 bei einzelnen
d n 1

R y (MIT x) : d j := d fr alle UEen( j = 1,..., n)

(1-)-Konfidenzintervall fr 1 -2 (falls unbekannt) TW= S d t >1< (df ) sdn mit df = n-1 (d 0 ) / d linkss.KB rechtss.KB zweis.KB

Fy (MIT x) := ssq(d ) = rj2 = (d j d) 2 = d 2 nd 2 j


j=1 j=1 j=1

KB= t(df) (?)

R y (OHNE x ) : d j = 0 fr alle UEen( j = 1,..., n )

z=

d 0 t1< (df )
d 0 + t1< (df )
sd

sd n
n

Fy (OHNE x) := ssq(0) = rj2 = (d 2 0) j


j=1 j=1

( y1 y2 ) d sd n

d 0 t >1< (df )

sd n

bzw. 0 + t >1< (df )

sd n

2 = v

ssq (0) ssq ( d ) = ssq (0)

d
j=1

2 j

( d 2 nd 2 ) j

d 2j
j=1

j=1 n

nd
n j=1

wichtig! v2 =

nd

d 2j

d
j =1

2 j

unverbundene Stichproben mindestens Intervallskala

y1 := ( y11 + ... + y1n1 ) / n 1


s i :=

y 2 := ( y 21 + ... + y 2 n 2 ) / n 2
Standardfehler: s i / n i

2 =

F( O x )F( M x ) F(O x )

= 1

F( M x ) F(O x )

ssq ( between ) ssq ( total )

ssq ( total ) ssq ( within ) ssq ( total )

ni fr i=1,2 1 2 ( y ij n ij n i y i2 ) n i 1 j=1

ssq ( total ) /( n 1) ssq ( within ) /( n 1) Anteil erklrter Varianz ssq ( total ) /( n 1)

[total=between+within]

Konfidenzintervall fr Mittelwertdifferenz (1-2 KI) immer fr my, nie fr x!!


1 und 2 bekannt 1 = 2 homoskedastisch 1und 2 heteroskedastisch

Hypothesentest zur Mittelwertdifferenz (H0: 1-2=0)

(y1 y2)z>1< y1y2 mit


(y1 y2)t>1<(df)s= y y
1 2

y1y2 =

2 1 n1

2 2 n2

TW=

( y1 y2 ) gg rest. Z ODER Z-Wert und Z aus->

z :=

( y1 y 2 ) 0 y1 y 2

Z ist standardnormalverteilt

mit df=n1+n2 2und =

s y1 y2 = s pool

1 1 + n1 n 2

mit

s2 = pool

2 (n1 1)s1 + (n 2 1)s 2 2 n1 + n 2 2

t (df ) :=

( y1 y 2 ) 0 = TW s =1 y 2 y

mit df = n1+n2 2

(y1 y2 ) t >1<(df) s1y2 y

s 1 y 2 = y

2 s1

n1

s n2

2 2

df =

Student-t-verteilt mit df Freiheitsgraden KB fr t(df) in Tab. nachsehen 2 n + s2 n 2 ( y1 y 2 ) 0 s1 1 2 2 t (df ) := = TW 2 s 1 y 2 2 n 2 ( n 1) y s1 1 s2 n 2 n2 1 1 2

+(

) )

Proportional Reduction of Error (PRE-Ma) (01) - Determinationskoeffizient 1.Art (nicht erwartungstreu) fr n Stichproben
Stp. i : yij (j=1,..,ni)

einfaktorielle VARIANZANALYSE
x mind. Ordinal, y mind. Intervall

y i := ( y i1 + ... + y in i ) / n i

y:= (n1y1 +...+nIyI ) / n mit n = n

+...+ nI

s :=
2 i

1 n i 1

( y ij y i )

mit i=1,2,,I

j= 1

R y (OHNE x ) : y ij := y fr alle UEen in allen Gruppen

R y ( Mit x) : y ij := y i fr alle UEen Gruppenmittelwerteregel mit y(dach)1=.., y(dach)2=.


2 Fy (Mit x ) := ssq( within) = rij2 = (y ij yi ) 2 = (n i 1)s i2 = y ij n i y i2 i =1 j=1 i =1 j=1 i =1 i =1 j=1 i =1 I ni I ni I I ni I

Gesamtmittelwertregel

ssq (between) = ni y i2 ny
I ni I ni I ni i =1 j=1 i =1 j=1 i =1 j=1

2 Fy (OHNE x ) := ssq( total) = rij2 = (y ij y) 2 = y ij ny 2

ssq(total) = ssq(within)+ssq(between)

2 = Det.1 =

n y
i =1 I ni i i =1 j=1

2 i 2 ij

ny

= ny 2

F (df 2 / df 1) + F

Fehlerreduktion um /100 % bei Bercksichtigung des x-Merkmals bei Prdiktion

2 = Det.1 =

2 2 n1y1 + n 2 y2 ny2

y + y
j=1 2 1j j=1

n1

n2

n1n 2 n n1 2 1j

( y1 y2 )2
n2 j=1 2 2j

fr n=2

2 2j

ny2

y + y
j=1

ny2

Test der Hypothese, dass alle Mittelwerte gleich H0: 1=2=...=I bzw. Det.1=0
Konstruktion der Teststatistik (F-Statistik): {VOR.:yij ~ NV; i Homoskedastisch} 2 ssq ( between ) / df 1 msq ( between ) ssq ( within ) / df 2 msq ( within ) 2

ANOVA-Tabelle
Variationsquelle Faktor, between Error, within Total Sum of Squares ssq(between) ssq(within) ssq(total) df df1=I-1 df2=n-I n-1 Mean Sum of Squares msq(between)=ssq(b)/df1 msq(within)=ssq(w)/df2 msq(total)=ssq(t) / (n-1)=sn-1 F-Ratio

F ( df 1, df 2 ) =

df 2 = TW 1 df 1

I 1 n I

F(df 1, df 2) =

msq ( between ) msq ( within )

mit df1=(I-1) und df2=(n-I) (KB immer von rechts bestimmen KW in Tab. suchen)

adjustierter Determinationskoeffizient 1.Art,da n zu gro ist -> nicht erwartungstreu

:= 1

msq( within) msq( total)

=1

ssq( within) /(n I) ssq( total) /(n 1)

= 1

n 1 (1 2 ) = 2 n I

(1 )

I = Anzahl Gruppen, n = Anzahl UEen insgesamt mit symmetrischer Effektrestriktion Effektdarstellung 1 i = k+i i = i -
1 = x1 1+2+...+I = 0 k = (1 + 2 +...+I) /I = (k - allgemeines Niveau / ungewichteter Mittelwert) Yi=+ixi+ei (mit E(ei)=0 und Var(ei)=e)

Pfaddiagramm

I
k

Regressionsanalyse (gegeben zwei quantitative Merkmale mind. Intervallskaliert)


x-Variable = Regressor = unabhngige Variable = Prdiktor y-Variable = Regressand = abhngige Variable = Prdikand ist der Prdiktionswert fr die i.te UE
i

Y alle NV, x(dach) mit alpha + beta*Xi, linearitt, homoskedastziditt


Regressionsgleichung in der Population: y(x) = + x (y (x) = e)

( MIT

x ) = y i : = a + bx
n

E () = VAR () =
Cov 2 ( X , Y ) Var ( X )

2 e

Fy ( MIT x ) := ssq ( y .x ) : ri2 = ( y i y i ) 2 = ( n 1) Var ( Y )


i =1

s 2 ( n 1) X

2 2 e = se =

1 n 2

(y
i =1

yi ) 2 =

ssq ( y. x ) n 2

n 1 n 2

(Var(Y)

Cov 2 ( X , Y ) Var ( X )

Konfidenzintervall KI:

Test fr H0: 0=0 Erwartungstreu!!!


se

fr alle Ueen
n

t >0.95< (df )

( n 1) s 2 x

t (df ) =

0
se ( n 1) Var ( x )

= TW df = n-2

Fy (OHNE x ) := ssq ( total) = (y i y) 2 = (n 1)Var ( y)


i =1

Determinationskoeffizient 2.Art =PRE Ma!! (rxy / 100 % der Varianz kann durch die Geradenregel reduziert werden)

r :=
2 xy

ssq ( total ) ssq ( y . x ) ssq ( total )

adjustierter Determinationskoeffizient 2.Art

adjust. r = 1
2 xy
b =
i = 1 n

Geradengleichung (mit a und b als KQ-Schtzer)

i = 1

x , y ,Var ( x),Var ( y ), Cov ( x. y ), b, a, Rgel , Fehler , x, y, x , y x * y

y =: i y : ) x
i

ENHO ( y R

Krit.Wert in Tab. nachsehen

Korrelationskoeffizient (-1r1)
2 rxy = rxy = Det.2 = s xy sxs y

Var ( y ) ssq ( y. x ) /( n 1) Var ( y )

Cov 2 ( X , Y ) Var ( X ) Var ( Y )

Cov ( X , Y ) Var ( X ) Var ( Y ) Wenn gro, starker groer Zusammenhang

Fischers z (Transformation)
schon bei kleinen Stp. NV

z(r ) = 1 ln 1+ rr 2 1

z ist NV(z(); n1 3 ) z 1 (r ) = r (z) =

e 2 z 1 e 2 z +1

H0: =0 Beide Merkmale bivariat NV

ssq ( y. x ) /( n 2 ) ssq ( total ) /( n 1)

z=
s s
yx 2 x

z ( r ) z ( 0 )
1 n 3

= (z(r ) z( 0 ) ) n 3 = TW
1 n 3

x
2 i

n y x n x
2

Konfidenzintervall fr

Cov (X , Y ) = Var (X )

a = y bx
n = (z * 2 * 2 ) Breite

z 1 z(r ) z >0.95<

Konfidenzintervall fr z()

z(r ) z >0.95<
exakterTes t = 0 :TW = * n2 1

1 n 3

Student t verteilt ( KB ) mit df = n 2 (beidseitig !)

Hypothesentests: Fragestellung:

Mittelwerttest/G Binominaltest autest Ist jenes im Schnitt gleich welchem? H0: 0= Ha: a0 / a>0 / a<0 standardisierte r Mittelwerte z=x-0 *n x Wie gro ist die Chance das...? H0: 0= Ha: a0 / a>0 / a<0 Erfolgsanteil/anzahl pi oder xi Umrechnung: xi/n=i

Anpassungstest

1. Hypothesen formulieren H0: Nullhypothese Ha: Alternativhyp. 2. Teststatistik:

Stimmen gefundene und theoret. Vert. berein? H0: 1+...+I=1 (Ha: a101 ...)

Vergleich 2er Mittelwerte bei verb. Stichprob. Ist jener Durchschnitt gleich welchem? H0: 1-2=0 Ha: 1-20 / 1-2>0 / 1-2<0 Mittelwerts-differenzen =(d1+...+dn)/n TW=-0/sd/n sd=(1/n1(djnj-n))

Vergleich 2er Mittelwerte bei unverb. Stichprob. Ist jener Durchschnitt gleich welchem? H0: 1-2=0 Ha: 1-20 / 1-2>0 / 1-2<0 1 & 2 bekannt z=(1-2)-0/1-2 1-2=(1/n1+2/n2) 1=2 t(df)=(1-2)-0/=1-2 s=1-2=(n1-1)s1+(n2-1)s2/n1+n2-2) *(1/n1+1/n2) andere t(df)=(1-2)-0/1-2 s1-2=(s1/n1+s2/n2) bei z Normalverteilung Tab. E bei t Student-t-Verteilung Tab. H

LR2 = 2n pi ln
i =1

i pi

oder
P2 = n
i =1 I

(pi i ) 2 i

3. Testverteilung:

4.a) Seitigkeit:

b) Ablehnungsber. berechnen:

5. Testwert

(ist

6. Entscheidung

bekannt Tab. E Normalverteil ung unbekanntTa b.H Student-tVerteilu a0 beidseitig a>0 rechtsseitig a<0 linksseitig bekannt x=z>1-< unbekannt x=t>1-<(df) df=n-1 KB: x und grer/kleiner eine Realisation der TW im KB?

Binominal-verteilung Tabelle A/B

-Verteilung Tabelle G

unbekannt Studentt-Verteilung Tabelle H

a0 beidseitig a>0rechtsseitig a<0 linksseitig

immer rechtsseitig

1-20beidseitig 1-2>0rechtsseitig 1-2<0 linksseitig

1-20beidseitig 1-2>0rechtsseitig 1-2<0 linksseitig

exaktes (0,05) in Tab A/B nachschauen dortiger x-Wert KB: x und grer/kleiner Teststatistik)

x=>0,05(df) df=(I-1) KB: x und grer

x= t>1-<(df) df=n-1

<(

KB: x und grer/kleiner

x=z>1-< oder x=t>1df) KB: x und grer/kleiner bei 1=2 df=n1+n2-2 bei anderen df=(s1/n1+s2/n2)/((s1/n1)/(n11)+(s2/n2)/(n2-1))

H0 angenommen

/ abgelehnt?

Hypothesentests:

Fragestellung:

1. Hypothesen formulieren H0: Nullhypothese Ha: Alternativhyp. 2. Teststatistik:

Vergleich mehrerer Mittelwerte/ Varianzanalyse Sind die Mittelwerte gleich? H0: 1=2=...=I Ha: H0 ist falsch/ mindestens ein ungleich F-Statistik F(df1,df2)=/1*df2/df1 df1=I-1 df2=n-I

-Test und -Test

-Test

Exakter -Test

Ist in der Regressionsgleichung oder = 0? H0: 0= Ha: a0 / a>0 / a<0 Standardisiertes der Regressionsgleichung t(df)=(-0)/se(1/n+x/(1-n)sx) se=1/n-2(yi-yi)=n-1/n-2(Var(y)Cov(x,y)/Var(x)) Standardisiertes der Regressionsgleichung t(df)=(-0)/se/(n-1)sx Student-t-Verteilung Tabelle H a0 beidseitig a>0rechtsseitig a<0 linksseitig x=t>1-<(df) df=n-2 KB: x und grer/kleiner

Ist ein Zusammenhang gegeben?

Ist ein exakter Zusammenhang gegeben? H0: 0= Ha: a0 / a>0 / a<0 t(df)=r(n-2/1-r)

H0: 0= Ha: a0 / / a>0 a<0

Standardisierter Korrelationskoeffizient z=(z(r)-z(0))n-3 Achtung!! z!!

3. Testverteilung: 4.a) Seitigkeit:

F-Verteilung Tabelle F Immer rechtsseitig

b) Ablehnungsber. berechnen: 5. Testwert (ist

6. Entscheidung

x=F>(df1,df2) KB: x und grer eine Teststatistik) Realisation der TW im KB? H0 angenommen / abgelehnt?

Standardnormalverteilung Tabelle E a0 beidseitig a>0rechtsseitig a<0 linksseitig x=z>1-< KB: x und grer/kleiner

Student-t-Verteilung Tabelle H a0 beidseitig a>0rechtsseitig a<0 linksseitig x=t>1-<(df) df=n-2 KB: x und grer

Das könnte Ihnen auch gefallen