Sie sind auf Seite 1von 14

Multivariate Statistik, und Versuchsdesign

Vorlesung Modul M 103 (Vorl.-Nr. 28206 )

Projektplanung

Dr. G. Lischeid
Gunnar.Lischeid@bayceer.uni-bayreuth.de http://www.bayceer.uni-bayreuth.de/mod/

Gliederung der Vorlesung


15.04.05 22.04.05 29.04.05 06.05.05 13.05.05 20.05.05 27.05.05 03.06.05 10.06.05 17.06.05 24.06.05 08.07.05 01.07.05 15.07.05 Einfhrung, Verteilungen Datentransformation (Auto-)Korrelation (zu verschieben)

Multiple lineare Regression (Pfingstwoche) Clusteranalyse

Hauptkomponentenanalyse Korrespondenzanalyse Diskriminanzanalyse

Mehrfaktorielle Versuche Nicht-lineare Methoden Abschlusskolloquium

Grundlagen der Versuchsplanung Parameter-freie Methoden

Links und Lehrbcher


http://www.multivariate.de http://wwwhomes.uni-bielefeld.de/hjawww/glossar/stichwor.htm

Backhaus, K., Erichson, B., Plinke, W., Weiber, R. (2003): Multivariate Auflage, Springer, ISBN 3-540-00491-2 ISBN 3-540-56200-1

Analysemethoden. Eine anwendungsorientierte Einfhrung. 10.

Bortz, J. (1993): Statistik fr Sozialwissenschaftler. 4. Auflage, Springer, Wackernagel, H. (1998): Multivariate Geostatistics. 2. Auflage, Springer

Statistik - Zielrichtungen
1. Deskriptiv - Beschreibung (der Verteilung) eines Datensatzes

2. Konfirmativ - Testen von Hypothesen (Zusammenhngen) 3. Explorativ - Suche nach Strukturen (Zusammenhngen)

Datentypen
1. Nominal skaliert 2. Ordinal skaliert 3. Intervall-skaliert - Zugehrigkeit zu einer Gruppe (Name) - Rangfolge (Ordnung) - Abstnde der Zahlenwerte proportional der Abstnde der Merkmalsausprgung

4. Metrisch skaliert - Zahlenwerte propotional der Merkmalsausprgung (Ma)

Dichtefunktion der Normalverteilung


PH

Hufigkeit

95,5%

Verteilungen
Normalverteilung: Approximaton der Binomialverteilung fr groe Stichproben fr eine normalverteilte Zufallsgre z (mit = 0 und = 1) gilt:

Verteilungen
Normalverteilung 2-Verteilung

t-Verteilung

F-Verteilung:

F (n , n ) =

t-Verteilung:

t =

mit

n n2

n n

F-Verteilung:

2-Verteilung:

fr 2 = z2, bzw. fr n Freiheitsgrade: = z

Schiefe, Exzess
AM: Mo: Md: Arithmtisches Mittel Modalwert Median

(Bortz 1993)

Momente (I)
k-tes Moment der Variablen x: (= Moment k-ter Ordnung)
( x, A) = E[( x A) k ] k

gewhnliches Moment: Mittelwert:

A=0
A = 0; k = 1 : = E ( x)

zentrales Moment: Varianz:

A = E (x)

A = ; k = 2 :

= E(x )

Momente (II)
fr z =
x E ( x)

(z-Transformation):

(Werte <0: negative Schiefe => rechtssteil = linksschief)


(Werte < 0: breitgipflige Verteilung)

Kovarianz, Korrelation (I)


=
 

Varianz:

var( x) =

Korrelation:

r=

(Produkt-Moment-Korrelation, Pearson-Korrelation)

cov( x, y ) var( x) var( y )



Kovarianz:

cov( x, y ) =

n
cov( x, y ) s s

(x


(x x)


(x x) (x x)
n x) ( y y)

Exzess:

3=

3=

Schiefe:

z
n

3 (= Kurtosis, Wlbung)

Normiertes Moment k-ter Ordnung:

( x, A) =

E[( x A) ]

maximal mgliche Kovarianz

Kovarianz, Korrelation (II)


Korrelation:

z-Transformation

z-Transformation
Unterschiedliche Wertebereiche fr unterschiedliche Parameter => unterschiedliche Gewichtung in der multivariaten Analyse, die nur vom Wertebereich (Einheit!) abhngig ist => Notwendigkeit der Normierung => analog zur Korrelation: 1. Normierung auf Mittelwert = 0, d.h.: Substraktion des Mittelwertes

2. Normierung auf Varianz = 1 (= Standardabweichung), d.h.: Division durch die Standardabweichung

x x y y 1 n s s

s s

1 n

r=

cov( x, y ) s s

( x x ) ( y y)

Produkt-Moment-Korrelation

Moment:

( x, A) =

E[( x A) ]

1. Produkt-Moment zweier Zufallsvariabler:

( x, A) =

Nichtlineare Korrelation
Spearman-Rangkorrelationskoeffizient: (Di: Rangplatzdifferenzen)

Kendall's :

(Ko: Konkordanzen = gleichsinnige nderungen x1 x2 und y1 y2, Di: Diskordanzen)

r =

2 ( Ko Di) n (n 1)

r = 1

n n

6 D

E [([ x x ] [ y y ]) var var


1. zentrales Moment:

( x, x ) =

E[( x x ) ]

Dichtefunktion der Normalverteilung

95,5%

Test auf Normalverteilung (I)


2-Test: Vergleich der beobachteten Hufigkeit fi von k Klassen (mit fi > 10) mit den erwarteten Hufigkeiten ei (mit ei 1 und ei < 5 fr max. 20% der Klassen) ( f e ) Testgre: = verteilt nach 2 mit (k-r-1) e Freiheitsgraden (r = Anzahl der geschtzten Parameter der Verteilung)

Verwerfen der Null-Hypothese "F = Normalverteilung" fr p

Fehler 1. und 2. Art (-, -Fehler)


H0 Entscheidung aufgrund der Stichprobe richtig -Fehler

in Grundgesamtheit gilt H1 -Fehler richtig

Nullhypothese H0 = Alternative zur eigentlich zu prfenden Hypothese H1

Irrtumswahrscheinlichkeit p
-Fehler: "Irrtumswahrscheinlichkeit" p = Wahrscheinlichkeit, einen bestimmten Wert zu beobachten, wenn tatschlich die H0 gilt: p(beobachteten Wert | H0 = wahr) = bedingte Wahrscheinlichkeit -Fehler: p(beobachteten Wert | H1 = wahr)

=> quantitativ nur zu bestimmen, wenn die Verteilung der Werte gem der H1-Hypothese priori bekannt ist

=> dies ist aber i.d.R. nicht mglich entsprechend fr Test auf Normalverteilung: alternative Verteilung msste definiert werden

10

Irrtumswahrscheinlichkeit p
Die "Irrtumswahrscheinlichkeit" p p(beobachteter Wert | H0 = wahr)

Unterscheide:

1 - p(H0)

p(beobachteter Wert)

p(H0 = wahr)

p(H0 = wahr | beobachteter Wert)

Fehler 1. und 2. Art (-, -Fehler)


H0 Entscheidung aufgrund der Stichprobe richtig -Fehler

in Grundgesamtheit gilt H1 -Fehler richtig

Nullhypothese H0 = Alternative zur eigentlich zu prfenden Hypothese H1

11

Test auf Normalverteilung (II)


Kolmogorov-Smirnov mit Lilliefors-Schranken: Testgre: maximale absolute Abweichung der Ordinatenabstnde zwischen der beobachteten und der erwarteten kumulierten Hufigkeitsverteilung Verwerfen der Null-Hypothese "F = Normalverteilung" fr p <

Test auf Normalverteilung (III)


Anpassungstest nach Shapiro und Wilk (fr n 50): Testgre: Korrelationskoeffizient zwischen beobachteten und erwarteteten Werten der kumulativen Hufigkeitsverteilungen Verwerfen der Null-Hypothese "F = Normalverteilung" fr p <
Q-Q-Diagramm (Quantil-Quantil-Diagramm) von PH
          0  ! " $# ) 0 $# % & 0 ' "( !  $# )

12

Box-Cox Transformation
Ziel: Korrektur der Schiefe, so dass die transformierten Daten eine Normalverteilung aufweisen

transformierte Daten

x 1 T ( x) = T ( x ) = ln x

fr fr

>0 =0

10 8 6 4 2 0 -2 0 2 4 6
=1.5

1:1 =1 =0.5 =0

10

ursprngliche Daten

Box-Cox Transformation

(http://www.itl.nist.gov/div898/handbook/eda/section3/eda336.htm)

13

Aufgabe: Datentransformation
Ersetzen Sie die Eintrge "< Bestimmungsgrenze" durch sinnvolle nummerische Werte.

berrpfen Sie die einzelnen Parameter auf Normalverteilung, und fhren anschlieend die transformierten Daten auf Normalverteilung.

Sie, falls erforderlich, eine Box-Cox-Transformation durch. berprfen Sie

Fhren Sie anschlieend eine z-Transformation fr alle Parameter durch.

14