Entdecken Sie eBooks
Kategorien
Entdecken Sie Hörbücher
Kategorien
Entdecken Sie Zeitschriften
Kategorien
Entdecken Sie Dokumente
Kategorien
Versuchsplanung
Wahlpflicht für Studenten der
Biotechnologie
U. Römisch
http:// www.lmtc.tu-berlin.de/angewandte_statistik_und_consulting
LITERATUR zur Lehrveranstaltung
„Statistische Datenanalyse und Versuchsplanung“
/1/ Autorenkollektiv (2004):
Einführung in die Biometrie.
Richter , Ch.: 1- Grundbegriffe und Datenanalyse
Sumpf, D. und E. Moll: 2- Schätzen eines Parameters und Vergleich von bis zu
zwei Parametern
Schumacher, E.: 3- Vergleich von mehr als zwei Parametern
Rasch, D. und R. Verdooren: 4- Grundlagen der Korrelations- und Regressionsanalyse.
2. Aufl., Saphir- Verl. Ribbesbüttel
3. Schließende Methoden
Beschreibende Statistik
Wahrscheinlichkeitstheorie Stat. DA
Stochastik Schließende Statistik Stat. VP
2. Wie lügt man mit Statistik?
Bsp. 1: Wir leben im Zeitalter der Umfragen!
1. Beschreibende
Methoden
s. /11/ Stahel
Die Beschreibende und explorative Statistik dient
der Beschreibung, Strukturierung und
Verdichtung umfangreichen Datenmaterials.
Wie erhält man nun Daten und welcher Art sind die Daten?
Experimente
Problem
Planung
Auswertung
Bsp.: Herstellung einer Chemikalie
(+++)
55,387 (53,85,56,92)
62,387 (60,85,63,92)
Katalysator
54,012 (52,48,55,55)
68,887 (67,35,70,42)
56,112 (54,58,57,65)
61,813 (60,28,63,35)
53,287 (51,75,54,82)
Zeit (- - -) Temperatur
Def.: Die Menge aller möglichen Werte eines Merkmals nennt
man Grundgesamtheit.
Eine endliche Teilmenge der Grundgesamtheit nennt
man Stichprobe.
Besteht die Teilmenge aus n Elementen, so heißt n
Stichprobenumfang.
Def.: Der Gesamtheit der Merkmalswerte entspricht eindeutig
eine Gesamtheit von Beobachtungseinheiten
(Merkmalsträgern), die man ebenfalls als Grundgesamt-
heit oder Population bezeichnet.
Die Grundgesamtheit muss bei jeder Aufgabenstellung
festgelegt werden!
Eine Grundgesamtheit kann auch unendlich viele Elemente
enthalten, denn theoretisch können wir den Versuch unendlich
oft wiederholen.
Mathematische Statistik
Induktionsschluss
Stichprobe Grundgesamtheit
Deduktionsschluss
Was ist bei einer Stichprobenentnahme zu
beachten?
xi = aj (i)
Merkmalswert Beobachtungseinheit
Ausprägung
Schritte der Datenerfassung und -aufbereitung:
Art:
Skalierung: ai = 1 = „Rotwein“
Land: 2 = „Weißwein“
li = 1 = „Deutschland“ 3 = „Roséwein“
2 = „Bulgarien“ Rebsorte:
3 = „Österreich“ ri = 1 = „Cabernet Sauvignon“
4 = „Frankreich“ 2 = „Chardonnay“
5 = „Australien“ 3 = „Merlot“
4 = „Riesling“
2. Schritt: Ermittlung der abs. und rel. Häufigkeiten
Bem.: - Σ fn(aj) = n
- Die abs. Häufigkeiten hängen vom Stichproben-
umfang n ab
Def.: Die relative Häufigkeit
hn(aj) = (1/n) fn(aj) für j=1,...,m
gibt den Anteil der Beobachtungseinheiten bezogen
auf n an, die die Ausprägung aj haben.
Bem.: - Σ hn(aj) = 1
- 0 ≤ hn(aj) ≤ 1
- Die Folge der relativen Häufigkeiten hn(a1),...,hn(am)
heißt rel. Häufigkeitsverteilung des Merkmals X.
- Flächendiagramme, z.B.:
Kreisdiagramme 13%
0 ; x < a1
j
F̂n ( x ) = ∑ hn (ak ) ; a j ≤ x < a j+1 j = 1,..., m
k =1
(x∈R) 1 ; x ≥ am
Bem.: Die empirische Verteilungsfunktion ist auf jedem
Intervall [aj,aj+1) konstant und springt bei aj+1 um den
Wert hn(aj+1) nach oben. Die erste Sprungstelle liegt bei
der kleinsten, die letzte bei der größten beobachteten
Merkmalsausprägung.
F̂n (x)
1
hn(a1)+ hn(a2)
hn(a1)
x
a1 a2
Ausprägungen
4.2. (Sekundäre) Häufigkeitsverteilung (HV) bei stetigen
Merkmalen (mit Klassenbildung)
0 ; x < x1
j
F̂n ( x ) = ∑ hn ( x k ) ; x j ≤ x < x j+1 j = 1,...,m
k =1
1 ; x ≥ xm
M M M M
j=1,J.m
Bem.: Die empirische Verteilungsfunktion ist auf jedem
Intervall [xj,xj+1) konstant und springt bei xj+1 um den
Wert hn(xj+1) nach oben. Die erste Sprungstelle liegt bei
der kleinsten, die letzte bei der größten Klassenmitte.
F̂n (x)
1
hn(x1)+ hn(x2)
hn(x1)
x
x1 x2
Klassenmitten
Bsp.1: Kolonien von Mikroorganismen (s. /9/)
--------------------------------------------------------------------------------
Lower Upper Relative Cumulative Cum. Rel.
Class Limit Limit Midpoint Frequency Frequency Frequency Frequency
--------------------------------------------------------------------------------
at or below 0,0 0 0,0000 0 0,0000
1 0,0 2,0 1,0 3 0,0750 3 0,0750
2 2,0 4,0 3,0 7 0,1750 10 0,2500
3 4,0 6,0 5,0 10 0,2500 20 0,5000
4 6,0 8,0 7,0 10 0,2500 30 0,7500
5 8,0 10,0 9,0 7 0,1750 37 0,9250
6 10,0 12,0 11,0 3 0,0750 40 1,0000
above 12,0 0 0,0000 40 1,0000
--------------------------------------------------------------------------------
10
Durchmesser
8 80
frequency
8
6 60
6
4 40
4
2 20 2
0 0 0
0 2 4 6 8 10 12 0 2 4 6 8 10 12
Durchmesser Durchmesser
Merkmal Y: Antibiotikaresistenz (Ausprägungen hier nicht codiert!)
Frequency Table for Antibiotikaresistenz
------------------------------------------------------------------------
Relative Cumulative Cum. Rel.
Class Value Frequency Frequency Frequency Frequency
------------------------------------------------------------------------
1 intermediär 8 0,2000 8 0,2000
2 resistent 6 0,1500 14 0,3500
3 sehr resistent 4 0,1000 18 0,4500
4 sehr sensitiv 13 0,3250 31 0,7750
5 sensitiv 9 0,2250 40 1,0000
------------------------------------------------------------------------
12
frequency
3
Piechart for Antibiotikaresistenz
0 22,50% 20,00%
intermediär resistent sehr resistent
sehr sensitiv sensitiv
15,00%
Antibiotikaresistenz
intermediär
Kategorien weisen hier keine Ordnung auf! 32,50% 10,00%
resistent
sehr resistent
sehr sensitiv
sensitiv
Merkmal Y: Antibiotikaresistenz (Ausprägungen hier numerisch codiert!)
Frequency Tabulation for Antibiotikaresistenz_1
Ausprägungen
--------------------------------------------------------------------------------
Lower Upper Relative Cumulative Cum. Rel.
Class Limit Limit Midpoint Frequency Frequency Frequency Frequency
--------------------------------------------------------------------------------
at or below 0,5 0 0,0000 0 0,0000
1 0,5 1,5 1,0 13 0,3250 13 0,3250
2 1,5 2,5 2,0 9 0,2250 22 0,5500
3 2,5 3,5 3,0 8 0,2000 30 0,7500
4 3,5 4,5 4,0 6 0,1500 36 0,9000
5 4,5 5,5 5,0 4 0,1000 40 1,0000
above 5,5 0 0,0000 40 1,0000
--------------------------------------------------------------------------------
Histogram
15
Ordnung zwischen den Kategorien
12
frequency
9
Dot Diagram
6
13
3
Frequency
0
0 1 2 3 4 5 6
Antibiotikaresistenz_1
0
0 1 2 3 4 5
Antibiotikaresistenz_1
Merkmal Z: Farbe (Ausprägungen hier nicht codiert!)
Frequency Table for Farbe
------------------------------------------------------------------------
Relative Cumulative Cum. Rel.
Class Value Frequency Frequency Frequency Frequency
------------------------------------------------------------------------
1 braun 1 0,0250 1 0,0250
2 farblos 4 0,1000 5 0,1250
3 gelb 13 0,3250 18 0,4500
4 grün 2 0,0500 20 0,5000
5 orange 2 0,0500 22 0,5500
6 rosa 4 0,1000 26 0,6500
7 weißlich 14 0,3500 40 1,0000
------------------------------------------------------------------------
12
frequency
3 35,00%
0 Farbe
braun
braun farblos gelb grün orange rosa weißlich
32,50% farblos
gelb
grün
orange
10,00%
rosa
5,00% 5,00%
weißlich
Vergleich der rel. Häufigkeitsverteilungen der Durchmesser
zwischen den Kolonien unterschiedlicher Farbe
Histogram Histogram
40 30
25
percentage
percentage
30
20
20 15
10
10
5
0 0
0 2 4 6 8 10 12 0 2 4 6 8 10 12
Durchmesser der gelben Kolonien Durchmesser der weißlichen Kolonien
Histogram
40
percentage
30
20
10
0
-1 1 3 5 7 9 11
Durchmesser der sonstigen Kolonien
2. Frage: Wie kann man mittels statistischer Maßzahlen einen
quantitativen Vergleich der Häufigkeitsverteilungen
vornehmen?
Wie unterscheiden sich die mittleren Durchmesser
zwischen den Kolonien unterschiedlicher Farbe, wie
stark streuen die Werte?
1.4.1 Lagemaße
1. Mittelwertmaße
Mittelwertmaße geben an, wo sich das Zentrum einer
Häufigkeitsverteilung befindet.
● Arithmetischer Mittelwert
Seien x1, ... ,xn die Beobachtungswerte des Merkmals X
1 n
x = ∑ xi
n i =1
Vorteile: - der arithm. Mittelwert einer Stichprobe ist ein
unverzerrter Schätzwert für den Mittelwert einer
normalverteilten Grundgesamtheit und gut geeignet
bei eingipfligen Häufigkeitsverteilungen
- alle Informationen der Stichprobe werden
ausgeschöpft
x ( k +1) ; für n = 2k + 1
~
x 0 ,5 = x ( k ) + x ( k +1)
; für n = 2k
2
Vorteile: - der Median ist auch bei asymmetrischen und
mehrgipfligen Verteilungen verwendbar
- er ist zu bevorzugen bei nur wenigen Messwerten
und auch bei ordinalskalierten Beobachtungs-
merkmalen
- er ist robust gegenüber Ausreißern
0 ,5 ⇒ Median
Wenn α = 0 , 25 ⇒ unteres Quartil
0 , 75 ⇒ oberes Quartil
1.4.2. Streuungsmaße
R = x(n) - x(1) .
I = ~
x 0 ,75 − ~
x 0 , 25
1 n
d = ∑ xi − ~
x 0 ,5
n i =1
x 0 ,5 ) = ~
MAD = med ( x i − ~ y 0 ,5 yi = x i − ~
x 0 ,5
- Dabei wird jedoch durch den Faktor (n-1), d.h. die Anzahl der
voneinander unabhängigen Abweichungen, genannt
Freiheitsgrad, dividiert.
1 n
1 n
2 2
s =
2
∑
n − 1 i=1
( xi − x ) =
2
∑ xi − n ⋅ x
n − 1 i=1
- Als Standardabweichung s bezeichnet man:
1 n 1 n
∑ (( ∑ x i ) − n x 2 )
2
s= ( x i − x ) 2
=
n − 1 i=1 n − 1 i=1
- Der Standardfehler des arithm. Mittelwertes bezieht sich
auf den Stichprobenumfang:
s
sx =
n
Vorteile: - Die Varianz s2 hat die besten Schätzeigenschaften
bei Normalverteilung
- Die Standardabweichung s hat die gleiche
Dimension wie die Messwerte und der arithm.
Mittelwert, man kann daher Intervalle der Form
x±s bzw. x ± 3 ⋅ s angeben.
Nachteil: - s2 ist nicht robust gegenüber Ausreißern
- Variationskoeffizient
Der Variationskoeffizient ist ein von x bereinigtes Streuungs-
maß, das das Verhältnis von s und x misst.
s
v= ⋅ [100 %]
I xI
Box & Whisker Plot Multipler Box- Whisker Plot für Vanadium
(Enzymaktivitäten) 3,0
75
2,5
70
2,0
65 1,5
Enzymkonzentrationen
60 1,0
55 0,5
Vanad ium
50 0,0
-0,5
45
-1,0
40
-1,5
Czech Republic
Hu ngary
Czech Republic
Hu ngary
Ro mania
Ro mania
So uth Africa
So uth Africa
35
30
Median
25
25%-75%
20 Median Non-Outlier Range
1 2 3 4 5 6 7 8 25%-75%
Weisswein Rotwein
Min-Max
Mutanten Land
Grafische Darstellung von Lage- und Streuungsmaßen:
2. Mittelwertplots
Mittelwertplot Mittelwertplot
(Enzymaktivitäten von Mutanten) (Enzymaktivitäten)
75 70
70 65
65
60
Enzymkonzentrationen
Enzymkonzentrationen
60
55
55
50 50
45 45
40
40
35
35
30
25 30
20 arithm . Mittelwert 25
1 2 3 4 5 6 7 8 MW + - 95%-iges Konfidenzintervall 1 2 3 4 5 6 7 8 arithm . MW
Extrem werte Mean±0,95*SD
Mutanten Mutanten
Bsp.1: 40 Kolonien von Mikroorganismen
Mittelwertmaße:
Merkmal X: Durchmesser
Spann- Stand. Quartils- Var.
Stichprobe Varianz
weite abw. abst. koeff.
Alle Kolonien (40) 11,7 8,71 2,95 4,3 0,50
Gelbe Kolonien (13) 11,4 8,77 2,96 3,6 0,41
Weißliche Kolonien (14) 8,0 7,50 2,74 3,8 0,45
Sonstige Kolonien (13) 9,9 7,62 2,76 3,4 0,61
Durchmesser
8 8
6 6
4 4
2 2
0 0
gelb sonstige weißlich braunfarblosgelb grünorangerosaweißlich
Farbgruppe Farbe
1.4.3. Schiefe und Exzess
1. Schiefe
- Wenn der Median und der Modalwert vom arithmetischen
Mittel abweichen, bezeichnet man eine Verteilung als schief.
- Man charakterisiert schiefe Verteilungen außerdem durch die
Schiefe g1 als Maß für die Schiefheit und ihre Richtung.
- Echt schiefe Verteilungen liegen vor, wenn bei Vorliegen
einer großen Anzahl von Beobachtungswerten und der
Anwendung aller möglichen Transformation der Daten die
Schiefheit der Verteilung bestehen bleibt.
- Keine echte Schiefe liegt vor, wenn man schiefe
Verteilungen durch Transformationen (z.B. Logarithmieren) in
symmetrische überführen kann.
Bsp.: Auftreten log. Verteilungen bei:
• Analyse sehr niedriger Gehalte (z.B. Spurenanalyse)
• Merkmalen mit sehr großer Spannweite (mehrere
Zehnerpotenzen)
• sehr großem Zufallsfehler (z.B. halbquantitative
Spektralanalyse)
1 n
∑ i
n i=1
( x − x ) 3
1 n xi − x
3
g1 = = ∑
1 n n i=1 s
( ∑ ( x i − x ) 2 )3
n i=1
g2 = 2
− 3 = ∑
n i=1 s
− 3 = g 2 ' −3
1 n 2
n ∑ (xi − x)
i=1
g2‘ heißt Kurtosis.
Wenn g2 = 0 ⇒ Häufigkeitsverteilung entspricht der NV
1 n
und als k-tes zentriertes Moment: ∑
n i =1
( x i − x ) k
y y
Hyperbel
Rezipr. Transf.
x 1/x
Bsp.: Fallhöhe und Schwingungsfrequenz von Wasserfällen
zu 3.) Häufigkeitsverteilung
Zur Darstellung von Häufigkeitsverteilungen dienen
Häufigkeitstabellen (Vierfeldertafeln, Kontingenztafeln) und
grafische Darstellungen durch zweidimensionale Histogramme
oder Polygone.
1. Fall:
- Sei (X,Y) ein nominalskaliertes 2- dim. Merkmal mit je 2
Ausprägungen (aj,bk) j,k=1,2 (z.B.: ja/ nein, vorhanden, nicht
vorhanden)
Vierfeldertafel (2 x 2):
Y
Summe
vorhanden nicht vorhanden
X vorhanden f11 f12 f11+f12
nicht vorh. f21 f22 f21+f22
Summe f11+f21 f12+f22 n
Bem.:
- Die absoluten Häufigkeiten fjk (j,k=1,2) im Innern der Tafel
stellen die 2- dim. absolute Häufigkeitsverteilung dar.
(analog: die relativen Häufigkeiten hjk = fjk/n stellen die 2-
dim. relative Häufigkeitsverteilung dar).
- Die Randsummenhäufigkeiten (Zeilen- und Spalten-
summen) stellen die entsprechenden 1- dim. Häufigkeits-
verteilungen von X bzw. Y dar.
Vierfeldertafel (2x2):
Spezies A Summe
vorhanden nicht vorhanden
Spezies vorhanden 44 23 67
B nicht vorhanden 75 85 160
Summe 119 108 227
Y Summe
b1 b2 ... bm
a1 f11 f12 ... f1m f1.
X a2 f21 f22 ... f2m f2.
... ... ... ... ...
al fl1 fl2 flm fl .
Summe f.1 f.2 ... f.m n
Bsp.: Untersuchung der Noten von 32 Studenten in
Mathematik und Statistik (2 ordinalskalierte Merkmale)
Kontingenztafel (5 x 5):
Note in Mathematik
1 2 3 4 5 Summe
Note 1 1 1 0 0 0 2
in 2 0 2 3 0 0 5
3 0 2 10 4 0 16
Statistik
4 0 0 2 4 0 6
5 0 0 1 1 1 3
Summe 1 5 16 9 1 32
Ergebnis:
Klassen- Y
grenzen (y0;y1] (y1;y2] ... (ym-1;ym] Summe
(x0;x1] f11 f12 ... f1m f1.
X (x1;x2] f21 f22 ... f2m f2.
... ... ... ... ...
(xl-1;xl] fl1 fl2 flm fl⋅
Summe f.1 f.2 ... f.m n
2- dim. Histogramm
(Weine aus Ungarn und Tschechien)
zu 4.) Zusammenhangsmaße
Art der Merkmale Häufigkeitsvert. Zusammenhangsmaß
nominalskaliert Vierfeldertafel Assoziationskoeff. von
Cramér, Kontingenzkoeff.
von Pearson
nominal- oder (und) Kontingenztafel Assoziationskoeff. von
ordinalskaliert Cramér und Kontingenz-
koeff. von Pearson
ordinalskaliert (Tab. von Rangkorrelationskoeff. von
Rangzahlen) Spearman
metrisch skaliert 2- dim. Vor.: X,Y zufällige Merkmale
Häufigkeitstabelle Lin. Abhängigkeit → Maß-
(Kontingenztafel) korrelationskoeff. von
Bravais/ Pearson
Mon. Abhängigkeit → Rang-
korrelationskoeff. von
Spearman
1. Kontingenzkoeffizient C von Pearson:
- Sei (X,Y) ein 2- dim. , nominal- oder ordinalskaliertes
diskretes Merkmal, das in den Ausprägungen (aj, bk) für
j = 1,Jl und k = 1,J,m mit den abs. Häufigkeiten fjk auftritt.
- Der Kontingenzkoeffizient ist ein Maß für die Stärke des
stochastischen Zusammenhanges zwischen 2 diskreten
Merkmalen.
χ2
C= 2
χ +n
2
f j⋅ ⋅ f⋅k
f jk −
l m
n
wobei χ = ∑∑
2
j =1 k =1
f j⋅ ⋅ f⋅k
n
Bem.: - Der Kontingenzkoeffizient C nimmt Werte im Intervall
vollst. Zusammenhang
kein Zusammenhang
min (l, m ) − 1
0≤C≤ an.
min (l, m )
χ2 min (l, m )
C corr = ⋅
χ +n
2
min (l, m ) − 1
j =1 k =1
f j⋅ ⋅ f⋅k
n
3. Rangkorrelationskoeffizient rs von SPEARMAN:
- Sei (X,Y) ein 2- dim. , ordinal oder metrisch skaliertes
Merkmal, bei dem jede Komponente Merkmalswerte mit
einer eindeutigen Rangfolge hat (rangskaliert).
- Wir beobachten an den n Beobachtungseinheiten die
Merkmalswerte (xi,yi) für i=1,...,n
- Wir ordnen nun jedem Beobachtungswert xi bzw. yi für
i=1,...,n eine Rangzahl R(xi) bzw. R(yi) zu, wobei gilt:
R(x(i)) = i für i=1,...,n und x(1) ≤ x(2) ≤ ... ≤ x(n)
- Tritt eine Ausprägung mehrfach auf („Bindungen“), so ordnet
man diesen gleichen Werten als Rang das arithmetische
Mittel der Ränge zu, die sie einnehmen.
- Bsp.: x(1)=2; x(2)=4; x(3) =4; x(4) =6; x(5) =9
→ R(x(1))=1; R(x(2))=2,5; R(x(3))=2,5; R(x(4))=4; R(x(5))=5
- Der Rangkorrelationskoeffizient ist ein Maß für die Stärke
und Richtung eines monotonen stochastischen Zusammen-
hanges zwischen 2 rangskalierten Merkmalen.
∑ (R (x ) − R (x ))⋅ (R (y ) − R (y ))
n
i i
rs = i=1
(∑ (R (x ) − R (x )) )⋅ (∑ (R (y ) − R (y )) )
i
2
i
2
n
∑ R (x i ) ⋅ R (y i ) − n ⋅ R ( x ) ⋅ R ( y )
rs = i =1
((∑ R (x ) ) − n ⋅ R (x ) )⋅ ((∑ R (y ) ) − n ⋅ R (y ) )
i
2 2
i
2 2
Wenn keine „Bindungen“ vorliegen,
d.h. wenn xi ≠ xj für i ≠ j und yi ≠ yj für i ≠ j gilt:
n
∑
2
6 ⋅ di
rs = 1 − i= 1
, wobei d i = R (x i ) − R (y i )
n ⋅ n ( 2
− 1 ) i=1,J,n
Bem.: Für den Rangkorrelationskoeffizienten gilt:
● Wenn rs < 0 → neg. Rangkorrelation
Wenn rs > 0 → pos. Rangkorrelation
● -1 ≤ rs ≤ +1
● |rs| = 1 , wenn X und Y monoton zusammenhängen
rs = 1 , wenn die x- Ränge mit den y- Rängen
übereinstimmen
rs = -1 , wenn die x- und y- Ränge genau
entgegengesetzte Rangfolgen ergeben.
Bsp.: Aromaprüfung von 8 Weinsorten durch 2 Prüfer
Der Rangkorrelationskoeffizient von rs = 0,86 deutet auf
einen recht starken, monoton wachsenden
stochastischen Zusammenhang hin.
4. Maßkorrelationskoeffizient rXY von BRAVAIS- PEARSON:
- Sei (X,Y) ein metrisch skaliertes 2- dim. Merkmal, deren
Merkmalswerte (xi,yi) , i=1,...,n, einen näherungsweise
linearen Zusammenhang zwischen X und Y vermuten
lassen.
- Wir beobachten an den n Beobachtungseinheiten die
Merkmalswerte (xi,yi) für i=1,...,n
- Der Maßkorrelationskoeffizient ist ein Maß für die Stärke und
Richtung eines linearen stochast. Zusammenhanges
zwischen 2 metrisch skalierten Merkmalen.
Formel für den Maßkorrelationskoeffizienten rXY:
n
( n − 1) ∑ (x i − x ) ⋅ (y i − y )
rXY = i =1
( n − 1) (∑ (x i − x) ⋅
2
) (∑ (y i − y)
2
)
n
∑ x i ⋅ y i − n ⋅ x ⋅ y
rXY = i=1
((∑ x ) − n ⋅ x )⋅ ((∑ y ) − n ⋅ y )
i
2 2
i
2 2
Bem.: Für den Maßkorrelationskoeffizienten rXY gilt:
● Wenn rXY < 0 → negative Korrelation
Wenn rXY > 0 → positive Korrelation
● -1 ≤ rXY ≤ +1
● |rXY| = 1 , wenn X und Y linear zusammenhängen
● Wenn rXY = 0 → Unkorreliertheit zwischen X und Y
Wenn rXY = 0 und (X,Y) 2- dim. normalverteilt
→ Unabhängigkeit zwischen X und Y
● Der Korrelationskoeffizient ist nicht imstande,
nichtlineare Zusammenhänge zwischen Merkmalen
zu erkennen.
● Man beachte Schein- und Unsinnkorrelationen!
Bem.: ● Merkmale mit sehr schiefen Häufigkeitsverteilungen
können mitunter auch einen Korrelationskoeffizienten
nahe 0 haben, obwohl ein statistischer Zusammen-
hang zwischen ihnen besteht.
● B = rXY2 heißt Bestimmtheitsmaß. Es gibt den Anteil
der Variation der y- Werte an, der durch den linearen
Zusammenhang zwischen X und Y bestimmt wird.
● Bei der Untersuchung von linearen Abhängigkeiten
zwischen mehr als 2 Merkmalen gibt es:
- partielle Korrelationskoeffizienten,
- multiple Korrelationskoeffizienten und
- kanonische Korrelationskoeffizienten.
Zu 5.) Form der statistischen Abhängigkeit
- Sei (X,Y) ein metrisch skaliertes 2- dim. Merkmal mit den
Merkmalswerten (xi,yi) für i=1,...,n.
- Es interessiert die Form der Abhängigkeit eines Merkmals Y
(abhängiges Merkmal, Zielgröße, Regressand) von einem
Merkmal X (unabh. Merkmal, Einflussgröße, Regressor).
- Alle kontrollierbaren Einflussgrößen werden konstant
gehalten.
- Wir beschränken uns auf den Fall des Modells I der einfachen
linearen Regression (1Einflussgröße, lineare Abhängigkeit).
Vor.: ● Y zuf. Merkmal,
einstellbares Merkmal
● X zuf. Merkmal, mit kleinem Fehler messbar → RM I
zuf. Merkmal → RM II
● Streudiagramm (XY- Scatterplot) →
Annahme eines linearen Modells für die Abhängigkeit
zwischen X und Y in der Grundgesamtheit:
y = β0 + β1 x, genannt lineare Regressionsgleichung.
n i=1 n i=1
Residuen
Die Werte von β0 und β1, für die Q(β0, β1) ihr Minimum
annimmt, nennt man Kleinste-Quadrate-Schätzer βˆ 0 und βˆ1 .
∑ (x i − x ) ⋅ (y i − y )
SPXY sY
b1 = i =1
n
= oder: b 1 = rXY
SQ X
∑ (x − x) sX
2
i
i=1
und b0 = y − b1 ⋅ x
→ geschätzte lineare Regressionsgleichung:
ŷ (b 0 , b1 ) = b 0 + b 1 ⋅ x
1 n 1
Bem.: s XY = ∑ (x i − x ) ⋅ (y i − y ) = ⋅ SP XY
n − 1 i =1 n −1
heißt Kovarianz zwischen X und Y und
1 n 1
sX
2
= ∑ (x i − x ) =
2
⋅ SQ X Varianz von X.
n − 1 i=1 n −1
2. Zeichnen der Regressionsgerade ins Streudiagramm:
y
ŷ = b0 + b1 ⋅ x
ŷ i
ε̂ i
yi
b0
x
0 xi
3. Güte des Regressionsmodells
- Beurteilung der Güte der Modellvorhersage für jeden Mess-
wert mit Hilfe der geschätzten Residuen εˆ i = y i − ŷ i , i=1,J, n
- Maß für die Variation der Stichprobenwerte um die
geschätzte Regressionsgerade: Restvarianz
1 n 1 n 1 n 2
sR
2
= ∑ (y i − ŷi ) =
2
∑ (y i − (b0 + b1 ⋅ x i )) =
2
∑ εˆ i
n − 2 i=1 n − 2 i=1 n − 2 i=1
2 1
sR = ⋅ SQR
n−2 geschätzte Residuen
FG Restquadratsumme
∑ (y − y ) = ∑ (y i − ŷ i ) + ∑ (ŷ i − y )
2 2 2
i
i=1 i=1 i =1
Erklärte Streuung: Darstellung der Variation der y- Werte,
die auf den linearen Zusammenhang
SQM zwischen X und Y zurückzuführen ist,
d.h. sie enthält die Variation der Werte
auf der Geraden um den Mittelwert y .
Reststreuung: Verbleibender Rest der Variation der y-
SQR Werte
Bem.: ● Liegen alle beobachteten Werte exakt auf einer
Geraden, so sind die Residuen 0 und ebenso die
Reststreuung. Dann ließe sich die gesamte Variation
von Y durch den linearen Modellzusammenhang mit
X erklären (funktionaler linearer Zusammenhang).
● Je größer die Reststreuung ist, desto schlechter
beschreibt das Modell die Daten.
- Als Maßzahl für die Güte der Modellanpassung
verwendet man häufig das Bestimmtheitsmaß B.
Es gibt den Anteil an der Gesamtstreuung der y- Werte
an, der durch die Regression von Y auf X erklärt wird
und ist der Quotient aus erklärter und Gesamtstreuung.
n n
∑ (ŷi − y ) (
∑ i i )
2 2
y − ŷ
SQM
B= = i=1
n
= 1− i=1
n
SQ T
(
∑ i
y − y )2
(
∑ i
y − y )2
i =1 i=1
0≤B≤1
4. Residualanalyse
- Prüfen der Modellvoraussetzungen über den Zufallsfehler
(ε ~ N(0, σ2) und σ2 unabhängig von den Messpunkten xi)
- Residualplots
εˆ i
εˆ i = y i − ŷ i → normierte Residuen di =
d
s εˆ Ausreißer
d
d
+3
0 ŷ 0 ŷ 0 ŷ
-3
idealer Verlauf ungleiche Varianzen d i > 3 → Ausreißer
Bsp.: Weindaten, Abhängigkeit zwischen den seltenen Erden-
Parametern Lanthanum und Gadolinum
-1
Gadolinum
-2
-3
-4
-5
-4 -3 -2 -1 0 1 2
1,0
0,8
0,6
Normierte Residuen
0,4
0,2
0,0
-0,2
-0,4
-0,6
-0,8
-1,0
-1,2
-1,4
-5 -4 -3 -2 -1 0 1
0
Beobachtete Werte
-1
-2
-3
-4
-5
-5 -4 -3 -2 -1 0 1
As che
Kalium
2. Wahrscheinlichkeits-
rechnung
Die Wahrscheinlichkeitsrechnung
liefert mathematische Modelle für
Zufallserscheinungen.
/11/ Stahel, W.
(1995)
Es werden Experimente betrachtet, deren Ergebnisse einen
zufälligen Ausgang haben, so genannte zufällige Versuche.
Bez.: A,B,C,...,A1,B1,...
Bsp. 1: Würfeln mit einem idealen Würfel und Beobachtung
der geworfenen Augenzahl (zuf. Versuch)
Begriffe: - Elementarereignis:
Elementarereignisse lassen sich nicht weiter in
zufällige Ereignisse zerlegen.
Bez.: ei ; i=1,...,n
Bsp.1: E = {e1,...,e6}
Bez.: A ∪B A B
Bez.: A ∩B A B
Bsp.1: Würfeln A1 ∩ A 7 = ∅
Def.: Zwei zufällige Ereignisse A und B heißen miteinander
unvereinbar (unverträglich), wenn sie keine
gemeinsamen Elementarereignisse besitzen.
Bez.: A ∩ B = ∅
Bsp.1: A1 ∩ A7= ∅
Bez.: A \ B
E
Bsp.1: Würfeln A B
A7 \ A2 = {4, 6}
• A =E\A
• A ∩B = A \ B
Wahrscheinlichkeit:
Die Wahrscheinlichkeit ist das Maß für den Grad der
Gewissheit des Eintretens eines zufälligen Ereignisses A
1. 0 ≤ P(A) ≤ 1
5. P( A) = 1 – P(A)
N( A ) 23
Damit ergibt sich: P( A ) = = = 0,92
n 25
2. Statistische Definition der Wahrscheinlichkeit:
N( A )
hn ( A ) =
n
und hn(A) konvergiert stochastisch gegen P(A).
hn(A) ist also ein Schätzwert der Wahrscheinlichkeit P(A).
Bsp.: Münzwurf Anzahl der Anzahl des relative
Würfe n Auftretens des Häufigkeit
"Wappen" N(A) hn=N(A)/n
Buffon 4040 2048 0.5069
Pearson 12000 6019 0.5016
Pearson 24000 12012 0.5005
Stabilität der relativen Häufigkeit
hn(A)
P(A)
0 n ∞
Zufallsgröße (ZG)
Zufallsgröße
E . ei
0 xi
R
=X(ei)
Def.: Eine Abbildung X heißt Zufallsgröße (ZG), wenn sie ihre
Werte mit einer bestimmten Wahrscheinlichkeit annimmt.
X
ei ∈ E → xi ∈ R X(ei) = xi
p1=1/6
x
1 2 3 4 5 6
P(X ≤ x) = F X ( x ) = ∫f
−∞
X ( t ) dt ∀x∈R
∫f
−∞
X ( x ) dx = 1
Dichtefunktion der Normalverteilung
0,4
0,1
Dichte 0,3 Bsp.: Normalverteilung
0,2
X ~ N(0,1)
0,1
0
-5 -3 -1
0 1 3 5 (Standard-Normalverteilung)
x
1 FX ( x ) = ∫f ( t ) dt
Verteilungsfunktion
X
0,1
0,8 −∞
0,6
0,4
0,2
0
-5 -3 -1 0 1 3 5
x
Bem.: Für eine stetige ZG X gilt:
x
1. P( X ≤ x) = FX ( x) = ∫ f(t)dt
−∞
x
∫
2. P( X > x) = 1− FX (x) = 1− f (t)dt
−∞
b
∫
3. P(a < X ≤ b) = FX (b) − FX (a) = f ( x)dx
a
∀x mit a < x ≤ b
1. Erwartungswert:
Def.: Als Erwartungswert EX einer ZG X bezeichnen wir das
Zentrum ihrer ∞
Verteilung:
∑ xi ⋅ pi , X diskr. ZG
EX =
i =1
+∞
EX ∈ R
∫ x ⋅ fX (x)dx
−∞
, X stet. ZG
∑ i
( x
i =1
− EX ) 2
⋅ pi , X diskr. ZG
= +∞ D2 X ∈ R
∫ (x − EX) ⋅ fX (x)dx
2
, X stet. ZG
−∞
D2 X heißt Standardabweichung.
X − EX
2. Y= ist eine standardisierte ZG.
2
D X
Wahrscheinlichkeitsverteilungen
Beispiele:
● zuf. Mess- und Beobachtungsfehler
● Fett- und Eiweißgehalt von Milch, Stammwürzegehalt von
Bier, Saccharosegehalt von Zuckerrüben
Def.: Eine stetige ZG X heißt normalverteilt mit den
Parametern µ und σ2 (X ~ N (µ, σ2)), wenn ihre
Dichtefunktion die Form
−
( x −µ )
2
1
fX ( x ) = ⋅e 2 ⋅σ 2 x∈R, hat.
2π ⋅ σ
Satz: Eigenschaften der Dichtefunktion der NV
1. fX(x) ≥ 0 x∈R
2. fX besitzt an der Stelle x = µ ein Maximum und
1
fX (µ) =
2π ⋅ σ
3. fX besitzt an den Stellen x1 = µ -σ und x2 = µ + σ
zwei Wendepunkte
4. fX ist symmetrisch bez. µ: fX(µ - x) = fX(µ + x)
Dichtefunktion der Normalverteilung
0,8
0,1
4,1
0,6
4,2
Dichte
4,0,5
0,4 0,2
0,2
fX(x; 0, 1) = ϕX(x)
0
-10 -6 -2 2 6 10 14
x
Standard- Normalverteilung
X ~ N (0, 1)
Verteilungsfunktion der Normalverteilung
Verteilungsfunktion
1
0,1
0,8 4,1
4,2
0,6 4,0,5
0,2 FX(x; 0, 1) = ΦX(x)
0,4
0,2
0 ist tabelliert!
-10 -6 -2 2 6 10 14
x
Bem.: - Für eine normalverteilte ZG X gilt:
EX = µ und D2X = σ2
Verteilungsfunktion
0,4 1
0,1 0,1
0,8
0,3
Dichte
0,6
0,2
0,4
0,1
0,2
0 0
-5 -3 -1 1 3 5 -5 -3 -1 1 3 5
x x
X−µ x −µ
1. P( X ≤ x) = FX ( x) = P ≤ = P( Y ≤ y) = Φ Y ( y)
σ σ
2. P( X > x) = 1− P( X ≤ x) = 1 − FX ( x) =
X−µ x −µ
1− P ≤ = 1− P( Y ≤ y) = 1− Φ Y ( y)
σ σ
3. P( x1 < X ≤ x 2 ) = FX ( x 2 ) − FX ( x1 ) x1 −µ
y1 =
X−µ σ
= P y1 < Y = ≤ y 2 = Φ Y ( y 2 ) − Φ Y ( y1 )
σ x2 −µ
y2 =
σ
4. Spezialfall von 3.
Seien x1 = µ - kσ und x2 = µ + kσ
x u − 31,4
→ ΦY(-2,88) = 0,002 → = −2,88
0,2
→ xu = 30,824
f) analog zu e)
30,9 − 31,4 30,9 − 31,4
ΦY = 0,002 → = −2,88
σ σ → σ = 0,1736
2.4 Prüfverteilungen
Chi-Quadrat Verteilung
0,1 FG
10
(n − 1)S ²
W = ~ χ ²( m )
0,08 20
30
σ²
Dichte
0,06 50
100
0,04
t- Verteilung
0,4 FG
10
20
0,3
30 X −µ
t= ⋅ n ~ t (m )
Dichte
50
0,2 100
S
0,1
0
-6 -4 -2 0 2 4 6
x
t- Verteilung
- Das Quantil der Ordnung p der
Verteilungsfunktion
1 FG
10
t- Vert. mit m FG- en wird mit 0,8 20
30
tp;m bezeichnet. 0,6 50
100
0,4
- Die t- Verteilung ist symmetrisch
0,2
und konvergiert für m→∞ gegen 0
die Standardnormalverteilung -6 -4 -2 0 2 4 6
x
F-Verteilung (Fisher)
F- Verteilung
2,4 FG
10,10
2 20,20
1,6 30,30 2
S
Dichte
50,50
1,2 100,100
F= 1
~ F(m1, m2 )
2
0,8
0,4
S 2
0
0 1 2 3 4 5
x
F- Verteilung
Das Quantil der Ordnung p der
1 FG
Verteilungsfunktion
F-Verteilung mit m1 und m2 0,8
10,10
20,20
FG- en wird mit Fp;m1;m2 0,6
30,30
50,50
bezeichnet. 0,4
100,100
0,2
0
0 1 2 3 4 5
x
3. Schließende
Methoden
1. Punktschätzungen
Bei Punktschätzungen wird ein einziger aus der Stichprobe
gewonnener Wert zur Schätzung des unbekannten
Parameters herangezogen.
σ σ
= P X − ⋅z α < µ < X+ ⋅ z α = 1 − α
n 1− n 1−
2 2
α
wobei z α das (1−
2
) - Quantil der Standardnormalverteilung
1−
ist. 2
Jede konkrete Stichprobe liefert uns dann ein realisiertes
Konfidenzintervall: z α
1-α α 1− z 2 1-α
0,95 0,05 1,96 1,64
σ σ
x − ⋅ z α; x + ⋅z α 0,99 0,01 2,58 2,33
n 1− 2 n 1− 2
Φ z α = 1−
α
1− 2 2
0,3 1-α
Dichte
0,2
0
-5 -3 -1 1 3 5
z α z
z 1−
α
2
2
= −z α α
1−
2 1− -Quantil der Standard- NV
2
Bem.: Die Breite dieses Konfidenzintervalls für den Erwar-
tungswert µ beträgt 2d und ist von α, n, σ und der
Verteilung des zugehörigen Schätzers abhängig.
σ
2d = 2 ⋅z α
n 1−
2
Die Breite des Konfidenzintervalls ist hier ein Maß für die
Genauigkeit der Schätzung von µ und die
Irrtumswahrscheinlichkeit α ein Maß für das Risiko.
S S
P X − ⋅t α < µ < X+ ⋅ t α = (1 − α)
n 1− ; m n 1− ; m
2 2
α
wobei t 1− α ;m das (1−
2
) - Quantil der t- Verteilung ist.
2
Jede konkrete Stichprobe liefert uns wieder ein realisiertes
Konfidenzintervall: s s
x − ⋅t α
1− ; m
;x + ⋅t α
1− ; m
n 2 n 2
s
d= ⋅t α
n 1− 2 ;m
Veranschaulichung analog
wie beim 1. Fall!
Toleranzintervall: Anwendung bei der Kontrollkartentechnik:
( x - Kontrollkarte)
Mittelwert liegt außerhalb
des Toleranzbereiches!
S
µ0 + ⋅t α
n 1− 2 ;m
Toleranz-
µ0 bereich
s
µ0 − ⋅ t α
n 1− 2;m
xi
x1 x3 x5 x7
3.2 Statistische Tests
Es werden zwei Hypothesen für die GG aufgestellt:
● die Nullhypothese H0 (Annahme über die Verteilung
oder unbekannte Parameter
in der Grundgesamtheit) und
● die Alternativhypothese HA (wird angenommen, falls
H0 verworfen wird)
Verteilungsfreie
Parametrische Tests (nichtparametrische) Tests
0,3
1-α
Dichte
0,2
kritische Grenzen
0,1
α/2 α/2
0
-5 -3
zα
-1
z
1
z
1−
α
3 5
K = z / | z |> z α
1−
2
2 2
Ann.bereich H0
b) HA2: µ > µ0 c) HA3: µ < µ0
Dichtefunktion der Standard- Normalverteilung Dichtefunktion der Standard- Normalverteilung
0,4 0,4
0,3 0,3
1-α 1-α
Dichte
Dichte
0,2 0,2
0,1 α 0,1 α
0 0
-5 -3 -1 1 3 5 -5 -3 -1 1 3 5
z z1−α zα z
a) z > z
1−
α b) z > z1−α c) z < zα
2
Analog gilt:
H0 wird abgelehnt, wenn der zu z gehörige P-Wert < α ist.
P heißt „Probability value“ oder „Grenzniveau“ oder „Über-
schreitungswahrscheinlichkeit“. Er ermöglicht eine
differenziertere Testentscheidung.
1-α
1-α
β β
α/2 α
X − µ0
3. Teststatistik unter H0: t= ⋅ n ~ t ( n − 1)
S
x − µ0
4. Wert der Teststatistik: t̂ = ⋅ n
s
5. Kritischer Bereich K:
a) HA1: µ ≠ µ0 K = − ∞; t α ∪ t α ;+∞ = t̂ / | t̂ |> t α
2
,m
1− 2 ,m 1− ,m
2
b) HA2: µ > µ0 { }
K = (t 1− α ,m ;+∞ ) = t̂ / t̂ > t 1− α ,m
P-Wert
0,2
0,1
α
0
-6 -4 -2 0 2 4 6
t̂
t t1−α,10
Ann.bereich vonH0
(1-α)- Quantil der t- Vert. zum FG 10
Ein Test ist von folgenden Größen abhängig:
● Mindestdifferenz d (Genauigkeitsvorgabe)
● Wahrscheinlichkeit für den Fehler 1. Art α
● Schranke für die Wahrscheinlichkeit für den Fehler 2. Art β0
● Varianz σ2 (1. Fall) bzw. s2 (2. Fall)
a) b)
6. Testentscheidung:
χ12−α,m
1-Stichproben- HA2: σ2 > σ02 HA2: K = ( , ∞) χˆ 2 ≤ χ12−α,m
χ2- Test m = n -1
Entscheidung
Art des Tests H0 und HA Teststatistik Krit. Bereich Annahme H0
P ≥ 0,05
Vergleich von 2 a) σ1, σ2 bekannt a) HA1: a)
Mittelwerten bei K= (- ∞, z α )∪( z , ∞) z ≤z α
α 1−
unabhängigen 2
1−
2
2
Stichproben X1 − X 2
Z= ~ N(0,1) HA2: K = (z 1-α, ∞) z ≤ z1−α
σ 2
σ 2
+
1 2
a) 2-Stichproben- n1 n 2
Gauß-Test
H01: µ1 = µ2
b) 2-Stichproben- HA1: µ1 ≠ µ2 b) σ12, σ22 b) HA1: b)
t-Test t̂ ≤ t α
unbekannt, aber K = (- ∞, t α )∪(t α
, ∞) 1− ,m
,m 1− ,m 2
H02: µ1 ≤ µ2 σ12= σ22 2 2
t̂ ≤ t1−α,m
HA2: µ1 > µ2
X1 − X 2 n1 ⋅ n 2
t= ⋅ ~ t(m) HA2: K = (t1-α,m , ∞)
Sd n1 + n 2
(n1 − 1) S12 + (n 2 − 1) S 22
Sd =
n1 + n 2 − 2
m = n1+n2 -2 m = n1+n2 -2
Entscheidung
Art des Tests H0 und HA Teststatistik Krit. Bereich Annahme H0
P ≥ 0,05
Vergleich von 2 c) σ12, σ22 c) HA1: c)
Mittelwerten bei unbekannt, aber K= (- ∞, t α )∪( t α , ∞) t̂ ≤ t α
unabhängigen ,m 1− ,m 1− ,m
σ12≠ σ22 2 2 2
Stichproben
X1 − X 2 HA2: K = (t1-α,m , ∞)
t= ~ t(m) t̂ ≤ t1−α,m
c) 2-Stichproben- H01: µ1 = µ2 S12 S 22
t-Test mit HA1: µ1 ≠ µ2
+ aber.: unterschiedliches m
n1 n 2
Welch- im Vergleich zu b)!
Korrektur H02: µ1 ≤ µ2 mit
1 c2 (1 − c ) 2
HA2: µ1 > µ2 = +
m n 2 − 1 n1 − 1
s 22
und
n1
c=
s12 s 22
+
n1 n 2
Stichproben ∪(F , ∞)
m1 = n1 – 1; m2 = n2 - 1 α
1− ,m1,m2
H02: σ11 ≤ σ22 2
2-Stichproben- Vor.: s12 ≥ s22 , sonst
HA2: σ11 > σ22 Stichproben ver- HA2: K = ( F1−α,m1,m2 , ∞) f ≤ F1−α,m1,m2
F-Test tauschen!
3.3 Varianzanalyse
X 11 .... X a 1
Xij: :
X 1n 1 .... X an a
VA- Modell I mit einfacher Klassifikation:
Xij = µi + εij i = 1, ..., a j = 1, ..., ni
- χ2- Anpassungstest
wobei: µ - Gesamterwartungswert
- Shapiro- Wilks-Test
αi - Effekt der i- ten Stufe
- T. auf Schiefe und Exzess
des Faktors A;
- Kolmogorov- Smirnov-T.
αi = µi - µ
mit Lilliefors- Korrektur
Bsp.: Vergleich des mittleren Butandiolgehaltes in 4
Laboratorien
Ausgangstabelle (Versuchsplan):
Nr. der Wdhlg. Stufen des Faktors: Labor
j L1 L2 L3 L4
1 0,780 0,810 0,760 0,746
2 0,770 0,790 0,750 0,750
3 0,780 0,770 0,720 0,734
4 0,774 0,780 0,756 0,741
5 0,750 0,760 0,770 0,739
6 0,790 0,770 0,780 0,736
xi. 0,774 0,780 0,756 0,741
s i. 0,014 0,018 0,021 0,006
a=4 ni = n = 6 N = 24
0,8
0,78
0,76
0,74
0,72
L1 L2 L3 L4
1. Unterscheiden sich die 4 Laboratorien hinsichtlich des
mittleren Butandiolgehaltes von Wein, d.h. hat der Faktor
“Laboratorium” Einfluss auf den Butandiolgehalt?
2. Hypothesen:
H0: µ1 = ... = µ4 äquivalent H0: α1 = ... = α4 = 0
HA: ∃ (i,j): µi ≠ µj (i ≠ j) HA: ∃ (i,j): αi ≠ αj (i ≠ j)
3. Teststatistik unter H0:
Teststatistik basiert auf Zerlegung der Summe der
Abweichungsquadrate
Ausgangspunkt: Empirische Varianz s2
a ni
1 1
s =
2
∑
N − 1 i =1
∑
j =1
( X ij − X ⋅⋅ ) =
2
N −1
SQ G
ni
1
wobei Xi⋅ = ∑ Xij Gruppenmittelwert
ni j=1
a ni
1
X ⋅⋅ =
N
∑∑X
i =1 j =1
ij Gesamtmittelwert
1
MQ I = SQ I
N−a
1
MQZ = SQZ
a −1
MQ Z
⇒ Teststatistik unter H0: F= ~ F ( m 1, m 2 )
MQ I
m1 = a-1 m2 = N-a
4. Wert der Teststatistik:
⇒ Varianztabelle (ANOVA-Tabelle)
Wert der
Variations- Test-
S Q̂ FG MQ̂ P-Wert
ursache statistik
f
zwischen SQ̂Z a-1 MQ̂ Z M Q̂ Z P=
den Stufen f= 0,0012
M Q̂ I
0,00565 3 0,00188
innerhalb SQ̂I N-a MQ̂I
der Stufen = 7,82
0,00482 20 0,00024
Gesamt SQ̂G N-1 MQ̂G
0,009538 23
5. Kritischer Bereich K:
Dichte
0,4
0,2
α
0
0 1 2 3 4 5
F
F 3; 20; 0,95
6. Testentscheidung:
Wenn f > Fa-1; N-a; 1-α → Ablehnung von H0
Da 7,82 = f > F3; 19; 0,95 = 3,127 → Ablehnung von H0,
d.h. die Mittelwerte des Butandiolgehaltes der Laboratorien
unterscheiden sich zum Signifikanzniveau α = 0,05.
Bem.: Wenn die Nullhypothese H0 abgelehnt wird, ist man
daran interessiert, herauszufinden, welche Gruppen
einen signifikant höheren oder niedrigeren Mittelwert
aufweisen und schließt daher multiple paarweise Ver-
gleiche, z.B. mit der Prozedur von Tukey- Kramer an.
Man prüft dann den folgenden Hypothesenkomplex,
a a ⋅ ( a − 1)
bestehend aus = Hypothesen:
2 2
H0: µi = µj (i ≠ j) gegen HA: µi ≠ µj (i≠j)
0,78
MW
0,76
0,74
0,72
L1 L2 L3 L4
HSD- Test von Tukey- Kramer (α = 0,05 versuchsbezogen, wird
für alle Vergleiche eingehalten!)
------------------------------------------------------------------------------------
Gruppe Anz. MW Homogene Gruppen
------------------------------------------------------------------------------------
L4 6 0,741 X
L3 6 0,756 XX
L1 6 0,774 X
L2 6 0,78 X
------------------------------------------------------------------------------------
Kontrast Differenz +/- Grenzen
------------------------------------------------------------------------------------
L1-L2 -0,006 0,0251053
L1-L3 0,018 0,0251053
L1-L4 *0,033 0,0251053
L2-L3 0,024 0,0251053
L2-L4 *0,039 0,0251053
L3-L4 0,015 0,0251053
------------------------------------------------------------------------------------
* statistisch signifikante Differenz (α = 0,05)
Ergebnis:
2,0
1,5
Wechsel-
Vanadium
1,0
Wirkungs-
0,5
plot
0,0
-0,5