Sie sind auf Seite 1von 36
Biostatistik Lisa Konrad
Biostatistik Lisa Konrad

Biostatistik

Biostatistik Lisa Konrad
Biostatistik Lisa Konrad
Biostatistik Lisa Konrad

Lisa Konrad

Inhaltsverzeichnis

TEIL A

Theorie & Formeln

1. Deskriptive (=beschreibende) Statistik 1 1 1.1 Der Begriff Merkmal und die Einteilung von Merkmalen
1. Deskriptive (=beschreibende) Statistik
1
1
1.1 Der Begriff Merkmal und die Einteilung von Merkmalen
Einteilung der Merkmale nach Skalen
Einteilung der Merkmale mit den Begriffen qualitativ und quantitativ
Einteilung der Merkmale mit den Begriffen diskret und kontinuierlich
.
.
.
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
1.2 Darstellung der Daten in Tabellen
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
1.3 Graphische Darstellung von Daten
Kreisdiagramm
Balkendiagramm
Histogramm
Polygon
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1.4 Verteilungsformen
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
1.5 Formmaße von Verteilungen
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
1.6 Statistische Kennwerte
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
1.6.1
Lageparameter
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
Modalwert
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
.
Arithmetischer Mittelwert
Gewogenes arithmetisches Mittel
Median
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
Box-and-Whiskers-Plot
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6

1.6.2

Streuungsparameter

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

7

 

Eveness

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

7

Spannweite

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

7

 

7

 

Interquartilabstand

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

7

Varianz

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

7

Standardabweichung

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

7

 

7

 

Variationskoeffizient

 

.

.

.

.

.

.

.

.

.

.

.

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

7

Standardfehler

.

.

.

.

.

.

.

.

.

.

.

.

.

 

.

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

7

   

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

8

1.7 Merkmalsverteilung – Klassifizierte Häufigkeiten absolute Häufigkeit relative Häufigkeit absolute Summenhäufigkeit relative Summenhäufigkeit)

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

1.8 Wahrscheinlichkeitstheorie und Verteilungen

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

8

8

8

8

8

1.8.1 Diskrete Verteilungen

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

8

 

Binomialverteilung

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

8

Poissonverteilung

.

.

.

.

.

.

.

.

.

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

9

1.8.2 Stetige Verteilungen

Normalverteilung

.

.

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

9

9

 

. Chi² (X²) – Verteilung

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

10

Gleichverteilung

.

.

.

.

.

.

.

.

.

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

10

1.9

Korrelation und Regression Korrelationsanalyse Korrelationskoeffizient nach Pearson

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

10

 

.

.

 

.

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

11

 

11

Der kritische Wert r*

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

12

Regressionsanalyse Rangkorrelationskoeffizient nach Spearman

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

13

 

13

Die erklärte Varianz r²

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

13

2. induktive (=schließende) Statistik

2.1

Anpassungstests

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

2.1.1 Anpassung an eine Normalverteilung &

 

2.1.2 Anpassung an eine Poissonverteilung

 

2.1.3 Anpassung an eine Gleichverteilung & Chi²-Test

 

2.2

Statistische Tests

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

2.2.1 Chi²-Test bei der Logarithmischen Normalverteilung

 

2.2.2 Kolmogorov-Smirnov-Test

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

2.2.3 t-Test

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

t-Test für unverbundene Stichproben

t-Test für verbundene Stichproben

14 14 . . . . . . . . . . . . .
14
14
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
15
17
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
18
18
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
19
.
.
.
20
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
20
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
20
21

1. Deskriptive (=beschreibende) Statistik

Die beschreibende (deskriptive) Statistik befasst sich mit der Untersuchung und Beschreibung, möglichst der ganzen, Grundgesamtheit.

1.1

Grundgesamtheit: alle zu untersuchenden Daten (z.B. gesamte Schafsherde; nicht nur Stichproben)

Der Begriff Merkmal und die Einteilung von Merkmalen

Merkmal: Eigenschaft, die für die statistische Auswertung relevant ist.

Einteilung der Merkmale nach Skalen

Nominalskala: Klassifizierung; Merkmale bekommen zur Unterscheidung eine fortlaufende Zahl zugeordnet

Ordinalskala (= rating & ranking scales): Wertung der Merkmalsausprägungen mittels Rangfolge (z.B. nach Schulnotensystem oder -- bis ++)

Metrische Skalen:

o

Intervallskala: Abstände der Merkmalsausprägungen können durch eine Skala erfasst werden. Intervallskalen besitzen keinen absoluten Nullpunkt.

o

Verhältnisskala: kann auch die Quotienten (Verhältnisse) vergleichen und hat einen eindeutig festgelegten Nullpunkt.

Einteilung der Merkmale mit den Begriffen qualitativ und quantitativ

qualitative (artmäßige) Merkmale: z.B. nominalskalierte Daten

quantitative (zahlenmäßige) Merkmale: z.B. metrisch skalierte Daten

semiquantitative Merkmale: ordinalskalierte Daten, da eine eindeutige Zuordnung zu qualitativen bzw. quantitativen Merkmalen oft nicht möglich ist.

Einteilung der Merkmale mit den Begriffen diskret und kontinuierlich

diskrete (diskontinuierliche) Merkmale: können nur bestimmte Werte annehmen (z.B. Zählung von …; meist ganze Zahlen)

stetige (kontinuierliche) Merkmale: können beliebige Werte annehmen (z.B. gemessene Längen; Dezimalzahlen)

1.2

Darstellung der Daten in Tabellen

Messdaten (mit fortlaufenden Nummern markiert) in Tabelle spaltenweise eintragen

Bestimmung der

m n
m
n

Klassenanzahl

(m):

n

Anzahl der Werte (Messdaten)

1

Bestimmung der Klassenbreite:

o

Variationsbreite (=Spannweite) festlegen: V = Max – Min

o

Klassengrenzen sinnvoll setzen – dabei beachten:

 

Klassen sollen disjunkt sein (d.h. alle Werte untergebracht) Klassen sollen gleich groß sein

Randklassen können nach oben/unten offen gelassen werden, damit Ausreißer die Statistik nicht verfälschen. Meistens fügt man

 

jedoch eine weitere Klasse für Ausreißer hinzu (auch, wenn dann die Zahl der Klassen höher ist als die Berechnete).

o

Klassenbreite berechnen: Spannweite / Klassenzahl

 

1.3 Graphische Darstellung von Daten

Kreisdiagramm: nominal-, ordinalskalierte Daten

113; 0% 62.881; 3% 26.145; 1% 189.672; 9% 496.051; 23% 205.492; 10% 363.341; 17% 641.923;
113; 0%
62.881; 3%
26.145; 1%
189.672; 9%
496.051; 23%
205.492; 10%
363.341; 17%
641.923; 29%
169.829; 8%

WienBurgenland Niederösterreich Oberösterreich Salzburg Steiermark Kärnten Tirol Vorarlberg

BurgenlandWien Niederösterreich Oberösterreich Salzburg Steiermark Kärnten Tirol Vorarlberg

NiederösterreichWien Burgenland Oberösterreich Salzburg Steiermark Kärnten Tirol Vorarlberg

OberösterreichWien Burgenland Niederösterreich Salzburg Steiermark Kärnten Tirol Vorarlberg

SalzburgWien Burgenland Niederösterreich Oberösterreich Steiermark Kärnten Tirol Vorarlberg

SteiermarkWien Burgenland Niederösterreich Oberösterreich Salzburg Kärnten Tirol Vorarlberg

KärntenWien Burgenland Niederösterreich Oberösterreich Salzburg Steiermark Tirol Vorarlberg

TirolWien Burgenland Niederösterreich Oberösterreich Salzburg Steiermark Kärnten Vorarlberg

VorarlbergWien Burgenland Niederösterreich Oberösterreich Salzburg Steiermark Kärnten Tirol

dargestellt ist hier ein Kreisdiagramm. Es werden Werte und Anteile angezeigt. Einstellbar bei „Diagrammoptionen“

Das Balkendiagramm: Häufigkeitsdiagramm

relative nichtkumulierte Häufigkeit

30 25 20 15 10 5 0 [0,2 - 2) [2 - 3,8) [3,8 -
30
25
20
15
10
5
0
[0,2 - 2)
[2 - 3,8)
[3,8 - 5,6)
[5,6 - 7,4)
[7,4 - 9,2)
[9,2 - 11,9]
Häufigkeit

Klassen

2

Histogramm: Klassen sind untereinander verbunden (kein Abstand zw. den Balken) Wenn die Breite jeder Klasse auf den Wert 1 standardisiert ist, entspricht die Fläche unter der Histogrammkurve der Anzahl der Messwerte

16 14 12 10 h(x) 8 f(x) 6 4 2 0 (18-25] (25-32] (32-39] (39-46]
16
14
12
10
h(x)
8
f(x)
6
4
2
0
(18-25]
(25-32]
(32-39]
(39-46]
(46-53]
(53-60]
(60-67)
Inkubationszeit (Tagen)
Anzahl

dargestellt ist hier ein Histogramm – kombiniert mit einer angepassten Fuktion

Darstellungsmöglichkeit mit der Diagrammoption „Säule-Linie“

Zusätzlich wurde die Funktion noch geglättet. Zu finden bei „Diagrammoptionen“

o

Summenhistogramm:

aufgetragen)

Die

Summenhäufigkeiten

(H i )

werden

absolute Summenhäufigkeit (kumulierte Häufigkeit) 60 50 40 30 H(x) 20 10 0 [18-21) [21-24) [24-27)
absolute Summenhäufigkeit (kumulierte Häufigkeit)
60
50
40
30
H(x)
20
10
0
[18-21)
[21-24)
[24-27)
[27-30)
[30-33)
[33-36)
[36-39]
Alt er in Jahren

Polygon: die Häufigkeiten über den Klassenmitten werden abgetragen und verbunden und man fügt vorne und hinten noch einer Leerklasse hinzu.

12

10

8

6

4

2

0

1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12

o Summenpolygon: Die Summenhäufigkeiten werden über dem jeweiligen Ende der Klasse abgetragen und verbunden. Es wird zusätzlich noch vorne und hinten eine Leerklasse hinzugefügt. Die Funktion, die das Polygon beschreibt, verläuft unter dem Summenhistogramm.

und hinten eine Leerklasse hinzugefügt. Die Funktion, die das Polygon beschreibt, verläuft unter dem Summenhistogramm. 3

3

1.4 Verteilungsformen

unimodal: eingipflig

bimodal: zweigipflig

multimodal: mehrgipflig

∑ bimodal: zweigipflig ∑ multimodal: mehrgipflig rechtsschief linksschief 1.5 Formmaße von Verteilungen
∑ bimodal: zweigipflig ∑ multimodal: mehrgipflig rechtsschief linksschief 1.5 Formmaße von Verteilungen
∑ bimodal: zweigipflig ∑ multimodal: mehrgipflig rechtsschief linksschief 1.5 Formmaße von Verteilungen

rechtsschief

linksschief

1.5 Formmaße von Verteilungen Graphische Darstellungen von Verteilungen lassen schnell erkennen, welche Form die Verteilung besitzt: symmetrisch oder asymmetrisch, eingipflig oder mehrgipflig, normalverteilt oder nicht normalverteilt. Die Formaße g 1 und g 2 geben bei metrischen Daten von Stichproben diesbezügliche Informationen.

Die Schiefe, g 1 , ist nur bei eingipfligen Häufigkeitsverteilungen sinnvoll zu berechnen. Sie beschreibt den Grad der Unsymmetrie von Verteilungen:

Formel:

den Grad der Unsymmetrie von Verteilungen: Formel: g 1 1 n n ∑ ◊ ( x

g 1

1

n

n

(

x i

m

) 3

… Anzahl der Messwerte

n

x i … Messwerte

i

=

1 m … arithmetischer Mittelwert

s 3

s Standardabweichung

g 1 = 0 symmetrische Verteilung g 1 < 0 linksschiefe (rechtssteil) Verteilung g 1 > 0 rechtsschiefe (linkssteil) Verteilung

Die Wölbung, g 2 – auch Kurtosis oder Exzess, dient zur Beschreibung von Verteilungen, die zwar symmetrisch sind, aber schmaler (steilgipfliger) als die Normalverteilung verlaufen oder aber flacher (oder sogar u-förmig) sind. Formel:

g 2

1

n

n

i

=

1

(

x

i

m

) 4

s 4

n … Anzahl der Messwerte

x i … Messwerte

 

m

… arithmetischer Mittelwert

3

 

s

Standardabweichung

g 2 < 0 Verteilung flacher oder u-förmig g 2 > 0 Verteilung schmaler und steiler

4

Beispiele, und der Grund, warum g 1 bei Normalverteilung und u-förmigen Verteilungen sinnlos ist:

60 60 50 50 g 1 = -0,302 g 1 = -0,043 g 2 =
60
60
50
50
g 1 = -0,302
g 1 = -0,043
g 2 = 1,21
g 2 = -1,58
40
40
30
30
20
20
10
10
0
0
1
3
5
7
9
11
13
15
17
19
1
3
5
7
9
11
13
15
17
19
x
x
Häufigkeit
Häufigkeit

1.6 Statistische Kennwerte

Lageparameter

o

Modalwert:

Anwendung: bei Nominaldaten, ordin. u. metr. Daten mit multimodaler Verteilung. Definiton: Der Modalwert ist der am häufigsten in einer Liste (Grund- gesamtheit) auftretende Wert.

 

EXCEL-Funktion: =MODALWERT()

 

o

Median:

Anwendung: bei metrisch- und nominalskalierten Daten. Definition: gleich viele Messwerte liegen oberhalb und unterhalb dieser Zahl. Bei einer ungeraden Anzahl an Messwerten entspricht dieser Wert dem mittleren Wert. Besondere Eigenschaft: ist robust gegen Ausreißer.

 

EXCEL-Funktion: =MEDIAN()

 

o

Arithmetischer Mittelwert:

Anwendung: für metrische Daten Defnition: Summe aller Messwerte, geteilt durch die Anzahl der Messwerte

Formel:

Messwerte, geteilt durch die Anzahl der Messwerte Formel: n m 1 n ◊ ∑ x i

n

m

1

n

x

i

i

=

1

Besondere Eigenschaft: sehr empfindlich gegen Ausreißer. Schon ein falscher Wert kann den Mittelwert dramatisch verändern.

EXCEL-Funktion: =MITTELWERT()

5

Auswirkungen der 3 oben genannten Lageparameter auf eine Glockenkurve:

der 3 oben genannten Lageparameter auf eine Glockenkurve: o Gewogenes arithmetisches Mittel : wird angewandt, wenn
der 3 oben genannten Lageparameter auf eine Glockenkurve: o Gewogenes arithmetisches Mittel : wird angewandt, wenn

o Gewogenes arithmetisches Mittel: wird angewandt, wenn der Mittelwert von mehreren Untersuchungen mit verschiedener Anzahl von Messwerten ermittelt werden soll. Dabei muss man sich nach der jeweiligen Anzahl richten (dabei wird mit der Anzahl multipliziert).

Formel:

richten (dabei wird mit der Anzahl multipliziert). Formel: m 1 n n ◊ ∑ i =

m

1

n

n

i

=

1

(

n m

i

)

i

Box-and-Whiskers-Plot Der Box-and-Whiskers-Plot zeigt, ob die Verteilung symmetrisch oder asymmetrisch ist, wo der Median liegt, wie groß die Spannweite ist und in welchem Bereich 50% der Messwerte liegen. Die Box begrenzt das erste und das dritte Quartil (Q 3 – Q 1 ) und beinhaltet 50% der Messwerte, während die Spannweite sowieso erstes und viertes Quartil abgrenzt. Die Spannweite wird mit Strichen dargestellt – auch als Whiskers (Schnurrhaare) bezeichnet. Ist der Median (Linie in der Box) der oberen Boxbegrenzung näher, so ist die Verteilung rechtssteil.

bezeichnet. Ist der Median (Linie in der Box) der oberen Boxbegrenzung näher, so ist die Verteilung

6

Streuungsparameter:

o

o

o

Eveness (Homogenitätsindex): beschreibt, wie unterschiedlich die Ausprägungen eines nominalskalierten Merkmals sind. Der Index erreicht den Wert 1, wenn alle Kategorien gleich stark besetzt sind (Gleichverteilung). Wenn alle Werte in der gleichen Kategorie liegen, nimmt der Wert 0 an.

Spannweite (=Variationsbreite):

Interquartilabstand:

V = x max – x min

Quartil: Teilung der ansteigend sortierten Messwerte in 4 Klassen.

 

1. Quartil: enthält 25% der Messwerte

2. Quartil: enthält 50% der Messwerte

3. Quartil: enthält 75% der Messwerte

4. Quartil: enthält 100% der Messwerte

I 50 = Q 3 – Q 1

EXCEL-Funktion: =QUARTILE(Daten;Q x )

 

Quantil: x-viele Klassen EXCEL-Funktion: =QUANTIL(Daten;%)

100% = 1 50% = 0,5

o Varianz:

Formel:

2

1

n

1

n

i

=

1

(

x

i

m

) 2

EXCEL-Funktion: =VARIANZ()

o

Standardabweichung: je kleiner σ, desto homogener ist die Stichprobe

Formel:

2
2

EXCEL-Funktion: =STABW()

o Variationskoeffizient:

Standardabweichung

Formel:

o Standardfehler:

Formel:

cv

s x

beschreibt

m n
m
n

7

die

am

arith.

Mittelwert

relativierte

1.7

Merkmalsverteilung – Klassifizierte Häufigkeiten

Klassifizierte Häufigkeit (=absolute Häufigkeit): h i = Anzahl der Messwerte in Klasse i

EXCEL-Funktion: Spalten, in dies reinkommen soll, markieren, dann oben in der Leiste wo f(x)=

steht: =HÄUFIGKEIT(Daten;Klassenobergrenzen) + Crtl. + SHIFT + ENTER

&

Daten

mit

F4

fixieren,

dann

ENTER

drücken

und

runterziehen.

Prozentuale klassifizierte Häufigkeit (=relative Häufigkeit):

Formel:

% h i h ◊100 i n
%
h i
h
◊100
i
n
14 12 10 8 6 4 2 0 1 2 3 4 5 6 7
14
12
10
8
6
4
2
0
1
2
3
4
5
6
7
8
9
10

Klassifizierte Summenhäufigkeit (=absolute / kumulierte Häufigkeit): Anzahl der Messwerte bis einschließlich Klasse i.

EXCEL-Funktion:

=HÄUFIGKEIT(Daten;Klassenobergrenze),

dann

ENTER

drücken

und

runterziehen.

Formel:

dann ENTER drücken und runterziehen. Formel: H i i ∑ j = 1 h j absolute

H i

dann ENTER drücken und runterziehen. Formel: H i i ∑ j = 1 h j absolute

i

j

= 1

h j

absolute Summenhäufigkeit (kumulierte Häufigkeit)

         

H(x)

[18-21)

[21-24)

[24-27)

[27-30)

A lt er in Jahren

[30-33)

[33-36)

[36-39]

Prozentuale klassifizierte Summenhäufigkeit (=relative Summenhäufigkeit): prozentualer Anteil der Messwerte bis inklusive Klasse i.

ACHTUNG:

Formel:

% H i ◊100 H i n
% H i
◊100
H i
n

o

Ausreißer beeinflussen die Statistik

o

Bei nominalskalierten Merkmalen ist die Berechnung von Summenhäufigkeiten nicht sinnvoll

1.8 Wahrscheinlichkeitstheorie und Verteilungen

Diskrete Verteilungen:

o Binomialverteilung:

Die Binomialverteilung ergibt sich aus dem Bernouli-Versuch, der die Frage beantwortet, wie oft ein Ereignis eintritt. Dieser Versuch ist n-mal reproduzierbar. Ist die berechnete Wahrscheinlichkeit 1, so hat man (zu 100%) Erfolg, ist die berechnete Wahrscheinlichkeit jedoch 0, so hat man einen Misserfolg (=0% Erfolg).

8

Formel:

  n   k
 
n
 
k

p

k

(1

 

 

n

k

p) n k

n

… Anzahl der Wiederholungen

 

k

… Zahl der Erfolge

 

p

Wahrscheinlichkeit,

dass

ein

gewünschtes

 

Ereignis eintritt

P

… errechnete Wahrscheinlichkeit

 
P … errechnete Wahrscheinlichkeit   P i   n   k ( X ◊

P i

  n   k ( X
 
n
 
k
(
X

p

k

k i

)

(k

(1

1)]

p) n k

P(X

 k ( X ◊ p k k i ) (k ◊ (1 1)] p) n

k)

n!

k!◊(n

k)!

P( X

P(X

k)

 

i

P( X

k)

1

k) k
k)
k

P(X k)   i P( X ≥ k) 1 k) k ∑ = 0 P(X =

P(X k)   i P( X ≥ k) 1 k) k ∑ = 0 P(X =

= 0

P(X

=

k)

genau

P(X k)

max.

P(X k)

mind.

P[ X

EXCEL-Funktion: =BINOMVERT(k;n;p; 0 od. 1)

o Poissonverteilung:

0 bei max.

1 bei genau

Die Poissonverteilung wird dann angewandt, wenn die Anzahl der Versuche gegen Unendlich geht und die Wahrscheinlichkeit sehr gering ist, denn die Binomialverteilung wäre hier viel zu ungenau.

Formel:

P

(X

Binomialverteilung wäre hier viel zu ungenau. Formel: P (X k) k k ◊ e λ …

k)

k

k

e

λ … Erwartungswert

EXCEL-Funktion: =POISSON(Klassenobergr.;Mittelwert; 0 od. 1)

Stetige Verteilungen:

0 bei nicht kumuliert

1 bei kumuliert

o Normalverteilung (= Dichtekurve, Gaußsche Glockenkurve):

Der Flächeninhalt unter der Kurve bis zu dem Punkt, an dem die Wahrscheinlichkeit abgetragen ist, entspricht der Wahrscheinlichkeit (kann also nur zw. 0 und 1 sein). Die Werte der x-Achse haben keine Bedeutung. Der Mittelwert µ (Lageparameter) ist hier auch der Erwartungswert – je größer dieser ist, umso höher ist der Peak. Die Standardabweichung σ (Streuungsparameter) ist ein weiteres wichtiges Maß. Je größer σ ist, desto breiter werden die Ausläufe der Glockenkurve.

ist ein weiteres wichtiges Maß. Je größer σ ist, desto breiter werden die Ausläufe der Glockenkurve.

9

Formel:

(X)

1 ◊  X  1 2   ◊ e 2◊ ◊
1
◊  X
1
2
◊ e
2◊ ◊

2

… Erwartungswert, Mittelwert σ … Standardabweichung …

µ

x

Gesetz der großen Zahlen: Die Normalverteilung kann auf jede Verteilung angewendet werden, sofern der Stichprobenumfang sehr groß ist. So ist der Mittelwert von Stichproben normalverteilt, auch wenn die Grundgesamtheit nicht normalverteilt ist.

EXCEL-Funktion: =NORMVERT(Klassenmitte;Mittelwert;Standardabw.;0 od.1)

o Chi² (X²) – Verteilung:

0 bei nicht kumuliert

1 bei kumuliert

Die X²-Verteilung ähnelt der Normalverteilung, jedoch ist diese immer unsymmetrisch. Außerdem ist hier nur die Summe der Quadrate von v mit unabhängigen Standardnormalvaribalen normalverteilt. Die Form der Verteilung hängt von den Freiheitsgraden ab, aber mit wachsenden Freiheitsgraden nähert sie sich an die Normalverteilung an (µ = v; σ² = 2v). Daher ist die X²-Verteilung mit den meisten Freiheitsgraden der Normalverteilung sehr ähnlich. Nimmt der Freiheitsgrad zu, so wird die Kurve flacher und symmetrischer. Die Freiheitsgrade v = n – 1 .

Die X²-Verteilung ist für Test mit unabhängigen Größen geeignet. Grund dafür ist die Additivität zweier Freiheitsgrade, wenn man zwei unabhängige Größen mit X²- Verteilung mit den Freiheitsgraden v 1 und v 2 hat. Die Summe dieser Verteilungen hat dann v 1 + v 2 Freiheitsgrade.

Formel:

hat dann v 1 + v 2 Freiheitsgrade. Formel: v X 2 ∑ ( x )

v

X 2 ∑ ( x ) 2 x i i i = 1
X 2
(
x
) 2
x i
i
i
= 1

unabhängige, standardnormalverteilte

Zufallsvariblen

Die Gleichverteilung: Bei dieser Verteilung kommt jeder Wert gleich häufig in einer Klasse vor. g 1 ist in diesem Fall = 0. Diese Verteilung kann bei sehr häufigen Versuchswiederholungen erreicht werden. Z.B. Würfeln

1.9 Korrelation und Regression

Begriffe:

o

Bivariate Analyse: Zusammenhang von zwei Merkmalen

10

o

o

o

o

o

Korrelation: beschreibt den mathematischen Zusammenhang. Sind die Merkmale metrisch skaliert, so ist der Zusammenhang linear.

Regression: Form und Stärke des Zusammenhangs

Koordinatendiagramm:

Form und Stärke des Zusammenhangs Koordinatendiagramm: x-Achse: unabhängiger Parameter y-Achse: abhängiger

x-Achse: unabhängiger Parameter y-Achse: abhängiger Parameter

Scatterplot: Streudiagramm

Konfidenzintervall: Intervall, in dem der wahre Messwert liegt. Da bei der Messung von mehreren, z.B. Längenmessungen im Millimeterbereich mit einem Lineal, verschiedene Messwerte auftreten, stellt sich die Frage, welcher dieser Werte nun der wahre Messwert ist. Daher werden Konfidenzintervalle – oder der Standardfehler angegeben. Diese werden den Messwerten im Diagramm (Punkt, Balken) mit Linien (od. Ähnlichem) angehängt.

t = TINV(%;FG)

100% = 1 50% = 0,5

Ähnlichem) angehängt. t = TINV(%;FG) 100% = 1 50% = 0,5 m + s ◊ t

m + st

oben n m s◊t unten n
oben
n
m
s◊t
unten
n
= 1 50% = 0,5 m + s ◊ t oben n m s◊t unten n

Korrelationsanalyse:

o

Vorraussetzungen:

 

Beide Merkmale sind metrisch skaliert

Zusammenhang scheint linear

Die einzelnen Beobachtungen sind unabhängig voneinander

o

Korrelationskoeffizient nach Pearson (=Maßkorrelationskoeffizient):

Beschreibt die Stärke und Form des Zusammenhangs Der Korr.koeff. kann Werte zw. -1 und +1 annehmen

Der Korr.koeff. kann Werte zw. -1 und +1 annehmen r = 1 gleichsinnig linearer Zusammenhang r
Der Korr.koeff. kann Werte zw. -1 und +1 annehmen r = 1 gleichsinnig linearer Zusammenhang r

r = 1 gleichsinnig linearer Zusammenhang

-1 und +1 annehmen r = 1 gleichsinnig linearer Zusammenhang r = -1 gegensinnig linearer Zusammenhang

r = -1 gegensinnig linearer Zusammenhang

11

r = 1 gleichsinnig linearer Zusammenhang r = -1 gegensinnig linearer Zusammenhang 11 r = 0

r = 0 kein linearer Zusammenhang

für normalverteilte und metrische Daten Formel: r x , y s x , y ◊

für normalverteilte und metrische Daten Formel:

r