Sie sind auf Seite 1von 52

Statistik I

Begleitveranstaltung zur
Deskriptive Statistik
SS 2009

Familienphoto

Statistik?
 Warum Statistik im Studium der Pädagogik?
 Was ist Statistik?

1
Beispiel: Aufgabe

Um was geht‘
geht‘s ?
 Grundlagen der deskriptiven Statistik
 Häufigkeitsverteilungen
 Maße der zentralen Tendenz
 Maße der Dispersion
 Korrelation
 Lineare Regression

Folien
 Im Browser der Wahl folgendes eingeben:
 http://www.esnips.com/web/DeskriptiveStatistik

1.

2.

2
SPSS
 Rechnerraum
 Lokale Lizenz mit VPN Tunnel

 Installationsanleitung: http://www.urz.uni-
landau.de/downloads/Skripte/spss_info_ld.pdf
 VPN Tunnel Anleitung: http://www.urz.uni-
landau.de/downloads/Skripte/vpnXP.pdf

SPSS Lizenz

SPSS Lizenz

3
Statistik I und II

ten
on Da
llen v Deskriptive Statistik
Darste

Statistik Pr
og
n os Grundlage für
ev
on
Da
te
n

Inferenz Statistik

Begriffe
 Statistik
- Datensammlung (z.B. Meldestatistik, Unfallstatistik)
- Kennwerte (Schätzstatistik, Teststatistik)
- Wissenschaft (Statistische Methodenlehre)

 Statistische Methoden sind in allen empirischen


Wissenschaften notwendig zur Beschreibung und
Beurteilung der erhobenen oder gemessenen
Daten

Was ist Wissenschaft?


 "Wissenschaft ist ein System von Regeln und
Konventionen über die innerhalb der so genannten
‘Scientific community‘ Konsens besteht. Dieses System
vermag zu bestimmen, welche Sätze als adäquate
Beschreibungen der Wirklichkeit akzeptiert werden
können, sowie welche Sätze zweiter Ordnung man aus
diesen Sätzen ableiten darf." Behnke, N. (2006)

 Bsp.: „Die Erde ist eine Kugel“ (-> deduktive Ableitungen)

4
Was ist Wissenschaft?
 Beschreibung
 Analyse
 Erklärung
 Vorhersage
 Optimierung

 Jede Wissenschaft hat ihre eigenen


Methoden

Begriffe
 Grundgesamtheit, Population vs.
 Stichprobe

 Stichprobe = Teilmenge der Population


 Population = Menge aller Merkmalsträger, die
untersucht werden sollen

Deskriptive vs. Inferenzstatistik

Deskriptiv .. beschreibend
Inferenz … der unvollständige Schluss von der Stichprobe auf die Population

5
Begriffe (13.05)
 Variable / Merkmal vs.
- unabhängige Variable
- abhängige Variable
 Variablen- / Merkmalsausprägung
 Manifest vs. latent
 Diskret vs. stetig
 Dichotom vs. polytom

Diskret oder stetig


 Steuerklasse
 Geschlecht
 soziale Schicht
 Einkommenssteuer
 Temperatur in Kelvin
 Windstärke in Meter/Sekunde
 Körpergewicht
 Schulnote (1-6)
 Klausurpunkte
 Einwohnerzahl
 Semesterzahl
 Handelsklasse (Obst)

Formeln verstehen…
verstehen…
 Was heißt s ?
v=
t
 Was muss ich wissen?

6
Rechnen mit dem Summenzeichen

(lies: "Summe über ( ) von i gleich 1 bis i gleich N")

Bsp. Summe der Intelligenzwerte


von 80 Personen
 x1 + x2 + x3 + ... + xi + ... + x80

80
 Oder :
∑x
i =1
i

 -> spart Platz und ist übersichtlicher

Bsp.

10
 Summe alle Messwerte: ∑x
i =1
i = 103

10
 Beispiel: ∑x
i=5
i =

7
Schreiben in Summen
 u1 + u2 + u3 + ... + ui + ... + um

∑u
j =1
j

 (x2 - 1) + (x3 - 2) + (x4 - 3) + ... + (x9 - 8)


9 8

∑ x − (i − 1)
i =1
i ∑x i +1 −i
i =1

Übungen
5 N

∑n
n =1
2
= ∑n n =1
2
=

3 N
∑n
i =1
i
2
= ∑x 2
=
n=2

4 3

∑i = ∑ (xi =2
2
+ 1) =
i =1

3 3

∑5 = ∑x
2
i +1 =
i =2 i =1

8
Rechenregeln fü
für Summen
 Ausklammern von Faktoren
- (1)

 Gliedern von Summen


- (2)

 Kombination von (1) & (2)


- (3)

Achtung…
Achtung…

9
Aufgabe (20.05)
 Für welchen Wert a gilt ?

Kommt euch der Term bekannt vor??

Begriffe
 Qualitative Variable:
Variable Variable, deren Werte lediglich eine
qualitative Andersartigkeit in der Merkmalsausprägung
widerspiegeln (vgl. Nominalskala)
 Quantitative Variable:
Variable Variable, deren Werte quantitative
Unterschiede in der Merkmalsausprägung (d.h.
mindestens größer-kleiner-Relationen) widerspiegeln
(d.h. mindestens Ordinalskala)
 Metrische Variable:
Variable Variable, bei denen Unterschiede
zwischen zwei Messwerten inhaltlich interpretiert
werden dürfen (d.h. mindestens Intervallskala)

Wie komme ich an Daten?


Die Datenerhebung
 Qualitative vs. quantitative Methoden

 Beobachtung
 Befragung
- Schriftlich
- Mündlich
 Experiment
 Soziometrie
 Inhaltsanalyse

 Literatur: Wosnitza, M. & Jäger R.S. (2006). Daten erfassen, auswerten und
präsentieren, aber wie? Landau: VEP.

10
Das Messen selbst
 „Alles messen, was messbar ist und versuchen,
messbar zu machen, was es noch nicht ist.“ Gallilei
 Messen = Zuordnung von Zahlen zu
Beobachtungen (=num. Relativ)
 Sozialwissenschaft ≠ Naturwissenschaft
 Operationalisieren…

 Messfehler???

Skalenniveau
 charakterisiert eine Messung im Hinblick darauf,
- wie eindeutig die Zahlenzuordnung ist,
ist d.h. in welchem
Umfang mathematische Operationen und
Transformationen möglich sind, ohne dass die
Abbildungsfunktion eingeschränkt wird,
- welche Interpretationen zulä
zulässig sind,
sind d.h. in welchem
Umfang Eigenschaften des numerischen Relativs auf
das empirische Relativ übertragen werden dürfen,
- welche Analysen mö
möglich und zulä
zulässig sind,
sind d.h. in
welchem Umfang das Zahlenmaterial statistisch
weiterverarbeitet werden darf.

Nominalskalenniveau
 Abbildungsregel:
- Gleiche Merkmalsausprägungen sollen gleiche Zahlen
bekommen, unterschiedliche Merkmalsausprägungen sollen
unterschiedliche Zahlen bekommen.
 Transformationen:
Transformationen
- „Eineindeutige Transformationen“: Es ist egal, welche Zahlen
zugeordnet werden, so lange die o.g. Abbildungsregel nicht
verletzt wird.
 Beispiele:
Beispiele
- Geschlecht, Wohnort, Studienfach, Automarke
 Interpretationen:
Interpretationen
- Gleichheit und Ungleichheit
 Analysemö
Analysemöglichkeiten:
glichkeiten
- Analyse von Häufigkeiten

11
Ordinalskalenniveau
 Abbildungsregel:
- Ein Objekt mit größerer Merkmalsausprägung muss eine höhere
Zahl bekommen; Objekte mit gleicher Ausprägung müssen die
gleiche Zahl bekommen.
 Transformationen:
Transformationen
- „Monotone Transformationen“: Es ist egal, welche Zahlen
zugeordnet werden, so lange die o.g. Abbildungsregel nicht
verletzt wird.
 Beispiele:
Beispiele
- Schulnoten, Bundesligatabelle, Olympiamedaillen
 Interpretationen:
Interpretationen
- Gleichheit und Ungleichheit, Größer-Kleiner-Relationen
 Analysemö
Analysemöglichkeiten:
glichkeiten
- Häufigkeiten, zentrale Tendenz (Median)

Intervallskalenniveau
 Abbildungsregel:
- Die Rangordnung der Zahlendifferenzen zwischen zwei Objekten
entspricht der Rangordnung der Merkmalsunterschiede
zwischen den beiden Objekten.
 Transformationen:
Transformationen
- „Lineare Transformationen“: ym = b·xm + a mit b > 0 (wichtig ist,
dass die Äquidistanz der Skala erhalten bleibt!)
 Beispiele:
Beispiele
- Temperatur in Grad Celsius, Intelligenzquotient
 Interpretationen:
Interpretationen
- Gleichheit und Ungleichheit, Größer-Kleiner-Relationen,
Differenzen zwischen Zahlen
 Analysemö
Analysemöglichkeiten:
glichkeiten
- Häufigkeiten, zentrale Tendenz (Arithmetisches Mittel),
Dispersion (Varianz, Streuung)

Verhä
Verhältnisskalenniveau
 Abbildungsregel:
- Die Zahlen, die die Merkmalsausprägung repräsentieren, stehen
im selben Verhältnis zueinander wie die Merkmalsausprägungen
der Objekte.
 Transformationen:
Transformationen
- „Proportionale Transformationen“: ym = b·xm mit b > 0 (Wichtig
ist, dass der Nullpunkt der Skala erhalten bleibt!)
 Beispiele:
Beispiele
- Körpergröße, Gewicht, Kaufpreis
 Interpretationen:
Interpretationen
- Gleichheit und Ungleichheit, Größer-Kleiner-Relationen,
Differenzen, Verhältnisse, Nullpunkt
 • Analysemö
Analysemöglichkeiten:
glichkeiten
- Häufigkeiten, zentrale Tendenz (Geometrisches Mittel),
Dispersion (Varianz, Streuung)

12
Absolutskalenniveau
 Abbildungsregel:
- Die Zahlen, die die Merkmalsausprägung repräsentieren,
entsprechen den Merkmalsausprägungen der Objekte.
 Transformationen:
Transformationen
- keine: ym = xm
 Beispiele:
Beispiele
- Anzahl Arztbesuche im vergangenen Jahr, Anzahl Geschwister,
Anzahl der Regentage pro Jahr
 Interpretationen:
Interpretationen
- alle: Gleichheit und Ungleichheit, Größer-Kleiner-Relationen,
Differenzen, Verhältnisse, die Werte selbst (inkl. 0)
 Analysemö
Analysemöglichkeiten:
glichkeiten
- alle: Häufigkeiten, zentrale Tendenz (Geometrisches Mittel),
Dispersion (Varianz, Streuung)

Aufgabe (27.05)
 Walter Fair, ein an Statistik interessierter Student, verwaltet alle
ihm zur Verfügung stehenden Informationen über seinen
weiblichen Freundeskreis:
- Augenfarbe, Haarfarbe,
- Familienstand, Kontostand,
- Studienfach, Alter
- Telefonnummer, Zensur in Statistik

 Was ist die Grundgesamtheit, was eine Untersuchungseinheit?


 Welche Merkmale werden erhoben? Was sind mögliche
Merkmalsausprägungen?
 Charakterisiere die Merkmale durch die Eigenschaften:
Nominal, ordinal, metrisch, quantitativ, qualitativ, stetig, diskret

Begriffe: Skalenniveau
Zusammenfassung
Nominalskala = ≠ Geschlecht

Ordinalskala = ≠ , <> Noten

Intervallskala = ≠ , <>, + - Temperatur in C°


Verhältnisskala = ≠ , <>, + -, * ÷ Alter

Absolutskala = ≠ , <>, + -, * Anzahl

13
Skalenniveaus
 Woher weiß man, auf welchem Skalenniveau sich eine
Messung bewegt?
- Bleibt ungeprüft, ist meist eine Frage der Plausibilität
 Skalenniveaus sind „abwärtskompatibel“ (d.h. alles, was
für ein untergeordnetes Skalenniveau gilt, gilt auch für
ein übergeordnetes), aber nicht umgekehrt!
 Messungen können auf ein untergeordnetes
Skalenniveau transformiert werden, aber nicht
umgekehrt!

Entscheidungsbaum fü
für Skalen

Welche Skale wä
wählt man fü
für…
 Geschlecht
 Alter in Jahren
 Mathematikzensur
 Temperatur in °C
 Platzierung im Wettlauf
 Gehalt in Euro
 Beruf
 Anzahl gekaufter Birnen

14
Darstellung von Daten
 Bsp.: Alter

 a) Urliste
 b) Rangfolge
 c) Häufigkeitsverteilung

Altersverteilung
Alter

Gültige Kumulierte
Häufigkeit Prozent Prozente Prozente
Gültig 19 2 2,3 2,5 2,5
20 19 22,1 23,5 25,9
21 20 23,3 24,7 50,6
22 10 11,6 12,3 63,0
23 5 5,8 6,2 69,1
24 5 5,8 6,2 75,3
25 2 2,3 2,5 77,8
26 4 4,7 4,9 82,7
27 6 7,0 7,4 90,1
28 1 1,2 1,2 91,4
29 4 4,7 4,9 96,3
30 1 1,2 1,2 97,5
36 1 1,2 1,2 98,8
37 1 1,2 1,2 100,0
Gesamt 81 94,2 100,0
Fehlend System 5 5,8
Gesamt 86 100,0

Kumulierte Hä
Häufigkeiten

15
Kumulierte Hä
Häufigkeiten

Für absolute/ relative Hä


Häufigkeiten

Quelle u.ff.: Eckey, H.F., Kosfeld R.& Türck M.(2005)

Beispiel

Quelle u.ff.: Eckey, H.F., Kosfeld R.& Türck M.(2005)

16
Beispiel

Quelle u.ff.: Eckey, H.F., Kosfeld R.& Türck M.(2005)

Beispiel

Beispiel

Prozentangabe bei
10 Personen??

17
Beispiel (nominal)

Quelle u.ff.: Eckey, H.F., Kosfeld R.& Türck M.(2005)

Doppelt so viel?

Verschiedene Verteilungen

18
Altersverteilung in der Vorlesung

Im Balkendiagramm ist dieser Bereich nicht


deutlich und damit schwer interpretierbar

Vorschlä
Vorschläge?
 Durch welchen Wert wird die Verteilung am
besten reprä
repräsentiert?
- Vorschlag 1: Durch den Wert, der in der Verteilung am
häufigsten vorkommt
= Modalwert oder Modus (Mo oder h)
- Vorschlag 2: Durch den Wert, der die Verteilung in der
groß
Mitte in zwei gleich große Hä
Hälften teilt
= Median (Md oder x~)
- Vorschlag 3: Durch den Durchschnitt aller Werte
= Arithmetisches Mittel (M oder x)

19
Maß
Maße der zentralen Tendenz
(Lokalisationsparameter)
 Modus (Mo)
 Median (Md)
 Mittelwert (M)

Modus

Modus

20
Median
 Median ist der Wert, der eine der Größe nach
geordnete Reihe von Messwerten halbiert.

 3 4 4 5 6 7 8 8 8 9 10 (N=11)

 Ungerades N: x~ = Wert von Fall Nr.: (N+1)/2

 3445677889 (N=10)

 Gerades N: x~ = Wert zwischen Fall Nr.: N/2 und N/2+1

Median

Median

21
Alter

Gültige Kumulierte
Häufigkeit Prozent Prozente Prozente
Gültig 19 2 2,3 2,5 2,5
20 19 22,1 23,5 25,9

Quartile 21
22
23
20
10
5
23,3
11,6
5,8
24,7
12,3
6,2
50,6
63,0
69,1
24 5 5,8 6,2 75,3
25 2 2,3 2,5 77,8
26 4 4,7 4,9 82,7
25% 27 6 7,0 7,4 90,1
28 1 1,2 1,2 91,4

25% 29
30
4
1
4,7
1,2
4,9
1,2
96,3
97,5
36 1 1,2 1,2 98,8
37 1 1,2 1,2 100,0
Gesamt 81 94,2 100,0
Fehlend System 5 5,8
Gesamt 86 100,0

25%
25%

Arithmetisches Mittel
 … der „Schwerpunkt“ der Verteilung

 Bei kategorisierten Daten:

nj wird zuweilen auch als fj bezeichnet

Beispiel

22
Altersverteilung

Mo = 21
Md = 21
M = 22.9

Aufgabe
 Bestimme den Modus, den Median und den
Mittelwert aus folgender Verteilung.
Interpretiere die Ergebnisse.
VAR00001

Gültige Kumulierte
Häufigkeit Prozent Prozente Prozente
Gültig 1,00 10 27,8 27,8 27,8
2,00 4 11,1 11,1 38,9
3,00 4 11,1 11,1 50,0
4,00 4 11,1 11,1 61,1
5,00 3 8,3 8,3 69,4
6,00 3 8,3 8,3 77,8
7,00 4 11,1 11,1 88,9
8,00 3 8,3 8,3 97,2
9,00 1 2,8 2,8 100,0
Gesamt 36 100,0 100,0

Lösung
 Statistiken

 Mittelwert = 3,8889
 Median = 3,5000
 Modus = 1,00

23
Eigenschaften den arithmetischen
Mittels
 Die Summe aller Abweichungen aller Messwerte von
ihrem arithmetischen Mittel ist gleich Null.
n

∑ (x
i =1
i − x) = 0

 Die Summe aller quadrierten Abweichung aller Messwerte


von ihrem arithmetischen Mittel ist kleiner als die
Summer der quadrierten Abweichung aller Messwerte
von einem beliebigen anderen Wert.
n

∑ (x − x)
i =1
i
2
= min

Wo ist der Mo/Md/M?

Streuungsmaß
Streuungsmaße
 Bsp. Intelligenzwerte

24
Spannweite (Range), Minimum,
Maximum
R = 112-
112-88 = 24

Min. Min. Max. Max.

88 112 126
74

R = 126-
126-74 = 52

Der (mittlere) Quartilabstand

Quartilabstand = Q3 – Q1

Q3 − Q1
Mittlere Quartilabstand QA =
2

Boxplot
 Gleichzeitiges darstellen von zentraler Tendenz
und Dispersion

25
Die durchschnittliche Abweichung
10.06.
 Die durchschnittliche Abweichung
(AD = average deviation) ist definiert als der
Durchschnitt der absoluten Abweichung aller
Messwerte einer Verteilung von ihrem
Mittelwert.
 Was heißt das?

Die durchschnittliche Abweichung


 Z.B Noten -2 -1 1 2
1
1 2 3 4 5
2
3
4
5
n

∑ (x − x) = 0
M= 3
15 N=5 i
i =1
n

∑| x − x |
i =1
i
AD =
N

26
Fahrmeir, L. u. a.: Statistik.
Pospeschill, M. (2006). Statistische Methoden: Strukturen, Der Weg zur Datenanalyse.
Grundlagen, Anwendungen in Psychologie Berlin 2002 (Springer)
und Sozialwissenschaften. Spektrum.

Wosnitza, M., Jäger, R. (Hg.): Daten erfassen, auswerten


und präsentieren – aber
wie? Landau 1999 (Empirische Pädagogik)

27
Die Varianz
 Eigenschaft des arithmetischen Mittels war:
- Die Summe der quadrierten Abweichungen der
Einzelwerte vom arithmetischen Mittel ist minimal.
n

∑ (x − x)
i =1
i
2
= min
 Die Summe der quadrierten Abweichungen ist insofern auch
ein Dispersionsmaß. Es nennt sich „Summe der
Abweichungsquadrate“ oder einfach „Quadratsumme“.
n

∑ (x − x)
2
i
Varianz s = 2 i =1

28
Varianz
 Problem: das Quadrieren macht die Varianz
unanschaulich…
 Mit dem zeihen der Quadratwurzel aus der
Varianz erhält man die Standardabweichung (SD)
n

∑ (x
2
i − x)
i =1
s= = SD
N
 SD gibt an, wie weit die einzelnen x Werte
durchschnittlich von M abweichen

Die Varianz anschaulich


A 9 M = 10
B 7
C 18
D 8
E 13
F 5
∑ = 60
s 2 = 18,67
SD = 4,32
Vgl. Bortz 2005 S.42

Aufgaben
 Archäologen haben eine Gletscherleiche gefunden
(einen Herrn N. Ice). Sie schätzen das Alter von N. Ice
und kommen auf folgende Werte in Jahren:

2750 3300 4300 2750 3250 2850 3200

 A) Bestimme den Modus, Median und Mittelwert


 B) Bestimme Varianz, Standardabweichung und
Spannweite

29
Lösung
 A) Modus = 2750, Median = 3200, Mittelwert = 3200

2750 2750 2850 3200 3250 3300 4300

∑ (x − x)
2
i
 B) satt 2
s = i =1

n 2
 n 
n
 ∑ xi 
∑ xi −  i =1 
2
1 n 2
s2 = ∑ xi − x 2
n i =1
Oder Maschinenformel s 2 = i =1
n
n

Lösung B
xi xi2 22400
x= = 3200
7
2750 7562500
x 2 = 3200 2 = 10240000
2750 7562500
8122500 1 n 2
2850 s2 = ∑ xi − x 2
n i =1
3200 10240000
3250 10562500 1 7
s2 = ∑ 73430000 − 10240000
7 i =1
3300 10890000
4300 18490000 s 2 = 250000
∑ 22400 ∑ 73430000 s = 500

 Standardabweichung und Varianz sind


grundsätzlich als gleichwertig anzusehen
 Die Standardabweichung (SD) s ergibt sich aus
der Wurzel der Varianz s2
 SD ist aber anschaulicher
 Die Varianz von 5 bei M = 10 ist anders zu
interpretieren als bei M = 100

30
Exkurs: Stichprobenkennwerte und
Population
 Wie gut lässt sich die Schätzung der
Stichprobenkennwerte auf die entsprechenden
Populationsparameter übertragen?

Population Stichprobe

Gedankenexperiment
 Man könnte sehr viele (z.B. 10.000) Stichproben
der Größe n= 5 aus der Population ziehen und
sich jeweils den Stichprobenmittelwert und die
Stichprobenvarianz notieren...
Population Stichproben

 Aus den 10.000 Mittelwerten entsteht eine Verteilung


von Mittelwerten; aus den 10.000 Varianzen entsteht
eine Verteilung von Varianzen.
 Solche Verteilungen nennt man
Stichprobenkennwerteverteilungen. Diese haben
ihrerseits wieder einen Mittelwert und eine Varianz.

31
Stichprobenkennwertverteilung:
Mittelwert

 Der Stichprobenmittelwert ist tatsächlich ein erwartungstreuer


Schätzer des Populationsmittelwertes

Stichprobenkennwertverteilung:
Varianz

 Die Stichprobenvarianz ist kein erwartungstreuer Schätzer der


Populationsvarianz
 Die Stichprobenvarianz unterschätzt die Populationsvarianz

Stichprobenkennwertverteilung:
Varianz

1
 Der blaue Graph ist die korrigierte Fassung s 2 =
n −1
∑ ( xi − x)2

32
Stichproben-
Stichproben-Kennwerte vs.
Parameter der Population
 Mittelwert :
- x bzw. M ist der Mittelwert der gezogenen Stichprobe
- Populationsparameter µ ist der „wirkliche“ Mittelwert
der Population und wird mit x bzw. M am besten
geschätzt.
 Varianz (Taschenrechner, Achtung):
- s2 ist die Varianz der gezogenen Stichprobe
1
s2 =
n −1
∑ ( xi − x) 2
- Populationsparameter σ2
1
σ2 =
n
∑ ( xi − x) 2

Exkurs statistische Funktionen am


Taschenrechner…
Taschenrechner…

Standardisierung
z- Transformation
 z-Transformation oder Standardtransformation ist eine
lineare Transformation
xi − x
zi =
sx
 Bei der z-Transformation werden die x-Werte um ihren
Mittelwert herum zentriert und anschließend durch die
Streuung geteilt
 Dies führt dazu, dass z-Werte (oder Standardwerte)
immer einen Mittelwert von z= 0 und eine Streuung von
sz= 1 haben

33
Warum das Ganze??
 … um Einzelwerte in Relation zu der Stichprobe
zu setzen, aus der sie stammen;
 … um Einzelwerte, die aus Stichproben mit
unterschiedlichem Mittelwert und
unterschiedlicher Streuung stammen, besser
miteinander vergleichen zu können

Beispiel (17.06)
 Intelligenztest Studie1 Studie2
 Beim ersten mal hat Person A
einen Score von 84 erreicht; ein x=90 x=92
Semester später den Score von
89. Hat sich der Wert –relativ zu M = 88 M= 93
den Werten der anderen
Versuchspersonen in den beiden
s=2,8 s=3,1
Stichproben – verbessert?

xi − x z = 0,71 z = -0,32
zi =
sx

Anwendung
 Anwendungen von z-Transformationen:
- z.B. wenn Testwerte von Kindern in Relation zu allen anderen
Kindern der gleichen Altersklasse gesetzt werden sollen;
- z.B. wenn Testwerte mit unterschiedlichen experimentellen
Bedingungen zwischen unterschiedlichen Studien miteinander
verglichen werden sollen.
 Vorteile von z-Werten:
- Sie sind unabhängig von der Originalmetrik
- Sie sind eindeutig interpretierbar als
„Standardabweichungseinheiten oberhalb bzw. unterhalb des
Mittelwerts“
- Wieder zurückrechenbar …

34
Wiederholung Beispiel
 Bestimme die Varianz nach der Maschinenformel:

1 2
 n 
6 n
 ∑ xi 
∑ xi −  i =1 
2
3
n
2 s 2 = i =1
8 n −1
9
6
2
1
4

Normalverteilung
 Die Bedeutung der Standardabweichung am
Beispiel der Normalverteilung
 -> 2/3 aller Fälle befinden sich innerhalb +/- einer
Standardabweichung

Flä
Flächenstü
chenstücke unter der
Normalverteilung

35
Sigma Umgebung (SD Umgebung)
 In der Literatur hat man sich auf folgende
Umgebungswahrscheinlichkeiten geeinigt:

Beispiel
• Bei µ = 60 und σ = 10 heißt das:

• Mit 68% Wahrscheinlichkeit liegt bei einem


zufällig gezogenen Merkmalsträger der
Merkmalswert zwischen
• 60-10 = 50 und 60+10 = 70

• Mit 95,5% Wahrscheinlichkeit bei


• 60-20 = 40 und 60+20 = 80

Eigenschaften der Normalverteilung


 Normalverteilung:
 Glockenförmig
 Stetig
 Symmetrisch
 Asymptotisch zur X-Achse
 Modalwert, Median, Erwartungswert
(Mittelwert) fallen zusammen

36
Zusammenfassung
 Auf die Frage, was das geeignete Dispersionsmaß ist gibt
es keine allgemein verbindliche Antwort
 Range ist einfach zu ermitteln und zu verstehen (eher
Grenzen als Dispersion)
 Der (mittlere) Quartilabstand ignoriert die unteren 25%
und die oberen 25% der Verteilung
 Die durchschnittliche Abweichung ist aus der Mode
gekommen
 Varianz und Standardabweichung sind eine Funktion aller
Messwerte einer Verteilung

Bivariate Verteilungen
 Beschreibung univariater Verteilungen ist in der
empirischen Sozialforschung nie Endzweck,
 sondern dient der Vorbereitung zur eigentlichen Analyse.
 Dabei geht es meist um die Beziehung zwischen
(Zusammenhänge) Variablen (Assoziation, Korrelation).
 Den Grad der Beziehung gibt man mit Koeffizienten an.
Oft spricht man bei nominalskalierten Variablen von
Kontingenz- , bei ordinalskalierten von Assoziations- und
bei intervallskalierten von Korrelationskoeffizienten oder
verwendet die Begriffe synonym.

Kreuztabelle

37
Beispiel: Schulnoten
Aufgabe: Kreuzdiagramm zeichnen …
Deutsch Mathe Deutsch Mathe

A 1 2 L 2 1

B 3 3 M 3 1
C 4 5
N 4 4
D 6 4
O 4 5
E 5 4
F 1 2 P 5 4

G 3 2 Mathe
Q 1 2
H 3 3
R 1 2
I 2 3
S 1 1
J 4 3
K 1 1 T 3 3

Deutsch

Spezialfall 2x2
 Bei bei 2 dichotomen Variablen

Beispiele

38
Beispiele

Beispiele

Abhä
Abhängige / unabhä
unabhängige
Stichproben
 Abhängige Stichproben
- Mehrere Stichproben werden an ein und derselben
Gruppe von Versuchspersonen oder an zwei Gruppen
von Versuchspersonen, die einander paarweise
zugeordnet sind, erhoben. Z.B Zeitreihen.
 Unabhängige Stichproben
- Es besteht keine Verbindung zwischen beiden
Stichproben, die verschiedenen Stichproben
beeinflussen sich nicht gegenseitig.

39
Was ist ein Zusammenhang?
 Konzept der Abweichung von der statistischen
Unabhängigkeit
- Abweichung von der Nicht-Beziehung zueinander wird
bestimmt
- D.h zwei Variablen sind assoziiert, wenn sie keine
Nicht-Beziehung zueinander aufweisen

Der Grundgedanke
1. Die Daten X und Y stehen zueinander in
Beziehung oder nicht…
2. Man prüft wie die Tabelle aussähe, wenn X und
Y nicht assoziiert wären…
3. Man vergleicht die beiden Tabellen
miteinander…
4. Differieren die Daten, sagt man X und Y stehen
zueinander in Beziehung…

Chi Quadrat (χ
(χ2)
 … ist die Summe über alle quadrierten
Differenzen zwischen den gemessenen und den
erwarteten Häufigkeiten, dividiert durch die
erwartete Häufigkeit.

40
Die Erwartungen berechnen…
berechnen…

Aufgabe
 Berechne über eine Tabelle

χ2= oder

41
Für den Spezialfall 2x2 …
 Chi Quadrat ist von N anhängig, daher besser Phi
berechnen

Phi φ
 Sensibles Assoziations Maß
 Geeignet für 2 dichotome Variablen
 0 wenn statistische Unabhängigkeit herrscht
 1 wenn Chi Quadrat maximal, also N ist (d.h. die
Diagonalzellen unbesetzt sind)
 Kann aber bei größeren als 2x2 Tabellen auch
größer als 1 werden…

Ein anderer Zugang…


Zugang….
Zusammenhangshypothesen
 Je tiefer die Verarbeitung, desto besser die
Gedächtnisleistung.
 Je intelligenter eine Person ist, desto kreativer ist sie
auch.
 Je mehr Alkohol man trinkt, desto schlechter fährt man
Auto.
 Je mehr Vertrauen man in andere Menschen hat, desto
glücklicher und zufriedener lebt man.
 Je weniger Tore eine Fußballmannschaft kassiert, desto
höher ist ihr Rang in der Bundesligatabelle.
 Frauen haben ein besseres Gedächtnis als Männer

42
Zusammenhangshypothesen

Zusammenhangshypothesen

Scatterplots

43
Scatterplots

Scatterplots

Zusammenhangshypothesen
 Für eine quantitative Analyse von
Merkmalszusammenhängen sind folgende Fragen
von Bedeutung:
- Wie lässt sich die Form des Zusammenhangs zwischen
X und Y beschreiben?
- Welche Richtung hat der Zusammenhang zwischen X
und Y, d.h. ist er negativ oder positiv?
- Wie stark ist der Zusammenhang zwischen X und Y?
- Lässt sich der in der Stichprobe ermittelte
Zusammenhang auf die Population übertragen?

44
Richtung des Zusammenhangs

 Der Zusammenhang zweier Variablen X und Y ist dann positiv,


positiv wenn
x-Werte, die oberhalb ihres Mittelwerts Mx liegen, mit y-Werten
einhergehen, die ebenfalls oberhalb ihres Mittelwerts My liegen
(und umgekehrt).

Richtung des Zusammenhangs

 Der Zusammenhang zweier Variablen X und Y ist dann negativ,


negativ
wenn x-Werte, die oberhalb ihres Mittelwerts M x liegen, mit y-
Werten einhergehen, die unterhalb ihres Mittelwerts My liegen
(und umgekehrt).

Kovarianz
 Welchen Quadranten tragen positive, welche
Quadranten tragen negative Werte bei?

… zweidimensional, da Schnittpunkt Mittelwert von X und Mittelwert von Y Ausgangspunkt ist

45
Schritt 1
 Wir berechnen für jeden Wert x sowie für jeden
Wert y die Differenz vom jeweiligen Mittelwert.

Schritt 2
 Wir berechnen für jedes Wertepaar xy das
Kreuzprodukt, d.h. das Produkt der
Mittelwertsabweichung.

Schritt 3
 Wir berechnen die Kreuzproduktsumme (oder
„Produkt-Moment“), d.h. die Summe aller
Kreuzprodukte von m= 1 bis n.

46
Schritt 4
 Wir berechnen das mittlere Kreuzprodukt oder
die Kovarianz (Cov), indem wir das Produkt-
Moment durch n teilen.

Das Konzept der Kovarianz


 Kov ist die Summe der Abweichung des einen Wertes
von seinem Mittelwert gekreuzt mit der Abweichung des
anderen Wertes von seinem Mittelwert

 Die Summe der Abweichungsprodukte über alle


Untersuchungseinheiten ist daher ein Maß für den Grad
des miteinander Variierens oder Kovariierens der
Messwertreihen x und y.
 Die Kovarianz ist durch den Mittelwert der Produkte
korrespondierender Abweichungen gekennzeichnet.

Die Kovarianz
 Die Kovarianz ist definiert als das mittlere Kreuzprodukt.
 Die Kovarianz ist dann hoch positiv,
positiv wenn hohe positive Abweichungen
von Mx auch mit hohen positiven Abweichungen von My einhergehen
und hohe negative Abweichungen von Mx auch mit hohen negativen
Abweichungen von My einhergehen.
 Die Kovarianz ist dann hoch negativ,
negativ wenn hohe positive
Abweichungen von Mx mit hohen negativen Abweichungen von My
und hohe negative Abweichungen von Mx mit hohen positiven
Abweichungen von My einhergehen.
 Die Kovarianz ist dann Null,
Null wenn die Richtung der Abweichung von
Mx nicht systematisch mit einer bestimmten Richtung der Abweichung
von My einhergeht.
 Voraussetzung: Die beteiligten Variablen müssen mindestens auf
Intervallskalenniveau gemessen sein.

47
Übung
 Gibt es einen Zusammenhang zwischen der Anzahl
der Mensabesuche (X) und der Anzahl der
konsumierten Kaffees an der Uni (Y).

X Y
2 1
1 2
9 6
5 4
3 2

Von der Cov zur Produkt Moment


Korrelation
 Wie groß kann die Kovarianz maximal werden?
 Die Kovarianz ist ein unstandardisiertes Maß, d.h. ihr maximal
möglicher Wert ist umso größer, je größer die Varianzen der beiden
beteiligten Variablen.
 Das ist unvorteilhaft, denn dadurch ist ein Wert für die Kovarianz
niemals ohne weiteres interpretierbar.
 Die maximale Kovarianzzweier Messwertreihen X und Y beträgt
immer:

 Idee: Wenn man die empirische Kovarianz an der maximal möglichen


Kovarianz relativiert, erhält man ein relatives Maß, das sich nur
zwischen -1 und +1 bewegen kann. Dieses Maß ist dann unabhängig
von den Ausgangsstreuungen eindeutig interpretierbar!

48
Von der Cov zur Produkt-
Produkt-Moment-
Moment-
Korrelation
 Problem: auch die Kovarianz ist vom Maßstab der
Messwerte abhängig.
 Daher hat man den Korrelationskoeffizienten rxy
entwickelt
 auch Bravais-Pearson-Korrelation oder Produkt-
Moment-Korrelation genannt

cov( x, y )
rxy =
sx s y

Schritt 5
(Aufgabe berechne jeweils s [unkorrigierte Populationsvarianz])

 Wir relativieren die empirische Kovarianz an der


maximalen Kovarianz und erhalten die
„Produkt-Moment-Korrelation“(rxy).

cov( x, y )
rxy =
sx s y

Korrelationskoeffizienten
 Beschreibt die Enge des Zusammenhangs zw. zwei
Merkmalen
 Kann i.d.R. von -1 über 0 bis +1 laufen
 Bei Werten von -1 bzw. +1 geht der stochastische
Zusammenhang in einen deterministischen
Zusammenhang über
 +1 ist ein linear gleichsinniger Zusammenhang
 -1 ist ein linear entgegengerichteter Zusammenhang
 Daraus ergeben sich KEINE Kausalbeziehungen

49
Übung
 Relativiere die Kovarianz, so dass man rxy als
interpretierbaren Koeffizient erhält. ( SD ohne Korrektur berechnen)
 Gibt es einen Zusammenhang zwischen der Anzahl der Mensabesuche (X)
und der Anzahl der konsumierten Kaffees an der Uni (Y).

X Y
2 1
1 2
9 6
5 4
3 2
S=

Zum berechnen besser geeignet …


cov( x, y )
rxy =
sx s y

Übung
 Berechne die Produkt Moment Korrelation rxy
X Y
2 1
1 2
9 6
5 4
3 4
2 5
7 0
3 2

50
Korrelation zwischen zwei
ordinalen Variablen
- Beispiel: Studierende werden gebeten, fünf deutsche
Universitätsstädte nach ihrer Beliebtheit (Motivation,
in dieser Stadt zu studieren) in eine Rangreihe zu
bringen. Hypothese: Die Beliebtheit einer Stadt hängt
mit ihrer Größe zusammen.

Korrelation zwischen zwei


ordinalen Variablen (Aufgabe)
 Berechnung von Spearman‘s Rho

Korrelation zwischen einer Intervallskala


und einem dichotomen Merkmal
 Punktbiseriale Korrelation

51
Beispiel: Zusammenhang Intelligenz
IQ

93
und Geschlecht
Geschlecht

1
120 1
112 1
104 1
107 0
108 1
109 1 Geschlec Geschlec
IQ ht IQ ht
102 0
99 0 93 1 107 0

98 0 120 1 102 0

115 0 112 1 99 0

103 0 104 1 98 0

117 1 108 1 115 0

104 1 109 1 103 0

108 0 117 1 108 0

102 0 104 1 102 0

100 1 100 1 99 0

99 0 101 1 98 0

98 0 Mittelwert
101 1

52