Sie sind auf Seite 1von 43

VN STA W01 (10.

09)

1. Einführung
- Definition Statistik: Wissenschaftliche Disziplin, die formale Methoden zur
Erfassung, Analyse und Beurteilung von Beobachtungen (Daten) entwickelt und
anwendet.
- Definition Deskriptive Statistik: Zusammenfassung von Methoden zur Erfassung,
Auswertung und übersichtlichen Darstellung von Daten.
- Definition Induktive Statistik: Zusammenfassung von Methoden zum Treffen von
rationalen Entscheidungen im Falle von Unsicherheit bzw. Risiko.

2. Grundbegriffe
- Befragung
- Experiment
o Bsp: Messung der Lebensdauer, n=90
 Grp A (neues Medikament mit Unwissen verabreicht, n=45) =>
+5,5 Jahre
 Grp B (altes Medikament bzw. Placebo, n=55) => +5 Jahre
 A > B um 0,5 Jahre
 Inferenzstatistik: Schlussfolgerung der Gruppe auf die Gesamtheit
=> Zufall oder Fakt?  Deskriptive Statistik: Schlussfolgerung
basierend auf der Gruppe (und nicht weiter)
- Beobachtung
- Psychologische Tests
- Simulation: vom Computer erzeugte Daten

- Vollerhebung: Befragung von der Grundgesamtheit (N)


- Teilerhebung: Befragung eines Teiles der Grundgesamtheit => repräsentative
Stichprobe nötig; Zufallsstichprobe?
 Datenerfassung

- Primärerhebung: eigene Erhebung der Daten


- Sekundärerhebung: Übernahme der Daten (z.B. vom Statistischen Bundesamt)
 Datenherkunft

2.1 Güte der Daten bei statistischen Erhebungen


- Objektivität
- Reliabilität: Zuverlässigkeit der Messung
- Validität: Eignung für die Fragestellung
- Waagenbeispiel: Gewicht, Größe, Intelligenz
o Gewicht:
 Richtig eingestellt fürs Gewicht => high validity, high reliability
 Falsch eingestellt (z.B. viel Varianz) => high validity, low reliability
o Größe:
 schlecht geeignet (=valid) für Messung der Körpergröße
 Aber: Zusammenhang zwischen Körpergröße & -gewicht
 Gewisse Validität ist vorhanden
o Intelligenz:
 Ungeeignet für Messung der Intelligenz
 Low validity, low reliability

2.2 Grundgesamtheit, Merkmale, Merkmalsträger


- Statistische Einheiten (Merkmalsträger): Personen, Objekte oder Ereignisse, die
einer statistischen Untersuchung zu Grunde liegen.

- Definition Grundgesamtheit:
o Menge aller statistischen Einheiten, die in sachlicher, örtlicher und
zeitlicher Form abgegrenzt ist
o N = Grundgesamtheit (Vollerhebung)
o n = Stichprobe (Teilerhebung)
- Definition Merkmale:
o Eigenschaften der statistischen Einheiten, die hinsichtlich des
Untersuchungszieles relevant sind und deren Merkmalsausprägungen bei
der Datenerfassung festgestellt werden
o Quantitativ (z.B. Alter, Gewicht)
 diskret
 Merkmale, die nur abzählbar viele Ausprägungen
annehmen kann => endlich
 z.B. Anzahl an Teilnehmer in einer Gruppe
 stetig
 Merkmale, die unendlich viele Ausprägungen annehmen
können
 Zwischen zwei nahe beieinanderliegen Ausprägungen
könnten theoretisch zusätzlich neue eingefügt werden,
wenn hinreichend genau gemessen würde
 z.B. Körpergröße; Zeitintervalle; Gewichte; Streckenlängen
 quasi-stetig:
 Merkmale, die im Grunde diskret sind, aber so viele
mögliche Ausprägungen aufweisen, dass sie im praktischen
Umgang wie stetige Merkmale behandelt werden
 z.B. Preisangaben in € und ct
o Qualitativ (z.B. Geschlecht, Schulnoten => Codierung der Ausprägungen)
o Skalierung:
 Sachlogik numerischer Merkmalsausprägungen
 Nominalskala
 Keine Rangordnung
 Haarfarbe, Geschlecht, Städte
 Ordinalskala
 Schulnoten (sehr gut; gut; befriedigend; …)
 Nicht-interpretierbarer Abstand zwischen Ausprägungen
 Komparativ
 Kardinalskala
 Rangordnung mit interpretierbaren Abständen
 Intervallskala
o Kein natürlicher Nullpunkt => willkürlich festgelegt
o Grad Celsius- Temperaturskala
 Verhältnisskala
o Natürlicher Nullpunkt
o Verhältnis kann berechnet werden
o Körpergewicht, -größe

- Bsp: Grundgesamtheit der Studierenden an der HF


o X = Alter; x = 22 (Merkmalsausprägung)
o Y = Gewicht; y = 87
o Z = Geschlecht; 1 = männlich & 2 = weiblich

3. Häufigkeitsverteilungen
3.1 Eindimensionale Häufigkeitsverteilungen
- Symbolik:
o Merkmal X
o Statistische Einheiten 1, … , n
o Beobachtungswerte x₁, … , xn (= Urliste: unübersichtliche Darstellung aller
Informationen)
o Versch. Merkmalsausprägungen a₁, … , an

- Beispiel 3.1 (S.19):


An n=20 Reisen einer Reisegesellschaft in die Dominikanische Republik wird die
Anzahl X der eingegangenen Beschwerden bzw. Reklamationen pro Reise
festgehalten. Als Urliste ergab sich x₁, … , x₂₀:
3, 4, 3, 0, 4, 2, 2, 3, 4, 7, 1, 4, 4, 3, 2, 3, 7, 4, 1, 2
Auswertung:
o Quantitativ => diskret
o Kardinal => Verhältnisskala
o Erstellung einer Rangliste (geordnete Urliste):
 Auf den ersten Blick schnell erkennbar:
 Minimum = 0
 Maximum = 7
 Median = 3 o. 4

- Häufigkeitsbegriff:
o n(ai) = ni = absolute Häufigkeit von ai; i = 1, … , k
o h(ai) = hi = ni/n = relative Häufigkeit von ai; i = 1, … , k
o Tabellarische Darstellung der Häufigkeitsverteilung des Beispiels
 Bsp. absolute Häufigkeit: bei 5 Reisenden gab es 3 Reklamationen
 Bsp. kumulierte Häufigkeit: bei 12 Reisenden gab es bis zu 3
Reklamationen
 Bsp. relative Summenhäufigkeit: bei 60% der Reisenden gab es bis
zu 3 Reklamationen
i ai ni hi k.H. ∑ni (i=1 – j) = Si r.Sh. ∑hi = Fi
1 0 1(x) 1/20 = 5% n1 = 1 5%
2 1 2(x) 1/10 = 10% n1 + n2 = 3 15%
3 2 4(x) 1/5 = 20% n1 + n2 + n3 = 7 35%
4 3 5(x) ¼ = 25% n1 + n2 + n3 + n4 = 12 60%
5 4 6(x) 3/10 = 30% n1 + n2 + n3 + n4 + n5 = 18 90%
6 7 2(x) 1/10 = 10% n1 + n2 + n3 + n4 + n5 + n6 = 20 100%
∑ - 20 1 = 100%

- Graphische Darstellung von Häufigkeitsverteilungen:


o Kreis(sektoren)diagramm
o Säulen-/Stabdiagramm
 Klausurwarnung: Abstände zwischen den Säulen, sonst ungültig!
o Häufigkeitspolygon
o Fokus auf Proportionalität

VN STA W02 (17.09.2018)


3.1.3 Empirische Verteilungsfunktion (VF 26)

- Absolute Summenhäufigkeit Si
o kumulierte Häufigkeit
o grafische Darstellung vom diskreten Merkmal: Stabdiagramm
 F3,5 = 0
- Relative Summenhäufigkeit Fi
o grafische Darstellung: Verteilungsfunktion (s. Block & VF 27)
 Verbindung zwischen den einzelnen Punkten oder nicht? Bei
diesem Beispiel: diskretes Merkmal! „Nichts“ zwischen den
Ausprägungen => Stufenfunktion
 Mathematisch gesehen: Funktion verläuft unendlich
 F9 = 100% (max. 9 Reklamationen); F12000 = 100%
 F-1 = 0%
 F3 = 60% = F3,5
o zentrale Rolle in der Inferenzstatistik
o auf 3-4 Nachkommastellen runden
3.2 Häufigkeitsbegriff bei Klassenbildung

3.2.1 Klassenbildung und Häufigkeit

- Beispiel 3.6 (S. 25):


In einem Wertpapierdepot befinden sich n=16 Obligationen mit folgenden
Restlaufzeiten (in Jahren):

0,14 0,81 2,38 3,99 0,27 1,14 2,53 4,51


0,45 1,45 2,90 5,68 0,68 1,82 3,45 7,84

o 4 Klassen vorgegeben:
 1. Klasse: 0-2
 2. Klasse: 2-4
 3. Klasse: 4-6
 4. Klasse: 6-8
o Symbolik:
 Klassenuntergrenze ui
 Klassenobergrenze oi
 Klassenbreite bi = oi – ui
 Klassenmitte mi = (ui+oi)/2

i Restlaufzeit von.. Klasse Ki [ui; oi) Klassenbreite bi ni hi Si Fi hi*=


bis unter … Jahre hi/bi
1 0-2 [0 ; 2) 2-0=2 8 0,5 8 0,5 0,25
2 2-4 [2 ; 4) 4–2=2 5 0,3125 13 0,812 0,16
5
3 4-6 [4 ; 6) 6–4=2 2 0,125 15 0,937 0,06
5
4 6-8 [6 ; 8) 8–6=2 1 0,0625 16 1 0,03
16 1

o Interpretation für i3:


 ni = 2 Obligationen haben eine Restlaufzeit von 4 bis unter 6
Jahren
 hi = 12,5% aller Obligationen haben eine Restlaufzeit von 4 bis
unter 6 Jahren
 Si = 15 Obligationen haben eine Restlaufzeit von bis unter 6 Jahren
 Fi = 93,75% (≈94%) aller Obligationen haben eine Restlaufzeit von
bis unter 6 Jahren
- Graphische Darstellung:
o Histogramm
 y-Achse: hi*; x-Achse: Merkmalsausprägung xi, … , n
 Fläche ist proportional zur relativen Häufigkeit
 Bi und hi sind stets gegeben => hi = bi( (Breite) x hi*(Höhe)
 hi* = hi/bi (relative Häufigkeit/Klassenbreite)
 Suche nach dem größten hi* (für Höhe der y-Achse)
 ∑hi = Fi = 1
o Empirische Verteilungsfunktion:
 y- Achse: Fi; x-Achse: Merkmalsausprägung xi, … , n

- Beispiel: Alter von 20 Mitarbeitern einer Firma (s. Block)


26, 31, 33, 35, 28, 41, 42, 44, 45, 46, 46, 48, 31, 52, 53, 54, 36, 57, 57, 62

i Alter von.. bis unter Klasse Ki [ui; oi) Klassenbreite bi ni hi Si Fi hi*=


… Jahre hi/bi
1 25-30 [25 ; 30) 5 2 0,1 2 0,1 0,02
2 30-35 [30 ; 35) 5 3 0,15 5 0,25 0,03
3 35-40 [35 ; 40) 5 2 0,1 7 0,35 0,02
4 40-45 [40 ; 45) 5 3 0,15 10 0,5 0,03
5 45-50 [45 ; 50) 5 4 0,2 14 0,7 0,04
6 50-55 [50 ; 55) 5 3 0,15 17 0,85 0,03
7 55-60 [55 ; 60) 5 2 0,1 19 0,95 0,02
8 60-65 [60 ; 65) 5 1 0,05 20 1 0,01
20 1

- Stamm-Blatt-Diagramm (Stem- Leaf- Diagram)


o Drehung um 90° => entspricht dem Histogramm
o Vorteil: mehr Informationen
o Links (Stamm): Alter in Zehnerstelle; rechts (Blätter): Alter in Einserstelle

2 68
3 11356
4 1245668
5 23477
6 2

VN STA W03 (24.09.2018)


4. Statistische Kennzahlen
4.1 Lageparameter

- Lageparameter:
o Geben Lage auf der x- Achse an
o arithmetisches Mittel (als einziger Lageparameter unzureichend, weil keine
Aussage über die Verteilung)
- andere:
o Streuungsparameter: je breiter das Histogramm, desto größer
o Schiefeparameter: Histogramm kann entweder symmetrisch; linkssteif;
rechtssteif sein
o Wölbeparameter

- Modalwert, Modus (nominal, ordinal, kardinal => jede Skala)

 Häufigster Wert (!)


 d = dichtester Wert

- Beispiel 4.1 (S.33)


Die Verbraucherberatungsstelle einer Stadt stellt an einem Stichtag die Preise für
Normal-Benzin bei 20 örtlichen Tankstellen fest. Es ergaben sich folgende Preise:

1,54 1,54 1,56 1,56 1,56


1,58 1,58 1,58 1,58 1,58
1,60 1,60 1,60 1,61 1,62
1,62 1,62 1,63 1,63 1,63
 Häufigster Wert: 1,58 = Modus
- Median (ordinal, kardinal)

o Median = 50% <= Median <= 50%


o Sortierte Urliste = Rangliste! => nach Größe sortieren!
o Anwendung auf Beispiel 4.1
 n = 20
 ½(x10 + x11) = ½* (1,58 + 1,60) = 1,59

- p-Quantil (ordinal, kardinal)


o Verallgemeinerung vom Median
o Beim nächsten k immer aufrunden! n*p = 3,01; k = 4 => x(4)

0<p<1
0,25- Quantil 1.Quartil (unteres x0,25
Quartil)
Median 0,5- Quantil 2.Quartil x0,5
0,75-Quantil 3.Quartil (oberes x0,75
Quartil)

o Anwendung auf Beispiel 4.1


 x0,2 : n*p = 20*0,2 = 4 => x0,2 = ½(x4 + x5) = ½(1,56*2) =1,56
 x0,7 : n*p = 20*0,7 = 14 => x0,8 = ½(x14 + x15) = ½(1,61+1,62) =
3,23/2 = 1,615
 x0,83 : n*p = 20*0,83 = 16,6 => x0,83 = x17 = 1,62

- arithmetisches Mittel (kardinal)

o anfällig ggü. Ausreißern


o gewogenes arithmetisches Mittel berücksichtigt die Häufigkeit der Ereignisse
o ni = absolute Häufigkeit; hi = relative Häufigkeit; k = Anzahl der Klassen
o besonders geeignet für Situationen, bei denen Ausreißer berücksichtigt
werden müssen (!)
o Interpretation: Mittelpunkt der Messwerte
o Schwerpunkteigenschaft des arithmetischen Mittels: s. Block (ÜN W03)

Ai Ni Hi Ai*ni Ai*hi
2 10 0,1 20 0,2
3 30 0,3 90 0,9
4 40 0,4 160 1,6
5 20 0,2 100 1
∑ 100 1 370 3,7

- Beispiel: Stündenlöhne im Schnellrestaurant


13,80; 14,10; 14,80; 14,80; 15,70; 15,80; 51
 Einfaches arithmetisches Mittel xbar = 20
 Arithmetisches Mittel wird stark verzerrt aufgrund des Ausreißers
 Eindruck, dass der Stundenlohn viel höher sei als in Realität
 Alternative für den „typischen Lohn“: Modus (xd = 14,80) oder Median (n=7
=> n7+1/2 = n4 = 14,80)

- α- getrimmtes (arithmetische) Mittel


α * 100% der größten und kleinsten Werte werden weggelassen
o Bsp.: 1/7- getrimmtes Mittel => 14% - getrimmtes Mittel
o 13,80 (14% unten) und 51 (14% oben) werden gestrichen
o xbar0,14 = (14,10 + 14,80*2 + 15,70 + 15,80)/5 = 15,04

- geometrisches Mittel (durchschnittliche % Entwicklung)

Bsp. 4.6: Die jährlichen Umsatzsteigerungen eines Betriebes liegen bei

1990-1991: 2%, 1991-1992: 11%. 1992-1993: 4%, 1993-1994: 5%.


Als durchschnittliche jährliche Umsatzsteigerung erhält man:
G = 4√1,02*1,11*1,04*1,05 = 1,0545
- Anwendung bei Wachstums- und Veränderungsraten
o Diskretes Wachstum
 Wachstum in regelmäßigen Zeitabständen
 Jährlich
 Unterjährlich (z.B. monatlich)

( )
n
1+ p
 K n= K 0∗ =K 0∗qn
100
o Stetiges Wachstum
 Konstantes Wachstum
 lim n->unendlich =(1+1/n)^n = e (eulersche Zahl)
 n = 100 => 2,71
 n = 1000 => 2,72
n∗p
 K n= K 0∗e 100

 Bsp: Weltbevölkerung (7,7 Mrd.); p = 1% => nach 100 Jahren?


100∗1
 K 100 =7,7∗e 100

= 7,7 * e
= 20,93 Mrd.
 Bsp: K2000 = 4; K2020 = 16 => p?
 16 = 4 * e^(20*p/100) |/4
 4 = e^(20*p/100)
 ln 4 = 20*p/100
 ln 4 * 100/20 = p
 p = 6,931 ≈ 7(%)
o Verdopplungszeit: Fall 1 (diskret)
Frage: Nach wie vielen Jahren verdoppelt sich die Zahl der Studierenden falls
die Verdopplungsrate 10%/Jahr beträgt?
 Kn = K₀*(1+p/100)ⁿ => Kn = K₀ * (1+10/100)ⁿ
 Kn/K₀ = 2 => 2 = 1,1ⁿ
 ln 2 = n*ln 1,1
 3. Logarithmenregel: ln(xⁿ) = n*ln x
 n = ln 2/ln 1,1 = 7,3
 nd = ln 2/(ln 1+p/100); p = 2
= ln 2/(ln 1+2/100) = ln 2/ ln q
= 35 Jahre
 bei p = 1 => nd = ln 2/(ln 1 + 1/100) = ln 2/(ln 1,01) ≈ 0,7/0,01 = 70
Jahre
 allg.: ln 2/(ln 1+p/100) ≈ 0,7/(p/100) => Faustformel: nd = 70/p

Aufgabe: Berechnen Sie die Verdreifachungszeit bei einer Wachstumsrate


von 5% und geben Sie eine Faustformel an.
 nt = ln 3/ln 1,05 ≈ 22,5 Jahre
= 1,1/(p/100) => Faustformel: nt = 110/p
 nq = ln 4/ln 1,05 ≈28,4 Jahre
= 1,4/(p/100) => Faustformel: nq = 140/p

K₀ Bestand in t = 0
Kt Bestand in t
n Laufzeit in Jahren
p Konstante Wachstumsrate, z.B. %
p/100 Wachstumsrate ohne %- Angabe
pt Wachstumsrate t = 0, 1, 2, …
pbar Durchschnittliche Wachstumsrate
(1+p/100) = q Wachstumsfaktor
qbar Durchschnittlicher Wachstumsfaktor

- t = 0; K₀ = 1000
t = 1; K₁ = 1100 => K₁ - K₀: absolutes Wachstum; 1100-1000 = 100
(K₁-K₀)/K₀ = 100/1000 = 0,1 = p/100 => p = 10%
- Bsp: An einer Universität ändern sich die Studentenzahlen zuerst um 20%, im 2. Jahr
um 30% und im 3. Jahr ein Einbruch von 50%.
o K₀ = 1000, K₁ = 1000*1,2 = 1200, K₂ = 1200*1,3 = 1560, K₃ = 1560*0,5 = 780
- K₃ = K₀ * q₁ * q₂ * q₃ = K₀ * qbar³
1. Fall:
o qbar³ = q₁ * q₂ * q₃
o qbar = 3√q * q * q = (1,2* 1,3* 0,5)^1/3
o qbar = 0,9205
o qbar - 1 = 0,9205 – 1 = -0,079 => Durchschnittliche Wachstumsrate pbar= -
7,9%
o pbar = (n√q₁*q₂*q₃…qn) – 1 (*100%)
2. Fall:
o K₃/K₀ = q₁*q₂*q₃
o (3√K3/K0) -1 = (3√q₁*q₂*q₃) – 1
o pbar = [(n√Kn/K₀) – 1] *100
- Bsp.:
1. Aufgabe: 2000: 1200; 2017: 2400
o pbar = [(17√2400/1200) -1] *100
= 4,161% = 4,2% (Prozente werden auf Zehntelstelle gerundet)
2. Aufgabe: 5 Jahre steigen die Zahlen jährlich um 5%, danach steigen sie 10 Jahre
lang jährlich um 10%.
o pbar = [(15√1,05^5*1,1^10) -1] * 100%
= 8,3%

- Harmonisches Mittel (Quotienten als Merkmale, z.B. Geschwindigkeiten):

- Anwendung: Bei Verhältniszahlen (Brüche)


o Gewichtung auf dem Zähler: harmonisches Mittel
o Gewichtung auf dem Nenner: arithmetisches Mittel
- Beispiel: Durchschnittsgeschwindigkeit?

20 km/h

40 km/h

H _____40km_____ F

o xbar = (20+40)/2 = 30 =/= Durchschnittsgeschwindigkeit!


o v = Strecke/Zeit = 80km/(2+1)Stunden = 26 ⅔ km/h
o H = 2/(1/20+1/40) = 26 ⅔ km/

- Kontraharmonisches Mittel
o Anwendung bei durchschnittlichen Gruppengrößen
o C = 1/n * ∑ai²*ni
xbar
o 1. Bsp: Übungsaufgabe 3c

i ai ni ai² ai²*ni
1 0 40 0 0
2 1 10 1 10
3 2 10 4 40
4 3 10 9 90
5 4 10 16 160
6 5 20 25 500
∑ 100 800

 xbar = 2
 C = (1/100*800)/2 = 4 => 4-1 = 3
o 2. Bsp:

ai ni ai² ai²*ni
A 1 1 1 1
B 30 1 900 900
∑ 2 901

 xbar = (1+30)/2 = 15,5


 C = (½*901)/15,5 = 901/31 ≈ 29,06
4.2 Lageparameter bei Klassenbildung

- Modalwert, Modus (nominal, ordinal, kardinal) = Klassenmitte der Klasse mit größter
Histogrammhöhe
- Unimodale Verteilung =1 Modus; bimodale Verteilung = 2 Modi (z.B. Körpergröße
von Männern & Frauen zusammen => hier statt 1x bimodal 2x unimodal)
- Beispiel 4.12 (S.43)

Km von.. bis unter… Anzahl der Beschäftigten


0-1 7
1-5 24
5-15 35
15-30 18
30-50 16

I Ki Ni Hi (ui+oi)/2=Mi Bi Hi* = Fi (∑hi) Mi(=ai)*ni


hi/bi
1 0-1 7 0,07 0,5 1 0,07 0,07 3,5
2 1-5 24 0,24 3 4 0,06 0,31 72
3 5-15 35 0,35 10 10 0,035 0,66 350
4 15- 18 0,18 22,5 15 0,012 0,84 405
30
5 30- 16 0,16 40 20 0,008 1 640
50
∑ 100 1 1470,5

 xd = m1 = 0,5 (Klassenmitte der dichtesten Klasse)

- p-Quantil

o Erläuterung:
 i = Einfallklasse von p (Klasse, in die das p-Quantil fällt)
 Einfallklasse ist die Klasse, bei der die Fi das p zuerst
überschreitet)
 u = Klassenuntergrenze
 p = pQuantil
 hi = relative Häufigkeit
 bi = Klassenbreite
 Fi = Verteilungsfunktion von der vorherigen Klasse

o Beispiel:
 Grafische Bestimmung mittels Verteilungsfunktion: s. Block
 Rechnerische Bestimmung mithilfe der Formel:
Median: x0,5 = 5 + (0,5-0,31)/(0,35 )*10 = 10,4km
x0,2 = 1+(0,2-0,07)/(0,24)*4 = 3,2km (Interpretation: 80% der
Beschäftigten fahren weiter als 3,2km)
x0,75 = 15+(0,75-0,66)/(0,18)*15 = 22,5
x0,05 = 0,05/0,07 = 0,71 (sinnfrei: 5% fahren <0,71km?)

- Arithmetisches Mittel:
o Fall A: nur Klassen und Häufigkeiten gegeben

 xbarM = 1/n * ∑mi*ni = 1/100 * 1470,5 = 14,7km


 ai entspricht mi
o Fall B: Klassenmittelwerte sind bekannt

 Bsp: Urliste 1 1 3 3 5 5 7 8 9 12 14 14
 xbar = 82/12 = 6,833

I Ki ni mi ni*mi xbari xbari * ni


1 0-5 4 2,5 10 2 8
2 5-10 5 7,5 37,5 6,8 34
3 10-15 3 12,5 37,5 13,333 40
∑ 85 82

 xbarn = 85/12 = 7,083


 Klassenmittelwerte: z.B. 1. Gruppe: xbar1 = (1+1+3+3)/4 = 2
 xbar = 85/12 = 7,083
 Klassenmittelwerte bekannt = exaktes arithmetisches Mittel!
 Vorteilhaft wenn: Klassenmittelwerte, aber keine Urliste gegeben!

4.3 Verteilungstypen

- Symmetrische Häufigkeitsverteilung (Bsp. IQ)


xbar ≈ x0,5 ≈ xd
- Rechtsschiefe Verteilung (Bsp. Einkommensverteilung)
o Oder: linkssteil
o Positive Schiefe
o xd < x0,5 < xbar
- Linksschiefe Verteilung (Bsp. Sterbealter in Industrieländern)
o Oder: rechtssteil
o Negative Schiefe
o Selten vorkommend
o xbar < x0,5 < xd
- Kennzahlen:
o Linksschief: g₁ < 0
o Normalverteilung: g₁ ≈ 0
o Rechtsschief: g₁ > 0
o Nur im Vergleich interpretierbar

4.4 Streuungsparameter

1,54 1,54 1,56 1,56 1,56


1,58 1,58 1,58 1,58 1,58
1,60 1,60 1,60 1,61 1,62
1,62 1,62 1,63 1,63 1,63

- Spannweite:
o R = x(n) – x(1) = größter – kleinster Beobachtungswert
o Kritik: anfällig für Ausreißer (Outlier)
- Quartilsabstand:
o Q = x0,75-x0,25 = oberes Quartil – unteres Quartil
o Spannweite der mittleren 50%
o Bsp: x0,25 = ½(x5 + x6) = ½*(1,56+1,58) = 1,57
X0,75 = ½(x15+x16) = ½*(1,62+1,62) = 1,62
 Q = 1,62-1,57 = 0,05
o Gängige Darstellung: Boxplot => 5 Lageparameter

- Mittlere absolute Abweichung vom Median


- Varianz
o Wichtigster Streuungsparameter
o xi – xbar: Beobachtungswert – arithmetisches Mittel
 ∑xi-xbar = 0 (immer!)
o Durch n-1 wenn Stichprobe; durch n wenn Vollerhebung
o 1. Zeile: Urliste; links und rechts sind gleich, nur umgeformt
 Links: wenn xbar = N
 Rechts, wenn xbar =/= N
o 2. Zeile: Häufigkeitstabelle
o Bei klassierten Daten: ai = mi oder xbari

i ai ni a²i a²i * ni
1 1,54 2 2,3716 4,7432
2 1,56 3 2,4336 7,3008
3 1,58 5 2,4964 12,482
4 1,60 3 2,5600 7,6800
5 1,61 1 2,5921 2,5921
6 1,62 3 2,6244 7,8732
7 1,63 3 2,6569 7,9707
∑ 20 50,6420
s² = 1/(20-1) * ∑(ai-xbar)²*ni = 1/19*(∑ai²*ni -20*xbar²) || NR: xbar = 31,82/20 =
1,591
= 1/19*(50,642-20*1,591²)
= 0,00086211
o Um gleiche Dimension wie Ursprungsdaten zu erhalten =>
Standardabweichung: s = √s² (s²>=0) => Interpretation

Bsp.: Anzahl der Kinder

NR: xbar = 55/65 = 0,846

Linke Formel Rechte Formel


ai Ni Ai*ni (ai-xbar)²*ni A²i A²i*ni
0 30 0 21,471 0 0
1 20 20 0,474 1 20
2 10 20 13,317 4 40
3 5 15 23,198 9 45
∑ 65 55 58,46 105

Links: s² = 1/64*58,46 = 0,913 => Standardabweichung: √s² = 0,955

Rechts: s² = 1/64*(105-46,521) = 1/64*58,46 = 0,913 => Standardabweichung: √s² = 0,955

- Bsp: IQ: xbar = 100; s = 10


o ki = i- Sigma- Intervall;
o k1 = [100-10; 100+10] = [90; 110]
k2 = [80; 120]
k3 = [70; 130]
o basierend auf der Annahme dass die Grundgesamtheit der
Normalverteilung unterliegt:
 k1 => 68,26% der Menschen haben einen IQ zwischen 90 und 110
=> ca. 2/3
k2 => 95,44% … 80 und 120
k3 => 99,74% … 70 und 130
o unimodale symmetrische Verteilung (Graph = symmetrisches Dreieck)
o beliebige Verteilung, z.B. bimodale Verteilung (oft ein Anzeichen für
falsche Analyse oder zu wenige Daten)

- Variationskoeffizient

o Eignet sich insbesondere zum Vergleich der Streuungen verschiedener


Verteilungen (Vergleich der untersch. Standardabweichungen und arith.
Mitteln)
o Ist dimensionslos
o Beachte: s => √s²; xbar > 0!
o Bsp. Benzinpreise: V = √0,0008621/1,591 = 0,029936/1,581 = 0,0185

4.6 Schiefe und Wölbung

- Definition der Schiefe aus der Urliste


- Oben:
o Durch den Exponenten (=3) behalten die Abweichungen ihr VZ
o Bei linksschief: vorwiegend negative Abweichungen
o Bei rechtsschief: vorwiegend positive Abweichungen
- Unten:
o Nenner entspricht der Formel der Varianz (außer /n anstatt /n-1)
o Dient zum Vergleich zum Zähler
- Vorsicht! Bei Berechnung der Schiefe von Häufigkeitstabellen:
o Statt (xi-xbar)² bzw. ³: (ai-xbar)²*ni bzw. (…)³*ni
o bei klassierten Daten: ai = mi
- Definition der Wölbung aus der Urliste:
o Wölbung bei Normalverteilung: g₂ ≈ 0
o Wölbung auf Englisch: Kurtosis
o Wenn Maximum kleiner als bei Normalverteilung (g₂ < 0):
 Flache Verteilung = platykurtisch
 Weniger Ausreißer als bei der Normalverteilung bzw. Ausreißer
fallen weg
o Wenn Maximum größer als bei Normalverteilung (g₂ > 0):
 Spitze Verteilung = leptokurtisch
 Vergleich spitze Verteilung mit Normalverteilung:
 Gleicher Mittelwert, gleiche Standardabweichung
 Histogramm: hi* (spitz) > hi* (normalverteilt); Grund:
A(Histogramm) = 1, bei spitzer Verteilung sind die Ränder
ausgeprägter bzw. es gibt mehr Ausreißer als bei der
Normalverteilung

4. Konzentrationsmessung
- Unterscheidung:
o Relative Konzentration (Disparität): geringer Anteil der Merkmalsträger
mit hohem Anteil an Merkmalssumme
o Absolute Konzentration: geringe Anzahl von Merkmalsträgern mit hohem
Anteil an Merkmalssumme
o Abhängig von Grundgesamtheit, ob hoch oder niedrig
- Gesamtmerkmalssumme: ∑ai*ni bzw. ∑xi
o xbar = (∑ai*ni)/n = ∑xi/n
o Bsp: Gesamtes Vermögen
Relative Konzentration

Hoch Niedrig
Anteil MT: gering Anteil MS: hoch Anteil MT: gering Anteil MS: gering
5% 80% 5% 7%
5% 99% 5% 5%
4.1 Lorenzkurve (grafische Darstellung der Disparität => rel. K.)

- Winkelhalbierende: Gleichverteilungsrate
- x-Achse = Anteil MT; y = Anteil MS
- (0,7/0,3): 70% der Haushalte mit dem kleinsten Vermögen haben 30% des
Gesamtvermögens
(0,4/0,1): 40% der Haushalte mit dem kleinsten Vermögen haben 10% des
Gesamtvermögens
(0,5/0,25): 50% der Haushalte mit dem kleinsten Vermögen haben 25% des
Gesamtvermögens, größten 50% haben 75% des Gesamtvermögens

0,25

0,5

- Li = kumulierte relative Merkmalssumme; li = relative Merkmalssumme (kleines


L)
- Bsp. Paretoprinzip (Organisationspsychologie)
o Kleinsten 80% der Mitarbeiter erledigen 20% der Arbeit
o Größten 20% der Mitarbeiter erledigen 80% der Arbeit
- Bsp. 5.3, S. 67:

i ai ni hi <-> Hi Fi ai*ni li= ai*ni/200 Li


1 1 40 0,4 0,4 40 0,2 0,2
2 2 30 0,3 0,7 60 0,3 0,5
3 3 20 0,2 0,9 60 0,3 0,8
4 4 10 0,1 1 40 0,2 1
∑ 100 1 200 1

o Interpretation (ai*ni = 2*30 = 60): Gesamtanzahl der Beschäftigten in den


Betrieben mit 2 Beschäftigten (60)
o Interpretation (ai*ni/200 = 60/200 = 0,3): 30% aller Beschäftigten arbeiten in
Betrieben, die 2 Beschäftigte eingestellt haben.
o Fi und Li als Koordinaten der Lorenzkurve
 Bsp.: 90% der Betriebe haben 80% aller Beschäftigten eingestellt
o Erstellung der Lorenzkurve:
 Quadrat zeichnen
 Winkelhalbierende zeichnen
 Punkte eintragen (x-Achse: Fi; y-Achse: Li)
 Punkte mit Geraden verbinden

o Interpretation:
 80% der kleinsten Betriebe beschäftigen 65% der Angestellten
 20% der größten Betriebe beschäftigen 35% der Angestellten
- Bsp 5.4, S.69:

ai ni Merkmalssumme: ai*ni hi Fi ai*ni/1000 Li


Klein 5,125 32 164 0,64 0,64 0,164 0,164
Mittel 22,571 14 316 0,28 0,92 0,316 0,480
Groß 130 4 520 0,08 1 0,520 1
∑ 50 1000 1 1

o Merke: Bei Erstellung der Lorenzkurve müssen die Merkmalsausprägungen


nach Größe geordnet werden! (klein->groß)
- Bsp 5.5, S.70:

I Ki mi ni mi*ni Umsatz i-te Klasse hi Fi li Li


1 2-6 4 30 120 160 0,15 0,15 0,08 0,08
2 6-8 7 50 350 380 0,25 0,50 0,19 0,27
3 8-10 9 70 630 660 0,35 0,75 0,33 0,60
4 10-15 12,5 30 375 360 0,15 0,90 0,18 0,78
5 15-20 17,5 10 175 180 0,05 0,95 0,09 0,87
6 20-30 25 10 250 260 0,05 1,00 0,13 1,00
∑ 200 1900 2000 1,00 1,00

o Merke: Bei gegebenen Klassen wird das ai durch mi ersetzt!


o mi*ni: geschätzter Umsatz basierend auf den Klassenmitten
o Umsatz i-te Klasse: Zusatzinformation bzw. willkürlich gewählte Zahlen!
(muss gegeben sein, ansonsten schätzen)
- Eigenschaften der Maßzahl
o A: Fläche zwischen Winkelhalbierende und Lorenzkurve ↑ Konzentration ↑
 Fläche zwischen Diagonale und Lorenzkurve = F; Konzentrationsmaß =
2F
o B: Lorenzkurve muss immer streng monoton steigend sein => m > 0
o C: Wenn Lorenzkurve = Winkelhalbierende: „kommunistische Verteilung“,
jeder hat gleich hohes ai (LKM=0); Nichtkonzentration
o D: Wenn Lorenzkurve entlang der x-Achse und am Ende entlang der y-Achse:
absolute Konzentration (LKM=1); vollständige Konzentration
o Nur relativ interpretierbar, nicht absolut!

4.2 Lorenzsches Konzentrationsmaß (Gini- Koeffizient)


- Herleitung der Formel:
o A (Dreieck) = ½* g* h
o A (Trapez) = ½ * (a+c) * h
 a und c als parallele Seiten

- Interpretation nur mit dem LKM UND der Lorenzkurve möglich! 1 LKM hat
mehrere mögliche Lorenzkurven

4.3 Absolute Konzentration


- Absolute Konzentrationsrate:
o Voraussetzung: Merkmalsausprägungen nach der Größe geordnet (statt ai ->
xi)
o Nach der Größe das li absteigend (!) ordnen
o Ci
 Vs. Li: nach der Größe aufsteigend geordnet und aufsummiert
 Bei Ci: absteigend geordnet und dann aufsummiert
 Bsp. 5.9, S. 76f:
 Ci = 0,31 => an der größten Hochschule studieren 31% aller
Studenten
 Ci = 0,45 => an den zwei größten Hochschulen studieren 45%
aller Studenten
 Ci = 0,56 => an den drei größten Hochschulen studieren 56%
aller Studenten etc.
o Keine Prozentzahlen (absolut!) => nicht „3% besitzen 90%“, sondern „3
Personen besitzen 90%“
- Absolute Konzentrationskurve:
o x-Achse: Si, y- Achse: Ci

- Herfindahl- Index

o Entweder li² zusammenrechnen oder die Formel mit V benutzen


o Wenn V² = 0 => HI wird klein => keine/wenig absolute Konzentration

KAPITEL 6 IST NICHT KLAUSURRELEVANT (VF 1-32)

5. Korrelations- und Regressionsrechnung


5.1 Korrelationskoeffizient von Bravais- Pearson:
- Nur für kardinal skalierte Merkmale!
- Schwankung zwischen -1 und +1
o rxy = -1: negativer linearer Zusammenhang
o rxy = 0: kein linearer Zusammenhang
o rxy = +1: positiver linearer Zusammenhang
 nahe +1: starker Zusammenhang
 nahe 0: schwacher Zusammenhang
- xi als tatsächlicher Beobachtungswert, xbar als vorausgesagter Wert (horizontale
Gerade)
yi als tatsächlicher Beobachtungswert, ybar als vorausgesagter Wert (vertikale
Gerade)
- Kovarianz als Maß für den Zusammenhang, der aussagt, ob der Zusammenhang
0, positiv oder negativ ist
o +1: alle Punkte liegen auf einer Gerade mit einer positiven Steigung
o -1: alle Punkte liegen auf einer Gerade mit einer negativen Steigung

- Links: wenn xbar und ybar ∈ Z


Rechts: wenn xbar und ybar ∈ Q
- Bsp:
i xi yi (xi-xbar) (yi-ybar) (xi-xbar)² (yi-ybar)² (xi-xbar)*(yi-ybar)
1 10 95 -50 -55 2500 3025 2750
2 20 120 -40 -30 1600 900 1200
3 30 125 -30 -25 900 625 750
4 40 150 -20 0 400 0 0
5 60 155 0 5 0 25 0
6 60 167,5 0 17,5 0 306,25 0
7 60 150 0 0 0 0 0
8 100 150 40 0 1600 0 0
9 100 175 40 25 1600 625 1000
10 120 212,5 60 62,5 3600 3906,25 3750
600 1500 0 0 12200 9412,5 9450

o xbar = 60; ybar = 150


o rxy = 9450/√(12200*9412,5) = 0,882
 Es liegt ein starker positiver linearer Zusammenhang zwischen X und Y
vor.
o sxy = 9450/9 = 1050
 Die Kovarianz deutet auf einen positiven Zusammenhang hin.
- Bsp. 7.5, S. 120:

b1 = 150 b2 = 450 b3 = 750 b4 = 1050 ∑


a1 = 20 101 20*150*10 53 477.000 0 0 0 0 780.000
1 = 303.000
a2 = 60 96 864.000 215 5.805.000 13 585.000 8 504.000 7.758.000
a3 = 100 3 45.000 14 630.000 35 2.625.00 62 6.510.000 9.810.000
0
1.212.000 6.912.000 3.210.00 7.014.000 18.348.000
0
Formel: ↑ai*bj*nij

o xbarM = (m1x*n1. + m2x*n2. + m3*n3.)/600 = 57,3333 qm


o ybarM = (m1y*n.1 + m2y*n.2 + m3y*n.3)/600 = 444€

mix mix² nix mix²*nix mjy mjy² njy mjy²*njy


20 400 154 61.600 150 22.500 200 4.500.000
60 3.600 332 1.195.200 450 202.500 282 57.105.000
100 10.000 114 1.140.000 750 562.500 48 27.000.000
1050 1.102.50 70 77.175.000
0
∑ 2.396.800 165.780.00
0

o Korrelationskoeffizient: obere Zeile

 18.348.000 – 600 * 57,3333 * 444 = 3.074.408,88


o Korrelationskoeffizient: untere Zeile x

 4.303.921.600 – 600 * 57,3333² = 424.535,627


o Korrelationskoeffizient: untere Zeile y

 165.780.000 – 600 * 444² = 47.498.400


o Korrelationskoeffizient: Berechnung insgesamt
rxy = 3.074.408,88 / √424.535,627 * 47.498.400 = 0,6846
 Der Korrelationskoeffizient deutet auf einen mittleren positiven
Zusammenhang zwischen Wohnfläche und Mietpreis hin.
- Bei klassierten Daten in Form von Kontingenztabellen:
Links: wenn xbar und ybar ∈ Z
Rechts: wenn xbar und ybar ∈ Q

- Hinweise: Korrelation =/= Kausalität!


o Nonsens- Korrelation: X und Y hängen in der Realität nicht voneinander ab
 Bsp. Storche und Anzahl der Kinder
o Scheinkorrelation: X und Y hängen beide von einem dritten Merkmal Z ab
 Z als Störvariable
 Bsp. X = Schuhgröße, Y = Lesefähigkeit, Z = Alter
Partieller Korrelationskoeffizient (Korrelation zwischen X und Y ohne den
Einfluss von Z)

- Bsp. 7.6, S. 121ff.

i xi yi xi-xbar yi-ybar (xi-xbar)² (yi-ybar)² (xi-xbar)*(yi-ybar)


1 300 6 -560 -1 313600 1 560
2 400 4 -460 -3 211600 9 1380
3 500 3 -360 -4 129600 16 1440
4 700 12 -160 5 25600 25 -800
5 800 9 -60 2 3600 4 -120
6 1100 5 240 -2 57600 4 -480
7 1200 4 340 -3 115600 9 -1020
8 1000 12 140 5 19600 25 700
9 1200 9 340 2 115600 4 680
10 1400 6 540 -1 291600 1 -540
8600 70 0 0 1.284.000 98 1800

o xbar = 860, ybar = 7


o rxy = 1800/√(1.284.000*98) = 0,1605

i yi zi yi-ybar zi-zbar (yi-ybar)² (zi-zbar)² (yi-ybar)*(zi-zbar)


1 6 0 -1 -100.000 1x1010 100.000
2 4 0 -3 -100.000 1x1010 300.000
3 3 0 -4 -100.000 1x1010 400.000
4 12 100.000 5 0 0 0
5 9 100.000 2 0 0 0
6 5 100.000 -2 0 0 0
7 4 100.000 -3 0 0 0
8 12 200.000 5 100.000 1x1010 500.000
9 9 200.000 2 100.000 1x1010 200.000
10 6 200.000 -1 100.000 1x1010 -100.000
∑ 70 1.000.000 0 0 98 6x1010 1.400.000

o ybar = 7, zbar = 100.000


o ryz = 1.400.000/√(98*6x1010) = 0,5774

i xi zi (xi-xbar) (zi-zbar) (xi-xbar)² (zi-zbar)² (xi-xbar)*(zi-zbar)


1 300 0 -560 -100.000 56.000.000
2 400 0 -460 -100.000 46.000.000
3 500 0 -360 -100.000 36.000.000
4 700 100.000 -160 0 0
5 800 100.000 -60 0 0
6 1100 100.000 240 0 0
7 1200 100.000 340 0 0
8 1000 200.000 140 100.000 14.000.000
9 1200 200.000 340 100.000 34.000.000
10 1400 200.000 540 100.000 54.000.000
8600 1.000.00 0 0 1.284.000 6x1010 240.000.000
0
o rxz = 240.000.000/√(1.284.000*6x1010) = 0,8647

- Rangkorrelationskoeffizient von Spearman:


o Sobald min. 1 Merkmal ordinal
o Zuordnung von Rangzahlen für die x-Werte: Optimal geordnet! Je nach Kontext
auf- bzw. absteigend ordnen
o Gleiche Formel wie die des Korrelationskoeffizienten, aber: Ausgangswerte
werden durch die Rangzahlen ersetzt => aus xi wird R(xi), aus yi wird (Ryi)
o Bsp. 7.8, S. 125f.:
 Student mit den meisten Punkten im jeweiligen Fach ist Rang 1,
absteigend geordnet

R(xi) R(yi) di di² xi-xbar (xi- yi-ybar (yi- (xi-


xbar)² ybar)² xbar)*(yi
-ybar)
6 4 2 4 0,5 0,25 -1,5 2,25 -0,75
9 9 0 0 3,5 12,25 3,5 12,25 12,25
8 6 2 4 2,5 6,25 0,5 0,25 1,25
10 10 0 0 4,5 20,25 4,5 20,25 20,25
2 7 -5 25 -3,5 12,25 1,5 2,25 -5,25
7 5 2 4 1,5 2,25 -0,5 0,25 -0,75
5 8 -3 9 -0,5 0,25 2,5 6,25 -1,25
4 2 2 4 -1,5 2,25 -3,5 12,25 5,25
1 3 -2 4 -4,5 20,25 -2,5 6,25 11,25
3 1 2 4 -2,5 6,25 -4,5 20,25 11,25
55 55 0 58 0 82,5 0 82,5 53,5

o rxy = 53,5/82,5 = 0,6485

o einfachere Formel! ∑[R(xi)-R(yi)]² = di² (Differenz in Rängen, nicht-quadrierte


Form muss 0 ergeben)

- bei Ranggleichheit wird das arithmetische Mittel der Rangzahlen gebildet, bspw.:
o 10 -> 1 || 12 -> 2 || 15 -> 3 -> 3,5 || 15 -> 4 -> 3,5 || 19 -> 5
o Hier kann die einfachere Formel nicht angewendet werden, sondern die
traditionelle (Ersatz von Ausgangswerten mit Rangwerten, Bravais-Pearson)
o => Näherungswerte

- Assoziationskoeffizient von Yule


o Merkmale X, Y mit jeweils 2 Ausprägungen; min. 1 Merkmal nominal skaliert
o Basis: Vierfeldertafel => Kontingenztabelle

 Axy = (n11 * n22 – n12 * n21) / (n11 * n22 + n12 * n21)


 VZ hängt von der Anordnung der Spalten ab!
o Nah bei 0 => schwache Abhängigkeit, nah bei 1 => starke Abhängigkeit
- Pearsonscher Kontingenzkoeffizient
o Formel:

o nij => tatsächliche Häufigkeiten, mij => unter Unabhängigkeit zu erwartende


Häufigkeiten (s. Wahrscheinlichkeitsrechnung; Multiplikationssatz)
o bei Bsp. 7.11, S. 130: hier mit 1 Nachkommastellen ist auch in Ordnung
o Schritt 1
 mij = m11 = 104*199/300 = 68,987
 m12 = 104*71/300 = 24,613
 m22 = 196*71/300 = 46,387
 m21 = 196*199/300 = 130,013
 m13 = 104*30/300 = 10,4
 m23 = 196*30/300 = 19,6

o Schritt 2 => Formel: (tatsächlicher Wert – unabhängiger Wert)²/unabhängiger


Wert

 Ergebnis: 22,39 (an sich nicht interpretierbar)


o Schritt 3 => C = √22,39/300+22,39 = 0,2635
 Korrigierter Koeffizient:
 Zähler: kleinste Anzahl an Zeilen/Spalten (√ von 1-> ꝏ) der
Vierfeldertafel
 Nenner: kleinster Wert-1
 Folge: Kontingenzkoeffizient geht von 0-1
 min(k,l) geht von
6. Lineare Regressionsrechnung
- Nur für kardinale Merkmale X und Y, bei denen eine einseitige Abhängigkeit
angenommen werden kann => X als IV und Y als DV
- yi = tatsächlicher Wert, yhat = geschätzter Wert der Regressionsgerade, ybar =
Mittelwert

- quadratische Abweichungen sollen möglichst klein sein


- Bsp. 7.16, S.143:

I Xi Yi xi-xbar (xi-xbar)² yi-ybar (yi- (xi-


ybar)² xbar)*(yi-
ybar)
1 2 4 -2 4 -3,4 11,56 6,8
2 3 6 -1 1 -1,4 1,96 1,4
3 4 8 0 0 0,6 0,36 0
4 5 9 1 1 1,6 2,56 1,6
5 6 10 2 4 2,6 6,76 5,2
20 37 10 23,2 15
Xbar = Ybar =
4 7,4
o Korrelationskoeffizient: 15/√10*23,2 = 0,985
o KQ- Schätzer:
 b = 15/10 = 1,5
 a = ybar – b*xbar = 7,4-1,5*4 = 1,4
 yhat = 1,4 + 1,5x
 Interpretation: Zusammenhang zwischen Fixkosten und
Variable Stückkosten
 Wenn x um 1 ansteigt, dann erhöht sich yhat um 1,5 (einfach b
anschauen => Steigung)
o x = 7 => y7 = 1,4+1,5*7 = 11,9
- Formel gilt auch für kardinale Merkmale in Form von Kontingenztabellen!
- X = exogene Variable = erklärende Variable = Regressor = unabhängige Variable
Y = endogene Variable = erklärte Variable = Regressand = abhängige Variable

-
o Zusammenhang:
 Kovarianz/Varianz von x
 Korellationskoeffizient * Standardabweichung von
Y/Standardabweichung von X
- Wagen für 700€ online => Was bekommen Sie vor Ort? Regressionsrechnung!

yhat = 145,019 + 0,692x


x = 700€ => yhat = 629,42€

Was wird wann angewendet?

Kardinal Ordinal Nominal


Kardinal rxy rs C, V
Ordinal rs rs C, V
Nominal C, V C, V C, V

- Bestimmtheitsmaß und Residualanalyse


o Drei Differenzen:
 Yi – ybar => Gesamtabweichung
 Yi – yhat => nicht erklärte Abweichung
 Yhat – ybar => erklärte Abweichung

o Erklärte Variation durch Gesamtvariation => Anteil der erklärten Variation an


der Gesamtvariation
o Oder: 1 – Restvariation (1 - Anteil der nicht- erklärten Variation an der
Gesamtvariation)
- Bemerkungen:
o Zusammenhang: R² = r²xy (Korrelationskoeffizient²)
o 0 <= R² <= 1
 0 = Variation von x erklärt 0% der Variation von y, schlechte
Regressionsgerade
 1 = Variation von y erklärt 100% der Variation von y, perfekte
Regressionsgerade
o Residualplot (Funktion der Fehler) mit erkennbarem Muster -> falscher
Regressionsansatz (z.B. dann nicht-linearer Regressionsansatz), denn
normalerweise: Schwankung um Punkt 0, Punktwolke
- Übungsaufgabe:

xi yi xi-xbar yi-ybar (xi- (yi- (xi- Yhat = Yhat - (yhat-


xbar)² ybar)² xbar)*(yi a+bx ybar ybar)²
-ybar)
1 0,5 -3,5 -1,5 12,25 2,25 5,25 0,333 -1,667 2,779
2 0,5 -2,5 -1,5 6,25 2,25 3,75 0,810 -1,19 1,416
3 1 -1,5 -1 2,25 1 1,5 1,286 0,714 0,510
4 2 -0,5 0 0,25 0 0 1,762 -0,238 0,057
5 2,5 0,5 0,5 0,25 0,25 0,25 2,238 0,238 0,057
6 3 1,5 1 2,25 1 1,5 2,714 0,714 0,510
7 3 2,5 1 6,25 1 2,5 3,19 1,19 1,416
8 3,5 3,5 1,5 12,25 2,25 5,25 3,667 1,667 2,779
36 16 0 0 42 10 20 16 0 9,524

o xbar = 36/8 = 4,5; ybar = 16/8 = 2


o b = 20/42 = 10/21 = 0,476; a = 2 – 0,476*4,5 = -1/7 = -0,143
o yhat = -1/7 + 10/21x = -3/21 + 10/21x = -0,1429 + 0,4762x
 Trick: Funktion in Taschenrechner einsetzen! Weil: x in regelmäßigen
Schritten
o R² = 9,524/10 = 0,952
o r²xy = 0,9759² = 0,9524 => entspricht R²
o Interpretation: Bestimmtsheitsmaß von 95% bedeutet, dass 95% der
Variation von y werden durch die Variation von x erklärt

7. Nicht-lineare Regression
- Spezialfall 1: Quadratische Funktion y = a + b * x²
- => Linearisierung durch Variablensubstitution
o Bsp. 7.25, S. 155f.: yhat = 7,707 + 1,11x²
 b = 3961/3570 = 1,1095
 a = ybar – b * xbar = 36 – 3961/3570 * 25,5 = 7,707
 x = 10 => yhat = 118,707
- Spezialfall 2: Potenzfunktion y=a∗x b
- => Linearisierung durch Logarithmieren
- Beispiel

I xi yi xS= yS = xS- yS- (xS- (yS- (xS-xSbar)


ln(x) ln(y) xbar ybar xSbar)² ySbar)² (yS-
ySbar)
1 10 200 2,3 5,29 -2,2 0,69 4,84 0,48 -1,52
2 20 150 2,99 5,01 -1,51 0,41 2,28 0,17 -0,62
3 50 120 3,91 4,78 -0,59 0,18 0,34 0,03 -0,11
4 100 90 4,6 4,49 0,1 -0,11 0,01 0,01 -0,11
5 150 80 5,01 4,38 0,51 -0,22 0,26 0,04 -0,11
6 300 70 5,7 4,25 1,2 -0,35 1,44 0,12 -0,42
7 1000 50 6,91 3,91 2,41 -0,69 5,81 0,48 -1,66
1780 760 31,42 32,11 -0,08 -0,08 14,98 1,33 -4,55
(R) (R)

o xSbar = 31,42/7 = 4,48; aber Vorgabe: xSbar = 4,5


o ybar = 32,11/7 = 4,58; aber Vorgabe: ybar = 4,6
o b = - 4,55/14,98 = -0,30
o aS = ln(a) = 4,6 – (-0,3) * 4,5 = 5,95 (nicht runden, wegen Rücktransformation!
Empfindlich gegenüber Rundungen!)
o Rücktransformation: a = e^aS = 383
 yhat = 383 * x−0,3
o wenn x = 200 => yhat = 78,143

- Waldsches Regressionsverfahren: (vollständig anders als KQ; die anderen nur


Spezialfälle von KQ!)
o Schneller; Voraussetzung: gerade Anzahl an x-Werten
o Robuster gegenüber Ausreißern
o Prinzip: Es wird eine Regressionsgerade durch die Schwerpunkte der beiden
Hälften der sortierten Beobachtungsreihe gelegt
o x aufsteigend ordnen (wie Lorenzkurve; absolute Konzentrationskurve
absteigend)
o Vorgehensweise:
 1. Urliste nach aufsteigendem xi sortieren und 2 Gruppen (evtl.
mittleres Paar vernachlässigen)
 2. Gruppenmittelwerte und Gesamtmittelwert berechnen
 3. Regressionsgerade yhatw = aw + bw * x bestimmen:

- Beispiel 7.25, S. 161f.:

I xi yi Gruppe xI yI
1 2 4 2 4
2 3 6 3 6
3 4 8 I 4 8
4 5 9 5 9
5 6 10 6 10
∑ 20 37
xII yII
6 6 11 6 11
7 7 12 7 12
8 8 13 II 8 13
9 9 12 9 12
10 10 15 10 15
∑ 60 100 40 63

o 1. xbar = 60/10 = 6; ybar = 100/10 = 10


o 2. xIbar = 20/5 = 4; xIIbar = 40/5 = 8
yIbar = 37/5 = 7,4; yIIbar = 63/5 = 12,6
o 3. bw =(yIIbar – yIbar) / (xIIbar – xIbar) = 12,6-7,4/8-4 = 5,2/4 = 1,3
o 4. aw = ybar – bw*xbar = 10 – 1,3*6 = 2,2
o 5. yhatw = 2,2 + 1,3*x

Induktive Statistik: Wahrscheinlichkeitstheorie


- Erinnerung: Definition Induktive Statistik: Zusammenfassung von Methoden zum
Treffen von rationalen Entscheidungen im Falle von Unsicherheit bzw. Risiko.
- Induktive Vorgehensweise: Man schließt von einer Stichprobe auf die
Grundgesamtheit
- Deduktiv: Man schließt vom Allgemeinen auf das Individuelle
- Inferenzstatistik: Induktiv + deduktiv

Bsp. VF 16:

- Beim Pferderennen sind 8 Pferde am Start, wie viele Möglichkeiten gibt es für die
ersten 3 Plätze?
n! 8!
o Mit RF, ohne WH => = =336 Möglichkeiten
( n−k ) ! ( 8−3 ) !
- Wie viele Möglichkeiten gibt es beim Lotto aus 49 Zahlen 6 rauszuziehen (ohne
Zusatzzahlen)?
o Ohne RF, ohne WH => ( n über k )=(49über 6)=13983816
- Ein Süßwarenhändler hat vier verschiedene Sorten von Bonbons. Wie viele
Möglichkeiten gibt es, eine Tüte mit 10 verschiedenen Sorten zu füllen?
o Ohne RF, mit WH => (n + k – 1 über k) = (4 + 10 – 1 über 10) = 286
- Geburtstagsproblem: Wie hoch ist die Wahrscheinlichkeit, dass bei 30 Personen 2
Personen an demselben Tag Geburtstag haben?
P ( A ∩ B1 )
- Ableitung Bayes: P ( B 1∨A ) = ≤P ( A ∩B 1) =P ( A|B1 )∗P ( B1 )
P( A )
P ( A )=P ( A ∩ B1 ) + P ( A ∩ B 2) −P ( A|B1 )∗P ( B1 ) + P ( A|B2 )∗P ( B2 )

Kennzahlen von diskreten und stetigen Zufallsvariablen:

- Aussage vom Quantil in der induktiven Statistik: Wahrscheinlichkeit, dass ein bestimmter
Wert unter-/überschritten wird

Parameter der diskreten (!) Zufallsvariable

Deskriptive Statistik Induktive Statistik


Erwartungswert Xbar = ∑xi*hi E(x) = μ = ∑ x i∗p(x i )
Varianz s² Var(X) = σ² = ∑( x i−μ)²∗p( xi )
Oder = ∑ x i ∗p ( x i )−¿ μ ² ¿
2

i
Var(X) = m2−m21
k-tes Moment ( E ( X k ) mk =∑ x i ∗p ( xi )
k

- Bsp. Würfel:
Xi P(xi) Xi*p(xi Xi²*p(xi)
)
1 1/6 1/6 1/6
2 1/6 2/6 4/6
3 1/6 3/6 9/6
4 1/6 4/6 16/6
5 1/6 5/6 25/6
6 1/6 1 36/6
∑ 1 21/6 = 91/6 =
3,5 15,166

o E(X) = μ = 3,5


o Var(X) = ∑xi²*p(xi) – μ² = 91/6 – 3,5² = 35/12 => σ = 35
12

- Bsp. Roulette: Es wird eine Einheit auf rot gesetzt. Bei rot werden 2 Einheiten
zurückgegeben, bei schwarz 0 und bei Null ½.
o Faires Spiel => Fairer Einsatz: weder Gewinn noch Verlust bei ausreichender
Wiederholung
o Anzahl Rot 2 => Gewinn X= 1: p = 18/37
Anzahl Schwarz 0 => Gewinn X= -1: p = 18/37
Anzahl Null ½ => Gewinn X= -1/2: p = 1/37

Xi P(xi) Xi*p(xi) Xi²*p(xi)


-1 18/37 -18/37 18/37
-1/2 1/37 -1/74 1/148
1 18/37 18/37 18/37
∑ 1 -1/74 145/148

o E(X) = - 1/74 ≈ -0,0136 => pro Einheit verliere ich im Durchschnitt 1,36%
davon (negativer Gewinn!)
o E(X²) (2tes Moment) = 145/148
o Var(X) = 145/148 – (-1/74)² = 1341/1369 ≈ 0,9795
o σ ≈ 0,9897

- Bsp. Standardisierte Zufallsvariable (Z- Transformation) mit E(X) = 0 und σ = 1


X−E ( X ) X−μ
o Z= =
√Var ( X ) σ
o X 1 =80 ; E ( X 1 )=60; σ 1=10
o X 2 =120; E ( X 2 )=100 ; σ 2=20
80−60
o Z1 = =2
10
120−100
o Z2 = =1
20
 Z2 ist besser als Z1 , da Z2 2 Standardabweichungen besser ist als Z1

MERKE:

- Würfel-Rechteck, Rechenregeln für Wahrscheinlichkeiten + Unabhängigkeit


- Wahrscheinlichkeits- und Verteilungsfunktion + Quantile graphisch
- Welche Verteilung bei welchem Zufallsexperiment

Das könnte Ihnen auch gefallen