09)
1. Einführung
- Definition Statistik: Wissenschaftliche Disziplin, die formale Methoden zur
Erfassung, Analyse und Beurteilung von Beobachtungen (Daten) entwickelt und
anwendet.
- Definition Deskriptive Statistik: Zusammenfassung von Methoden zur Erfassung,
Auswertung und übersichtlichen Darstellung von Daten.
- Definition Induktive Statistik: Zusammenfassung von Methoden zum Treffen von
rationalen Entscheidungen im Falle von Unsicherheit bzw. Risiko.
2. Grundbegriffe
- Befragung
- Experiment
o Bsp: Messung der Lebensdauer, n=90
Grp A (neues Medikament mit Unwissen verabreicht, n=45) =>
+5,5 Jahre
Grp B (altes Medikament bzw. Placebo, n=55) => +5 Jahre
A > B um 0,5 Jahre
Inferenzstatistik: Schlussfolgerung der Gruppe auf die Gesamtheit
=> Zufall oder Fakt? Deskriptive Statistik: Schlussfolgerung
basierend auf der Gruppe (und nicht weiter)
- Beobachtung
- Psychologische Tests
- Simulation: vom Computer erzeugte Daten
- Definition Grundgesamtheit:
o Menge aller statistischen Einheiten, die in sachlicher, örtlicher und
zeitlicher Form abgegrenzt ist
o N = Grundgesamtheit (Vollerhebung)
o n = Stichprobe (Teilerhebung)
- Definition Merkmale:
o Eigenschaften der statistischen Einheiten, die hinsichtlich des
Untersuchungszieles relevant sind und deren Merkmalsausprägungen bei
der Datenerfassung festgestellt werden
o Quantitativ (z.B. Alter, Gewicht)
diskret
Merkmale, die nur abzählbar viele Ausprägungen
annehmen kann => endlich
z.B. Anzahl an Teilnehmer in einer Gruppe
stetig
Merkmale, die unendlich viele Ausprägungen annehmen
können
Zwischen zwei nahe beieinanderliegen Ausprägungen
könnten theoretisch zusätzlich neue eingefügt werden,
wenn hinreichend genau gemessen würde
z.B. Körpergröße; Zeitintervalle; Gewichte; Streckenlängen
quasi-stetig:
Merkmale, die im Grunde diskret sind, aber so viele
mögliche Ausprägungen aufweisen, dass sie im praktischen
Umgang wie stetige Merkmale behandelt werden
z.B. Preisangaben in € und ct
o Qualitativ (z.B. Geschlecht, Schulnoten => Codierung der Ausprägungen)
o Skalierung:
Sachlogik numerischer Merkmalsausprägungen
Nominalskala
Keine Rangordnung
Haarfarbe, Geschlecht, Städte
Ordinalskala
Schulnoten (sehr gut; gut; befriedigend; …)
Nicht-interpretierbarer Abstand zwischen Ausprägungen
Komparativ
Kardinalskala
Rangordnung mit interpretierbaren Abständen
Intervallskala
o Kein natürlicher Nullpunkt => willkürlich festgelegt
o Grad Celsius- Temperaturskala
Verhältnisskala
o Natürlicher Nullpunkt
o Verhältnis kann berechnet werden
o Körpergewicht, -größe
3. Häufigkeitsverteilungen
3.1 Eindimensionale Häufigkeitsverteilungen
- Symbolik:
o Merkmal X
o Statistische Einheiten 1, … , n
o Beobachtungswerte x₁, … , xn (= Urliste: unübersichtliche Darstellung aller
Informationen)
o Versch. Merkmalsausprägungen a₁, … , an
- Häufigkeitsbegriff:
o n(ai) = ni = absolute Häufigkeit von ai; i = 1, … , k
o h(ai) = hi = ni/n = relative Häufigkeit von ai; i = 1, … , k
o Tabellarische Darstellung der Häufigkeitsverteilung des Beispiels
Bsp. absolute Häufigkeit: bei 5 Reisenden gab es 3 Reklamationen
Bsp. kumulierte Häufigkeit: bei 12 Reisenden gab es bis zu 3
Reklamationen
Bsp. relative Summenhäufigkeit: bei 60% der Reisenden gab es bis
zu 3 Reklamationen
i ai ni hi k.H. ∑ni (i=1 – j) = Si r.Sh. ∑hi = Fi
1 0 1(x) 1/20 = 5% n1 = 1 5%
2 1 2(x) 1/10 = 10% n1 + n2 = 3 15%
3 2 4(x) 1/5 = 20% n1 + n2 + n3 = 7 35%
4 3 5(x) ¼ = 25% n1 + n2 + n3 + n4 = 12 60%
5 4 6(x) 3/10 = 30% n1 + n2 + n3 + n4 + n5 = 18 90%
6 7 2(x) 1/10 = 10% n1 + n2 + n3 + n4 + n5 + n6 = 20 100%
∑ - 20 1 = 100%
- Absolute Summenhäufigkeit Si
o kumulierte Häufigkeit
o grafische Darstellung vom diskreten Merkmal: Stabdiagramm
F3,5 = 0
- Relative Summenhäufigkeit Fi
o grafische Darstellung: Verteilungsfunktion (s. Block & VF 27)
Verbindung zwischen den einzelnen Punkten oder nicht? Bei
diesem Beispiel: diskretes Merkmal! „Nichts“ zwischen den
Ausprägungen => Stufenfunktion
Mathematisch gesehen: Funktion verläuft unendlich
F9 = 100% (max. 9 Reklamationen); F12000 = 100%
F-1 = 0%
F3 = 60% = F3,5
o zentrale Rolle in der Inferenzstatistik
o auf 3-4 Nachkommastellen runden
3.2 Häufigkeitsbegriff bei Klassenbildung
o 4 Klassen vorgegeben:
1. Klasse: 0-2
2. Klasse: 2-4
3. Klasse: 4-6
4. Klasse: 6-8
o Symbolik:
Klassenuntergrenze ui
Klassenobergrenze oi
Klassenbreite bi = oi – ui
Klassenmitte mi = (ui+oi)/2
2 68
3 11356
4 1245668
5 23477
6 2
- Lageparameter:
o Geben Lage auf der x- Achse an
o arithmetisches Mittel (als einziger Lageparameter unzureichend, weil keine
Aussage über die Verteilung)
- andere:
o Streuungsparameter: je breiter das Histogramm, desto größer
o Schiefeparameter: Histogramm kann entweder symmetrisch; linkssteif;
rechtssteif sein
o Wölbeparameter
0<p<1
0,25- Quantil 1.Quartil (unteres x0,25
Quartil)
Median 0,5- Quantil 2.Quartil x0,5
0,75-Quantil 3.Quartil (oberes x0,75
Quartil)
Ai Ni Hi Ai*ni Ai*hi
2 10 0,1 20 0,2
3 30 0,3 90 0,9
4 40 0,4 160 1,6
5 20 0,2 100 1
∑ 100 1 370 3,7
( )
n
1+ p
K n= K 0∗ =K 0∗qn
100
o Stetiges Wachstum
Konstantes Wachstum
lim n->unendlich =(1+1/n)^n = e (eulersche Zahl)
n = 100 => 2,71
n = 1000 => 2,72
n∗p
K n= K 0∗e 100
= 7,7 * e
= 20,93 Mrd.
Bsp: K2000 = 4; K2020 = 16 => p?
16 = 4 * e^(20*p/100) |/4
4 = e^(20*p/100)
ln 4 = 20*p/100
ln 4 * 100/20 = p
p = 6,931 ≈ 7(%)
o Verdopplungszeit: Fall 1 (diskret)
Frage: Nach wie vielen Jahren verdoppelt sich die Zahl der Studierenden falls
die Verdopplungsrate 10%/Jahr beträgt?
Kn = K₀*(1+p/100)ⁿ => Kn = K₀ * (1+10/100)ⁿ
Kn/K₀ = 2 => 2 = 1,1ⁿ
ln 2 = n*ln 1,1
3. Logarithmenregel: ln(xⁿ) = n*ln x
n = ln 2/ln 1,1 = 7,3
nd = ln 2/(ln 1+p/100); p = 2
= ln 2/(ln 1+2/100) = ln 2/ ln q
= 35 Jahre
bei p = 1 => nd = ln 2/(ln 1 + 1/100) = ln 2/(ln 1,01) ≈ 0,7/0,01 = 70
Jahre
allg.: ln 2/(ln 1+p/100) ≈ 0,7/(p/100) => Faustformel: nd = 70/p
K₀ Bestand in t = 0
Kt Bestand in t
n Laufzeit in Jahren
p Konstante Wachstumsrate, z.B. %
p/100 Wachstumsrate ohne %- Angabe
pt Wachstumsrate t = 0, 1, 2, …
pbar Durchschnittliche Wachstumsrate
(1+p/100) = q Wachstumsfaktor
qbar Durchschnittlicher Wachstumsfaktor
- t = 0; K₀ = 1000
t = 1; K₁ = 1100 => K₁ - K₀: absolutes Wachstum; 1100-1000 = 100
(K₁-K₀)/K₀ = 100/1000 = 0,1 = p/100 => p = 10%
- Bsp: An einer Universität ändern sich die Studentenzahlen zuerst um 20%, im 2. Jahr
um 30% und im 3. Jahr ein Einbruch von 50%.
o K₀ = 1000, K₁ = 1000*1,2 = 1200, K₂ = 1200*1,3 = 1560, K₃ = 1560*0,5 = 780
- K₃ = K₀ * q₁ * q₂ * q₃ = K₀ * qbar³
1. Fall:
o qbar³ = q₁ * q₂ * q₃
o qbar = 3√q * q * q = (1,2* 1,3* 0,5)^1/3
o qbar = 0,9205
o qbar - 1 = 0,9205 – 1 = -0,079 => Durchschnittliche Wachstumsrate pbar= -
7,9%
o pbar = (n√q₁*q₂*q₃…qn) – 1 (*100%)
2. Fall:
o K₃/K₀ = q₁*q₂*q₃
o (3√K3/K0) -1 = (3√q₁*q₂*q₃) – 1
o pbar = [(n√Kn/K₀) – 1] *100
- Bsp.:
1. Aufgabe: 2000: 1200; 2017: 2400
o pbar = [(17√2400/1200) -1] *100
= 4,161% = 4,2% (Prozente werden auf Zehntelstelle gerundet)
2. Aufgabe: 5 Jahre steigen die Zahlen jährlich um 5%, danach steigen sie 10 Jahre
lang jährlich um 10%.
o pbar = [(15√1,05^5*1,1^10) -1] * 100%
= 8,3%
20 km/h
40 km/h
H _____40km_____ F
- Kontraharmonisches Mittel
o Anwendung bei durchschnittlichen Gruppengrößen
o C = 1/n * ∑ai²*ni
xbar
o 1. Bsp: Übungsaufgabe 3c
i ai ni ai² ai²*ni
1 0 40 0 0
2 1 10 1 10
3 2 10 4 40
4 3 10 9 90
5 4 10 16 160
6 5 20 25 500
∑ 100 800
xbar = 2
C = (1/100*800)/2 = 4 => 4-1 = 3
o 2. Bsp:
ai ni ai² ai²*ni
A 1 1 1 1
B 30 1 900 900
∑ 2 901
- Modalwert, Modus (nominal, ordinal, kardinal) = Klassenmitte der Klasse mit größter
Histogrammhöhe
- Unimodale Verteilung =1 Modus; bimodale Verteilung = 2 Modi (z.B. Körpergröße
von Männern & Frauen zusammen => hier statt 1x bimodal 2x unimodal)
- Beispiel 4.12 (S.43)
- p-Quantil
o Erläuterung:
i = Einfallklasse von p (Klasse, in die das p-Quantil fällt)
Einfallklasse ist die Klasse, bei der die Fi das p zuerst
überschreitet)
u = Klassenuntergrenze
p = pQuantil
hi = relative Häufigkeit
bi = Klassenbreite
Fi = Verteilungsfunktion von der vorherigen Klasse
o Beispiel:
Grafische Bestimmung mittels Verteilungsfunktion: s. Block
Rechnerische Bestimmung mithilfe der Formel:
Median: x0,5 = 5 + (0,5-0,31)/(0,35 )*10 = 10,4km
x0,2 = 1+(0,2-0,07)/(0,24)*4 = 3,2km (Interpretation: 80% der
Beschäftigten fahren weiter als 3,2km)
x0,75 = 15+(0,75-0,66)/(0,18)*15 = 22,5
x0,05 = 0,05/0,07 = 0,71 (sinnfrei: 5% fahren <0,71km?)
- Arithmetisches Mittel:
o Fall A: nur Klassen und Häufigkeiten gegeben
Bsp: Urliste 1 1 3 3 5 5 7 8 9 12 14 14
xbar = 82/12 = 6,833
4.3 Verteilungstypen
4.4 Streuungsparameter
- Spannweite:
o R = x(n) – x(1) = größter – kleinster Beobachtungswert
o Kritik: anfällig für Ausreißer (Outlier)
- Quartilsabstand:
o Q = x0,75-x0,25 = oberes Quartil – unteres Quartil
o Spannweite der mittleren 50%
o Bsp: x0,25 = ½(x5 + x6) = ½*(1,56+1,58) = 1,57
X0,75 = ½(x15+x16) = ½*(1,62+1,62) = 1,62
Q = 1,62-1,57 = 0,05
o Gängige Darstellung: Boxplot => 5 Lageparameter
i ai ni a²i a²i * ni
1 1,54 2 2,3716 4,7432
2 1,56 3 2,4336 7,3008
3 1,58 5 2,4964 12,482
4 1,60 3 2,5600 7,6800
5 1,61 1 2,5921 2,5921
6 1,62 3 2,6244 7,8732
7 1,63 3 2,6569 7,9707
∑ 20 50,6420
s² = 1/(20-1) * ∑(ai-xbar)²*ni = 1/19*(∑ai²*ni -20*xbar²) || NR: xbar = 31,82/20 =
1,591
= 1/19*(50,642-20*1,591²)
= 0,00086211
o Um gleiche Dimension wie Ursprungsdaten zu erhalten =>
Standardabweichung: s = √s² (s²>=0) => Interpretation
- Variationskoeffizient
4. Konzentrationsmessung
- Unterscheidung:
o Relative Konzentration (Disparität): geringer Anteil der Merkmalsträger
mit hohem Anteil an Merkmalssumme
o Absolute Konzentration: geringe Anzahl von Merkmalsträgern mit hohem
Anteil an Merkmalssumme
o Abhängig von Grundgesamtheit, ob hoch oder niedrig
- Gesamtmerkmalssumme: ∑ai*ni bzw. ∑xi
o xbar = (∑ai*ni)/n = ∑xi/n
o Bsp: Gesamtes Vermögen
Relative Konzentration
Hoch Niedrig
Anteil MT: gering Anteil MS: hoch Anteil MT: gering Anteil MS: gering
5% 80% 5% 7%
5% 99% 5% 5%
4.1 Lorenzkurve (grafische Darstellung der Disparität => rel. K.)
- Winkelhalbierende: Gleichverteilungsrate
- x-Achse = Anteil MT; y = Anteil MS
- (0,7/0,3): 70% der Haushalte mit dem kleinsten Vermögen haben 30% des
Gesamtvermögens
(0,4/0,1): 40% der Haushalte mit dem kleinsten Vermögen haben 10% des
Gesamtvermögens
(0,5/0,25): 50% der Haushalte mit dem kleinsten Vermögen haben 25% des
Gesamtvermögens, größten 50% haben 75% des Gesamtvermögens
0,25
0,5
o Interpretation:
80% der kleinsten Betriebe beschäftigen 65% der Angestellten
20% der größten Betriebe beschäftigen 35% der Angestellten
- Bsp 5.4, S.69:
- Interpretation nur mit dem LKM UND der Lorenzkurve möglich! 1 LKM hat
mehrere mögliche Lorenzkurven
- Herfindahl- Index
- bei Ranggleichheit wird das arithmetische Mittel der Rangzahlen gebildet, bspw.:
o 10 -> 1 || 12 -> 2 || 15 -> 3 -> 3,5 || 15 -> 4 -> 3,5 || 19 -> 5
o Hier kann die einfachere Formel nicht angewendet werden, sondern die
traditionelle (Ersatz von Ausgangswerten mit Rangwerten, Bravais-Pearson)
o => Näherungswerte
-
o Zusammenhang:
Kovarianz/Varianz von x
Korellationskoeffizient * Standardabweichung von
Y/Standardabweichung von X
- Wagen für 700€ online => Was bekommen Sie vor Ort? Regressionsrechnung!
7. Nicht-lineare Regression
- Spezialfall 1: Quadratische Funktion y = a + b * x²
- => Linearisierung durch Variablensubstitution
o Bsp. 7.25, S. 155f.: yhat = 7,707 + 1,11x²
b = 3961/3570 = 1,1095
a = ybar – b * xbar = 36 – 3961/3570 * 25,5 = 7,707
x = 10 => yhat = 118,707
- Spezialfall 2: Potenzfunktion y=a∗x b
- => Linearisierung durch Logarithmieren
- Beispiel
I xi yi Gruppe xI yI
1 2 4 2 4
2 3 6 3 6
3 4 8 I 4 8
4 5 9 5 9
5 6 10 6 10
∑ 20 37
xII yII
6 6 11 6 11
7 7 12 7 12
8 8 13 II 8 13
9 9 12 9 12
10 10 15 10 15
∑ 60 100 40 63
Bsp. VF 16:
- Beim Pferderennen sind 8 Pferde am Start, wie viele Möglichkeiten gibt es für die
ersten 3 Plätze?
n! 8!
o Mit RF, ohne WH => = =336 Möglichkeiten
( n−k ) ! ( 8−3 ) !
- Wie viele Möglichkeiten gibt es beim Lotto aus 49 Zahlen 6 rauszuziehen (ohne
Zusatzzahlen)?
o Ohne RF, ohne WH => ( n über k )=(49über 6)=13983816
- Ein Süßwarenhändler hat vier verschiedene Sorten von Bonbons. Wie viele
Möglichkeiten gibt es, eine Tüte mit 10 verschiedenen Sorten zu füllen?
o Ohne RF, mit WH => (n + k – 1 über k) = (4 + 10 – 1 über 10) = 286
- Geburtstagsproblem: Wie hoch ist die Wahrscheinlichkeit, dass bei 30 Personen 2
Personen an demselben Tag Geburtstag haben?
P ( A ∩ B1 )
- Ableitung Bayes: P ( B 1∨A ) = ≤P ( A ∩B 1) =P ( A|B1 )∗P ( B1 )
P( A )
P ( A )=P ( A ∩ B1 ) + P ( A ∩ B 2) −P ( A|B1 )∗P ( B1 ) + P ( A|B2 )∗P ( B2 )
- Aussage vom Quantil in der induktiven Statistik: Wahrscheinlichkeit, dass ein bestimmter
Wert unter-/überschritten wird
i
Var(X) = m2−m21
k-tes Moment ( E ( X k ) mk =∑ x i ∗p ( xi )
k
- Bsp. Würfel:
Xi P(xi) Xi*p(xi Xi²*p(xi)
)
1 1/6 1/6 1/6
2 1/6 2/6 4/6
3 1/6 3/6 9/6
4 1/6 4/6 16/6
5 1/6 5/6 25/6
6 1/6 1 36/6
∑ 1 21/6 = 91/6 =
3,5 15,166
o E(X) = μ = 3,5
√
o Var(X) = ∑xi²*p(xi) – μ² = 91/6 – 3,5² = 35/12 => σ = 35
12
- Bsp. Roulette: Es wird eine Einheit auf rot gesetzt. Bei rot werden 2 Einheiten
zurückgegeben, bei schwarz 0 und bei Null ½.
o Faires Spiel => Fairer Einsatz: weder Gewinn noch Verlust bei ausreichender
Wiederholung
o Anzahl Rot 2 => Gewinn X= 1: p = 18/37
Anzahl Schwarz 0 => Gewinn X= -1: p = 18/37
Anzahl Null ½ => Gewinn X= -1/2: p = 1/37
o E(X) = - 1/74 ≈ -0,0136 => pro Einheit verliere ich im Durchschnitt 1,36%
davon (negativer Gewinn!)
o E(X²) (2tes Moment) = 145/148
o Var(X) = 145/148 – (-1/74)² = 1341/1369 ≈ 0,9795
o σ ≈ 0,9897
MERKE: