Sie sind auf Seite 1von 11

Statistik

empfohlene Literatur: Contemporary Business Statistics (Sweeny)

Grundgesamtheit (GGH): gesamte zu beobachtende Menge (z. B. Bürger eines Landes)


Element: z. B. Studenten; Student = 1 Element
Merkmal u. Ausprägung: z. B. Haarfarbe(M), blond, braun,…(A)

GGH

Elemente

Stichprobe

deskriptive (beschreibende) Statistik:


Beschreibung von vorliegenden Daten und deren Zusammenfassung zur Ermittlung von
Kenngrößen.
 eindimensionale Häufigkeitsverteilung (1 Merkmal)
 zweidimensionale Häufigkeitsverteilung (2 Merkmale)

induktive (schließende) Statistik:


Durchführung einer Stichprobe um Rückschlüsse auf die Grundgesamtheit zu ziehen.

Zufallsauswahl (repräsentativ) → gleiche Auswahlwahrscheinlichkeit


Bsp.: Produktion von Schokoladentafeln: 1000 Stk./Tag, Kontrolle von 20 Stk.
→ jede 50. Tafel wird kontrolliert

Vorteile Nachteile

einfacher  kein
Zeitersparnis 100%iges Ergebnis
Kostenersparnis  nur Aussagen mit einer
WSK von 95-99% möglich

Auswahl aus Geratewohl (convenience sample)


 nicht repräsentativ → keine Rückschlüsse auf die GGH
 ungleiche Auswahl - WSK
 z. B. Füßgängerzone vormittags

Primärforschung: erhebt Daten direkt am Markt zu einem bestimmten Zweck


Vorteil: Aktualität auf spez. Bedingungen zugeschnitten
Nachteil: Kosten, Zeit

Sekundärforschung: Beschaffung und Analyse bereits vorhandener Daten (können


ursprünglich zu einem anderen Zweck erhoben worden sein, z. B.
statistisches Bundesamt)
Vorteil: geringe Kosten, Zeitersparnis
Nachteil: ungenau, unpassend, nicht aktuell
Grundgesamtheit

Stichprobe

deskriptive Statistik Auswertung induktive Statistik

Ergebnis

Skalierung

nominal: Ausprägungen stehen gleichberechtigt nebeneinander (quantitativ)


metrisch: Rangordnung und Abstände lassen sich angeben (quantitativ)
ordinal: Rangordnung lässt sich angeben (Abstände nicht messbar → qualitativ)

Measures of Location - Mean Median, Mode, Percentiles, Quantiles

Mean: x=
∑x i
(sample); µ=
∑x i
(population)
n N
n: sample size N: population size

Median: measure of location; 50% of values / Median / 50% of values


a +b
- even numbers: between 2 values,
2
- odd numbers: middle value

Mode: value that is most often mentioned

mean

mode median
p
Percentiles: i= ⋅n (value position)
100
i + (i +1)
(for even numbers; always round up for non-integers)
2

Quartiles: specific percentiles


~
- unteres Quartil: Q1 =ˆ x0, 25
→ Aussagen über die ersten 25% der Werte möglich
- mittleres Quartil: Q2 =ˆ ~x0,5 = ~x
→ Aussagen über die ersten 50% der Werte möglich
- oberes Quartil: Q3 =ˆ ~x0,7 5
→ Aussagen über die ersten 75% der Werte möglich

Measures or variabilities - Range, Interquartile range, Variance,


Standard Deviation

Range: Differenz/Abstand zwischen dem größten und dem kleinsten Wert


R = xio − xiu
→ wo hätte der häufigste Wert (D) vorkommen können (nur geringe
Aussagekraft)

Interquartile range: Range für die mittleren 50% (75% - 25%)


→ in welcher Spannweite weichen die Werte vom Median ab

Variance: average of the squared difference


based on the difference between the value of each observation

s =
2 ∑ ( xi − x ) 2
;σ =
2 ∑ ( xi − µ ) 2
n −1 N
Summe aller Abweichungen vom arithmetischen Mittel
(nur Hilfsmittel, hat keine Aussagekraft)

Standard deviation: s = s 2
durchschnittliche Abweichung vom arithmetischen Mittel
___________________________________________________________________________

Deduktive Statistik

Beschreibung von eindimensionalen Häufigkeiten durch


Lageparameter
→ Lokationsmaße / measures of location (Mittelwerte), die die durchschnittliche
Lage der Merkmalswerte beschreiben

Skalierung Mittelwerte
nominal Modus (D)
orinal Modus (D), Median ( ~
x)
metrisch ~
Modus (D), Median ( x ), Mean (
x)

Modus (Modalwert): am häufigsten auftretende Wert bzw. Merkmalsausprägung einer


Verteilung
Interpretation: Die meisten Elemente haben D als Wert/Ausprägung.

Median: Wert, der die Stichprobe in zwei Hälften teilt


Interpretation: 50% aller Werte sind kleiner oder gleich dem Median und der
Rest ist größer.

Mean (Arithm. Mittel): durchschnittlicher Wert einer Verteilung


Interpretation: Im Durchschnitt haben alle Elemente eine Ausprägung mit dem
Wert x .

Schiefe der Verteilung


→ stellt die Mittelwerte grafisch dar

1) symmetrisch: entspricht der Normalverteilung D=~


x=x

D, ~
x, x

2) linkssteil / rechtsschief: (right hand slope) x≤~


x≤D

D ~
x x

3) linksschief / rechtssteil: left hand slope x≤~


x≤D
x ~
x D

Streumaße (Measures of variability)


→ treffen Aussagen über die Größe der Abweichung der einzelnen Werte von den
Mittelwerten

Mittelwert Streumaße
mode (D) -
median ( ~
x) Interquartile range (IQR), range
mean ( x ) 2
variance ( s x ), standard deviation ( s x
)

Eindimensionale Häufigkeiten
i: Nummer der Klasse
xi : Klassenbeschriftung/Merkmalsausprägung
ni : absolute Häufigkeit
n : Stichprobenumfang ( ∑ni )
N : Grundgesamtheit (GGH)
n
hi : relative Häufigkeit ( i )
n
Fi : kumulierte relative Häufigkeit (macht prozentuale Aussagen möglich)
∆xi : Klassenbreite (bei gruppierten Daten; xio − xiu )
h
f i : Dichte ( i )
∆xi
→ nur interessant bei Klassen mit mit unterschiedlicher Breite
→ gibt Auskunft über den Modus (D) bei unterschiedlicher Klassenbreite
→ unverfälschtes Bild der Verteilung
x o − xiu
xi* : Klassenmitte ( i )
2

Ausreißer einer Analyse


Normalverteilung (→ Gaußsche Glockenkurve)

Ausreißer Ausreißer

-3s -2s -s x s 2s 3s

68%
96%
99%

Verfahren mit Ausreißern: Werte auf Fragestellung prüfen (situationsbedingt)


empfindlich gegenüber Ausreißern: x , s x , R

Warum verwendet man gruppierte Daten? günstiger, übersichtlicher

Zielsetzung der Statistik für die Wirtschaft:


Generieren von Wissen durch Datenerfassung und Auswertung
→ dient der Entscheidungsfindung bzw. Unterstützung von Entscheidungen

Zweidimensionale Häufigkeit
nominal ordinal metrisch
- Kontingenzkoeffizient K * nominal K* K* K*
- Korrelationskoeffizient r ordinal rsp rsp
K*
- Rangkorrelationskoeffizient rsp r
metrisch K* rsp

Korrelation: Wechselbeziehung zweier Merkmale soll beschrieben werden. Hierbei


wird nicht berücksichtigt, ob es einen Ursache-Wirkungs-Zusammenhang
gibt, nur die Stärke und Richtung des Zusammenhangs.

Kontingenzkoeffizient: mind. ein nominales Merkmal


0 ≤ K * ≤ 1 (Stärke des Zusammenhangs, nicht die Richtung)
χ2 M
K* = ⋅ ; M = min(Spalte, Zeile)
n + χ M −1
2

zunächst: Unabhängigkeitstabelle
ni • : Summe Zeile i
n• j : Summe Spalte j

~n = ni• ⋅ n• j
~ )2
(nij − n
; χ2 = ∑
ij

ij ~
n
M ij

Rangkorrelationskoeffizient: mind. ein ordinales und kein nominales Merkmal


6 ⋅ ∑( Ri − Ri' ) 2
rsp = 1 − ; −1 ≤ rsp ≤1
(n +1) ⋅ n ⋅ ( n −1)
(Stärke und Richtung des Zusammenhangs)
Ergebnis: positiv → gleichlaufender Zusammenhang
negativ → gegenläufiger Zusammenhang
Berechnung: x: i ; y: i'
1) Rangfolge der Werte
2) Merkmale müssen gleichgerichtet sortiert werden
Merke: Bei einem metrischen Merkmal müssen zuerst Ränge gebildet
werden!
Korrelationskoeffizent: beide Merkmale sind metrisch
0 ≤ rxy ≤1 ; x: unabhängiges Merkmal , y: abhängiges Merkmal
Ziel: Berechnung der beidseitigen Abhängigkeiten zweier Merkmale
x und y.
s xy
r= ; sxy: Kovarianz , sx/y: Standardabweichung (x, y)
sx ⋅ s y

s xy =
∑(x i − x ) ⋅ ( yi − y )
(nicht quadrieren, da sonst nur
n −1
positive Werte möglich)

Regression
- Merkmale nicht gleichberechtigt
- Ursache-Wirkung-Zusammenhang (x: Ursache , y: Wirkung)

Die Lage der Punktwolke soll durch die Bildung der Regressionsgeraden bestmöglich
beschrieben werden. Es zeichnet sich ein Trend ab.

lineare Regression: mit Hilfe einer linearen Funktion soll die Beziehung zwischen zwei
Variablen (x, y) beschrieben werden
→ Vorhersagen/Prognosen (nur für metrisch skalierte Merkmale)

s xy
Regressionsgerade: yˆ = b0 + b1 ⋅ x mit b0 = y − b1 ⋅ x ; b1 = 2
sx

y-Achse bei x=0 Steigung

Bestimmungsmaß: r2 =
SSR
=
∑ ( yˆ i − y) 2
SST ∑( y i − y) 2
r²: Güte der Regression (Annäherung der Punkte an die Gerade
→ Je näher r² an 1, desto besser beschreibt die Regressions
gerade die Punktwolke.
r² = 1: alle Werte liegen auf der Geraden
Interpretation: r² Prozent der Streuung der abhängigen Variable
lässt sich durch die Streuung der unabhängigen
Variable erklären.

Induktive Statistik

→ Rückschlüsse der Kennziffern aus einer Stichprobe auf die Grundgesamtheit

Stichprobe GGH
Mittelwerte x µ = E (x )
Standardabw sx σ
.
Anteilswerte p P
Der zentrale Grenzwertsatz:
Die Summe einer großen Stichprobe von unabhängigen, identisch verteilten Zufallsvariablen
xi ist annähernd (standard-) normalverteilt.

σ
E (x ) = µ (Erwartungswert von x der GGH); sx =
n
mehrere Stichproben → mehrere Mittelwerte

Je größer die Stichprobe, desto näher kommt man dem wahren Mittelwert, desto kleiner die
Varianz und die Standardabweichung.

Die Normalverteilung (→ Gaußsche Glockenkurve) wird durch zwei Parameter bestimmt:

µ : Kurvenlage auf der x-Achse


σ : Höhe der Stauchung
Alle normalverteilten x-Werte aus einer Stichprobe können zu standardnormalverteilten z-
Werten standardisiert werden, um Wahrscheinlichkeiten bestimmen zu können.

Standardnormalverteilung:
→ Approximation (Annäherung) der Normalverteilung durch die Standardnormalvertei
lung geschieht durch die z-Transformation

x −µ
z= → die Wahrscheinlichkeiten können als Flächen zwischen Kurve
σ
und x-Achse abgelesen werden (v. l. n. r.)

Konfidenzintervall
Mit Hilfe der Konfidenzintervalle lassen sich Aussagen über ausgewählte Kenngrößen der
GGH machen, ohne dass die GGH beobachtet wird.
Es beschreibt einen Bereich, in dem ein Parameter der GGH mit einer vorgegebenen
Sicherheitswahrscheinlichkeit (95%, 99%), basierend auf einer Stichprobe, erwartet werden
kann.

allgemein: P (Untergrenz e < Parameter < Obergrenze ) = 1 − α ,


α =ˆ Irrtums-WSK
→ die Intervallgrenzen (eines Konfidenzintervalls) können wir beeinflussen durch:
Sicherheitswahrscheinlichkeit ( =1 −α)
Irrtumswahrscheinlichkeit (= α)
Stichprobenumfang (= n)
ob die Varianz (→ Streuung) gegeben ist

1 −α
α α
= 95% α = 5%
2 2
µ
- je kleiner α , desto größer und präziser das Intervall
- je größer α , desto kleiner und ungenauer das Intervall
- je kleiner n , desto größer und ungenauer das Intervall
- je größer n , desto kleiner und genauer das Intervall

Vorteile: - Kosten- und Zeitersparnis


- genaue Eingrenzung der Standardabweichung

Nachteile: - keine 100%igen Aussagen möglich


- Ausreißer werden nicht herausgefiltert

Welche Verteilung nehme ich?

x→ σ gegeben P( x − z α ⋅ σ x ≤ µ ≤ x + z α ⋅ σ x ) = 1 − α
; z: Stichprobenfehler
2 2

x→ σ nicht gegeben 2 Fälle:


sx
n < 3 0 → t − V e r te ilu n: tgv α ⋅ ; v =ˆ F r e ih e itsragd e
1−
2 n
sx
n ≥ 30 → Normalverteilung : z α ⋅
1−
2 n

Die Binomialverteilung lässt sich durch die Normalverteilung annähern, wenn folgende
Vorraussetzung erfüllt ist: n ⋅ p ⋅ (1 − p ) ≥ 9 oder n ⋅ p ≥ 5 und n ⋅ (1 − p ) ≥ 5

σ
Streuung: x ± zα ⋅ → Standardabw. für den durchschnittlichen Anteilswert
2 n

Freiheitsgrade:
Ist σ unbekannt, so muss es durch den Schätzer s (Standardabweichung der Stichprobe)
ersetzt werden. Das dazugehörige Konfidenzintervall basiert auf einer t-Verteilung mit
v = n −1 Freiheitsgraden. Für eine kleine Anzahl an Freiheitsgraden verläuft die t-Verteilung
flacher als die Normalverteilung. Dieser Unterschied verringert sich mit wachsenden
Freiheitsgraden, so dass es ab einem Stichprobenumfang von n ≥ 30 zulässig ist, anstelle der
t-Verteilung die Standardnormalverteilung zu verwenden.

Anteilswert:
Aus Anteilswerten in der Stichprobe sollen diese in der Grundgesamtheit bestimmt werden.
Bei dichotomer (zweigeteilter) Grundgesamtheit:
p : Anteilswert der GGH
p̂ : Anteilswert der Stichprobe
p 0 : unterstellter Anteilswert für eine Hypothese

Modell mit Zurücklegen (Binomialverteilung):


günstigeFä lle ( pˆ )
Test auf Anteilswerte →
möglicheFä lle (n)
pˆ ⋅ (1 − pˆ ) pˆ ⋅ (1 − pˆ )
Konfidenzintervall → P( pˆ − z1−α ⋅ ≤ p ≤ pˆ + z α ⋅ ) = 1−α
2
n 1−
2
n

Stichprobenfehler ( = ∆p )

z 2 ⋅ pˆ ⋅ (1 − pˆ )
optimaler Stichprobenumfang → n ≥
∆p 2

Testen von Hypothesen


→ Aussagen oder Behauptungen über einen Wert in der Grundgesamtheit werden überprüft.

Einsatz: Mittelwert einer GGH (μ) / Anteilswert einer GGH (p) / Regressionskoeffizien
ten einer GGH (ß0, ß1) / Unabhängigkeitstest

Nullhypothese (H0): zu überprüfende Hypothese


Alternativhypothese (HA): gegenseitige Hypothese

- einseitige (Über- oder Unterschreitung) oder zweiseitige (Intervall) Fragestellung


- kritischer Bereich: in welchem Bereich H0 abgelehnt werden muss
- beobachteter Wert:
x − µ0
z-Test → z = ⋅ n → Normalverteilung
σ
x − µ0
t-Test → t = ⋅ n → t-Verteilung (wenn σ unbekannt; n ≤ 30 )
s
Vorgehensweise: 1) Hypothese aufstellen (H0, HA)
→ einseitige oder zweiseitige Fragestellung
2) Verteilung bestimmen: z oder t
3) kritischen Bereich definieren
4) beobachteten Wert berechnen
5) H0 annehmen/ablehnen + Interpretation

Fall 1:
zweiseitige Fragestellung: H0: µ = µ0
HA: µ ≠ µ0

Annahme-
Ablehnungsbereich bereich Ablehnungsbereich

α α
1− 1−
2 2
Fall 2:
einseitige Fragestellung: H0: µ ≤ µ0
(Abgrenzung nach oben) HA: µ ≥ µ0

Annahme-
bereich Ablehnungsbereich

1 −α

Fall 3:
einseitige Fragestellung: H0: µ ≥ µ0
(Abgrenzung nach unten) HA: µ ≤ µ0

Annahme-
Ablehnungsbereich bereich

1 −α

→ Die angezweifelte Behauptung/Aussage kommt immer in H0

α-Fehler und β-Fehler:


Da man hat nicht die volle Information über alle Werte der GGH, sondern nur eine Stichprobe
hat, muss man die Möglichkeit einräumen, Fehler zu machen.
Entscheidung
H0 ablehnen H0 annehmen
In Wirklichkeit gilt

H0 richtig α-Fehler kein Fehler


(Fehler 1-Art) richtige Entscheidung

H0 falsch kein Fehler β-Fehler


richtige Entscheidung

α- Fehler (Fehler 1. Art):


man lehnt H0 ab, obwohl sie richtig ist

β-Fehler (Fehler 2. Art):


man nimmt H0 an, obwohl sie falsch ist

Die Größe der WSK für einen Fehler 1.Art kann man durch α bestimmen (meistens 5% und
1%). Durch negative Formulierung mit dem Ziel H0 abzulehnen kann der Fehler 2. Art
vermieden werden.