Beruflich Dokumente
Kultur Dokumente
1
Die deskriptive (auch: beschreibende) Statistik hat
zum Ziel, empirische Daten durch Tabellen, Kennzah-
len (auch: Maßzahlen oder Parameter) und Grafiken
übersichtlich darzustellen und zu ordnen.
2
Mathematische Grundlage der Wirtschaftsstatistik ist
also die Mathematik des Zufalls“ die auch als Sto-
” ”
chastik“ bezeichnet wird. Stochastik steht dabei als
Sammelbegriff für die Gebiete Wahrscheinlichkeits-
rechnung und Mathematische Statistik sowie deren
Anwendungen (insbesondere zufällige Prozesse).
Anwendungsfelder
alle Zweige der Wirtschaft, aber auch der Naturwis-
senschaften und Technik, z. B.
• Versicherungswesen
• statistische Qualitätskontrolle
• Meinungsforschung
• usw.
3
1. Beschreibende Statistik
4
Beispiele
• Amtliche Statistik
– statistische Ämter
(z. B. statistisches Bundesamt, statistische
Landesämter)
– Ressortstatistik
(Abteilungen von Behörden, z. B. in Bundes-
und Landesministerien, Bundes- und Landes-
bank, Kfz-Zulassungsamt in Flensburg)
• Nichtamtliche Statistik
(z. B. IHK, Meinungsforschungsinstitute, Markt-
forschungsinstitute, Unternehmen)
• Internationale Organisationen
(z. B. UNO, WHO, UNESCO, EU)
6
Merkmalsarten, Mess- und Skalenniveau
Qualitative Merkmale
Nominal messbare Merkmale
Klassifizierung nach rein qualitativen Merk-
malen, es existiert keine natürliche Reihen-
folge, man kann lediglich beurteilen, ob der
Merkmalswert bei zwei statistischen Einheiten
gleich oder verschieden ist. Eine Codierung
auf dem Computer ist vollkommen willkürlich.
Beispiele sind [(A)] oder etwa die Nationalität
oder die Hautfarbe einer Person.
7
Qualitative Merkmale (Fortsetzung)
8
Quantitative (metrisch messbare) Merkmale
Die Merkmalsausprägungen sind reelle Zahlen.
Diskrete Merkmale
Die Merkmalsausprägungen sind isolierte
Zahlenwerte (wie etwa das Alter in Jahren).
Stetige Merkmale
Die Merkmalsausprägungen können prinzi-
piell jeden Wert aus einem gewissen Intervall
annehmen (Größe, Länge, Gewicht).
9
Quantitative (metrisch messbare) Merkmale (Fortsetzung)
Bei quantitativen, also metrisch messbaren
Merkmalen existiert stets eine Abstandsbezie-
hung zwischen den Merkmalsausprägungen.
Folgende Klassifizierung ist möglich.
10
Quantitative (metrisch messbare) Merkmale (Fortsetzung)
y = a · x.
11
Zusammenfassung
15
Oft ist auch die Verwendung der relativen Häufigkei-
ten
Hj
hj :=
n
oder der Prozentanteile
100% · hj
üblich. Man beachte aber, dass ohne Kenntnis
von n eine Rekonstruktion von H1, H2, . . . , Hs aus
h1, h2, . . . , hs nicht möglich ist.
16
Balkendiagramme
Ist die Anzahl der in der Stichprobe vorkommenden
Merkmalsausprägungen klein, können die absoluten
oder relativen Häufigkeiten direkt in ein Balkendia-
gramm eingetragen werden.
Beispiel:
Wir betrachten das nominale Merkmal gewählte Par-
”
tei (Zweitstimme)“ der statistischen Einheit gültiger
”
Stimmzettel“ bei der Wahl zum 19. Deutschen Bun-
destag am 24. September 2017. In der Stichprobe
vom Umfang n = 46 506 857 aller abgegebenen
gültigen Zweitstimmen ergibt sich die in nachfolgen-
der Tabelle dargestellte Häufigkeitsverteilung.
Partei Hj hj 100% · hj
CDU/CSU 15 325 576 0.330 33.0 %
SPD 9 538 367 0.205 20.5 %
DIE LINKE 4 296 762 0.092 9.2 %
GRÜNE 4 157 564 0.089 8.9 %
FDP 4 997 178 0.108 10.8 %
AfD 5 877 094 0.126 12.6 %
Sonstige 2 314 316 0.050 5.0 %
17
Exemplarisch soll das Balkendiagramm der Prozent-
werte dargestellt werden, Darstellungen der absolu-
ten bzw. relativen Häufigkeiten sind genauso üblich.
18
Problem der Klasseneinteilung
Im Allgemeinen sind durch das Untersuchungsziel
klare Gruppierungskriterien vorgegeben, z. B. in Form
sachlicher, zeitlicher, geographischer oder politischer
Strukturen oder aber durch Definition.
19
Problem:
Wie die Werte a1 < a2 < . . . < as < as+1 wählen?
Es sei
n . . . Anzahl der Untersuchungseinheiten
xmin . . . kleinster Merkmalswert der Stichprobe
xmax . . . größter Merkmalswert der Stichprobe
Man wähle
√
s = n . . . Anzahl der zu bildenden Gruppen
Das Ergebnis ist auf- oder abzurunden und sollte nicht
größer als 20 sein (Übersichtlichkeit, sonst s = 20
setzen).
Gruppenbreite: d = xmax−x
s
min
41 24 42 33 5 48 42 49 39 30
34 32 40 43 33 38 44 8 33 43
29 43 23 41 14 43 14 22 40 42
31 44 42 1 40 41 10 40 35 37
44 41 37 23 35 35 33 34 42 12
√
Dann folgt 50 = 7.1 ≈ 7 = s
und 49−1
7 = 6.8 ≈ 7 = d
[1, 8), [8, 15), [15, 22), [22, 29), [29, 36),
[36, 43), [43, 50] .
22
Die grafische Darstellung gruppierten Datenmaterials
erhält man zum Beispiel in Form eines Blockdia-
gramms (Histogramms), indem über jedem der Teil-
intervalle [aj , aj+1) ein Rechteck errichtet wird.
23
Wählt man im obigen Beispiel die genannte Klassen-
einteilung erhält man die folgenden zugehörigen rela-
tiven Klassenhäufigkeiten kj und Rechteckhöhen yj .
j 1 2 3 4 5 6 7
kj 0, 04 0, 10 0, 00 0, 08 0, 26 0, 34 0, 18
yj 0, 006 0, 014 0, 000 0, 011 0, 037 0, 049 0, 026
0.05
0.04
0.03
0.02
0.01
0
0 5 10 15 20 25 30 35 40 45 50
24
Auch andere Klasseneinteilungen können sinnvoll
sein. Wählt man in obigem Beispiel etwa nur 5 Klas-
sen und die Klasseneinteilung
[0, 25) , [25, 33) , [33, 40) , [40, 47) , [47, 50]
j 1 2 3 4 5
kj 0.22 0.08 0.26 0.40 0.04
yj 0.009 0.010 0.037 0.057 0.013
0.06
Blockdiagramm: 0.05
0.04
0.03
0.02
0.01
0
0 25 33 40 47 50
25
Hier wird deutlich, dass die richtige Wahl der Recht-
eckhöhen wichtig ist. Würde man die relativen Klas-
senhäufigkeiten nicht den entsprechenden Recht-
eckflächen, sondern den Rechteckhöhen zuordnen,
ergäbe sich das folgende Blockdiagramm.
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0 25 33 40 47 50
26
Oben erwähnte Verzerrungen begegnen uns (wenn
auch meist nicht in so offensichtlicher Form) im tägli-
chen Leben recht häufig, siehe dazu auch
27
Es sei noch erwähnt, dass es auch möglich ist, statt
der relativen Häufigkeiten die absoluten Häufigkeiten
in Blockdiagramme einzutragen, hier sind die selben
Grundsätze zu beachten, um eine Verfälschung des
Diagramms zu vermeiden.
28
Lagemaße
Sinnvolle Beispiele:
29
Fazit:
In allen obigen Fällen kann man sich - ohne die Ein-
zelwerte zu kennen - sofort ein Bild über die jeweilige
allgemeine Situation machen. Dies ist der Sinn von
Lagemaßen.
Bezeichnung: xD
xD ist der in der Stichprobe am häufigsten angenom-
mene Wert.
30
Beispiel (siehe oben):
Bei einer Klausur sollen die Ergebnisse von n = 50
Studenten ausgewertet werden. Es sind maximal 50
Punkte zu erreichen. Das Resultat ist in folgender Ta-
belle zusammengefasst.
41 24 42 33 5 48 42 49 39 30
34 32 40 43 33 38 44 8 33 43
29 43 23 41 14 43 14 22 40 42
31 44 42 1 40 41 10 40 35 37
44 41 37 23 35 35 33 34 42 12
31
Manchmal spricht man auch bei gegebener Klassen-
einteilung von empirischen Modalwerten. Das ist nicht
ganz exakt. Bei der Einteilung
[1, 8), [8, 15), [15, 22), [22, 29), [29, 36),
[36, 43), [43, 50)
32
Empirischer Median (Zentralwert)
Bezeichnung: x e
e ist ein Wert, für den gilt, dass mindestens die Hälfte
x
aller Stichprobenelemente kleiner oder gleich x e und
mindestens die Hälfte aller Stichprobenelemente
größer oder gleich x e sind. Seine Bildung ist bei
ordinalen und metrischen Merkmalen (nicht jedoch
bei nominalen Merkmalen) sinnvoll.
Zur Berechnung geht man von der Stichpro-
be x1, x2, . . . , xn zur geordneten Stichprobe
x(1), x(2), . . . , x(n) mit x(1) ≤ x(2) ≤ . . . ≤ x(n)
über. Man definiert dann
x n+1 n ungerade
2
x
e=
1· x( n ) + x( n +1) n gerade.
2 2 2
33
Beispiel (siehe oben):
Bei einer Klausur sollen die Ergebnisse von n = 50
Studenten ausgewertet werden. Es sind maximal 50
Punkte zu erreichen. Das Resultat ist in folgender Ta-
belle zusammengefasst.
41 24 42 33 5 48 42 49 39 30
34 32 40 43 33 38 44 8 33 43
29 43 23 41 14 43 14 22 40 42
31 44 42 1 40 41 10 40 35 37
44 41 37 23 35 35 33 34 42 12
1, 5, 8, 10, 12, 14, 14, 22, 23, 23, 24, 29, 30,
31, 32, 33, 33, 33, 33, 34, 34, 35, 35, 35, 37,
37, 38, 39, 40, 40, 40, 40, 41, 41, 41, 41, 42,
42, 42, 42, 42, 43, 43, 43, 43, 44, 44, 44, 48, 49
und es gilt
1
e = · x(25) + x(26) = 37.
x 2
34
Anmerkung
2 gleiche Teile x
e = x0.5 Empirischer Median,
Zentralwert
4 gleiche Teile x0.25 , x
e, x0.75 Empirische Quartile
10 gleiche Teile x0.1 , . . . , x0.9 Empirische Dezile
100 gleiche Teile x0.01 , . . . , x0.99 Empirische Perzentile
35
Arithmetisches Mittel
Bezeichnung: x
x ist der wichtigste und gebräuchlichste Mittelwert,
man berechnet
n
1 X
x= · xi .
n i=1
Man beachte jedoch stets, dass die Bildung des arith-
metischen Mittels nur bei metrisch messbaren Merk-
malen zulässig ist, da nur dort die Abstandsbeziehung
der reellen Zahlen zur Verfügung steht.
36
Anmerkung
Ist das Datenmaterial gruppiert (s Gruppen), so be-
rechnet man aus den Merkmalswerten der Gruppen
xj und den relativen Gruppenhäufigkeiten kj (siehe
oben) das gewogene arithmetische Mittel gemäß fol-
gender Formel
s
X
x= xj · k j .
j=1
Liegen dabei Gruppen vor, deren Merkmalswerte in
Bereiche unterteilt sind (von . . . bis / von . . . bis unter),
so verwendet man als xj einer Gruppe üblicherweise
die Gruppenmitte.
37
Weitere gelegentlich verwendete Lagemaße sind. . .
Geometrisches Mittel
v
u n
√
n
uY
n
xg = x1 · x2 · . . . · xn = t xi
i=1
Wichtigstes Einsatzgebiet ist die Mittelung von Indizes
(Entwicklungskennziffern) sowie die Berechnung des
durchschnittlichen Wachstumstempos.
Beispiel:
Herr X kauft für 1000 EURO Aktien. Im ersten Jahr
steigt deren Wert um 20 %, im zweiten Jahr um 25 %
und im dritten Jahr sinkt der Wert um 33.33 %. Be-
rechnen Sie die durchschnittliche Wertveränderung
der Aktien.
s
3 2
1.20 · 1.25 · = 1
3
Harmonisches Mittel
n n
xh = 1 1 + ··· + 1
= n
x1 + x2 xn
P 1
x
i=1 i
Diese Sonderform der Berechnung von Durchschnit-
ten wird selten gebraucht und nur bei spezifischen
Datensituationen angewendet.
Anwendungssituation
n Beobachtungswerte (metrisch skaliertes Merkmal).
Das Merkmal ist eine Beziehungszahl der allgemei-
nen Form ab . In der Bezeichnung des Merkmals findet
man daher Ausdrücke wie je“, pro“oder /“,
” ” ”
Beispiele: km/h, Verbrauch pro Kopf, Kosten pro
Stück,. . .
Der Ausdruck b im Zähler bleibt für jede Messung des
Merkmals konstant.
39
Zahlenbeispiel zum harmonischen Mittel
Beispiele:
41
Spannweite
Bezeichnung: R
R ist die Differenz zwischen dem größten und dem
kleinsten Beobachtungswert in der Stichprobe, in For-
meln ausgedrückt (nach Übergang zur geordneten
Stichprobe)
R = x(n) − x(1) .
Die Angabe der Spannweite ist für ordinal und me-
trisch meßbare Merkmale sinnvoll. Sie stellt ein sehr
einfach zu bestimmendes Streuungsmaß dar, ist aber
auch nicht sehr aussagekräftig.
R = 49 − 1 = 48 .
42
Im Allgemeinen untersucht die beschreibende Stati-
stik allerdings nicht das Verhalten von Einzelwerten,
sondern das Typische, Allgemeingültige, Wesentliche
von Massenerscheinungen.
43
Die nachfolgenden Streuungsmaße können nur für
metrisch messbare Merkmale bestimmt werden.
44
Empirische Varianz
Bezeichnung: s2
Man berechnet
n
1
s2 = ( xi − x) 2 ,
X
·
n − 1 i=1
wobei x das arithmetische Mittel darstellt. Die em-
pirische Varianz ist in gewisser Weise die mittlere
quadratische Abweichung der Stichprobenwerte vom
arithmetischen Mittel x. Die Frage, warum es sinnvoll
ist durch n − 1 (und nicht durch n) zu dividieren, wird
in der beurteilenden Statistik geklärt. Die empirische
Varianz ist das gebräuchlichste Streuungsmaß.
Empirische Standardabweichung
Bezeichnung: s
s ist die Quadratwurzel aus der empirischen Varianz,
v
n
1
u
( xi − x) 2 .
u X
s=t ·
n − 1 i=1
Die empirische Standardabweichung hat (im Gegen-
satz zur empirische Varianz) die gleiche Einheit wie
die Merkmalsausprägungen.
45
In obigem Beispiel gilt
1
s2 = · (41 − 33.38)2 + (24 − 33.38)2 + . . .
50 − 1
2
+ (12 − 33.38)
= 137.91
und
p
s = s2 = 11.74 .
46
Boxplots
Der Boxplot ist ein Instrument zur grafischen Da-
tenanalyse anhand von Lage- und Streuungspara-
metern. Er zeigt
• die Quartile x0.25 und x0.75 als Grenzen der
Grafik und damit den Interquartilsabstand (IQA),
• die Lage des Medians x0.5 innerhalb des IQA,
• die Lage des kleinsten und des größten Wertes,
die noch nicht als extrem bezeichnet werden,
(maximal 1.5 · IQA = maximal 1,5 Boxbreiten
vom nächsten Quartil entfernt),
• Ausreißer, mit einer Entfernung zwischen 1,5 und
maximal 3 Boxbreiten vom nächsten Quartil,
• Extremwerte mit einer Entfernung > 3 Boxbreiten
vom nächsten Quartil.
47
Beispiel (siehe oben):
Bei einer Klausur sollen die Ergebnisse von n = 50
Studenten ausgewertet werden. Es sind maximal 50
Punkte zu erreichen. Das Resultat ist in folgender Ta-
belle zusammengefasst.
41 24 42 33 5 48 42 49 39 30
34 32 40 43 33 38 44 8 33 43
29 43 23 41 14 43 14 22 40 42
31 44 42 1 40 41 10 40 35 37
44 41 37 23 35 35 33 34 42 12
40
30
Punkte
20
10
37
18
0 34
48
Beispiel (Fortsetzung):
Angenommen, die letzte Punktezahl wurde falsch er-
fasst,
41 24 42 33 5 48 42 49 39 30
34 32 40 43 33 38 44 8 33 43
29 43 23 41 14 43 14 22 40 42
31 44 42 1 40 41 10 40 35 37
44 41 37 23 35 35 33 34 42 120
100
80
Punkte
60
40
20
27
18 25
37
5
0
34
49
Zusätzlich zu den Punktezahlen sei die Intensität der
Vorbereitung auf die Klausur (Merkmalsausprägun-
gen schlecht und gut) erfasst worden. Es werden für
die Punktezahlen bei beiden Ausprägungen getrennte
Boxplots erstellt:
50
40
Punkte
30
20
37
10
0
schlecht gut
Vorbereitung
50