Wirtschaftsstatistik

Wirtschaftsstatistik
Was versteht man unter Statistik?
• Statistik erfasst und erforscht Massenerschei-

nungen in ihrer quantitativen Bestimmtheit.
• Die zahlenmäßigen Ergebnisse statistischer

Analysen widerspiegeln Niveau, Struktur,
Entwicklung oder Zusammenhänge von Erhe-
bungen.
• Statistik umfasst somit die Gesamtheit der Me-

thoden, Verfahren und Ausdrucksmittel, um zah-
lenmäßige Informationen zu gewinnen, darzustel-
len und zu analysieren.
1
Die deskriptive (auch: beschreibende) Statistik hat
zum Ziel, empirische Daten durch Tabellen, Kennzah-
len (auch: Maßzahlen oder Parameter) und Grafiken
übersichtlich darzustellen und zu ordnen.
Die explorative Datenanalyse (auch: erkundende)

Statistik hat zum Ziel, bisher unbekannte Strukturen
und Zusammenhänge in den Daten zu finden und
hierdurch neue Hypothesen zu generieren.
Die mathematische Statistik (auch schließende bzw.

induktive Statistik) ist das Teilgebiet der Statistik, das
die Methoden und Verfahren der Statistik mit mathe-
matischen Mitteln analysiert beziehungsweise mit ih-
rer Hilfe erst begründet.
2
Mathematische Grundlage der Wirtschaftsstatistik ist
also die Mathematik des Zufalls“ die auch als Sto-
” ”
chastik“ bezeichnet wird. Stochastik steht dabei als
Sammelbegriff für die Gebiete Wahrscheinlichkeits-
rechnung und Mathematische Statistik sowie deren
Anwendungen (insbesondere zufällige Prozesse).
Anwendungsfelder
alle Zweige der Wirtschaft, aber auch der Naturwis-
senschaften und Technik, z. B.
• Versicherungswesen
• statistische Qualitätskontrolle
• Medizin und Gesundheitswissenschaften
• Meinungsforschung
• Biologie und Chemie
• usw.
3
1. Beschreibende Statistik
Bei statistischen Untersuchungen (Erhebungen) wer-

den an geeignet ausgewählten statistischen Einhei-
ten (Untersuchungseinheiten, Beobachtungseinhei-
ten) jeweils die Werte eines oder mehrerer Merkmale
festgestellt.
Dabei ist ein Merkmal die zu untersuchende Eigen-

schaft der statistischen Einheit.
Die Werte, die ein Merkmal annehmen kann, heißen

Merkmalsausprägungen oder Merkmalsvariationen.
Der Merkmalswert ist die bei der Untersuchung einer

bestimmten statistischen Einheit festgestellte Merk-
malsausprägung.
4
Beispiele
statistische Einheit Merkmal Merkmalsausprägungen

(A) Beschäftigter Beschäftigungsart Angestellter, Arbeiter, Beamter, . . .
(B) Beschäftigter Gehaltsstufe 1, 2, 3, 4
(C) Neugeborenes Größe (cm) . . . , 49.5, 50, 50.5 ,. . .
(D) Einwohner Bayerns Schulabschluss keiner, Hauptschule,
ab 18 Jahre Realschule, Gymnasium
(E) Betonwürfel Druckfestigkeit . . . , 399, 400, 401, . . .
(0.1 N/mm2)
5
Träger der Statistik
Die Träger speziell der Wirtschaftsstatistik sind:
• Amtliche Statistik
– statistische Ämter
(z. B. statistisches Bundesamt, statistische
Landesämter)
– Ressortstatistik
(Abteilungen von Behörden, z. B. in Bundes-
und Landesministerien, Bundes- und Landes-
bank, Kfz-Zulassungsamt in Flensburg)
• Nichtamtliche Statistik
(z. B. IHK, Meinungsforschungsinstitute, Markt-
forschungsinstitute, Unternehmen)
• Internationale Organisationen
(z. B. UNO, WHO, UNESCO, EU)
6
Merkmalsarten, Mess- und Skalenniveau
Man unterscheidet zunächst grob zwischen quantita-

tiven (d.h. in natürlicher Weise zahlenmäßig erfassba-
ren) [(C), (E)] und qualitativen (also nur artmäßig er-
fassbaren) [(A), (B), (D)] Merkmalen.
Qualitative Merkmale
Nominal messbare Merkmale
Klassifizierung nach rein qualitativen Merk-
malen, es existiert keine natürliche Reihen-
folge, man kann lediglich beurteilen, ob der
Merkmalswert bei zwei statistischen Einheiten
gleich oder verschieden ist. Eine Codierung
auf dem Computer ist vollkommen willkürlich.
Beispiele sind [(A)] oder etwa die Nationalität
oder die Hautfarbe einer Person.
7
Qualitative Merkmale (Fortsetzung)
Ordinal messbare Merkmale

Es existiert eine natürliche Reihenfolge der
Merkmalsausprägungen [(B), (D)]. Eine Co-
dierung im Computer ist nach wie vor
willkürlich, sie sollte jedoch die natürliche Rei-
henfolge widerspiegeln.
8
Quantitative (metrisch messbare) Merkmale
Die Merkmalsausprägungen sind reelle Zahlen.
Diskrete Merkmale
Die Merkmalsausprägungen sind isolierte
Zahlenwerte (wie etwa das Alter in Jahren).
Stetige Merkmale
Die Merkmalsausprägungen können prinzi-
piell jeden Wert aus einem gewissen Intervall
annehmen (Größe, Länge, Gewicht).
Auf Grund der vereinbarten Messgenauigkeit

sind die Übergänge zwischen diskreten und ste-
tigen Merkmalen fließend, so kann zum Beispiel
in obiger Tabelle [(C)] als diskretisiertes“ stetiges
”
Merkmal betrachtet werden.
9
Quantitative (metrisch messbare) Merkmale (Fortsetzung)
Bei quantitativen, also metrisch messbaren
Merkmalen existiert stets eine Abstandsbezie-
hung zwischen den Merkmalsausprägungen.
Folgende Klassifizierung ist möglich.
Messbar auf der Intervallskala

Es existiert keine natürliche Einheit und kein
natürlicher Nullpunkt. (Der Begriff natürlicher
”
Nullpunkt“ bedeutet in diesem Fall, dass der
Nullpunkt durch die Zahl 0 charakterisiert
wird.)
Beispiele sind etwa die Breitengrade oder die
Temperatur. So gilt zum Beispiel für einen
Merkmalswert der Temperatur von 20 0C
20 0C = (20 + 273.15) Kelvin .
Allgemein existiert bei auf der Intervallskala
messbaren Merkmalen, die in verschiedenen
Einheiten dargestellt sind, eine Transforma-
tion der Merkmalsausprägungen der Art
y = a · x + b.
10
Quantitative (metrisch messbare) Merkmale (Fortsetzung)
Messbar auf der Verhältnisskala

Es existiert keine natürliche Einheit, jedoch
ein natürlicher Nullpunkt. Beispiele sind et-
wa die Körpergröße oder das Gewicht. So
gilt zum Beispiel für einen Merkmalswert der
Körpergröße von 1.73 m
1.73 m = (100 · 1.73) cm .

Allgemein existiert bei auf der Verhältnisska-
la messbaren Merkmalen, die in verschiede-
nen Einheiten dargestellt sind, eine Transfor-
mation der Merkmalsausprägungen der Art
y = a · x.
Messbar auf der Absolutskala

Es existiert sowohl eine natürliche Einheit, als
auch ein natürlicher Nullpunkt. Beispiele sind
etwa die Anzahl der Geschwister einer Person
oder die Punktezahl in einer Klausur.
11
Zusammenfassung
Skalentyp Voraussetzungen Beispiele

Nominalskala Bestimmbarkeit von • Farbskala
• Gleichheit/Ungleichheit • Familienstand
• Zuordnung zu Klassen • Postleitzahlen
• Unfallursachen
Ordinalskala Zusätzlich: • Zensurenskala
• < und > Relationen • Beliebtheitsskala
• Ordnung der Untersuchungs- • Preisklassen
einheiten in Rangfolgen • Bildungsabschlüsse
Intervallskala Zusätzlich: • Temperatur in 0 C
• relativer Nullpunkt • Uhrzeit
• Vergleichbarkeit von • Kalendarium
Differenzen und Bildung
von Differenzenquotienten
Verhältnis- und Zusätzlich: • Einkommen
Absolutskala • absoluter Nullpunkt • Umsatz
• Quotienten von • Verbrauch
Wertenachbarn einer Skala • Länge
• Geschwindigkeit
Grundgesamtheit und Stichprobe
Die Menge der zu untersuchenden statistischen Ein-

heiten wird als Grundgesamtheit oder Population be-
zeichnet.
Die Grundgesamtheit ist die Menge aller denkba-

ren Beobachtungseinheiten einer Untersuchung. Sie
kann endlich oder unendlich groß sein und ist häufig
nur fiktiv. Beispiele sind etwa alle Buchen eines ge-
wissen forstwirtschaftlichen Bestandes oder alle im
nächsten Jahr in Sachsen geborenen Kälber.
Eine Stichprobe ist eine zufällig gewonnene Teilmen-

ge aus einer Grundgesamtheit. Hat diese Teilmenge
genau n Elemente, spricht man von einer Stichprobe
vom Umfang n.
Zur exakten mathematischen Definition sei auf das

entsprechende Kapitel der beurteilenden Statistik ver-
wiesen. Es sei im folgenden stets x1, x2, . . . , xn ei-
ne (konkrete) Stichprobe vom Umfang n eines Merk-
mals X.
13
Eine eindeutige Festlegung der Grundgesamtheit
ist oft schwierig. Will man als Grundgesamtheit
beispielsweise alle arbeitslosen Personen betrachten,
so sind in Deutschland Personen arbeitslos“, wenn
”
sie
• vorübergehend nicht in einem Beschäftigungs-
verhältnis stehen,
• eine versicherungspflichtige Beschäftigung su-
chen und dabei den Vermittlungsbemühungen
der Agentur für Arbeit zur Verfügung stehen und
• sich bei der Agentur für Arbeit arbeitslos gemel-
det haben.
Damit sind zum Beispiel ALG II-Bezieher, die Kinder

erziehen oder Angehörige pflegen per Definition nicht
arbeitslos.
Internationale Vergleiche der Arbeitslosenzahlen ar-

ten auf Grund der unterschiedlichen, oft politisch mo-
tivierten Definitionen daher schnell zum Vergleich zwi-
schen Äpfeln und Birnen“ aus.
”
14
Empirische Häufigkeitsverteilung
Besitzt ein Merkmal X genau s mögliche Ausprägun-

gen a1, a2, . . . , as, so gelangt man durch Bildung der
absoluten Häufigkeiten
n
1{xi=aj } ,
X
Hj := j = 1, 2, . . . , s ,
i=1
mit

 1 falls die Aussage {·} zutrifft,
1{·} = 
0 sonst
zur empirischen Häufigkeitsverteilung des Merkmals
X in der Stichprobe x1, x2, . . . , xn.
15
Oft ist auch die Verwendung der relativen Häufigkei-
ten
Hj
hj :=
n
oder der Prozentanteile
100% · hj
üblich. Man beachte aber, dass ohne Kenntnis
von n eine Rekonstruktion von H1, H2, . . . , Hs aus
h1, h2, . . . , hs nicht möglich ist.
16
Balkendiagramme
Ist die Anzahl der in der Stichprobe vorkommenden
Merkmalsausprägungen klein, können die absoluten
oder relativen Häufigkeiten direkt in ein Balkendia-
gramm eingetragen werden.
Beispiel:
Wir betrachten das nominale Merkmal gewählte Par-
”
tei (Zweitstimme)“ der statistischen Einheit gültiger
”
Stimmzettel“ bei der Wahl zum 19. Deutschen Bun-
destag am 24. September 2017. In der Stichprobe
vom Umfang n = 46 506 857 aller abgegebenen
gültigen Zweitstimmen ergibt sich die in nachfolgen-
der Tabelle dargestellte Häufigkeitsverteilung.
Partei Hj hj 100% · hj
CDU/CSU 15 325 576 0.330 33.0 %
SPD 9 538 367 0.205 20.5 %
DIE LINKE 4 296 762 0.092 9.2 %
GRÜNE 4 157 564 0.089 8.9 %
FDP 4 997 178 0.108 10.8 %
AfD 5 877 094 0.126 12.6 %
Sonstige 2 314 316 0.050 5.0 %
17
Exemplarisch soll das Balkendiagramm der Prozent-
werte dargestellt werden, Darstellungen der absolu-
ten bzw. relativen Häufigkeiten sind genauso üblich.
18
Problem der Klasseneinteilung
Im Allgemeinen sind durch das Untersuchungsziel
klare Gruppierungskriterien vorgegeben, z. B. in Form
sachlicher, zeitlicher, geographischer oder politischer
Strukturen oder aber durch Definition.
Auch wenn das nicht so ist sollte bei stetigen Merkma-

len oder diskreten Merkmalen mit zu vielen möglichen
Ausprägungen eine Einteilung aller Stichprobenwerte
x1, x2, . . . , xn in sogenannte Klassen erfolgen.
Dabei sei vereinbart, dass eine Klasse ein halboffe-

nes Intervall der Form [a, b) = {x ∈ R : a ≤ x < b}
ist. Man wählt nun s + 1 Zahlen a1 < a2 < . . . <
as < as+1 und somit s disjunkte Klassen
[a1, a2) , [a2, a3) , ... , [as, as+1) ,

die alle Stichprobenwerte x1, x2, . . . , xn enthalten.
19
Problem:
Wie die Werte a1 < a2 < . . . < as < as+1 wählen?
Eine von Willkür und Subjektivismus freie An-

fangslösung, die jederzeit variierbar ist, ist nach fol-
gender Faustregel konstruierbar:
Es sei
n . . . Anzahl der Untersuchungseinheiten
xmin . . . kleinster Merkmalswert der Stichprobe
xmax . . . größter Merkmalswert der Stichprobe
Man wähle
√
s = n . . . Anzahl der zu bildenden Gruppen
Das Ergebnis ist auf- oder abzurunden und sollte nicht
größer als 20 sein (Übersichtlichkeit, sonst s = 20
setzen).
Gruppenbreite: d = xmax−x
s
min
Ergebnis stets aufrunden auf dieselbe Stellenzahl, die

das Merkmal hat.
Gruppengrenzen: a1 = xmin
a2 = a1 + d usw.
20
Beispiel:
Bei einer Klausur sollen die Ergebnisse von n = 50
Studenten ausgewertet werden. Es sind maximal 50
Punkte zu erreichen. Das Resultat ist in folgender Ta-
belle zusammengefasst.
41 24 42 33 5 48 42 49 39 30
34 32 40 43 33 38 44 8 33 43
29 43 23 41 14 43 14 22 40 42
31 44 42 1 40 41 10 40 35 37
44 41 37 23 35 35 33 34 42 12
√
Dann folgt 50 = 7.1 ≈ 7 = s
und 49−1
7 = 6.8 ≈ 7 = d
sowie die Klassen
[1, 8), [8, 15), [15, 22), [22, 29), [29, 36),
[36, 43), [43, 50] .
Man beachte die Besonderheit bei der rechten Inter-

vallgrenze der letzten Klasse.
21
Vorsicht:
Ausreißer können ein Gruppierungsvorhaben dieser
Art stark beeinträchtigen. Sie sollten daher ggf. nicht
einbezogen, aber extra aufgeführt werden.
Das Ergebnis ist kein Dogma. Entspricht es den Er-
fordernissen noch nicht, so sind jederzeit Modifizie-
rungen möglich.
Im obigen Beispiel wäre auch eine Gruppierung nach
Noten natürlich und evtl. besser als die allgemeine
Vorgehensweise.
22
Die grafische Darstellung gruppierten Datenmaterials
erhält man zum Beispiel in Form eines Blockdia-
gramms (Histogramms), indem über jedem der Teil-
intervalle [aj , aj+1) ein Rechteck errichtet wird.
Dabei soll die Fläche (nicht die Höhe) des Rechtecks

über [aj , aj+1) gleich der zugehörigen relativen Klas-
senhäufigkeit
n
1 X
kj := · 1{aj ≤xi<aj+1} , j = 1, 2, . . . , s
n i=1
sein. Damit berechnet sich die Höhe yj des Recht-
ecks über [aj , aj+1) aus der Gleichung
kj
yj = , j = 1, 2, . . . , s .
aj+1 − aj
Im Falle konstanter Gruppenbreiten d (wie bei obiger
Vorgehensweise) folgt dann
kj
yj = , j = 1, 2, . . . , s .
d
23
Wählt man im obigen Beispiel die genannte Klassen-
einteilung erhält man die folgenden zugehörigen rela-
tiven Klassenhäufigkeiten kj und Rechteckhöhen yj .
j 1 2 3 4 5 6 7
kj 0, 04 0, 10 0, 00 0, 08 0, 26 0, 34 0, 18
yj 0, 006 0, 014 0, 000 0, 011 0, 037 0, 049 0, 026
Das zugehörige Blockdiagramm hat dann das folgen-

de Aussehen.
0.05
0.04
0.03
0.02
0.01
0
0 5 10 15 20 25 30 35 40 45 50
24
Auch andere Klasseneinteilungen können sinnvoll
sein. Wählt man in obigem Beispiel etwa nur 5 Klas-
sen und die Klasseneinteilung
[0, 25) , [25, 33) , [33, 40) , [40, 47) , [47, 50]
erhält man die zugehörigen relativen Klassenhäufig-

keiten kj und Rechteckhöhen yj
j 1 2 3 4 5
kj 0.22 0.08 0.26 0.40 0.04
yj 0.009 0.010 0.037 0.057 0.013
0.06
Blockdiagramm: 0.05
0.04
0.03
0.02
0.01
0
0 25 33 40 47 50
25
Hier wird deutlich, dass die richtige Wahl der Recht-
eckhöhen wichtig ist. Würde man die relativen Klas-
senhäufigkeiten nicht den entsprechenden Recht-
eckflächen, sondern den Rechteckhöhen zuordnen,
ergäbe sich das folgende Blockdiagramm.
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0 25 33 40 47 50
Hier liegt eine deutliche Verzerrung vor, intuitiv ist man

geneigt, beispielsweise der ersten Klasse viel mehr
Gewicht beizumessen, als ihr tatsächlich zusteht.
Es sei noch angemerkt, dass viele gängige Software-

produkte nicht (bzw. nur unter großen Mühen) in der
Lage sind, Histogramme mit unterschiedlichen Klas-
senbreiten zu erstellen.
26
Oben erwähnte Verzerrungen begegnen uns (wenn
auch meist nicht in so offensichtlicher Form) im tägli-
chen Leben recht häufig, siehe dazu auch
Krämer, W., So lügt man mit Statistik, Cam-

pus Verlag GmbH, Frankfurt/Main, 1991.
27
Es sei noch erwähnt, dass es auch möglich ist, statt
der relativen Häufigkeiten die absoluten Häufigkeiten
in Blockdiagramme einzutragen, hier sind die selben
Grundsätze zu beachten, um eine Verfälschung des
Diagramms zu vermeiden.
Neben Balken- und Blockdiagrammen gibt es ei-

ne Vielzahl weiterer Möglichkeiten zur graphischen
Präsentation des empirischen Datenmaterials, man
denke nur an die oft dargestellten Kreisdiagramme.
28
Lagemaße
Bei der Angabe von Lagemaßen von Stichproben

achte man sorgfältig auf die Art der Messbarkeit der
entsprechenden Merkmale. Wurden zum Beispiel für
das Merkmal Farbe eines Kühlschrankes“ die Merk-
”
malsausprägungen weiß“, rot“, sonstige“ mit 1, 2
” ” ”
bzw. 3 codiert, so gibt es keinen Sinn, den (arithme-
tischen) Mittelwert zu bilden, der beispielsweise bei
1.4 liegen könnte.
Sinnvolle Beispiele:
• Der Durchschnittslohn in Unternehmen A beträgt

2400 Euro und in B 3500 Euro.
• Die durchschnittliche Kaltmiete für Drei-Raum-

Wohnungen ist in Stadt X 540 Euro und in Stadt
Y 730 Euro.
• Die Tages-Durchschnittstemperatur beträgt im

Sommer 22 ◦C und im Winter -5 ◦C.
29
Fazit:
In allen obigen Fällen kann man sich - ohne die Ein-
zelwerte zu kennen - sofort ein Bild über die jeweilige
allgemeine Situation machen. Dies ist der Sinn von
Lagemaßen.
Wichtigstes Lagemaß ist das Arithmetische Mittel, es

gibt aber auch andere.
Empirischer Modalwert (Dichtemittel)
Bezeichnung: xD
xD ist der in der Stichprobe am häufigsten angenom-
mene Wert.
Die Angabe ist bei nominal messbaren, ordinal

messbaren und metrisch messbaren Merkmalen sinn-
voll. Der Modalwert muss nicht eindeutig sein. Sei-
ne Aussagekraft ist oft (insbesondere bei metrisch
messbaren Merkmalen) gering. Bei nominal messba-
ren Merkmalen ist der empirische Modalwert der ein-
zig sinnvolle Lageparameter.
30
Beispiel (siehe oben):
41 24 42 33 5 48 42 49 39 30
34 32 40 43 33 38 44 8 33 43
29 43 23 41 14 43 14 22 40 42
31 44 42 1 40 41 10 40 35 37
44 41 37 23 35 35 33 34 42 12
Hier gilt xD = 42.
31
Manchmal spricht man auch bei gegebener Klassen-
einteilung von empirischen Modalwerten. Das ist nicht
ganz exakt. Bei der Einteilung
[1, 8), [8, 15), [15, 22), [22, 29), [29, 36),
[36, 43), [43, 50)
würde die Klasse [36, 43) den empirischen Modal-

wert darstellen (höchste Säule im Blockdiagramm).
Sind die Daten gruppiert, so gelten die Dichtemittel
nur für die vorliegende Gruppierung. Verändert man
die Gruppierung, so erhält man i. Allg. auch ein ande-
res Dichtemittel.
32
Empirischer Median (Zentralwert)
Bezeichnung: x e
e ist ein Wert, für den gilt, dass mindestens die Hälfte
x
aller Stichprobenelemente kleiner oder gleich x e und
mindestens die Hälfte aller Stichprobenelemente
größer oder gleich x e sind. Seine Bildung ist bei
ordinalen und metrischen Merkmalen (nicht jedoch
bei nominalen Merkmalen) sinnvoll.
Zur Berechnung geht man von der Stichpro-
be x1, x2, . . . , xn zur geordneten Stichprobe
x(1), x(2), . . . , x(n) mit x(1) ≤ x(2) ≤ . . . ≤ x(n)
über. Man definiert dann



 x n+1 n ungerade
2
x
e=
 1· x( n ) + x( n +1) n gerade.


2 2 2
Der empirische Median ist robust gegenüber Aus-

reißern.
33
41 24 42 33 5 48 42 49 39 30
34 32 40 43 33 38 44 8 33 43
29 43 23 41 14 43 14 22 40 42
31 44 42 1 40 41 10 40 35 37
44 41 37 23 35 35 33 34 42 12
Die geordnete Stichprobe ist gegeben durch
1, 5, 8, 10, 12, 14, 14, 22, 23, 23, 24, 29, 30,
31, 32, 33, 33, 33, 33, 34, 34, 35, 35, 35, 37,
37, 38, 39, 40, 40, 40, 40, 41, 41, 41, 41, 42,
42, 42, 42, 42, 43, 43, 43, 43, 44, 44, 44, 48, 49
und es gilt

1
e = · x(25) + x(26) = 37.
x 2
34
Anmerkung
Der Zentralwert ist ein Spezialfall so genannter Empi-

rischer Quantile
Teilt man die geordnete
Stichprobe in so bestimmt man Bezeichnung
2 gleiche Teile x
e = x0.5 Empirischer Median,
Zentralwert
4 gleiche Teile x0.25 , x
e, x0.75 Empirische Quartile
10 gleiche Teile x0.1 , . . . , x0.9 Empirische Dezile
100 gleiche Teile x0.01 , . . . , x0.99 Empirische Perzentile
Es sind beliebige andere Varianten möglich
35
Arithmetisches Mittel
Bezeichnung: x
x ist der wichtigste und gebräuchlichste Mittelwert,
man berechnet
n
1 X
x= · xi .
n i=1
Man beachte jedoch stets, dass die Bildung des arith-
metischen Mittels nur bei metrisch messbaren Merk-
malen zulässig ist, da nur dort die Abstandsbeziehung
der reellen Zahlen zur Verfügung steht.
In obigem Beispiel gilt
1 (41 + 24 + . . . + 12) = 33.38.

x = 50
36
Anmerkung
Ist das Datenmaterial gruppiert (s Gruppen), so be-
rechnet man aus den Merkmalswerten der Gruppen
xj und den relativen Gruppenhäufigkeiten kj (siehe
oben) das gewogene arithmetische Mittel gemäß fol-
gender Formel
s
X
x= xj · k j .
j=1
Liegen dabei Gruppen vor, deren Merkmalswerte in
Bereiche unterteilt sind (von . . . bis / von . . . bis unter),
so verwendet man als xj einer Gruppe üblicherweise
die Gruppenmitte.
Sind die Daten gruppiert, so gilt wie für alle Lagemaße

auch das arithmetische Mittel nur für die vorliegen-
de Gruppierung. Verändert man die Gruppierung, so
erhält man i. Allg. auch ein anderes arithmetisches
Mittel.
37
Weitere gelegentlich verwendete Lagemaße sind. . .
Geometrisches Mittel
v
u n
√
n
uY
n
xg = x1 · x2 · . . . · xn = t xi
i=1
Wichtigstes Einsatzgebiet ist die Mittelung von Indizes
(Entwicklungskennziffern) sowie die Berechnung des
durchschnittlichen Wachstumstempos.
Beispiel:
Herr X kauft für 1000 EURO Aktien. Im ersten Jahr
steigt deren Wert um 20 %, im zweiten Jahr um 25 %
und im dritten Jahr sinkt der Wert um 33.33 %. Be-
rechnen Sie die durchschnittliche Wertveränderung
der Aktien.
s
3 2
1.20 · 1.25 · = 1
3
Bitte darüber nachdenken.

Weiteres zum geometrischen Mittel siehe Literatur.
38
Weitere gelegentlich verwendete Lagemaße sind. . .
Harmonisches Mittel
n n
xh = 1 1 + ··· + 1
= n
x1 + x2 xn
P 1
x
i=1 i
Diese Sonderform der Berechnung von Durchschnit-
ten wird selten gebraucht und nur bei spezifischen
Datensituationen angewendet.
Anwendungssituation
n Beobachtungswerte (metrisch skaliertes Merkmal).
Das Merkmal ist eine Beziehungszahl der allgemei-
nen Form ab . In der Bezeichnung des Merkmals findet
man daher Ausdrücke wie je“, pro“oder /“,
” ” ”
Beispiele: km/h, Verbrauch pro Kopf, Kosten pro
Stück,. . .
Der Ausdruck b im Zähler bleibt für jede Messung des
Merkmals konstant.
39
Zahlenbeispiel zum harmonischen Mittel
Ein Kraftfahrer durchfährt ein und dieselbe Strecke

früh mit 50 km/h und abends mit 100 km/h. Wie
hoch ist die Durchschnittsgeschwindigkeit für beide
Strecken?
Trugschluss: 75 km/h im Mittel.
Denn z. B. für eine Strecke von 100 km braucht der

Kraftfahrer früh 2 Stunden und abends 1 Stunde, ins-
gesamt also 3 Stunden. Damit ergibt sich die mittlere
Geschwindigkeit 200 km = 66.67 km/h.
3h
Da hier der Zähler der Merkmalswerte konstant

ist (zurückgelegte Strecke) und der Nenner variiert
(benötigte Zeit) ist das geometrische Mittel der Ge-
schwindigkeiten das Mittel der Wahl“.
”
2
1 + 1
= 66.67
50 100
Bitte darüber nachdenken.

Weiteres zum harmonischen Mittel siehe Literatur.
40
Streuungsmaße
Beispiele:
• Zwei Kleinunternehmen beschäftigen jeweils 10

Mitarbeiter.
Im Unternehmen A verdienen 5 Mitarbeiter je
7000 EUR und 5 Mitarbeiter je 3000 EUR.
Im Unternehmen B verdienen 5 Mitarbeiter je
5500 EUR und 5 Mitarbeiter je 4500 EUR.
• In zwei Dörfern gibt es jeweils 10 Bauern.
In Dorf A haben 5 Bauern jeweils 4 Kühe und 5
Bauern jeweils 6 Kühe.
In Dorf B hat ein Bauer 50 Kühe, die anderen
Bauern sind kuhlos“.
”
In beiden Fällen ist der (arithmetische) Mittelwert der

Situationen A und B jeweils gleich. Trotzdem liegen
offenbar gravierende Unterschiede vor. Eine Möglich-
keit, diese zu identifizieren bilden Streuungsmaße.
41
Spannweite
Bezeichnung: R
R ist die Differenz zwischen dem größten und dem
kleinsten Beobachtungswert in der Stichprobe, in For-
meln ausgedrückt (nach Übergang zur geordneten
Stichprobe)
R = x(n) − x(1) .
Die Angabe der Spannweite ist für ordinal und me-
trisch meßbare Merkmale sinnvoll. Sie stellt ein sehr
einfach zu bestimmendes Streuungsmaß dar, ist aber
auch nicht sehr aussagekräftig.
R = 49 − 1 = 48 .
42
Im Allgemeinen untersucht die beschreibende Stati-
stik allerdings nicht das Verhalten von Einzelwerten,
sondern das Typische, Allgemeingültige, Wesentliche
von Massenerscheinungen.
In solchen Fällen ist es manchmal zweckmäßig und

üblich, am Rand der Verteilung liegende Extremwerte
aus der Betrachtung auszuschließen und sich nach-
folgend mit den Werten im Zentrum der Verteilung zu
beschäftigen. Wie viele Werte dabei am unteren und
am oberen Rand gestrichen werden, ist anhand des
konkreten Datenmaterials zu entscheiden und rein
sachlich zu begründen. Häufig werden folgende (va-
riierbare) Vorgehensweisen praktiziert.
Spannweite x(n) − x(1) = xmax − xmin

Interquartilsabstand x0.75 − x0.25
Dezilsdifferenz x0.9 − x0.1
43
Die nachfolgenden Streuungsmaße können nur für
metrisch messbare Merkmale bestimmt werden.
Mittlere absolute Abweichung

Bezeichnung: d
Man berechnet
n
1 X
d= · |xi − x| ,
n i=1
wobei x das arithmetische Mittel darstellt. Die mittlere
absolute Abweichung wird in der Praxis recht selten
verwendet.
Sie gibt offenbar an, um wie viel Maßeinheiten des
Merkmals die Merkmalswerte durchschnittlich vom
arithmetischen Mittel x abweichen. Teilt man d durch
x erhält man die entsprechende mittlere prozentuale
Abweichung.

1
d= · (|41 − 33.38| + |24 − 33.38| + . . . + |12 − 33.38|)
50
= 8.97.
44
Empirische Varianz
Bezeichnung: s2
Man berechnet
n
1
s2 = ( xi − x) 2 ,
X
·
n − 1 i=1
wobei x das arithmetische Mittel darstellt. Die em-
pirische Varianz ist in gewisser Weise die mittlere
quadratische Abweichung der Stichprobenwerte vom
arithmetischen Mittel x. Die Frage, warum es sinnvoll
ist durch n − 1 (und nicht durch n) zu dividieren, wird
in der beurteilenden Statistik geklärt. Die empirische
Varianz ist das gebräuchlichste Streuungsmaß.
Empirische Standardabweichung
Bezeichnung: s
s ist die Quadratwurzel aus der empirischen Varianz,
v
n
1
u
( xi − x) 2 .
u X
s=t ·
n − 1 i=1
Die empirische Standardabweichung hat (im Gegen-
satz zur empirische Varianz) die gleiche Einheit wie
die Merkmalsausprägungen.
45
1
s2 = · (41 − 33.38)2 + (24 − 33.38)2 + . . .
50 − 1
2

+ (12 − 33.38)
= 137.91
und
p
s = s2 = 11.74 .
46
Boxplots
Der Boxplot ist ein Instrument zur grafischen Da-
tenanalyse anhand von Lage- und Streuungspara-
metern. Er zeigt
• die Quartile x0.25 und x0.75 als Grenzen der
Grafik und damit den Interquartilsabstand (IQA),
• die Lage des Medians x0.5 innerhalb des IQA,
• die Lage des kleinsten und des größten Wertes,
die noch nicht als extrem bezeichnet werden,
(maximal 1.5 · IQA = maximal 1,5 Boxbreiten
vom nächsten Quartil entfernt),
• Ausreißer, mit einer Entfernung zwischen 1,5 und
maximal 3 Boxbreiten vom nächsten Quartil,
• Extremwerte mit einer Entfernung > 3 Boxbreiten
vom nächsten Quartil.
47
41 24 42 33 5 48 42 49 39 30
34 32 40 43 33 38 44 8 33 43
29 43 23 41 14 43 14 22 40 42
31 44 42 1 40 41 10 40 35 37
44 41 37 23 35 35 33 34 42 12
Der Boxplot der Punktezahlen hat folgendes Ausse-

hen:
50
40
30
Punkte
20
10
37
18
0 34
48
Beispiel (Fortsetzung):
Angenommen, die letzte Punktezahl wurde falsch er-
fasst,
41 24 42 33 5 48 42 49 39 30
34 32 40 43 33 38 44 8 33 43
29 43 23 41 14 43 14 22 40 42
31 44 42 1 40 41 10 40 35 37
44 41 37 23 35 35 33 34 42 120
Man erkennt den Extremwert gut aus dem modifizier-

ten Boxplot
120
50
100
80
Punkte
60
40
20
27
18 25
37
5
0
34
49
Zusätzlich zu den Punktezahlen sei die Intensität der
Vorbereitung auf die Klausur (Merkmalsausprägun-
gen schlecht und gut) erfasst worden. Es werden für
die Punktezahlen bei beiden Ausprägungen getrennte
Boxplots erstellt:
50
40
Punkte
30
20
37
10
0
schlecht gut
Vorbereitung
50

Wirtschaftsstatistik

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Wirtschaftsstatistik

Hochgeladen von

Copyright:

Verfügbare Formate

Wirtschaftsstatistik

Was versteht man unter Statistik?

• Statistik erfasst und erforscht Massenerschei-

• Die zahlenmäßigen Ergebnisse statistischer

• Statistik umfasst somit die Gesamtheit der Me-

Die explorative Datenanalyse (auch: erkundende)

Die mathematische Statistik (auch schließende bzw.

• Medizin und Gesundheitswissenschaften

• Biologie und Chemie

Bei statistischen Untersuchungen (Erhebungen) wer-

Dabei ist ein Merkmal die zu untersuchende Eigen-

Die Werte, die ein Merkmal annehmen kann, heißen

Der Merkmalswert ist die bei der Untersuchung einer

statistische Einheit Merkmal Merkmalsausprägungen

Die Träger speziell der Wirtschaftsstatistik sind:

Man unterscheidet zunächst grob zwischen quantita-

Ordinal messbare Merkmale

Auf Grund der vereinbarten Messgenauigkeit

Messbar auf der Intervallskala

Messbar auf der Verhältnisskala

1.73 m = (100 · 1.73) cm .

Messbar auf der Absolutskala

Skalentyp Voraussetzungen Beispiele

Die Menge der zu untersuchenden statistischen Ein-

Die Grundgesamtheit ist die Menge aller denkba-

Eine Stichprobe ist eine zufällig gewonnene Teilmen-

Zur exakten mathematischen Definition sei auf das

Damit sind zum Beispiel ALG II-Bezieher, die Kinder

Internationale Vergleiche der Arbeitslosenzahlen ar-

Besitzt ein Merkmal X genau s mögliche Ausprägun-

Auch wenn das nicht so ist sollte bei stetigen Merkma-

Dabei sei vereinbart, dass eine Klasse ein halboffe-

[a1, a2) , [a2, a3) , ... , [as, as+1) ,

Eine von Willkür und Subjektivismus freie An-

Ergebnis stets aufrunden auf dieselbe Stellenzahl, die

sowie die Klassen

Man beachte die Besonderheit bei der rechten Inter-

Dabei soll die Fläche (nicht die Höhe) des Rechtecks

Das zugehörige Blockdiagramm hat dann das folgen-

erhält man die zugehörigen relativen Klassenhäufig-

Hier liegt eine deutliche Verzerrung vor, intuitiv ist man

Es sei noch angemerkt, dass viele gängige Software-

Krämer, W., So lügt man mit Statistik, Cam-

Neben Balken- und Blockdiagrammen gibt es ei-

Bei der Angabe von Lagemaßen von Stichproben

• Der Durchschnittslohn in Unternehmen A beträgt

• Die durchschnittliche Kaltmiete für Drei-Raum-

• Die Tages-Durchschnittstemperatur beträgt im

Wichtigstes Lagemaß ist das Arithmetische Mittel, es

Empirischer Modalwert (Dichtemittel)

Die Angabe ist bei nominal messbaren, ordinal

Hier gilt xD = 42.

würde die Klasse [36, 43) den empirischen Modal-

Der empirische Median ist robust gegenüber Aus-

Die geordnete Stichprobe ist gegeben durch

Der Zentralwert ist ein Spezialfall so genannter Empi-

Es sind beliebige andere Varianten möglich

In obigem Beispiel gilt

1 (41 + 24 + . . . + 12) = 33.38.

Sind die Daten gruppiert, so gilt wie für alle Lagemaße

Bitte darüber nachdenken.

Ein Kraftfahrer durchfährt ein und dieselbe Strecke

Trugschluss: 75 km/h im Mittel.

Denn z. B. für eine Strecke von 100 km braucht der