Sie sind auf Seite 1von 50

Wirtschaftsstatistik

Was versteht man unter Statistik?

• Statistik erfasst und erforscht Massenerschei-


nungen in ihrer quantitativen Bestimmtheit.

• Die zahlenmäßigen Ergebnisse statistischer


Analysen widerspiegeln Niveau, Struktur,
Entwicklung oder Zusammenhänge von Erhe-
bungen.

• Statistik umfasst somit die Gesamtheit der Me-


thoden, Verfahren und Ausdrucksmittel, um zah-
lenmäßige Informationen zu gewinnen, darzustel-
len und zu analysieren.

1
Die deskriptive (auch: beschreibende) Statistik hat
zum Ziel, empirische Daten durch Tabellen, Kennzah-
len (auch: Maßzahlen oder Parameter) und Grafiken
übersichtlich darzustellen und zu ordnen.

Die explorative Datenanalyse (auch: erkundende)


Statistik hat zum Ziel, bisher unbekannte Strukturen
und Zusammenhänge in den Daten zu finden und
hierdurch neue Hypothesen zu generieren.

Die mathematische Statistik (auch schließende bzw.


induktive Statistik) ist das Teilgebiet der Statistik, das
die Methoden und Verfahren der Statistik mit mathe-
matischen Mitteln analysiert beziehungsweise mit ih-
rer Hilfe erst begründet.

2
Mathematische Grundlage der Wirtschaftsstatistik ist
also die Mathematik des Zufalls“ die auch als Sto-
” ”
chastik“ bezeichnet wird. Stochastik steht dabei als
Sammelbegriff für die Gebiete Wahrscheinlichkeits-
rechnung und Mathematische Statistik sowie deren
Anwendungen (insbesondere zufällige Prozesse).
Anwendungsfelder
alle Zweige der Wirtschaft, aber auch der Naturwis-
senschaften und Technik, z. B.

• Versicherungswesen

• statistische Qualitätskontrolle

• Medizin und Gesundheitswissenschaften

• Meinungsforschung

• Biologie und Chemie

• usw.

3
1. Beschreibende Statistik

Bei statistischen Untersuchungen (Erhebungen) wer-


den an geeignet ausgewählten statistischen Einhei-
ten (Untersuchungseinheiten, Beobachtungseinhei-
ten) jeweils die Werte eines oder mehrerer Merkmale
festgestellt.

Dabei ist ein Merkmal die zu untersuchende Eigen-


schaft der statistischen Einheit.

Die Werte, die ein Merkmal annehmen kann, heißen


Merkmalsausprägungen oder Merkmalsvariationen.

Der Merkmalswert ist die bei der Untersuchung einer


bestimmten statistischen Einheit festgestellte Merk-
malsausprägung.

4
Beispiele

statistische Einheit Merkmal Merkmalsausprägungen


(A) Beschäftigter Beschäftigungsart Angestellter, Arbeiter, Beamter, . . .
(B) Beschäftigter Gehaltsstufe 1, 2, 3, 4
(C) Neugeborenes Größe (cm) . . . , 49.5, 50, 50.5 ,. . .
(D) Einwohner Bayerns Schulabschluss keiner, Hauptschule,
ab 18 Jahre Realschule, Gymnasium
(E) Betonwürfel Druckfestigkeit . . . , 399, 400, 401, . . .
(0.1 N/mm2)
5
Träger der Statistik

Die Träger speziell der Wirtschaftsstatistik sind:

• Amtliche Statistik

– statistische Ämter
(z. B. statistisches Bundesamt, statistische
Landesämter)

– Ressortstatistik
(Abteilungen von Behörden, z. B. in Bundes-
und Landesministerien, Bundes- und Landes-
bank, Kfz-Zulassungsamt in Flensburg)

• Nichtamtliche Statistik
(z. B. IHK, Meinungsforschungsinstitute, Markt-
forschungsinstitute, Unternehmen)

• Internationale Organisationen
(z. B. UNO, WHO, UNESCO, EU)

6
Merkmalsarten, Mess- und Skalenniveau

Man unterscheidet zunächst grob zwischen quantita-


tiven (d.h. in natürlicher Weise zahlenmäßig erfassba-
ren) [(C), (E)] und qualitativen (also nur artmäßig er-
fassbaren) [(A), (B), (D)] Merkmalen.

Qualitative Merkmale
Nominal messbare Merkmale
Klassifizierung nach rein qualitativen Merk-
malen, es existiert keine natürliche Reihen-
folge, man kann lediglich beurteilen, ob der
Merkmalswert bei zwei statistischen Einheiten
gleich oder verschieden ist. Eine Codierung
auf dem Computer ist vollkommen willkürlich.
Beispiele sind [(A)] oder etwa die Nationalität
oder die Hautfarbe einer Person.

7
Qualitative Merkmale (Fortsetzung)

Ordinal messbare Merkmale


Es existiert eine natürliche Reihenfolge der
Merkmalsausprägungen [(B), (D)]. Eine Co-
dierung im Computer ist nach wie vor
willkürlich, sie sollte jedoch die natürliche Rei-
henfolge widerspiegeln.

8
Quantitative (metrisch messbare) Merkmale
Die Merkmalsausprägungen sind reelle Zahlen.

Diskrete Merkmale
Die Merkmalsausprägungen sind isolierte
Zahlenwerte (wie etwa das Alter in Jahren).

Stetige Merkmale
Die Merkmalsausprägungen können prinzi-
piell jeden Wert aus einem gewissen Intervall
annehmen (Größe, Länge, Gewicht).

Auf Grund der vereinbarten Messgenauigkeit


sind die Übergänge zwischen diskreten und ste-
tigen Merkmalen fließend, so kann zum Beispiel
in obiger Tabelle [(C)] als diskretisiertes“ stetiges

Merkmal betrachtet werden.

9
Quantitative (metrisch messbare) Merkmale (Fortsetzung)
Bei quantitativen, also metrisch messbaren
Merkmalen existiert stets eine Abstandsbezie-
hung zwischen den Merkmalsausprägungen.
Folgende Klassifizierung ist möglich.

Messbar auf der Intervallskala


Es existiert keine natürliche Einheit und kein
natürlicher Nullpunkt. (Der Begriff natürlicher

Nullpunkt“ bedeutet in diesem Fall, dass der
Nullpunkt durch die Zahl 0 charakterisiert
wird.)
Beispiele sind etwa die Breitengrade oder die
Temperatur. So gilt zum Beispiel für einen
Merkmalswert der Temperatur von 20 0C
20 0C = (20 + 273.15) Kelvin .
Allgemein existiert bei auf der Intervallskala
messbaren Merkmalen, die in verschiedenen
Einheiten dargestellt sind, eine Transforma-
tion der Merkmalsausprägungen der Art
y = a · x + b.

10
Quantitative (metrisch messbare) Merkmale (Fortsetzung)

Messbar auf der Verhältnisskala


Es existiert keine natürliche Einheit, jedoch
ein natürlicher Nullpunkt. Beispiele sind et-
wa die Körpergröße oder das Gewicht. So
gilt zum Beispiel für einen Merkmalswert der
Körpergröße von 1.73 m

1.73 m = (100 · 1.73) cm .


Allgemein existiert bei auf der Verhältnisska-
la messbaren Merkmalen, die in verschiede-
nen Einheiten dargestellt sind, eine Transfor-
mation der Merkmalsausprägungen der Art

y = a · x.

Messbar auf der Absolutskala


Es existiert sowohl eine natürliche Einheit, als
auch ein natürlicher Nullpunkt. Beispiele sind
etwa die Anzahl der Geschwister einer Person
oder die Punktezahl in einer Klausur.

11
Zusammenfassung

Skalentyp Voraussetzungen Beispiele


Nominalskala Bestimmbarkeit von • Farbskala
• Gleichheit/Ungleichheit • Familienstand
• Zuordnung zu Klassen • Postleitzahlen
• Unfallursachen
Ordinalskala Zusätzlich: • Zensurenskala
• < und > Relationen • Beliebtheitsskala
• Ordnung der Untersuchungs- • Preisklassen
einheiten in Rangfolgen • Bildungsabschlüsse
Intervallskala Zusätzlich: • Temperatur in 0 C
• relativer Nullpunkt • Uhrzeit
• Vergleichbarkeit von • Kalendarium
Differenzen und Bildung
von Differenzenquotienten
Verhältnis- und Zusätzlich: • Einkommen
Absolutskala • absoluter Nullpunkt • Umsatz
• Quotienten von • Verbrauch
Wertenachbarn einer Skala • Länge
• Geschwindigkeit
Grundgesamtheit und Stichprobe

Die Menge der zu untersuchenden statistischen Ein-


heiten wird als Grundgesamtheit oder Population be-
zeichnet.

Die Grundgesamtheit ist die Menge aller denkba-


ren Beobachtungseinheiten einer Untersuchung. Sie
kann endlich oder unendlich groß sein und ist häufig
nur fiktiv. Beispiele sind etwa alle Buchen eines ge-
wissen forstwirtschaftlichen Bestandes oder alle im
nächsten Jahr in Sachsen geborenen Kälber.

Eine Stichprobe ist eine zufällig gewonnene Teilmen-


ge aus einer Grundgesamtheit. Hat diese Teilmenge
genau n Elemente, spricht man von einer Stichprobe
vom Umfang n.

Zur exakten mathematischen Definition sei auf das


entsprechende Kapitel der beurteilenden Statistik ver-
wiesen. Es sei im folgenden stets x1, x2, . . . , xn ei-
ne (konkrete) Stichprobe vom Umfang n eines Merk-
mals X.
13
Eine eindeutige Festlegung der Grundgesamtheit
ist oft schwierig. Will man als Grundgesamtheit
beispielsweise alle arbeitslosen Personen betrachten,
so sind in Deutschland Personen arbeitslos“, wenn

sie
• vorübergehend nicht in einem Beschäftigungs-
verhältnis stehen,
• eine versicherungspflichtige Beschäftigung su-
chen und dabei den Vermittlungsbemühungen
der Agentur für Arbeit zur Verfügung stehen und
• sich bei der Agentur für Arbeit arbeitslos gemel-
det haben.

Damit sind zum Beispiel ALG II-Bezieher, die Kinder


erziehen oder Angehörige pflegen per Definition nicht
arbeitslos.

Internationale Vergleiche der Arbeitslosenzahlen ar-


ten auf Grund der unterschiedlichen, oft politisch mo-
tivierten Definitionen daher schnell zum Vergleich zwi-
schen Äpfeln und Birnen“ aus.

14
Empirische Häufigkeitsverteilung

Besitzt ein Merkmal X genau s mögliche Ausprägun-


gen a1, a2, . . . , as, so gelangt man durch Bildung der
absoluten Häufigkeiten
n
1{xi=aj } ,
X
Hj := j = 1, 2, . . . , s ,
i=1
mit

 1 falls die Aussage {·} zutrifft,
1{·} = 
0 sonst
zur empirischen Häufigkeitsverteilung des Merkmals
X in der Stichprobe x1, x2, . . . , xn.

15
Oft ist auch die Verwendung der relativen Häufigkei-
ten
Hj
hj :=
n
oder der Prozentanteile

100% · hj
üblich. Man beachte aber, dass ohne Kenntnis
von n eine Rekonstruktion von H1, H2, . . . , Hs aus
h1, h2, . . . , hs nicht möglich ist.

16
Balkendiagramme
Ist die Anzahl der in der Stichprobe vorkommenden
Merkmalsausprägungen klein, können die absoluten
oder relativen Häufigkeiten direkt in ein Balkendia-
gramm eingetragen werden.
Beispiel:
Wir betrachten das nominale Merkmal gewählte Par-

tei (Zweitstimme)“ der statistischen Einheit gültiger

Stimmzettel“ bei der Wahl zum 19. Deutschen Bun-
destag am 24. September 2017. In der Stichprobe
vom Umfang n = 46 506 857 aller abgegebenen
gültigen Zweitstimmen ergibt sich die in nachfolgen-
der Tabelle dargestellte Häufigkeitsverteilung.
Partei Hj hj 100% · hj
CDU/CSU 15 325 576 0.330 33.0 %
SPD 9 538 367 0.205 20.5 %
DIE LINKE 4 296 762 0.092 9.2 %
GRÜNE 4 157 564 0.089 8.9 %
FDP 4 997 178 0.108 10.8 %
AfD 5 877 094 0.126 12.6 %
Sonstige 2 314 316 0.050 5.0 %
17
Exemplarisch soll das Balkendiagramm der Prozent-
werte dargestellt werden, Darstellungen der absolu-
ten bzw. relativen Häufigkeiten sind genauso üblich.

18
Problem der Klasseneinteilung
Im Allgemeinen sind durch das Untersuchungsziel
klare Gruppierungskriterien vorgegeben, z. B. in Form
sachlicher, zeitlicher, geographischer oder politischer
Strukturen oder aber durch Definition.

Auch wenn das nicht so ist sollte bei stetigen Merkma-


len oder diskreten Merkmalen mit zu vielen möglichen
Ausprägungen eine Einteilung aller Stichprobenwerte
x1, x2, . . . , xn in sogenannte Klassen erfolgen.

Dabei sei vereinbart, dass eine Klasse ein halboffe-


nes Intervall der Form [a, b) = {x ∈ R : a ≤ x < b}
ist. Man wählt nun s + 1 Zahlen a1 < a2 < . . . <
as < as+1 und somit s disjunkte Klassen

[a1, a2) , [a2, a3) , ... , [as, as+1) ,


die alle Stichprobenwerte x1, x2, . . . , xn enthalten.

19
Problem:
Wie die Werte a1 < a2 < . . . < as < as+1 wählen?

Eine von Willkür und Subjektivismus freie An-


fangslösung, die jederzeit variierbar ist, ist nach fol-
gender Faustregel konstruierbar:

Es sei
n . . . Anzahl der Untersuchungseinheiten
xmin . . . kleinster Merkmalswert der Stichprobe
xmax . . . größter Merkmalswert der Stichprobe
Man wähle

s = n . . . Anzahl der zu bildenden Gruppen
Das Ergebnis ist auf- oder abzurunden und sollte nicht
größer als 20 sein (Übersichtlichkeit, sonst s = 20
setzen).
Gruppenbreite: d = xmax−x
s
min

Ergebnis stets aufrunden auf dieselbe Stellenzahl, die


das Merkmal hat.
Gruppengrenzen: a1 = xmin
a2 = a1 + d usw.
20
Beispiel:
Bei einer Klausur sollen die Ergebnisse von n = 50
Studenten ausgewertet werden. Es sind maximal 50
Punkte zu erreichen. Das Resultat ist in folgender Ta-
belle zusammengefasst.

41 24 42 33 5 48 42 49 39 30
34 32 40 43 33 38 44 8 33 43
29 43 23 41 14 43 14 22 40 42
31 44 42 1 40 41 10 40 35 37
44 41 37 23 35 35 33 34 42 12

Dann folgt 50 = 7.1 ≈ 7 = s

und 49−1
7 = 6.8 ≈ 7 = d

sowie die Klassen

[1, 8), [8, 15), [15, 22), [22, 29), [29, 36),
[36, 43), [43, 50] .

Man beachte die Besonderheit bei der rechten Inter-


vallgrenze der letzten Klasse.
21
Vorsicht:
Ausreißer können ein Gruppierungsvorhaben dieser
Art stark beeinträchtigen. Sie sollten daher ggf. nicht
einbezogen, aber extra aufgeführt werden.
Das Ergebnis ist kein Dogma. Entspricht es den Er-
fordernissen noch nicht, so sind jederzeit Modifizie-
rungen möglich.
Im obigen Beispiel wäre auch eine Gruppierung nach
Noten natürlich und evtl. besser als die allgemeine
Vorgehensweise.

22
Die grafische Darstellung gruppierten Datenmaterials
erhält man zum Beispiel in Form eines Blockdia-
gramms (Histogramms), indem über jedem der Teil-
intervalle [aj , aj+1) ein Rechteck errichtet wird.

Dabei soll die Fläche (nicht die Höhe) des Rechtecks


über [aj , aj+1) gleich der zugehörigen relativen Klas-
senhäufigkeit
n
1 X
kj := · 1{aj ≤xi<aj+1} , j = 1, 2, . . . , s
n i=1
sein. Damit berechnet sich die Höhe yj des Recht-
ecks über [aj , aj+1) aus der Gleichung
kj
yj = , j = 1, 2, . . . , s .
aj+1 − aj
Im Falle konstanter Gruppenbreiten d (wie bei obiger
Vorgehensweise) folgt dann
kj
yj = , j = 1, 2, . . . , s .
d

23
Wählt man im obigen Beispiel die genannte Klassen-
einteilung erhält man die folgenden zugehörigen rela-
tiven Klassenhäufigkeiten kj und Rechteckhöhen yj .

j 1 2 3 4 5 6 7
kj 0, 04 0, 10 0, 00 0, 08 0, 26 0, 34 0, 18
yj 0, 006 0, 014 0, 000 0, 011 0, 037 0, 049 0, 026

Das zugehörige Blockdiagramm hat dann das folgen-


de Aussehen.

0.05

0.04

0.03

0.02

0.01

0
0 5 10 15 20 25 30 35 40 45 50

24
Auch andere Klasseneinteilungen können sinnvoll
sein. Wählt man in obigem Beispiel etwa nur 5 Klas-
sen und die Klasseneinteilung

[0, 25) , [25, 33) , [33, 40) , [40, 47) , [47, 50]

erhält man die zugehörigen relativen Klassenhäufig-


keiten kj und Rechteckhöhen yj

j 1 2 3 4 5
kj 0.22 0.08 0.26 0.40 0.04
yj 0.009 0.010 0.037 0.057 0.013

0.06

Blockdiagramm: 0.05

0.04

0.03

0.02

0.01

0
0 25 33 40 47 50

25
Hier wird deutlich, dass die richtige Wahl der Recht-
eckhöhen wichtig ist. Würde man die relativen Klas-
senhäufigkeiten nicht den entsprechenden Recht-
eckflächen, sondern den Rechteckhöhen zuordnen,
ergäbe sich das folgende Blockdiagramm.

0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
0 25 33 40 47 50

Hier liegt eine deutliche Verzerrung vor, intuitiv ist man


geneigt, beispielsweise der ersten Klasse viel mehr
Gewicht beizumessen, als ihr tatsächlich zusteht.

Es sei noch angemerkt, dass viele gängige Software-


produkte nicht (bzw. nur unter großen Mühen) in der
Lage sind, Histogramme mit unterschiedlichen Klas-
senbreiten zu erstellen.

26
Oben erwähnte Verzerrungen begegnen uns (wenn
auch meist nicht in so offensichtlicher Form) im tägli-
chen Leben recht häufig, siehe dazu auch

Krämer, W., So lügt man mit Statistik, Cam-


pus Verlag GmbH, Frankfurt/Main, 1991.

27
Es sei noch erwähnt, dass es auch möglich ist, statt
der relativen Häufigkeiten die absoluten Häufigkeiten
in Blockdiagramme einzutragen, hier sind die selben
Grundsätze zu beachten, um eine Verfälschung des
Diagramms zu vermeiden.

Neben Balken- und Blockdiagrammen gibt es ei-


ne Vielzahl weiterer Möglichkeiten zur graphischen
Präsentation des empirischen Datenmaterials, man
denke nur an die oft dargestellten Kreisdiagramme.

28
Lagemaße

Bei der Angabe von Lagemaßen von Stichproben


achte man sorgfältig auf die Art der Messbarkeit der
entsprechenden Merkmale. Wurden zum Beispiel für
das Merkmal Farbe eines Kühlschrankes“ die Merk-

malsausprägungen weiß“, rot“, sonstige“ mit 1, 2
” ” ”
bzw. 3 codiert, so gibt es keinen Sinn, den (arithme-
tischen) Mittelwert zu bilden, der beispielsweise bei
1.4 liegen könnte.

Sinnvolle Beispiele:

• Der Durchschnittslohn in Unternehmen A beträgt


2400 Euro und in B 3500 Euro.

• Die durchschnittliche Kaltmiete für Drei-Raum-


Wohnungen ist in Stadt X 540 Euro und in Stadt
Y 730 Euro.

• Die Tages-Durchschnittstemperatur beträgt im


Sommer 22 ◦C und im Winter -5 ◦C.

29
Fazit:
In allen obigen Fällen kann man sich - ohne die Ein-
zelwerte zu kennen - sofort ein Bild über die jeweilige
allgemeine Situation machen. Dies ist der Sinn von
Lagemaßen.

Wichtigstes Lagemaß ist das Arithmetische Mittel, es


gibt aber auch andere.

Empirischer Modalwert (Dichtemittel)

Bezeichnung: xD
xD ist der in der Stichprobe am häufigsten angenom-
mene Wert.

Die Angabe ist bei nominal messbaren, ordinal


messbaren und metrisch messbaren Merkmalen sinn-
voll. Der Modalwert muss nicht eindeutig sein. Sei-
ne Aussagekraft ist oft (insbesondere bei metrisch
messbaren Merkmalen) gering. Bei nominal messba-
ren Merkmalen ist der empirische Modalwert der ein-
zig sinnvolle Lageparameter.

30
Beispiel (siehe oben):
Bei einer Klausur sollen die Ergebnisse von n = 50
Studenten ausgewertet werden. Es sind maximal 50
Punkte zu erreichen. Das Resultat ist in folgender Ta-
belle zusammengefasst.

41 24 42 33 5 48 42 49 39 30
34 32 40 43 33 38 44 8 33 43
29 43 23 41 14 43 14 22 40 42
31 44 42 1 40 41 10 40 35 37
44 41 37 23 35 35 33 34 42 12

Hier gilt xD = 42.

31
Manchmal spricht man auch bei gegebener Klassen-
einteilung von empirischen Modalwerten. Das ist nicht
ganz exakt. Bei der Einteilung

[1, 8), [8, 15), [15, 22), [22, 29), [29, 36),
[36, 43), [43, 50)

würde die Klasse [36, 43) den empirischen Modal-


wert darstellen (höchste Säule im Blockdiagramm).
Sind die Daten gruppiert, so gelten die Dichtemittel
nur für die vorliegende Gruppierung. Verändert man
die Gruppierung, so erhält man i. Allg. auch ein ande-
res Dichtemittel.

32
Empirischer Median (Zentralwert)
Bezeichnung: x e
e ist ein Wert, für den gilt, dass mindestens die Hälfte
x
aller Stichprobenelemente kleiner oder gleich x e und
mindestens die Hälfte aller Stichprobenelemente
größer oder gleich x e sind. Seine Bildung ist bei
ordinalen und metrischen Merkmalen (nicht jedoch
bei nominalen Merkmalen) sinnvoll.
Zur Berechnung geht man von der Stichpro-
be x1, x2, . . . , xn zur geordneten Stichprobe
x(1), x(2), . . . , x(n) mit x(1) ≤ x(2) ≤ . . . ≤ x(n)
über. Man definiert dann



 x n+1  n ungerade
2
x
e=  
 1· x( n ) + x( n +1) n gerade.


2 2 2

Der empirische Median ist robust gegenüber Aus-


reißern.

33
Beispiel (siehe oben):
Bei einer Klausur sollen die Ergebnisse von n = 50
Studenten ausgewertet werden. Es sind maximal 50
Punkte zu erreichen. Das Resultat ist in folgender Ta-
belle zusammengefasst.
41 24 42 33 5 48 42 49 39 30
34 32 40 43 33 38 44 8 33 43
29 43 23 41 14 43 14 22 40 42
31 44 42 1 40 41 10 40 35 37
44 41 37 23 35 35 33 34 42 12

Die geordnete Stichprobe ist gegeben durch

1, 5, 8, 10, 12, 14, 14, 22, 23, 23, 24, 29, 30,
31, 32, 33, 33, 33, 33, 34, 34, 35, 35, 35, 37,
37, 38, 39, 40, 40, 40, 40, 41, 41, 41, 41, 42,
42, 42, 42, 42, 43, 43, 43, 43, 44, 44, 44, 48, 49

und es gilt
 
1
e = · x(25) + x(26) = 37.
x 2

34
Anmerkung

Der Zentralwert ist ein Spezialfall so genannter Empi-


rischer Quantile
Teilt man die geordnete
Stichprobe in so bestimmt man Bezeichnung

2 gleiche Teile x
e = x0.5 Empirischer Median,
Zentralwert
4 gleiche Teile x0.25 , x
e, x0.75 Empirische Quartile
10 gleiche Teile x0.1 , . . . , x0.9 Empirische Dezile
100 gleiche Teile x0.01 , . . . , x0.99 Empirische Perzentile

Es sind beliebige andere Varianten möglich

35
Arithmetisches Mittel
Bezeichnung: x
x ist der wichtigste und gebräuchlichste Mittelwert,
man berechnet
n
1 X
x= · xi .
n i=1
Man beachte jedoch stets, dass die Bildung des arith-
metischen Mittels nur bei metrisch messbaren Merk-
malen zulässig ist, da nur dort die Abstandsbeziehung
der reellen Zahlen zur Verfügung steht.

In obigem Beispiel gilt

1 (41 + 24 + . . . + 12) = 33.38.


x = 50

36
Anmerkung
Ist das Datenmaterial gruppiert (s Gruppen), so be-
rechnet man aus den Merkmalswerten der Gruppen
xj und den relativen Gruppenhäufigkeiten kj (siehe
oben) das gewogene arithmetische Mittel gemäß fol-
gender Formel
s
X
x= xj · k j .
j=1
Liegen dabei Gruppen vor, deren Merkmalswerte in
Bereiche unterteilt sind (von . . . bis / von . . . bis unter),
so verwendet man als xj einer Gruppe üblicherweise
die Gruppenmitte.

Sind die Daten gruppiert, so gilt wie für alle Lagemaße


auch das arithmetische Mittel nur für die vorliegen-
de Gruppierung. Verändert man die Gruppierung, so
erhält man i. Allg. auch ein anderes arithmetisches
Mittel.

37
Weitere gelegentlich verwendete Lagemaße sind. . .

Geometrisches Mittel
v
u n

n
uY
n
xg = x1 · x2 · . . . · xn = t xi
i=1
Wichtigstes Einsatzgebiet ist die Mittelung von Indizes
(Entwicklungskennziffern) sowie die Berechnung des
durchschnittlichen Wachstumstempos.

Beispiel:
Herr X kauft für 1000 EURO Aktien. Im ersten Jahr
steigt deren Wert um 20 %, im zweiten Jahr um 25 %
und im dritten Jahr sinkt der Wert um 33.33 %. Be-
rechnen Sie die durchschnittliche Wertveränderung
der Aktien.
s
3 2
1.20 · 1.25 · = 1
3

Bitte darüber nachdenken.


Weiteres zum geometrischen Mittel siehe Literatur.
38
Weitere gelegentlich verwendete Lagemaße sind. . .

Harmonisches Mittel
n n
xh = 1 1 + ··· + 1
= n
x1 + x2 xn
P 1
x
i=1 i
Diese Sonderform der Berechnung von Durchschnit-
ten wird selten gebraucht und nur bei spezifischen
Datensituationen angewendet.

Anwendungssituation
n Beobachtungswerte (metrisch skaliertes Merkmal).
Das Merkmal ist eine Beziehungszahl der allgemei-
nen Form ab . In der Bezeichnung des Merkmals findet
man daher Ausdrücke wie je“, pro“oder /“,
” ” ”
Beispiele: km/h, Verbrauch pro Kopf, Kosten pro
Stück,. . .
Der Ausdruck b im Zähler bleibt für jede Messung des
Merkmals konstant.

39
Zahlenbeispiel zum harmonischen Mittel

Ein Kraftfahrer durchfährt ein und dieselbe Strecke


früh mit 50 km/h und abends mit 100 km/h. Wie
hoch ist die Durchschnittsgeschwindigkeit für beide
Strecken?

Trugschluss: 75 km/h im Mittel.

Denn z. B. für eine Strecke von 100 km braucht der


Kraftfahrer früh 2 Stunden und abends 1 Stunde, ins-
gesamt also 3 Stunden. Damit ergibt sich die mittlere
Geschwindigkeit 200 km = 66.67 km/h.
3h

Da hier der Zähler der Merkmalswerte konstant


ist (zurückgelegte Strecke) und der Nenner variiert
(benötigte Zeit) ist das geometrische Mittel der Ge-
schwindigkeiten das Mittel der Wahl“.

2
1 + 1
= 66.67
50 100

Bitte darüber nachdenken.


Weiteres zum harmonischen Mittel siehe Literatur.
40
Streuungsmaße

Beispiele:

• Zwei Kleinunternehmen beschäftigen jeweils 10


Mitarbeiter.
Im Unternehmen A verdienen 5 Mitarbeiter je
7000 EUR und 5 Mitarbeiter je 3000 EUR.
Im Unternehmen B verdienen 5 Mitarbeiter je
5500 EUR und 5 Mitarbeiter je 4500 EUR.
• In zwei Dörfern gibt es jeweils 10 Bauern.
In Dorf A haben 5 Bauern jeweils 4 Kühe und 5
Bauern jeweils 6 Kühe.
In Dorf B hat ein Bauer 50 Kühe, die anderen
Bauern sind kuhlos“.

In beiden Fällen ist der (arithmetische) Mittelwert der


Situationen A und B jeweils gleich. Trotzdem liegen
offenbar gravierende Unterschiede vor. Eine Möglich-
keit, diese zu identifizieren bilden Streuungsmaße.

41
Spannweite
Bezeichnung: R
R ist die Differenz zwischen dem größten und dem
kleinsten Beobachtungswert in der Stichprobe, in For-
meln ausgedrückt (nach Übergang zur geordneten
Stichprobe)
R = x(n) − x(1) .
Die Angabe der Spannweite ist für ordinal und me-
trisch meßbare Merkmale sinnvoll. Sie stellt ein sehr
einfach zu bestimmendes Streuungsmaß dar, ist aber
auch nicht sehr aussagekräftig.

In obigem Beispiel gilt

R = 49 − 1 = 48 .

42
Im Allgemeinen untersucht die beschreibende Stati-
stik allerdings nicht das Verhalten von Einzelwerten,
sondern das Typische, Allgemeingültige, Wesentliche
von Massenerscheinungen.

In solchen Fällen ist es manchmal zweckmäßig und


üblich, am Rand der Verteilung liegende Extremwerte
aus der Betrachtung auszuschließen und sich nach-
folgend mit den Werten im Zentrum der Verteilung zu
beschäftigen. Wie viele Werte dabei am unteren und
am oberen Rand gestrichen werden, ist anhand des
konkreten Datenmaterials zu entscheiden und rein
sachlich zu begründen. Häufig werden folgende (va-
riierbare) Vorgehensweisen praktiziert.

Spannweite x(n) − x(1) = xmax − xmin


Interquartilsabstand x0.75 − x0.25
Dezilsdifferenz x0.9 − x0.1

43
Die nachfolgenden Streuungsmaße können nur für
metrisch messbare Merkmale bestimmt werden.

Mittlere absolute Abweichung


Bezeichnung: d
Man berechnet
n
1 X
d= · |xi − x| ,
n i=1
wobei x das arithmetische Mittel darstellt. Die mittlere
absolute Abweichung wird in der Praxis recht selten
verwendet.
Sie gibt offenbar an, um wie viel Maßeinheiten des
Merkmals die Merkmalswerte durchschnittlich vom
arithmetischen Mittel x abweichen. Teilt man d durch
x erhält man die entsprechende mittlere prozentuale
Abweichung.

In obigem Beispiel gilt


1
d= · (|41 − 33.38| + |24 − 33.38| + . . . + |12 − 33.38|)
50
= 8.97.

44
Empirische Varianz
Bezeichnung: s2
Man berechnet
n
1
s2 = ( xi − x) 2 ,
X
·
n − 1 i=1
wobei x das arithmetische Mittel darstellt. Die em-
pirische Varianz ist in gewisser Weise die mittlere
quadratische Abweichung der Stichprobenwerte vom
arithmetischen Mittel x. Die Frage, warum es sinnvoll
ist durch n − 1 (und nicht durch n) zu dividieren, wird
in der beurteilenden Statistik geklärt. Die empirische
Varianz ist das gebräuchlichste Streuungsmaß.

Empirische Standardabweichung
Bezeichnung: s
s ist die Quadratwurzel aus der empirischen Varianz,
v
n
1
u
( xi − x) 2 .
u X
s=t ·
n − 1 i=1
Die empirische Standardabweichung hat (im Gegen-
satz zur empirische Varianz) die gleiche Einheit wie
die Merkmalsausprägungen.
45
In obigem Beispiel gilt
1
s2 = · (41 − 33.38)2 + (24 − 33.38)2 + . . .
50 − 1
2

+ (12 − 33.38)
= 137.91

und

p
s = s2 = 11.74 .

46
Boxplots
Der Boxplot ist ein Instrument zur grafischen Da-
tenanalyse anhand von Lage- und Streuungspara-
metern. Er zeigt
• die Quartile x0.25 und x0.75 als Grenzen der
Grafik und damit den Interquartilsabstand (IQA),
• die Lage des Medians x0.5 innerhalb des IQA,
• die Lage des kleinsten und des größten Wertes,
die noch nicht als extrem bezeichnet werden,
(maximal 1.5 · IQA = maximal 1,5 Boxbreiten
vom nächsten Quartil entfernt),
• Ausreißer, mit einer Entfernung zwischen 1,5 und
maximal 3 Boxbreiten vom nächsten Quartil,
• Extremwerte mit einer Entfernung > 3 Boxbreiten
vom nächsten Quartil.

47
Beispiel (siehe oben):
Bei einer Klausur sollen die Ergebnisse von n = 50
Studenten ausgewertet werden. Es sind maximal 50
Punkte zu erreichen. Das Resultat ist in folgender Ta-
belle zusammengefasst.
41 24 42 33 5 48 42 49 39 30
34 32 40 43 33 38 44 8 33 43
29 43 23 41 14 43 14 22 40 42
31 44 42 1 40 41 10 40 35 37
44 41 37 23 35 35 33 34 42 12

Der Boxplot der Punktezahlen hat folgendes Ausse-


hen:
50

40

30
Punkte

20

10
37
18

0 34

48
Beispiel (Fortsetzung):
Angenommen, die letzte Punktezahl wurde falsch er-
fasst,
41 24 42 33 5 48 42 49 39 30
34 32 40 43 33 38 44 8 33 43
29 43 23 41 14 43 14 22 40 42
31 44 42 1 40 41 10 40 35 37
44 41 37 23 35 35 33 34 42 120

Man erkennt den Extremwert gut aus dem modifizier-


ten Boxplot
120
50

100

80
Punkte

60

40

20
27

18 25
37
5
0
34

49
Zusätzlich zu den Punktezahlen sei die Intensität der
Vorbereitung auf die Klausur (Merkmalsausprägun-
gen schlecht und gut) erfasst worden. Es werden für
die Punktezahlen bei beiden Ausprägungen getrennte
Boxplots erstellt:

50

40
Punkte

30

20

37
10

0
schlecht gut

Vorbereitung

50

Das könnte Ihnen auch gefallen