Entdecken Sie eBooks
Kategorien
Entdecken Sie Hörbücher
Kategorien
Entdecken Sie Zeitschriften
Kategorien
Entdecken Sie Dokumente
Kategorien
Wirtschaftswissenschaftler
Statistik und
konometrie fr
Wirtschaftswissenschaftler
Eine anwendungsorientierte Einfhrung
3., berarbeitete und aktualisierte Auflage
Benjamin Auer
Universitt Leipzig
Leipzig, Deutschland
Horst Rottmann
Ostbayerische Technische Hochschule Amberg
Weiden | ifo Institut fr Wirtschaftsforschung an der Universitt Mnchen
Amberg Weiden und Mnchen, Deutschland
ISBN 978-3-658-06438-9
DOI 10.1007/978-3-658-06439-6
Vorwort
Vorwort zur 3. Auflage
Liebe Leserinnen und Leser,
seit der 1. Auflage erfreut sich unser Lehrbuch unter Studierenden und Dozierenden zunehmender Beliebtheit. Es wird mittlerweile deutschlandweit eingesetzt und
ist nicht nur in wirtschaftswissenschaftlichen Bachelor- und Masterstudiengngen,
sondern auch bei empirisch arbeitenden Promoventen sehr gefragt. Wie uns zahlreiches positives Feedback aus der Leserschaft zeigt, ist dies insbesondere auf den
umfassenden konometrieteil des Buches zurckzufhren, der anders als klassische statistische Grundlagenliteratur mit detaillierten Anwendungsbeispielen solide
Grundlagen fr das wissenschaftliche Arbeiten legt.
Aus diesem Grund haben wir uns in der 3. Auflage dafr entschieden, die bewhrte Konzeption des Buches beizubehalten. Das konometriekapitel wurde vollstndig berarbeitet und erweitert. So werden nun Themen wie Volatilittsmodellierung
mit ARCH- und GARCH-Prozessen, vor- und nachlaufende Konjunktutindikatoren
und die Spezifikation von Zeitreihenmodellen fr Anleihenrenditen behandelt.
Darber hinaus haben wir den Online-Service des Buches ausgebaut. Insbesondere
wurde die Formelsammlung zum Buch aktualisiert und auerdem die Sammlung an
bungsdatenstzen und Excel-Tools vergrert. So fmden Sie nun z.B. auch Tools
zur Abbildung von Autokorrelationsfunktionen fr autoregressive Prozesse und zur
Simulation von Regressionsmodellen mit heteroskedastischen oder autokorrelierten
Strtermen.
Wir danken fr die hilfreichen Kommentare und Verbesserungsvorschlge zu dieser
Auflage Herrn Prof. Dr. Thomas Jost, der uns auch schon ZU den vorherigen Auflagen sehr wertvolle Anregungen gab. Auerdem gilt den Herren Maurice Hoftnann,
Markus Kruse und Robert Vinzelberg fr das abschlieende Korrekturlesen besonderer Dank.
Wir wnschen Ihnen weiterhin viel Erfolg bei der Arbeit mit dem Lehrbuch und
wrden uns bei Fragen, Anregungen und Kritik sehr ber eine kurze E-Mail via
www.statistik-auer-rottmann.de freuen.
Vorwort
VI
wir freuen uns, Ihnen jetzt die 2. Auflage von "Statistik und konometrie fr Wirtschaftswissenschaftler" prsentieren zu drfen. Dozenten betonen uns gegenber
immer wieder, dass die umfassende Perspektive und der anwendungsorientierte
Ansatz mit vielen Beispielen aus der Praxis wesentliche Strken des Buches darstellen. Wir haben daher bei der Neuauflage des Buches die Grundkonzeption beibehalten und uns im Wesentlichen auf eine Korrektur der Fehler, Aktualisierungen
einiger Anwendungen aus der Praxis sowie kleine Ergnzungen inhaltlicher Art beschrnkt. Im Kapitel zur deskriptiven Statistik wurden etwa die Graftken und Berechnungen zu wichtigen Indizes aus der Wirtschaftspraxis und zur Volatilittsmessung auf Wertpapiennrkten auf den aktuellen Stand gebracht. Zustzlich haben
wir die Neuauflage um einen Abschnitt zur Momentenschtzung erweitert.
Weiterhin wurde auch der Online-Service zum Buch ausgebaut. Er umfasst nun
unter anderem auch einen umfangreichen bungsdatensatz mit Zeitreihen zur historischen Entwicklung des deutschen Kapitalmarktes (Aktien- und Rentenmarktindizes, Geldmarktstze, Wechselkurse sowie Preise ausgewhlter Rohstoffe und
Edelmetalle) und der deutschen konomie (Inflationsrate, Geldmengen, Geschftsklimaindizes und klassische Wirtschaftsdaten aus der Volkswirtschaftlichen Gesamtrechnung). Dieser wird regelmig aktualisiert zur Verfgung gestellt und gerne in
Reaktion auf Anregungen aus der Leserschaft erweitert.
Wir danken fr die hilfreichen Kommentare und Verbesserungsvorschlge zu dieser
Auflage Prof. Dr. Thorsten Hock und Prof. Dr. Thomas Jost, der uns auch schon
zur Erstauflage sehr wertvolle Anregungen gab.
Wir wnschen Ihnen weiterhin viel Erfolg bei der Arbeit mit dem Lehrbuch und
wrden uns bei Fragen, Anregungen und Kritik sehr ber eine kurze E-Mail via
www.statistik-auer-rottmann.de freuen.
Vorwort
VII
mit diesem Werk liegt Ihnen das erste deutsche Lehrbuch vor, das die beiden fr
empirisch arbeitende Wirtschaftswissenscbaftler relevanten Gebiete - die Statistik
und die konometrie - kombiniert und umlassend darstellt. Bei der Aufbereitung
der Themenbereiebe aebten wir besonders auf Klarheit und die Verwendung einer
Vielzahl theoretiseber und empirischer Beispiele. Auf komplizierte Herleitungen
und Beweise verzichten wir bewusst, wenn sie unseres Erachtens nur das Verstndnis erschweren.
Dieses Bueb soll Ihnen als Lehrenden helfen, die heiklen Themen Statistik und
konometrie verstndlich, studenten- und vor allem praxisgerecht fr Ihren Un-
VIII
Vorwort
terricht aufzubereiten. Den Studierenden soll es dazu dienen, alle relevanten Themen fr ihre Klausur noch einmal zu wiederholen und mit Hilfe zahlreicher
bungsaufgaben zu festigen. Bei der Lsung dieser Aufgaben lassen wir Sie nicht
alleine. Anders als in einschlgigen Lehrbchern wird Ihnen nicht einlach ein Ergebnis ohne Rechenweg und Erluterungen prsentiert. Stattdessen erklren wir
nachvollziehbar und anschaulich jeden einzelnen Rechenschritt und die allgemeine
Vorgehensweise.
Internetseite mit umfassendem Material
Zur Untersttzung von Dozenten und Studierenden wurde eigens die Internetseite
www.statistik-auer-rottmann.de eingerichtet. Hier finden Sie beispielsweise diverse
Excel-Tools, mit denen Rechenbeispiele und Verfahren einfach nachvollzogen und
praktisch umgesetzt werden knnen, sowie die Datentabellen konometrischer
Schtzungen im Excel- und EViews-Format. Auf die Verfgbarkeit derartigen Materials wird im Text durch das Symbol lt am Seitenrand hingewiesen. Weiterhin bieten wir Ihnen online zustzliche bungsaufgaben inklusive der ausfhrlichen
Lsungen und eine auf das Buch abgestimmte Formelsammlung. Speziell fr Dozenten stellen wir die Lsungen der bungsaufgaben mit geraden Aufgabennummern, die im Buch nicht verffentlicht sind, sowie alle Grafiken des Buches in
Danksagung
Bei der Konzeption und Gestaltung des Buches haben uns viele Personen untersttzt. Wir danken Prof. Dr. Christopher Dietmaier, Prof. Dr. Gebhard Flaig, Prof.
Dr. Oliver Hlsewig, Prof. Dr. Norbert Janz, Prof. Dr. Thomas Jost, Prof. Dr. Erich
Ruppert, Prof. Dr. Franz Seitz und Dr. Timo Wolhnershuser fr wertvolle Hinweise
und Verbesserungsvorschlge. Ihnen mchten wir fr ihre hilfreichen kritischen
Auseinandersetzungen mit unseren Ideen ganz besonders danken. Fr das Gelingen dieser Arbeit war zudem der wissenschaftliche Freiraum hilfreich, den Herr
Benjamin Auer am Lehrstuhl von Prof. Dr. Frank Schuhmacher erhalten hat. Besonderer Dank gilt auerdem Herrn Steffen Burkhardt fr eine kritische Durchsicht
des Manuskripts, Korrekturrechnen und wertvolle formale Hinweise, sowie Herrn
Mark Kirstein und Frau Karla Strau fr ein abschlieendes Korrekturlesen.
Allen Lesern wnschen wir auf diesem Weg, dass sie durch dieses Buch einen Zugang zu den interessanten Fragestellungen finden, die sich mit Hilfe der Statistik
und konometrie beantworten lassen. Bei Fragen, Anregungen und Kritik wrden
In haltsverzeich nis
Vorwort ......................................................................................................................... v
Abbildungsverzeichnis .............................................................................................. XXI
Anwendungsverzeichnis .......................................................................................... XXV
I Deskriptive Statistik ............................................................................................ 1
1. Grundbegriffe ............................................................................................................ 3
1.1 Der Statistikbegriff............................................................................................... 3
1.2 Merkmalstrger, Grundgesamtheiten und Stichproben ..................................... 4
1.3 Klassifikation von Merkmalen ............................................................................. 6
1.3.1
1.3.2
1.3.3
2.1.2
2.1.3
2.1.4
2.1.5
Quantile ................................................................................................. 28
Median .............................................................................................. 34
2.2.1.3
2.2.1.4
2.2.1.5
2.2.1.6
2.2.2
2.2.2.1
2.2.2.2
2.2.2.3
2.2.2.4
Inhaltsverzeichnis
2.2.2.5
Variationskoeffizient ........................................................................ 59
2.2.2.6
Box-Whisker-Plot ............................................................................. 61
Schiefemae ..................................................................................... 63
Konzentrationsmessung ........................................................................ 65
Mazahlen der absoluten Konzentration ........................................ 66
Mazahlen der relativen Konzentration .......................................... 70 ,.
Kontingenztabelle ................................................................................. 81
3.1.2
3.1.3
3.1.4
3.2.3
3.2.4
3.2.5
3.2.6
Kritische Anmerkungen zur Korrelationsanalyse ............................... 108
4. Messzahlen und Indizes ........................................................................................ 111
4.1 Messzahlen ....................................................................................................... 111
4.2 Indexzahlen ..................................................................................................... 113
4.2.1
4.2.1.1
4.2.1.2
4.2.1.3
4.2.1.4
4.2.1.5
4.2.1.6
4.2.1.7
4.2.1.8
4.2.2
4.2.3
4.2.4
Inhaltsverzeichnis
XI
4.2.4.1
4.2.4.2
4.2.4.3
XII
Inhaltsverzeichnis
2.4.1.1
2.4.1.2
2.4.2
2.4.2.1
2.4.2.2
2.4.2.3
2.4.3
2.4.4
2.6.2
2.7.2
2.7.2.1
2.7.2.2
2.7.2.3
2.7.2.4
2.7.3
2.7.4
2.7.4.1
2.7.4.2
2.75
2.7.6
2.7.7
3.1.1.1
3.1.1.2
3.1.1.3
3.1.2
3.1.2.1
Inhaltsverzeichnis
XIII
3.1.2.2
3.1.2.3
3.2.1.1
3.2.1.2
3.2.2
3.2.2.1
3.2.2.2
3.2.3
3.2.3.1
3.2.3.2
3.2.3.3
3.2.4
3.3.2
3.3.3
3.4.2
3.4.2.1
3.4.2.2
3.4.2.3
3.4.2.4
3.4.2.5
XIV
Inhaltsverzeichnis
1.2.1
1.2.2
1.2.2.1
1.2.2.2
1.2.3
1.2.3.1
1.2.3.2
1.2.4
1.2.5
1.2.5.1
1.2.5.2
1.2.5.3
1.3.2
1.3.3
1.3.4
1.3.5
1.4.2
1.4.3
2.2.2
2.2.3
2.6.2
2.6.3
xv
Inhaltsverzeichnis
3.3.1.3
3.3.1.4
3.3.2
3.3.2.1
3.3.2.2
3.3.2.3
3.4.1.1
3.4.1.2
3.4.2
3.4.3
uuu_uuu.uuuuuu.u.u.u.u.u.u.uuu.u.u.u.uu.
417
1.1.2
1.2.2
1.2.3
1.2.4
XVI
Inhaltsverzeichnis
1.2.4.1
1.2.4.2
1.2.4.3
2.1.2
2.2.2
2.2.3
2.3.2
3.1.3
3.1.4
3.2.3
Weitere Anwendungen des F-Tests und der Chow-Test.. ................ .474
3.3 Test der Normalverteilungsannahme ............................................................. .477 ,.
4. Verletzungen der Annahmen des klassischen Regressionsmodells .................... .481
4.1 Modellspezifikation I: Varlablenwahl .............................................................. 481
4.1.1
4.1.2
4.1.3
4.1.4
4.2.2
4.2.2.1
4.2.2.2
Inhaltsverzeichnis
XVII
4.2.2.3
4.2.2.4
4.2.2.5
4.2.2.6
4.2.3
4.2.3.1
4.2.3.2
4.2.4
4.3.2
4.3.3
4.3.4
4.4.2
4.4.3
4.4.3.1
4.4.3.2
4.4.4.2
4.4.4.3
4.5.2
4.5.3
4.5.3.1
4.5.3.2
4.5.3.3
4.5.4
4.5.4.1
4.5.4.2
4.5.4.3
XVIII
Inhaltsverzeichnis
4.6.1
4.6.2
4.6.2.1
4.6.2.2
4.6.2.3
4.6.2.4
Simultanitt..................................................................................... 567
4.6.3
4.6.3.1
4.6.3.2
4.6.3.3
4.6.3.4
4.7.1.1
4.7.1.2
4.7.1.3
4.7.2
4.7.2.1
4.7.2.2
4.7.2.3
4.7.2.4
4.7.2.5
4.7.2.6
4.7.2.7
4.8.2
4.8.3
4.8.3.1
4.8.3.2
4.8.3.3
4.8.3.4
4.8.3.5
4.7.3.4
4.7.3.5.
Inhaltsverzeichnis
XIX
6.2.2
6.2.3
6.2.4
Abbildungsverzeichnis
Abbildung I 1: Deskriptive und induktive Statistik ......................................................... 3
Abbildung I 2: Grundgesamtheit oder Stichprobe und Merkmalstrger ........................ 4
Abbildung I 3: Statistische Maskalen ............................................................................. 6
Abbildung I 4: Stetige und diskrete Merkmale .............................................................. 10
Abbildung I 5: Hufigkeitstabelle ................................................................................... 15
Abbildung I 6: Hufigkeitstabelle bei klassierten Daten ............................................... 22
Abbildung I 7: Histogramme typischer Hufigkeitsverteilungen ................................... 27
Abbildung I 8: Quartile in der Urliste ............................................................................ 28
Abbildung I 9: Statistische Mazahlen ............................................................................ 31
Abbildung I 10: Lageparameter und Skalierung ............................................................ 32
Abbildung I 11: Zusammenhang zwischen stetigen und diskreten Renditen .............. .42
Abbildung I 12: Lageregeln ........................................................................................... .44
Abbildung I 13: Arbeitstabelle zur Varianzberechnung ................................................ .51
Abbildung I 14: Einfacher Box-Whisker-Plot ................................................................. 61
Abbildung I 15: Spezieller Box-Whisker-Plot................................................................. 62
Abbildung I 16: Konstruktion der Lorenz-Kurve ........................................................... 70
Abbildung I 17: Arbeitstabelle zur Berechnung des Gini-KoefflZienten ....................... 75
Abbildung I 18: Streudiagramm ...................................................................................... 82
Abbildung I 19: Kontingenztabelle ................................................................................. 83
Abbildung I 20: Kontingenztabelle mit Randhufigkeiten ............................................. 85
Abbildung I 21: Korrelationsmae und Skalierung ........................................................ 92
Abbildung I 22: Interpretation der Kovarianz ................................................................ 93
Abbildung I 23: Bravais-Pearson-Korrelationskoeffizient und Streudiagramm ............. 98
Abbildung 124: Spearman-Rangkorrelationskoeffizient und Streudiagrarnm ............. l02
Abbildung 125: Kausale versus statistische Zusammenhnge .................................... 108
Abbildung II 1: Teilereignis und quivalente Ereignisse ............................................. 153
Abbildung II 2: Vereinigung und Durchschnitt ........................................................... 154
Abbildung II 3: Disjunkte und komplementre Ereignisse .......................................... 155
Abbildung II 4: Differenz .............................................................................................. 156
Abbildung II 5: Durchschnitte bei der Zerlegung ........................................................ 161
Abbildung II 6: Umenmodel1 ....................................................................................... 169
XXII
Abbildungsverzeichnis
CJ ..........
272
Abbildungsverzeichnis
XXIII
Abbildung III 14: Dichtefunktion von V bei korrekter Nullhypothese c) ................... 361
Abbildung III 15: Einstichprobentests den Mittelwert ................................................. 366
Abbildung III 16: berwachungsgrafik zur statistischen Qualittskontrolle ............... 370
Abbildung III 17: Gtefunktion eines unverflschten und eines idealen Tests .......... 386
Abbildung III 18: Gtefunktion vs. OC-Kurve ............................................................. 387
Abbildung III 19: Gtefunktionen beim einfachen Gautest ...................................... 389
Abbildung III 20: Hilfstabelle fr den Chi-Quadrat-Anpassungstest ........................... 391
Abbildung III 21: Kontingenztabelle fr den Chi-Quadrat-Unabhngigkeitstest.. ...... 397
Abbildung III 22: Kontingenztabelle fr den Chi-Quadrat-Homogenittstest ............ .402
Abbildung IV 1: Linearer Zusammenhang zweier Variablen ...................................... .422
Abbildung IV 2: OLS-Schtzung ................................................................................... 423
Abbildung IV 3: Zerleguog der Varianz von Y ........................................................... .433
Abbildung IV 4: Bestimmtheitsma .............................................................................. 434
Abbildung IV 5: Regressionsfunktion der Grundgesamtheit 1.. .................................. .440
Abbildung IV 6: Regressionsfunktion der Grundgesamtheit 11................................... .442
Abbildung IV 7: Wahre und geschtzte Regressionsgerade 1.. ................................... .446
Abbildung IV 8: Wahre und geschtzte Regressionsgerade 11 ................................... .446
Abbildung IV 9: Bedingte Verteilung der
E, ................................................................. 448
XXIV
Abbildungsverzeichnis
Anwendungsverzeichnis
Renditen und Renditedurchschnitte ............................................................................... 40
Schtzung von Aktienvolatilitten .................................................................................. 56
Analyse von Wettbewerbsprozessen und Einkommensvetteilungen ............................ 70
Vor- und nachlaufende Konjunkturindikatoren ............................................................. 99
Inflationsmessung ......................................................................................................... 120
Inflationsbereinigung .................................................................................................... 121
Kaufkraftvergleiche ....................................................................................................... 123
Indizes aus der Wirtscbaftspraxis (vpI, HVPI, DA}{) ................................................... 130
Wettquotienten .............................................................................................................. 167
Das Dreitorespiel .......................................................................................................... 191
Roulette ......................................................................................................................... 224
Portfoliorisiko und Diversifikation ............................................................................... 242
Statistische Qualittskontrolle ....................................................................................... 252
Kreditrisiko .................................................................................................................... 262
Planung von Sticbprobenumfngen ............................................................................. 350
Schtzung von Konsumfunktionen .............................................................................. 464
Schtzung von Produktlonsfunktionen ........................................................................ 470
Erklrung der Lhne arbeitsttiger Frauen ................................................................... 478
Erklrung der Lhne arbeitsttiger Mnner .................................................................. 502
Erklrung von Impottvolumina in Wirtschaftsrumen ................................................ .517
Erklrung von Immobilienpreisen ................................................................................ 530
Schtzung von Nachfragefunktionen ........................................................................... 552
Erklrung der Umlaufsrenditen deutscher Untemehmensanleihen ............................ 583
Untersucbung von Trends in der Goldpreisentwicklung ............................................ 602
Beurteilung des langfristigen Zinseinflusses von Zentralbanken ................................ 605
Beurteilung der langfristigen Beziehung zwischen Geldmarktzinsstzen................. 608
Zeitvariable Volatitlitt von Aktienrenditen .................................................................. 620
Prfung der empirischen Validitt des Capital Asset Pricing Models .......................... 635
Analyse der Performance von Investmentfonds .......................................................... 638
Zinsprognose ................................................................................................................. 651
DESKRIPTIVE STATISTIK
Thema dieses ersten Kapitels ist die Aufbereitung von Zahlenmaterial mittels
Oberschaubarer Tabellenstrukturen, grafischer Abbildungen und aussagekrftiger Kennzahlen. Nach einem Grundlagenabschnitt, in dem wir zunchst
die wichtigsten Grundbegriffe der deskriptiven Statistik klren, befassen wir
uns ausfOhrlich mit sog. eindimensionalen Hufigkeitsverteilungen, die sich
Ober Lage-, Streuungs-, Schiefe- und Konzentrationsparameter charakterisieren lassen. Im Anschluss daran erfolgt die detaillierte Behandlung wichtiger Kennzahlen mehrdimensionaler Hufigkeitsverteilungen.
Den Abschluss des Kapitels zur deskriptiven Statistik bildet die Behandlung
von Preismesszahlen und -indizes. Neben verschiedenen Indextypen und
-berechnungsmethoden stellen wir dabei insbesondere verschiedene in der
Praxis wichtige Indizes zur Abbildung des gesamtwirtschaftlichen Preisniveaus und der Lage auf Finanzmrkten vor.
G ru nd beg riffe
Bevor wir auf statistische Methoden zur Zahlenaufbereitung eingehen, werden wir in
diesem einfhrenden Abschnitt zunchst den Begriff Statistik definieren (1.1) und seine
Teilgebiete kurz erlutern. Darauf folgend klren wir die fr die deskriptive Statistik bedeutenden Begriffe Merkmalstrger, Merkmal, Merkmalsausprgung, Grundgesamtheit
und Stichprobe (1.2) und gehen nher auf Maskalen und andere Kriterien ein, die sich
zur Klassifizierung von Merkmalen verwenden lassen (1.3).
(tabellarisch oder grafisch) von Zahlen und Daten ber bestimmte Sachverhalte.
Typische Beispiele hierfr sind Bevlkerungs- und Umsatzstatistiken. Zum anderen
ist Statistik die Gesamtheit aller Methoden zur Erhebung, Aufbereitung und Analyse
empirischer Infonnationen. Gerade diese Methoden gehren mittlerweile zum unverzichtbaren Instrumentarium vieler Fachwissenschaften wie etwa der Physik, der
Biologie, der Geografie und natrlich der Wirtschaftswissenschaften.
Die Statistik kann in die Teilgebiete deskriptive und induktive Statistik untergliedert
werden (vgl. Abbildung I 1). Die deskriptive Statistik (beschreibende, explorative
Statistik) befasst sich damit, die umfangreichen und unberschaubaren Einzeldaten
statistischer Erhebungen durch mglichst wenige, aussagekrftige Kennzahlen Zu
charakterisieren. Die Aufgabe der induktiven Statistik (schlieende Statistik) ist
der Rckschluss auf eine Grundgesamtheit anhand von Stichproben. Dies ist in der
Praxis von entscheidender Wichtigkeit, da Vollerhebungen im Vergleich zu Teilerhebungen (vgl. Abschnitt 1.2) oft zu kostenintensiv oder einfach unmglich sind.
Statistik
Deskriptive Statistik
Induktive Statistik
z.B.
Mittelwerte, Streuungsmae,
stat. Entscheidungstheorie,
multivariate stat. Methoden
Indexberechnung
Teilgebiete:
I Deskriptive Statistik
Merkmalstrger 2
Merkmalstrger n
Merkmal 1
Merkmalsausprgung
Merkmal 2
Merkmalsausprgung
...
...
Merkmal rn
Merkmalsausprgung
Merkmal 1
Merkmalsausprgung
Merkmal 2
Merkmalsausprgung
...
...
Merkmal rn
Merkmalsausprgung
Merkmal 1
Merkmalsausprgung
Merkmal 2
Merkmalsausprgung
...
...
Merkmal m
Merkmalsausprgung
1. Grundbegriffe
Beispiel I 1-1
Merkmalsbegriffe
Grundgesamtheit: Alle bayerischen (rumliche Identifikation) Betriebswirtschaftsstudenten (sachliche Identifikation) im Jahr 2010 (zeitliche Identifikation)
Merkmal:
Mgliche Merkmalsausprgungen:
Alter
19,20,21,22,23, ...
Geschlecht
mnnlich, weiblich
Familienstand
ledig, verheiratet
Wohnort
Mnchen, NOrnberg, .. .
Einkommenshhe
I Deskriptive Statistik
1.3
1.3.1
Gerade das Beispiel I 1-1 aus dem vorhergehenden Abschnitt hat gezeigt, dass
jedes Merkmal zwei oder mehr mgliche Ausprgungen besitzen kann. Je nach Alt
des betrachteten Merkmals knnen diese Merkmalsausprgungen anhand verschiedener Skalen gemessen werden. Abbildung I 3 zeigt die zu unterscheidenden Skalen im berblick und gibt auerdem an, welche Rechenoperationen bei der Auswertung mit den Daten sinnvoll durchfhrbar und interpretierbar sind.
Qualitative
Variablen
Quantitative
Variablen
r~
NomJnaJskala
Ordinalskala
* > <
* > < + -
*><+-.
VerhltnJsskala
Kardinalskala
(metrische
Skala)
1. Nominalskala
Die Nominalskala findet bei Merkmalen Anwendung, bei denen die Ausprgungen
lediglich eine Verschiedenartigkeit und keine Reihenfolge ausdrcken. Dies bedeutet, dass die Merkmalsausprgungen gleichberechtigt nebeneinander stehen. Es besteht zwar die Mglichkeit jeder Merkmalsausprgung eine Zahl zuzuordnen, doch
dient eine solche Verschlsselung der reinen Identifikation und nicht einer Rangfolgenbildung.
Beispiel I 1-2
Nominalskalierte Merkmale
Als typische Beispiele !Ur nominalskalierte Merkmale sind etwa die Religionszugehrigkeit
oder das Geschlecht eines Merkmalstrgers zu nennen. Betrachten wir das Merkmal Geschlecht nher, so zeigen sich die Ausprgungen "Mann" und "Frau". Es kann keine Rangfolge gebildet werden, da keine der Ausprgungen eine hhere WertigkeH besitzt. Selbst
wenn man die Verschlsselung "1 = Mann" und "2 = Frau" vornimmt, dienen die Zahlen
nicht der Rangfolgenbildung. Es kann mit und ohne Verschlsselung nur Gleichheit oder
Ungleichheit Oberprft werden. Wir knnen also z.B. sagen, dass zwei Merkmalstrger ein
unterschiedliches Geschlecht aufweisen. Ein "besseres Geschlecht" gibt es nicht.
1. Grundbegriffe
Kann ein Merkmal nur zwei verschiedene Ausprgungen annehmen (z.B. IIMann l1
und "Frau" beim Merkmal "Geschlecht"), sprechen wir auch von einem dichotomen
Merkmal.
2. Ordinalskala
Neben der Verschiedenartigkeit besitzen die Merkmalsausprgungen ordinalskaHerter Merkmale eine natrliche Rangfolge. Das heit, es kann eine "grer als"Beziehung zwischen den Ausprgungen aufgestellt werden. Wichtig ist dabei aber,
dass die Abstnde zwischen den Merkmalsausprgungen nicht quantifizierbar sind.
Beispiel I 1-3
Ordinalskalierte Merkmale
Typische ordinalskalierte Merkmale sind z.B. der Intelligenzgrad, der Tabellenplatz in der
Fuballbundesliga und Schulnoten. Fr das Merkmal Schulnoten zeigen sich z.B. die Ausprgungen 1, 2, 3, 4, 5, 6. Die Noten erfllen das Verschiedenartigkeitskriterium einer
Nominalskala. Zustzlich kann die Aussage gemacht werden, dass z.B. die Note 2 besser
(hherwertiger) ist als die Note 4. Es kann aber nicht geschlossen werden, dass die 1 im
Vergleich zur 2 genau so viel besser ist wie die 4 im Vergleich zur 5. Die Berechnung eines
Notendurchschnitts ist daher streng genommen nur zulssig, wenn wir unterstellen, dass
die Abstnde zwischen den einzelnen Noten gleichartig sind. Nur dann kann eine Durchschnittsnote von 1,5 als genau zwischen 1 und 2 liegend interpretiert werden.
Im Zusammenhang mit Schulnoten und dem Tabellenplatz in der Bundesliga sprechen wir
auch vom Vorliegen einer sog. Rangskala, da es sich um eine Skala handelt, die nur
ganzzahlige Ordnungsziffern aulweist, die mit 1 beginnen und in ununterbrochener Reihenfolge hintereinander stehen.
Wird z.B. in einem Fragebogen die Qualitt einer Lehrveranstaltung evaluiert, so knnten
die Ausprgungen der Qualittsvariablen folgende Gestalt aulweisen:
-2 = sehr niedrig -1
3. Intervallskala
Zustzlich zu den Eigenschaften einer Ordinalskala knnen bei intervallskalierten
Merkmalen zwischen den Merkmalsausprgungen Entfernungen oder Abstnde angegeben und sinnvoll verglichen werden. Es existiert kein natrlicher Nullpunkt. Er
ist willkrlich definiert. Zwischen den Merkmalstrgern knnen keine Produkte
oder Quotienten gebildet werden.
Beispiel I 1-4
Intervallskalierte Merkmale
I Deskriptive Statistik
4. Verhltnisskala
Zu den Eigenschaften der Intervallskala kommt bei der Verhltnisskala noch ein
natrlicher Nullpunkt hinzu, wodurch eine Produkt- und Quotientenbildung mglich wird. Dies ist typischerweise bei Skalen zur Lngen-, Mengen- und Gewichtsmessung der Fall.
Beispiel I 1-5
Verhltnisskalierte Merkmale
Hier sind alle Transjonnationen zulssig, unterschiedliche Ausprgungen auf unterschiedliche Ausprgungen und gleiche Ausprgungen auf gleiche Ausprgungen
abbilden. So knnen beispielsweise in einem Produktsortiment Artikel Nr. 321 und
Nr. 322 mit neuen Artikelnummern 2005 und 1998 versehen werden.
2. Ordlnalskala
Zulssig sind hier nur sog. streng monotone Transjonnatlonen. Dies bedeutet, dass
aus jedem Merkmalswert X, mit einer Funktion f(x,) der neue Merkmalswert y, gebildet wird. Die Rangfolge der Merkmalstrger darf sich dadurch nicht verndern.
YI = fex)
wobei
fr alle i
(11: 1)
rx:
1. Grundbegriffe
3. Intervallskala
Bei intervallskalierten Merkmalen drfen ausschlielich lineare Transformationen
durchgefhrt werden. Dies bedeutet, dass sich die neuen Merkmalswerte y, als
lineare Funktion von X. ergeben.
y, = ax, + b
ntit a > 0
(11: 2)
Nehmen wir etwa an, dass die Ausprgungen 30 C und 40 C des Merkmals Temperatur in 0 F (Fahrenheit) transforntiert werden sollen, so erfolgt dies ber
Yl=32+~XI'
.....
.....
C
.p
was zu den neuen Werten 86 Fund 104 0 F fhrt, welche weiterhin intervallskaliert
sind und keine Informationen eingebt haben.
0
4. Verhltnisskala
Die wohl restriktivsten Transfonnationen sind bei Verhltnisskalen mglich. Es sind
hier nmlich nur sog. hnlIchkeitstransformationen (proportionale Transformationen), d.h. Multiplikationen ntit positiven Konstanten zulssig.
(11: 3)
Beispiel I 1-6
Skalensenkende Transformationen
blicherweise werden zur Messung von Krpergren Verhltnisskalen (z.B. Zentimeterskala) eingesetzt. Eine Messung kann jedoch auch auf ordinalem oder nominalem Niveau
erfolgen. So knnen wir z.B. metrische Grenklassen bilden und diese durch eine skalensenkende Transformation ordinal oder nominal abbilden.
Verhltnisskala
(5 Grenklassen)
bis 140 cm
ber 140 bis 160 cm
ber 160 bis 180 cm
ber 180 bis 200 cm
Ober 200 cm
Ordinalskala
(5 GrOenrnge)
1
2
3
4
sehr klein
klein
mittelgro
gro
5 sehr gro
Nominalskala
(2 GrOenklassen)
normgerechte Gr e
2 nicht normgerechte Gr e
(unter 150 oder Ober 190 cm)
10
I Deskriptive Statistik
1.3.2
Neben der Untergliederung bezglich der Skalierung ist die Einteilung in diskrete
und stetige Merkmale von Bedeutung. Wir bezeichnen ein Merkmal als diskret,
wenn es nur endlich viele oder hchstens abzhlbar unendlich viele unterschiedliche Ausprgungen annehmen kann. Allgemein knnen alle nominal- und ordinalskalierten Merkmale als diskret angesehen werden. Auch metrisch skalierte
Merkmale knnen diskret sein, wenn sie nur isolierte Zahlenwerte annehmen. Dies
ist typischerweise der Fall, wenn ihnen ein Zhlvorgang zugrunde liegt.
Beispiel I 1-7
Diskrete Merkmale
Typische diskrete Merkmale sind die Anzahl der Studenten an einer Hochschule oder die
Anzahl der Einwohner eines Landes. Betrachten wir das Merkmal Einwohnerzahl nher, so
sind Ausprgungen von 1 bis n mit nE W mglich. Es knnen also beispielsweise Werte
wie 50 oder 51, aber keine beliebigen Zwischenwerte wie 50,5 o. . auftreten.
Im Gegensatz zu diskreten Merkmalen sprechen wir von stetigen Merkmalen,
wenn in einem bestimmten Intervall jeder beliebige Wert angenommen werden
kann, wobei die Intervallgrenzen auch offen sein knnen. Dies gilt in der Regel fr
Merkmale, denen ein beliebig genauer Messvorgang zugrunde liegt.
Beispiel I 1-8
Stetige Merkmale
Lebensdauern, Lngen, Breiten und Hhen sowie Fllgewichte sind typische stetige
Merkmale. Fr das Beispiel FOligewicht knnen so etwa 5 kg oder 6 kg, aber auch beliebige Zwischenwerte wie 5,1 kg oder 5,25 kg bei einer Messung festgestellt werden.
Stetiges Merkmal
(Ld.R. Messvorgang)
Diskretes Merkmal
(Ld.R. Zhlvorgang)
Quasistetigkeit
11
1. Grundbegriffe
1.3.3
Fr das verhltnisskalierte und damit quantitative Merkmal Einkommen liegen nach Befragung zweier Personen die Ausprgungen 1.000 und 3.000 vor. Es kann also ein
Durchschnittseinkommen von 2.000 angegeben werden.
Fr dieselben Personen haben sich die Religionszugehrigkeiten 1 und 3 (vorherige Quantifizierung: 1 = katholisch, 2 = evangelisch, 3 = sonstige) ergeben. Hier von einer "mittleren
Konfession" 2 zu sprechen ware unsinnig. Trotz Quantifizierung bleibt die Religionszugehrigkeit ein nominalskaliertes Merkmal, sodass lediglich Vergleiche der Merkmalsausprgungen zulssig sind.
2.
Eindimensionale
Hufigkeitsverteilungen
Thema dieses Abschnitts ist die Auswertung eindimensionalen (univariaten) Datenmaterials, d.h. Daten zu einem einzigen Merkmal einer Grundgesamtheit oder Stichprobe. Der erste Schritt besteht dabei im Auszhlen von Hufigkeiten, mit der die Ausprgungen des interessierenden Merkmals einzeln oder in Klassen zusammengefasst
auftreten. Dies liefert uns die sog. Hufigkeitsverteilung. In einem zweiten Schritt knnen
wir Mazahlen berechnen, die diese Hufigkeitsverteilung charakterisieren. Mazahlen
geben zwar einen kompakten berblick ber wesentliche Eigenschaften einer Hufigkeitsverteilung, doch lassen sich in grafischen Darstellungen oft Strukuren im Datenmaterial erkennen, die Mazahlen nicht widerspiegeln. Gerade daher empfiehlt es sich, tabellarische und grafische Darstellungen von Hufigkeitsverteilungen mit ihren Mazahlen zu
kombinieren, um das vorliegende Datenmaterial mglichst gut zu beschreiben.
2.1
Hufigkeitsverteilung
Das Auszhlen der Hufigkeiten von Ausprgungen diskreter Merkmale und derer
stetiger (bzw. quasistetiger) Merkmale erfordert unterschiedliche Vorgehensweisen.
Bei diskreten Merkmalen (mit nicht zu vielen unterschiedlichen mglichen Ausprgungen) kommen im auszuwertenden Datenmaterial die einzelnen Ausprgungen
meist mehrmals, d.h. bei mehreren Merkmalstrgem vor. Bei stetigen (und quasistetigen) Merkmalen ist das mehrmalige Auftreten hingegen nicht die Regel.
2.1_1
Elementen (Merkmalstrgem) in der Regel genau n Elemente (Stichprobe) hinsichtlich eines einzigen Merkmals X untersucht. Die durch die Stichprobe gewonnenen
Werte ~, ~, ... , ~ bezeichnen wir als Beobachtungswerte. Durch Aneinanderreihung aller Beobachtungswerte erhalten wir die sog. Beobachtungsreihe oder Urliste. Anders ausgedrckt ist die Urliste das n-Tupel (x" x" ... , x,,) aller n Beobachtungswerte.
Zur Aufbereitung dieses Datenbestandes bzw. der Urliste empfiehlt es sich, die
Hufigkeitsverteilung des Merkmals X zu gewinnen. Dazu bentigen wir die absoluten und relativen Hufigkeiten, der in der Urliste vorkommenden individuellen
Merkmalsausprgungen von X. Wir bezeichnen diese Merkmalsausprgungen mit
all a 21 ... , ~, d.h. wir gehen davon aus, dass in der Stichprobe genau k verschiedene Ausprgungen des Merkmals X auftreten und k nicht ZU gro ist. Wir knnen
damit fr die gesuchten Hufigkeiten die folgenden Zusammenhnge festhalten:
B. Auer, H. Rottmann, Statistik und konometrie fr Wirtschaftswissenschaftler,
DOI 10.1007/978-3-658-06439-6_2, Springer Fachmedien Wiesbaden 2015
I Deskriptive Statistik
14
1. Absolute Hufigkeit
Unter der absoluten Hufigkeit h(a,) verstehen wir die Anzahl von Elementen der
Urliste, die auf eine bestimmte Merkmalsausprgung a; entfallen.
Es gilt allgemein
(12: 1)
und
k
1_'
(12: 2)
Der Wert der absoluten Hufigkeit muss also nach (12: 1) zwingend grer oder
gleich Null und kleiner oder gleich der Gesamtzahl n der Elemente der Urliste sein.
Zudem ergibt nach (12: 2) die Summe aller absoluten Hufigkeiten stets n.
2. Relative Hufigkeit
Dividieren wir die absoluten Hufigkeiten h(a,) durch die Gesamtzahl der Elemente
n, so erhalten wir die relative Hufigkeit
f(a.) = h(a j )
J
(12: 3)
fr die
(12: 4)
und
k
1_'
(12: 5)
gilt. Da die relative Hufigkeit f(a,) nichts anderes angibt als den Anteil, mit dem a,
in der Stichprobe des Umfangs n vertreten ist, liegt f(a,) nach (12: 4) logischerweise
stets zwischen 0 und 1 oder stimmt mit diesen Werten berein. Zudem muss die
Summe aller Anteilswerte zwingend 1 ergeben, was (12: 5) zum Ausdruck bringt.
Relative Hufigkeiten werden hufig auch in Prozent angegeben. Ihre Summe liegt
dann bei 100 %.
Unter der absoluten HufigkeitsverteiIung verstehen wir nun nichts anderes als
die Paare (a" h(a~) mit j - 1,2, ... ,k und unter der relativen Hugkeitsvertellung
die Paare (al' f(a~) mit j = 1,2, ... ,k. Die einzelnen Merkmalsausprgungen aj werden
folge sortiert.
Hufigkeitsverteilungen knnen wir bersichtlich in Fonn von Hujlgkeitstabellen
darstellen. Es empfiehlt sich dabei die Verwendung der in Abbildung I 5 skizzierten
Struktur. Wir erkennen daran recht schn, dass die Eigenschaften (12: 2) und (12: 5)
von absoluten und relativen Hufigkeiten hier als Spaltensummen berprfbar
sind. Fr eine anschauliche Tabellengestaltung empfiehlt es sich, mit mglichst
wenig Linierungen zu arbeiten, um die Tabelle optisch nicht zu berfrachten.
15
2. Eindimensionale Hlufigkeitsverteilungen
Laufende
ausprgung
HufIgkeit
absolute
relative
Hufigkeit
hCa,)
Merlanal>-
N~
h(a\)
"
"
hCa,)
fCa,)
fCa,)
fCa,)
a,.
hCa,)
fCa,)
Abbildung I 5: Hufigkeitstabelle
Bel.plell 2-1
Anlsslich einer Mitarbeiterstatistik wurde in einer Abteilung eines Unternehmens das Aller
X von n _ 25 Mitarbeitern erfasst. Dabei ergab sich die folgende Urliste:
XI In Jahren
23
25
23
29
1
2
3
4
5
6
7
8
9
10
XI In Jahren
11
12
13
14
35
25
23
25
29
I.
23
25
29
25
29
25
23
15
16
17
20
21
22
23
24
25
35
XI In Jahren
35
25
23
35
25
29
25
25
18
Wir erkennen daran, dass in der Stichprobe lediglich die k '" 4 Ausprgungen 23, 25, 29
und 35 des Merkmals X auftauchen. Durch Auszhlung dieser Ausprgungen erhatten wir
die absoluten Hufigkeiten. Diese liefern dividiert durch n - 25 schlielich die relativen
Hufigkeitsn. Wir kOnnen damit die Hufigkeitsverteilung tabellarisch wie folgt darstellen:
Laufende
Nummer
j
1
2
3
4
Merkmalsausprgung
a,
23
25
29
35
Absolute
Hufigkeit
h(~)
6
10
5
4
25
Relative
Hufigkeit
f(a,
0,24
0,40
0,20
0\16
Prozentwert
100 %. f(aJ
24%
40%
20%
16%
100%
Alternativ zur Hufigkeitstabelle kann die Darstellung der absoluten und relativen
Hufigkeitsverteilung auch grafisch in Form eines Piktogranunes, Stab- oder Sulendiagrammes, Hufigkeitspolygons oder Kreissektorendiagrammes erfolgen. Auch
wenn sich in der Praxis berwiegend das Sulendiagramm durchgesetzt hat, wollen
wir im Folgenden dennoch alle Mglichkeiten kurz betrachten:
I Deskriptive Statistik
16
1. PIkIogramm
Wie die Diagrammbezeichnung schon verrt, erfolgt eine Darstellung der Huftgkeiten durch unterschiedliche Anzahl oder Gre von Bildsymbolen.
2. Stobdlogromm
Ein Stabdiagramm (hhenproportionale Darstellung) entsteht durch Eintragung von
Punkten P(al'h(a j )) oder P(al'f(aj )) in ein Koordinatensystem, wobei jeder Punkt
durch eine Senkrechte mit der x-Achse bzw. ~-Achse verbunden wird. Die Lngen
dieser Senkrechten (Stbe) entsprechen daher den absoluten bzw. relativen Hu-
Wie bei der Konstruktion eines Stabdiagrammes werden hier zunchst entweder
die Punkte P(al'h(aj )) oder P(apf(a j )) in ein Koordinatensystem eingetragen. Im
Anschluss daran werden diese durch Geraden verbunden.
4. Snlendfagramm
Im Vergleich zum Stabdiagramm werden beim Sulendiagramm (flchenproportionale Darstellung) die Hufigkeiten durch Flchen (Rechtecke) und nicht durch
Strecken abgebildet. Um eine Verwechslung mit einem Histogramm (vgl. Abschnitt
I 2.1.3) ZU vermeiden, ist ZU beachten, dass die Rechtecke nicht aneinanderstoen.
5. Kreblscktore~
Hier wird zu jeder Merkmalsausprgung ar ein Kreissektor gebildet, wobei die
Flchen der Sektoren und damit auch die Innenwinkel proportional ZU den Hufigkeiten gewhlt werden. Dazu muss fO.t den Innenwinkel ~ des j-ten Sektors
a j = 3600 ((a j )
Bit
(12: 6)
Beispiel I 2-2
Eine Untersuchung aber die Industriesektorenzugehrigkeit von Untemehmen in einer bestimmten Region liefene das Ergebnis, dass 25 % der Unternehmen zum primren (P),
25 % zum sekundren (S) und 50 % zum teniAren Sektor (1) zahlen. Auch wenn bei einem
deranig einfach Oberschaubaren Resultat eigentlich keine grafische Darstellung erforderlich ist, wollen wir dieses einfache Beispiel im Folgenden dazu nutzen, die vorhergehend
beschriebenen Darstellungsformen zu veranschaulichen:
1. Piktogramm:
00000
Primrer Sektor
oee@e
o@o@o@ooo@
TenlArer Sektor
SekundArer Sektor
2. Eindimensionale Hufigkeitsverteilungen
17
P2{S; 0,25}
PatT; 0,50}.
Wir erkennen daran, dass in derartigen grafischen Darstellungen nicht zwangslufig Zahlenwerte auf der x-Achse abgetragen werden mssen.
2. Stabdiagramm:
0,50
0,25
3. Hufigkeitspolygon:
4. Sulandiagramm:
f{a j }
0,50
0,25
,--
aJ
18
I Deskriptive Statistik
5. Kreissektorendiagramm:
Winkelberechnung:
2.1.2
Ist ein Merkmal X ordlnal- oder metrisch skallert, dann unterliegen seine Merkmalsausprgungen a, einer Rangordnung. Es ist hier (nur hier) sinnvoll, die absoluten und relativen Hufigkeiten in aufsteigender Reihenfolge der a, zu summieren.
Durch fortlaufende Aufsummierung (Kumulierung) der absoluten Hufigkeiten
einer Huftgkeitsverteilung mit a, < a, < ... < a k lassen sich sog. absolute Summenhufigkeiten oder kumulierte absolute Hufigkeiten
H(x) = H(X S x) = ~>(al)
(12: 7)
i(SX
ermitteln, wobei H(x) die Anzahl jener Merkmalstrger angibt, welche einen Merkmalswert besitzen, der hchstens (kleiner oder gleich) x betrgt. Falls x genau
einem der a, entspricht, sind also lediglich die absoluten Hufigkeiten bis ZU dieser
Ausprgung a, aufzusummieren, d.h. H(a~ = h(a,) + h(a,) + ... + h(a~. Die ungewhnliche Summenschreibweise in (12: 7) wird verwendet, da x auch Werte annehmen kann, fr die kein a, existiert. In einem solchen Fall werden die absoluten
Hufigkeiten aufsummiert, die ZU Merkmalswerten a, gehren, die kleiner als x
sind.
Analog lassen sich sog. relative Summenhufigkeiten oder kumulierte relative Hufigkeiten ermitteln. Fr diese gilt
F(x) = F(X S x) =
L f(a l) ,
J
(12: 8)
~<I
wobei F(x) den Anteil der Merkmalstrger angibt, welche einen Merkmalswert aufweisen, der hchstens x betrgt. Alternativ kann die Bestimmung von F(x) auch
ber den Zusammenhang
F(x) = H(x)
n
(12: 9)
19
2. Eindimensionale Hlufigkeitsverteilungen
Beispiel I 2-3
Empirische Verteilungslunktion
j
1
2
3
4
h(a,
10
40
20
30
100
a,
0
1
2
3
I(al
0,10
0,40
0,20
0,30
1,00
Ennitteln wir nun zunA.chst die absoluten und relativen kumulierten Hlufigkeiten:
j
1
2
3
IIJ
0
1
2
3
h(IIJ)
10
40
20
30
100
H(IIJ)
10
50
70
100
+-
j
1
2
3
4
1(1IJl
0,10
0,40
0,20
0,30
1,00
F(al
0,10
0,50
0,70
1100
+-
0
1
2
3
Berechnung
h(O)
h(O) + h(1)
h(O) + h(1) + h(2)
h(O) + h(l) + h(2) + h(3)
Berechnung
1(0)
1(0) + 1(1)
1(0) + 1(1) + 1(2)
1(0) + 1(1) + 1(2) + 1(3)
Zur besseren Veranschaulichung der Berechnung einzelner kumulierter Hufigkeiten wollen wir diese nun noch einmal fOr den Wert F(2) Im Detail darlegen:
F(2) - 1(0)+1(1)+1(2) - 0,1+0,4+0,2 - 0,7
oder altemativ
F(2) -
20
I Deskriptive Statistik
Soll nun beispielsweise der Wert von f(l} aus den relativen kumulierten Hufigkeiten errechnet werden, kann dies wie folgt geschehen:
f(l} = F(I}-F(O} = 0,50-0,10 = 0,40
Wie wir gleich sehen werden, lsst sich dieser Wert auch aus der grafischen Darstellung
der empirischen Verteilungsfunktion ablesen, da in dieser die Sprung hhe zwischen einzelnen Treppenstufen an einer Stelle aj jeweils den zugehrigen Wert f(a~ angibt. Fr die
grafische Konstruktion der empirischen Verteilungsfunktion tragen wir lediglich die Punkte
P(aj, F(a~} in ein Koordinatensystem ein und versehen diese mit Unienzgen:
F(a j }
1,00
0,75
0,50
0,25
x<O
OS x <I
F(x} = 0,50
0,70
I S x <2
2Sx<3
1,00
x2:3
0
10
H(x} =
fr
x<O
oSx <I
50
70
ISx<2
2Sx<3
100
x2:3
b}
2. Eindimensionale Hufigkeitsverteilungen
2.1.3
21
Liegt ein stetiges (oder quasistetiges) Merkmal X vor, so taucht das Problem auf,
dass die Elemente der Urliste hufig alle voneinander verschieden sind. Das Aufstellen einer "regulren" Hufigkeitstabelle des im Abschnitt I 2.1.1 vorgestellten
Typs bietet hier keinen Infonnationsgewinn, da die meisten Merkmalsausprgungen nur einmal vorkommen. Es empfiehlt sich in einem solchen Fall, die Auspr-
gungen von X in der Stichprobe in k Klassen K; Ci - 1,2, ... , k) einzuteilen und die
zugehrigen Klassenhufigkeiten zu ermitteln. Die absolute KlassenhufIgkeit 11,
ist dabei die Anzahl derjeniger Elemente, deren Merkmalswerte in die Klasse K; fallen. Wir knnen also sagen, dass hier die Klassen
h
~ =--.L
er-
(12: 12)
und weisen damit die gleichen Eigenschaften wie in (12: 4) und (12: 5) auf. Auch
fr die h, gelten (12: 1) und (12: 2) analog. Zudem sei erwhnt, dass wir auch
kumulierte Klassenhufigkeiten gem der unter I 2.1.2 beschriebenen Vorgehensweise bestimmen knnen.
Wieviele Klassen sinnvollerweise gebildet werden sollten, kann aus DIN 55302
(Blatt 1) entnommen werden. Hier fmden sich unter anderem die Empfehlungen
bei Stichprobenumfngen n von 100, 1.000 und 10.000 eine Anzahl von 10, 13
bzw. 16 Klassen zu whlen. Natrlich kann aus Grnden der bersichtlichkeit der
Darstellung auch bereits bei geringerem n eine Klassierung vorgenommen werden.
Auerdem kann aufgrund des Untersuchungsobjekts auch eine andere Klassenanzahl geeigneter erscheinen.
Um Probleme bei der Zuordnung einzelner Merkmalswerte zu den Klassen zu ver-
meiden, empfiehlt es sich die Klassen K; in der Form aj < x:s; aj bzw. Jaj, ajl Zu
definieren. Jede Klasse K; ist damit gekennzeichnet durch eine Klassenuntergrenze aj und eine Klassenobergrenze aj. Da die einzelnen Klassen direkt ineinander bergehen, entspricht bei k Klassen die Untergrenze einer Klasse jeweils
der Obergrenze der vorhergehenden Klasse.
(12: 13)
Die Untergrenze der ersten Klasse knnen wir anhand des kleinsten Merkmalswerts
der Stichprobe whlen. Hufig wird sie auch auf Null gesetzt. Die letzte Klasse Kk
besitzt hufig eine Form a~ < x < 00 bzw. Ja~, oo[ und wird als offene Randklasse
bezeichnet. Dies bedeutet, dass in diese Klasse alle Merkmalsausprgungen fallen,
die grer als a~ sind.
Die sog. Klassenbreite Aa j der j-ten Klasse, die nach Mglichkeit durchgehend
einheitlich (konstant) gestaltet werden sollte, ist (auer fr offene Randklassen) als
(12: 14)
definiert. Bei der Wahl konstanter Klassenbreiten sind jedoch hufig manche Klas-
sen sehr schwach besetzt. Dies trifft vor allem auf die Randklassen zu. Dann ist es
evtl. sinnvoll, diese Klassen breiter zu whlen.
I Deskriptive Statistik
22
Besonders fr die im Kapitel I 2.2 behandelnden Messzahlen ist es von entscheidender Wichtigkeit, jeder Klasse ~ einen reprsentativen Zahlenwert zuzuordnen.
Dazu bietet sich die K1assen mJtte aj an, fr welche (auer bei offen Randklassen) folgendes gilt:
u
aM
J =.!Ca
2 J
+aO)
J
Die Kombination der Klassen ~ mit ihren Klassenhufigkeiten ~ bzw. ~ bildet die
JdassJertc lIiufigkc:ltsve des Merkmals X. Wieder haben wir die Mglichkeit einer tabellarischen Darstellung. Abbildung I 6 veranschaulicht eine typische klassierte Hufigkeitstabelle.
Klassenn""""",
"""'"
Klassenbreite
Klassenmltte
a"
K,
absolute
relative
h,
~
~
"""oen- hufigkeit
"""oenhufigkeit
1a~. a~]
da,
da,
Ja~, a~]
Aa,
a",
h,
h,
~_I' a~]
Aa,
a"
h,
f,
a",
l:
Bit
Beispiel I 2-4
Nehmen wir an, eine Erhebung in 47 amerikanischen Staaten ergab folgende Anzahlen
polizeilich gemeldeter Straftaten bezogen auf 100.000 Einwohner:
79,3 163,4 57,8 196,1 123,5 68,1 96,3 155,8 85,3 70,9 167,4 84,8 51,2 66,4 79,1
94,3 53,1 92,475,1 122,574,843,3 121,996,552,7 199,1 34,2 121,6 104,569,3
2. Eindimensionale Hufigkeitsverteilungen
Nr.
Klasse K;
Klassenhufigkeit
Kumulierte
Klassenhufigkeit
absolut
relativ
absolut
hJ
fJ
4
13
16
8
1
5
47
0,09
0,28
0,34
0,17
0,02
0,11
1,00
ber aj bis a;
1
2
3
4
5
6
1:
23
0-50
50 -75
75 - 100
100 - 125
125 - 150
> 150
Klassenbreite
Klassenmitte
aaj
aIm
50
25
25
25
25
25
62,5
87,5
112,5
137,5
relativ
4
17
33
41
42
47
0,09
0,37
0,71
0,88
0,90
1,00
Rechtecke nicht an ihrer Hhe, sondern an ihrem Flcheninhalt. Die Hhe der
Rechtecke ist deshalb so zu whlen, dass ihr jeweiliger Flcheninhalt proportional
zur Klassenhufigkeit ist. Dies wird erreicht, indem als Hhe der Rechtecke die
sog. normierten absoluten oder normierten relativen Klassenhufigkeiten h; bzw.
~. verwendet werden. Diese ergeben sich zu
h
h J =-'
aaJ
bzw.
=-'-
aal
(12: 16)
j_1 i l a j
bzw.
k
k
f
F = '"
f' . aa.J = L..
'" _I
. aa.J = 1.
~ J
A..~
1..1
)..1 Ui:L j
Histogramm
Fr 200 Unternehmen einer Region wurden jeweils die Mitarbeiterzahlen erfasst, dafr
Klassen unterschiedlicher Breiten gebildet und die jeweiligen Hufigkeiten ausgezhlt. Die
Ergebnisse sind in nachfolgender Tabelle zu sehen. Darin sind auerdem bereits die normierten absoluten und relativen Klassenhufigkeiten berechnet, die wir zur Konstruktion
der Histogramme bentigen. Die Berechnungen bereiten hier keine sonderlichen Schwie-
24
I Deskriptive Statistik
rigkeiten. Wre jedoch eine offene Randklasse enthalten, so knnten wir keine Klassenbreite und damit auch keine normierten Klassenhufigkeiten fr unser Histogramm
bestimmen. In einem solchen Fall behelfen wir uns in der Praxis meist damit, einen knstlichen Hchstwert fOr die Klasse festzulegen, der sich am grten Wert der Stichprobe
orientieren kann.
Nr.
1
2
3
4
5
Klasse K;
Klassenbreite
Klassenhufigkeit
absolut
relativ
ber ai bis aj
hl
fl
1-2
2-5
5 -10
10 - 20
20 - 40
40
60
30
30
60
200
0,20
0,30
0,15
0,15
0,20
1,00
Normierte
Klassenhufigkeit
absolut
relativ
MI
h'
1
3
5
10
20
40
20
6
3
2
0,200
0,100
0,030
0,015
0,100
fI
h'
I
40
0,2
20
0,1
10
20
40
30
10
MitarbeitelZahl
20
30
40
MitarbeitelZahl
Htten wir nur ein Sulendiagramm konstruiert, welches als Sulenhhen die nichtnormierten relativen Hufigkeiten verwendet, so wiirden wir ein vllig anderes Bild von der Hufigkeitsverteilung vermitteln:
fl
0,4
0,2
O'-------------~
]1,2]
]2,5]
]5,10]
]10,20] ]20,40]
MitarbeitelZahl
In der Praxis werden Histogramme gelegentlich auf sog. Hiiufigkeitspolygone reduziert.
Solche erhalten wir durch Verbinden der Mittelpunkte der oberen Sulenseiten. Sie kommen insbesondere dann zum Einsatz, wenn in einer Grafik verschiedene Haufigkeitsverteilungen miteinander verglichen werden sollen. Im hier vorliegenden Fall htte das
Hufigkeitspolygon folgende Gestalt:
2. Eindimensionale Hufigkeitsverteilungen
25
f1
0,2
0, 1
.~
~,
\-
..
Mitarbeiterzahl
Skizzieren wir fOr unser Beispiel I 2-5 die empirische Verteilungsfunktion. Wir bentigen
dazu zunchst die kumulierten relativen Klassenhufigkeiten Fj, die wir in der folgenden
Tabelle bestimmen:
ber a~ bis af
1
2
3
4
5
E
1-2
2-5
5 -10
10 - 20
20 - 40
fl
F1
0,20
0,30
0,15
0,15
0,20
1,00
0,20
0,50
0,65
0,80
1,00
Die empirische Verteilungsfunktion erhalten wir damit grafisch wie folgl. Die Sprung hOhen
sind nun relative Klassenhufigkeiten IJ.
26
I Deskriptive Statistik
FJ
1,0
0,8
............
0,6
0,4
0,2
10
20
30
40
Mitarbeiterzahl
In der Literatur fmdet sich auerdem gelegentlich der Vorschlag die empirische
Verteilungsfunktion klassierter Daten durch ein sog. Summenpolygon abzubilden.
Dazu werden die Punkte P(a~, FJ), d.h. die Klassenobergrenzen mit zugehrigem
kumulierten relativen Klassenhufigkeitswert, in ein Koordinatensystem eingetra-
gen. Unter der Annahme, dass die Elemente innerhalb einer Klasse gleichmig
verteilt sind, drren diese Punkte linear miteinander verbunden werden. Der so
Summenpolygon
1,0
0,8
0,6
0,4
0,2
10
20
30
40
Mitarbeiterzahl
2.1_4
Typische Hufigkeitsverteilungen
2. Eindimensionale Hufigkeitsverteilungen
27
nach Symmetrie:
nach Streuung:
rechtsschief
unimodal,
linksschief
groe Streuung
unimodal,
geringe Streuung
GleichverteUung
bimodal
unimodal,
unimodal,
symmetrisch
28
I Deskriptive Statistik
2.1.5
Quantile
In diesem Abschnitt wollen wir kurz den Begriff des Quantils (auch als FraktiJ
bezeichnet) einfhren. Wir werden im Abschnitt I 2.2 sehen, dass wir Quantile sowohl zur Beschreibung der Lage als auch der Streuung von Hufigkeitsverteilungen
einsetzen knnen. Aufgrund ihrer hohen praktischen Bedeutung wollen wir ihnen
jedoch bereits an dieser Stelle einen eigenen Abschnitt widmen.
Liegt eine der Gre nach aufsteigend sortierte Urliste (x, < x, < ... < x n ) und ein
vorgegebener Anteilssatz a mit 0 < a < 1 vor, so bezeichnen wir eine Zahl Xa als aQuantil oder (IOOa) %-Quantil, wenn mindestens (IOOa) % der Werte der Urliste
kleiner oder gleich und mindestens 100{1-a) % grer oder gleich Xa sind.
Ist das produkt an aus dem vorgegebenen Anteilssatz und der Anzahl der Elemente der Urliste nicht ganzzahlig, so ist das a-Quantil der Beobachtungswert, der auf
den an-ten folgt. Ist an hingegen ganzzahlig, besteht in der Literatur Uneinigkeit
darber, ob der an-te Beobachtungswert (Variante A) oder der Mittelwert aus der
an-ten und der (an+l)-ten Beobachtung der Urliste (Variante lJ) als a-Quantil
gelten soll. Vorteil von Variante B ist, dass ein so ermittelter Zahlenwert die Urliste
exakt im Verhltnis a zu 1-a teilt. Als nachteilig wird jedoch zumeist angesehen,
dass ein nach Variante B ermittelter Wert in der Urliste gar nicht existiert. Soll ein
echter Beobachtungswert als Quantil dienen, ist auf Variante A zurckzugreifen,
wobei das genannte exakte Teilungsverhltnis hiermit aber nicht erreicht wird.
Je nach Ausprgung von a haben sich in der Literatur verschiedene Bezeichnungen
und auch Symboliken fr Quantile eingebrgert:
Quartile:
Ql
= X O,25 ,
Q2
= X O,50'
Q3
= X O,75
Dezlle:
XO,lO' X O,20' ...
perzentile: XO,Ol' X O,02' .
Die bedeutendsten Quantile sind die QuartiJe. Wir bezeichnen Q, als unteres oder
erstes, Q, als mittleres oder zweites und Q, als oberes oder drittes Quartil. Quartile
teilen die Daten in vier etwa gleichgroe Teilgesamtheiten ein. Betrachten wir dazu
das Beispiel in Abbildung I 8.
Q,
Q,
Q,
Q,
Sortierte Beobachtungen
einer Urliste mit n = 11
Variante A
Q,
Variante B
Q,
Q,
Q,
Sortierte Beobachtungen
einer Urliste mit n = 12
2. Eindimensionale Hufigkeitsverteilungen
29
Im Falle der ungeraden Urltste mit n = 11 ist das Produkt aus n und 0,25, 0,50 bzw.
0,75 jeweils nicht ganzzahlig, sodass wir den dritten, sechsten und neunten Beobachtungswert als Q" Q, und Q, erhalten. 3/11 - 27,27 % der Beobachtungen sind
kleiner oder gleich Q, und 9/11 = 81,81 % sind grer oder gleich Q,. Analoges gilt
fr Q, und Q,. In der geraden Urliste mit n = 12 erhalten wir nach Variante A die
Quantile Q" Q, und Q, als den dritten, sechsten und neunten Beobachtungswert.
3/12 = 25 % der Beobachtungen sind kleiner oder gleich Q, und 10/12 = 83,33 %
sind grer oder gleich Q,. hnliches gilt fr Q, und Q,. Nach Variante B erhalten
wir Q, hingegen als Mittelwert aus der dritten und vierten Beobachtung, sodass
3/12 = 25 % links und 9/12 = 75 % der Beobachtungen neben diesem gemittelten
Wert liegen. Er existiert zwar nicht als Beobachtung in der Urliste, erlaubt jedoch
eine exakte 25-75-Einteilung der Urliste. hnliche Aussagen knnen wir auch ber
die nach Variante B bestimmten Quartile Q, und Q, machen.
Beispiel I 2-8
Oa ist der
Oa = 800 .
Bei der Ermittlung von Quantilen aus Hufigkeitstabellen ist minimal anders vorzugehen, wie folgendes Beispiel zeigt. Hier ist entweder "im Hinterkopf" die Urliste
aus der Hufigkeitstabelle zu rekonstruieren oder die empirische Verteilungsfunktion zur Quantilsbestimmung heranzuziehen.
Beispiel I 2-9
Eine Fertigungsabteilung hat Ober einen Zeitraum von 30 Tagen die Anzahl von Ausschussteilen je Fertigungstag ermittelt. Dazu ergab sich folgende Hufigkeitstabelle:
1
2
3
4
5
Ausschussteile
a,
0
1
2
3
10
6
6
9
3
6
30
f(a.)
0,20
0,20
0,30
0,10
0,20
1,00
F(a~
0,20
0,40
0,70
0,80
1,00
Ermitteln wir das 25 0/0-, 50 0/0- und 75 O/O-Quantil. Da fr Q, und Q, sowohl 0,25 . 30 = 7,5
als auch 0,75 . 30 = 22,5 nicht ganzzahlig sind, bestimmen wir diese nach der beschriebenen Aufrundungsmethodik. Bei Q, haben wir die Wahl zwischen den Varianten A und B.
30
I Deskriptive Statistik
Beispiel I 2-10
Nehmen wir an, uns liegt der folgende Auszug aus einer klassierten Hufigkeitstabelle vor:
aber
I
2
3
4
5
aj bis aj
0-100
100-200
200 - 300
300 - 400
400 - 500
aIm
Fj
50
150
250
350
450
0,20
0,25
0,70
0,80
1,00
Da die kumulierten Klassenhufigkeiten fOr Klasse 2 den Wert 0,25 erreichen, bestimmt
diese das Ouartil 0,. Wir knnen daher 0, = 200 angeben. Analog erhalten wir
= 250
und 03 = 350. Diese Ouartilsfindung knnen wir anschaulich im Summenpolygon der klassierten Hufigkeitsverteilung skizzieren. Ouartile werden darin dadurch gefunden, dass zunchst horizontale Linien bei 0,25, 0,50 und 0,75 eingezeichnet werden. Von den Schnittpunkten dieser Linien mit dem Summenpolygon werden dann Lote auf die x-Achse gefllt,
um so das entsprechende Ouartil ablesen zu knnen.
a.
1,00
0,75
0,50
0,25
250
500
2. Eindimensionale Hlufigkeitsverteilungen
31
2.2 Mazahlen
Neben Huflgkeitstabellen und Diagrammen knnen wir zur Beschreibung von
Hufigkeitsverteilungen auf statistische Mazahlen (Parameter) zurckgreifen. Sie
bringen die wichtigsten Charakterisika einer Verteilung zum Ausdruck und lassen
sich grob in Lage-, Streuungs-, Schiefe- und Konzentrationsparameter einteilen (vgl.
Abbildung I 9). Da mit der Berechnung von Mazahlen eine Verdichtung der Daten
und damit auch ein Infonnationsverlust verbunden ist, erlauben einzelne Mazahlen keinen Rckschluss auf den Typ der Verteilung. Sie werden erst kombiniert
aussagefhig.
v_
_rte
Lageparameter (Mittelwerte)
Komcntrationsparamctcr
Statistische
Mazahlen
streuongsparameter
CVariabilits-, Variationsmae)
Be3Chreibung der Streuung der
2.2.1
Lagaparamatar
Lageparameter dienen der Kennzeichnung des Zentrums einer Verteilung durch lf1
eine einzige Zahl. Gerade diese Komprimierung ennglicht den Vergleich zweier ~
oder mehrerer Gruppen bezglich eines Merkmals (z.B. "In welchem von zwei Betrieben wird durchschnittlich besser verdient?").
Im Folgenden werden der Modus, der Median, das arithmetische Mittel und das
geometrische Mittel nher betrachtet. Es ist zu beachten, dass die Berechnung die-
32
I Deskriptive Statistik
ser Lageparameter von der Skalierung der zugrunde liegenden Daten abhngt. Abbildung I 10 zeigt deutlich, dass gewisse Lageparameter nur bei bestimmten Skalierungen angewendet werden drren. So ist das geometrische Mittel beispielsweise
nur bei verhltnisskalierten Daten sinnvoll.
Nominalskala
Ordinalskala
Modus
Median
Intervallskala
Verhltrtlsskala
artihm. Mittel
geom. Mittel
Transformationen erleichtern uns die inhaltliche Interpretation und vor allem den
Vergleich von Daten, die z.B. in unterschiedlichen Einheiten gemessen werden. So
knnen wir z.B. das Zentrum zweier Umsatzverteilungen, die in verschiedenen
Whrungen errasst wurden, einfacher vergleichen, wenn wir die Beobachtungen
einer Verteilung in die Whrung der anderen umrechnen.
Ausreier stellen einzelne extreme Beobachtungswerte X, dar, die auerhalb des
Intervalls liegen, in dem sich der Groteil der anderen befindet, d.h. die weit vom
Zentrum der Verteilung entfernt liegen. Das Auftreten derartiger Beobachtungen
kann unterschiedliche Grnde haben. Ein Ausreier karm ein untypischer Wert
sein, der sich auf eine Sonderstellung des betroffenen Merkmalstrgers in der
Grundgesamtheit zurckfhren lsst. Ausreier knnen aber auch aufgrund von
Messfehlern entstehen. Besonders bei komplexen Messvorgngen sind Messfehler
ein hufiges Phnomen.
2.2.1.1
Modus
Der auch als dichtester Wert, hufigster Wert oder Modalwert bezeichnete Modus
2. Eindimensionale Hufigkeitsverteilungen
33
Ein einfaches Auszhlen ist zur Ermittlung des Modus ausreichend. Der Modus ist
jenes x" welches am hufigsten vorkommt.
Modus aus der Hufigkeitstabelle:
Bei klassierten Daten knnen wir lediglich eine sog. Modalklasse angeben. Dies ist
diejenige Klasse K, mit der grten Klassenhufigkeit 11, bzw. f;.! Als Modus knnte
man nun die Mitte dieser Modalklasse verwenden. Problem kann dann natrlich
sein, dass der so bestimmte Modus gar nicht als Beobachtung in der Urliste existiert
oder nicht der am hufigsten vorkommende Wert sein muss.
Beispiel I 2-11
Ein Assessment-Center beurteilte im Rahmen einer Einslellungsmanahme eines Unternehmens mittels diverser Intelligenz- und Leistungstests den 10 von 30 Bewerbern. Fiir die
lOs ergaben sich folgende sortierte Werte:
70 70 70 80 80 80 80 80 80 90 90 90 90 90 90 90 90 90 90 90 90 100 100
100 100 100 100 110 110 110
Da die Beobachtung 90 am hufigsten vorkommt, ergibt sich x..,. = 90.
Aus der vorliegenden Urliste erhalten wir folgende Hufigkeitstabelle. Bei Betrachtung der
Hufigkeiten wird darin deutlich, dass es sich bei der vorliegenden Verteilung um eine
symmetrische Verteilung handelt. Ihr Zentrum liegt bei aa = 90.
Lid. Nr.
1
2
3
4
5
10
aj
70
80
abs. Hufigkeit
h(aj)
3
90
100
110
6
12
6
3
30
rel. Hufigkeit
rel. Summenhufigkeit
f(a~
F(a~
0,10
0,20
0,40
0,20
0,10
1,00
0,10
0,30
0,70
0,90
1,00
Aus der Hufigkeitstabelle erhalten wir hier ebenfalls XMo. = 90, da die absolute Hufigkeit
der Beobachtung 90 mit12 maximal ist.
Der Modus ist zwar einfach bestimmbar und auch anschaulich interpretierbar,
jedoch besitzt er einen geringen Informationsgehalt.
x.oo
sollte nur bei eingipfeligen Verteilungen und nominal- oder ordinalskalierten Daten verwendet werden, da sonst der Informationsverlust zu gro ist.
1 In der Literatur wird hier auch gelegentlich vorgeschlagen, die normierten Klassenhufig-
34
I Deskriptive Statistik
2.2.1.2
Median
Ein weiteres Lagema ist der Median oder Zentralwert x...,. Er kann aus den n vorliegenden Merkmalswerten bestimmt werden, wenn diese der Gre nach geordnet
sind. Fr die Anwendung des Medians muss das untersuchte Merkmal X daher zumindest ordinalskaliert sein. Der Median ist dadurch charakterisiert, dass mindestens 50 % der Merkmalswerte kleiner oder gleich und mindestens 50 % grer oder
gleich x.., sind. Er stellt somit nichts anderes als einen Sonderfall der unter I 2.1.5
behandelten Quantile dar. Konkret gilt x.., - "0.,. - Q" d.h. der Median ist das
50 %-Quantil bzw. das Quartil Q,. Vereinfacht ausgedrckt wird auch hufig formuliert, dass der Median detjenige Merktnalswert ist, der genau In der Mitte der sortierten Beobachtungsreihe liegt.
Median aus der Urliste:
Aus einer sortierten Urliste der Form x, ,,; x, ,,; ... ,,; X n ergibt sich der Median bei
ungerader Beobacbtungszabl n als
(12: 17)
Ist n allerdings gerade, erfllt jeder Wert im Intervall [x n/"x n12+,] die Bedingung
(12: 17). Es ist hier blich, den Median als Mitte dieses Intervalls, d.h. als
x Med
;;;;;; - . (XII.
'
+ X.!l+l)
(12: 18)
anzugeben. Dieser berechnete Median existiert jedoch in der Urliste nicht, was ins-
K, definiert, bei der F(x) den Wert 0,5 erreicht oder berschreitet. Es ist klar, dass hier
Medianwerte resultieren knnen, die in der Urliste nicht existieren, und wir das
Zenttum der Verteilung nur nherungsweise beschreiben knnen. Haben wir die
klassierte Hufigkeitstabelle selbst erstellt, werden wir diese Nherungslsung meiden und den Median stattdessen aus Urliste oder Hufigkeitstabelle bestimmen.
Nur bei klassierten Tabellen aus anderen Quellen nutzen wir diese Nherung.
Im Falle klassierter Daten wird der Median als die Mitte detjertigen Klasse
Beispiel I 2-12
Berechnen wir fOr unser IQ-Datenmaterial aus Beispiel I 2-11 den Median. Da die Beobachtungszahl n - 30 gerade ist, erhalten wir den Median aus der Urliste Ober (12: 18) als
Mittelwert aus den Merkmalswerten der 15-ten und 16-ten Beobachtung zu
x. od = 0,5(x.., +X",+,) = 0,5,(x15 +X 16 ) = 0,5(90+90) = 90.
Auch in der Hufigkeitstabelle ist XMod = 90, da fOr aj = 90 die kumulierte relative Hufigkeit
den Wert 0,5 berschreitet.
Wrden wir den IQ-Datensatz um eine Beobachtung mit dem Wert 110 ergnzen (n = 31).
so wre der Median der Merkmalswert der 16-ten Beobachtung, d.h. x ... = x_ = x18 = 90 .
2. Eindimensionale Hufigkeitsverteilungen
35
Uegen die Merkmalswerte als Zahlen vor, hat die Summe der absoluten Abweichungen der Merkmalswerte von einer beliebigen Zahl ein Minimum,
wenn diese Zahl gleich x,..,. ist.
(12: 19)
MintlXI - I fr = XM,d
i=l
Der Median ist unempfmdlich gegenber Ausreiern. Nehmen wir z.B. an, es
ist eine geordnete Urliste von Werten 1, 2, 3, 4, 5 gegeben. Der Median liegt
hier klar bei x,." - 3. Tritt nun an die Stelle des Wertes 5 der Wert 100, so
liegt ein Ausreier vor. Dieser hat jedoch keinen Einfluss auf den Median, da
der Wert 3 schlielich seine Position in der Mitte behlt.
Arithmetisches Mittel
Der wohl bekannteste und wichtigste Lageparameter ist das auch als Durchschnittswert bezeichnete arithmetische Mittel x . Es findet bei zuntindest intervallskalierten Merkmalen Anwendung.
2.2.1.3
als
(12: 20)
i=-l
Es werden also lediglich alle Merkmalswerte aufsumntiert und durch die Anzahl der
Merkmalstrger n dividiert.
Arithmetisches Mittel aus der Huftgkeitstabelle:
Ist eine HufigkeitsverteUung vorhanden, erleichtert sich die Berechnung erheblich.
Zur Bestimmung des arithmetischen Mittels ist dann nmlich lediglich die Summe
der Produkte der Merkmale a, und ihrer absoluten Hufigkeiten h(a~ zu bestimmen
und diese durch n zu dividieren. Es gilt nmlich
x=!.(a
+ ... +a 1, +a. 2 + ... +a2.
+ ...,
+ak + ... +ak,)
n .1
h(~ )-mal
h(a,j-mal
h(ak )-mal
1
=-(h(a,)a, +h(a,)a, + ... +h(ak)ak ),
n
woraus
(12: 21)
folgt. Bringen wir 1/n in den Summenausdruck und substituieren h(a.) / n = f(a,),
erhalten wir folgende alternative Berechnungsfonnel mit relativen Huflgkeiten:
k
x=Lf(a,).a,
I- I
(12: 22)
36
I Deskriptive Statistik
Wir erkennen an (12: 22), dass das arithmetische Mittel ein Sonderfall des sog. gewogenen arithmetischen Mittels ist. Dieses ist definiert als
mit
O';;g,';;1
und
(12: 23)
!g,=1.
j .. l
Die Beobachtungswerte >; werden hier durch vorgegebene Zahlen & gewichtet und
aufsummiert. Die Gewichte mssen nichtnegative reelle Zahlen sein, deren Summe
sich auf Eins beluft. Das arithmetische Mittel (12: 22) erhalten wir, wenn wir in
(12: 23) die Beobachtungen a, mit ihren relativen Hufigkeiten f(a~ gewichten.
Arithmetisches Mittel aus der Hufigkeitstabelle mit klassierten Daten:
Da wir in der Praxis (z.B. in statistischen Verffentlichungen) die einzelnen Beobaebtungen niebt kennen, die einer klassierten Hufigkeitstabelle zugrunde liegen,
sind wir nur in der Lage, aus dieser ein approximatives arithmetisches Mittel Zu
bestimmen. Wir ersetzen dazu in den Formeln (12: 21) und (12: 22) die a, durch die
Klassenmitten aj bzw. (12: 15) als reprsentative Werte fr die einzelnen Klassen
und verwenden zugehrige Klassenhufigkeiten. Wir erhalten damit die Nherung
~h J -alm
-x=-,
1 L..J
n
bzw.
j_1
(12: 24)
x~ L~ aj.
j_1
Haben wir die klassierte Hufigkeitstabelle selbst erstellt, werden wir natrlich
niebt auf (12: 24), sondern auf die Urlistenformel (12: 20) zurckgreifen.
Beispiel I 2-13
Fr unseren IQ-Datensatz aus Beispiel I 2-11 wollen wir nun das arithmetische Mittel aus
den verschieden aufbereiteten Daten berechnen:
Urliste:
x= ~.(3.
70+680+1290+6100+3110) = 90
30
Vergleichen wir Modus, Median und arithmetisches Mittel lr unseren IQ-Datensatz, so
stellen wir lest, dass alle drei Mae den Wert 90 annehmen. Wir werden unter I 2.2.1.6
sehen, dass fr den Fall einer symmetrischen unimodalen Verteilung Modus, Median und
arithmetisches Mittel stets identisch sind.
Huligkeitstabelle mit klassierten Daten:
Zwar kennen wir hier die Urliste und sollten daher das beschriebene Nherungsverfahren
nicht anwenden, doch wollen wir dies zur Veranschaulichung des entstehenden Rechenfehlers trotzdem tun. Wir fuhren dazu die folgende Klassierung ein:
1
2
3
ber aJ bis aJ
a Jm
hj
Ij
60 - 80
80 - 90
90 - 110
70
85
100
9
12
9
30
0,30
0,40
0,30
1,00
37
2. Eindimensionale Hufigkeitsverteilungen
Wir erhalten daraus nicht den Wert 90, sondern
erhalten wir 5. Die Abweichungen der Einzelwerte von 5 sind -3, -1, 1 und 3,
was in der Summe genau Null ergibt.
Die Summe der quadrierten Abweichungen der Merkmalswerte von einer beliebigen Zahl A hat ein Minimum, wenn diese Zahl gleich x ist. Wir sprechen
hier auch von der Optimalitts- oder Minimumseigenschaft von X.
n
(12: 26)
MinL(xj-A)' fr A=X
1=1
Diese Eigenschaft knnen wir beweisen, indem wir zunchst die erste Ableitung der Summe nach A bilden und gleich Null setzen (notwendige Bedingung fr einen Extremwert):
n
n ,
1=1
Lx,-nA=O
1_1
Lx,=nA
1_ 1
1 n
A=-Lx,=X.
n
1_1
(12: 27)
01
+ n 2 ), so ermittelt
(12: 28)
38
I Deskriptive Statistik
Xges ;;;;;;
{'nk _
L..J-x.
k..l
zeigt, dass es sich hierbei um nichts anderes als ein gewogenes arithmetisches
Mittel der Mittelwette der Teilgesamtheiten handelt. Die jeweiligen Gewichte
ergeben sich zu n/n.
Das arithmetische Mittel reagiert empfindlich auf Ausreier, da in x anders
als beim Modus und Median alle Beobachtungswerte der Verteilung eingehen
und so ein einzelner extremer Wert Einfluss auf das Ma nehmen kann (vgl.
Beispiel I 2-16).
Beispiel I 2-14
Ein Vertriebsmitarbeiter erhlt ein fixes Grundgehalt von 1.500 . Als Provision stehen ihm
zustzlich 5 % des von ihm erwirtschafteten Umsatzes zu. Ferner sei bekannt, dass dieser
Mitarbeiter im Durchschnitt einen Umsatz von 10.000 je Monat erzielt. Bestimmen wir auf
Basis dieser Daten sein monatliches Durchschnittseinkommen:
In einer Stadt mit 10.000 Einwohnern (6.000 Mnner, 4.000 Frauen) liegt das Durchschnittseinkommen der Mnner bei 2.500 und der Frauen bei 2.000 . Wie hoch ist das
durchschnittliche Einkommen aller Einwohner?
6.0002.500 +4.0002.000
10.000
Beispiel I 2-16
2.300
2.2.1A
Geometrisches Mittel
Ein weiteres in der Praxis bedeutendes Mittel ist das geometrische Mittel x..... Es
kann grundstzlich nur fr verhltnisskalierte Merkmale bestimmt werden, deren
Ausprgungen X, ausschlielich positive Werte aufweisen.
39
2. Eindimensionale Hufigkeitsverteilungen
Liegt eine Urliste n positiver Beobachtungswerte X, vor, so ergibt sich das geometrische Mittel als note Wurzel des Produkts aller Beobachtungen. Es wird also ber
(12: 30)
berechnet. Hufig sind diese X, im Zeitverlauf aufgezeichnete relative nderungen
(Wachstumsfaktoren) eines Merktnals, sodass ""0 Aussagen ber das durchschnittliche Wachstum des Merktnals ennglicht.
Beispiel 12-17
ber einen Zeitraum von 4 Jahren wurde die Mitarbeiterzahl z, eines Unternehmens jeweils zum Jahresende aufgezeichnet und in der nachfolgenden Tabelle niedergeschrieben.
Von Interesse ist nun das durchschnittliche Jahreswachstum der Belegschaft dieses
Unternehmens. Dazu werden zunchst zwischen den Perioden die Wachstumsraten
w _ Zt- Z t_1
,-
Zt_1
1
2
3
Jahr
Mitarbeiterzahl z,
Wachstumsrate w,
Wachstumsfaktor x,
2002
2003
2004
2005
2.300
3.000
2.700
3.500
0,3043
-{),1000
0,2963
1,3043
0,9000
1,2963
Setzen wir die x, in (12: 30) ein, so ergibt sich damit das geometrische Mittel zu
Um das Prinzip zu verdeutlichen, welches sich in Fonnel (12: 30) verbirgt, empfiehlt sich die Betrachtung des nachfolgenden Beispiels, welches eine "intuitive
Herleitung" des geometrischen Mittels im Wachstumsfaktorenkontext liefert.
Beispiel I 2-18
Nehmen wir an, der Umsatz UD eines Unternehmens steigt in den Folgequartalen um 2 %,
3 %, 4 % und 5 %. Die Umsatzsteigerungen beziehen sich dabei jeweils auf den Umsatz
des Vorquartals. Die Umsatzentwicklung zeigt sich daher wie folgl:
U, =UD (1+0,02)
u, = U, (1 +0,03) = UD (1 +0,02)(1+ 0,03)
U, = U,' (1 +0,04) = UD' (1 +0,02) (1 +0,03Hl +0,04)
U, = U, (1 +0,05) = UD (1 +0,02Hl +0,03Hl +0,04) (1 +0,05)
40
I Deskriptive Statistik
Eine durchschnittliche Zuwachsrate w der Quartalsumstze ist nun eine fOr alle Quartale
identische Zuwachsrate, die zum gleichen Jahresumsatz U. fOhrt. Setzen wir also obigen
Ausdruck mit U, = UD . (1 + w)' gleich, so erhalten wir folgendes Ergebnis:
(12: 31)
(12: 32)
Durch Logarithmierung von (12: 30), (12: 31) und (12: 32) erhalten wir eine interessante Eigenschaft des geometrischen Mittels zu
1
1_ 1
1"'1
J=1
(12: 33)
Der Logarithmus des geometrischen Mittels ist also gleich dem arithmetischen Mittel
der logarithmierten Daten.
Das geometrische Mittel findet, wie bereits angesprochen, vor allem bei der Berechnung durchschnittlicher Wachsrurnsraten Anwendung. Einen besonderen Anwendungsbereich stellt daher die Berechnung von durchschnittlichen Zinsstzen
oder Renditen dar, da diese nichts anderes als Wachstumsraten von Kapital sind.
2.2.1.5
Legen wir einen Geldbetrag K,-, zu Beginn einer Periode t-l zu einem Zins von r,d
bis zum Ende dieser Periode an, so ergibt sich am Ende der Periode t-l bzw. dem
Beginn der Periode tein Endkapital K, als
K, = (1 + r,d). KH .
(12: 34)
Wir bezeichnen die Gre r,d dabei auch als sog. diskrete Rendite. Sie ist nichts
anderes als die Wachstumsrate des Kapitals zwischen den Zeitpunkten t-l und t
und kann durch folgende allgemeine Formel bestimmt werden, die sich durch Umformung von (12: 34) herleiten lsst:
"K::I,:::-_K=,!.'
r d ;;;;;;t
K _
t 1
(12: 35)
41
2. Eindimensionale Hufigkeitsverteilungen
K.
(12: 36)
i.
(12: 37)
resultiert. Diesen Berechnungen unterliegt die Annahme, dass Zinsertrge auf dem
Anlagekonto verbleiben und daher in den Folgeperioden zustzlich zum Anfangskapital mitverzinst werden.
Von der sog. arithmetischen Durchschnittsrendite sprechen wir hingegen bei
-d
1 ~ d
=_.
L..ft
n
(12: 38)
t=1
Hierbei wird von der Annahme ausgegangen, dass jede Periode mit dem gleichen
Kapitaleinsatz startet, entstandene Zinsertrge also nicht reinvestiert werden.
Beispiel I 2-19
Diskrete Durchschnittsrenditen
Eine Anlage in Hhe von 1.000 ergab bei Jahreszinsstzen von 2 %, 3 % und 4 % und
Wiederanlage der Zinsertrge ein Endkapital von 1.000 . (1 + 0,02) . (1 + 0,03) . (1 + 0,04)
= 1.092,62 . Die geometrische Durchschnittsrendite ergibt sich daraus zu
Unterstellen wir eine stetige Verzinsung des Kapitals K,-, mit dem Satz r:, so ergibt
sich das Endkapital K, nach einer Periode als
(12: 39)
42
I Deskriptive Statistik
r: = InK, -lnK H =
In(~J
.
K
(12: 40)
_
t 1
Die Zusammenhnge, die zwischen stetigen und diskreten Renditen bestehen, sind
in Abbildung I 11 veranschaulicht.
Diskrete Verzinsung
Stetige Verzinsung
K, = (l+r,') K H
K,=e~ KH
Logarithmierung
[
[
InK, = In(1 + r,') + InK H
'---~)
LOgari~m~erung
InK t
ft
""
+ In Kt _ 1
<;(-----'
(2)
(12: 41)
1_'
ableiten knnen. Wir knnen also sagen, dass sich die stetige Rendite einer Gesamtperiode als Summe der stetigen Renditen der dazugehrigen Teilperioden ermitteln
lsst. Fr diskrete Renditen gilt ein solcher Zusammenhang nicht. Hier sind die um
Eins erhhten diskreten Teilperiodenrenditen miteinander zu multiplizieren und
Eins zu subtrahieren, um die Gesamtperiodenrendite zu erhalten.
Beispiel I 2-20
r:.
hr
,.,
Nehmen wir an, es handeH sich bei den gegebenen Renditen um diskrete Quartalsrenditen, so erhalten wir die diskrete Jahresrendite zu
rJ~h' =
rr,.,
2. Eindimensionale Huligkeitsverteilungen
43
Beispiel I 2-21
Gegeben sei die Kapitalentwicklung K, =2Ko und K, =O,5K,. woraus sich die lolgenden stetigen und diskreten Renditen ergeben:
Diskret: r1d
r:
= InO,5
= 1 r: = -0,5
I
Bei den stetigen Renditen ist die Symmetriebedingung r,' = Ir;1 erfijllt, wohingegen bei den
diskreten Renditen r,' Ir:1 gilt.
rS
02: 42)
Beispiel I 2-22
Stetige Durchschnittsrendite
Eine Aktienanlage wird vier Jahre betrachtet. Die diskreten Renditen der einzelnen Jahre
sind +30 %, -10 %, +50 % und -20 %. Das Vermgen ist gesamt von 100 aul 140,40
gestiegen. In diesem Beispiel lsst sich die stetige Durchschnittsrendite nun auf zwei verschiedene Arten berechnen:
1.
2.
44
I Deskriptive Statistik
Der sich hier ergebende Wachstumsmultiplikator von 1,404 kann schneller direkt als
Quotient aus Vermgensendbestand und -anfangsbestand ermittelt werden.
Die stetige Durchschnittsrendite ist damit 7' = In(1 + 7... ) = In(1 +0,0885) = 8,48 %.
2.2.1.6
Lageregeln
"Grenverschiebung" des arithmetischen Mittels ist nicht berraschend, da linksschiefe Verteilungen einige besonders niedrige Merkmalsausprgungen und rechtsschiefe Verteilungen einige besonders hohe Merkmalsausprgungen aufweisen.
symmetrische Verteilung
I--
rechtsschiefe Verteilung
linksschiefe Verteilung
2. Eindimensionale Hlufigkeitsverteilungen
45
Wir erkennen, dass auer beim Auftreten von Ausreiern auch durch die Asymmetrie oder Schiefe einer Verteilung die Interpretation von Lagemaen erschwert
werden kann. Bei ausgeprgt schiefen Verteilungen ist die Frage nach dem geeigneten Lageparameter besonders schwer zu beantworten, da sich die Mae z.T.
deutlich unterscheiden. Hier empfiehlt sich zur Beschreibung der Verteilung die
Verwendung weiterer Parameter (siehe Abschnitt I 2.2.2 bis I 2.2.4).
2.2.2
Streuungs parameter
Die bisher behandelten Lageparameter dienten lediglich der Kennzeichnung des lf')
Zentrums einer Verteilung. ofunals ist jedoch von Interesse, wie stark die Einzel- ~
werte vom Zentrum abweichen, d.h. wie eng oder weit sie um das Zentrum der
Verteilung streuen. Zur Gewinnung dieser Informationen sind sog. St:rcuunpparameter geeignet, die wir im Folgenden nher betrachten. Sie setzen stets eine
Kardinalskala voraus.
Die Streuungsparameter, die wir im Folgenden behandeln, lassen sich grob in zwei
Kategorien einteilen. Zur ersten zhlen die Spannweite und der Quartilsabstand.
Bei diesen Maen dienen die Abstnde zwischen speziellen Beobachtungen der
Hufigkeitsverteilung als Ma fr die Streuung. Zur zweiten Kategorie zhlen die
mittlere absolute Abweichung, die Varianz und die Standardabweichung. Hier sind
die Abweichungen aller Daten von einem Lagema entscheidendes Kriterium fr
die Beurteilung der Streuung. Je kleiner diese Kennzahlen sind, desto strker sind
die Daten um den jeweiligen Lageparameter konzentriert.
2.2.2.1
Aus der H4uftgkeitsvertetlung ermitteln wir die Spannweite ebenfalls als Differenz
zwischen grter (a,) und kleinster (a,) Merkmalsausprgung.
Beispiel I 223
An 10 zeitpunkten wird der Kurs des A-Dollars und des B-Dollars notiert. Der A-Dollar
hatte folgende Notierungen: 1,10, 1,15, 1,10, 1,20, 1,25, 1,30, 1,30, 1,25, 1,20 und 1,15
8$. Der B-Dollar lag dreimal bei 1,SO, zweimal bei 1,80, viermal bei 2,30 und einmal bei
2.40 AS.
Wir wollen diese beiden Verteilungen nutzen, um die Berechnung der von uns vorgestellten Streuungsmae zu veranschaulichen. Bei EinfOhrung eines neuen Maes werden wir
jeweils wieder auf dieses Beispiel zuruckgreifen, weshalb die im Folgenden aufgestellten
Tabellen bereits Berechnungen enthalten, die wir erst nach und nach benOtigen werden.
46
I Deskriptive Statistik
Fr den A-Dollar zeigt sich die folgende Urliste:
'"
i
1
2
3
4
5
6
7
8
9
10
lx,-x...
0,10
0,10
0,05
0,05
0,00
0,00
0,05
0,05
0,10
010
0,60
1 ,10
1 ,10
1 ,15
1 ,15
1,20
1,20
1,25
1,25
1,30
1 30
12,00
x'I
1 ,21
1 ,21
1 ,32
1 ,32
1,44
1,44
1,56
1,56
1,69
1 69
14,44
aj
hj
hlal
1
2
3
4
1,60
1,80
2,30
2,40
3
2
4
1
10
4,80
3,60
9,20
2,40
20,00
hJ" I al -x...
1,35
0,50
1,00
0,35
3,20
a'I
hl a~
2,56
3,24
5,29
5,76
7,68
6,48
21,16
5,76
41,08
Aufgrund der Tatsache, dass die Spannweite gerade durch ihr Wesen uerst empfindlich auf Ausreier reagiert und aufgrund der sehr geringen Ausnutzung des
Datenmaterials nur einen geringen Infonnationsgehalt besitzt, wird sie in der Praxis
kaum als Streuungsma eingesetzt. Vielmehr dient sie dazu, Hinweise auf Ausreier
zu geben. Ein anderes, der Spannweite sehr hnliches Ma, das hingegen robust
gegen Ausreier ist, findet hufiger Anwendung. Es handelt sich dabei um den sog.
Quartilsabstand QA, der als die Differenz zwischen oberem und unterem Quartil
deflOiert ist und nichts anderes als die Spannweite der 50 % mittleren Beobachtungswerte darstellt.
QA=Q, -Q,
Gelegentlich wird auch der sog. mittlere Quartilsabstand
1
QA=-(Q,-Q,).
2
(12: 45)
(12: 46)
als Streuungsma genutzt. Auch er ist robust gegen Ausreier und kann wegen
1
1
QA=2(Q, -Q')=2([Q, -Q21-[Q, -Q,])
47
2. Eindimensionale Hufigkeitsverteilungen
2.2.2.2
Definieren wir den Abstand eines Messwertes X; der Urliste vom Median x.... als
IX; - x.... 1 so ist die mittlere absolute Abweichung von x..... MA. das arithmetische Mittel dieser Abweichungen. d.h. es gilt
1 n
MA=-"'Ix.
I
~
1 -xMed.
n l=-1
(12: 47)
In Abschnitt I 2.2.1.2 haben wir gesehen. dass die Summe der absoluten Abwei-
chungen vom Median minimal ist. Die mittlere absolute Abweichung ist daher immer dann ein sinnvolles Streuungsma, wenn der Median als Lagema verwendet
wird. Das Zentrum einer Verteilung wird umso besser durch den Median beschrieben. je kleiner die mittlere absolute Abweichung ist. Gelegentlich wird bei der Berechnung von MA das arithmetische Mittel x herangezogen. Dadurch geht jedoch
J=1
(12: 48)
j=1
festhalten knnen.
MA aus der Hufigkeitsverteilung klassierter Daten:
Liegt das Datenmaterial in klassierter Form vor. werden an Stelle von al in Formel
(12: 48) die Klassenmitten ar und die jeweiligen absoluten bzw. relativen Klassenhufigkeiten herangezogen. Mit einer derartigen Vorgehensweise erhalten wir jedoch wieder nur eine nherungsweise Lsung.
Beispiel I 2-24
Berechnen wir fOr unsere verschiedenen Whrungsverteilungen aus Beispiel I 2-23 die
mittlere absolute Abweichung bezuglich des Median. Dazu bentigen wir zunchst die
Mediane der Verteilungen. Fur den A-Dollar ergibt sich x.... = 1.20 A$ und fr den
B-Dollar XMod = 2.05 B$. Wir erhalten damit den bereits in den Tabellen von Beispiel
I 2-23 enthaltenen Nebenrechnungen folgende Ergebnisse:
1 "
A-Dollar:
B-Dollar:
1 k
1
MA =-Lhj"lal-x... =-3.20=0.32 B$
n 1_1
10
48
I Deskriptive Statistik
Die mittlere absolute Abweichung nimmt ihr Minimum an, wenn sie mittels
Im Vergleich zur Varianz, die wir unter I 2.2.2.3 vorstellen, weist sie nur
MA y_ =lblMA: 1 : _ '
(12: 49)
Beispiel I 2-25
Betrachten wir die Auswirkungen verschiedener Transformationen einer einfachen Ausgangsverteilung auf die neue mittlere absolute Abweichung.
4
2
Addieren wir zu den Beobachtungen des Merkmals X die Konstante a = 1, so bewirkt dies
eine Rechlsverschiebung der Verteilung, sodass sich ihre Lageparameter bzw. hier der
Median ndert. Die Streuung wird davon nicht beeinflusst. Bei a = -1 kommt es zu einer
Linksverschiebung bei unvernderter Streuung. Die Grafiken auf der Folgeseite veranschaulichen dies.
Multiplizieren wir mit einem Faktor zwischen 0 und 1 bzw. hier 0,5, so ndert sich sowohl
Lage als auch Streuung der Verteilung. Wir erkennen eine Linksverschiebung bei gleichzeitiger Verringerung der Streuung. Fr einen Faktor grer als 1 bzw. hier 1,5 beobachten
eine Rechlsverschiebung bei Erhhung der Streuung.
2. Eindimensionale Hufigkeitsverteilungen
49
YM., = 7
MA
YM., =5
,- =1
MA,- =1
4
2
bj
Y; =0,5 Xi
Yi=1,5'Xi
h{bll
h{b~
Y.od =3
Y.od =9
MA,_ =0,5
bj
MA,_ =1,5
468
2.2.2.3
bj
468
bj
Die Varianz s' bzw. die sich aus ihr ergebende Standardabweichung s ist das in der
Praxis am hufigsten verwendete Streuungsma. s' ist definiert als arithmetisches
Mittel der quadrierten Abweichungen der einzelnen Merkmalswerte vom arithmetischen Mittel X. Gerade daher wird die Varianz auch hufig als mittlere quadratische Abweichung bezeichnet. s ist die positive Wurzel aus der Varianz.
Die Varianz und die Standardabweichung werden stets in Bezug auf das arithmetische Mittel berechnet, da fr x die Summe der quadrierten Abweichungen nach
der Optimalittseigenschaft des arithmetischen Mittels minimal ist. Das Zentrum
einer Verteilung wird also umso besser durch das arithmetische Mittel beschrieben,
je kleiner die Varianz bzw. die Standardabweichung ist.
Varianz aus der Urliste:
Die Varianz lsst sich in der Urliste ber
1 ~(
_)' rrut
.
s , ;;;;;;_.
L...J Xi -x
n
1_ 1
(12: 50)
I Deskriptive Statistik
50
Version A:
~C Xi
-1 L..J
Version B:
~C
i=l
CX-C )'
02: 51b)
i_I
i=l
:tex,
-ci - 2 :tex, -
1=1
c) ex - c) + :tex - c)'
1=1
:tex,
-ci - 2 ex -
1=1
c) :tex, - c) +n ex -
1=1
,1=1
ci
n'i-nc
= :tex,
= :tex,
-ci -nex-ci
1=1
Dividieren wir beide Seiten von Version A durch n J erhalten wir Version B.
1 ~
-2
02: 52)
=-'L..JXj-X
i=l
Da diese Fonnel unter Statistikneulingen oft zu Verwirrung fhrt, wollen wir klar
darauf hinweisen, dass bei der Berechnung zunchst die Summe der quadrierten X,
durch n dividiert wird und erst im Anschluss daran das quadrierte arithmetische
Mittel abgezogen wird. Analog gUt dies auch fr die Fonneln in 02: 55).
Varianz aus der Hujigkeitsverteilung:
Liegt eine HufigkeitsverteUung mit k Merkmalswerten a" a" ... , ak mit den zugehrigen absoluten Hufigkeiten hea? bzw. relativen Hufigkeiten fea? vor, so erfolgt
die Berechnung der Varianz nach den folgenden Fonneln:
s'
j..1
mit
02: 53)
mit
x = LfCaJ).aJ
j=1
02: 54)
2. Eindimensionale Hufigkeitsverteilungen
51
1 ~
, -,
s, ;;;;;;-.
L. h(aj ) aJ-x
n j-=t
bzw.
s' = Lf(al)a!
j_ 1
-x' .
(12: 55)
h(a)
a,
h(a).a!
f(a)
f(a,)' a,
f(a l) a!
1
bzw.
k
n
1:
1,00
Formeln wieder lediglich die Werte a, durch die Klassenmitten a~ und die Hufigkeiten h(a,) und f(a,) durch die Klassenhufigkeiten h, und f, ersetzt.
Beispiel I 2-26
Berechnen wir fr unser Whrungsbeispiel I 2-23 die Varianzen und Standardabweichungen. Wir erhalten unter Verwendung der bereits in Beispiel I 223 enthaltenen Arbeitstabellen und der arithmetischen Mittel
A-Oollar:
l'
1
x=-'Lx, =-12,00=1,20 A$
n 1_1
10
B-Oollar:
1
1 k
x =-Lhlal =-20,00=2,00 B$
n 1-1
10
folgende Ergebnisse:
A-Oollar:
~ ,
S,_I
- - . L.tXI
n
1_1
-x-,_14,44
- - - - 120'-00040A$'
,
-,
10
s = ,J0,0040 = 0,0632 A$
B-Oollar:
1 ~h (a,'
S' --'Lot
1- 1
_ 41,08
-0, 1080 B$'
-x-, - - - 200'
,
10
52
I Deskriptive Statistik
Die Dimension der Varianz ist das Quadrat der Dimension der einzelnen Beobachtungswerte. Die Dimension der Standardabweichung stimmt mit der der
betrachteten Merkmalswerte berein. Besitzt also z.B. ein Merkmal die Einheit
Euro, so ist die Dimension der Varianz ' und die der Standardabweichung .
s ., MA ., MA._ .
(12: 56)
Fr zwei Unternehmen wurde von einem Marktforschungsinstitut ber 4 Jahre eine Kundenzufriedenheitsanalyse durchgefOhrt. Der Anteil zufriedener Kunden ist in folgender
Tabelle angegeben.
Jahr
Unternehmen A
Unternehmen B
2002
0,70
0,30
2003
0,95
0,70
2004
0,50
1,00
2005
0,55
0,60
2006
0,80
0,90
Das sog. Tschebyscheff-Theorem (vgl. Abschnitt II 2.9) besagt, dass fr beliebige Verteilungen mindestens l-l/k' (%) der Beobachtungen in einem Intervall [x - k . S x + k . s) liegen.
Wir hatten bereits angesprochen, dass der Grund dafr, dass die Varianz bezglich x bestimmt wird, darin liegt, dass die Summe der quadratischen Abweichungen der einzelnen Merkmalsausprgungen X, von einem beliebigen
2. Eindimensionale Hufigkeitsverteilungen
53
Wert A dann ein Mirtimum hat, wenn A = x ist. Dies hatten wir bereits als Optirnalittseigenschaft des arithmetischen Mittels in (12: 26) festgehalten. Ist die
Summe der quadratischen Abweichungen minimal, ist es natrlich auch ihr
lineare Transformationen:
~ in der linearen Fonn Yi = a + b . Xi' mit
a, b E IR und b '" 0, so wissen wir bereits, dass nach (12: 27) fr das arithmetische Mittel y = a + b . x gilt. Fr die neue Varianz s~ und die neue Standardabweichung Sy gilt bei einer derartigen Transformation
,
1 ~(
-)' =-'L...Ja+
1 ~(b 'xj-a- b 'x
-)'
Sy=-'L...JYi-Y
n
1_ 1
1_ 1
2n
b
-222
=-'L(X, -x) =b s..
n j=-l
sodass wir insgesamt
(12: 57)
festhalten knnen. Dies zeigt, dass eine Transformation der Form y, = a + x"
d.h. mit b = 1, wie wir auch bereits bei der mittleren absoluten Abweichung
gesehen haben, keinerlei Einfluss auf Streuung und damit die Varianz und die
Standardabweichung des Datenmaterials hat. Es gilt nmlich dann s~ = s;
bzw.
Sy =5][.
Beispiel I 2-28
Innerhalb einer Woche fielen vor Euroumstellung in der Filiale einer Bank folgende Kosten
(in DM) fOr den Versand von Geschftsbriefen an:
Mo
Di
Mi
Do
Fr
5,50
9,00
3,00
12,00
1,50
x=~.(5,50+9,00+3,00+12,00+1,50) = 6,20 DM
bei einer Varianz und einer Standardabweichung von
a=O und b=
1..:....
Ohne auf die neuen Euro-Werte zugreifen zu mussen, knnen wir neben dem neuen Mittelwert y = 1..:... = 3,17 die neue Varianz und Standardabweichung bestimmen:
54
I Deskriptive Statistik
Zentrierung, Standardisierung:
Uegt eine Urliste x" x" ... , x,. mit dem arithmetischen Mittel
dardabweichung s, vor, so heit eine Uneartransformation
Yi = Xi - X
Yi = a + b Xi
a = -x und b = 1
mit
(12: 58a)
y = 0 und
= s, .
Sy
(12: 58b)
Wir erhalten also ein neues arithmetisches Mittel von Null und die gleiche
Standardabweichung (Streuung) wie die Ausgangsdaten.
Von besonderer praktischer Bedeutung ist die sog. Standardisierung. Darunter verstehen wir eine Lineartransformation der Form
x. -x
mit
Z.=-'-
(12: 59a)
Sz
(12: 59b)
=1,
b x 1_
z=a+ x=--+-x=O
Sx
Sx
s; =b' s; =(s:]' s; =1
--+
s, =1
anschaulich zeigen knnen. Die Tatsache, dass durch die Standardisierung der
Merkmalswerte ein arithmetisches Mittel von Null entsteht, bietet den Vorteil,
dass nun sofort erkennbar ist, ob die jeweiligen Merkmalswerte grer oder
kleiner als das arithmetische Mittel sind. Alle neuen positiven Merkmalswerte
liegen ber und alle neuen negativen Merkmalswerte unter dem Durchschnitt.
Wir sind auerdem in der Lage zu erkennen, um wie viele Standardabweichungen der jeweilige Wert vom arithmetischen Mittel abweicht. Dies wird
im nachfolgenden Beispiel klar.
Beispiel I 2-29
Standardisierung
Fr ein bestimmtes Jahr sind die Zahlen der bernachtungen pro Monat in einem Hotel
bekannt:
Jan
Feb
Mr
Apr
Mai
Jun
Jul
Aug
Sep
Okl
Nov
Dez
80
10
30
80
120
160
200
200
200
120
10
10
Wir fUhren nun eine Standardisierung dieser Werte mittels der Formel
x -x
s
ZI=_'-
x, -l0l,67
73,24
2. Eindimensionale Hufigkeitsverteilungen
55
Jan
Feb
Mr
Apr
Mai
Jun
-0,30
-1,25
-0,98
-0,30
0,25
0,80
Jul
Aug
Sep
Okt
Nov
Dez
1,34
1,34
1,34
0,25
-1,25
-1,25
Wie wir erkennen, sind alle Merkmalswerte, die ehemals grer als das arithmetische Mittel waren, nun positiv, alle anderen hingegen negativ. Auerdem sehen wir z.B., dass die
Anzahl der bernachtungen im Juli um 1,34 Standardabweichungen ber dem arithmetischen Mittel liegt, was wir ber die Rechnung 101,67 + 73,24 . 1,34 = 200 zeigen knnen.
+ n2
i_I
und
(12: 60)
i_I
fi 1
x,
x,
Beispiel I 2-30
122233334445
Abteilung B:
2 3 3 4 4 4 4 5 5 5 5 6 6 7
x. =4,50
S!=1,17
s~=1,68.
Um nun die Varianz der Gesamtabteilung Controlling zu bestimmen, knnten wir die Beurteilungsergebnisse beider Abteilungen zusammenlegen und aus der so entstehenden Gesamtheit die Varianz berechnen. Schneller erhalten wir das Ergebnis, wenn wir zunchst
nach (12: 28)
123,00+144,50
12+14
3,81
2,00
56
I Deskriptive Statistik
Varianzen s~, ... , s~ sowie das Gesamtmittel Xges nach (12: 29) bekannt sind,
berechnen wir die Varianz fr die Gesamtheit n = n 1 + ... + n m nach
2
Sge&
~
Varlam
1{'
= -. L."nk
n k=l
,1
{L."n
'
+ -.
Sk
'Varl:wzhmerhalb
k=l
( _ _ )'
k X k - Xge&
(12: 62)
'~--=''':'"-""",-~:w.-",:-~--~
der TeiJgesamIhelten
den Teilgesamtheiten
wobei der erste Summand hufig als interne Varianz (Varianz innerhalb der
Teilgesamtheiten) oder gewogenes Mittel der Teilgesamtheitsvarianzen (Gewichte n/n) und der zweite als externe Varianz (Varianz zwischen den Teilgesamtheiten) bezeichnet wird. Die angegebene Berechnung wird deshalb
auch als Formel der Streuungszerlegung bezeichnet. An dieser Darstellung
lsst sich gut erkennen, ob sich die Varianz der Daten vor allem durch die
Variation innerhalb der Gruppen oder durch Unterschiede zwischen den
Gruppen ergibt.
Exkurs: Volatilitt
ist in der finanzwirtschaftlichen Praxis von erheblicher Bedeutung, da das mit einer
Anlage verbundene Risiko ein wesentliches Kriterium dafr ist, ob eine Investition
erfolgt oder unterbleibt. Unter Risiko ist dabei allgemein die Mglichkeit eines unerwnschten Ausgangs der Investitionsaktivitt zu verstehen. Da ein unerwnschter
Ausgang von den Prferenzen und Zielsetzungen des Investors abhngig ist, kann
er unterschiedliche Formen, wie etwa den Verlust von Kapital,3 die Verfehlung einer Mindestrendite oder lediglich die Renditeschwankung im Zeitablauf annehmen.
Wie im vorhergehenden Abschnitt erwhnt wurde, wird zur Beurteilung des Risikos
von Finanzanlagen in der Praxis meist die Standardabweichung der Renditen r,
herangezogen 4 Es wird dabei jedoch nicht exakt auf (12: 50) zurckgegriffen, sondern die Volatilit 0 einer Finanzanlage ber
_
0=
{--(
_)'
--'L..,. l j - r
n-1
(12: 63)
j=l
geschtzt. 5 Wie die nachfolgenden Beispiele zeigen, hat dieses Ma vor allem beim
Vergleich der Vorteilhaftigkeit von Wertpapieren und der Beurteilung der Fragilitt
der Lage auf Aktien- und Anleihenmrkten groe Bedeutung.
3 VeIfolgen Investoren das Ziel des Kapitalerhalts, so mssten sie unter Inflationsbercksichtigung keine Mindestrendite von 0 %, sondern eine in Hhe der Inflationsrate anstreben.
4
Zur Renditedefinition vgl. Abschnitt I 2.2.1.5 bzw. die Formeln 02, 35) und 02, 40).
5 Die genaue Bedeutung der Division durch n - 1 anstatt durch n werden wir im Rahmen
der induktiven Statistik in Kapitel III behandeln.
57
2. Eindimensionale Hufigkeitsverteilungen
Beispiel I 2-31
Volatilitt
Die Jahresrenditen einer Aktie A lagen in den Jahren 2002 bis 2006 bei -15, 40, 30, -40
und 35 %. Anhand dieser Daten und einer anderen Aktie B (mittlere Rendite von 6 % und
Standardabweichung der Rendite von 30 % fr den gleichen Zeitraum) wollen wir nun die
Vorteilhaftigkeit des Papiers A beurteilen:
""
"ml
lL"(-)'
= -,
r,-r
I
n
1=1
r steht.
Semi-Volatilitt
ber einen Zeitraum von n = 8 Werktagen ergaben sich fr eine Aktie folgende Renditen
(mit 7 = 0,0025):
r, - r
-0,02
-0,0225
0,02
0,0175
-0,03
-0,0325
0,01
0,0075
0,00
-0,0025
-0,01
-0,0125
0,0075
0,0375
Diese Semi-Volatilit fllt hier natrlich niedriger aus als die Volatilitt, die auch positive
Abweichungen berOcksichtigt (" = 0, 0225), da erstere nur 4 quadrierte Abweichungen
aufnimmt.
6 Einen umfassenden berblick ber Risikomae und deren Implementierung geben z.B.
Auer, B.R., Seitz, F. (2008). Praktische Anwendungen fmden sich z.B. bei Rottmann, H.,
Franz, T. (2007, 2008).
I Deskriptive Statistik
58
Die volatilitten aus den Beispielen 11 2-31 und 11 2-32 sind nicht direkt miteinander vergleichbar, da (abgesehen von der Tatsache, dass verschiedene Risikomae
verwendet werden) in Beispiel 11 2-31 Jahresdaten und in Beispiel D 2-32 Tagesdaten verwendet wurden. In der Praxis wird daher eine sog. AnnuaJ1s1erung mit
bei Monatsdaten:
b _ = b _ '/252
O.."..,.uen = a___ .Ji2
bei Quartalsdaten :
'annuaIiIien = (JQualtllldaIeD.
bei Tagesdaten :
J4
hs2
Bit
Bel.plell 2-33
In der Praxis geben uns VolatilitAten vor allem Auskunft Ober die Fragilitt der Lage auf
den Rnanzmarkten. Betrachten wir dazu folgende Tabelle, die die annualisierten Renditestandardabweichungen der Aktienindizes COAX (Deutschland) und S&P 500 (USA) sowie
des REX (Index fOr deutsche Staatsanleihen) fOr die Jahre 2003 bis 2010 zeigt. Die annualisierten Standardabweichungen wurden aus den Tagesrenditen der jjWeiligen Jahre ermittelt, d.h. ihnen liegt die oben behandelte Fonnel a-........I111111 = a-T~"' 252 zugrunde.
2003
2004
2005
2006
2007
2008
2009
2010
CDAl<
S&P 500
REX
27,0746
14,5774
17,0676
11,0935
3,7965
2,7339
11,1793
14,9402
10,2835
10,0253
2,9039
2,5242
2,9950
7,0120
3,7660
3,2983
15,6750
15,9856
38,3501
40,8733
27,5225
18,2851
27,2850
18,0517
Wie deutlich zu erkennen ist. kommt es im Zuge der im Jahr 2008 verstrkt zu Tage
tretenden Finanzmarklkrise auf allen Mrkten (Aklien- und Anleihenmarkl) zu stark gestiegenen VolatililAten. Insbesondere auf dem amerikanischen Aktienmarkl ist eine starke
Steigerung der Renditeschwankungen zu verzeichnen. Selbst die Anleihenmrkle, die gewhnlich durch niedrigere VolatilitAten gekennzeichnet sind, warden durch die Krise in Mitleidenschaft gezogen. Nach 2008 zeigt sich eine Beruhigung der MArkte.
Zur genaueren Analyse (bzw. besseren Verdeutlichung) der sich zeitlich verndemden
Volalilitt auf den Mrkten empfiehlt sich auch eine Betrachtung auf Monatsbasis. Wir berechnen dazu aus den Tagesrenditen fOr jeden Monat des Betrachtungszeitraums die geschtzte Volatilitit und annualisieren diese wiederum mit a-..n"_~ = aTIIg_n .1252 . Die
daraus resultierende Volalilittsentwicklung ist in den nachfolgenden Grafiken abgebildet.
Die monatliche Betrachtung stellt den krisen bedingten Anstieg noch deutlicher dar als die
Betrachtung auf Jahresbasis. Erneut zeigt sich, dass der Volatilittsanstieg auf den Aktienmrkten strker ausfiel als auf den Anleihenmriden. Auch auf Monatsbasis ist eine sich
anschlieende Marklberuhigung zu erkennen.
2. Eindimensionale Hufigkeitsverteilungen
59
w,-----------------------,
w,-----------------------,
.,
'"
.,
.,'"
Ol
...'"
00
01
02
03
04
05
06
f11
(11
0IiI
10 11
w',-----------------------,
.,
.,
.,
00
2.2.2.5
01
02
04
O!i
Oll
fIT
06
Oll
10 11
Variationskoeffizient
Soll die Streuung zweier Verteilungen mit stark verschiedenen Mittelwerten verglichen werden, sind die absoluten Streuungsmae Varianz und Standardabweichung oftmals ungeeignet, da sie nicht das Niveau der Daten bercksichtigen.
Nehmen wir etwa an, wir stellen fr zwei Verteilungen A und B die Mittelwerte
10.000 und 1 und jeweils eine Varianz von 10 fest. Fr Verteilung A wrden wir die
Varianz als gering bewerten, bei Verteilung B hingegen als eher gro. Ohne die
gleichzeitige Betrachtung der Mittelwerte htten wir eine solche Schlussfolgerung
nicht treffen knnen. Zudem ist es in der Regel so, dass die absoluten Streuungsmae bei zahlenmig greren Merkmalswerten grer ausfallen als bei kleineren. So fallt z.B. die Standardabweichung bei Pkw-Preisen hher aus als jene bei
Kaugummi-Preisen, was auch hier einen direkten Vergleich erschwert. Um den-
noch aussagekrftige Vergleiche durchfhren zu knnen, empfiehlt sich die Verwendung sog. relativer Streuungsmae, die das Niveau der Daten bercksichtigen.
Sie werden konstruiert, indem ein Streuungsma zu dem entsprechenden Lagema
ins Verhltnis gesetzt wird. Relative Streuungsmae sind dimensionslose Gren,
d.h. sie besitzen keine Einheit, und sind daher besonders bei Vergleichen von Verteilungen mit unterschiedlichen Maeinheiten wertvoll. Das gebruchlichste relative
Streuungsma ist der Variationskoefflzient VC, der auf der Standardabweichung
und dem arithmetischen Mittel basiert:
VC=lxl
02: 64)
60
I Deskriptive Statistik
Der Kurs der X-Aktie weist in einem Zeitraum von 200 Handelstagen bei einem Mittelwert
von x=49,30 eine Standardabweichung von s,=35,14 auf. FOr den identischen
Zeitraum ergab sich fOr die V-Aktie ein Mittelwert von y = 385,17 und eine Standardabweichung von s, = 179,55 .
Ein Vergleich der Variationskoeffizienten
VC = s, = 35,14 =0 71
, lxi 49,30
'
VC = s, = 179,55 =0 47
, lyl 385,17
'
zeigt, dass trotz geringerer Standardabweichung die X-Aktie strker streute.
Beispiel I 2-35
Variationskoeffizienten im Basisbeispiel
B-Dollar:
Um nun einen umfassenden Variationsvergleich durchfOhren zu knnen, wollen wir die Ergebnisse der bisher berechneten Streuungsmae (unter Zusatzangabe der dabei verwendeten Lagemae) in folgender Tabelle zusammenfassen:
X Mod
x
SP
MA
s'
s
VC
A-Dollar
1,20 A$
1,20 A$
B-Dollar
2,05 B$
2,00 B$
0,20 A$
0,80 B$
0,32 B$
0,06 A$
0,0040A$'
0,0632A$
0,1080 B$'
0,3286 B$
0,0527
0,1643
SP, MA, s' und s sind als absolute Mae der Streuung beim B-Dollar am grten. Auch
der Variationskoeffizient als relatives Streuungsma erlaubt die Schlussfolgerung, dass
der B-Dollar strker streut als der A-Dollar. In diesem speziellen Fall macht es also keinen
Unterschied, ob wir absolute oder relative Mae fr den Streuungsvergleich heranziehen.
Dies lsst sich damit begrOnden, dass hier anders als im Beispiel I 2-34 der Unterschied
zwischen den Mittelwerten nicht sonderlich gro ist. Wir knnten also genau so gut auch
auf die Verwendung relativer Mae verzichten.
61
2. Eindimensionale Hlufigkeitsverteilungen
Weitere relative Streuungsmae lassen sich aus den Quartilen einer Verteilung bestinunen. So wird gelegentlich der sog. Quartilskoefftzient Coder QuartilsdispersionskoeffizienO
QK
berechnet. Unter Verwendung anderer Quantile knnen des Weiteren noch andere
Quanfilsverbltnisse, wie etwa X O9 I~,l oder ~.9 I XO.'l' zur Beschreibung der
Streuung gebildet werden.
BOI-Whisker-Plot
Neben den bisher behandelten Methoden werden in der Praxis zum. Vergleich von n
Verteilungen gelegentlich sog. BoI-Whfsker-Plots eingesetzt. Sie fassen die in ~
einem Datenbestand enthaltene Infonnation mit Hilfe von 5 Zahlen, ~, Ql' x-, Q"
x", zusammen und stellen damit Lage, Streuung, Schiefe und Ausreierwerte der
Verteilung grafisch dar. Wie Abbildung I 14 zeigt, setzt sich ein einfacher BoxWhisker-Plot aus folgenden Bestandteilen zusammen:
SP
Xlll~d
x,
I I
x.
QA
0
Q,
Q,
x,
I Deskriptive Statistik
62
Bei der Interpretation von Box-Whisker-Plots ist zu bercksichtigen, dass die Lnge
der waagerechten Striche von der Box zu den beiden Extrema durch wenige Ausreierwerte stark beeinflusst werden kann. Deswegen werden extreme Werte meist
gesondert behandelt. Dazu werden zunchst sog. Ausreierzune definiert, die zur
Identifikation von Ausreiern dienen sollen. Diesen liegt der Gedanke zugrunde,
dass Werte, die weit auerhalb der Box liegen, als potenzielle Ausreier betrachtet
werden knnen. Wir berechnen den sog. inneren Zaun als
[Q, -1,5'QA; Q, +1,5'QAl
und den sog. ueren Zaun als
[Q, -3'QA; Q, +3QAl.
Mit diesen Zunen knnen wir nun z.B. sagen, dass ein Wert, der ber den inneren
Zaun hinausgeht als potenzieller Ausreier betrachtet werden kann. Ein solcher
Ausreier ist als weniger krass einzustufen als einer, der den ueren Zaun berschreitet. In der Praxis werden fr Werte innerhalb des inneren Zauns BoxWhisker-Plots nach der eingangs beschriebenen Methodik gezeichnet. Treten Werte
auerhalb des inneren Zauns auf, werden diese als Zahlenwerte im plot angegeben, um eine Zu starke Streckung der Grafik ber die Spannweite SP zu vermeiden.
Die senkrechten Striche dienen in einem solchen Plot fr den kleinsten Wert x",
der grer oder gleich Q, -1,5 QA ist, und den grten Wert x.' der kleiner oder
gleich Q, + 1, 5 . QA ist. Abbildung I 15 skizziert dies.
[Q, -1,5'QA; Q, +1,5'QAl
X Med
des inneren
Zauns
-\'
I I
x.
des inneren
Zauns
QA
Q,
Q,
2.2.3
Nach Lage und Streuung ist die Schiefe ein drittes wichtiges Einzelcharakteristikum
von Hufigkeitsverteilungen. Wie wir bereits gesehen haben, fhren die Lageparameter x,..., x.", und x nur bei symmetrischen Verteilungen zu einheitlichen Ergebnissen. Bei asymmetrischen oder schiefen Verteilungen fallen die Ergebnisse auseinander. Die Auswahl und Interpretation von Lagernaen wird hier zum Problem.
Um das Ausma der Schiefe einer Verteilung abschtzen zu knnen, ist es sinnvoll,
die Schiefe anband einer Kennzahl zu messen. Hier bietet sich der Schiefekoeffizient an, der aus dem Konzept der Momente entsteht.
63
2. Eindimensionale Hlufigkeitsverteilungen
2.2.3.1
Empirische Momente
Beim Konzept der Momente handelt es sich um ein einheitliches System von Kennzahlen fr metrische Merkmale, mit dem wir in der Lage sind verschiedene Eigenschaften von HufigkeitsverteUungen (insbesondere auch Lage, Streuung und
Schiefe) zu beschreiben.
Ist eine Urliste ~, ~, ... ,x" gegeben und ist 6 eine natrliche Zahl, so erhalten wir
das sog. 6-te Moment um Null als
m,(O) =- LX:
n
,~
Einige dieser Momente sind uns bereits begegnet. Das erste Moment um Null entspricht nmlich dem arithmetischen Mittel
ml(O)=!~::X:=x
n
1_1
m~(x) =! t(~
n
_X)l
= Sl.
I_I
Aufgrund der Zentraleigenschaft des arithmetischen Mittels ist das zentrale Moment
erster ordnung immer Null:
_
_,
1~
~(x)=-,L..(x!-x)
2.2.3.2
1_1
1~
_
=-,L..xl-x=O
l-l
Scldefemae
fJi
m, (x)
gM=-S-'-= (SlY5 =
1 ~(
_)'
-,L..~-x
~n,,-~,.~,_ _ _=
(l.:t(XI-X)l)''
n
,~
64
I Deskriptive Statistik
~. thCaj ) . Ca j n
gM =
x)'
j-l
tfCa j ) . Ca j
x)'
_!::j-~1_ _ _ _ _~
(12: 69)
Liegt eine Hufigkeitstabel/e mit klassierten Daten vor, so werden zur nherungsweisen Berechnung in (12: 69) lediglich die a, durch die aj und die Hufigkeiten
durch Kiassenhufigkeiten ersetzt.
Eigenschaften des Schiefekoeffizienten:
S3
Die Wahl von 3 an Stelle von 2 als Exponent bei der Abweichungsberechnung im Zhler bewirkt, dass groe Abweichungen strker ins Gewicht fallen
und die Vorzeichen der Abweichungen erhalten bleiben.
Das Vorzeichen des Schiefekoeffizienten gibt Auskunft ber die Schiefe der
Verteilung. Es gilt konkret
gM > 0
gM < 0
gM = 0
~
~
rechtsschief
linksschief
symmetrisch
(12: 70)
Je grer der Betrag IgM Ider Kennzahl ist, desto schiefer ist die Verteilung.
Beispiel I 2-36
Schiefekoeffizient
In einem Konzern mit 50.000 Mitarbeitern wurde von der Personalabteilung aufgrund bevorstehender Entlassungen eine Erhebung zur Anzahl der Kinder je Mitarbeiter (0 bis 3)
durchgefUhrt. Da kinderlose Mitarbeiter aufgrund der sozialen Entlassungspolitik zuerst
ausgestellt werden, sind die Ergebnisse von besonderer Bedeutung.
Es liegt nun dazu folgende HAufigkeitstabelie (mit = 0,77) vor. In diesem einfachen, bersichtlichen Fall kann bereits aus der Hufigkeitstabelle eine Aussage ber die Schiefe
der Verteilung gemacht werden. Aufgrund der kleiner werdenden Werte von f(al), ist nmlich eine rechtsschiefe Verteilung zu vermuten. Bei komplexeren Verteilungen sind konkrete Aussagen jedoch nur noch Ober den Schiefekoeffizenten mglich.
2
3
4
aj
h(a~
f(aj)
aJ-x
f(a;). (aj -
0
1
2
3
24.510
15.430
7.050
3.010
50.000
0,49
0,31
0,14
0,06
1,00
-0,77
0,23
1,23
2,23
0,29
0,02
0,21
0,30
0,82
x)'
x)'
2. Eindimensionale Hufigkeitsverteilungen
65
X M,.) -
(x"", - Q,)
QA
(12: 71)
Auch fr ihn gilt (12: 70) analog. Die Division des Zhlers durch den Quartilsabstand bewirkt eine Nonnierung der Kennzahl auf das Intervall -1 ,:; &, ,:; 1. Bei
ausgeprgter Rechtsscruefe gilt Q, = x."" woraus &, = 1 folgt. Analog gilt bei ausgeprgter Linksschiefe x.", = Q" woraus &, = -1 folgt.
2.2.4
Konzentrationsmessung
In den Wirtschaftswissenschaften bezeichnen wir eine Ballung der Verfgungsgewalt ber Produktionsfaktoren (natrliche Ressourcen, Beschftigte, usw.) oder
eine Ballung wirtschaftlicher Ertrge (Umstze, Gewinne, Einkommen, usw.) in den
Hnden weniger Wirtschaftssubjekte als Konzentration. Konzentration knnen wir
mittels spezieller Mazahlen quantifizieren. Diese lassen sich grob in zwei Klassen
einteilen: Mazahlen der absoluten Konzentration untersuchen, ob der Groteil
des gesamten Merkmalsbetrages (z.B. Umsatz) auf eine kleine Anzahl von Merkmalstrgern (z.B. Unternehmen) entfllt. Jene der relativen Konzentration messen, ob der Groteil des gesamten Merkmalsbetrages auf einen kleinen Anteil von
Merkmalstrgern entfllt.
Ein in der Praxis bedeutendes Einsatzgebiet der Konzentrationsmessung ist die Abschtzung von Ausma und Entwicklung der Ballung wirtschaftlicher Macht auf
einzelne oder wenige Unternehmen (Unternehmenskonzentratton). Die Beherrschung eines Marktes durch wenige groe Unternehmen beeintrchtigt nmlich
den Wettbewerb unter den Unternehmen. Gerade daher hat das Statistische Bundesamt ein Berichtssystem zur kontinuierlichen Beobachtung von Konzentrationsprozessen geschaffen. Zudem existieren mit dem Bundeskartellamt und der Mono-
66
I Deskriptive Statistik
2.2.4.1
MS=
x..
ix,.
,~
([2, 73)
PI= MS
1. Konzentrationsra:te
Unter der Konzentrationrate (-koeffizient) CR (engL concentration ratio) verstehen
wir den Anteil an der Merkmalssumme MS, der auf die m grten Merkmalstrger
entfllt. Er ist definiert als
CR =
i
i:,.,
x,
1... -",+1
XI
(12, 74)
p,
~_111.+1
und ergibt sich also durch einfache Addition der Anteilswerte der m grten
Merkmalswerte. Das "+ 11 in der Fonnel ergibt sich dadurch, dass wenn wir Z.B. die
3 grten Werte aus einer sortierten Uste von 7 Werten betrachten wollen, wir uns
konkret fr die Werte Ne. 5, 6 und 7 interessieren. Um die Nr. des Startwerts (hier
also 5) zu erhalten, knnen wir also nicht einfach 3 von 7 subtrahieren.
E~genscha.ften
der KonzentraUonsrate:
Die Anwendung von CR ist in der Praxis sehr beliebt, da sich dieses Ma
durch seine einfache Berechenbarkeit auszeichnet.
Durch Beschrnkung auf ein einziges, oft willkrlich festgelegtes m bleibt die
gesamte sonstige, in der Verteilung enthaltene Information unausgeschpft.
Bei der Beurteilung von Konzentrationsunterschieden in verschiedenen Verteilungen knnen wir leicht zu Fehlschlssen gelangen, wenn der Vergleich
ausschlielich fr einen einzigen Wert m durchgefhrt wird. Durch geschickte
Wahl von m kann das Ergebnis eines Vergleichs sogar beeinflusst werden.
PI = Pl'''=P.. =n
-+
CRm =
:t
1...,-m+1
~=m.
n
(12, 75)
2. Eindimensionale Hufigkeitsverteilungen
67
Beispiel I 2-37
Grundlage fr die Beispiele, die wir in den nachfolgenden Abschnitten verwenden, sind
folgende Tabellen. Sie zeigen 8 Verteilungen {A-H} von Unternehmensumstzen. Betrachten wir z.B. Verteilung D, so knnen wir sagen, dass Firma 4 genau,,", = 280 Mio. Euro
Umsatz bzw. p. = 0,14 = 14 % des Gesamtumsatzes {bzw. der Merkmalssumme MS} aller
5 Unternehmen dieser Verteilung aufweist.
Verteilungen {Umsatz in Mio.}
B
e
A
Firma
1
2
3
4
5
MS
X,
~I
0
0
0
0
2.000
2.000
0,00
0,00
0,00
0,00
1,00
1,00
E
Firma
1
2
3
4
5
X,
PI
440
480
520
560
2.000
0,11
0,12
0,13
0,14
0,50
4.000
1,00
6
7
8
9
10
MS
Xi
400
400
400
400
400
2.000
~I
0,20
0,20
0,20
0,20
0,20
1,00
Xi
120
160
400
600
720
2.000
~I
0,06
0,08
0,20
0,30
0,36
1,00
0,03
0,03
0,04
0,04
0,10
0,10
0,15
0,15
0,18
0,18
1,00
200
200
200
200
200
200
200
200
200
200
2.000
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
1,00
D
Xi
~I
220
240
260
280
1.000
2.000
0,11
0,12
0,13
0,14
0,50
1,00
H
Xi
1
1
1
1
1
399
399
399
399
399
2.000
PI
0,0005
0,0005
0,0005
0,0005
0,0005
0,1995
0,1995
0,1995
0,1995
0,1995
1,00
Vergleichen wir nun zunchst die Konzentration in den Verteilungen A, Bund e mittels der
Konzentrationsrate fr m = 3, liegt der Anteil der drei grten Unternehmen am Gesamtumsatz in den Verteilungen bei
eR: = Ps +P. +p, =1,00+0,00+0,00 =1,00
e~=~+~+~=~~+~~+~~=~OO
e~=~+~+~=~~+~~+~~=~OO,
was uns zeigt, dass die Verteilung A die hchste absolute Konzentration aufweist. Dies ist
auch nicht verwunderlich, da in dieser der gesamte Umsatz von nur einem Unternehmen
erwirtschaftet wird.
68
I Deskriptive Statistik
CR~ = Ps = 0,36
CR~ =0,50
Whlen wir also ein m grer als 1, so ist die Konzentration in Verteilung C hher. Entscheiden wir uns hingegen fiir m = 1, ist die Konzentration bei D hher. Der Leser statistischer Verffentlichungen sollte sich einer derartigen Problematik bewusst sein.
2_ Herfindahl-Index
Der Hetftndahl-Index H ist die Summe der quadrierten Anteile p. der Merkmalstrger an der Merkmalssumme MS. Da alle Anteile p, in die Berechnung eingehen,
mssen diese hier nicht der Gre nach geordnet sein.
i-I
(12: 76)
Der Herfindahl-Index lsst sich sehr einfach aus nicht sortierten Merkmalsausprgungen berechnen und schpft die gesamten in der Verteilung enthaltenen
Infonnationen aus. Anders als bei der Konzentrationsrate eR kommt es bei
ihm also zu keiner Infonnationsvemachlssigung.
H=n-=-.
n' n
p, = p, = ... = Pn =n
(12: 77)
PI = P2 = ... = Pn-l = 0, Pn = 1
H=1
(12: 78)
~~H~I.
(12: 79)
1
+ 1) = ~.
(s'x'
+1
(12: 80)
69
2. Eindimensionale Hufigkeitsverteilungen
Beispiel I 2-38
HerfindahHndex
Fr die Verteilungen A, Bund C aus Beispiel I 2-37 erhaUen wir die folgenden HerfindahlIndizes:
3_ExponentlaUndex
Potenzieren wir alle AnteUswerte p, mit sich selbst und multiplizieren diese Potenzen miteinander, erhalten wir den ExponentIalIndex E als
(12: 81)
pi
;;;;;;
1.
Beispiel I 2-39
Exponentialindex
Fr die Verteilungen A, Bund C aus Beispiel I 2-37 erhalten wir folgende Werte IOr den
Exponentialindex:
70
I Deskriptive Statistik
2.2.4.2
Das wohl wichtigste grafische Hilfsmittel zur Bestimmung von Konzentrationstendenzen ist die sog. Lorenz-Kurve. Zu ihrer Konstruktion werden n Punkte (UI , VI)
einer in Urlistenform vorliegenden Verteilung bestimmt, zusammen mit einer Diagonalen und einem Punkt (0; 0) in ein quadratisches Schaubild Cvgl. Abbildung I
16) eingezeichnet und miteinander verbunden. Der entstehende Streckenzug heit
Lorenz..Kurve der Konzentration.
VO
r-----------------------------------_o. ~D
v,
v,
~~---~------------------~~
U,
Uo
U,
u,
Die y-Koordinaten VI Ci - 1, "', n) geben die relativen Anteile der Merkmalssumme MS an, den die i kleinsten Merkmalstrger auf sich vereinigen und
werden daher durch Summierung der Anteile PI der i kleinsten Merkmalstrger
an der Merkmalssumme bestinunt:
LXI
I
VI=~=LPI
MS
(12, 82)
J-1
2. Eindimensionale Hufigkeitsverteilungen
71
Lorenz-Kurve
Fr die Umsatzverteilungen A und B aus Beispiel I 2-37 ergeben sich die im Folgenden
dargestellten Koordinaten (u"v,) und die daraus resultierenden Lorenz-Kurven.
Verteilung A
1
2
3
4
5
X;
PI
u,
v,
0
0
0
0
2.000
2.000
0
0
0
0
2.000
1/5=0,20
2/5 = 0,40
3/5 = 0,60
4/5 = 0,80
5/5=1,00
0/2.000 =
0/2.000 =
0/2.000 =
0/2.000 =
2,000/2,000 =
0,00
0,00
0,00
0,00
1,00
1,00
MS = 2.000
n=5
Verteilung B
2
3
4
5
u,
Pi
X;
400
400
400
400
400
2.000
400
800
1.200
1.600
2.000
V,
400 / 2.000 =
800/2.000 =
1.200/2.000 =
1,600/2,000 =
2.000/2.000 =
1/5 = 0,20
2/5= 0,40
3/5= 0,60
4/5= 0,80
5/5=1,00
1,0
1,0
Verteilung A
Verteilung B
0,8
0,8
0,6
0,6
0,'
0,'
0,2
0,2
0,0
0,0
0,20
0,40
0,60
0,80
1,00
3,00
MS -2.000
n=5
0,2
0,'
0,6
0,8
1,0
0,0
0,0
0,2
0,'
0,6
0,8
1,0
72
I Deskriptive Statistik
Die Verteilungen A und B zeigen zwei Extremflle von Konzentration. In Verteilung A liegt
maximale Konzentration vor. Ein Merkmalstrger vereint die gesamte Merkmalssumme auf
sich. Die Lorenz-Kurve verluft bis zum Punkt ((n--I )/n, 0) auf der x-Achse und steigt dann
geradlinig zum Punkt (1; 1) an. Die Funktion ist uerst stark durchgebogen und die Rche zwischen der 45-Diagonale und der Lorenz-Kurve umfasst nahezu die gesamte
Quadrathlfte unterhalb der Diagonalen.
Verteilung B zeigt minimale Konzentration. Jeder Merkmalstrger weist den gleichen Anteil
an der Merkmalssumme auf. Es entfallen auf (iln) . 100 % der kleinsten Merkmalstrger
immer (Vn) . 100 % der Merkmalssumme. Die Lorenz-Kurve fllt mit der 45-Diagonale zusammen und die Flche zwischen Lorenz-Kurve und 45-Diagonale ist logischerweise Null.
Wir knnen daraus schlieen, dass je strker die Konzentration ist,
desto strker ist die Lorenz-Kurve "gebaucht" bzw. desto strker "hngt sie durch".
Betrachten wir auch Verteilung C, stellen wir fest, dass weder minimale noch maximale
Konzentration vorliegt. Die Lorenz-Kurve zeigt hier einen typischen in der Praxis beobachteten Verlauf. Wir wollen nun diese Verteilung nutzen, um die typische Interpretation der
Werte der Lorenz-Kurve zu veranschaulichen. Wir knnen nmlich hier z.B. sagen, dass
auf die U2 . 100 % = 40 % der umsatzschwchsten Unternehmen genau V2 . 100 % = 14 %
des Gesamtumsatzes entfllt. Die (1 - U2) 100 % = 60 % der umsatzstrksten Unternehmen realisieren (1 - V2) 100 % = 86 % des Marktumsatzes.
Verteilung C
1
2
3
4
5
x;
p;
U;
v;
120
160
400
600
720
2.000
120
280
680
1.280
2.000
1/5=0,20
2/5=0,40
3/5 = 0,60
4/5 = 0,80
5/5= 1,00
120/2.000 =
280/2.000 =
680/2.000 =
1.280/2.000 =
2.000/2.000 =
,,0,------------7/
0,8
86 %
0.6
0,4
14 %
0,0
~::::::::-=----_...L
0,0
0,2
40%
0,4
________.l
0,8
0.6
60%
1,0
0,06
0,14
0,34
0,64
1,00
2,18
MS = 2.000
n=5
2. Eindimensionale Hufigkeitsverteilungen
73
F=---
(12: 84)
mit
=...!..= 2F =1- 2V
0,5
(12: 85)
(12: 86)
bewegt. Es zeigt sich also, dass selbst im Fall maximaler Konzentration anders als
z.B. beim Herfindahl-Index oder Exponentialindex das Ma G nicht den Wert 1
annimmt, was jedoch eine wnschenswerte Eigenschaft fr ein Konzentrationsma
ist. Da auerdem das Maximum des Gini-Koeffizienten von n abhngt, kann dies
bei Vergleichen von Datenstzen unterschiedlicher Gre problematisch sein. Zur
Korrektur dieser Schwchen des Gini-Koeffizienten wird der Koeffizient daher hufig mit dem Kehrwert von (n-l)/n multipliziert. Wir bezeichnen das dadurch entstehende relative Konzentrationsma auch als normierten Ginl-Koefflzlenten:
G
nonn
=~'G
n-1
(12: 87)
Goo~ weist damit im Falle maximaler Konzentration den Wert Eins auf. Es gilt also
insgesamt
(12: 88)
7 Eine detaillierte Herleitung dieser Pannel ber die Berechnung diverser Dreiecksflchen
unter der Lorenz-Kurve findet sich z.B. in Bleymller, J., Gehlen, G., Glicher, H. (2004),
Kapitel 26.
74
I Deskriptive Statistik
Es lsst sich G und damit ber (12: 87) zudem G"~ auch direkt durch die Daten der
Urliste ausdrcken. So gilt unter Verwendung der Merktnalswerte X,
n
G=
2~>.x, -(n+1)~>,
ntx
1_ 1
(12: 89)
1_ 1
i
i~)Pi -(n+1)
G
(12: 90)
Zusammengefasst knnen wir fr F, G und Gnorm festhalten, dass alle drei Mae im
Falle minimaler Konzentration den Wert Null annehmen und hohe Konzentration
ntit hohen Werten der Mae einhergeht. Bei maximaler Konzentration ist die Konzentrationsflche fast 0,5 bzw. (n-1)/2n, der einfache Gini-Koeffizient (n-1)/n und
der nonnierte Gini-Koeffizient 1.
Beispiel I 2-41
(V -
F
G
Gnorm
Verteilung B
!V - 3,00 - 0,50 - 2,50)
.1._ 2,5=000
2
'
.1._ 1,68=016
2
0,00=000
0,50
'
5
0,00- =0,00
5-1
0,40 =0 80
0,50
'
5
0,80-=1,00
5-1
Verteilung C
!V - 2,18 - 0,50 - 1,68)
'
0,16=032
0,50
'
5
0,32-=0,40
5-1
Die bisher behandelten Formeln haben sich auf die Konstruktion der Lorenz-Kurve
und die Bestimmung des Gini-Koeffizienten aus der Urliste bezogen. Liegt nun
aber keine Urliste, sondern eine Hujigke/tstabel/e vor, so gilt fr die Ermittlung
der nun k Punkte CUp v) der Lorenz-Kurve zunchst
,
Vi
L P; =
;=,
:th(al ) a l
.'-1_.0..'- - -
MS
mit
MS = LhCa;) a;
(12: 91)
j=l
Die v, werden also mit den auf die einzelnen Ausprgungen entfallenden Merkmalssummen h(a~ . al gebildet. Die u, erhalten wir durch Sumntierung der relativen
Hufigkeiten f(a~ der relevanten Merktnalsausprgungen:
75
2. Eindimensionale Hufigkeitsverteilungen
(12: 92)
Unter Verwendung dieser Werte erhalten wir die Konzentrationsflche F zu
1
1=1
F = - - - ~)(a) . (Vi
+ Vi_I)
(12: 93)
G=l- ~)(a).(vi
i_I
+ Vi_I)
(12: 94)
Formel (12: 94) ist natrlich auch auf die Urliste anwendbar, wenn wir die relativen
Hufigkeiten durch 11n ersetzen und die v, nach (12: 82) bestinunen.
Zur Berechnung von G aus einer Hufigkeitstabelle empfiehlt sich die Verwendung
der Arbeitstabelle aus Abbildung I 17. Den normierten Gini-Koeffizienten erhalten
wir durch Einsetzen von (12: 94) in (12: 87).
a,
h(a)
fCa)
h(a,) ai
MS
Lh(a,).a,
,-,
u,
v,
VI
+ V 1_ 1
1:
Eine statistische Untersuchung ergab, dass sich in einem Land 61 Firmen einen 300 Mio.
Euro Markt fr Schweinehlften wie folgt teilen:
Umsatz in Mio. Euro
ai
1
2
3
40
10
5
5
200
300
61
Berechnen wir nun daraus den normierten Gini-Koeffizienten und versuchen, darauf basierend, Aussagen ber die Konzentration auf diesem Markt zu machen:
76
I Deskriptive Statistik
,
a;
1
2
3
4
5
1
2
3
5
200
h{a;)
I{a;)
40
10
5
5
1
61
0,66
0,16
0,08
0,08
0,02
1,00
h{a,)' a,
Lh{al)al
u;
v;
40
60
75
100
300
0,66
0,82
0,90
0,98
1,00
0,13
0,20
0,25
0,33
1,00
1_'
40
20
15
25
200
300
Vi
+ Vi-1
0,13
0,33
0,45
0,58
1,33
0,09
0,05
0,04
0,05
0,03
0,26
,-,
norm
n
61
=-G=--074=075
n-1
61-1'
I
Die Konzentration auf diesem Markt kann also als sehr stark angesehen werden, was nicht
verwunderlich ist, da ein Unternehmen 2/3 des Umsatzes auf sich vereint.
ben vor, d.h. wir verwenden die Klassenmerkmalssummen in (12: 91). Sind die
arithmetischen Mittel der Klassen gegeben, so ist entsprechend m l = h l . x fr die
J
jeweilige Merkmalssumme der Klasse j Zu verwenden. Die Berechnung der u, erfolgt unter Verwendung der h, bzw. f, analog Zu (12: 92).
Fall 2: Liegen nur Klassenhufigkeiten und -grenzen vor, behelfen wir uns damit,
(a~
+ a~) / 2
Betrachten wir lolgende liktive Einkommensverteilung. Die lr 7,6 Mio. Brger erhobenen
Einkommen sind in 4 Einkommensklassen eingeteilt. Fr jede der Klassen liegen die Anzahl hl (in Mio.) und der Anteil II der Brger vor, die in diese Klasse lallen. Auerdem kennen wir die Einkommenssumme mj (in Mrd. Euro), die den Brgern einer Klasse zulliet,
sowie den Anteil pj dieser Summe am Gesamteinkommen aller 7,6 Mio. Brger.
Einkommensklasse
ber a~ bis af
1
2
3
4
E
5.000
9.000
13.000
5.000
9.000
13.000
35.000
Einkommensbezieher
hl
2,0
2,0
1,8
1,8
7,6
II
0,26
0,26
0,24
0,24
1,00
25
52
PI
0,10
0,21
0,21
0,48
1,00
77
2. Eindimensionale Hufigkeitsverteilungen
Hier erleichtert sich die Berechnung der Werte u, und v, erheblich, da die zur Kumulation
bentigten Daten fj und pj bereits vorliegen. Durch eine Kontrollrechnung wie P1 = m, / MS
= 5 / 52 = 0,10 erkennen wir jedoch, dass sich dahinter genau die geschilderte Vorgehensweise (Fall 1) verbirgt.
Zur Berechnung des Gini-Koeffizienten stellen wir die folgende Arbeitstabelle auf:
1
2
3
4
f,
p,
u,
v,
V 1+VI_1
f,,(v,+vl-1)
0,26
0,26
0,24
0,24
1,00
0,10
0,21
0,21
0,48
1,00
0,26
0,52
0,76
1,00
0,10
0,31
0,52
1,00
0,10
0,41
0,83
1,52
0,03
0,11
0,20
0,36
0,70
Zwei Mrkte A und B werden durch 10 Unternehmen beliefert. Auf Markt A besitzen 9 Unternehmen einen 50/9 % Marktanteil. Der Marktanteil des 10. Unternehmens betrgt 50 %.
Auf Markt B weisen 5 Unternehmen jeweils einen 2 % und 5 Unternehmen jeweils einen
18 % Marktanteil auf. Die nachfolgende Grafik zeigt, die zugehrigen Lorenzkurven.
"0,------------....,,
,.
,:/.
0,8
,, ./
0,6
,,
,:
/
/
,'.", ..... A
0,4
/
0,2
.....
",''1
,,
"
'
B
0,0 .....:.--::.--------------'
/
0,0
0,2
0,4
0,6
0,8
1,0
78
I Deskriptive Statistik
Rein optisch erkennen wir sofort, dass die Konzentrationsflchen FA und Fe identisch sind.
Wir knnen zudem leicht berechnen, dass GA = Ge = 0,4 gilt. Obwohl also auf Markt A die
deutlich strkere Konzentration vorliegt, wOrden wir durch einen Vergleich der GiniKoeffizienten zu dem Schluss gleicher Konzentration kommen. Die Gini-Koeffizienten allein
reichen also zum Vergleich nicht aus.
Beschlieen wollen wir diesen Abschnitt mit einer kurzen Diskussion der unterschiedlichen Reaktion absoluter und relativer Konzentrationsmae auf nderungen
der zugrunde liegenden Verteilungen:
Fr die Verteilungen E und D aus Beispiel I 2-37 ergibt sich derselbe Wert fr den
normierten Gini-Koeffizienten. Dieser ist somit wie auch der Herfmdahl-Index invariant gegenber einer proportionalen Vernderung des auf die einzelnen Merkmalstrger entfallenden Merkmalsbetrages.
Beim Vergleich der Hetfindahl-Indizes der Verteilung Bund G ergab sich HB = 0,20
und HG = 0,10, d.h. ein doppelt so hoher Indexwert (vgl. Beispiel I 2-38). Es macht
also einen Unterschied, ob sich die Merkmalssumme von 2.000 gleichmig ber 5
oder 10 Merkmalstrger verteilt. Vergleichen wir die normierten Gini-Koeffizienten
beider Verteilungen, so erhalten wir in beiden Fllen den Wert Null.
Ein Vergleich von Verteilung Bund H hatte beim Hetfindahl-Index nahezu denselben Wert ergeben. Der normierte Gini-Koeffizient reagiert jedoch auerordentlich empfindlich auf die Hinzufgung von fnf Firmen mit ganz geringem Anteil
am gesamten Merkmalsbetrag. Whrend sich fr die Verteilung B ein Wert von
G_ = ergab, erhalten wir fr Verteilung H den Wert G_ = 0,55. Diese Eigenschaft des normierten Gini-Koeffizienten ist jedoch nicht als Schnheitsfehler anzu-
sehen. Sie zeigt auf, dass in der praktischen Anwendung der Untersuchungszweck
ber die Wahl absoluter oder relativer Konzentrationsmae entscheiden sollte:
Wird die Stellung von Unternehmen auf einem Markt analysiert, so wird der Markteintritt umsatzschwacher Unternehmen den normierten Gini-Koeffizienten stark er-
hhen, wohingegen der Hetfindahl-Index nahezu unverndert bleibt. Ist also die
Analyse von Wettbewerbsprozessen Untersuchungsgegenstand, so ist die Verwendung absoluter Konzentrat/onsmae zu empfehlen. Die Marktmacht der etablierten
Unternehmen wird durch die Markteinritte umsatzschwacher Unternehmen trotz in-
2. Eindimensionale Hufigkeitsverteilungen
79
grund der Grenunterschiede zwischen den Lndern und aus inhaltlichen Erw-
gungen hier relative Konzentrat/onsmae zu empfehlen sind, ist nun der Gebrauch
der Lorenz-Kurve und des nonnierten Gini-Koeffizienten nicht von vornherein ab-
zulehnen. Vielmehr ist bei der Interpretation der Ergebnisse auf solche Probleme
zu achten.
Zweidimensionale
Hufigkeitsverteilungen
Im vorhergehenden Abschnitt haben wir gesehen, dass durch die Erfassung nur eines
Merkmals von einer Grundgesamtheit von Merkmalstrgem eindimensionale Hufigkeits-
verteilungen entstehen, die sich durch eine Reihe von Kennzahlen charakterisieren lassen. Werden mehrere Merkmale erfasst, entstehen mehrdimensionale Hufigkeitsverteilungen. Auch diese knnen durch gewisse Mazahlen komprimiert dargestellt werden.
Diese Mazahlen und Grundlagen derartiger Verteilungen sind Thema dieses Abschnitts.
3.1 Grundlagen
In vielen statistischen Untersuchungen werden bei statistischen Einheiten gleich-
zeitig mehrere Merkmale erfasst. So kann etwa bei einer personenbezogenen Erhebung sowohl Einkommen, Geschlecht, Alter, Bildung, Berufserfahrung, u.. aufgezeichnet werden. hnliche Beispiele finden sich auch bei der Analyse von Unternehmen (Umsatz, Gewinn, Investitionen, Beschftigtenzahl, ... ), der Ertragsfhigkeit landwirtschaftlicher Nutzungsflchen (Ertrag je Hektar, Dngemitteleinsatz, .. .)
oder dem Bremsverhalten von Fahrzeugen (Geschwindigkeit, Bremsweg, ... ). Fr
jeden der n Merkmalstrger wird also ein m-Tupel von Merkmalswerten betrachtet.
Die Drliste muss daher n m Einzeldaten enthalten.
Bei solchem Datenmaterial ist hufig von Interesse, ob es Zusammenhnge zwischen den auftretenden Merkmalen gibt und wie stark diese sind. Wir stellen uns
also die Frage, ob es eine wechselseitige Abhngigkeit zwischen den Merkmalen
gibt. Auf die Beantwortung solcher Fragestellungen werden wir im Abschnitt I 3.2
CKorrelationsanalyse) nher eingehen. Im Folgenden mssen aber zunchst grundlegende Begriffe wie Kontingenztabelle, Randhufigkeit, bedingte Hufigkeit und
Streuungsdiagramm geklrt. werden. Wir beschrnken uns dabei auf zweidimensionales Datenmaterial (m - 2).
3.1.1
Kontlnganztaballa
Werden bei n statistischen Einheiten die Merkmale X und Y mit den Ausprgungen
~,Xz, ... ,x" und Y1'Y1' ... 'Yn erhoben, so erhalten wir fr die i-te statistische Einheit ~
einen Merkmalswert ~ der Variablen X und einen Merkmalswert Yj der Variablen Y.
Zur i-ten statistischen Einheit gehrt somit ein Wertepaar (:x;, y). Die Ur&te besteht daher aus allen n zweidimensionalen Wertepaaren (:x;, y) fr i - 1,2, ... ,n.
Aus Grnden der bersichtlichkeit kann die DrUste allgemein in zwei Formen dargestellt werden. Erstens kann ein sog. St:reud:iagramm erstellt werden, in welchem
alle n Wertepaare Cx" y) als Punkte in ein Koordinatensystem eingetragen werden
(vgL Abbildung I 18). Diese Vorgehensweise empfiehlt sich allerdings nur, wenn
sich alle oder fast alle Wertepaare voneinander unterscheiden.
B. Auer, H. Rottmann, Statistik und konometrie fr Wirtschaftswissenschaftler,
DOI 10.1007/978-3-658-06439-6_3, Springer Fachmedien Wiesbaden 2015
82
I Deskriptive Statistik
P(X"y,)
x
Abbildung I 18: Streudiagramm
Zweitens kann eine sog. Kontl:ngenztabelle aufgestellt werden, wobei es sich um
eine tabellarische Darstellung der Hufigkeitsverteilung handelt. Sie sollte herangezogen werden, wenn viele Wertepaare identisch sind. Da sie auerdem Grundlage
fr weitere Analysen des erhobenen Datenmaterials ist, wollen wir uns im Folgenden nher mit ihr beschftigen. Da es sich bei einer Kontingenztabelle um eine
Hufigkeitstabelle handelt, bezeichnen wir in dieser die verschiedenen Ausprgungen des Merkmals X mit a. Ci - 1,2, ... ,k) und jene des Merkmals Y mit bJ
Ci - 1,2, ... ,r). Zur Erstellung der Kontingenztabelle ist auszuzhlen, bei wie vielen
Beobachtungswerten der Drliste die Ausprgungskombination (a,. b) auftritt. Der
resultierende Zahlenwert wird als gemdnsam.c absolute Hliuflgkdt h(a" b) oder
h.(a" b) der Kombination (a,. b) bezeichnet, die wir im Folgenden zumeist mit ~
abkOtzen. Fr diese gilt wie bei eindimensionalen Huflgkeitsverteilungen. dass sie
zwischen Null und n liegen und ihre Summe n ergeben muss:
OSh~
Sn
Die gemdnsame relative HIu6gkdt fCa., b) oder f.,(a., b) bzw. abgekrzt f~ ist
der Anteil der Beobachtungswerte in der UrUste, bei denen die Kombination (a,. b)
auftritt. Die Regeln eindimensionaler Verteilungen, also im Detail U2: 3), (12: 4) und
02: 5), knnen daher analog bertragen werden:
h
f~ =----'l
n
03,2)
3. Zweidimensionale Hufigkeilsverteilungen
~n
von Y
83
b,
b,
b,
a,
hu
h"
h"
a,
h"
h"
h"
a"
h",
h.,
Ausprgungen
von X
L L h(ai,b
03: 3)
j)
llj:!!OIbj:!i:y
und
03: 4)
H(X:S;ak,Y:S;b,)=n
gilt. Sie gibt die Anzahl der Merkmalstrger an, die bei Merkmal X hchstens die
Ausprgung x und gleichzeitig bei Merkmal Y hchstens die Ausprgung y aufweisen (zur ungewhnlichen Summenschreibweise vgl. Abschnitt I 2.1.2).
Analog ergibt sich die relative kumulIerte gemeinsame Hufigkeit F(x, y) (kurz
F~. Sie gibt den Anteilssatz der Merkmalstrger an, deren Merkmale X und Y beliebig vorgegebene Zahlenpaare (x, y) nicht bersteigen:
F(x,y)= F(X:S;x,Y:S;y)=
03: 5)
Lf(ai,b j )
:lf:!>IbJ:S:y
Wir sprechen bei F(x, y) auch von der gemeinsamen empirischen Verteilungsfunktion der Merkmale X und Y. Sie nimmt stets Werte im Intervall [0; 1] an.
Beispiel I 3-1
Konlingenzlabelle
Von 80 Studienanfngern wurden die Abiturnoten in den Fchern Mathematik (X) und Englisch (Y) erfasst. Aus der Erhebung ergab sich die folgende bereits geordnete Urliste:
(1;1), (1;1), (1;1), (1;1), (1;2), (1;2), (1;3), (1;3), (1;3)
(2;1), (2;1), (2;1), (2;2), (2;2), (2;2), (2;2), (2;2), (2;3), (2;3), (2;3), (2;3), (2;3), (2;3), (2;3),
(2;3), (2;4), (2;4), (2;5), (2;5)
(3;1), (3;1), (3;2), (3;2), (3;2), (3;2), (3;3), (3;3), (3;3), (3;3), (3;3), (3;3), (3;3), (3;3), (3;3),
(3;3), (3;3), (3;3), (3;3), (3;4), (3;4), (3;4), (3;4), (3;4), (3;4), (3;4), (3;4), (3;4), (3;4), (3;5),
(3;5), (3;5)
(4;1), (4;1), (4;2), (4;2), (4;2), (4;3), (4;3), (4;3), (4;4), (4;4), (4;4), (4;4), (4;4), (4;5)
(5;3), (5;3), (5;4), (5;5), (5;5)
84
I Deskriptive Statistik
Eine Aufbereitung dieser Urliste liefert die folgende Kontingenztabelle:
Mathematiknote
2
3
4
1
4
3
2
2
2
2
5
4
Englischnote Y
4
3
3
8
2
13
10
3
2
5
2
3
5
2
Die Anzahl der Studenten, die sich z.B. sowohl mit einer Eins in Mathematik als auch in
Englisch auszeichneten, lag somit bei 4.
Da hier Wertepaare hufiger auftreten, ist ein Streudiagramm nicht zur Visualisierung der
Hufigkeitsverteilung geeignet. Ein dreidimensionales Stabdiagramm (komfortabel erzeugbar mit dem Befehl "stem3" in der Software Matlab 2009a) ergbe im vorliegenden Fall folgende Gestalt:
4
5
Interessieren wir uns dafOr, wie viele Studenten im Fach Mathematik nicht schlechter als
Drei und in Englisch nicht schlechter als Zwei waren, knnen wir diese Hufigkeit aus einer
Tabelle ablesen, die die absoluten gemeinsamen Hufigkeiten kumuliert:
Mathematiknote
X
2
3
4
5
4
7
9
11
11
Englischnote Y
3
9
25
20
44
25
52
25
54
2
6
14
4
9
27
56
69
72
5
9
29
61
75
80
Als Summe der Hufigkeiten im grau schattierten Bereich der Kontingenztabelle erhalten
wir die kumulierte gemeinsame Hufigkeit 20, d.h. genau 20 Studenten sind in Mathematik
nicht schlechter als Drei und gleichzeitig in Englisch nicht schlechter als Zwei. Obige
Tabelle zeigt auerdem auf, dass H{s., b,) = n = 80 gilt. Dividieren wir die Werte der Tabelle durch 80, erhalten wir die relativen Hufigkeiten der gemeinsamen empirischen Verteilungsfunktion.
85
3. Zweidimensionale Hufigkeitsverteilungen
3.1.2
h(a,) =
i>"
fr i = 1,2, ... ,k
,"'
und
Die Zeilensummen (hufig auch bezeichnet mit hJa) oder h i .) liefern also die
Huflgkeiten der eindimensionalen Verteilung des Merkmals X und die Spaltensummen (huflg auch bezeichnet mit h,(b~ oder h. J ) die Huflgkeiten der eindimensionalen Verteilung des Merkmals Y. Diese bilden zusammen mit den jeweiligen Merkmalsausprngungen die sog. RandietlelbJOgcn von X und Y und sind in
Abbildung I 20 dargestellt. Da sie eindimensionale Verteilungen sind, knnen auf
sie die bereits behandelten Auswertungsmglichkeiten angewendet werden.
y
a,
a,
X
..
a,
Spaltensununen
(Randverteilung Y)
h"
h.
...
...
...
h,
h"
...
h"
h(b,)
h.
b,
b,
h"
h"
h(b,)
Zeilensummen
(Randverteilung X)
h"
h,
...
...
...
h"
h.
h(a l )
h,
.. .
h"
h(a,)
b,
h(a,)
h(a,)
n
~)=~)
n
f(b~
~)=~)
n
~m
I Deskriptive Statistik
B6
Beispiel I 3-2
Fur die Kontingenztabelle der Schulnoten aus Beispiel I 3-1 ergibt sich:
Englischnote Y
Mathematikn018
X
h(bU
1
2
3
4
5
1
4
3
2
2
2
2
5
4
3
11
3
3
8
13
3
2
29
14
2
10
5
1
18
2
3
1
2
8
h(al)
9
20
32
14
5
80
Daraus lassen sich nun die eindimensionalen HAufigkeitsverteilungen der Englisch- und
MBlhematiknoten ableiten, fUr die wieder die bekannten Kennzahlen berechenbar sind:
Englischnote
HAufigkon h(bJ
3_1_3
,.
2
11
MathemaUknote
HAufigkeit h(BI)
20
29
18
3
32
4
14
5
5
Bei der Untersuchung des Zusanunenhangs zweier Merkmale X und Y spielen die
sog. bedJngten Hi'...ftgkeJten eine besondere Rolle. Sie geben an, mit welcher
relativen Huftgkeit eine Ausprgung eines Merkmals auftritt, wenn (unter der Bedingung, dass) das andere Merkmal auf einem bestimmten Wert festgehalten wird.
Die relative Hufigkeit der Ausprgung aj des Merkmals X unter der Bedingung.
dass das zweite Merkmal Y die konstante Ausprgung b j besitzt, bezeichnen wir im
Folgenden mit f,.(a, I b j ) fr i - 1.2 ..... k. Anders ausgedrUckt. betrachten wir also
die relative HufIgkeit. mit der die Ausprgung a,. bei denjenigen Merkmalstrgem
auftritt, die bzgl. des Merkmals Y die Ausprgung bJ aufweisen. Analog verwenden
wir f,.(b j I a,) fr j - 1.2 ... ,r. Diese bedingten Hufigkeiten knnen leicht aus einer
vorliegenden Kontingenztabelle errechnet werden. Sie entstehen durch Division
der gemeinsamen Hufigkeiten durch die entsprechenden Zeilen- oder Spalten-
3. Zweidimensionale Hufigkeitsverteilungen
87
hij
-
h.
Va, I b j ) =
(13: 10)
h
h 'l
'l
f
f(b l a ) - - - - - - -'ly I I - h(a) - h(a) - f(a)
~
(13: 11)
Wie im unbedingten Fall, sind die bedingten relativen Hufigkeiten auf Eins normiert, d.h. es gilt
k
(13: 12)
j=l
Beispiel I 3-3
Bedingte Hufigkeiten
Eine Befragung von 1.000 berufsttigen Personen (Freiberufler, Angestellte, Beamte, ... )
ergab unter anderem, dass 250 Freiberufler nie beim Einzelhndler A einkaufen. Insgesamt meiden 500 der Befragten den besagten Einzelhndler. Die Anzahl der befragten
Freiberufler lag bei 400.
Wir erhalten aus diesen Angaben folgende (unvollstndige) Kontingenztabelle:
Einkaufsverhalten
Berufsgruppe
Freiberufler (= a,)
...
Randhufigkeiten
...
h{b,) = 500
...
Randhufigkeiten
...
h{a,) = 400
...
n = 1.000
...
...
In diesem Beispiel lsst sich berechnen, dass die relative Hufigkeit der Freiberufler unter
den Personen, die niemals beim Einzelhndler A einkaufen, bei 50 % liegt:
Die relative Hufigkeit der Personen, die nie beim Einzelhndler A einkaufen, liegt unter
den Freiberuflern bei 62,50 %:
f,(Niemals Kauf bei Einzelhndler AI Freiberufler) = f,{b,Ia,) =
Aus (13: 10) und (13: 11) lassen sich sog. bedingte Verteilungen ableiten. Die bedingte Verteilung des Merkmals X bei gegebener Ausprgung b l des Merkmals Y
ergibt sich dabei aus den Ausprgungen al,a2""'~ und den zugehrigen bedingten
Hufigkeiten f.(a, I b j ), f.(a, I b j ), ... , f.(a k I b j). Es existieren also insgesamt r
88
I Deskriptive Statistik
Bedingte Verteilungen
Zum bekannten Schulnotenbeispiel I 3-2 wollen wir nun die bedingte Verteilung der
Mathematiknoten fijr die gegebene Englischnote 2 aufstellen. Dazu bentigen wir folgende
(grau schattierte) Daten:
Englischnote Y
4
3
2
2
2
2
5
4
3
11
14
1
Mathematiknote
X
h(b~
2
3
4
5
3
3
8
13
3
2
29
2
3
1
2
8
10
5
1
18
h(a,)
20
32
14
5
80
Die gesuchte bedingte Verteilung erhalten wir daraus durch Division der gemeinsamen
Hufigkeiten durch die zugehrige Spaltensumme. Dies erklrt auch, warum die bedingten
Hufigkeiten in der Summe Eins ergeben miissen.
a,
2
3
4
5
1:
f (a; I Y = 2) =
hi2
2/14
5/14
4/14
3/14
0/14
2
5
4
3
14
h2
'
h(Y=2)
= 0,14
= 0,36
= 0,29
= 0,21
= 0,00
1,00
03: 13)
3. Zweidimensionale HAufigkeitsveneilungen
89
,-,
,-,
s~ Iaj = ~>:
,., f,.Cbj Iaj)-Cy I~Y .
In entsprechender Weise knnen bedingte Mediane, bedingte Modi und andere
Beispiel I 3-5
Bedingte Mazahlen
Bestimmen wir tOr die in Beispiel I 3-4 aufgestellte bedingte Veneilung der Schulnoten
bzw. die HAungkeltsvenellung der Mathematlknoten unter den Studenten mit der EnglIschnote 2 den bedingten Mittelwen und die bedingte Varianz. Wir erhalten
x I (Y = 2) = 10, 14+20,36+ ... +50,00 = 2,57,
d.h. der Mathematiknotendurchschnitt unter den Studenten mit der Englischnote 2 liegt bei
2,57 bei einer Varianz von
s: I(Y = 2) =1
3.1.4
Statistische Unabhngigkeit
Von statistischer Unabhngigkeit sprechen wir, wenn sich zwei Merkmale X und Y If1
einer Hufigkeitsverteilung nicht beeinflussen, d.h. das Eintreten der verschiedenen ~
Merkmalsausprgungen beim einen Merkmal unabhngig davon ist, welchen Wert
das andere Merkmal annimmt. Ob Abhngigkeit oder Unabhngigkeit vorliegt,
kann anhand der bedingten Verteilungen geprft werden. Statlstfsch.c UmtbhnaJgkcJt liegt vor, wenn die bedingten Verteilungen von X alle identisch sind und mit
der jeweiligen Randverteilung bereinstimmen. Analoges muss fr Y gelten.
!,..Caj Ib1 )=f",Ca,lb2 )==!,..Ca j Ibr) =
bodIngIe VCltdl_
fCa l )
fr
i=l, ... ,k
03: 17)
fr
j=l, ... ,r
03: 18)
Iand~
fCb j )
IandYClte!lun!!
Bedingungen bezglich Y haben also keinen Einfluss auf die Verteilung von X und
Bedingungen bezglich X auch keinen Einfluss auf die Verteilung von Y. X und Y
sind statistisch unabhngig.
90
I Deskriptive Statistik
Beispiel I 3-6
Statistische Unabhngigkeit
a,
a.
a,
h(bJ)
b,
b2
b,
h(a,)
2
6
4
12
5
15
10
30
3
9
6
18
10
30
20
60
a,
a.
a,
f(bJ)
b,
b2
b,
f(a,)
0,03
0,10
0,07
0,20
0,08
0,25
0,17
0,50
0,05
0,15
0,10
0,30
0,17
0,50
0,33
1,00
Um zu prfen, ob die Merkmale X und Y unabhngig voneinander sind, bentigen wir die
bedingten Verteilungen von X und Y. Die bedingten Verteilungen von X gegen Y sind in
folgender Tabelle enthalten:
a,
a.
a,
b,
b2
b,
0,17
0,50
0,33
0,17
0,50
0,33
0,17
0,50
0,33
Rechenbeispiel :
h
6
f (a I b )=-'-' = - =0 50
' , ,
h(b,) 12
'
Wir erkennen, dass die bedingten Verteilungen (Spalten) alle identisch sind und mit der in
der Ausgangstabelle schattierten Randverteilung von X bereinstimmen.
Die bedingten Verteilungen von Y gegen X haben folgende Gestalt:
b,
a,
a.
a,
0,20
0,20
0,20
b2
b,
0,50
0,50
0,50
0,30
0,30
0,30
Rechenbeispiel :
h
6
f (b la )=_21_ =-=0 20
' , ,
h(a,) 30
'
Auch hier ist zu sehen, dass die bedingten Verteilungen (Zeilen) alle Obereinstimmen und
der schattierten Randverteilung von Y aus der Ausgangstabelle entsprechen.
Die beiden Merkmale knnen damit als statistisch unabhngig bezeichnet werden. Warden
die Werte der bedingten Verteilungen von der beschriebenen Vorschrift abweichen, wren
die Merkmale X und Y, wenn auch ggf. nur geringfgig, statistisch abhngig.
Aus 03: 10) und dem Fakt, dass bei statistischer Unabhngigkeit f,(a, I b j ) = f(a,)
gilt, kann
03: 19)
gefolgert werden. Dies bedeutet, dass bei statistischer Unabhngigkeit die gemeinsamen relativen Hufigkeiten gleich dem Produkt der jeweiligen relativen Randhufigkeiten sind. Die gemeinsamen absoluten Hufigkeiten erhalten wir, indem wir
(13: 19) wie folgt umformen:
nfxy(apb j )=
n f(a.) n f(b.)
1
03: 20)
3. Zweidimensionale Hufigkeitsverteilungen
91
Die gesamte Infonnation ber die gemeinsame Verteilung ist also im Falle von Unabhngigkeit bereits in den beiden eindimensionalen Verteilungen von X und Y
enthalten. Ist dies nicht der Fall, liegt statistiscbe Abbngigkeit vor. Zwischen den
Merkmalen bestehen sog. Interdependenzen.
Beispiel 13"7
Statistische Abhngigkeit
Eine Untersuchung unter 1.000 Personen zu den Merkmalen Raucher (X) mit den Ausprgungen "Rauche(' (R) und "Nichtraucher" (NR) und Lungenkrebs M mit den Ausprgun
gen "Lungenkrebs" (L) und "kein Lungenkrebs" (NL) ergab folgende Kontingenztabelle:
Raucher
nein [NR]
ja [R]
h(b;) (f(b;ll
Lungenkrebs Y
nein [NL]
ja [L]
650 (0,65)
50 (0,05)
250 (0,25)
50 (0,05)
900 (0,90)
100 (0,10)
h(a,j (f(a,ll
700 (0,70)
300 (0,30)
1.000 (I,O)
Anhand des zuletzt behandelten Zusammenhangs (13: 19) soll nun untersucht werden, ob
die Merkmale Raucher und Lungenkrebs statistisch unabhngig sind. Dazu wird eine sog.
hypothetische Kontingenztabelle aufgestellt. Die gemeinsamen relativen Hufigkeiten werden darin durch Multiplikation der relativen Randhufigkeiten bestimmt. Stimmen diese mit
denen der urprnglich vorhandenen Tabelle Oberein, liegt statistische Unabhngigkeit vor.
Kommt es zu Abweichungen, so kann diese Aussage nicht mehr gemacht werden.
Hypothetische
Kontingenztabelle
Raucher
nein [NR]
ja [R]
f,(b;}
Lungenkrebs Y
nein [NL]
ja [L]
f,(a,}
0,63
0,27
0,07
0,03
0,70
0,30
0,90
0,10
1,0
Die gemeinsamen relativen Hufigkeiten f'j weichen hier alle von denen der Ursprungstabelle ab. Die Merkmale X und Y sind also voneinander statistisch abhngig.
Wrde anhand der Formel (13: 18) auf Unabhngigkeit geprOft, so kme man zum gleichen
Schluss. Es gilt nmlich (in vereinfachter Schreibweise):
f(N~NR}=0,65=093
f (N~ R) = 0,25 = 0 83
,
0,30'
f,(LINR}
f,(LIR}
0,70'
= 0,05 =0 07
0,70
'
= 0,05 =0 17
0,30
'
Die Bedingungen haben also einen Einfluss auf die Verteilung von Y.
Von besonderer Bedeutung im Kontext des Begtiffs der Unabhngigkeit ist, dass
die von uns in diesem Abschnitt behandelten Unabhngigkeitsaussagen im Grunde
nur fr eine vorliegende Grundgesamtbeit gelten. In einer Stichprobe wird es nmlich fast immer zufallsbedingt Abweichungen von der Unabhngigkeit geben, selbst
wenn die beschtiebenen Unabhngigkeitsbedingungen in der Grundgesamtheit erfllt sind. Das Problem der Unabhngigkeit zweier Vatiablen wird deshalb in der
induktiven Statistik differenziert behandelt (vgJ. Kapitel III).
92
I Deskriptive Statistik
3.2 Korrelationsanalyse
Im Rahmen der Korrelationsanalyse werden diverse Mazahlen zur Quantiftzierung
des Ausmaes des statistischen Zusammenhanges zwischen verschiedenen Merkmalen berechnet. Im Folgenden beschrnken wir uns dabei wieder auf nur zwei
Merkmale X und Y und werden fr diese die Kovarianz, den Bravais-PearsonKorrelationskoeffizienten, den Speannan-Rangkorrelationskoeffizienten sowie den
Kontingenzkoeffizienten nher behandeln. Die Anwendbarkeit der Mazahlen
hngt entscheidend vom Skalenniveau der Variablen X und Y ab. Abbildung I 21
zeigt, fr welche Skalierungen welche Konelationsparameter heranzuziehen sind.
Zudem gibt sie einen ersten berblick darber, welche Infonnationen durch die
jeweilige Messzahl gewonnen werden knnen.
y
kardinal
ordinal
nonllnal
kanIinal
onlinal
nominal
Bravai.s.-PearsonKorrelation&koeff12ient1
SpeannanRangkorre1ationskoeffizient'
...
...
...
Kontingenzkoeffizient'
3.2.1
Fr zwei metrisch skalierle Merkmale X und Y liege eine Urliste vor, in der weder
alle ~-Werte noch alle YrWerte identisch sind. Zudem seien x und y die jeweiligen arithmetischen MitteL Da ZU jedem ~ nur gerade ein Yj gehrt, knnen wir auf
den Index j verzichten, d.h. i-i. Damit ist die sog. KovarIanz definiert als
3. Zweidimensionale Hufigkeitsverteilungen
93
Eine erste Betrachtung der Formel der Kovarianz zeigt, dass die Kovarianz eines
Merkmals X mit sich selbst gleich seiner Varianz ist, d.h. Cov"" = s~ gilt.
Zur Interpretation des Werts der Kovarianz betrachten wir Abbildung I 22. Es enthlt drei typische Streudiagramme zweidimensionaler Hufigkeitsverteilungen. Jedes der Streudiagramme wurde durch ein Fadenkreuz ergnzt, dessen Mittelpunkr
der Schwerpunkr (x, y) des jeweiligen Datensatzes ist. Es entstehen so in jedem
Diagramm 4 Quadranten I, 11, III und IV.
Y
11
III
IV
II
III
IV
II
III
IV
Beobachtungen von X und der von Y zu erkennen. Im ersten Diagramm liegen die
Beobachtungspaare (x" y) berwiegend in den Quadranten I und III. Groe XWerte gehen hauptschlich mit groen Y-Werten und kleine X-Werte mit kleinen
Y-Werten einher. Es liegt ein sog. positiver Zusammenhang vor. Im zweiten Diagramm liegt die Mehrzahl der Beobachtungen in den Quadranten 11 und IV. Groe
X-Werte korrespondieren mit kleinen Y-Werten und umgekehrt. Es liegt ein sog.
negativer Zusammenhang vor. Das dritte Diagramm lsst keinen Zusammenhang
erkennen, da korrespondierend zu kleinen Werten der einen Variablen hnlich
viele kleine wie groe Werte der anderen Variablen zu beobachten sind. Die Begriffe "klein" und "gro" sind hier relativ zum jeweiligen Mittelwert zu sehen.
Den Schlssel zum Verstndnis der Kovarianz bilden die Abweichungsprodukte
(x, - x)(y, - V). Liegt ein Beobachtungspaar (x" y) in
x, y, > y
Quadrant I
gilt
X, >
Quadrant III
gilt
Quadrant 11
gilt
x,< x, y, < Y
x,< X, y,> Y
~ (Xi - X)(Yi ~
(Xi - X)(Yi -
(Xi - X)(Yi -
y)
y)
y)
y)
> 0,
> 0,
< 0,
< 0.
x,> X, YI< Y ~ (Xi - X)(Yi Da die Kovarianz das arithmetische Mittel der Abweichungsprodukte darstellt, gilt:
Liegen die Datenpunkte hauptschlich in den Quadranten I und III, so besteht
ein positiver Zusammenhang. Covxy ist positiv.
Liegen die Datenpunkte hauptschlich in den Quadranten 11 und IV, so besteht ein negativer Zusammenhang. Covxy ist negativ.
Quadrant IV
gilt
Sind die Punkre gleichmig auf die Quadranten verteilt, besteht kein Zusammenhang. Positive und negative Abweichungsprodukte heben sich bei der
Mittelung weitgehend auf und Covxy liegt nahe bei Null.
1Deskriptive Statistik
94
Ebenso wie fr die Varianz gilt auch fr die Kovarianz ein Verschtebungssatz. Dieser liefert den Ausdruck
1
CovXY =-
L xy
n
i_1
-xy
(13: 23)
(13: 24)
Die Kovarianz ist in der Lage den empiriscben Zusammenhang zweier Variablen X
und Y anzuzeigen. Covxy > 0 zeigt einen positiven, Covxy < 0 einen negativen Zu-
sammenhang. Die Kovarianz ist also in der Lage die Richtung, nicht jedoch die
Strke des Zusammenhangs aufzuzeigen. Ein sehr groer positiver Wert bedeutet
beispielsweise nicht zwangslufig, dass ein sehr starker positiver Zusammenhang
vorliegt. Die Kovarianz ist nmlich eine dimensionsbehaftete Gre, die allein
durch die nderung der Maeinheit grer oder kleiner werden kann. Um diesem
Problem zu begegnen, wird eine normierte Kovarianz als Kenngre verwendet:
Dividieren wir die Kovarianz Cov= durch das Produkt der Standardabweichungen
von X und Y, also "x und Sy, erhalten wir den Bravais-Pearson-Korrelationskoeffizienten r=, d.h.
(13: 25)
bzw. vereinfacbt
rxy
=-r='~~~===============
1=1
In (13: 25) knnen entsprechend auch die Fonneln verwendet werden, die sich des
Verscbiebungssatzes bedienen und/oder auf der Hufigkeitstabelle basieren. Durcb
die Division durch das Standardabweichungsprodukt (Nonnierung) ist r= automatiscb mastabs/os und verluft im Intervall
-1Srxy S+1 bzw. Ir=1 SI.
(13: 26)
r= - 1 gilt genau dann, wenn zwischen X und Y eine exakte Uneare Beziehung
besteht. Existiert nmlich die lineare Beziehung y, - a + bx" dann gilt
y=a+bx
und
S'y --
b's'x '
1 Den rechnerischen Beweis der Gltigkeit dieses Zusammenhangs berlassen wir in Aufgabe MH6 dem Leser.
95
3. Zweidimensionale Haufigkeitsverteilungen
Ferner ist
CovXY
:t
! :t
=!
=
j ...l
i_I
b~(
-)'
X
=-L.Xi;;;;;;
n
b'
Sx
i_ I
COV xy
Sx'Sy
;;;;;;
bsi
~=1.
sx1blsx
Ibl
Beispiel I 3-8
Bravais-Pearson-Korrelationskoeffizient
Bei n Filialen einer Firma wurden die Variablen X - Verkaufsflache und Y - Umsatz erhoben. Es soll geprft werden, ob zwischen diesen beiden Merkmalen ein linearer Zusammenhang besteht. Wir verwenden dazu folgende Arbeitstabelle:
2
3
4
5
6
7
8
9
10
Xi
y,
100
150
110
140
160
200
110
130
180
190
1.470
800
1.000
800
900
1.200
1.600
600
1.000
1.500
1.300
10.700
...
y~
640.000
1.000.000
640.000
810.000
1.440.000
2.560.000
360.000
1.000.000
2.250.000
1.690.000
12.390.000
10.000
22.500
12.100
19.600
25.600
40.000
12.100
16.900
32.400
36.100
227.300
xl'Y.
80.000
150.000
88.000
126.000
192.000
320.000
66.000
130.000
270.000
247.000
1.669.000
1"
1
x=-.
LX;
=-1.470 =147
n
10
i_1
1"
Y=-'LY; =-10.700=1.070
n
i_1
10
96
I Deskriptive Statistik
Anhand der mittels Verschiebungssatz umgestellten Formel ergibt sich rxy zu
1.669.000 147.1.070
10
rxv = r===c==~~F.===C==~~
= 0,936.
227.300 -147'. 112.390.000 1.070'
IJ 10
10
Der Wert des Korrelationskoeffizienten ist positiv und liegt nahe 1. Es liegt also eine starke
positive Korrelation vor. Dies kann nun bedeuten, dass die Filialen durch eine Vergrerung der Verkaufsflche tendenziell eine Umsatzsteigerung erreichen oder auch, dass Filialen mit hohem Umsatz eher in der Lage sind grere Verkaufsflchen zu finanzieren. Die
Korrelationsanalyse kann also keine Aussagen uber Ursache und Wirkung (Kausalitt)
machen (vgl. Abschnitt I 3.2.6).
Beispiel I 3-9
Anscombe's Korrelationsdaten
Die folgende Tabelle enthlt vier von Anscombe, F.J. (1973) konstruierte zweidimensionale
Datenstze, die alle eine starke positive Korrelation von rxy = 0,82 aufweisen. Die Datenstze 1 bis 3 haben alle dieselben X-Werte.
Datensatz
Merkmal
1 bis 3
10
8
13
9
11
14
6
4
12
7
5
8,04
6,95
7,58
8,81
8,33
9,96
7,24
4,26
10,84
4,82
5,68
9,14
8,14
8,74
8,77
9,26
8,10
6,13
3,10
9,13
7,26
4,74
7,46
6,77
12,74
7,11
7,81
8,84
6,08
5,39
8,15
6,42
5,73
8
8
8
8
8
8
8
8
8
8
19
6,58
5,76
7,71
8,84
8,47
7,04
5,25
5,56
7,91
6,89
12,50
Die dazugehrigen Streudiagramme auf der Folgeseite zeigen jedoch vollstndig unterschiedliche Datenstrukturen. Betrachten wir zunchst die Datenstze 3 und 4, dann wird
aufgrund der Streudiagramme ersichtlich, dass Covxy und rxy keine robusten Mazahlen
sind. Sie sind empfindlich gegenber Ausreiern. Einzelne extreme Beobachtungswerte
knnen dazu fUhren, dass die Mazahlen einen starken linearen Zusammenhang unterbewerten (Datensatz 3) oder flschlicherweise eine stark lineare Beziehung ausweisen
(Datensatz 4). Fr die Datenstze 1 und 2 nimmt der Korrelationskoeffizient identische
Werte an, obwohl, im Gegensatz zu Datensatz 1, zwischen den Variablen in Datensatz 2
eine perfekte Beziehung besteht. Hier muss berucksichtigt werden, dass COvxy und rxy
nicht Mae fr statistische Zusammenhnge schlechthin sind. Sie beurteilen lediglich die
lineare Beziehung zwischen zwei Variablen. In Datensatz 2 liegt aber eine nichtlineare Beziehung vor.
97
3. Zweidimensionale Hufigkeitsverteilungen
Y
Datensatz 1
Datensatz 2
Y
Datensatz 3
Datensatz 4
I
I
~--------------~X
~--------------~X
Gerade dieses Beispiel zeigt, dass eine Korrelationsrechnung immer durch eine grafische
Beschreibung der Daten mittels eines Streudiagrammes begleitet werden sollte.
Beispiel I 3-10
Nichtlinearer Zusammenhang
x,
y,
-3
9
-2
4
-1
o
o
2
4
3
9
Wir erkennen sofort, dass /Ur die Kovarianz und den Korrelationskoeffizienten gilt:
1 7
_
Cov xv =- LX'y,-xy=O-O=O
i- 1
-->
rxv =0
Die Variablen weisen keine lineare Beziehung auf. Es gibt jedoch eine exakte Beziehung
zwischen ihnen, da y, = x~ gilt. Der Zusammenhang ist quadratisch, also nichtlinear, und
kann somit nicht vom Bravais-Pearson-Korrelationskoeffizienten aufgedeckt werden.
Im Falle statistisch unabhngiger Merkmale X und Y nimmt rxv den Wert 0 an. Sind
X und Y unkorreliert, dann sind sie nicht unbedingt auch statistisch unabhngig.
Es besteht dann lediglich kein linearer Zusammenhang. Eine z.B. quadratische Abhngigkeit knnte durchaus bestehen.
98
I Deskriptive Statistik
Irxy =
-11
Irxy
=+11
x
y
Irxy
stark negativ I
x
y
y
Irxy schwach positiv I
Irxy=o l
3.2.2
Kreuzkorrelation
Bisher haben wir Korrelationen zwischen zwei Merkmalen X und Y berechnet, indem wir ihre Realisationen X, und y, fr n verschiedene Lnder, Unternehmen oder
Personen verwendeten. Ein Wertepaar (x" y,) charakterisierte also immer ein Land,
ein Unternehmen oder eine Person zu einem bestimmten Zeitpunkt. Genausogut ist
es aber mglich, sich auf nur ein Land zu konzentrieren und hier die Ausprgungen der Merkmale zu unterschiedlichen Zeitpunkten (Tagen, Monaten, Jahren) zu
3. Zweidimensionale HAufigkeitsveneilungen
99
erfassen. Man dokumentiert dann unter Verwendung einer etwas modifizierten Notation die Realisationspaare (x., Y) zu den Zeitpunkten t - 1, ... , T und berechnet
Korrelationen auf dieser Datenbasis. Eine Korrelation zwischen Auftragseingang
und Bruttoinlandsprodukt knnen wir also beispielsweise berechnen, indem wir in
einem Quartal beide Merkmale fr verschiedene Lnder erfassen oder uns z.B. auf
Deutschland konzentrieren und hier die Ausprgungen beider Merkmale in jedem
der letzten 20 Quartale messen. Man spricht im ersten Fall von einer Berechnung
der Korrelation unter Nutzung von Querschnitt8daten (engI. cross-sectional correlation). Im letzten Fall verwendet man Zeitreihen oder Zeitrelhendaten~, ... , Xr
und YI, ... ,YT , da diese Abfolgen von Merkmalsausprgungen Entwicklungen der
Merkmale im Zeitverlauf beschreiben (engl. time-series correIation).
Bei Nutzung von Zeitreihen ist in der Praxis der Begriff der Kreuzkorrelatton von
besonderer Bedeutung. Hier werden den Beobachtungen X. eines Merkmals zu den
Zeitpunkten t Beobachtungen des anderen Merkmals ZU nachfolgenden Zeitpunkten (z.B. Yt+I) oder zu vorhergehenden Zeitpunkten (z.B. Y.) gegenbergestellt. Es
wird also z.B. der Auftragseingang eines Quartals nicht dem Bruttoinlandsprodukt
des gleichen sondern z.B. des Folgequartals gegenbergestellt. Dies ist sinnvoll, da
ein hherer Aufuagseingang in einem Quartal nicht nur zu einer Erhhung des
Bruttoinlandsproduktes im gleichen Quartal sondern auch in spteren quartalen
fhren kann. Der Auftragseingang ist ein sog. vorlaufender Konkunkturlndikator.
Ein hherer Wert in einem Quartal impliziert ein hheres Bruttoinlandsprodukt in
spteren Quartalen. Anders verhlt es sich bei sog. nacblaufenden Konjunkmrlndikatoren. Im Zuge eines Konjunktureinbruches (sinkendes Bruttoinlandsprodukt)
wird Z.B. aufgrund von Kndigungsschutz nicht die Arbeitslosenquote des gleichen
Quartals steigen. Hier ist es daher sinnvoll Arbeitslosenquoten spterer Quartale in
Korrelationsana1ysen zu verwenden.
Be18ple113-11
Kreuzkorrelatlon Q .
AnknOpfend an unsere theoretische Argumentation zur Kreuzkorrelation wollen wir in diesem Beispiel die Korrelation zwischen der Wachstumsrate des deutschen Brunolnlandsprodukts und zwei Konjunkturindikatoren (der Vernderung des Auftragseingangs und der
Vernderung der Arbeilslosenquole) berechnen. Wir verwenden dazu (saison- und kalenderbereinigtes) Zahlenmaterial aus der leitreihendatenbank der Deutschen Bundesbank
von 2006 bis 2012. Konkret nutzen wir den auf Quanalsbasis vorliegenden realen Kettenindex das Brunoinlandsprodukts (BIP) und Monatsdaten zum realen Auftragseingang (AE)
der Industrie und zur Arbeilslosenquote (ALQ) bezogen auf alle zivilen Erwerbspersonen.
Aufgrund der unterschiedlichen Datenfrequenz legen wir bei AE und ALQ zur Vereinfachung das arithmetische Mittel der jeweiligen drei Monate als Quartalswerl fast und berechnen daraus die Vernderungen von AE und ALQ. Die Wene zu den jeweiligen Quartalen t, d.h. BIP-Wachstumsrate (BIPWF\), AE-VerAnderung (AEVtl und ALQ-VerAnderung
(ALQVtl, sind in der Tabelle auf der Folgeseite zu sehen.
Berechnen wir die Korrelation zwischen BIPWR und AEV auf Basis dieser Ausgangsdaten
(sog. kontemporre Korrelation), erhalten wir einen Wen von 0,76. Mit gestiegenem Auftragseingang geht also tendenziell ein gesUegenes BIP einher. Wie bereits erwAhnt, handelt es sich beim AE um einen vorlaufenden KonjunkbJrindikator, sodass davon auszugehen ist, dass eine hhere Korrelation zu beobachten ist, wenn wir dem BIP eines Quartals
den Auflragseingang des Vorquartals gegenOberstelien. Dies geschieht in der vienen Spalte unserer Datentabelle durch Verwendung von AEVt_1. (Man beachte dabei, dass bei einer solchen Vorgehensweise die Datenbasis um eine Beobachtung verkOrzt wird.) Berechnen wir nun erneut den Korrelationskoeffizienten, so erhalten wir, wie erwanet, einen hhe-
I Deskriptive Statistik
100
ren Wert von 0,78, der auch deuUich hher ist als die Kreuzkorrelalion bei Verwendung
von AEVtt-l (nachfolgend nicht tabelliert; 0,33). Ein gestiegener AE in der Vorperiode 1-1 ist
also tendenziell mit einem gestiegenen BIP in der aktuellen Periode I verbunden.
Berechnen wir auf Basis der Ausgangsdalen die Korrelation zwischen BIPWR und ALQV,
so ergibt sich ein Wert von -0,55. Aufgrund des negativen Vorzeichens geht also mit ge-
stiegenem (gesunkenem) BIP tendenziell eine fallende (steigende) ALQ einher. Aufgrund
des nachlaufenden Charakters der ALQ ergibt sich ein Korrelationskoeffizient von -0,71,
wenn dem BIP eines Quartals die ALQ des Folgequarials gegenubergsslelll wird. Dies ge-
schieht durch Nutzung von ALQVt+l in der letzten TBbellenspalle. (Man beachte, dass Buch
hier eine Beobachtungsperiode verloren geht.) Wieder ist die Kreuzkorrelation absolut betrachtet hher als die kontemporre Korrelation und die Kreuzkorrelation bei Verwendung
von