Sie sind auf Seite 1von 769

Statistik und konometrie fr

Wirtschaftswissenschaftler

Benjamin Auer Horst Rottmann

Statistik und
konometrie fr
Wirtschaftswissenschaftler
Eine anwendungsorientierte Einfhrung
3., berarbeitete und aktualisierte Auflage

Benjamin Auer
Universitt Leipzig
Leipzig, Deutschland

Horst Rottmann
Ostbayerische Technische Hochschule Amberg
Weiden | ifo Institut fr Wirtschaftsforschung an der Universitt Mnchen
Amberg Weiden und Mnchen, Deutschland

ISBN 978-3-658-06438-9
DOI 10.1007/978-3-658-06439-6

ISBN 978-3-658-06439-6 (eBook)

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie;


detaillierte bibliografische Daten sind im Internet ber http://dnb.d-nb.de abrufbar.
Springer Gabler
Springer Fachmedien Wiesbaden 2010, 2012, 2015
Das Werk einschlielich aller seiner Teile ist urheberrechtlich geschtzt. Jede Verwertung, die nicht ausdrcklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das
gilt insbesondere fr Vervielfltigungen, Bearbeitungen, bersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der
Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wren und daher von jedermann
benutzt werden drften.
Gedruckt auf surefreiem und chlorfrei gebleichtem Papier
Springer Gabler ist eine Marke von Springer DE. Springer DE ist Teil der Fachverlagsgruppe Springer
Science+Business Media.
www.springer-gabler.de

Vorwort
Vorwort zur 3. Auflage
Liebe Leserinnen und Leser,

seit der 1. Auflage erfreut sich unser Lehrbuch unter Studierenden und Dozierenden zunehmender Beliebtheit. Es wird mittlerweile deutschlandweit eingesetzt und
ist nicht nur in wirtschaftswissenschaftlichen Bachelor- und Masterstudiengngen,
sondern auch bei empirisch arbeitenden Promoventen sehr gefragt. Wie uns zahlreiches positives Feedback aus der Leserschaft zeigt, ist dies insbesondere auf den
umfassenden konometrieteil des Buches zurckzufhren, der anders als klassische statistische Grundlagenliteratur mit detaillierten Anwendungsbeispielen solide
Grundlagen fr das wissenschaftliche Arbeiten legt.
Aus diesem Grund haben wir uns in der 3. Auflage dafr entschieden, die bewhrte Konzeption des Buches beizubehalten. Das konometriekapitel wurde vollstndig berarbeitet und erweitert. So werden nun Themen wie Volatilittsmodellierung
mit ARCH- und GARCH-Prozessen, vor- und nachlaufende Konjunktutindikatoren
und die Spezifikation von Zeitreihenmodellen fr Anleihenrenditen behandelt.
Darber hinaus haben wir den Online-Service des Buches ausgebaut. Insbesondere
wurde die Formelsammlung zum Buch aktualisiert und auerdem die Sammlung an
bungsdatenstzen und Excel-Tools vergrert. So fmden Sie nun z.B. auch Tools
zur Abbildung von Autokorrelationsfunktionen fr autoregressive Prozesse und zur
Simulation von Regressionsmodellen mit heteroskedastischen oder autokorrelierten
Strtermen.
Wir danken fr die hilfreichen Kommentare und Verbesserungsvorschlge zu dieser
Auflage Herrn Prof. Dr. Thomas Jost, der uns auch schon ZU den vorherigen Auflagen sehr wertvolle Anregungen gab. Auerdem gilt den Herren Maurice Hoftnann,
Markus Kruse und Robert Vinzelberg fr das abschlieende Korrekturlesen besonderer Dank.
Wir wnschen Ihnen weiterhin viel Erfolg bei der Arbeit mit dem Lehrbuch und
wrden uns bei Fragen, Anregungen und Kritik sehr ber eine kurze E-Mail via
www.statistik-auer-rottmann.de freuen.

Weiden i. d. OPf. und Leipzig,


Juni 2014
Prof. Dr. Horst Rottmann
Dr. Benjamin R. Auer

Vorwort

VI

Vorwort zur 2. Auflage


Liebe Leserinnen und Leser,

wir freuen uns, Ihnen jetzt die 2. Auflage von "Statistik und konometrie fr Wirtschaftswissenschaftler" prsentieren zu drfen. Dozenten betonen uns gegenber
immer wieder, dass die umfassende Perspektive und der anwendungsorientierte
Ansatz mit vielen Beispielen aus der Praxis wesentliche Strken des Buches darstellen. Wir haben daher bei der Neuauflage des Buches die Grundkonzeption beibehalten und uns im Wesentlichen auf eine Korrektur der Fehler, Aktualisierungen
einiger Anwendungen aus der Praxis sowie kleine Ergnzungen inhaltlicher Art beschrnkt. Im Kapitel zur deskriptiven Statistik wurden etwa die Graftken und Berechnungen zu wichtigen Indizes aus der Wirtschaftspraxis und zur Volatilittsmessung auf Wertpapiennrkten auf den aktuellen Stand gebracht. Zustzlich haben
wir die Neuauflage um einen Abschnitt zur Momentenschtzung erweitert.
Weiterhin wurde auch der Online-Service zum Buch ausgebaut. Er umfasst nun
unter anderem auch einen umfangreichen bungsdatensatz mit Zeitreihen zur historischen Entwicklung des deutschen Kapitalmarktes (Aktien- und Rentenmarktindizes, Geldmarktstze, Wechselkurse sowie Preise ausgewhlter Rohstoffe und
Edelmetalle) und der deutschen konomie (Inflationsrate, Geldmengen, Geschftsklimaindizes und klassische Wirtschaftsdaten aus der Volkswirtschaftlichen Gesamtrechnung). Dieser wird regelmig aktualisiert zur Verfgung gestellt und gerne in
Reaktion auf Anregungen aus der Leserschaft erweitert.
Wir danken fr die hilfreichen Kommentare und Verbesserungsvorschlge zu dieser
Auflage Prof. Dr. Thorsten Hock und Prof. Dr. Thomas Jost, der uns auch schon
zur Erstauflage sehr wertvolle Anregungen gab.
Wir wnschen Ihnen weiterhin viel Erfolg bei der Arbeit mit dem Lehrbuch und
wrden uns bei Fragen, Anregungen und Kritik sehr ber eine kurze E-Mail via
www.statistik-auer-rottmann.de freuen.

Weiden i. d. OPf. und Leipzig,


Juli 2011

Prof. Dr. Horst Rottmann


Dipl.-Bw. (FH) Benjamin R. Auer

Vorwort

VII

Vorwort zur 1. Auflage


Liebe Leserinnen und Leser,

mit diesem Werk liegt Ihnen das erste deutsche Lehrbuch vor, das die beiden fr
empirisch arbeitende Wirtschaftswissenscbaftler relevanten Gebiete - die Statistik
und die konometrie - kombiniert und umlassend darstellt. Bei der Aufbereitung
der Themenbereiebe aebten wir besonders auf Klarheit und die Verwendung einer
Vielzahl theoretiseber und empirischer Beispiele. Auf komplizierte Herleitungen
und Beweise verzichten wir bewusst, wenn sie unseres Erachtens nur das Verstndnis erschweren.

Inhalte und Beispiele mit Praxisbezug


Das vorliegende Lehrbuch behandelt die traditionellen Bereiche der deskriptiven
und der induktiven Statistik sowie der Wahrsebeinlichkeitsrechnung. Es unterscheidet sich allerdings von anderen einschlgigen Lehrbchern in der speziellen Darstellungsweise. Jedes Kapitel enthlt zahlreiche Beispiele und bungen, die ausfhrlich erlutert werden und somit die abstrakten Zusammenhnge anschaulich
vertiefen. Sie behandeln auch die Anwendung der statistischen Methoden fr typisebe betriebswirtschaft1iche und sozialwissenschaftHche Problemstellungen.
Umfangreiche Darstellung der Regressionsanalyse
Darber hinaus stellt die Schwerpunktbildung dieses Buches ein entscheidendes
Alleinstellungsmerkmal dar. So bietet es beispielsweise ein Kapitel zur angewandten konometrie (veranschaulicht unter Verwendung der Software EViews 6.0), das
weit ber die in der Masse der Lehrbcher enthaltene deskriptive Behandlung der
linearen Regression hinausgeht. Dies ist besonders wertvoll fr all jene, die die
Regressionsanalyse fr empirische Untersuchungen, etwa fr eine praxisorientierte
Bachelor- oder Masterarbeit, verwenden wollen.
Konkrete Anwendungen der Methoden in der Praxis
Des Weiteren finden sich eine Vielzahl sehr konkreter wirtschafts- und insbesondere fmanzwirtschaftlieber AnwendungsfaJle (z.B. die Sebtzung von Aktienvolatilitten, die Analyse von Wettbewerbsprozessen und Einkommensverteilungen, Kaufkraftvergleiebe, Aktienindizes, subjektive Wahrscheinlichkeiten und Wettquotienten, Portfoliorisiko und Diversifikation, Qualittskonttolle, die Schtzung von
Nachfrage-, Produktions- und Konsumfunktionen, die Untersuchung von Trends in
der Goldpreisentwicklung, die Beurteilung des langftistigen Einflusses von Zentralbanken auf das Zinsniveau und der langfristigen Beziehung zwiseben Geldmarktzinsstzen versebiedener Fristigkeiten, die Analyse der Performance von Investmentfonds und Zinsprognosen). Wir haben Kapitel, die derartige Anwendungen
enthalten, im nachfolgenden Inhaltsverzeichnis mit dem Zeichen ,. kenntlieb gemaebt. Darber hinaus wurde ein separates Anwendungsverzeichrtis angelegt.
Dozenten- und Studentennutzen

Dieses Bueb soll Ihnen als Lehrenden helfen, die heiklen Themen Statistik und
konometrie verstndlich, studenten- und vor allem praxisgerecht fr Ihren Un-

VIII

Vorwort

terricht aufzubereiten. Den Studierenden soll es dazu dienen, alle relevanten Themen fr ihre Klausur noch einmal zu wiederholen und mit Hilfe zahlreicher
bungsaufgaben zu festigen. Bei der Lsung dieser Aufgaben lassen wir Sie nicht
alleine. Anders als in einschlgigen Lehrbchern wird Ihnen nicht einlach ein Ergebnis ohne Rechenweg und Erluterungen prsentiert. Stattdessen erklren wir
nachvollziehbar und anschaulich jeden einzelnen Rechenschritt und die allgemeine
Vorgehensweise.
Internetseite mit umfassendem Material
Zur Untersttzung von Dozenten und Studierenden wurde eigens die Internetseite
www.statistik-auer-rottmann.de eingerichtet. Hier finden Sie beispielsweise diverse
Excel-Tools, mit denen Rechenbeispiele und Verfahren einfach nachvollzogen und
praktisch umgesetzt werden knnen, sowie die Datentabellen konometrischer
Schtzungen im Excel- und EViews-Format. Auf die Verfgbarkeit derartigen Materials wird im Text durch das Symbol lt am Seitenrand hingewiesen. Weiterhin bieten wir Ihnen online zustzliche bungsaufgaben inklusive der ausfhrlichen
Lsungen und eine auf das Buch abgestimmte Formelsammlung. Speziell fr Dozenten stellen wir die Lsungen der bungsaufgaben mit geraden Aufgabennummern, die im Buch nicht verffentlicht sind, sowie alle Grafiken des Buches in

bearbeitbarer Form zur Verfgung. Benutzernamen und passwon fr den Zugang


zu diesem Onlineangebot knnen Sie ber das Kontakttnen auf der o.g. Seite anfordern.

Danksagung
Bei der Konzeption und Gestaltung des Buches haben uns viele Personen untersttzt. Wir danken Prof. Dr. Christopher Dietmaier, Prof. Dr. Gebhard Flaig, Prof.
Dr. Oliver Hlsewig, Prof. Dr. Norbert Janz, Prof. Dr. Thomas Jost, Prof. Dr. Erich
Ruppert, Prof. Dr. Franz Seitz und Dr. Timo Wolhnershuser fr wertvolle Hinweise
und Verbesserungsvorschlge. Ihnen mchten wir fr ihre hilfreichen kritischen
Auseinandersetzungen mit unseren Ideen ganz besonders danken. Fr das Gelingen dieser Arbeit war zudem der wissenschaftliche Freiraum hilfreich, den Herr
Benjamin Auer am Lehrstuhl von Prof. Dr. Frank Schuhmacher erhalten hat. Besonderer Dank gilt auerdem Herrn Steffen Burkhardt fr eine kritische Durchsicht
des Manuskripts, Korrekturrechnen und wertvolle formale Hinweise, sowie Herrn
Mark Kirstein und Frau Karla Strau fr ein abschlieendes Korrekturlesen.
Allen Lesern wnschen wir auf diesem Weg, dass sie durch dieses Buch einen Zugang zu den interessanten Fragestellungen finden, die sich mit Hilfe der Statistik
und konometrie beantworten lassen. Bei Fragen, Anregungen und Kritik wrden

wir uns ber eine E-Mail via www.statistik-auer-rottmann.de sehr freuen.

Weiden i. d. OPf. und Leipzig,


Juni 2010

Prof. Dr. Horst Rottmann


Dipl.-Bw. (FH) Benjamin R. Auer

In haltsverzeich nis
Vorwort ......................................................................................................................... v
Abbildungsverzeichnis .............................................................................................. XXI
Anwendungsverzeichnis .......................................................................................... XXV
I Deskriptive Statistik ............................................................................................ 1

1. Grundbegriffe ............................................................................................................ 3
1.1 Der Statistikbegriff............................................................................................... 3
1.2 Merkmalstrger, Grundgesamtheiten und Stichproben ..................................... 4
1.3 Klassifikation von Merkmalen ............................................................................. 6
1.3.1

Klassifikation nach dem Skalenniveau .................................................. 6

1.3.2

Klassifikation in diskrete und stetige Merkmale ................................... l0

1.3.3

Klassifikation in qualitative und quantitative Merkmale ...................... 11

2. Eindimensionale Hufigkeitsverteilungen ............................................................... 13


2.1 Hufigkeitsverteilung ......................................................................................... 13
2.1.1

Hufigkeitsverteilung bei diskreten Merkmalen ................................... 13

2.1.2

Empirische Verteilungsfunktion bei diskreten Merkmalen .................. 18

2.1.3

Klassierte Hufigkeitsverteilung bei stetigen Merkmalen .................... 21

2.1.4

Typische Hufigkeitsverteilungen ......................................................... 26

2.1.5

Quantile ................................................................................................. 28

2.2 Mazahlen .......................................................................................................... 31


2.2.1
Lageparameter ....................................................................................... 31
2.2.1.1
Modus ............................................................................................... 32
2.2.1.2

Median .............................................................................................. 34

2.2.1.3
2.2.1.4

Arithmetisches Mittel ........................................................................ 35

2.2.1.5

Exkurs: Renditen und Renditedurchschnitte .................................. .40

2.2.1.6

Lageregeln ....................................................................................... .44

2.2.2

Geometrisches Mittel ........................................................................ 38


~

Streuungsparameter .............................................................................. .45

2.2.2.1

Spannweite und Quartilsabstand ..................................................... 45

2.2.2.2

Mittlere absolute Abweichung ........................................................ .47

2.2.2.3

Varianz und Standardabweichung .................................................. .49

2.2.2.4

Exkurs: Volatilitt ............................................................................ .56

Inhaltsverzeichnis

2.2.2.5

Variationskoeffizient ........................................................................ 59

2.2.2.6

Box-Whisker-Plot ............................................................................. 61

Momente und Schiefemae .................................................................. 62


2.2.3
Empirische Momente ....................................................................... 63
2.2.3.1
2.2.3.2
2.2.4
2.2.4.1
2.2.4.2

Schiefemae ..................................................................................... 63
Konzentrationsmessung ........................................................................ 65
Mazahlen der absoluten Konzentration ........................................ 66
Mazahlen der relativen Konzentration .......................................... 70 ,.

3. Zweidimensionale Hufigkeitsverteilungen ............................................................ 81


3.1 Grundlagen ........................................................................................................ 81
3.1.1

Kontingenztabelle ................................................................................. 81

3.1.2

Randhufigkeiten und -verteilungen .................................................... 85

3.1.3

Bedingte Hufigkeiten und Verteilungen ............................................ 86

3.1.4

Statistische Unabhngigkeit .................................................................. 89

3.2 Korrelationsanalyse ............................................................................................ 92


3.2.1
3.2.2

Kovarianz und Bravais-Pearson-Korrelationskoeffizienl... ................... 92


Kreuzkorrelation ................................................................................... 98 ,.

3.2.3

Spearrnan-Rangkorrelationskoeffizient ............................................... 100

3.2.4

Kontingenzkoeffizient ......................................................................... 104

3.2.5

Lineartransforrnationen und Linearkombinationen ............................ 106

3.2.6
Kritische Anmerkungen zur Korrelationsanalyse ............................... 108
4. Messzahlen und Indizes ........................................................................................ 111
4.1 Messzahlen ....................................................................................................... 111
4.2 Indexzahlen ..................................................................................................... 113
4.2.1

Preisindizes ......................................................................................... 114

4.2.1.1

Grundlegendes ............................................................................... 114

4.2.1.2

Preisindex nach Laspeyres ............................................................. 116

4.2.1.3

Preisindex nach Paasche ............................................................... 117

4.2.1.4

Weitere Preisindizes ....................................................................... 118


Preisindexreihen und Inflationsmessung ...................................... 120 ,.

4.2.1.5
4.2.1.6

Preisbereinigung und reale Gren .............................................. 121 ,.

4.2.1.7

Interregionale Kaufkraftvergleiche ................................................ 123 ,.

4.2.1.8

Umbasierung und Verknpfung .................................................... 125

4.2.2

Mengenindizes .................................................................................... 127

4.2.3

Wertindex ............................................................................................ 129

4.2.4

Wichtige Indizes aus der Wirtschaftspraxis ........................................ 130

Inhaltsverzeichnis

XI

4.2.4.1

Verbraucherpreisindex (VPI) ......................................................... 130

4.2.4.2

Harmonisierter Verbraucherpreisindex (HYPI) ............................. 132

4.2.4.3

Deutscher Aktienindex (DA}{) ....................................................... 134

5. Aufgaben ................................................................................................................ 137

n Wahrscheinllchkeitsrechnung ..................................................................... 147


1. Grundlagen der Wahrscheinlichkeitstheorie ......................................................... 149
1.1 Grundbegriffe ................................................................................................... 149
1.2 Ereignisse und ihre Darstellung ....................................................................... 151
1.3 Wahrscheinlichkeitsregeln und -definitionen .................................................. 157
1.3.1
Axiome der Wahrscheinlichkeitsrecbnung ......................................... 158
1.3.2
Klassische WahrscheinlichkeitsdefInition ........................................... 161
1.3.3
Statistische Wahrscheinlichkeitsdefinition .......................................... 164
1.3.4
Subjektive Wahrscheinlichkeitsdefinition ........................................... 165
1.4 Zufallsauswahl und Kombinatorik ................................................................... 168
1.4.1
Zufallsauswahl und Umenmodell. ...................................................... 169
1.4.2
Kombinatorik ....................................................................................... 169
1.4.2.1
n-Fakultt und Binomialkoeffizient ............................................... 169
1.4.2.2 Prinzipien der Kombinatorik.......................................................... 171
Zusammenfassung und Vergleich .................................................. 176
1.4.2.3
1.5 Bedingte Wahrscheinlichkeiten ....................................................................... 178
1.5.1
Definition und Interpretation .............................................................. 178
1.5.2
MultiplikationssalZ ............................................................................... 179
1.5.3
Unabhngigkeit von Ereignissen ........................................................ 182
1.5.4
Satz der totalen wahrscheinlichkeit .................................................... 185
1.5.5
Formel von Bayes ............................................................................... 187
2. Zufallsvariablen ...................................................................................................... 193
2.1 Begriff der Zufallsvariable ................................................................................ 193
2.2 Diskrete Zufallsvariablen ................................................................................. 196
2.2.1
Wahrscheinlichkeitsfunktion ............................................................... 196
2.2.2
Verteilungsfunktion ............................................................................. 198
2.2.3
Zusammenfassende Gegenberstellung ............................................. 200
2.3 Stetige Zufallsvariablen .................................................................................... 202
2.3.1
Verteilungsfunktion ............................................................................. 202
2.3.2
Dichtefunktion ..................................................................................... 203
2.3.3
Zusammenfassende Gegenberstellung ............................................. 206

XII

Inhaltsverzeichnis

2.4 Kennzahlen von Wahrscheinlichkeitsverteilungen ......................................... 207


2.4.1

Erwartungswert ................................................................................... 207

2.4.1.1

Deftnition ....................................................................................... 207

2.4.1.2

Eigenschaften ................................................................................. 209

2.4.2

Varianz und Standardabweichung...................................................... 213

2.4.2.1

Deftnition ....................................................................................... 213

2.4.2.2

Eigenschaften ................................................................................. 214

2.4.2.3

Standardisierung von Zufallsvariablen .......................................... 216

2.4.3

Hhere Momente ................................................................................ 218

2.4.4

Quantile ............................................................................................... 219

25 Ungleichung von Tschebyscheff ..................................................................... 221


2.6 Anwendungsbeispiele ...................................................................................... 223
2.6.1

Renditen als Zufallsvariablen .............................................................. 223

2.6.2

Zufallsvariablen beim Roulette ........................................................... 224

2.7 Mehrdimensionale Zufallsvariablen ................................................................. 227


2.7.1

Begriff .................................................................................................. 227

2.7.2

Wahrscheinlichkeits- und Verteilungsfunktion .................................. 228

2.7.2.1

Gemeinsame Wahrscheinlichkeitsfunktion ................................... 228

2.7.2.2

Gemeinsame Verteilungsfunktion ................................................. 230

2.7.2.3
2.7.2.4

Randverteilungen ........................................................................... 230


Bedingte Verteilungen ................................................................... 231

2.7.3
2.7.4

Stochastische Unabhngigkeit ............................................................ 233


Kennzahlen zweidimensionaler Wahrscheinlichkeitsverteilungen.... 234

2.7.4.1

Erwartungswert und Varianz ......................................................... 234

2.7.4.2

Kovarianz und Korrelationskoeffizient .......................................... 236

2.75

nearkombinationen von Zufallsvariablen ........................................ 239

2.7.6

Formelzusammenstellung fr stetige Zufallsvariablen ....................... 241

2.7.7

Anwendungsbeispiel: portfoliotheorie ............................................... 242

3. Theoretische Verteilungen .................................................................................... 247


3.1 Diskrete Verteilungen ...................................................................................... 247
3.1.1

Binomialverteilung .............................................................................. 247

3.1.1.1

Wahrscheinlichkeits- und Verteilungsfunktion ............................. 247

3.1.1.2

Eigenschaften ................................................................................. 251

3.1.1.3

Praxisanwendung: Operationscharakteristiken ............................. 252

3.1.2
3.1.2.1

Hypergeometrische Verteilung ........................................................... 254


Wahrscheinlichkeits- und Verteilungsfunktion ............................. 254

Inhaltsverzeichnis

XIII

3.1.2.2

Eigenschaften ................................................................................. 257

3.1.2.3

Approximation durch die Binomialverteilung ............................... 258

Poissonverteilung ................................................................................ 259


3.1.3
Wahrscheinlichkeits- und Verteilungsfunktion ............................. 259
3.1.3.1
3.1.3.2
Eigenschaften ................................................................................. 261
3.1.3.3

Approximation ............................................................................... 261 "

3.2 Stetige Verteilungen ......................................................................................... 263


3.2.1

Gleichverteilung .................................................................................. 263

3.2.1.1

Dichte- und Verteilungsfunktion ................................................... 263

3.2.1.2

Diskretes Gegenstck. .................................................................... 264

3.2.2

Exponentialverteilung ......................................................................... 266

3.2.2.1

Dichte- und Verteilungsfunktion ................................................... 266

3.2.2.2

Diskretes Gegenstck ..................................................................... 268

3.2.3

Nonnalverteilung ................................................................................. 270

3.2.3.1

Dichte- und Verteilungsfunktion ................................................... 270

3.2.3.2

Standardnonnalverteilung .............................................................. 273

3.2.3.3

Reproduktionseigenschaft .............................................................. 277

3.2.4

Logarithmische Nonnalverteilung ....................................................... 278

3.3 Test-Verteilungen ............................................................................................. 280


3.3.1

Chi-Quadrat-Verteilung ....................................................................... 280

3.3.2

t-Verteilung .......................................................................................... 282

3.3.3

F-Verteilung ......................................................................................... 283

3.4 Bedeutung der Nonnalverteilung .................................................................... 285


3.4.1

Zentraler Grenzwertsatz ...................................................................... 285

3.4.2

Approximation diskreter Verteilungen ............................................... 287

3.4.2.1

Binomialverteilung ......................................................................... 287

3.4.2.2

Hypergeometrische Verteilung ...................................................... 288

3.4.2.3

Poissonverteilung ........................................................................... 289

3.4.2.4

berblick zur Approximation eindimensionaler Verteilungen ..... 291

3.4.2.5

Empirische Verteilungen ................................................................ 292

4. Aufgaben ................................................................................................................ 295

m Induktive Statistik ......................................................................................... 309


1. Punkrschtzung ...................................................................................................... 311
1.1 Stichproben ...................................................................................................... 311
1.2 Schtzer und ihre Stichprobenverteilungen .................................................... 312

XIV

Inhaltsverzeichnis

1.2.1

Grundlagen der Punktschtzung ........................................................ 312

1.2.2

Verteilung des Stichprobenmittels ...................................................... 315

1.2.2.1

Ziehen mit Zurcklegen ................................................................ 315

1.2.2.2

Ziehen ohne Zurcklegen ............................................................. 318

1.2.3

Verteilung des Stichprobenanteilswerts ............................................. 320

1.2.3.1

Ziehen mit Zurcklegen ................................................................ 320

1.2.3.2

Ziehen ohne Zurcklegen ............................................................. 321

1.2.4

Verteilung der Stichprobenvarianz ..................................................... 323

1.2.5

Verteilung weiterer Stichprobengren ............................................. 324

1.2.5.1

Differenz zweier Stichprobenmittel... ............................................ 324

1.2.5.2

Differenz zweier Stichprobenanteilswerte .................................... 325

1.2.5.3

Quotient zweier Stichprobenvarianzen ......................................... 326

1.3 Gte von Schtzern ......................................................................................... 328


1.3.1

Erwartungstreue .................................................................................. 328

1.3.2

Asymptotische Erwartungstreue ......................................................... 329

1.3.3

EffIzienz ............................................................................................... 330

1.3.4

Konsistenz ........................................................................................... 331

1.3.5

Mittlerer quadratischer Fehler ............................................................. 332

1.4 Konstruktion von Schtzern ............................................................................ 333


1.4.1

Methode der kleinsten Quadrate ........................................................ 333

1.4.2

Maximum-Likelihood-Methode ........................................................... 334

1.4.3

Momentenmethode ............................................................................. 337

2. Intervallschtzung .................................................................................................. 339


2.1 Grundlagen ...................................................................................................... 339
2.2 KonfIdenzintervalle fr den Mittelwert ........................................................... 340
2.2.1

Normalverteilte Grundgesamtheit mit bekannter Varianz ................. 342

2.2.2

Normalverteilte Grundgesamtheit mit unbekannter Varianz ............. 344

2.2.3

Beliebig verteilte Grundgesamtheit .................................................... 345

2.3 KonfIdenzintervall fr den Anteilswert ........................................................... 346


2.4 KonfIdenzintervall fr die Varianz .................................................................. 348
2.5 berblick ber die behandelten KonfIdenzintervalle ..................................... 349
2.6 Planung des Stichprobenumfangs ................................................................... 350
2.6.1

KonfIdenzintervall fr den Mittelwert ................................................ 350

2.6.2

KonfIdenzintervall fr den Anteilswert .............................................. 351

2.6.3

KonfIdenzintervall fr die Varianz ..................................................... 351

3. Testen von Hypothesen ........................................................................................ 353

xv

Inhaltsverzeichnis

3.1 Allgemeines Testschema .................................................................................. 353


3.2 Testklassifizierung ............................................................................................ 357
3.3 Parametertests ................................................................................................... 358
3.3.1
Einstichprobentests ............................................................................. 358
3.3.1.1
Einstichprobentest fr den Anteilswert.......................................... 358
3.3.1.2

Einstichprobentest fr den Mittelwert ............................................ 365

3.3.1.3
3.3.1.4

Statistische Qualittskontrolle ........................................................ 369

3.3.2

Einstichprobentest fr die Varianz ................................................. 370


Zweistichprobentests ........................................................................... 372

3.3.2.1

Vergleich zweier Mittelwerte ......................................................... 373

3.3.2.2

Vergleich zweier Anteilswerte ....................................................... 376

3.3.2.3

Vergleich zweier Varianzen ........................................................... 377

Parametertests bei verbundenen Stichproben .................................... 379


3.3.3
Differenzentest ............................................................................... 380
3.3.3.1
3.3.3.2 Korrelationstesl.. ............................................................................. 382
3.3.4

Gtefunktionen von Parametertests ................................................... 385

3.4 Verteilungstests ................................................................................................. 390


3.4.1

Chi-Quadrat-Anpassungstest ............................................................... 390

3.4.1.1

Anpassungstest bei diskret verteilter Grundgesamtheit ................ 390

3.4.1.2

Anpassungstest bei stetig verteilter Grundgesamtheit ................... 395


Chi-Quadrat-Unabhngigkeitstest ....................................................... 396

3.4.2
3.4.3

Chi-Quadrat-Homogenittstest... ........................................................ .401

3.5 Einfache Varianzanalyse .................................................................................. 403


3.6 berblick ber die behandelten Testverfahren ............................................. .407
4. Aufgaben ................................................................................................................ 409
IV Einfhrung in die konometrie

uuu_uuu.uuuuuu.u.u.u.u.u.u.uuu.u.u.u.uu.

417

1. Grundlagen ............................................................................................................ 419


1.1 Was ist Regressionsanalyse? ............................................................................ 419
1.1.1

Ziele der Regressionsanalyse ............................................................. .419

1.1.2

Grundgedanken und Abgrenzungen .................................................. 421

1.2 Das Prinzip der kleinsten Quadrate ............................................................... .422


1.2.1

OLS bei Modellen mit einer erklrenden Variablen .......................... .422

1.2.2

OLS und Linearitl.. ............................................................................. 428

1.2.3

OLS bei Modellen mit mehreren erklrenden Variablen .................. .430

1.2.4

Gte einer geschtzten Regressionsgleichung .................................. .432

XVI

Inhaltsverzeichnis

1.2.4.1

Das Bestimmtheitsma .................................................................. 432

1.2.4.2

Einfacher Korrelationskoeffizient .................................................. 435

1.2.4.3

Angepasstes Bestimmtheitsma ..................................................... 436

2. Das lineare Regressionsmodell und seine Annahmen ........................................ .439


2.1 Das lineare Regressionsmodell ........................................................................ 439
2.1.1

Die Regressionsfunktion der Grundgesamtheit ................................. 439

2.1.2

Die Regressionsfunktion der Stichprobe ............................................ 444

2.2 Klassische Annahmen ...................................................................................... 447


2.2.1

Annahmenkatalog ............................................................................... 447

2.2.2

Bedeutung detenrtinistischer und stochastischer Regressoren ......... .455

2.2.3

Duplikation der Annahmen des CLRM durch OLS ........................... .456

2.3 Statistische Eigenschaften der OLS-Schtzer .................................................. .456


2.3.1

Verteilung der OLS-Schtzer ............................................................... 456

2.3.2

Gau-Markov-Theorem ...................................................................... 460

3. Testen von Hypothesen und Konfidenzintervalle ............................................... .463


3.1 Testen einzelner Regressionsparameter - t-Test.. .......................................... .463
3.1.1
Hypothesen, t-Statistik und Entscheidungsregel... ............................. 463 ,.
3.1.2

Der p-Wert .......................................................................................... 467

3.1.3
3.1.4

Beschrnkungen des t-Tests ............................................................... 468


Konfidenzintervalle fr Regressionsparameter................................... 469 ,.

3.2 Simultanes Testen mehrerer Parameter - F-Test ............................................ .471


3.2.1
Hypothesen, F-Statistik und Entscheidungsregel.. ............................. 471
3.2.2

F-Test fr die Gesamtsignifikanz ....................................................... .472

3.2.3
Weitere Anwendungen des F-Tests und der Chow-Test.. ................ .474
3.3 Test der Normalverteilungsannahme ............................................................. .477 ,.
4. Verletzungen der Annahmen des klassischen Regressionsmodells .................... .481
4.1 Modellspezifikation I: Varlablenwahl .............................................................. 481
4.1.1

Vernachlssigte Variablen ................................................................... 481

4.1.2

berflssige Variablen ........................................................................ 484

4.1.3

Modellspezifikationskriterien und Spezifikationstests ....................... 486

4.1.4

Verzgerte erklrende Variablen ........................................................ 489

4.2 Modellspezifikation II: Funktionale Fonn ...................................................... .492


4.2.1

Bedeutung des konstanten Terms ...................................................... 492

4.2.2

Alternative funktionale Fonnen .......................................................... 494

4.2.2.1

Lineare Fonn .................................................................................. 494

4.2.2.2

Doppel-Log-Fonn ........................................................................... 495

Inhaltsverzeichnis

XVII

4.2.2.3

Semi-Log-Form ............................................................................... 496

4.2.2.4

Polynom-Form ................................................................................ 498

4.2.2.5

Inverse Form .................................................................................. 499

4.2.2.6

Zusammenfassender berblick. .................................................... .500

4.2.3

Dummy-Variablen ............................................................................... 501

4.2.3.1

Achsenabschnitts-Dummies .......................................................... .501 "

4.2.3.2

Steigungs-Dummies ........................................................................ 507

4.2.4

Folgen der Wahl einer falschen funktionalen Form ......................... .509

4.3 Multikollinearitt. .............................................................................................. 511


4.3.1

Formen und Ursachen von Multikollinearitt ..................................... 511

4.3.2

Konsequenzen von Multikollinearitt ................................................. 513

4.3.3

Aufdecken von Multikollinearitt... ..................................................... 514 "

4.3.4

Vorgehensweise bei festgestellter Multikollinearitt ......................... .518

4.4 Heteroskedastizitt .......................................................................................... .524


4.4.1

Formen und Ursachen von Heteroskedastizitt ................................ .524

4.4.2

Konsequenzen von Heteroskedastizitt ............................................. .526

4.4.3

Aufdecken von Heteroskedastizitt ................................................... .528 "

4.4.3.1

Grafische Methode ........................................................................ .528

4.4.3.2

Breusch-Pagan LM-Tes!. ................................................................. 531

White-Test ...................................................................................... 533


4.4.3.3
4.4.4
Vorgehensweise bei festgestellter Heteroskedastizitt.. .................... .536
4.4.4.1

Gewichtetes Prinzip der kleinsten Quadrate (WLS) ..................... .536

4.4.4.2

White Standardfehler...................................................................... 539

4.4.4.3

Variablenredefinition ...................................................................... 541

4.5 Autokorrelation ................................................................................................ 542


4.5.1

Formen und Ursachen von Autokorrelation ...................................... 542

4.5.2

Konsequenzen von Autokorrelation ................................................... 549

4.5.3

Aufdecken von Autokorrelation ......................................................... 551 "

4.5.3.1

Grafische Methode ......................................................................... 551

4.5.3.2

Durbin-Watson d-Test .................................................................... 553

4.5.3.3

Breusch-Godfrey LM-Test ............................................................. .555

4.5.4

Vorgehensweise bei festgestellter Autokorrelation ........................... .557

4.5.4.1

Verallgemeinertes Prinzip der kleinsten Quadrate (GLS) ............. 557

4.5.4.2

Newey-West Standardfehler ........................................................... 561

4.5.4.3

Dynamische Modellformulierung ................................................. .562

4.6 Korrelation zwischen erklrenden Variablen und stochastischem Strlerm .. 564

XVIII

Inhaltsverzeichnis

4.6.1

Konsequenzen .................................................................................... 564

4.6.2

Ursachen ............................................................................................. 565

4.6.2.1

Vernachlssigte Variablen .............................................................. 565

4.6.2.2

Messfehler ...................................................................................... 565

4.6.2.3

Verzgerte endogene Variable ...................................................... 566

4.6.2.4

Simultanitt..................................................................................... 567

4.6.3

Instrurnentenvariablenschtzung ........................................................ 568

4.6.3.1

Instrurnentenvariablen ................................................................... 568

4.6.3.2

Zweistufige Methode der kleinsten Quadrate (TSLS) ................... 570 "-

4.6.3.3

Hausrnan-Test und Verletzung von Annahme 2b ......................... 574

4.6.3.4

Sargan-Test und Gte von Instrwnenten ...................................... 577

4.7 Besonderheiten bei der Arbeit mit Zeitreihen ................................................ 580


4.7.1

Dynamische Modelle .......................................................................... 580

4.7.1.1

Autoregressive distributive Lag-Modelle ....................................... 580

4.7.1.2

Spezialfall: Autoregressive Modelle ............................................... 581 "-

4.7.1.3

Problem der Autokorrelation in ARDL-Modellen .......................... 585


Nichtstationre Zeitreihen und Kointegration .................................... 586

4.7.2
4.7.2.1

Stationaritt vs. Nicht-Stationaritt.. ............................................... 586

4.7.2.2

Random Walks und Unit Roots ..................................................... 587

4.7.2.3

Differenzstationaritt vs. Trendstationaritt.. ................................. 590

4.7.2.4

Scheinregression und ihre Bekmpfung ....................................... 592

4.7.2.5

Priifung auf Stationaritt ................................................................ 596 "-

4.7.2.6

Kointegration und Fehlerkorrekturmodell .................................... 604 "-

4.7.2.7

Zusammenfassung ......................................................................... 609

4.8 Modelle fr die volatilitt.. .............................................................................. 610


4.8.1

Volatillttseigenschaften von Finanzmarktdaten ................................ 610

4.8.2

Historische volatilitt und gleitende Durchschnitte ........................... 613

4.8.3

ARCH- und GARCH-Modelle .............................................................. 616

4.8.3.1

Grundlagen des ARCH-Modells ...................................................... 616

4.8.3.2

Nichtnegativitt, unbedingte Varianz und Stationaritt .................. 618

4.8.3.3

Schtzen von und Prognose mit ARCH-Modellen ......................... 619 "-

4.8.3.4

berprfen von ARCH-Modellen ................................................... 622

4.8.3.5
4.7.3.4

Das GARCH-Modell und das GARCH-in-Mean-Modell .................. 624 "-

4.7.3.5.

Zusammenfassung und Ausblick .................................................... 632

Das asymmetrische ARCH- und GARCH-Modell ............................ 629 "-

5. Zusammenfassende Anwendungen aus dem Finanzbereich ............................... 635

Inhaltsverzeichnis

XIX

5.1 Capital Asset Pricing Model ............................................................................. 635

5.2 Investmentfondsperfonnance .......................................................................... 638

6. Progoose mit geschtzten Regressionsmodellen .................................................. 643


6.1 Grundlagen der Progoose ................................................................................ 643
6.2 Bedingte Prognosen ......................................................................................... 646
6.2.1

Prognosefehler bei bedingten Prognosen .......................................... 646

6.2.2

Beurteilung der Gte von Prognosen ................................................. 649

6.2.3

Prognose bei Vorliegen von Autokorrelation ..................................... 653

6.2.4

Trendprognosen .................................................................................. 656

6.3 Unbedingte Progoosen .................................................................................... 658


6.4 Zusammenfassung ............................................................................................ 660
7. Aufgaben ................................................................................................................ 661
V Lsungen ......................................................................................................... 677

Kapitel I - Deskriptive Statistik ................................................................................. 679


Kapitel II - Wahrscheinlichkeitsrechnung ................................................................ 685
Kapitel III - Induktive Statistik .................................................................................. 695
Kapitel IV - konometrie ......................................................................................... 705
VI Anhang ........................................................................................................... 721

1. Statistische Tafeln ................................................................................................... 723


1.1 Binomialkoeffizienten ...................................................................................... 723
1.2 Binomialverteilung - Verteilungsfunktion ....................................................... 724
1.3 Poissonverteilung - Verteilungsfunktion .......................................................... 731
1.4 Standardnormalverteilung - Verteilungsfunktion ............................................ 734
1.5 Standardnormalverteilung - Wichtige Quantile ............................................... 735
1.6 Chi-Quadrat-Verteilung - Quantile .................................................................. 736
1.7 t-Verteilung - Quantile ..................................................................................... 738
1.8 F-Verteilung - Quantile .................................................................................... 739
2. konometrische Tafeln ......................................................................................... 745
2.1 Kritische Werte der Durbin-Watson-Statistik ................................................... 745
2.2 Kritische Dickey-Fuller t-Werte ........................................................................ 747
Literaturverzeichnis .................................................................................................... 749
Stichwortverzeichnis .................................................................................................. 757

Abbildungsverzeichnis
Abbildung I 1: Deskriptive und induktive Statistik ......................................................... 3
Abbildung I 2: Grundgesamtheit oder Stichprobe und Merkmalstrger ........................ 4
Abbildung I 3: Statistische Maskalen ............................................................................. 6
Abbildung I 4: Stetige und diskrete Merkmale .............................................................. 10
Abbildung I 5: Hufigkeitstabelle ................................................................................... 15
Abbildung I 6: Hufigkeitstabelle bei klassierten Daten ............................................... 22
Abbildung I 7: Histogramme typischer Hufigkeitsverteilungen ................................... 27
Abbildung I 8: Quartile in der Urliste ............................................................................ 28
Abbildung I 9: Statistische Mazahlen ............................................................................ 31
Abbildung I 10: Lageparameter und Skalierung ............................................................ 32
Abbildung I 11: Zusammenhang zwischen stetigen und diskreten Renditen .............. .42
Abbildung I 12: Lageregeln ........................................................................................... .44
Abbildung I 13: Arbeitstabelle zur Varianzberechnung ................................................ .51
Abbildung I 14: Einfacher Box-Whisker-Plot ................................................................. 61
Abbildung I 15: Spezieller Box-Whisker-Plot................................................................. 62
Abbildung I 16: Konstruktion der Lorenz-Kurve ........................................................... 70
Abbildung I 17: Arbeitstabelle zur Berechnung des Gini-KoefflZienten ....................... 75
Abbildung I 18: Streudiagramm ...................................................................................... 82
Abbildung I 19: Kontingenztabelle ................................................................................. 83
Abbildung I 20: Kontingenztabelle mit Randhufigkeiten ............................................. 85
Abbildung I 21: Korrelationsmae und Skalierung ........................................................ 92
Abbildung I 22: Interpretation der Kovarianz ................................................................ 93
Abbildung I 23: Bravais-Pearson-Korrelationskoeffizient und Streudiagramm ............. 98
Abbildung 124: Spearman-Rangkorrelationskoeffizient und Streudiagrarnm ............. l02
Abbildung 125: Kausale versus statistische Zusammenhnge .................................... 108
Abbildung II 1: Teilereignis und quivalente Ereignisse ............................................. 153
Abbildung II 2: Vereinigung und Durchschnitt ........................................................... 154
Abbildung II 3: Disjunkte und komplementre Ereignisse .......................................... 155
Abbildung II 4: Differenz .............................................................................................. 156
Abbildung II 5: Durchschnitte bei der Zerlegung ........................................................ 161
Abbildung II 6: Umenmodel1 ....................................................................................... 169

XXII

Abbildungsverzeichnis

Abbildung II 7: berblick Kombinatorik ..................................................................... 178


Abbildung II 8: Vierfeldertafel.. .................................................................................... 183
Abbildung II 9: Herleitung der totalen Wahrscheinlicbkeit 1.. .................................... 185
Abbildung II 10: Herleitung der totalen Wahrscheinlichkeit II ................................... 186
Abbildung II 11: Zufallsvariablen als Abbildung von n auf die reelle Achse ............ 194
Abbildung II 12: Zusammenhang Wahrscheinlichkeits- und Verteilungsfunktion ..... 201
Abbildung II 13: Verteilungsfunktion einer stetigen Zufallsvariable ........................... 202
Abbildung II 14: Dichtefunktion einer stetigen Zufallsvariable .................................. 204
Abbildung II 15: Zusammenhang Verteilungs- und Dichtefunktion ........................... 207
Abbildung II 16: Symmetrie und Erwartungswert (stetige ZV) ................................... 211
Abbildung II 17: Bestimmung des Median (stetige ZV) .............................................. 220
Abbildung II 18: Ungleichung von Tschebyscheff ...................................................... 222
Abbildung II 19: Gemeinsame Wahrscheinlichkeitsfunktion ...................................... 229
Abbildung II 20: Dichtefunktion der stetigen Gleichverteilung .................................. 263
Abbildung II 21: Verteilungsfunktion der stetigen Gleichverteilung .......................... 264
Abbildung II 22: Dichte- und Verteilungsfunktion der Nonnalverteilung .................. 271
Abbildung II 23: Skizzierte NV-Dichtefunktionen fr verschiedene

CJ ..........

272

Abbildung II 24: Skizzierte NV-Dichtefunktionen fr verschiedene 11. ....................... 272


Abbildung II 25: Dicbtefunktion der Standardnormaiverteilung ................................. 273
Abbildung II 26: Dichtefunktion, Quantile und Intervallwahrscheinlichkeiten.......... 277
Abbildung II 27: Diskrete Verteilungen im berblick ................................................. 284
Abbildung II 28: Stetige Verteilungen im berblick .................................................... 285
Abbildung II 29: Approximationsregeln ausgewhlter Verteilungen .......................... 291
Abbildung III 1: Verteilung des Sticbprobenmittels .................................................... 319
Abbildung III 2: Wichtige Stichprobenverteilungen im berblick .............................. 327
Abbildung III 3: Erwartungstreue und verzerrte Schtzer ........................................... 328
Abbildung III 4: Effizenz .............................................................................................. 330
Abbildung III 5: Dichten einer konsistenten Schtzfunktion fr verschiedene n ...... 331
Abbildung III 6: Vorteilhaftigkeit leicht verzerrter Schtzer ........................................ 332
Abbildung III 7: Wahrscheinlichkeitsintervall .............................................................. 341
Abbildung III 8: Intervallschtzungen fr den Mittelwert ........................................... 342
Abbildung III 9: Konfidenzintervalle im berblick ..................................................... 349
Abbildung III 10: Fehler 1. und 2. Art ......................................................................... 355
Abbildung III 11: Interpretation eines Testergebnisses ............................................... 357
Abbildung III 12: Dichtefunktion von V bei korrekter Nullhypothese a) .................. 360
Abbildung III 13: Dichtefunktion von V bei korrekter Nullhypothese b) .................. 361

Abbildungsverzeichnis

XXIII

Abbildung III 14: Dichtefunktion von V bei korrekter Nullhypothese c) ................... 361
Abbildung III 15: Einstichprobentests den Mittelwert ................................................. 366
Abbildung III 16: berwachungsgrafik zur statistischen Qualittskontrolle ............... 370
Abbildung III 17: Gtefunktion eines unverflschten und eines idealen Tests .......... 386
Abbildung III 18: Gtefunktion vs. OC-Kurve ............................................................. 387
Abbildung III 19: Gtefunktionen beim einfachen Gautest ...................................... 389
Abbildung III 20: Hilfstabelle fr den Chi-Quadrat-Anpassungstest ........................... 391
Abbildung III 21: Kontingenztabelle fr den Chi-Quadrat-Unabhngigkeitstest.. ...... 397
Abbildung III 22: Kontingenztabelle fr den Chi-Quadrat-Homogenittstest ............ .402
Abbildung IV 1: Linearer Zusammenhang zweier Variablen ...................................... .422
Abbildung IV 2: OLS-Schtzung ................................................................................... 423
Abbildung IV 3: Zerleguog der Varianz von Y ........................................................... .433
Abbildung IV 4: Bestimmtheitsma .............................................................................. 434
Abbildung IV 5: Regressionsfunktion der Grundgesamtheit 1.. .................................. .440
Abbildung IV 6: Regressionsfunktion der Grundgesamtheit 11................................... .442
Abbildung IV 7: Wahre und geschtzte Regressionsgerade 1.. ................................... .446
Abbildung IV 8: Wahre und geschtzte Regressionsgerade 11 ................................... .446
Abbildung IV 9: Bedingte Verteilung der

E, ................................................................. 448

Abbildung IV 10: Homoskedastizitt ............................................................................ 450


Abbildung IV 11: Heteroskedastizitt ........................................................................... 451
Abbildung IV 12: Korrelationsmuster des Strtenns ................................................... .452
Abbildung IV 13: Einfluss von Ausreiern auf OLS-Schtzungen .............................. .453
Abbildung IV 14: Veranschaulichung der BLUE-Eigenschaft von OLS ...................... .460
Abbildung IV 15: Vernachlssigung des konstanten Tenns ....................................... .493
Abbildung IV 16: Doppel-Log-Fonn ............................................................................. 496
Abbildung IV 17: Semi-Log-Fonnen ............................................................................. 497
Abbildung IV 18: Inverse Fonn .................................................................................... 500
Abbildung IV 19: Achsenabschnitts-Dummy ................................................................ 502
Abbildung IV 20: Steigungs-Dummies ......................................................................... 508
Abbildung IV 21: Vollkommene vs. unvollkommene Multikollinearitt.. ................... 512
Abbildung IV 22: Homo- vs. Heteroskedastizitt.. ....................................................... 525
Abbildung IV 23: Grafische Aufdeckung von Heteroskedastizitt .............................. 529
Abbildung IV 24: Autokorrelationsfunktionen von AR(1)-Prozessen .......................... 545
Abbildung IV 25: Positive, negative und fehlende Autokorrelation ............................ 546
Abbildung IV 26: Autokorrelationsfunktion AR(1) versus AR(2) ................................. 548
Abbildung IV 27: Autokorrelation des Strtenns und funktionale Fonn .................... 549

XXIV

Abbildungsverzeichnis

Abbildung IV 28: Durbin-Watson d-Test ..................................................................... 554


Abbildung IV 29: Tagesrenditen mit Volatility Clustering ........................................... 611
Abbildung IV 30: Autokorrelogramme von DAX-Renditen ......................................... 612
Abbildung IV 31: Progoosearten (Zeitreihenmodelle) ................................................ 644
Abbildung IV 32: Progoosekonfidenzintervalle ........................................................... 648

Anwendungsverzeichnis
Renditen und Renditedurchschnitte ............................................................................... 40
Schtzung von Aktienvolatilitten .................................................................................. 56
Analyse von Wettbewerbsprozessen und Einkommensvetteilungen ............................ 70
Vor- und nachlaufende Konjunkturindikatoren ............................................................. 99
Inflationsmessung ......................................................................................................... 120
Inflationsbereinigung .................................................................................................... 121
Kaufkraftvergleiche ....................................................................................................... 123
Indizes aus der Wirtscbaftspraxis (vpI, HVPI, DA}{) ................................................... 130
Wettquotienten .............................................................................................................. 167
Das Dreitorespiel .......................................................................................................... 191
Roulette ......................................................................................................................... 224
Portfoliorisiko und Diversifikation ............................................................................... 242
Statistische Qualittskontrolle ....................................................................................... 252
Kreditrisiko .................................................................................................................... 262
Planung von Sticbprobenumfngen ............................................................................. 350
Schtzung von Konsumfunktionen .............................................................................. 464
Schtzung von Produktlonsfunktionen ........................................................................ 470
Erklrung der Lhne arbeitsttiger Frauen ................................................................... 478
Erklrung der Lhne arbeitsttiger Mnner .................................................................. 502
Erklrung von Impottvolumina in Wirtschaftsrumen ................................................ .517
Erklrung von Immobilienpreisen ................................................................................ 530
Schtzung von Nachfragefunktionen ........................................................................... 552
Erklrung der Umlaufsrenditen deutscher Untemehmensanleihen ............................ 583
Untersucbung von Trends in der Goldpreisentwicklung ............................................ 602
Beurteilung des langfristigen Zinseinflusses von Zentralbanken ................................ 605
Beurteilung der langfristigen Beziehung zwischen Geldmarktzinsstzen................. 608
Zeitvariable Volatitlitt von Aktienrenditen .................................................................. 620
Prfung der empirischen Validitt des Capital Asset Pricing Models .......................... 635
Analyse der Performance von Investmentfonds .......................................................... 638
Zinsprognose ................................................................................................................. 651

DESKRIPTIVE STATISTIK

Thema dieses ersten Kapitels ist die Aufbereitung von Zahlenmaterial mittels
Oberschaubarer Tabellenstrukturen, grafischer Abbildungen und aussagekrftiger Kennzahlen. Nach einem Grundlagenabschnitt, in dem wir zunchst
die wichtigsten Grundbegriffe der deskriptiven Statistik klren, befassen wir
uns ausfOhrlich mit sog. eindimensionalen Hufigkeitsverteilungen, die sich
Ober Lage-, Streuungs-, Schiefe- und Konzentrationsparameter charakterisieren lassen. Im Anschluss daran erfolgt die detaillierte Behandlung wichtiger Kennzahlen mehrdimensionaler Hufigkeitsverteilungen.
Den Abschluss des Kapitels zur deskriptiven Statistik bildet die Behandlung
von Preismesszahlen und -indizes. Neben verschiedenen Indextypen und
-berechnungsmethoden stellen wir dabei insbesondere verschiedene in der
Praxis wichtige Indizes zur Abbildung des gesamtwirtschaftlichen Preisniveaus und der Lage auf Finanzmrkten vor.

G ru nd beg riffe

Bevor wir auf statistische Methoden zur Zahlenaufbereitung eingehen, werden wir in
diesem einfhrenden Abschnitt zunchst den Begriff Statistik definieren (1.1) und seine
Teilgebiete kurz erlutern. Darauf folgend klren wir die fr die deskriptive Statistik bedeutenden Begriffe Merkmalstrger, Merkmal, Merkmalsausprgung, Grundgesamtheit
und Stichprobe (1.2) und gehen nher auf Maskalen und andere Kriterien ein, die sich
zur Klassifizierung von Merkmalen verwenden lassen (1.3).

1.1 Der Statistikbegriff


Der Begriff Statistik hat im Allgemeinen keine eindeutig festgelegte Defmition. Er
ist mehrdeutig. Zum einen verstehen wir unter Statistik eine Zusammenstellung

(tabellarisch oder grafisch) von Zahlen und Daten ber bestimmte Sachverhalte.
Typische Beispiele hierfr sind Bevlkerungs- und Umsatzstatistiken. Zum anderen
ist Statistik die Gesamtheit aller Methoden zur Erhebung, Aufbereitung und Analyse
empirischer Infonnationen. Gerade diese Methoden gehren mittlerweile zum unverzichtbaren Instrumentarium vieler Fachwissenschaften wie etwa der Physik, der
Biologie, der Geografie und natrlich der Wirtschaftswissenschaften.
Die Statistik kann in die Teilgebiete deskriptive und induktive Statistik untergliedert
werden (vgl. Abbildung I 1). Die deskriptive Statistik (beschreibende, explorative
Statistik) befasst sich damit, die umfangreichen und unberschaubaren Einzeldaten
statistischer Erhebungen durch mglichst wenige, aussagekrftige Kennzahlen Zu
charakterisieren. Die Aufgabe der induktiven Statistik (schlieende Statistik) ist
der Rckschluss auf eine Grundgesamtheit anhand von Stichproben. Dies ist in der
Praxis von entscheidender Wichtigkeit, da Vollerhebungen im Vergleich zu Teilerhebungen (vgl. Abschnitt 1.2) oft zu kostenintensiv oder einfach unmglich sind.
Statistik
Deskriptive Statistik

Induktive Statistik

Beschreibung und Darstellung von


Daten durch wenige Zahlen oder
Grafiken

Rckschluss auf Grundgesamtheit


aufgrund von Stichproben

z.B.

Schtzen, Testen von Hypothesen,

Mittelwerte, Streuungsmae,

stat. Entscheidungstheorie,
multivariate stat. Methoden

Indexberechnung

Teilgebiete:

Abbildung I 1: Deskriptive und induktive Statistik


B. Auer, H. Rottmann, Statistik und konometrie fr Wirtschaftswissenschaftler,
DOI 10.1007/978-3-658-06439-6_1, Springer Fachmedien Wiesbaden 2015

I Deskriptive Statistik

Als weiteres Teilgebiet knnte die Wahrscheinllcbkeltsrechnung aufgefhrt


werden. Sie wird im Rahmen dieses Lehrbuches als eigenstndiges Kapitel II behandelt. Da sie fr das Verstndnis der Verfahren der induktiven Statistik unerlsslich ist, wird sie hufig in einem Zug mit der induktiven Statistik genannt.

1.2 Merkmalstrger, Grundgesamtheiten und Stichproben


In der Statistik bezeichnen wir die Gegenstnde einer Untersuchung als Merkmalstrger (statistische Einheiten). Die Gesamtheit der Merkmalstrger mit bereinstimmenden Identifikationskriterien (sachlich, rumlich, zeitlich) bzw. die fr eine
statistische Untersuchung relevanten Merkmalstrger bilden die sog. Gnmdgesamtheit (statistische Masse). Jeder Merkmalstrger besitzt gewisse Eigenschaften,
die im Rahmen einer Untersuchung relevant bzw. zu analysieren sind. Diese nennen wir Merkmale. Jedes Merkmal besitzt zwei oder mehr Merkmalsausprgungen (Menge der Ergebnisse), die bei der Beobachtung auftreten knnen. Wird die
Grundgesamtheit bei einer Untersuchung vollstndig erfasst, so sprechen wir von
einer Voll- oder Totalerhebung. Im Gegensatz dazu wird bei einer Tell- oder
Stichprobenerhebung nur ein Bruchteil der Grundgesamtheit nach gewissen Zufallsgesetzen ausgewhlt.
Diese Bezeichnungen sollen anhand von Abbildung I 2 und des konkreten Beispiels I 1-1 veranschaulicht werden.
Grundgesamtheit oder Stichprobe
Merkmalstrger 1

Merkmalstrger 2

Merkmalstrger n

Merkmal 1

Merkmalsausprgung

Merkmal 2

Merkmalsausprgung

...

...

Merkmal rn

Merkmalsausprgung

Merkmal 1

Merkmalsausprgung

Merkmal 2

Merkmalsausprgung

...

...

Merkmal rn

Merkmalsausprgung

Merkmal 1

Merkmalsausprgung

Merkmal 2

Merkmalsausprgung

...

...

Merkmal m

Merkmalsausprgung

Abbildung I 2: Grundgesamtheit oder Stichprobe und Merkmalstrger

1. Grundbegriffe

Beispiel I 1-1

Merkmalsbegriffe

Im Rahmen einer Vollerhebung soll das monatliche Durchschnittseinkommen von bayeri


schen Betriebswirtschaftsstudenten im Jahr 2010 untersucht werden. Dazu werden von
den Hochschulverwaltungen Fragebgen an die Studentinnen und Studenten ausgegeben,
worin Angaben Ober Alter, Geschlecht, Familienstand, Wohnort, Einkommenshhe usw. zu
machen sind. Die vorhergehend definierten Begrifflichkeiten knnen nun folgendermaen
auf dieses BeispielObertragen werden:

Grundgesamtheit: Alle bayerischen (rumliche Identifikation) Betriebswirtschaftsstudenten (sachliche Identifikation) im Jahr 2010 (zeitliche Identifikation)

Merkmalstrger: einzelner Student

Merkmal:

Mgliche Merkmalsausprgungen:

Alter

19,20,21,22,23, ...

Geschlecht

mnnlich, weiblich

Familienstand

ledig, verheiratet

Wohnort

Mnchen, NOrnberg, .. .

Einkommenshhe

300 , 400 , 450 , .. .

Neben realen Gmndgesamtheiten (z.B. Erwerbsttige in Bayern zum 31.12.2008,


herzinfarktbedingte Todesfalle im Jahr 2008, ... ) existieren auch hypothetische
Gmndgesamtheiten (z.B. Menge der Ergebnisse eines fortlaufenden Wrfelspiels,
Geburten bis zum Menschheitsende, ... ). Gerade bei den zuletztgenannten
Grundgesamtheiten, welche auch als unendliche Grundgesamtheiten bezeichnet
werden, ist ausschlielich eine Stichprobenbetrachtung sinnvoll oder mglich.
Nach der zeitlichen Abgrenzung der untersuchten Grundgesamtheit unterscheiden
wir Bestandsgroen (Bestandsmassen) und StronJgren (Bewegungsmassen).
Bestandsgren beziehen sich auf einen bestimmten Zeitpunkt (z.B. Einwohner
Bayerns zum 01.01.2008, Kassenbestand zum 31.12.2008), Stromgren sind in Bezug auf einen Zeitraum definiert (z.B. Geburten in Bayern in 2008, Insolvenzen in
der BRD in 2007). In der statistischen Praxis werden Bestandsgren in der Regel
aus Kostengrnden durch geeignete Stromgren fortgeschrieben. Wir knnen
nmlich den allgemeinen Zusammenhang
Anfangsbestand + Zugnge - Abgnge = Schlussbestand
festhalten, den wir auch als Bestandsgleicbung bezeichnen. In der Bevlkerungsstatistik wird beispielsweise die Wohnbevlkerung nur in greren Abstnden vollstndig erfasst (Volkszhlung) und in den Zwischenjahren durch die Beziehung
Bevlkerung Ende Jahr x = Bevlkerung Ende des Vorjahres + Zugnge im Jahr x
(Geburten, Zuwanderung) - Abgnge im Jahr x (Sterbeflle, Abwanderung) fortgeschrieben. Ein Beispiel fr die Fortschreibung aus der betriebswirschaftlichen Praxis
ist etwa die Emlittlung von Lagerbestnden an einem Stichtag nach der Methode
der laufenden Inventur.

I Deskriptive Statistik

Klassifikation von Merkmalen

1.3
1.3.1

Klassifikation nach dem Skalenniveau

Gerade das Beispiel I 1-1 aus dem vorhergehenden Abschnitt hat gezeigt, dass
jedes Merkmal zwei oder mehr mgliche Ausprgungen besitzen kann. Je nach Alt
des betrachteten Merkmals knnen diese Merkmalsausprgungen anhand verschiedener Skalen gemessen werden. Abbildung I 3 zeigt die zu unterscheidenden Skalen im berblick und gibt auerdem an, welche Rechenoperationen bei der Auswertung mit den Daten sinnvoll durchfhrbar und interpretierbar sind.
Qualitative
Variablen

Quantitative
Variablen

r~

NomJnaJskala

Ordinalskala

* > <

* > < + -

*><+-.

VerhltnJsskala

Kardinalskala
(metrische
Skala)

Abbildung I 3: Statistische Maskalen


Zur Verdeutlichung der in der Grafik dargestellten Sachverhalte betrachten wir nun
die einzelnen Skalen nher und veranschaulichen sie durch geeignete Beispiele:

1. Nominalskala
Die Nominalskala findet bei Merkmalen Anwendung, bei denen die Ausprgungen
lediglich eine Verschiedenartigkeit und keine Reihenfolge ausdrcken. Dies bedeutet, dass die Merkmalsausprgungen gleichberechtigt nebeneinander stehen. Es besteht zwar die Mglichkeit jeder Merkmalsausprgung eine Zahl zuzuordnen, doch
dient eine solche Verschlsselung der reinen Identifikation und nicht einer Rangfolgenbildung.

Beispiel I 1-2

Nominalskalierte Merkmale

Als typische Beispiele !Ur nominalskalierte Merkmale sind etwa die Religionszugehrigkeit
oder das Geschlecht eines Merkmalstrgers zu nennen. Betrachten wir das Merkmal Geschlecht nher, so zeigen sich die Ausprgungen "Mann" und "Frau". Es kann keine Rangfolge gebildet werden, da keine der Ausprgungen eine hhere WertigkeH besitzt. Selbst
wenn man die Verschlsselung "1 = Mann" und "2 = Frau" vornimmt, dienen die Zahlen
nicht der Rangfolgenbildung. Es kann mit und ohne Verschlsselung nur Gleichheit oder
Ungleichheit Oberprft werden. Wir knnen also z.B. sagen, dass zwei Merkmalstrger ein
unterschiedliches Geschlecht aufweisen. Ein "besseres Geschlecht" gibt es nicht.

1. Grundbegriffe

Kann ein Merkmal nur zwei verschiedene Ausprgungen annehmen (z.B. IIMann l1
und "Frau" beim Merkmal "Geschlecht"), sprechen wir auch von einem dichotomen

Merkmal.
2. Ordinalskala
Neben der Verschiedenartigkeit besitzen die Merkmalsausprgungen ordinalskaHerter Merkmale eine natrliche Rangfolge. Das heit, es kann eine "grer als"Beziehung zwischen den Ausprgungen aufgestellt werden. Wichtig ist dabei aber,
dass die Abstnde zwischen den Merkmalsausprgungen nicht quantifizierbar sind.

Beispiel I 1-3

Ordinalskalierte Merkmale

Typische ordinalskalierte Merkmale sind z.B. der Intelligenzgrad, der Tabellenplatz in der
Fuballbundesliga und Schulnoten. Fr das Merkmal Schulnoten zeigen sich z.B. die Ausprgungen 1, 2, 3, 4, 5, 6. Die Noten erfllen das Verschiedenartigkeitskriterium einer
Nominalskala. Zustzlich kann die Aussage gemacht werden, dass z.B. die Note 2 besser
(hherwertiger) ist als die Note 4. Es kann aber nicht geschlossen werden, dass die 1 im
Vergleich zur 2 genau so viel besser ist wie die 4 im Vergleich zur 5. Die Berechnung eines
Notendurchschnitts ist daher streng genommen nur zulssig, wenn wir unterstellen, dass
die Abstnde zwischen den einzelnen Noten gleichartig sind. Nur dann kann eine Durchschnittsnote von 1,5 als genau zwischen 1 und 2 liegend interpretiert werden.
Im Zusammenhang mit Schulnoten und dem Tabellenplatz in der Bundesliga sprechen wir
auch vom Vorliegen einer sog. Rangskala, da es sich um eine Skala handelt, die nur
ganzzahlige Ordnungsziffern aulweist, die mit 1 beginnen und in ununterbrochener Reihenfolge hintereinander stehen.
Wird z.B. in einem Fragebogen die Qualitt einer Lehrveranstaltung evaluiert, so knnten
die Ausprgungen der Qualittsvariablen folgende Gestalt aulweisen:

-2 = sehr niedrig -1

= niedrig 0 = mittelmig +1 = hoch +2 = sehr hoch

Solche Bewertungs- oder Einschtzungsskalen nennen wir auch Rating-Skalen.

3. Intervallskala
Zustzlich zu den Eigenschaften einer Ordinalskala knnen bei intervallskalierten
Merkmalen zwischen den Merkmalsausprgungen Entfernungen oder Abstnde angegeben und sinnvoll verglichen werden. Es existiert kein natrlicher Nullpunkt. Er
ist willkrlich definiert. Zwischen den Merkmalstrgern knnen keine Produkte
oder Quotienten gebildet werden.

Beispiel I 1-4

Intervallskalierte Merkmale

Die Kalenderzeitrechnung und Temperaturen in 'C knnen als intervallskaliert betrachtet


werden. Es kann nmlich z.B. fr das Merkmal Temperatur (von Wasser) zwischen den
Ausprgungen 20' C und 30' C eine Differenz von 10' C festgestellt werden. Dieser Unterschied wird als genau so gro erachtet wie der Unterschied zwischen 50' C und 60' C.
Eine Aussage wie "20' C ist viermal so warm wie 5' C." ist hingegen nicht mglich.

I Deskriptive Statistik

4. Verhltnisskala

Zu den Eigenschaften der Intervallskala kommt bei der Verhltnisskala noch ein
natrlicher Nullpunkt hinzu, wodurch eine Produkt- und Quotientenbildung mglich wird. Dies ist typischerweise bei Skalen zur Lngen-, Mengen- und Gewichtsmessung der Fall.
Beispiel I 1-5

Verhltnisskalierte Merkmale

Alter, Krpergre und Umsatz knnen zu den verhHnisskalierten Merkmalen gezhlt


werden. Es kann nmlich z.8. fr die Ausprgungen 100 und 200 des Merkmals Umsatz ausgesagt werden, dass 200 zweimal so viel ist wie 100 .

Intervall- und Verhltnisskalen werden auch unter den Begriffen Kardinalskalen


oder metrische Skalen zusammengefasst, da ihnen ein Masystem zugrunde liegt.
Mit jedem Skalentyp ist ein eindeutig festgelegtes Informationsniveau verbunden.
In der Praxis kann es nun aber aus verschiedenen Grnden erforderlich sein, eine
Transformation von Merkmalsausprgungen vorzunehmen. Eine solche ist
natrlich nur zulssig, wenn dadurch die in den Skalenwerten ursprnglich enthaltenen Informationen nicht verndert werden (skalenerbaltende Transjonnatlon).
Wrden wir z.B. die Ausprgungen 1, 2, 3, 4, 5 und 6 des Merkmals Schulnote in
10, 20, 30, 40, 50 und 60 transformieren, so wren weiterhin alle Merkmale einer
Ordinalskala erfllt und es wrden keine Informationen verlorengehen. Wrden
wir aber z.B. Zu Krpergren eine gewisse Konstante addieren, so wrde dies zu
Interpretationsfehlem der neuen Gren fhren. Es ist also deutlich zu erkennen,
dass fr jeden Skalentyp nur ganz bestimmte Transformationen mglich sind. Diese
betrachten wir im Folgenden nher:
1. Nominalskala

Hier sind alle Transjonnationen zulssig, unterschiedliche Ausprgungen auf unterschiedliche Ausprgungen und gleiche Ausprgungen auf gleiche Ausprgungen
abbilden. So knnen beispielsweise in einem Produktsortiment Artikel Nr. 321 und
Nr. 322 mit neuen Artikelnummern 2005 und 1998 versehen werden.
2. Ordlnalskala

Zulssig sind hier nur sog. streng monotone Transjonnatlonen. Dies bedeutet, dass
aus jedem Merkmalswert X, mit einer Funktion f(x,) der neue Merkmalswert y, gebildet wird. Die Rangfolge der Merkmalstrger darf sich dadurch nicht verndern.

YI = fex)

wobei

fr alle i

(11: 1)

Als Beispiel kann hier die bereits genannte Schulnotentransformation aufgefhrt


werden. Vor und nach der Transformation y, = lax, ist die Rangfolge identisch.
Alternativ wren hier ebenso Transfonnationen wie Yi ; ; ; Inx j oder Yi ; ; ;
denkbar. Auch bei ihnen bleibt nmlich die Rangfolge erhalten.

rx:

1. Grundbegriffe

3. Intervallskala
Bei intervallskalierten Merkmalen drfen ausschlielich lineare Transformationen
durchgefhrt werden. Dies bedeutet, dass sich die neuen Merkmalswerte y, als
lineare Funktion von X. ergeben.

y, = ax, + b

ntit a > 0

(11: 2)

Nehmen wir etwa an, dass die Ausprgungen 30 C und 40 C des Merkmals Temperatur in 0 F (Fahrenheit) transforntiert werden sollen, so erfolgt dies ber

Yl=32+~XI'
.....
.....
C
.p

was zu den neuen Werten 86 Fund 104 0 F fhrt, welche weiterhin intervallskaliert
sind und keine Informationen eingebt haben.
0

4. Verhltnisskala
Die wohl restriktivsten Transfonnationen sind bei Verhltnisskalen mglich. Es sind
hier nmlich nur sog. hnlIchkeitstransformationen (proportionale Transformationen), d.h. Multiplikationen ntit positiven Konstanten zulssig.
(11: 3)

hnlichkeitstransformationen fmden etwa bei der Umrechnung von Krpergren


Anwendung. Sollen z.B. die Gren 1,60 mund 1,70 m in ern-Werte umgerechnet
werden, erfolgt dies ber die Transfonnation y, = 100x" welche die ern-Werte 160
und 170 liefert. Auch die Umrechnung von DM in Euro ber die gelufige Transformation y, - 1/1,95583 . X. ist eine typische hnlichkeitstransformation.
In Ausnahmefallen kann es erforderlich sein skalensenkende Transformationen

durchzufhren, d.h. solche, die mit einem Infannationsverlust verbunden sind. Da


die von uns behandelten Skalen in der Reihenfolge Verhltnis-, Intervall-, Ordinalund Nominalskala dominant sind, bedeutet dies, dass wir durch Transformationen
mettisch skalierte Merkmale in ordinalskalierte oder nominalskalierte Merkmale
und ordinalskalierte in nominalskalierte Merkmale berfhren knnen. Eine Umkehrung ist nicht mglich, d.h. es gibt keine skalenerhhenden Transfonnationen.

Beispiel I 1-6

Skalensenkende Transformationen

blicherweise werden zur Messung von Krpergren Verhltnisskalen (z.B. Zentimeterskala) eingesetzt. Eine Messung kann jedoch auch auf ordinalem oder nominalem Niveau
erfolgen. So knnen wir z.B. metrische Grenklassen bilden und diese durch eine skalensenkende Transformation ordinal oder nominal abbilden.
Verhltnisskala

(5 Grenklassen)

bis 140 cm
ber 140 bis 160 cm
ber 160 bis 180 cm
ber 180 bis 200 cm
Ober 200 cm

Ordinalskala

(5 GrOenrnge)

1
2
3
4

sehr klein
klein
mittelgro
gro
5 sehr gro

Nominalskala

(2 GrOenklassen)

normgerechte Gr e

(I50 cm bis 190 cm)

2 nicht normgerechte Gr e
(unter 150 oder Ober 190 cm)

10

I Deskriptive Statistik

1.3.2

Klassifikation in diskrete und stetige Merkmale

Neben der Untergliederung bezglich der Skalierung ist die Einteilung in diskrete
und stetige Merkmale von Bedeutung. Wir bezeichnen ein Merkmal als diskret,
wenn es nur endlich viele oder hchstens abzhlbar unendlich viele unterschiedliche Ausprgungen annehmen kann. Allgemein knnen alle nominal- und ordinalskalierten Merkmale als diskret angesehen werden. Auch metrisch skalierte
Merkmale knnen diskret sein, wenn sie nur isolierte Zahlenwerte annehmen. Dies
ist typischerweise der Fall, wenn ihnen ein Zhlvorgang zugrunde liegt.
Beispiel I 1-7

Diskrete Merkmale

Typische diskrete Merkmale sind die Anzahl der Studenten an einer Hochschule oder die
Anzahl der Einwohner eines Landes. Betrachten wir das Merkmal Einwohnerzahl nher, so
sind Ausprgungen von 1 bis n mit nE W mglich. Es knnen also beispielsweise Werte
wie 50 oder 51, aber keine beliebigen Zwischenwerte wie 50,5 o. . auftreten.
Im Gegensatz zu diskreten Merkmalen sprechen wir von stetigen Merkmalen,
wenn in einem bestimmten Intervall jeder beliebige Wert angenommen werden
kann, wobei die Intervallgrenzen auch offen sein knnen. Dies gilt in der Regel fr
Merkmale, denen ein beliebig genauer Messvorgang zugrunde liegt.

Beispiel I 1-8

Stetige Merkmale

Lebensdauern, Lngen, Breiten und Hhen sowie Fllgewichte sind typische stetige
Merkmale. Fr das Beispiel FOligewicht knnen so etwa 5 kg oder 6 kg, aber auch beliebige Zwischenwerte wie 5,1 kg oder 5,25 kg bei einer Messung festgestellt werden.

Hufig werden aus Zweckmigkeitsgrnden bei der Datenauswertung diskrete


Merkmale mit sehr vielen Ausprgungen (z.B. Umstze) als stetig betrachtet. Wir
bezeichnen solche Merkmale als quasistetig. Umgekehrt knnen stetige Merkmale
durch sog. Klassierung (Gruppierung) als diskrete Merkmale behandelt werden
(vgl. Abbildung I 4). Dies ist Z.B. blich, wenn der Datenerhebung nur ein sehr
grober Messvorgang zugrunde liegt. Anstelle des genauen Merkmalswertes wird
nur noch das Intervall angegeben, in welches der Wert fllt. Hierauf werden wir im
Rahmen des Abschnitts I 2 zu Hufigkeitsverteilungen noch genauer eingehen.
Klassierung

Stetiges Merkmal
(Ld.R. Messvorgang)

Diskretes Merkmal
(Ld.R. Zhlvorgang)
Quasistetigkeit

Abbildung I 4: Stetige und diskrete Merkmale

11

1. Grundbegriffe

1.3.3

Klassifikation in qualitative und quantitative Merkmale

Neben den bisherigen Klassifizierungen knnen wir Merkmale auch in qualitative


und quantitative Merkmale unterteilen. Quantitative Merkmale sind Merkmale,
deren Ausprgungen Zahlen sind. Qualitative Merkmale hingegen besitzen in der
Regel Ausprgungen, die durch einen verbalen Ausdruck charakterisiert sind. Dies
bedeutet also, dass nominalskalierte Merkmale als qualitativ und metrisch skalierte
Merkmale als quantitativ zu betrachten sind. Ordinalskalierte Merkmale hingegen
knnen nicht genau zugeordnet werden.
Werden die Ausprgungen qualitativer Merkmale durch Zahlen ersetzt, wird dieser
Vorgang als Quantifizlerung bezeichnet. Aus dem qualitativen Merkmal wird also
(nur uerlich) ein quantitatives. Bei der statistischen Auswertung des Datenmaterials ist jedoch zwischen einem echt quantitativen Merkmal und einem quantifizierten Merkmal zu unterscheiden.
Beispiel I 1-9

Quantitative und quantifizierte Merkmale

Fr das verhltnisskalierte und damit quantitative Merkmal Einkommen liegen nach Befragung zweier Personen die Ausprgungen 1.000 und 3.000 vor. Es kann also ein
Durchschnittseinkommen von 2.000 angegeben werden.
Fr dieselben Personen haben sich die Religionszugehrigkeiten 1 und 3 (vorherige Quantifizierung: 1 = katholisch, 2 = evangelisch, 3 = sonstige) ergeben. Hier von einer "mittleren
Konfession" 2 zu sprechen ware unsinnig. Trotz Quantifizierung bleibt die Religionszugehrigkeit ein nominalskaliertes Merkmal, sodass lediglich Vergleiche der Merkmalsausprgungen zulssig sind.

2.

Eindimensionale
Hufigkeitsverteilungen

Thema dieses Abschnitts ist die Auswertung eindimensionalen (univariaten) Datenmaterials, d.h. Daten zu einem einzigen Merkmal einer Grundgesamtheit oder Stichprobe. Der erste Schritt besteht dabei im Auszhlen von Hufigkeiten, mit der die Ausprgungen des interessierenden Merkmals einzeln oder in Klassen zusammengefasst
auftreten. Dies liefert uns die sog. Hufigkeitsverteilung. In einem zweiten Schritt knnen
wir Mazahlen berechnen, die diese Hufigkeitsverteilung charakterisieren. Mazahlen
geben zwar einen kompakten berblick ber wesentliche Eigenschaften einer Hufigkeitsverteilung, doch lassen sich in grafischen Darstellungen oft Strukuren im Datenmaterial erkennen, die Mazahlen nicht widerspiegeln. Gerade daher empfiehlt es sich, tabellarische und grafische Darstellungen von Hufigkeitsverteilungen mit ihren Mazahlen zu
kombinieren, um das vorliegende Datenmaterial mglichst gut zu beschreiben.

2.1

Hufigkeitsverteilung
Das Auszhlen der Hufigkeiten von Ausprgungen diskreter Merkmale und derer
stetiger (bzw. quasistetiger) Merkmale erfordert unterschiedliche Vorgehensweisen.
Bei diskreten Merkmalen (mit nicht zu vielen unterschiedlichen mglichen Ausprgungen) kommen im auszuwertenden Datenmaterial die einzelnen Ausprgungen
meist mehrmals, d.h. bei mehreren Merkmalstrgem vor. Bei stetigen (und quasistetigen) Merkmalen ist das mehrmalige Auftreten hingegen nicht die Regel.

2.1_1

Hufigkeitsverteilung bei diskreten Merkmalen

In statistischen Erhebungen werden von einer Grundgesamtheit mit insgesamt N

Elementen (Merkmalstrgem) in der Regel genau n Elemente (Stichprobe) hinsichtlich eines einzigen Merkmals X untersucht. Die durch die Stichprobe gewonnenen
Werte ~, ~, ... , ~ bezeichnen wir als Beobachtungswerte. Durch Aneinanderreihung aller Beobachtungswerte erhalten wir die sog. Beobachtungsreihe oder Urliste. Anders ausgedrckt ist die Urliste das n-Tupel (x" x" ... , x,,) aller n Beobachtungswerte.
Zur Aufbereitung dieses Datenbestandes bzw. der Urliste empfiehlt es sich, die
Hufigkeitsverteilung des Merkmals X zu gewinnen. Dazu bentigen wir die absoluten und relativen Hufigkeiten, der in der Urliste vorkommenden individuellen
Merkmalsausprgungen von X. Wir bezeichnen diese Merkmalsausprgungen mit
all a 21 ... , ~, d.h. wir gehen davon aus, dass in der Stichprobe genau k verschiedene Ausprgungen des Merkmals X auftreten und k nicht ZU gro ist. Wir knnen
damit fr die gesuchten Hufigkeiten die folgenden Zusammenhnge festhalten:
B. Auer, H. Rottmann, Statistik und konometrie fr Wirtschaftswissenschaftler,
DOI 10.1007/978-3-658-06439-6_2, Springer Fachmedien Wiesbaden 2015

I Deskriptive Statistik

14

1. Absolute Hufigkeit
Unter der absoluten Hufigkeit h(a,) verstehen wir die Anzahl von Elementen der
Urliste, die auf eine bestimmte Merkmalsausprgung a; entfallen.
Es gilt allgemein
(12: 1)
und
k

h(a,) + h(a,) + ... + h(ak ) = ~>(aj) = n.

1_'

(12: 2)

Der Wert der absoluten Hufigkeit muss also nach (12: 1) zwingend grer oder
gleich Null und kleiner oder gleich der Gesamtzahl n der Elemente der Urliste sein.
Zudem ergibt nach (12: 2) die Summe aller absoluten Hufigkeiten stets n.
2. Relative Hufigkeit
Dividieren wir die absoluten Hufigkeiten h(a,) durch die Gesamtzahl der Elemente
n, so erhalten wir die relative Hufigkeit

f(a.) = h(a j )
J

(12: 3)

fr die
(12: 4)
und
k

f(a,) + f(a,) + ... + f(a,) = Lf(aj) = 1

1_'

(12: 5)

gilt. Da die relative Hufigkeit f(a,) nichts anderes angibt als den Anteil, mit dem a,
in der Stichprobe des Umfangs n vertreten ist, liegt f(a,) nach (12: 4) logischerweise
stets zwischen 0 und 1 oder stimmt mit diesen Werten berein. Zudem muss die
Summe aller Anteilswerte zwingend 1 ergeben, was (12: 5) zum Ausdruck bringt.
Relative Hufigkeiten werden hufig auch in Prozent angegeben. Ihre Summe liegt
dann bei 100 %.
Unter der absoluten HufigkeitsverteiIung verstehen wir nun nichts anderes als
die Paare (a" h(a~) mit j - 1,2, ... ,k und unter der relativen Hugkeitsvertellung
die Paare (al' f(a~) mit j = 1,2, ... ,k. Die einzelnen Merkmalsausprgungen aj werden

in einer Hufigkeitsverteilung meist zur besseren bersicht in aufsteigender Reihen-

folge sortiert.
Hufigkeitsverteilungen knnen wir bersichtlich in Fonn von Hujlgkeitstabellen
darstellen. Es empfiehlt sich dabei die Verwendung der in Abbildung I 5 skizzierten
Struktur. Wir erkennen daran recht schn, dass die Eigenschaften (12: 2) und (12: 5)
von absoluten und relativen Hufigkeiten hier als Spaltensummen berprfbar
sind. Fr eine anschauliche Tabellengestaltung empfiehlt es sich, mit mglichst
wenig Linierungen zu arbeiten, um die Tabelle optisch nicht zu berfrachten.

15

2. Eindimensionale Hlufigkeitsverteilungen

Laufende

ausprgung

HufIgkeit

absolute

relative
Hufigkeit

hCa,)

Merlanal>-

N~

h(a\)

"
"

hCa,)

fCa,)
fCa,)
fCa,)

a,.

hCa,)

fCa,)

Abbildung I 5: Hufigkeitstabelle

Bel.plell 2-1

Tabellarische Darstellung einer Hufigkeilsverteilung

Anlsslich einer Mitarbeiterstatistik wurde in einer Abteilung eines Unternehmens das Aller
X von n _ 25 Mitarbeitern erfasst. Dabei ergab sich die folgende Urliste:
XI In Jahren

23
25
23
29

1
2

3
4

5
6
7
8
9

10

XI In Jahren

11

12
13
14

35

25
23
25
29

I.

23
25
29
25
29
25
23

15

16

17

20
21
22
23
24
25

35

XI In Jahren

35

25
23

35

25
29
25

25

18

Wir erkennen daran, dass in der Stichprobe lediglich die k '" 4 Ausprgungen 23, 25, 29
und 35 des Merkmals X auftauchen. Durch Auszhlung dieser Ausprgungen erhatten wir
die absoluten Hufigkeiten. Diese liefern dividiert durch n - 25 schlielich die relativen
Hufigkeitsn. Wir kOnnen damit die Hufigkeitsverteilung tabellarisch wie folgt darstellen:
Laufende
Nummer
j

1
2
3
4

Merkmalsausprgung

a,
23
25
29
35

Absolute
Hufigkeit
h(~)

6
10
5
4
25

Relative
Hufigkeit

f(a,

0,24

0,40
0,20
0\16

Prozentwert

100 %. f(aJ

24%
40%
20%
16%

100%

Alternativ zur Hufigkeitstabelle kann die Darstellung der absoluten und relativen
Hufigkeitsverteilung auch grafisch in Form eines Piktogranunes, Stab- oder Sulendiagrammes, Hufigkeitspolygons oder Kreissektorendiagrammes erfolgen. Auch
wenn sich in der Praxis berwiegend das Sulendiagramm durchgesetzt hat, wollen
wir im Folgenden dennoch alle Mglichkeiten kurz betrachten:

I Deskriptive Statistik

16
1. PIkIogramm

Wie die Diagrammbezeichnung schon verrt, erfolgt eine Darstellung der Huftgkeiten durch unterschiedliche Anzahl oder Gre von Bildsymbolen.
2. Stobdlogromm
Ein Stabdiagramm (hhenproportionale Darstellung) entsteht durch Eintragung von
Punkten P(al'h(a j )) oder P(al'f(aj )) in ein Koordinatensystem, wobei jeder Punkt
durch eine Senkrechte mit der x-Achse bzw. ~-Achse verbunden wird. Die Lngen
dieser Senkrechten (Stbe) entsprechen daher den absoluten bzw. relativen Hu-

figkeiten. Werden relative Hufigkeiten abgetragen, so muss die Gesamdnge aller


Stbe zusammen gleich 1 sein. Wir knnen daher bei Stabdiagrammen fr relative
Hufigkeiten immer den gleichen Mastab auf der y-Achse whlen. Dies bietet sich
insbesondere beim Vergleich der Ergebnisse mehrerer Stichproben an.
3. HlJ'gkeltspolygon

Wie bei der Konstruktion eines Stabdiagrammes werden hier zunchst entweder
die Punkte P(al'h(aj )) oder P(apf(a j )) in ein Koordinatensystem eingetragen. Im
Anschluss daran werden diese durch Geraden verbunden.

4. Snlendfagramm
Im Vergleich zum Stabdiagramm werden beim Sulendiagramm (flchenproportionale Darstellung) die Hufigkeiten durch Flchen (Rechtecke) und nicht durch
Strecken abgebildet. Um eine Verwechslung mit einem Histogramm (vgl. Abschnitt
I 2.1.3) ZU vermeiden, ist ZU beachten, dass die Rechtecke nicht aneinanderstoen.

5. Kreblscktore~
Hier wird zu jeder Merkmalsausprgung ar ein Kreissektor gebildet, wobei die
Flchen der Sektoren und damit auch die Innenwinkel proportional ZU den Hufigkeiten gewhlt werden. Dazu muss fO.t den Innenwinkel ~ des j-ten Sektors

a j = 3600 ((a j )

Bit

(12: 6)

gelten. Kreissektorendiagranune eignen sich besonders gut fr nominalskalierte


Merkmale, da hier die Merkmalsausprgungen nicht auf einem Zahlenstrahl abgetragen werden mssen und somit aufgrund ihrer Anordnung nicht flschlicherweise
eine Rangfolge vermutet wird.

Beispiel I 2-2

Grafische Darstellung einer HAuflgkeltsvenellung

Eine Untersuchung aber die Industriesektorenzugehrigkeit von Untemehmen in einer bestimmten Region liefene das Ergebnis, dass 25 % der Unternehmen zum primren (P),
25 % zum sekundren (S) und 50 % zum teniAren Sektor (1) zahlen. Auch wenn bei einem
deranig einfach Oberschaubaren Resultat eigentlich keine grafische Darstellung erforderlich ist, wollen wir dieses einfache Beispiel im Folgenden dazu nutzen, die vorhergehend
beschriebenen Darstellungsformen zu veranschaulichen:

1. Piktogramm:
00000

Primrer Sektor

oee@e
o@o@o@ooo@

TenlArer Sektor

SekundArer Sektor

2. Eindimensionale Hufigkeitsverteilungen

17

Zur Konstruktion von Stab- und Sulendiagramm sowie des Hufigkeitspolygons im


Koordinatensystem bentigen wir die Punkte
P,{P; 0,25}

P2{S; 0,25}

PatT; 0,50}.

Wir erkennen daran, dass in derartigen grafischen Darstellungen nicht zwangslufig Zahlenwerte auf der x-Achse abgetragen werden mssen.

2. Stabdiagramm:

0,50

0,25

3. Hufigkeitspolygon:

4. Sulandiagramm:
f{a j }

0,50

0,25

,--

aJ

18

I Deskriptive Statistik
5. Kreissektorendiagramm:
Winkelberechnung:

= 360 f(a,l = 3600,25 = 90


", = 360 f(a,l = 3600,25 = 90
", =360f(a,l = 3600,50 = 180
IX,

2.1.2

Empirische Verteilungsfunktion bei diskreten Merkmalen

Ist ein Merkmal X ordlnal- oder metrisch skallert, dann unterliegen seine Merkmalsausprgungen a, einer Rangordnung. Es ist hier (nur hier) sinnvoll, die absoluten und relativen Hufigkeiten in aufsteigender Reihenfolge der a, zu summieren.
Durch fortlaufende Aufsummierung (Kumulierung) der absoluten Hufigkeiten
einer Huftgkeitsverteilung mit a, < a, < ... < a k lassen sich sog. absolute Summenhufigkeiten oder kumulierte absolute Hufigkeiten
H(x) = H(X S x) = ~>(al)

(12: 7)

i(SX

ermitteln, wobei H(x) die Anzahl jener Merkmalstrger angibt, welche einen Merkmalswert besitzen, der hchstens (kleiner oder gleich) x betrgt. Falls x genau
einem der a, entspricht, sind also lediglich die absoluten Hufigkeiten bis ZU dieser
Ausprgung a, aufzusummieren, d.h. H(a~ = h(a,) + h(a,) + ... + h(a~. Die ungewhnliche Summenschreibweise in (12: 7) wird verwendet, da x auch Werte annehmen kann, fr die kein a, existiert. In einem solchen Fall werden die absoluten
Hufigkeiten aufsummiert, die ZU Merkmalswerten a, gehren, die kleiner als x
sind.
Analog lassen sich sog. relative Summenhufigkeiten oder kumulierte relative Hufigkeiten ermitteln. Fr diese gilt
F(x) = F(X S x) =

L f(a l) ,
J

(12: 8)

~<I

wobei F(x) den Anteil der Merkmalstrger angibt, welche einen Merkmalswert aufweisen, der hchstens x betrgt. Alternativ kann die Bestimmung von F(x) auch
ber den Zusammenhang
F(x) = H(x)
n

(12: 9)

erfolgen. Wir bezeichnen (12: 8) auch als empirische Vertellungsfunktion. Da


fr die Hufigkeitsverteilung a1 < a2 < ... < ak gilt, ist der Funktionswert fr ein
jedes x, welches kleiner als a, ausfllt, unweigerlich Null. Es gibt schlielich keine
Merkmalstrger, die eine Merkmalsausprgung aufweisen, die kleiner als a, ist, da
dies bereits der kleinste Wert im Datensatz ist. Der Funktionswert fr ein jedes beliebiges x, das ber dem grten Merkmalswert a. liegt, ist gleich 1. Der Anteil der-

19

2. Eindimensionale Hlufigkeitsverteilungen

jeniger Merkmalstrger, die eine Merkmalsausprgung von weniger als x aufweisen,


ist schlielich 100 %. Wir knnen also zusammenfassend festhalten, dass die empirische Verteilungsfunktion beschrnkt ist, d.h. 0 :S F(x) :S 1 gilt. Wegen f(~ ~ 0 gilt
auerdem F(a) S ... S F(a) S ... S F(a.,), d.h. die empirische Verteilungsfunktion ist
monoton steigend. Wie wir im Beispiel I 2-3 sehen werden, hat sie auerdem
grafisch die Gestalt einer Treppcnfunktlon, welche bei jedem ~ eine Sprungstelle
mit einem Sprung in der Hhe von f(a;> aufweist.
Bei vorliegenden kumulierten absoluten oder relativen Hufigkeiten knnen wir
natrlich unmittelbar wieder auf die Einzelhufigkeiten schlieen. Es gelten nmlich die Zusammenhnge
und

Beispiel I 2-3

Empirische Verteilungslunktion

In 100 Filialen einer Buchhandlung wurden an einem bestimmten Tag entweder 0, 1, 2


oder 3 Exemplare (Ausprl.gungen des Merkmals Absatzzahl) eines bestimmten Buches
verkauft. Die resultierende Hiufigkeitstabelle, die uns die Huligkeit (absolut und relativ)
der Filialen angibt, in denen es zu den jeweiligen Verkaufszahlen kam, zeigt sich wie folgt:

j
1
2
3
4

h(a,
10
40
20
30
100

a,
0
1
2
3

I(al
0,10
0,40
0,20
0,30
1,00

Ennitteln wir nun zunA.chst die absoluten und relativen kumulierten Hlufigkeiten:

j
1
2
3

IIJ
0
1
2
3

h(IIJ)
10
40
20
30
100

H(IIJ)
10
50
70
100

+-

j
1
2
3
4

1(1IJl
0,10
0,40
0,20
0,30
1,00

F(al
0,10
0,50
0,70
1100

+-

0
1
2
3

Berechnung
h(O)
h(O) + h(1)
h(O) + h(1) + h(2)
h(O) + h(l) + h(2) + h(3)
Berechnung
1(0)
1(0) + 1(1)
1(0) + 1(1) + 1(2)
1(0) + 1(1) + 1(2) + 1(3)

Zur besseren Veranschaulichung der Berechnung einzelner kumulierter Hufigkeiten wollen wir diese nun noch einmal fOr den Wert F(2) Im Detail darlegen:
F(2) - 1(0)+1(1)+1(2) - 0,1+0,4+0,2 - 0,7

oder altemativ

F(2) -

H~2) - 1~~ - 0,7

20

I Deskriptive Statistik
Soll nun beispielsweise der Wert von f(l} aus den relativen kumulierten Hufigkeiten errechnet werden, kann dies wie folgt geschehen:
f(l} = F(I}-F(O} = 0,50-0,10 = 0,40
Wie wir gleich sehen werden, lsst sich dieser Wert auch aus der grafischen Darstellung
der empirischen Verteilungsfunktion ablesen, da in dieser die Sprung hhe zwischen einzelnen Treppenstufen an einer Stelle aj jeweils den zugehrigen Wert f(a~ angibt. Fr die
grafische Konstruktion der empirischen Verteilungsfunktion tragen wir lediglich die Punkte
P(aj, F(a~} in ein Koordinatensystem ein und versehen diese mit Unienzgen:
F(a j }

1,00
0,75

0,50

0,25

Auch die konkrete Funktionsschreibweise der empirischen Verteilungsfunktion knnen wir


angeben. Auerdem knnen wir das in absoluten kumulierten Hufigkeiten formulierte Gegenstck zur empirischen Verteilungsfunktion bestimmen:
0
fr
0,10

x<O
OS x <I

F(x} = 0,50
0,70

I S x <2
2Sx<3

1,00

x2:3

0
10
H(x} =

fr

x<O

oSx <I

50
70

ISx<2
2Sx<3

100

x2:3

Beantworten wir nun mittels dieser beiden Funktionen folgende Fragen:


a}

In wie viel Prozent der Filialen wurden hchstens 2 Bucher verkauft?


Die Antwort auf diese Fragestellung kann direkt als F(2} = 0,70 bzw. als 70 % angegeben werden.

b}

In wie vielen Filialen wurde mindestens I Buch verkauft?


Hier knnen wir die Beziehung n - H(O} = 100 - I 0 = 90 nutzen, d.h. wir subtrahieren
von der Gesamtzahl der Filialen die Anzahl derjeniger Filialen, in denen kein Buch verkauft wurde.

2. Eindimensionale Hufigkeitsverteilungen

2.1.3

21

Klassierte Hufigkeitsverteilung bei stetigen Merkmalen

Liegt ein stetiges (oder quasistetiges) Merkmal X vor, so taucht das Problem auf,
dass die Elemente der Urliste hufig alle voneinander verschieden sind. Das Aufstellen einer "regulren" Hufigkeitstabelle des im Abschnitt I 2.1.1 vorgestellten
Typs bietet hier keinen Infonnationsgewinn, da die meisten Merkmalsausprgungen nur einmal vorkommen. Es empfiehlt sich in einem solchen Fall, die Auspr-

gungen von X in der Stichprobe in k Klassen K; Ci - 1,2, ... , k) einzuteilen und die
zugehrigen Klassenhufigkeiten zu ermitteln. Die absolute KlassenhufIgkeit 11,
ist dabei die Anzahl derjeniger Elemente, deren Merkmalswerte in die Klasse K; fallen. Wir knnen also sagen, dass hier die Klassen

die Rolle der aj aus der "regu-

lren" Hufigkeitstabelle bernehmen. Die relativen Klassenhuflgkeiten


geben sich wieder ber

h
~ =--.L

er-

(12: 12)

und weisen damit die gleichen Eigenschaften wie in (12: 4) und (12: 5) auf. Auch
fr die h, gelten (12: 1) und (12: 2) analog. Zudem sei erwhnt, dass wir auch
kumulierte Klassenhufigkeiten gem der unter I 2.1.2 beschriebenen Vorgehensweise bestimmen knnen.

Wieviele Klassen sinnvollerweise gebildet werden sollten, kann aus DIN 55302
(Blatt 1) entnommen werden. Hier fmden sich unter anderem die Empfehlungen
bei Stichprobenumfngen n von 100, 1.000 und 10.000 eine Anzahl von 10, 13
bzw. 16 Klassen zu whlen. Natrlich kann aus Grnden der bersichtlichkeit der
Darstellung auch bereits bei geringerem n eine Klassierung vorgenommen werden.

Auerdem kann aufgrund des Untersuchungsobjekts auch eine andere Klassenanzahl geeigneter erscheinen.
Um Probleme bei der Zuordnung einzelner Merkmalswerte zu den Klassen zu ver-

meiden, empfiehlt es sich die Klassen K; in der Form aj < x:s; aj bzw. Jaj, ajl Zu
definieren. Jede Klasse K; ist damit gekennzeichnet durch eine Klassenuntergrenze aj und eine Klassenobergrenze aj. Da die einzelnen Klassen direkt ineinander bergehen, entspricht bei k Klassen die Untergrenze einer Klasse jeweils
der Obergrenze der vorhergehenden Klasse.

Ci = 2,3, ... ,k)

(12: 13)

Die Untergrenze der ersten Klasse knnen wir anhand des kleinsten Merkmalswerts

der Stichprobe whlen. Hufig wird sie auch auf Null gesetzt. Die letzte Klasse Kk
besitzt hufig eine Form a~ < x < 00 bzw. Ja~, oo[ und wird als offene Randklasse
bezeichnet. Dies bedeutet, dass in diese Klasse alle Merkmalsausprgungen fallen,
die grer als a~ sind.
Die sog. Klassenbreite Aa j der j-ten Klasse, die nach Mglichkeit durchgehend
einheitlich (konstant) gestaltet werden sollte, ist (auer fr offene Randklassen) als

Ci = 1,2, ... ,k)

(12: 14)

definiert. Bei der Wahl konstanter Klassenbreiten sind jedoch hufig manche Klas-

sen sehr schwach besetzt. Dies trifft vor allem auf die Randklassen zu. Dann ist es
evtl. sinnvoll, diese Klassen breiter zu whlen.

I Deskriptive Statistik

22

Besonders fr die im Kapitel I 2.2 behandelnden Messzahlen ist es von entscheidender Wichtigkeit, jeder Klasse ~ einen reprsentativen Zahlenwert zuzuordnen.
Dazu bietet sich die K1assen mJtte aj an, fr welche (auer bei offen Randklassen) folgendes gilt:
u
aM
J =.!Ca
2 J

+aO)
J

C'J= 1,2, ... , k)

Die Kombination der Klassen ~ mit ihren Klassenhufigkeiten ~ bzw. ~ bildet die
JdassJertc lIiufigkc:ltsve des Merkmals X. Wieder haben wir die Mglichkeit einer tabellarischen Darstellung. Abbildung I 6 veranschaulicht eine typische klassierte Hufigkeitstabelle.
Klassenn""""",

"""'"

Klassenbreite

Klassenmltte

ber aj' bis aj

a"

K,

absolute

relative

h,

~
~

"""oen- hufigkeit
"""oenhufigkeit

1a~. a~]

da,
da,

Ja~, a~]

Aa,

a",

h,
h,

~_I' a~]

Aa,

a"

h,

f,

a",

l:

Abbildung I 6: Hufigkeitstabelle bei klassierten Daten

Bit

Beispiel I 2-4

Hiiufigkeitstabelle bei klassierten Daten

Nehmen wir an, eine Erhebung in 47 amerikanischen Staaten ergab folgende Anzahlen
polizeilich gemeldeter Straftaten bezogen auf 100.000 Einwohner:

79,3 163,4 57,8 196,1 123,5 68,1 96,3 155,8 85,3 70,9 167,4 84,8 51,2 66,4 79,1
94,3 53,1 92,475,1 122,574,843,3 121,996,552,7 199,1 34,2 121,6 104,569,3

37,775,9 107,2 92,4 65,1 127,683,356,582,8 115,888,1 54,282,4 103,0 44,5


50,8 84,9
Eine erste Untersuchung des Datenmaterials zeigt, dass die kleinste KriminalitAtsrate bei
34,2 und die grte bei 199,1 liegt. Die Mehrzahl der Staaten verzeichnete Kriminalitiilsraten im Bereich von 50 bis 120. Um sich einen genaueren berblick. zu verschaffen, bietet
sich hier die Aufstellung einer klassierten Hufigkeitstabelle mit Klassenbreiten von 25 an.
Da dabei die entstehende untere Randklasse jedoch nicht besetzt wre, verdoppeln wir
diese und erhalten damit folgende Tabelle (Achtung: Rundungsungenauigkeiten bei relativen Haufigkeitenl):

2. Eindimensionale Hufigkeitsverteilungen

Nr.

Klasse K;

Klassenhufigkeit

Kumulierte
Klassenhufigkeit

absolut

relativ

absolut

hJ

fJ

4
13
16
8
1
5
47

0,09
0,28
0,34
0,17
0,02
0,11
1,00

ber aj bis a;
1
2
3
4
5
6
1:

23

0-50
50 -75
75 - 100
100 - 125
125 - 150
> 150

Klassenbreite

Klassenmitte

aaj

aIm

50
25
25
25
25

25
62,5
87,5
112,5
137,5

relativ

4
17
33
41
42
47

0,09
0,37
0,71
0,88
0,90
1,00

Die grafische Darstellung einer Hufigkeitsverteilung klassierter Daten erfolgt durch


ein sog. Histogramm. Als Darstellungsmittel dienen hier Rechtecke, die ber den
jeweiligen x-Achsen-Abschnitten der Klassen gezeichnet werden. Die Grundlinien
der Rechtecke entsprechen somit den Klassenbreiten. Anders als beim Sulendiagramm fr unklassierte Daten ist es hier nicht sinnvoll, die Hhe der Rechtecke als
Ma fr die Hufigkeiten zu whlen. Bei ungleichen Klassenbreiten entsfnde ein
falscher Eindruck von der Hufigkeitsverteilung.
Der Betrachter eines Histogramms orientiert sich beim Vergleich der Gre zweier

Rechtecke nicht an ihrer Hhe, sondern an ihrem Flcheninhalt. Die Hhe der
Rechtecke ist deshalb so zu whlen, dass ihr jeweiliger Flcheninhalt proportional
zur Klassenhufigkeit ist. Dies wird erreicht, indem als Hhe der Rechtecke die
sog. normierten absoluten oder normierten relativen Klassenhufigkeiten h; bzw.
~. verwendet werden. Diese ergeben sich zu
h
h J =-'

aaJ

bzw.

=-'-

aal

Cj=1,2, ... ,k).

(12: 16)

Liegen einem Histogramm normierte absolute Klassenhufigkeiten zugrunde, ist die


Gesamtflche aller Rechtecke H = n, im Falle nonnierter relativer Klassenhufigkeiten ist sie F - 1. Es gilt nmlich
k
k h
H = "'h:
aa.J = "'_I
aa.J =n
~ J
~A.~
1"'1

j_1 i l a j

bzw.

k
k
f
F = '"
f' . aa.J = L..
'" _I
. aa.J = 1.
~ J
A..~

1..1

)..1 Ui:L j

Da im Histogramm relativer Hufigkeiten unabhngig vom Stichprobenumfang n


die Flche immer auf 1 normiert ist, eignet sich dieses insbesondere beim Vergleich
verschiedener Datenstze mit unterschiedlichen Stichprobenumfangen. Wir bezeichnen die normierten relativen K.lassenhufigkeiten auch als Hufigkeitsdichten.
Beispiel I 2-5

Histogramm

Fr 200 Unternehmen einer Region wurden jeweils die Mitarbeiterzahlen erfasst, dafr
Klassen unterschiedlicher Breiten gebildet und die jeweiligen Hufigkeiten ausgezhlt. Die
Ergebnisse sind in nachfolgender Tabelle zu sehen. Darin sind auerdem bereits die normierten absoluten und relativen Klassenhufigkeiten berechnet, die wir zur Konstruktion
der Histogramme bentigen. Die Berechnungen bereiten hier keine sonderlichen Schwie-

24

I Deskriptive Statistik
rigkeiten. Wre jedoch eine offene Randklasse enthalten, so knnten wir keine Klassenbreite und damit auch keine normierten Klassenhufigkeiten fr unser Histogramm
bestimmen. In einem solchen Fall behelfen wir uns in der Praxis meist damit, einen knstlichen Hchstwert fOr die Klasse festzulegen, der sich am grten Wert der Stichprobe
orientieren kann.
Nr.

1
2
3
4
5

Klasse K;

Klassenbreite

Klassenhufigkeit
absolut

relativ

ber ai bis aj

hl

fl

1-2
2-5
5 -10
10 - 20
20 - 40

40
60
30
30
60
200

0,20
0,30
0,15
0,15
0,20
1,00

Normierte
Klassenhufigkeit
absolut

relativ

MI

h'

1
3
5
10
20

40
20
6
3
2

0,200
0,100
0,030
0,015
0,100

Wir erhalten aus diesem Datenmaterial folgende Histogramme:

fI

h'
I

40

0,2

20

0,1

10

20

40

30

10

MitarbeitelZahl

20

30

40

MitarbeitelZahl

Htten wir nur ein Sulendiagramm konstruiert, welches als Sulenhhen die nichtnormierten relativen Hufigkeiten verwendet, so wiirden wir ein vllig anderes Bild von der Hufigkeitsverteilung vermitteln:

fl

0,4
0,2
O'-------------~

]1,2]

]2,5]

]5,10]

]10,20] ]20,40]

MitarbeitelZahl
In der Praxis werden Histogramme gelegentlich auf sog. Hiiufigkeitspolygone reduziert.
Solche erhalten wir durch Verbinden der Mittelpunkte der oberen Sulenseiten. Sie kommen insbesondere dann zum Einsatz, wenn in einer Grafik verschiedene Haufigkeitsverteilungen miteinander verglichen werden sollen. Im hier vorliegenden Fall htte das
Hufigkeitspolygon folgende Gestalt:

2. Eindimensionale Hufigkeitsverteilungen

25

f1
0,2

0, 1

.~

~,

\-

..
Mitarbeiterzahl

Zur Interpretation eines Histogramms:


Im vorliegenden Beispiel ist eine recht einfache Interpretation des Histogramms mglich.
Das zugrunde liegende Merkmal X (Mitarbeiteranzahl) ist diskret und kann nur natUr/iche
Zahlen 1,2,3, ... als Ausprgungen annehmen. Whlen wir auf der x-Achse des Histogramms einen beliebigen ganzzahligen Wert wie z.B. 15, kann auf der y-Achse eine dazugehrige Hufigkeitsdichte abgelesen werden. Diese ist interpretierbar als diejenige Hufigkeit, die wir beim Auszhlen der unklassierten Daten erhalten htten, wenn die beobachteten Werte innerhalb der Klassen vollstndig gleichmig verteilt wren. Eine solche
Interpretation ist allerdings unzulssig, wenn ein Merkmal vorliegt, das auch nichtganzzahlige Werte annehmen kann. Dies gilt insbesondere fOr stetige Merkmale. Auch wenn wir
ein diskretes Merkmal mit nur natOrlichen Zahlen als Ausprgung vorliegen haben, werden
wir in der Praxis von der hier geschilderten Interpretation Abstand halten, da in der Mehrzahl der Flle nicht davon ausgegangen werden kann, dass eine Gleichverteilung innerhalb der Klassen gegeben ist.

Analog zu "regulren" Hufigkeitsverteilungen knnen wir auch fr klassierte Daten


eine empirische Venellungifunktlon bestimmen und skizzieren. Es bernehmen ja,
wie bereits angemerkt, die Klassen K, die Rolle der a,.
Beispiel I 2-6

Empirische Verteilungsfunktion bei klassierten Daten

Skizzieren wir fOr unser Beispiel I 2-5 die empirische Verteilungsfunktion. Wir bentigen
dazu zunchst die kumulierten relativen Klassenhufigkeiten Fj, die wir in der folgenden
Tabelle bestimmen:

ber a~ bis af
1
2
3
4
5
E

1-2
2-5
5 -10
10 - 20
20 - 40

fl

F1

0,20
0,30
0,15
0,15
0,20
1,00

0,20
0,50
0,65
0,80
1,00

Die empirische Verteilungsfunktion erhalten wir damit grafisch wie folgl. Die Sprung hOhen
sind nun relative Klassenhufigkeiten IJ.

26

I Deskriptive Statistik

FJ

1,0
0,8

............

0,6

0,4
0,2

10

20

30

40

Mitarbeiterzahl

In der Literatur fmdet sich auerdem gelegentlich der Vorschlag die empirische
Verteilungsfunktion klassierter Daten durch ein sog. Summenpolygon abzubilden.
Dazu werden die Punkte P(a~, FJ), d.h. die Klassenobergrenzen mit zugehrigem
kumulierten relativen Klassenhufigkeitswert, in ein Koordinatensystem eingetra-

gen. Unter der Annahme, dass die Elemente innerhalb einer Klasse gleichmig
verteilt sind, drren diese Punkte linear miteinander verbunden werden. Der so

entstehende stetige Graf heit schlielich Summenpolygon.


Beispiel 12-7

Summenpolygon

Das Summenpolygon zu Beispiel I 2-5 bzw. I 2-6 hat folgende Gestalt:

1,0
0,8
0,6
0,4
0,2

10

20

30

40

Mitarbeiterzahl

2.1_4

Typische Hufigkeitsverteilungen

Bei der Beschreibung von Datenmaterial mittels tabellarischer oder grafischer


Hilfsmittel finden sich intmer wieder typische Formen von Hufigkeitsverteilungen.
Wichtige Charakteristika dieser Sttukturen sind z.B. die Anzahl der Gipfel, die Symmetrie und die Streuung. Wir unterscheiden

2. Eindimensionale Hufigkeitsverteilungen

27

nach Anzahl der Gipfel:


Verteilungen ohne Gipfel (z.B. Gleichverteilung)
Verteilungen mit einem Gipfel (unimodiale Verteilungen)
Verteilungen mit mehreren Gipfeln (multimodiale Verteilungen)

nach Symmetrie:

symmetrische Verteilungen (z.B. unimodial-symmetrisch, U-fnnig)


unsymmetrische Verteilungen (z.B. linksschief, rechtsschief)

nach Streuung:

geringe Streuung (Daten konzentrieren sich um ein Datenzentrum)


groe Streuung (Daten streuen sehr stark um ein Zentrum)
Diese Charakteristika knnen wir grafisch gut mittels Stab- und Sulendiagrammen
oder Histogrammen (vgl. Abbildung I 7) veranschaulichen. Sie knnen aber auch
zahlenmig mit Hilfe von Mazahlen beschrieben werden. Dies ist Thema von
Abschnitt I 2.2.
unimodal,

rechtsschief

unimodal,
linksschief

groe Streuung

unimodal,
geringe Streuung

GleichverteUung

bimodal

unimodal,

Abbildung I 7: Histogramme typischer Hufigkeitsverteilungen

unimodal,

symmetrisch

28

I Deskriptive Statistik

2.1.5

Quantile

In diesem Abschnitt wollen wir kurz den Begriff des Quantils (auch als FraktiJ
bezeichnet) einfhren. Wir werden im Abschnitt I 2.2 sehen, dass wir Quantile sowohl zur Beschreibung der Lage als auch der Streuung von Hufigkeitsverteilungen
einsetzen knnen. Aufgrund ihrer hohen praktischen Bedeutung wollen wir ihnen
jedoch bereits an dieser Stelle einen eigenen Abschnitt widmen.
Liegt eine der Gre nach aufsteigend sortierte Urliste (x, < x, < ... < x n ) und ein
vorgegebener Anteilssatz a mit 0 < a < 1 vor, so bezeichnen wir eine Zahl Xa als aQuantil oder (IOOa) %-Quantil, wenn mindestens (IOOa) % der Werte der Urliste
kleiner oder gleich und mindestens 100{1-a) % grer oder gleich Xa sind.
Ist das produkt an aus dem vorgegebenen Anteilssatz und der Anzahl der Elemente der Urliste nicht ganzzahlig, so ist das a-Quantil der Beobachtungswert, der auf
den an-ten folgt. Ist an hingegen ganzzahlig, besteht in der Literatur Uneinigkeit
darber, ob der an-te Beobachtungswert (Variante A) oder der Mittelwert aus der
an-ten und der (an+l)-ten Beobachtung der Urliste (Variante lJ) als a-Quantil
gelten soll. Vorteil von Variante B ist, dass ein so ermittelter Zahlenwert die Urliste
exakt im Verhltnis a zu 1-a teilt. Als nachteilig wird jedoch zumeist angesehen,
dass ein nach Variante B ermittelter Wert in der Urliste gar nicht existiert. Soll ein
echter Beobachtungswert als Quantil dienen, ist auf Variante A zurckzugreifen,
wobei das genannte exakte Teilungsverhltnis hiermit aber nicht erreicht wird.
Je nach Ausprgung von a haben sich in der Literatur verschiedene Bezeichnungen
und auch Symboliken fr Quantile eingebrgert:

Quartile:

Ql

= X O,25 ,

Q2

= X O,50'

Q3

= X O,75

Dezlle:
XO,lO' X O,20' ...
perzentile: XO,Ol' X O,02' .
Die bedeutendsten Quantile sind die QuartiJe. Wir bezeichnen Q, als unteres oder
erstes, Q, als mittleres oder zweites und Q, als oberes oder drittes Quartil. Quartile
teilen die Daten in vier etwa gleichgroe Teilgesamtheiten ein. Betrachten wir dazu
das Beispiel in Abbildung I 8.

-- ~- - ~- -~- - - ~ - - ~ - - ~ - -- - I-t- I- I-t- I- I-t- I-Q,

Q,

Q,

Q,

Q,

Sortierte Beobachtungen
einer Urliste mit n = 11

Variante A

Q,

Variante B

Q,

Q,

Abbildung I 8: Quartile in der Urliste

Q,

Sortierte Beobachtungen
einer Urliste mit n = 12

2. Eindimensionale Hufigkeitsverteilungen

29

Im Falle der ungeraden Urltste mit n = 11 ist das Produkt aus n und 0,25, 0,50 bzw.

0,75 jeweils nicht ganzzahlig, sodass wir den dritten, sechsten und neunten Beobachtungswert als Q" Q, und Q, erhalten. 3/11 - 27,27 % der Beobachtungen sind
kleiner oder gleich Q, und 9/11 = 81,81 % sind grer oder gleich Q,. Analoges gilt
fr Q, und Q,. In der geraden Urliste mit n = 12 erhalten wir nach Variante A die
Quantile Q" Q, und Q, als den dritten, sechsten und neunten Beobachtungswert.
3/12 = 25 % der Beobachtungen sind kleiner oder gleich Q, und 10/12 = 83,33 %
sind grer oder gleich Q,. hnliches gilt fr Q, und Q,. Nach Variante B erhalten
wir Q, hingegen als Mittelwert aus der dritten und vierten Beobachtung, sodass
3/12 = 25 % links und 9/12 = 75 % der Beobachtungen neben diesem gemittelten
Wert liegen. Er existiert zwar nicht als Beobachtung in der Urliste, erlaubt jedoch
eine exakte 25-75-Einteilung der Urliste. hnliche Aussagen knnen wir auch ber
die nach Variante B bestimmten Quartile Q, und Q, machen.
Beispiel I 2-8

Quartile aus Urlisten

Die Auszhlung der Kassenbestnde in 11 Filialen einer Supermarktkette ergab folgende


gerundete und bereits der Gre nach sortierte Euro-Werte:
420 430 440 440 500 550 700 700 800 950 990
Bestimmen wir das 25 0/0-, 50 0/0- und 75 O/O-Quantil bzw. das untere (Q,), mittlere (0.) und
obere (Q,) Quartil aus dieser Urliste. Da aufgrund von n = 11 das Produkt Cln hier keine
ganze Zahl ergeben kann, runden wir Cln zur nachsten ganzen Zahl auf. Wir erhalten:

Q, ist der 110,25 = 3-te Beobachtungswert, d.h. Q, = 440 .

0. ist der 11 0,50 = 6-te Beobachtungswert, d.h. Q, = 550 .

Oa ist der

11 0, 75 = 9-te Beobachtungswert, d.h.

Oa = 800 .

Bei der Ermittlung von Quantilen aus Hufigkeitstabellen ist minimal anders vorzugehen, wie folgendes Beispiel zeigt. Hier ist entweder "im Hinterkopf" die Urliste
aus der Hufigkeitstabelle zu rekonstruieren oder die empirische Verteilungsfunktion zur Quantilsbestimmung heranzuziehen.
Beispiel I 2-9

Quartile aus Haufigkeitstabellen

Eine Fertigungsabteilung hat Ober einen Zeitraum von 30 Tagen die Anzahl von Ausschussteilen je Fertigungstag ermittelt. Dazu ergab sich folgende Hufigkeitstabelle:

1
2
3
4
5

Ausschussteile
a,
0

1
2
3

10

Anzahl der Tage mit aj Ausschussteilen


h(a~

6
6
9
3
6
30

f(a.)
0,20
0,20
0,30
0,10
0,20
1,00

F(a~

0,20

0,40
0,70
0,80

1,00

Ermitteln wir das 25 0/0-, 50 0/0- und 75 O/O-Quantil. Da fr Q, und Q, sowohl 0,25 . 30 = 7,5
als auch 0,75 . 30 = 22,5 nicht ganzzahlig sind, bestimmen wir diese nach der beschriebenen Aufrundungsmethodik. Bei Q, haben wir die Wahl zwischen den Varianten A und B.

30

I Deskriptive Statistik

0, ist der 0,2530 = 8-te Beobachtungswert, d.h. 0, = I Stck.

a. ist entweder der

0,5030 =15-te Beobachtungswert (Variante A), sodass 02 = 2


Stck, oder der Durchschnitt aus 15-tem und 16-tem Beobachtungswert (Variante B),
sodass 02 = (2 + 2)/2 = 2 Stck. Es spielt hier also keine Rolle, welches Verfahren wir
heranziehen.

Os ist der 0,75 30 = 23-te Beobachtungswert, d.h. Os = 3 StOck.


Diese Ouantile knnen wir auch mittels der empirischen Verteilungsfunktion bestimmen,
deren wesentliche Werte (die kumulierten relativen Hufigkeiten) in unserer Ausgangstabelle enthalten sind. 0, ist diejenige Ausprgung von al, fOr die F(x) den Wert 0,25 erreicht bzw. berschreitet. Fr 02 und 03 gilt selbiges fOr die Werte 0,50 und 0,75.
Im Falle klassierter Daten bedienen wir uns ebenfalls der empirischen Verteilungsfunktion zur Quantilsfindung. Als Ergebnis erhalten wir hier jedoch eine Klasse. Bei
der Verwendung eines konkreten Wertes aus der Klasse als Quantil besteht wieder
das Problem, dass das so bestimmte Quantil als Beobachtung in der Urliste vielleicht nicht existiert.

Beispiel I 2-10

Ouartile aus klassierten Hufigkeitstabellen

Nehmen wir an, uns liegt der folgende Auszug aus einer klassierten Hufigkeitstabelle vor:

aber
I
2
3
4
5

aj bis aj

0-100
100-200
200 - 300
300 - 400
400 - 500

aIm

Fj

50
150
250
350
450

0,20
0,25
0,70
0,80
1,00

Da die kumulierten Klassenhufigkeiten fOr Klasse 2 den Wert 0,25 erreichen, bestimmt
diese das Ouartil 0,. Wir knnen daher 0, = 200 angeben. Analog erhalten wir
= 250
und 03 = 350. Diese Ouartilsfindung knnen wir anschaulich im Summenpolygon der klassierten Hufigkeitsverteilung skizzieren. Ouartile werden darin dadurch gefunden, dass zunchst horizontale Linien bei 0,25, 0,50 und 0,75 eingezeichnet werden. Von den Schnittpunkten dieser Linien mit dem Summenpolygon werden dann Lote auf die x-Achse gefllt,
um so das entsprechende Ouartil ablesen zu knnen.

a.

1,00
0,75
0,50
0,25

250

500

2. Eindimensionale Hlufigkeitsverteilungen

31

2.2 Mazahlen
Neben Huflgkeitstabellen und Diagrammen knnen wir zur Beschreibung von
Hufigkeitsverteilungen auf statistische Mazahlen (Parameter) zurckgreifen. Sie
bringen die wichtigsten Charakterisika einer Verteilung zum Ausdruck und lassen
sich grob in Lage-, Streuungs-, Schiefe- und Konzentrationsparameter einteilen (vgl.
Abbildung I 9). Da mit der Berechnung von Mazahlen eine Verdichtung der Daten
und damit auch ein Infonnationsverlust verbunden ist, erlauben einzelne Mazahlen keinen Rckschluss auf den Typ der Verteilung. Sie werden erst kombiniert
aussagefhig.

v_

_rte

Lageparameter (Mittelwerte)

Komcntrationsparamctcr

Kennzeichnung des Zentrum/l eJner

Beschreibung der Verteilung der


Merkma.ls5urmne auf bestimmte

Statistische
Mazahlen

streuongsparameter
CVariabilits-, Variationsmae)
Be3Chreibung der Streuung der

BeschreJbung der Abweichung eJner


Verteilung von der Symmetrie

Einzelwerte um das Zentrum

Abbildung I 9: Statistische Mazahlen


Die Berechnung der Mazahlen bzw. deren Berechnungsformeln unterscheiden
sich je nach vorliegendem Datenmaterial (Urliste, Hufigkeitstabelle, Hufigkeitstabelle mit klassierten Daten). Fr den Fall klassierter Daten sei bereits vorweggenommen, dass hier immer mit einem reprsentativen Wert fr jede Klasse gerechnet wird. Dieser ist in der Regel die Klassenmitte. Da dies allerdings nur als
Nherung angesehen werden kann, ist die Berechnung von Mazahlen aus der DrUste oder der un.klassierten Hufigkeitstabelle zu bevorzugen. Wir greifen auf eine
derartige nherungsweise Berechnung in der Praxis in der Regel nur zurck, wenn
uns nur eine klassierte Huf.tgkeitstabelle (z.B. in statistischen Verffentlichungen)
und weder Urliste noch unklassierte Huf.tgkeitstabelle vorliegen.

2.2.1

Lagaparamatar

Lageparameter dienen der Kennzeichnung des Zentrums einer Verteilung durch lf1
eine einzige Zahl. Gerade diese Komprimierung ennglicht den Vergleich zweier ~
oder mehrerer Gruppen bezglich eines Merkmals (z.B. "In welchem von zwei Betrieben wird durchschnittlich besser verdient?").
Im Folgenden werden der Modus, der Median, das arithmetische Mittel und das

geometrische Mittel nher betrachtet. Es ist zu beachten, dass die Berechnung die-

32

I Deskriptive Statistik

ser Lageparameter von der Skalierung der zugrunde liegenden Daten abhngt. Abbildung I 10 zeigt deutlich, dass gewisse Lageparameter nur bei bestimmten Skalierungen angewendet werden drren. So ist das geometrische Mittel beispielsweise
nur bei verhltnisskalierten Daten sinnvoll.
Nominalskala
Ordinalskala

Modus
Median

Intervallskala
Verhltrtlsskala

artihm. Mittel
geom. Mittel

Es drfen zustzlich nur positive Werte vorliegen.

Abbildung I 10: Lageparameter und Skalierung


Auer mit der Berechnung O.g. Lagemae, werden wir uns mit wichtigen Eigenschaften der Mae auseinandersetzen. Wir werden dabei insbesondere Datentransformationen und Ausreier bzw. ihre Auswirkungen auf die Lagemae errtern.

Transformationen erleichtern uns die inhaltliche Interpretation und vor allem den
Vergleich von Daten, die z.B. in unterschiedlichen Einheiten gemessen werden. So
knnen wir z.B. das Zentrum zweier Umsatzverteilungen, die in verschiedenen
Whrungen errasst wurden, einfacher vergleichen, wenn wir die Beobachtungen
einer Verteilung in die Whrung der anderen umrechnen.
Ausreier stellen einzelne extreme Beobachtungswerte X, dar, die auerhalb des
Intervalls liegen, in dem sich der Groteil der anderen befindet, d.h. die weit vom
Zentrum der Verteilung entfernt liegen. Das Auftreten derartiger Beobachtungen
kann unterschiedliche Grnde haben. Ein Ausreier karm ein untypischer Wert
sein, der sich auf eine Sonderstellung des betroffenen Merkmalstrgers in der
Grundgesamtheit zurckfhren lsst. Ausreier knnen aber auch aufgrund von
Messfehlern entstehen. Besonders bei komplexen Messvorgngen sind Messfehler
ein hufiges Phnomen.
2.2.1.1

Modus

Der auch als dichtester Wert, hufigster Wert oder Modalwert bezeichnete Modus

x,..,. kann bei jedem Skalenniveau einer Merkmalsvariablen X ermittelt werden. Er


ist diejenige Merkmalsausprgung in einer Beobachtungsreihe, die am hufigsten
vorkommt, und ist fr nominalskalierte Merkmale der einzig sinnvolle Lageparameter. Der Modus muss dabei nicht eindeutig sein. Gibt es zwei oder mehr
Merkmalsausprgungen, die die gleiche maximale Hufigkeit aufweisen, dann ist
jeder dieser Werte ein Modus. Wir sprechen dann von einer multimodalen Verteilung. Um die Aussagekraft des Modus zu erhhen, sollte man ihn nur bei eingipfeligen Verteilungen verwenden.

2. Eindimensionale Hufigkeitsverteilungen

33

Modus aus der Urliste:

Ein einfaches Auszhlen ist zur Ermittlung des Modus ausreichend. Der Modus ist
jenes x" welches am hufigsten vorkommt.
Modus aus der Hufigkeitstabelle:

Der Modus ist hier jenes al' das am hufigsten vorkommt.


Modus aus der Hufigkeitstabelle mit klassierten Daten:

Bei klassierten Daten knnen wir lediglich eine sog. Modalklasse angeben. Dies ist
diejenige Klasse K, mit der grten Klassenhufigkeit 11, bzw. f;.! Als Modus knnte
man nun die Mitte dieser Modalklasse verwenden. Problem kann dann natrlich
sein, dass der so bestimmte Modus gar nicht als Beobachtung in der Urliste existiert
oder nicht der am hufigsten vorkommende Wert sein muss.
Beispiel I 2-11

Basisbeispiel fr die Berechnung von Lageparametern

Ein Assessment-Center beurteilte im Rahmen einer Einslellungsmanahme eines Unternehmens mittels diverser Intelligenz- und Leistungstests den 10 von 30 Bewerbern. Fiir die
lOs ergaben sich folgende sortierte Werte:
70 70 70 80 80 80 80 80 80 90 90 90 90 90 90 90 90 90 90 90 90 100 100
100 100 100 100 110 110 110
Da die Beobachtung 90 am hufigsten vorkommt, ergibt sich x..,. = 90.
Aus der vorliegenden Urliste erhalten wir folgende Hufigkeitstabelle. Bei Betrachtung der
Hufigkeiten wird darin deutlich, dass es sich bei der vorliegenden Verteilung um eine
symmetrische Verteilung handelt. Ihr Zentrum liegt bei aa = 90.
Lid. Nr.

1
2
3
4
5

10
aj

70
80

abs. Hufigkeit
h(aj)
3

90

100
110

6
12
6
3
30

rel. Hufigkeit

rel. Summenhufigkeit

f(a~

F(a~

0,10
0,20
0,40
0,20
0,10
1,00

0,10
0,30
0,70
0,90
1,00

Aus der Hufigkeitstabelle erhalten wir hier ebenfalls XMo. = 90, da die absolute Hufigkeit
der Beobachtung 90 mit12 maximal ist.

Eigenschaften des Modus:

Der Modus ist zwar einfach bestimmbar und auch anschaulich interpretierbar,
jedoch besitzt er einen geringen Informationsgehalt.

x.oo

sollte nur bei eingipfeligen Verteilungen und nominal- oder ordinalskalierten Daten verwendet werden, da sonst der Informationsverlust zu gro ist.

Der Modus ist unempfindlich gegenber Ausreiern, da solche nichts an der


Hufigkeit der Modusbeobachtung ndern.

1 In der Literatur wird hier auch gelegentlich vorgeschlagen, die normierten Klassenhufig-

keiten h; bzw. ~. nach (12: 16) zu verwenden.

34

I Deskriptive Statistik

2.2.1.2

Median

Ein weiteres Lagema ist der Median oder Zentralwert x...,. Er kann aus den n vorliegenden Merkmalswerten bestimmt werden, wenn diese der Gre nach geordnet
sind. Fr die Anwendung des Medians muss das untersuchte Merkmal X daher zumindest ordinalskaliert sein. Der Median ist dadurch charakterisiert, dass mindestens 50 % der Merkmalswerte kleiner oder gleich und mindestens 50 % grer oder
gleich x.., sind. Er stellt somit nichts anderes als einen Sonderfall der unter I 2.1.5
behandelten Quantile dar. Konkret gilt x.., - "0.,. - Q" d.h. der Median ist das
50 %-Quantil bzw. das Quartil Q,. Vereinfacht ausgedrckt wird auch hufig formuliert, dass der Median detjenige Merktnalswert ist, der genau In der Mitte der sortierten Beobachtungsreihe liegt.
Median aus der Urliste:
Aus einer sortierten Urliste der Form x, ,,; x, ,,; ... ,,; X n ergibt sich der Median bei
ungerader Beobacbtungszabl n als
(12: 17)

Ist n allerdings gerade, erfllt jeder Wert im Intervall [x n/"x n12+,] die Bedingung
(12: 17). Es ist hier blich, den Median als Mitte dieses Intervalls, d.h. als

x Med

;;;;;; - . (XII.

'

+ X.!l+l)

(12: 18)

anzugeben. Dieser berechnete Median existiert jedoch in der Urliste nicht, was ins-

besondere bei ordinalskalierten Merkmalen problematisch sein kann.


Median aus der Huftgkeltstabelle:
Der Median ist hier jener Merktnalswert al' bei dem die empirische Verteilungsfunktion F(x) den Wert 0,5 erreicht oder berschreitet.
Median aus der Huftgkeitstabelle mit klassierten Daten:

K, definiert, bei der F(x) den Wert 0,5 erreicht oder berschreitet. Es ist klar, dass hier
Medianwerte resultieren knnen, die in der Urliste nicht existieren, und wir das
Zenttum der Verteilung nur nherungsweise beschreiben knnen. Haben wir die
klassierte Hufigkeitstabelle selbst erstellt, werden wir diese Nherungslsung meiden und den Median stattdessen aus Urliste oder Hufigkeitstabelle bestimmen.
Nur bei klassierten Tabellen aus anderen Quellen nutzen wir diese Nherung.
Im Falle klassierter Daten wird der Median als die Mitte detjertigen Klasse

Beispiel I 2-12

Berechnung des Median

Berechnen wir fOr unser IQ-Datenmaterial aus Beispiel I 2-11 den Median. Da die Beobachtungszahl n - 30 gerade ist, erhalten wir den Median aus der Urliste Ober (12: 18) als
Mittelwert aus den Merkmalswerten der 15-ten und 16-ten Beobachtung zu
x. od = 0,5(x.., +X",+,) = 0,5,(x15 +X 16 ) = 0,5(90+90) = 90.
Auch in der Hufigkeitstabelle ist XMod = 90, da fOr aj = 90 die kumulierte relative Hufigkeit
den Wert 0,5 berschreitet.
Wrden wir den IQ-Datensatz um eine Beobachtung mit dem Wert 110 ergnzen (n = 31).
so wre der Median der Merkmalswert der 16-ten Beobachtung, d.h. x ... = x_ = x18 = 90 .

2. Eindimensionale Hufigkeitsverteilungen

35

Eigenschaften des Median:

Uegen die Merkmalswerte als Zahlen vor, hat die Summe der absoluten Abweichungen der Merkmalswerte von einer beliebigen Zahl ein Minimum,
wenn diese Zahl gleich x,..,. ist.
(12: 19)

MintlXI - I fr = XM,d
i=l

Dies ist die sog. Opttmalttts- oder Mlnlmumsetgenschaft des Medians.

Der Median ist unempfmdlich gegenber Ausreiern. Nehmen wir z.B. an, es
ist eine geordnete Urliste von Werten 1, 2, 3, 4, 5 gegeben. Der Median liegt
hier klar bei x,." - 3. Tritt nun an die Stelle des Wertes 5 der Wert 100, so
liegt ein Ausreier vor. Dieser hat jedoch keinen Einfluss auf den Median, da
der Wert 3 schlielich seine Position in der Mitte behlt.

Der Median ist das wichtigste Lagema fr ordinalskalierte Daten.

Arithmetisches Mittel
Der wohl bekannteste und wichtigste Lageparameter ist das auch als Durchschnittswert bezeichnete arithmetische Mittel x . Es findet bei zuntindest intervallskalierten Merkmalen Anwendung.

2.2.1.3

Arithmetisches Mittel aus der Urliste:


Liegt eine Urliste x t ,x2 , ... ,xn vor, so ermitteln wir das arithmetische Mittel
1
1 n
x=-,(x,+x,+",+xn)=-Lx, .
n

als

(12: 20)

i=-l

Es werden also lediglich alle Merkmalswerte aufsumntiert und durch die Anzahl der
Merkmalstrger n dividiert.
Arithmetisches Mittel aus der Huftgkeitstabelle:
Ist eine HufigkeitsverteUung vorhanden, erleichtert sich die Berechnung erheblich.
Zur Bestimmung des arithmetischen Mittels ist dann nmlich lediglich die Summe
der Produkte der Merkmale a, und ihrer absoluten Hufigkeiten h(a~ zu bestimmen
und diese durch n zu dividieren. Es gilt nmlich

x=!.(a
+ ... +a 1, +a. 2 + ... +a2.
+ ...,
+ak + ... +ak,)
n .1
h(~ )-mal

h(a,j-mal

h(ak )-mal

1
=-(h(a,)a, +h(a,)a, + ... +h(ak)ak ),
n

woraus
(12: 21)

folgt. Bringen wir 1/n in den Summenausdruck und substituieren h(a.) / n = f(a,),
erhalten wir folgende alternative Berechnungsfonnel mit relativen Huflgkeiten:
k

x=Lf(a,).a,
I- I

(12: 22)

36

I Deskriptive Statistik

Wir erkennen an (12: 22), dass das arithmetische Mittel ein Sonderfall des sog. gewogenen arithmetischen Mittels ist. Dieses ist definiert als
mit

O';;g,';;1

und

(12: 23)

!g,=1.
j .. l

Die Beobachtungswerte >; werden hier durch vorgegebene Zahlen & gewichtet und
aufsummiert. Die Gewichte mssen nichtnegative reelle Zahlen sein, deren Summe
sich auf Eins beluft. Das arithmetische Mittel (12: 22) erhalten wir, wenn wir in
(12: 23) die Beobachtungen a, mit ihren relativen Hufigkeiten f(a~ gewichten.
Arithmetisches Mittel aus der Hufigkeitstabelle mit klassierten Daten:
Da wir in der Praxis (z.B. in statistischen Verffentlichungen) die einzelnen Beobaebtungen niebt kennen, die einer klassierten Hufigkeitstabelle zugrunde liegen,
sind wir nur in der Lage, aus dieser ein approximatives arithmetisches Mittel Zu
bestimmen. Wir ersetzen dazu in den Formeln (12: 21) und (12: 22) die a, durch die
Klassenmitten aj bzw. (12: 15) als reprsentative Werte fr die einzelnen Klassen
und verwenden zugehrige Klassenhufigkeiten. Wir erhalten damit die Nherung

~h J -alm
-x=-,
1 L..J
n

bzw.

j_1

(12: 24)

x~ L~ aj.
j_1

Haben wir die klassierte Hufigkeitstabelle selbst erstellt, werden wir natrlich
niebt auf (12: 24), sondern auf die Urlistenformel (12: 20) zurckgreifen.
Beispiel I 2-13

Berechnung des arithmetischen Mittels

Fr unseren IQ-Datensatz aus Beispiel I 2-11 wollen wir nun das arithmetische Mittel aus
den verschieden aufbereiteten Daten berechnen:
Urliste:

x = 3~ (70+ 70+ 70+80+80+80+80+80+80+ ... +110+110+110) = 90


Hufigkeitstabelle:

x= ~.(3.
70+680+1290+6100+3110) = 90
30
Vergleichen wir Modus, Median und arithmetisches Mittel lr unseren IQ-Datensatz, so
stellen wir lest, dass alle drei Mae den Wert 90 annehmen. Wir werden unter I 2.2.1.6
sehen, dass fr den Fall einer symmetrischen unimodalen Verteilung Modus, Median und
arithmetisches Mittel stets identisch sind.
Huligkeitstabelle mit klassierten Daten:
Zwar kennen wir hier die Urliste und sollten daher das beschriebene Nherungsverfahren
nicht anwenden, doch wollen wir dies zur Veranschaulichung des entstehenden Rechenfehlers trotzdem tun. Wir fuhren dazu die folgende Klassierung ein:

1
2
3

ber aJ bis aJ

a Jm

hj

Ij

60 - 80
80 - 90
90 - 110

70
85
100

9
12
9
30

0,30
0,40
0,30
1,00

37

2. Eindimensionale Hufigkeitsverteilungen
Wir erhalten daraus nicht den Wert 90, sondern

x= ~.(9. 70+1285+9100) = 85.


30

Eigenschaften des arithmetischen Mittels:

Die Summe der Abweichungen der Merkmalswerte vom arithmetischen Mittel


ist stets Null. Wir sprechen hier auch von der Zentraleigenschaftvon X.
(12: 25)
Berechnen wir beispielsweise das arithmetische Mittel von 2, 4, 6 und 8, so

erhalten wir 5. Die Abweichungen der Einzelwerte von 5 sind -3, -1, 1 und 3,
was in der Summe genau Null ergibt.

Die Summe der quadrierten Abweichungen der Merkmalswerte von einer beliebigen Zahl A hat ein Minimum, wenn diese Zahl gleich x ist. Wir sprechen
hier auch von der Optimalitts- oder Minimumseigenschaft von X.
n

(12: 26)

MinL(xj-A)' fr A=X
1=1

Diese Eigenschaft knnen wir beweisen, indem wir zunchst die erste Ableitung der Summe nach A bilden und gleich Null setzen (notwendige Bedingung fr einen Extremwert):
n

n ,

L2,(x j -A)' (-1) =-2L(x j -A)';'O


1=1

1=1

Division durch -2 und Auflsen nach A liefert


n

Lx,-nA=O
1_1

Lx,=nA
1_ 1

1 n
A=-Lx,=X.
n

1_1

Hinreichende Bedingung fr ein Minimum ist eine positive zweite Ableitung


an der Stelle A = X, was gegeben ist, da die zweite Ableitung 2n lautet.

Werden die Merkmalswerte X, in der Form YI = a + b . Xl mit a, b E IR und


b "* 0 linear transformiert (vgl. Beispiel I 2-14), so kann das neue arithmetische Mittel y durch dieselbe Transformationsvorschrift aus x ermittelt werden. Es gilt nmiich

woraus wir nach Division durch n folgende Beziehung erhalten:


y=a+bx

Ist eine Gesamtheit in zwei Teilgesamtheiten zerlegt (n =

(12: 27)
01

+ n 2 ), so ermittelt

sich das arithmetische Mittel folgendermaen (vgl. Beispiel I 2-15):


_Xgcs = - -1- 0 (~
~) n,'xl+n,'x,
L...Jx j + L...Xj =
1..1
01 + n 2
\_ 1
n

(12: 28)

38

I Deskriptive Statistik

Liegen mehrere Teilgesamtheiten (n = n, + n, + ... + n rn ) vor, gilt


(12: 29)
Eine nhere Betrachtung von (12: 29) bzw. eine Umformung

Xges ;;;;;;

{'nk _
L..J-x.
k..l

zeigt, dass es sich hierbei um nichts anderes als ein gewogenes arithmetisches
Mittel der Mittelwette der Teilgesamtheiten handelt. Die jeweiligen Gewichte
ergeben sich zu n/n.
Das arithmetische Mittel reagiert empfindlich auf Ausreier, da in x anders
als beim Modus und Median alle Beobachtungswerte der Verteilung eingehen
und so ein einzelner extremer Wert Einfluss auf das Ma nehmen kann (vgl.
Beispiel I 2-16).

Beispiel I 2-14

Transformation und arithmetisches Mittel

Ein Vertriebsmitarbeiter erhlt ein fixes Grundgehalt von 1.500 . Als Provision stehen ihm
zustzlich 5 % des von ihm erwirtschafteten Umsatzes zu. Ferner sei bekannt, dass dieser
Mitarbeiter im Durchschnitt einen Umsatz von 10.000 je Monat erzielt. Bestimmen wir auf
Basis dieser Daten sein monatliches Durchschnittseinkommen:

Y= a+bj( = 1.500 +0,0510.000 = 2.000


Beispiel I 2-15

Arithmetisches Mittel aus Teilgesamtheiten

In einer Stadt mit 10.000 Einwohnern (6.000 Mnner, 4.000 Frauen) liegt das Durchschnittseinkommen der Mnner bei 2.500 und der Frauen bei 2.000 . Wie hoch ist das
durchschnittliche Einkommen aller Einwohner?
6.0002.500 +4.0002.000
10.000

Beispiel I 2-16

2.300

Arithmetisches Mittel und Ausreier

Haben 10 Personen ein Jahreseinkommen von 20.000 , liegt ihr Durchschnittseinkommen


bei 20.000 . Besitzt nun jedoch eine der Personen ein Jahreseinkommen von 500.000 ,
so erhalten wir ein Durchschnittseinkommen in Hhe von 68.000 , was ein "falsches" Bild
von der Einkommensverteilung liefert. Gerade hieran erkennen wir, dass Lageparameter
allein nicht ausreichen, um eine Hufigkeitsverteilung zutreffend zu beschreiben.

2.2.1A

Geometrisches Mittel

Ein weiteres in der Praxis bedeutendes Mittel ist das geometrische Mittel x..... Es
kann grundstzlich nur fr verhltnisskalierte Merkmale bestimmt werden, deren
Ausprgungen X, ausschlielich positive Werte aufweisen.

39

2. Eindimensionale Hufigkeitsverteilungen

Geometrisches Mittel aus der Url/ste:

Liegt eine Urliste n positiver Beobachtungswerte X, vor, so ergibt sich das geometrische Mittel als note Wurzel des Produkts aller Beobachtungen. Es wird also ber
(12: 30)
berechnet. Hufig sind diese X, im Zeitverlauf aufgezeichnete relative nderungen
(Wachstumsfaktoren) eines Merktnals, sodass ""0 Aussagen ber das durchschnittliche Wachstum des Merktnals ennglicht.
Beispiel 12-17

Geometrisches Mittel aus der Urliste

ber einen Zeitraum von 4 Jahren wurde die Mitarbeiterzahl z, eines Unternehmens jeweils zum Jahresende aufgezeichnet und in der nachfolgenden Tabelle niedergeschrieben.
Von Interesse ist nun das durchschnittliche Jahreswachstum der Belegschaft dieses
Unternehmens. Dazu werden zunchst zwischen den Perioden die Wachstumsraten

w _ Zt- Z t_1

,-

Zt_1

bestimmt, aus denen Wachstumsfaktoren x, = 1 + w, gewonnen werden. Wie zu erkennen


ist, wird im Zeitraum kontext das Subskript i meist durch t ersetzt. Auf die Gltigkeit der behandelten Formeln hat dies aber keinen Einfluss.

1
2
3

Jahr

Mitarbeiterzahl z,

Wachstumsrate w,

Wachstumsfaktor x,

2002
2003
2004
2005

2.300
3.000
2.700
3.500

0,3043
-{),1000
0,2963

1,3043
0,9000
1,2963

Setzen wir die x, in (12: 30) ein, so ergibt sich damit das geometrische Mittel zu

Xgoo = ~1, 3043 . 0, 9000 1, 2963 = 1,1502 ,


d.h. das durchschnittliche Jahreswachstum liegt bei (1,1502 -1)100 % = 15,02 % .

Um das Prinzip zu verdeutlichen, welches sich in Fonnel (12: 30) verbirgt, empfiehlt sich die Betrachtung des nachfolgenden Beispiels, welches eine "intuitive
Herleitung" des geometrischen Mittels im Wachstumsfaktorenkontext liefert.
Beispiel I 2-18

Prinzip des geometrischen Mittels

Nehmen wir an, der Umsatz UD eines Unternehmens steigt in den Folgequartalen um 2 %,
3 %, 4 % und 5 %. Die Umsatzsteigerungen beziehen sich dabei jeweils auf den Umsatz
des Vorquartals. Die Umsatzentwicklung zeigt sich daher wie folgl:

U, =UD (1+0,02)
u, = U, (1 +0,03) = UD (1 +0,02)(1+ 0,03)
U, = U,' (1 +0,04) = UD' (1 +0,02) (1 +0,03Hl +0,04)
U, = U, (1 +0,05) = UD (1 +0,02Hl +0,03Hl +0,04) (1 +0,05)

40

I Deskriptive Statistik
Eine durchschnittliche Zuwachsrate w der Quartalsumstze ist nun eine fOr alle Quartale
identische Zuwachsrate, die zum gleichen Jahresumsatz U. fOhrt. Setzen wir also obigen
Ausdruck mit U, = UD . (1 + w)' gleich, so erhalten wir folgendes Ergebnis:

Uo ' (1 +w)' = Uo (1 +0,02)-(1 +0,03)(1 +0,04) (1 +0,05)


(1 +w)' = (1 +0,02) (1 +0,03) (1+0,04) (1 +0,05)
l+w={lt,1473
w =0,0349 =3,49 %
Die Zeilen 2 und 3 lassen hier deutlich das geometrische Mittel und die in selbiges eingehenden Wachstumsfaktoren erkennen.

Geometrisches Mittel aus der Hufigkeitstabelle:


Liegen die positiven Merkmalswerte all ~, .. , a., und die dazugehrigen Hufigkeiten h(a,), h(a,), ... , h(a,) bzw. f(a,), f(a,), ... , fCa,) vor, so berechnen wir das geometrische Mittel wie folgt:

(12: 31)
(12: 32)
Durch Logarithmierung von (12: 30), (12: 31) und (12: 32) erhalten wir eine interessante Eigenschaft des geometrischen Mittels zu
1

1_ 1

1"'1

J=1

In>:..., =- ~)nxi =- Lh(aj).lna j = Lf(aj).lna j .

(12: 33)

Der Logarithmus des geometrischen Mittels ist also gleich dem arithmetischen Mittel
der logarithmierten Daten.
Das geometrische Mittel findet, wie bereits angesprochen, vor allem bei der Berechnung durchschnittlicher Wachsrurnsraten Anwendung. Einen besonderen Anwendungsbereich stellt daher die Berechnung von durchschnittlichen Zinsstzen
oder Renditen dar, da diese nichts anderes als Wachstumsraten von Kapital sind.
2.2.1.5

Exkurs: Renditen und Renditedurcbschnitte

Legen wir einen Geldbetrag K,-, zu Beginn einer Periode t-l zu einem Zins von r,d
bis zum Ende dieser Periode an, so ergibt sich am Ende der Periode t-l bzw. dem
Beginn der Periode tein Endkapital K, als
K, = (1 + r,d). KH .
(12: 34)
Wir bezeichnen die Gre r,d dabei auch als sog. diskrete Rendite. Sie ist nichts
anderes als die Wachstumsrate des Kapitals zwischen den Zeitpunkten t-l und t
und kann durch folgende allgemeine Formel bestimmt werden, die sich durch Umformung von (12: 34) herleiten lsst:
"K::I,:::-_K=,!.'
r d ;;;;;;t
K _
t 1

(12: 35)

41

2. Eindimensionale Hufigkeitsverteilungen

Die sog. geometrische Durchschnitts- oder zeitgewichtete Rendite r..., stellt


die fr jede Periode identische Rendite dar, die bei einer Kapitalanlage in Hhe
von K, ber n Perioden zum gleichen Endkapital K" fhrt, wie die n individuellen
Periodenrenditen. Fr die Kapitalstnde K, und K, kann deshalb entsprechend der
Vorgehensweise aus Beispiel I 2-18 der Zusammenhang
(1 + r,d). (1 + r:) ..... (1 + r:). Ko = ~1 + r",,)' . Ko,

K.

(12: 36)

i.

festgehalten werden, aus dem durch Umstellung

r..., = ~(1+r:). (1+ r:) .... (1+ r:)-l

(12: 37)

resultiert. Diesen Berechnungen unterliegt die Annahme, dass Zinsertrge auf dem
Anlagekonto verbleiben und daher in den Folgeperioden zustzlich zum Anfangskapital mitverzinst werden.
Von der sog. arithmetischen Durchschnittsrendite sprechen wir hingegen bei
-d

1 ~ d
=_.
L..ft
n

(12: 38)

t=1

Hierbei wird von der Annahme ausgegangen, dass jede Periode mit dem gleichen
Kapitaleinsatz startet, entstandene Zinsertrge also nicht reinvestiert werden.

Beispiel I 2-19

Diskrete Durchschnittsrenditen

Eine Anlage in Hhe von 1.000 ergab bei Jahreszinsstzen von 2 %, 3 % und 4 % und
Wiederanlage der Zinsertrge ein Endkapital von 1.000 . (1 + 0,02) . (1 + 0,03) . (1 + 0,04)
= 1.092,62 . Die geometrische Durchschnittsrendite ergibt sich daraus zu

r,~ = ~(1 +0,02) (1 +0,03) (1 +0,04) -1 = 0,0299 = 2,99 %.


Dies bedeutet, dass wir auch zu einem Jahreszins von 2,99 % htten anlegen knnen, um
(bei Wiederanlage der Zinsertge) den Endbetrag 1.092,62 zu erhalten.
Werden die Zinsertrge hingegen jedes Jahr entnommen, so erhalten wir lediglich ein
Endkapital von 1.000 . (1 + 0,02 + 0,03 + 0,04) = 1.090 . Die arithmetische Durchschnittsrendite ergibt sich daraus zu

Y" =~.(O,02+0,03+0,04) = 0,03 =3 %.


Dies bedeutet, dass wir durch Anlage zu einem Zins von 3 % pro Jahr (bei Entnahme der
Zinsertrge) ebenso ein Endkapital von 1.090 erreichen knnen.

Unterstellen wir eine stetige Verzinsung des Kapitals K,-, mit dem Satz r:, so ergibt
sich das Endkapital K, nach einer Periode als
(12: 39)

wobei e fr die Eulersche Zahl mit e = 2,718281. .. steht. Durch Logarithmierung


beider Seiten der Gleichung (12: 39)
InK t =rtS + In Kt _ 1

und anschlieender Umformung erhalten wir die sog. stetige Rendite

42

I Deskriptive Statistik

r: = InK, -lnK H =

In(~J
.
K

(12: 40)

_
t 1

Die Zusammenhnge, die zwischen stetigen und diskreten Renditen bestehen, sind
in Abbildung I 11 veranschaulicht.
Diskrete Verzinsung

Stetige Verzinsung

K, = (l+r,') K H

K,=e~ KH

Logarithmierung
[

[
InK, = In(1 + r,') + InK H
'---~)

LOgari~m~erung
InK t

(1) r: = In(1+ r,')

ft

""

+ In Kt _ 1

<;(-----'

(2)

Abbildung I 11: Zusammenhang zwischen stetigen und diskreten Renditen


Betrachten wir nun insgesamt n Perioden, so gilt zunchst unter Verwendung diskreter Renditen nach (12: 36) Kn = (1 + r,d) . (1 + r,d) ..... (1 + r:) . Ko ' Logarithmieren
wir diese Gleichung, erhalten wir unter Nutzung der Beziehung (1) aus Abbildung
I 11 den Zusanunenhang In Kn == r; + r; + ... + r: + In Ko , woraus wir

InK n -lnK o == frt

(12: 41)

1_'

ableiten knnen. Wir knnen also sagen, dass sich die stetige Rendite einer Gesamtperiode als Summe der stetigen Renditen der dazugehrigen Teilperioden ermitteln
lsst. Fr diskrete Renditen gilt ein solcher Zusammenhang nicht. Hier sind die um
Eins erhhten diskreten Teilperiodenrenditen miteinander zu multiplizieren und
Eins zu subtrahieren, um die Gesamtperiodenrendite zu erhalten.
Beispiel I 2-20

Mikro- und Makroperiodenrenditen

Eine Investition wirft innerhalb eines Jahres die stetigen Quartalsrenditen 1 %, 5 %, -2 %


und 3 % ab. Die stetige Jahresrendite ergibt sich daraus als

r:.

hr

= Lr~.rta't = 0,01 +0,05-0,02+0,03 = 0,07 =7 %.

,.,

Nehmen wir an, es handeH sich bei den gegebenen Renditen um diskrete Quartalsrenditen, so erhalten wir die diskrete Jahresrendite zu
rJ~h' =

rr,.,

(I +r~~"'It) -I = (I +0,01) (I +0,05) (1-0,02) (I +0,03) -I = 0,0704 = 7,04 %.

2. Eindimensionale Huligkeitsverteilungen

43

Spezieller Exkurs Finance:


Es soll nicht unerwhnt bleiben, warum gerade stetige Renditen in vielen statistischen Verfahren und Modellen Anwendung finden. Sie besitzen nmlich eher als
diskrete Renditen die Eigenschaften der Symmetrie und der Normalverteilung (vgl.
Abschnitt II 3.2.3), welche Voraussetzung fr diverse Verfahren der Finanzmarktstatistik und -konometrie sind.

Beispiel I 2-21

Symmetrie stetiger Renditen

Gegeben sei die Kapitalentwicklung K, =2Ko und K, =O,5K,. woraus sich die lolgenden stetigen und diskreten Renditen ergeben:

Stetig: r1s = In2

Diskret: r1d

r:

= InO,5
= 1 r: = -0,5
I

Bei den stetigen Renditen ist die Symmetriebedingung r,' = Ir;1 erfijllt, wohingegen bei den
diskreten Renditen r,' Ir:1 gilt.

Es ist auerdem interessant, dass die geometrische Durchschnittsrendite in stetiger


Schreibweise gleich dem arithmetischen Durchschnitt der stetigen Einzelrenditen ist.
Um diesen Zusammenhang zu erklren, betrachten wir zunchst die Formel (12: 36)
(1 + '",,)' = ~1 + r,d). (1 + r,") ..... (1 + r:~.
wachsnunsnniltlpllkator WM

Durch Logarithmierung erhalten wir daraus

n10(1 + fgeo);;;;;; fIS + r; + ... + r:,


was schlielich mittels Division durch n zum eingangs beschriebenen Zusammenhang fhrt:

ln(1+r )=r;+r;+ ... +r:


""

rS

02: 42)

Wir stellen fest, dass dieses Resultat (12: 33) entspricht.

Beispiel I 2-22

Stetige Durchschnittsrendite

Eine Aktienanlage wird vier Jahre betrachtet. Die diskreten Renditen der einzelnen Jahre
sind +30 %, -10 %, +50 % und -20 %. Das Vermgen ist gesamt von 100 aul 140,40
gestiegen. In diesem Beispiel lsst sich die stetige Durchschnittsrendite nun auf zwei verschiedene Arten berechnen:
1.

Berechnung der stetigen Einzelrenditen, Aufsummierung und Division durch n:


Die gegebenen diskreten Renditen werden zunchst mit der Formel r,' = In(1 H,d) in
stetige Renditen umgerechnet. Es ergeben sich +26,2 %, -10,5 %, +40,5 % und
-22,3 %. Addiert und durch 4 (Jahre) dividiert, ergibt sich so eine stetige Durchschnittsrendite von 8,48 %.

2.

Geometrische Ermittlung der diskreten Durchschnittsrendite und Darstellung in stetiger Schreibweise:

r,~ = ~(I +o.a)-(I-O,I) (1+0,5)(1-0,2) -I = ~I,404 -I = 8,85 %

44

I Deskriptive Statistik
Der sich hier ergebende Wachstumsmultiplikator von 1,404 kann schneller direkt als
Quotient aus Vermgensendbestand und -anfangsbestand ermittelt werden.
Die stetige Durchschnittsrendite ist damit 7' = In(1 + 7... ) = In(1 +0,0885) = 8,48 %.

2.2.1.6

Lageregeln

Fr jede Art von Verteilung (symmetrisch, rechtsschief, linksschief) gilt zwischen


dem geometrischen und arithmetischen Mittel die Beziehung x"", ~ x. Wie Abbildung I 12 skizziert, sind des Weiteren fr symmetrische Verteilungen arithmetisches
Mittel, Median und Modus immer identisch, d.h. es gilt
x = x Med = x Mod
Dies haben wir bereits in Beispiel I 2-13 gesehen. Fr linksschiefe Verteilungen
(auch rechtssteil genannt) gilt stets
x< x Med < X Mod '
d.h. das arithmetische Mittel ist stets kleiner als Median und Modus. Fr rechtsschiefe Verteilungen (auch linkssteil genannt) gilt dies umgekehrt, d.h. es liegt stets
x Mod < x Med < X
vor. Das arithmetische Mittel ist also hier stets grer als Median und Modus. Diese

"Grenverschiebung" des arithmetischen Mittels ist nicht berraschend, da linksschiefe Verteilungen einige besonders niedrige Merkmalsausprgungen und rechtsschiefe Verteilungen einige besonders hohe Merkmalsausprgungen aufweisen.
symmetrische Verteilung

I--

rechtsschiefe Verteilung

Abbildung I 12: Lageregeln

linksschiefe Verteilung

2. Eindimensionale Hlufigkeitsverteilungen

45

Wir erkennen, dass auer beim Auftreten von Ausreiern auch durch die Asymmetrie oder Schiefe einer Verteilung die Interpretation von Lagemaen erschwert
werden kann. Bei ausgeprgt schiefen Verteilungen ist die Frage nach dem geeigneten Lageparameter besonders schwer zu beantworten, da sich die Mae z.T.
deutlich unterscheiden. Hier empfiehlt sich zur Beschreibung der Verteilung die
Verwendung weiterer Parameter (siehe Abschnitt I 2.2.2 bis I 2.2.4).

2.2.2

Streuungs parameter

Die bisher behandelten Lageparameter dienten lediglich der Kennzeichnung des lf')
Zentrums einer Verteilung. ofunals ist jedoch von Interesse, wie stark die Einzel- ~
werte vom Zentrum abweichen, d.h. wie eng oder weit sie um das Zentrum der
Verteilung streuen. Zur Gewinnung dieser Informationen sind sog. St:rcuunpparameter geeignet, die wir im Folgenden nher betrachten. Sie setzen stets eine
Kardinalskala voraus.
Die Streuungsparameter, die wir im Folgenden behandeln, lassen sich grob in zwei
Kategorien einteilen. Zur ersten zhlen die Spannweite und der Quartilsabstand.
Bei diesen Maen dienen die Abstnde zwischen speziellen Beobachtungen der
Hufigkeitsverteilung als Ma fr die Streuung. Zur zweiten Kategorie zhlen die
mittlere absolute Abweichung, die Varianz und die Standardabweichung. Hier sind
die Abweichungen aller Daten von einem Lagema entscheidendes Kriterium fr
die Beurteilung der Streuung. Je kleiner diese Kennzahlen sind, desto strker sind
die Daten um den jeweiligen Lageparameter konzentriert.

2.2.2.1

Sponnwdle und Quartilsab.land

Die SPiUlD.weite SP gehrt zu den wohl einfachsten Streuungsmaen. Unter ihr


verstehen wir lediglich die Differenz zwischen dem grten und kleinsten Merkmalswert im vorliegenden Datenmaterial. Sie gibt uns allgemein Informationen ber
den Ausdehnungsbereich des Datenbestandes.
Aus einer der Gre nach sortierten Urliste errechnet sich die Spannweite als Differenz zwischen grtem (x.) und kleinstem (x) Beobachtungswert.

Aus der H4uftgkeitsvertetlung ermitteln wir die Spannweite ebenfalls als Differenz
zwischen grter (a,) und kleinster (a,) Merkmalsausprgung.

Beispiel I 223

Basisbeispiel fOr die Berechnung von Streuungsmaen

An 10 zeitpunkten wird der Kurs des A-Dollars und des B-Dollars notiert. Der A-Dollar
hatte folgende Notierungen: 1,10, 1,15, 1,10, 1,20, 1,25, 1,30, 1,30, 1,25, 1,20 und 1,15
8$. Der B-Dollar lag dreimal bei 1,SO, zweimal bei 1,80, viermal bei 2,30 und einmal bei

2.40 AS.

Wir wollen diese beiden Verteilungen nutzen, um die Berechnung der von uns vorgestellten Streuungsmae zu veranschaulichen. Bei EinfOhrung eines neuen Maes werden wir
jeweils wieder auf dieses Beispiel zuruckgreifen, weshalb die im Folgenden aufgestellten
Tabellen bereits Berechnungen enthalten, die wir erst nach und nach benOtigen werden.

46

I Deskriptive Statistik
Fr den A-Dollar zeigt sich die folgende Urliste:

'"

i
1
2
3
4
5
6
7
8
9
10

lx,-x...
0,10
0,10
0,05
0,05
0,00
0,00
0,05
0,05
0,10
010
0,60

1 ,10
1 ,10
1 ,15
1 ,15
1,20
1,20
1,25
1,25
1,30
1 30
12,00

x'I
1 ,21
1 ,21
1 ,32
1 ,32
1,44
1,44
1,56
1,56
1,69
1 69
14,44

Wir erhalten daraus die Spannweite


SP =x,-x, = x" -x, =1,30-1,10=0,20 A$.
Fr den B-Dollar ergibt sich folgende Haufigkeitstabelle:

aj

hj

hlal

1
2
3
4

1,60
1,80
2,30
2,40

3
2
4
1
10

4,80
3,60
9,20
2,40
20,00

hJ" I al -x...

1,35
0,50
1,00
0,35
3,20

a'I

hl a~

2,56
3,24
5,29
5,76

7,68
6,48
21,16
5,76
41,08

Dies liefert eine Spannweite von


SP = ak -a, = a, -a, = 2,40-1,60 = 0,80 B$.

Aufgrund der Tatsache, dass die Spannweite gerade durch ihr Wesen uerst empfindlich auf Ausreier reagiert und aufgrund der sehr geringen Ausnutzung des
Datenmaterials nur einen geringen Infonnationsgehalt besitzt, wird sie in der Praxis
kaum als Streuungsma eingesetzt. Vielmehr dient sie dazu, Hinweise auf Ausreier
zu geben. Ein anderes, der Spannweite sehr hnliches Ma, das hingegen robust

gegen Ausreier ist, findet hufiger Anwendung. Es handelt sich dabei um den sog.
Quartilsabstand QA, der als die Differenz zwischen oberem und unterem Quartil
deflOiert ist und nichts anderes als die Spannweite der 50 % mittleren Beobachtungswerte darstellt.
QA=Q, -Q,
Gelegentlich wird auch der sog. mittlere Quartilsabstand
1
QA=-(Q,-Q,).
2

(12: 45)

(12: 46)

als Streuungsma genutzt. Auch er ist robust gegen Ausreier und kann wegen

1
1
QA=2(Q, -Q')=2([Q, -Q21-[Q, -Q,])

als mittlerer Abstand der Quartile vom Median interpretiert werden.

47

2. Eindimensionale Hufigkeitsverteilungen
2.2.2.2

Mittlere absolute Abweichung

Definieren wir den Abstand eines Messwertes X; der Urliste vom Median x.... als
IX; - x.... 1 so ist die mittlere absolute Abweichung von x..... MA. das arithmetische Mittel dieser Abweichungen. d.h. es gilt
1 n
MA=-"'Ix.
I
~
1 -xMed.
n l=-1

(12: 47)

In Abschnitt I 2.2.1.2 haben wir gesehen. dass die Summe der absoluten Abwei-

chungen vom Median minimal ist. Die mittlere absolute Abweichung ist daher immer dann ein sinnvolles Streuungsma, wenn der Median als Lagema verwendet
wird. Das Zentrum einer Verteilung wird umso besser durch den Median beschrieben. je kleiner die mittlere absolute Abweichung ist. Gelegentlich wird bei der Berechnung von MA das arithmetische Mittel x herangezogen. Dadurch geht jedoch

die Optimalittseigenschaft verloren. Wird das arithmetische Mittel als Lagerna


verwendet. wird die Streuung meist durch die sog. Standardabweichung (vgl. Abschnitt I 2.2.2.3) gemessen.
MA aus der Hufigkeitsverteilung:

Bei Vorliegen einer Hufigkeitsverteilung knnen wir MA unter Verwendung von


absoluten und relativen Hufigkeiten bestimmen. Es knnen nmlich bestimmte
absolute Abweichungen mehrfach auftreten. sodass wir
1 k
MA = - . Lh(al) . lai n

J=1

x"",1 = Lf(al) Ial - XM'dl


k

(12: 48)

j=1

festhalten knnen.
MA aus der Hufigkeitsverteilung klassierter Daten:
Liegt das Datenmaterial in klassierter Form vor. werden an Stelle von al in Formel
(12: 48) die Klassenmitten ar und die jeweiligen absoluten bzw. relativen Klassenhufigkeiten herangezogen. Mit einer derartigen Vorgehensweise erhalten wir jedoch wieder nur eine nherungsweise Lsung.

Beispiel I 2-24

Berechnung der mittleren absoluten Abweichung

Berechnen wir fOr unsere verschiedenen Whrungsverteilungen aus Beispiel I 2-23 die
mittlere absolute Abweichung bezuglich des Median. Dazu bentigen wir zunchst die
Mediane der Verteilungen. Fur den A-Dollar ergibt sich x.... = 1.20 A$ und fr den
B-Dollar XMod = 2.05 B$. Wir erhalten damit den bereits in den Tabellen von Beispiel
I 2-23 enthaltenen Nebenrechnungen folgende Ergebnisse:
1 "

A-Dollar:

MA =-Llx,-xM.. =-0.60 =0.06 A$


n '_1
10

B-Dollar:

1 k
1
MA =-Lhj"lal-x... =-3.20=0.32 B$
n 1_1
10

48

I Deskriptive Statistik

Elgenscbaften der mittleren absoluten Abweicbung:

Die mittlere absolute Abweichung nimmt ihr Minimum an, wenn sie mittels

x... berechnet wird.

Im Vergleich zur Varianz, die wir unter I 2.2.2.3 vorstellen, weist sie nur

wenige befriedigende mathematische Eigenschaften auf. Deswegen wird sie in


der Praxis selten verwendet.

Die mittlere absolute Abweichung reagiert im Vergleich zur Varianz weniger


stark auf Ausreier.

Werden die Merkmalswerte X, linear transfonniert (YI = a + b XI' mit a, b E IR


und b 0), so kann die neue mittlere absolute Abweichung MAy aus der
mittleren absoluten Abweichung MA,~ der Ausgangsdaten hergeTeitet werden, ohne dass eine Neuberechnung notwendig wird. Dies geschieht ber

MA y_ =lblMA: 1 : _ '

(12: 49)

Wir erkennen daran, dass eine Transformation der Form YI = a + XI (b = 1)


die Streuung der Daten nicht verndert. Die Transformation bewirkt lediglich
eine Lageverscbiebung der Daten. Erst die Multiplikation der Ausgangsdaten
mit einer Konstanten b 1 fhrt ZU einer nderung der Streuung.

Beispiel I 2-25

Eigenschaften der mittleren absoluten Abweichung

Betrachten wir die Auswirkungen verschiedener Transformationen einer einfachen Ausgangsverteilung auf die neue mittlere absolute Abweichung.

4
2

Addieren wir zu den Beobachtungen des Merkmals X die Konstante a = 1, so bewirkt dies
eine Rechlsverschiebung der Verteilung, sodass sich ihre Lageparameter bzw. hier der
Median ndert. Die Streuung wird davon nicht beeinflusst. Bei a = -1 kommt es zu einer
Linksverschiebung bei unvernderter Streuung. Die Grafiken auf der Folgeseite veranschaulichen dies.
Multiplizieren wir mit einem Faktor zwischen 0 und 1 bzw. hier 0,5, so ndert sich sowohl
Lage als auch Streuung der Verteilung. Wir erkennen eine Linksverschiebung bei gleichzeitiger Verringerung der Streuung. Fr einen Faktor grer als 1 bzw. hier 1,5 beobachten
eine Rechlsverschiebung bei Erhhung der Streuung.

2. Eindimensionale Hufigkeitsverteilungen

49

YM., = 7

MA

YM., =5

,- =1

MA,- =1

4
2

bj

Y; =0,5 Xi

Yi=1,5'Xi

h{bll

h{b~

Y.od =3

Y.od =9

MA,_ =0,5

bj

MA,_ =1,5

468

2.2.2.3

bj

468

bj

Varianz und Standardabweichung

Die Varianz s' bzw. die sich aus ihr ergebende Standardabweichung s ist das in der
Praxis am hufigsten verwendete Streuungsma. s' ist definiert als arithmetisches
Mittel der quadrierten Abweichungen der einzelnen Merkmalswerte vom arithmetischen Mittel X. Gerade daher wird die Varianz auch hufig als mittlere quadratische Abweichung bezeichnet. s ist die positive Wurzel aus der Varianz.
Die Varianz und die Standardabweichung werden stets in Bezug auf das arithmetische Mittel berechnet, da fr x die Summe der quadrierten Abweichungen nach
der Optimalittseigenschaft des arithmetischen Mittels minimal ist. Das Zentrum
einer Verteilung wird also umso besser durch das arithmetische Mittel beschrieben,
je kleiner die Varianz bzw. die Standardabweichung ist.
Varianz aus der Urliste:
Die Varianz lsst sich in der Urliste ber
1 ~(
_)' rrut
.
s , ;;;;;;_.
L...J Xi -x
n

1_ 1

(12: 50)

berechnen. Die darin zur Anwendung kommende Quadrierung der Abweichungen


dient auf der einen Seite dazu, groen im Vergleich zu kleinen Abweichungen
mehr Gewicht zu verleihen. Dies unterscheidet die Varianz von der mittleren ab-

I Deskriptive Statistik

50

soluten Abweichung. Andererseits wird durch die Quadrierung verhindert, dass


sich positive und negative Abweichungen gegenseitig aufheben.

Zur Rechenvereinfachung lsst sich die Varianzfonnel umfonnen. Es handelt sich


bei dieser Umfonnung um einen Speztaifall des sog. Verschtebungssatzes:
eI2: 51a)

Version A:

~C Xi
-1 L..J

Version B:

~C

-)' ;;;;;;1 L..J X1-C )' -X


n

i=l

CX-C )'

02: 51b)

i_I

Fr Interessierte fhren wir die Herleitung des Verschiebungssatzes im Folgenden


kurz auf. Sie kann jedoch auch bersprungen werden, da sie fr das Verstndnis
des Folgetextes nicht relevant ist. Version A erhalten wir wie folgt:
:tex, -x)' = :tex, -c-ex-c)i
i=l

i=l

:tex,

-ci - 2 :tex, -

1=1

c) ex - c) + :tex - c)'

1=1

:tex,

-ci - 2 ex -

1=1

c) :tex, - c) +n ex -

1=1

,1=1

ci

n'i-nc

= :tex,

-ci -2nex-ci +nCx-c)'

= :tex,

-ci -nex-ci

1=1

Dividieren wir beide Seiten von Version A durch n J erhalten wir Version B.

Setzen wir nun in Version B des Verschiebungssatzes c = 0, so erhalten wir die


folgende alternative Berechnungsfonnel fr die Varianz aus der Urliste:
2

1 ~

-2

02: 52)

=-'L..JXj-X

i=l

Da diese Fonnel unter Statistikneulingen oft zu Verwirrung fhrt, wollen wir klar
darauf hinweisen, dass bei der Berechnung zunchst die Summe der quadrierten X,
durch n dividiert wird und erst im Anschluss daran das quadrierte arithmetische
Mittel abgezogen wird. Analog gUt dies auch fr die Fonneln in 02: 55).
Varianz aus der Hujigkeitsverteilung:

Liegt eine HufigkeitsverteUung mit k Merkmalswerten a" a" ... , ak mit den zugehrigen absoluten Hufigkeiten hea? bzw. relativen Hufigkeiten fea? vor, so erfolgt
die Berechnung der Varianz nach den folgenden Fonneln:
s'

=l. hCa.).Ca. -x)'


n

j..1

s' = LfCaJ)'CaJ -xi


j=1

mit

02: 53)

mit

x = LfCaJ).aJ
j=1

02: 54)

2. Eindimensionale Hufigkeitsverteilungen

51

Unsere Rechenvereinfachung (12: 52) liefert daraus

1 ~
, -,
s, ;;;;;;-.
L. h(aj ) aJ-x
n j-=t

bzw.

s' = Lf(al)a!
j_ 1

-x' .

(12: 55)

Zur Erleichterung einer von Hand durchgefhrten Varianzberechnung empfiehlt es


sich, die Arbeitstabelle aus Abbildung I 13 heranzuziehen. Wir erhalten daraus die
Varianz, indem wir vom Mittelwert (absolute Hufigkeiten) bzw. der Summe (relative Hufigkeiten) der letzten Spalte x' subtrahieren. x knnen wir dabei aus der
jeweiligen vorletzten Spalte ermitteln.
h(a,)' a,

h(a)

a,

h(a).a!

f(a)

f(a,)' a,

f(a l) a!

1
bzw.
k
n

1:

1,00

Abbildung I 13: Arbeitstabelle zur Varianzberechnung

Varianz aus der HufigkeltsverteIlung klassierter Daten:


Im Falle klassierter Daten werden zur nherungsweisen Berechnung in obigen

Formeln wieder lediglich die Werte a, durch die Klassenmitten a~ und die Hufigkeiten h(a,) und f(a,) durch die Klassenhufigkeiten h, und f, ersetzt.
Beispiel I 2-26

Berechnung von Varianz und Standardabweichung

Berechnen wir fr unser Whrungsbeispiel I 2-23 die Varianzen und Standardabweichungen. Wir erhalten unter Verwendung der bereits in Beispiel I 223 enthaltenen Arbeitstabellen und der arithmetischen Mittel
A-Oollar:

l'
1
x=-'Lx, =-12,00=1,20 A$
n 1_1
10

B-Oollar:

1
1 k
x =-Lhlal =-20,00=2,00 B$
n 1-1
10

folgende Ergebnisse:
A-Oollar:

~ ,
S,_I
- - . L.tXI
n

1_1

-x-,_14,44
- - - - 120'-00040A$'
,
-,
10

s = ,J0,0040 = 0,0632 A$
B-Oollar:

1 ~h (a,'
S' --'Lot

1- 1

_ 41,08
-0, 1080 B$'
-x-, - - - 200'
,
10

s = ,J0,1 080 = 0,3286 B$

52

I Deskriptive Statistik

Eigenschaften der Varianz (und der Standardabweichung):


Die Varianz s' (und damit auch die Standardabweichung s = ,fs2 ) ist stets grer oder gleich Null. Nimmt s' den Wert Null an, so liegt berhaupt keine
Streuung vor, d.h. alle Merkmalswerte sind identisch.

Die Dimension der Varianz ist das Quadrat der Dimension der einzelnen Beobachtungswerte. Die Dimension der Standardabweichung stimmt mit der der
betrachteten Merkmalswerte berein. Besitzt also z.B. ein Merkmal die Einheit
Euro, so ist die Dimension der Varianz ' und die der Standardabweichung .

Aufgtund der gleichen Dimension ist die Standardabweichung im Gegensatz


zur Varianz ein mit der mittleren absoluten Abweichung vergleichbares Ma.
Dabei gilt stets die Ungleichung

s ., MA ., MA._ .

(12: 56)

Verteilungen knnen bei gleichen arithmetischen Mitteln trotzdem unter-

schiedliche Varianzen und damit auch Standardabweichungen aufweisen.


Beispiel I 2-27

Arithmetisches Mittel und Varianz

Fr zwei Unternehmen wurde von einem Marktforschungsinstitut ber 4 Jahre eine Kundenzufriedenheitsanalyse durchgefOhrt. Der Anteil zufriedener Kunden ist in folgender
Tabelle angegeben.
Jahr
Unternehmen A
Unternehmen B

2002
0,70
0,30

2003
0,95
0,70

2004
0,50
1,00

2005
0,55
0,60

2006
0,80
0,90

Fr beide Unternehmen ergibt sich eine durchschnittliche Kundenzufriedenheit von = 0,7


bzw. 70 %. Bei Unternehmen B (s = 0,060) ist allerdings eine strkere Fluktuation der Kundenzufriedenheit festzustellen als bei Unternehmen A (s = 0,027).

Das sog. Tschebyscheff-Theorem (vgl. Abschnitt II 2.9) besagt, dass fr beliebige Verteilungen mindestens l-l/k' (%) der Beobachtungen in einem Intervall [x - k . S x + k . s) liegen.

Praxisregel: Fr eingipfelige Verteilungen gilt,2 dass im Intervall

[x - S x + sl zumeist zwischen 60 % und 80 %, fr fast symmetrische


Verteilungen ca. 70 % und fr sehr schiefe Verteilungen fast 90 % der
Beobachtungswerte liegen.

[x - 2 S x + 2 sl fr symmetrische Verteilungen ca. 95 % und fr sehr


schiefe Verteilungen bis fast 100 % der Beobachtungswerte liegen.
[x - 3 S x + 3 sl knapp 100 % der Beobachtungen liegen.

Wir hatten bereits angesprochen, dass der Grund dafr, dass die Varianz bezglich x bestimmt wird, darin liegt, dass die Summe der quadratischen Abweichungen der einzelnen Merkmalsausprgungen X, von einem beliebigen

2 Vgl. Bamberg und Baur (2004). Kapitel 3.

2. Eindimensionale Hufigkeitsverteilungen

53

Wert A dann ein Mirtimum hat, wenn A = x ist. Dies hatten wir bereits als Optirnalittseigenschaft des arithmetischen Mittels in (12: 26) festgehalten. Ist die
Summe der quadratischen Abweichungen minimal, ist es natrlich auch ihr

Mittelwert und damit die Varianz.

lineare Transformationen:
~ in der linearen Fonn Yi = a + b . Xi' mit
a, b E IR und b '" 0, so wissen wir bereits, dass nach (12: 27) fr das arithmetische Mittel y = a + b . x gilt. Fr die neue Varianz s~ und die neue Standardabweichung Sy gilt bei einer derartigen Transformation

Transfonnieren wir die Einzelwerte

,
1 ~(
-)' =-'L...Ja+
1 ~(b 'xj-a- b 'x
-)'
Sy=-'L...JYi-Y
n

1_ 1

1_ 1

2n

b
-222
=-'L(X, -x) =b s..
n j=-l
sodass wir insgesamt
(12: 57)

festhalten knnen. Dies zeigt, dass eine Transformation der Form y, = a + x"
d.h. mit b = 1, wie wir auch bereits bei der mittleren absoluten Abweichung
gesehen haben, keinerlei Einfluss auf Streuung und damit die Varianz und die
Standardabweichung des Datenmaterials hat. Es gilt nmlich dann s~ = s;
bzw.

Sy =5][.

Beispiel I 2-28

Uneare Transformationen und Varianz

Innerhalb einer Woche fielen vor Euroumstellung in der Filiale einer Bank folgende Kosten
(in DM) fOr den Versand von Geschftsbriefen an:
Mo

Di

Mi

Do

Fr

5,50

9,00

3,00

12,00

1,50

Es ergaben sich damit durchschnittliche Versandkosten von

x=~.(5,50+9,00+3,00+12,00+1,50) = 6,20 DM
bei einer Varianz und einer Standardabweichung von

s~ = ~. (5,50' +9,00' +3,00' + 12,00' + 1,50') -6,20' = 14,86 DM'


s, =v'14,86 =3,85 DM
Im Zuge der Euroumstellung werden nun die DM- in Euro-Werte umgerechnet. Die dazugehrige Transformationsformellautet
mit

a=O und b=

1..:....

Ohne auf die neuen Euro-Werte zugreifen zu mussen, knnen wir neben dem neuen Mittelwert y = 1..:... = 3,17 die neue Varianz und Standardabweichung bestimmen:

s: = ('.":"')'.14,86 = 3,88 ' und s, = 1,.95'...1.3,85 = 1,97 .

54

I Deskriptive Statistik

Zentrierung, Standardisierung:

Uegt eine Urliste x" x" ... , x,. mit dem arithmetischen Mittel
dardabweichung s, vor, so heit eine Uneartransformation
Yi = Xi - X

Yi = a + b Xi

und der Stan-

a = -x und b = 1

mit

(12: 58a)

Zentrlerung. Das Resultat einer solchen Zentrierung ist

y = 0 und

= s, .

Sy

(12: 58b)

Wir erhalten also ein neues arithmetisches Mittel von Null und die gleiche
Standardabweichung (Streuung) wie die Ausgangsdaten.
Von besonderer praktischer Bedeutung ist die sog. Standardisierung. Darunter verstehen wir eine Lineartransformation der Form

x. -x

mit

Z.=-'-

a=-- und b=-

(12: 59a)

Standardisierte Daten besitzen die besonderen Eigenschaften


2=0 und

Sz

(12: 59b)

=1,

was wir anhand von

b x 1_
z=a+ x=--+-x=O
Sx

Sx

s; =b' s; =(s:]' s; =1

--+

s, =1

anschaulich zeigen knnen. Die Tatsache, dass durch die Standardisierung der
Merkmalswerte ein arithmetisches Mittel von Null entsteht, bietet den Vorteil,
dass nun sofort erkennbar ist, ob die jeweiligen Merkmalswerte grer oder
kleiner als das arithmetische Mittel sind. Alle neuen positiven Merkmalswerte
liegen ber und alle neuen negativen Merkmalswerte unter dem Durchschnitt.
Wir sind auerdem in der Lage zu erkennen, um wie viele Standardabweichungen der jeweilige Wert vom arithmetischen Mittel abweicht. Dies wird
im nachfolgenden Beispiel klar.
Beispiel I 2-29

Standardisierung

Fr ein bestimmtes Jahr sind die Zahlen der bernachtungen pro Monat in einem Hotel
bekannt:
Jan

Feb

Mr

Apr

Mai

Jun

Jul

Aug

Sep

Okl

Nov

Dez

80

10

30

80

120

160

200

200

200

120

10

10

Wir fUhren nun eine Standardisierung dieser Werte mittels der Formel

x -x
s

ZI=_'-

durch, welche folgende Resultate liefert:

x, -l0l,67
73,24

2. Eindimensionale Hufigkeitsverteilungen

55

Jan

Feb

Mr

Apr

Mai

Jun

-0,30

-1,25

-0,98

-0,30

0,25

0,80

Jul

Aug

Sep

Okt

Nov

Dez

1,34

1,34

1,34

0,25

-1,25

-1,25

Wie wir erkennen, sind alle Merkmalswerte, die ehemals grer als das arithmetische Mittel waren, nun positiv, alle anderen hingegen negativ. Auerdem sehen wir z.B., dass die
Anzahl der bernachtungen im Juli um 1,34 Standardabweichungen ber dem arithmetischen Mittel liegt, was wir ber die Rechnung 101,67 + 73,24 . 1,34 = 200 zeigen knnen.

Fr die Varianz einer Gesamtheit n, die sich aus zwei Teilgesamtheiten

n, mit den Merkmalswerten x" und 'S, zusammensetzt, gilt allgemein

s!,. =-l-.(i;exli -xY + i;ex2l-xY),


fi 1

+ n2

i_I

und

(12: 60)

i_I

fi 1

x,

x,

wobei sich darin


nach (12: 28) ergibt. Bezeichnen wir mit
bzw.
und
s; bzw. s~ die arithmetischen Mittel und Varianzen der beiden Teilgesamtheiten, so ergibt sich die Gesamtvarianz ebenfalls mit
(12: 61)

Beispiel I 2-30

Gesamtvarianz aus Teilgesamtheiten

Die LeisbJngsbeurteilung (Bewertung 1 bis 7) in zwei Unterabteilungen A und B mit 12 und


14 Mitarbeitern der Controlling-Abteilung eines Unternehmens ergab folgendes Ergebnis:
AbteilungA:

122233334445

Abteilung B:

2 3 3 4 4 4 4 5 5 5 5 6 6 7

Wir erhalten daraus


XA =3,00

x. =4,50

S!=1,17
s~=1,68.

Um nun die Varianz der Gesamtabteilung Controlling zu bestimmen, knnten wir die Beurteilungsergebnisse beider Abteilungen zusammenlegen und aus der so entstehenden Gesamtheit die Varianz berechnen. Schneller erhalten wir das Ergebnis, wenn wir zunchst
nach (12: 28)
123,00+144,50
12+14

3,81

bestimmen und dieses Ergebnis in (12: 61) nutzen, um


,
Sg.
zu ermitteln.

121,17+141,68 12(3,00-3,81)' +14.(4,50-3,81)'


12+14
+
12+14

2,00

56

I Deskriptive Statistik

Fr m Teilgesamtheiten, deren jeweilige arithmetische Mittel x"""x m und

Varianzen s~, ... , s~ sowie das Gesamtmittel Xges nach (12: 29) bekannt sind,
berechnen wir die Varianz fr die Gesamtheit n = n 1 + ... + n m nach
2

Sge&

~
Varlam

1{'

= -. L."nk
n k=l

,1
{L."n
'
+ -.

Sk

'Varl:wzhmerhalb

k=l

( _ _ )'

k X k - Xge&

(12: 62)

'~--=''':'"-""",-~:w.-",:-~--~

der TeiJgesamIhelten

den Teilgesamtheiten

wobei der erste Summand hufig als interne Varianz (Varianz innerhalb der
Teilgesamtheiten) oder gewogenes Mittel der Teilgesamtheitsvarianzen (Gewichte n/n) und der zweite als externe Varianz (Varianz zwischen den Teilgesamtheiten) bezeichnet wird. Die angegebene Berechnung wird deshalb
auch als Formel der Streuungszerlegung bezeichnet. An dieser Darstellung
lsst sich gut erkennen, ob sich die Varianz der Daten vor allem durch die
Variation innerhalb der Gruppen oder durch Unterschiede zwischen den
Gruppen ergibt.

Praxishinweis: Auf Finanzmrkten wird hufig die Standardabweichung der


Renditen (nicht der Kurse) als Ma fr die Beschreibung des Risikos verschiedener Finanzanlagen verwendet. Wir sprechen in diesem Zusammenhang von

der Volatilitt (vg).. Abschnitt I 2.2.2.4).


2-2-2A

Exkurs: Volatilitt

Die Einschtzung des Risikos verschiedener Anlagefonnen (Aktien, Anleihen, etc.)

ist in der finanzwirtschaftlichen Praxis von erheblicher Bedeutung, da das mit einer
Anlage verbundene Risiko ein wesentliches Kriterium dafr ist, ob eine Investition
erfolgt oder unterbleibt. Unter Risiko ist dabei allgemein die Mglichkeit eines unerwnschten Ausgangs der Investitionsaktivitt zu verstehen. Da ein unerwnschter
Ausgang von den Prferenzen und Zielsetzungen des Investors abhngig ist, kann
er unterschiedliche Formen, wie etwa den Verlust von Kapital,3 die Verfehlung einer Mindestrendite oder lediglich die Renditeschwankung im Zeitablauf annehmen.
Wie im vorhergehenden Abschnitt erwhnt wurde, wird zur Beurteilung des Risikos
von Finanzanlagen in der Praxis meist die Standardabweichung der Renditen r,
herangezogen 4 Es wird dabei jedoch nicht exakt auf (12: 50) zurckgegriffen, sondern die Volatilit 0 einer Finanzanlage ber
_

0=

{--(

_)'

--'L..,. l j - r

n-1

(12: 63)

j=l

geschtzt. 5 Wie die nachfolgenden Beispiele zeigen, hat dieses Ma vor allem beim
Vergleich der Vorteilhaftigkeit von Wertpapieren und der Beurteilung der Fragilitt
der Lage auf Aktien- und Anleihenmrkten groe Bedeutung.

3 VeIfolgen Investoren das Ziel des Kapitalerhalts, so mssten sie unter Inflationsbercksichtigung keine Mindestrendite von 0 %, sondern eine in Hhe der Inflationsrate anstreben.
4

Zur Renditedefinition vgl. Abschnitt I 2.2.1.5 bzw. die Formeln 02, 35) und 02, 40).

5 Die genaue Bedeutung der Division durch n - 1 anstatt durch n werden wir im Rahmen
der induktiven Statistik in Kapitel III behandeln.

57

2. Eindimensionale Hufigkeitsverteilungen

Beispiel I 2-31

Volatilitt

Die Jahresrenditen einer Aktie A lagen in den Jahren 2002 bis 2006 bei -15, 40, 30, -40
und 35 %. Anhand dieser Daten und einer anderen Aktie B (mittlere Rendite von 6 % und
Standardabweichung der Rendite von 30 % fr den gleichen Zeitraum) wollen wir nun die
Vorteilhaftigkeit des Papiers A beurteilen:

7 =~.(-{l,15+0,40+0,30-0,40+0,35) = 0,10 =10 %


" =

~ 5~ l' [(-{l,15-0,1 0)2 + ... +(0,35-0,1 0)2] = "0,1263 = 35,54 %

Da das Papier B bei niedrigerer Durchschnittsrendite eine niedrigere Standardabweichung


aufweist, hngt die Vorteilhaftigkeit des Wertpapiers A von den Prferenzen des Investors
ab. Ist der Investor bereit, fijr hhere Ertragschancen zustzliche Risiken einzugehen, so
wird er sich fijr Papier A entscheiden.
Wrden beide Papiere unter sonst unvernderten Bedingungen die gleiche Durchschnittsrendite aufweisen, so wre Papier B als vorteilhafter einzustufen, da bei geringerem Risiko
die gleiche Durchschnittsrendite erzielbar ist wie bei Papier A.

Da die "nonnale" Standardabweichung aus (12: 63) auch positive Abweichungen


vorn Durchschnitt bercksichtigt, die ja fr den Investor nicht unbedingt ein Risiko
darstellen mssen, verwendet man zum Teil sog. Downside-Risikomae, welche
nur negative Abweichungen aufnehrnen 6 Zu diesen zhlt etwa die Semi-Volatilitt,
welche wir aus historischen Daten mittels

""

"ml

lL"(-)'
= -,
r,-r
I
n

1=1

schtzen knnen, wobei ii fr die Anzahl negativer Abweichungen von


Beispiel 11 2-32

r steht.

Semi-Volatilitt

ber einen Zeitraum von n = 8 Werktagen ergaben sich fr eine Aktie folgende Renditen
(mit 7 = 0,0025):

r, - r

-0,02
-0,0225

0,02
0,0175

-0,03
-0,0325

0,01
0,0075

0,00
-0,0025

-0,01
-0,0125

0,0075

0,0375

Mit ii = 4 negativen Abweichungen ergibt sich daraus die Semi-Volatilit zu


"Hm'

~. [(-{l,0225)2 +(-0,0325)2 + (-{l,0025)2 +(-{l,OI25)2] = 0,0147.

Diese Semi-Volatilit fllt hier natrlich niedriger aus als die Volatilitt, die auch positive
Abweichungen berOcksichtigt (" = 0, 0225), da erstere nur 4 quadrierte Abweichungen
aufnimmt.

6 Einen umfassenden berblick ber Risikomae und deren Implementierung geben z.B.
Auer, B.R., Seitz, F. (2008). Praktische Anwendungen fmden sich z.B. bei Rottmann, H.,
Franz, T. (2007, 2008).

I Deskriptive Statistik

58

Die volatilitten aus den Beispielen 11 2-31 und 11 2-32 sind nicht direkt miteinander vergleichbar, da (abgesehen von der Tatsache, dass verschiedene Risikomae
verwendet werden) in Beispiel 11 2-31 Jahresdaten und in Beispiel D 2-32 Tagesdaten verwendet wurden. In der Praxis wird daher eine sog. AnnuaJ1s1erung mit

folgenden Formeln vorgenommen:

bei Monatsdaten:

b _ = b _ '/252
O.."..,.uen = a___ .Ji2

bei Quartalsdaten :

'annuaIiIien = (JQualtllldaIeD.

bei Tagesdaten :

J4

hs2

Bit

In Beispiel TI 2-32 ergibt sich somit 0"0DDU1laIer\ = 0, 0225


= 0,3572. Wie wir unschwer erkennen, ist die Zahl unter der Wurzel stets die Anzahl der ZU bercksichtigenden Subperioden. Bei Tagesdaten ist dabei zu beachten, dass Handelstage und
nicht tatschliche Kalendertage zu verwenden sind.
Volatilitaten auf Aktien- und AnleihenmArkten

Bel.plell 2-33

In der Praxis geben uns VolatilitAten vor allem Auskunft Ober die Fragilitt der Lage auf
den Rnanzmarkten. Betrachten wir dazu folgende Tabelle, die die annualisierten Renditestandardabweichungen der Aktienindizes COAX (Deutschland) und S&P 500 (USA) sowie
des REX (Index fOr deutsche Staatsanleihen) fOr die Jahre 2003 bis 2010 zeigt. Die annualisierten Standardabweichungen wurden aus den Tagesrenditen der jjWeiligen Jahre ermittelt, d.h. ihnen liegt die oben behandelte Fonnel a-........I111111 = a-T~"' 252 zugrunde.

2003
2004
2005
2006
2007
2008
2009
2010

CDAl<

S&P 500

REX

27,0746
14,5774

17,0676
11,0935

3,7965
2,7339

11,1793
14,9402

10,2835
10,0253

2,9039
2,5242
2,9950
7,0120
3,7660
3,2983

15,6750

15,9856

38,3501

40,8733

27,5225
18,2851

27,2850
18,0517

Wie deutlich zu erkennen ist. kommt es im Zuge der im Jahr 2008 verstrkt zu Tage
tretenden Finanzmarklkrise auf allen Mrkten (Aklien- und Anleihenmarkl) zu stark gestiegenen VolatililAten. Insbesondere auf dem amerikanischen Aktienmarkl ist eine starke
Steigerung der Renditeschwankungen zu verzeichnen. Selbst die Anleihenmrkle, die gewhnlich durch niedrigere VolatilitAten gekennzeichnet sind, warden durch die Krise in Mitleidenschaft gezogen. Nach 2008 zeigt sich eine Beruhigung der MArkte.
Zur genaueren Analyse (bzw. besseren Verdeutlichung) der sich zeitlich verndemden
Volalilitt auf den Mrkten empfiehlt sich auch eine Betrachtung auf Monatsbasis. Wir berechnen dazu aus den Tagesrenditen fOr jeden Monat des Betrachtungszeitraums die geschtzte Volatilitit und annualisieren diese wiederum mit a-..n"_~ = aTIIg_n .1252 . Die
daraus resultierende Volalilittsentwicklung ist in den nachfolgenden Grafiken abgebildet.
Die monatliche Betrachtung stellt den krisen bedingten Anstieg noch deutlicher dar als die
Betrachtung auf Jahresbasis. Erneut zeigt sich, dass der Volatilittsanstieg auf den Aktienmrkten strker ausfiel als auf den Anleihenmriden. Auch auf Monatsbasis ist eine sich
anschlieende Marklberuhigung zu erkennen.

2. Eindimensionale Hufigkeitsverteilungen

59

w,-----------------------,

w,-----------------------,

.,
'"

.,
.,'"

Ol

...'"
00

01

02

03

04

05

06

f11

(11

0IiI

10 11

w',-----------------------,

.,

.,
.,

00

2.2.2.5

01

02

04

O!i

Oll

fIT

06

Oll

10 11

Variationskoeffizient

Soll die Streuung zweier Verteilungen mit stark verschiedenen Mittelwerten verglichen werden, sind die absoluten Streuungsmae Varianz und Standardabweichung oftmals ungeeignet, da sie nicht das Niveau der Daten bercksichtigen.
Nehmen wir etwa an, wir stellen fr zwei Verteilungen A und B die Mittelwerte
10.000 und 1 und jeweils eine Varianz von 10 fest. Fr Verteilung A wrden wir die
Varianz als gering bewerten, bei Verteilung B hingegen als eher gro. Ohne die
gleichzeitige Betrachtung der Mittelwerte htten wir eine solche Schlussfolgerung
nicht treffen knnen. Zudem ist es in der Regel so, dass die absoluten Streuungsmae bei zahlenmig greren Merkmalswerten grer ausfallen als bei kleineren. So fallt z.B. die Standardabweichung bei Pkw-Preisen hher aus als jene bei
Kaugummi-Preisen, was auch hier einen direkten Vergleich erschwert. Um den-

noch aussagekrftige Vergleiche durchfhren zu knnen, empfiehlt sich die Verwendung sog. relativer Streuungsmae, die das Niveau der Daten bercksichtigen.
Sie werden konstruiert, indem ein Streuungsma zu dem entsprechenden Lagema
ins Verhltnis gesetzt wird. Relative Streuungsmae sind dimensionslose Gren,

d.h. sie besitzen keine Einheit, und sind daher besonders bei Vergleichen von Verteilungen mit unterschiedlichen Maeinheiten wertvoll. Das gebruchlichste relative
Streuungsma ist der Variationskoefflzient VC, der auf der Standardabweichung
und dem arithmetischen Mittel basiert:

VC=lxl

02: 64)

60

I Deskriptive Statistik

Der Variationskoeffizient wird in der Praxis gelegentlich als Ma fr die Streuung


der Wechsel- oder Wertpapierkurse verwendet. Generell hat sich jedoch die Standardabweichung der Renditen als Volatllittsma durchgesetzt.
Beispiel I 2-34

Variationskoeffizient und Aktienvolatilitt

Der Kurs der X-Aktie weist in einem Zeitraum von 200 Handelstagen bei einem Mittelwert
von x=49,30 eine Standardabweichung von s,=35,14 auf. FOr den identischen
Zeitraum ergab sich fOr die V-Aktie ein Mittelwert von y = 385,17 und eine Standardabweichung von s, = 179,55 .
Ein Vergleich der Variationskoeffizienten
VC = s, = 35,14 =0 71
, lxi 49,30
'
VC = s, = 179,55 =0 47
, lyl 385,17
'
zeigt, dass trotz geringerer Standardabweichung die X-Aktie strker streute.

Beispiel I 2-35

Variationskoeffizienten im Basisbeispiel

Fr unser Wechselkursbeispiel I 2-23 erhalten wir folgende Variationskoeffizienten:


A-Dollar:

VC = .!. = 0,0632 = 0 0527


lxi
1,20
'

B-Dollar:

VC=.!.= 0,3286 =0 1643


lxi
2,00
'

Um nun einen umfassenden Variationsvergleich durchfOhren zu knnen, wollen wir die Ergebnisse der bisher berechneten Streuungsmae (unter Zusatzangabe der dabei verwendeten Lagemae) in folgender Tabelle zusammenfassen:

X Mod

x
SP
MA
s'
s
VC

A-Dollar
1,20 A$
1,20 A$

B-Dollar
2,05 B$
2,00 B$

0,20 A$

0,80 B$
0,32 B$

0,06 A$
0,0040A$'
0,0632A$

0,1080 B$'
0,3286 B$

0,0527

0,1643

SP, MA, s' und s sind als absolute Mae der Streuung beim B-Dollar am grten. Auch
der Variationskoeffizient als relatives Streuungsma erlaubt die Schlussfolgerung, dass
der B-Dollar strker streut als der A-Dollar. In diesem speziellen Fall macht es also keinen
Unterschied, ob wir absolute oder relative Mae fr den Streuungsvergleich heranziehen.
Dies lsst sich damit begrOnden, dass hier anders als im Beispiel I 2-34 der Unterschied
zwischen den Mittelwerten nicht sonderlich gro ist. Wir knnten also genau so gut auch
auf die Verwendung relativer Mae verzichten.

61

2. Eindimensionale Hlufigkeitsverteilungen

Weitere relative Streuungsmae lassen sich aus den Quartilen einer Verteilung bestinunen. So wird gelegentlich der sog. Quartilskoefftzient Coder QuartilsdispersionskoeffizienO

QK
berechnet. Unter Verwendung anderer Quantile knnen des Weiteren noch andere
Quanfilsverbltnisse, wie etwa X O9 I~,l oder ~.9 I XO.'l' zur Beschreibung der
Streuung gebildet werden.
BOI-Whisker-Plot

Neben den bisher behandelten Methoden werden in der Praxis zum. Vergleich von n
Verteilungen gelegentlich sog. BoI-Whfsker-Plots eingesetzt. Sie fassen die in ~
einem Datenbestand enthaltene Infonnation mit Hilfe von 5 Zahlen, ~, Ql' x-, Q"
x", zusammen und stellen damit Lage, Streuung, Schiefe und Ausreierwerte der
Verteilung grafisch dar. Wie Abbildung I 14 zeigt, setzt sich ein einfacher BoxWhisker-Plot aus folgenden Bestandteilen zusammen:

Skala der Merkmalswerte ~


Rechteck (Box) vom unteren Quartil Ql bis zum. oberen Quart1l Q,
Senkrechte Striche zur Markierung von Median ~ und der beiden Extremwerte ~ und x..
Waagerechte Striche von der Box zu den beiden senkrechten Extremwertstrichen
Das Zentrum von mit Box-Whisker plots visualisierten Verteilungen wird durch den
Median X- lokalisiert. Die beiden Extremwerte ~ und x.. infonnieren ber den
Datenausdehnungsbereich. Die Box zeigt den zentralen 50 %-Anteil der Daten. Die
linke und rechte Seite der Box stellt jeweils 25 % der Daten dar. Die waagerechten
Striche links und rechts von der Box symbolisieren jeweils 25 % der Randdaten.

SP
Xlll~d

x,

I I

x.

QA
0

Q,

Q,

x,

Abbildung I 14: Einfacher Box-Whisker-Plot


Hinsichtlich der Schiefe der Verteilung lsst sich mit einem Box-Whisker-plot sagen,
dass ein rechts (links) von der Mitte der Box liegender Median eine linksschiefe
Crechtsschiefe) Verteilung aufzeigt. Befindet sich der Median in der Mitte der Box,
liegt eine symmetrische Verteilung vor. Bei einer solchen Vorgehensweise bercksichtigen wir allerdings nur die mittleren 50 % der Beobachtungen zur Beurteilung
der Schiefe.

I Deskriptive Statistik

62

Bei der Interpretation von Box-Whisker-Plots ist zu bercksichtigen, dass die Lnge
der waagerechten Striche von der Box zu den beiden Extrema durch wenige Ausreierwerte stark beeinflusst werden kann. Deswegen werden extreme Werte meist

gesondert behandelt. Dazu werden zunchst sog. Ausreierzune definiert, die zur
Identifikation von Ausreiern dienen sollen. Diesen liegt der Gedanke zugrunde,
dass Werte, die weit auerhalb der Box liegen, als potenzielle Ausreier betrachtet
werden knnen. Wir berechnen den sog. inneren Zaun als
[Q, -1,5'QA; Q, +1,5'QAl
und den sog. ueren Zaun als
[Q, -3'QA; Q, +3QAl.
Mit diesen Zunen knnen wir nun z.B. sagen, dass ein Wert, der ber den inneren

Zaun hinausgeht als potenzieller Ausreier betrachtet werden kann. Ein solcher
Ausreier ist als weniger krass einzustufen als einer, der den ueren Zaun berschreitet. In der Praxis werden fr Werte innerhalb des inneren Zauns BoxWhisker-Plots nach der eingangs beschriebenen Methodik gezeichnet. Treten Werte
auerhalb des inneren Zauns auf, werden diese als Zahlenwerte im plot angegeben, um eine Zu starke Streckung der Grafik ber die Spannweite SP zu vermeiden.
Die senkrechten Striche dienen in einem solchen Plot fr den kleinsten Wert x",
der grer oder gleich Q, -1,5 QA ist, und den grten Wert x.' der kleiner oder
gleich Q, + 1, 5 . QA ist. Abbildung I 15 skizziert dies.
[Q, -1,5'QA; Q, +1,5'QAl
X Med

Liste der xWerte links

des inneren
Zauns

-\'

I I

llste der xWerte rechts

x.

des inneren
Zauns

QA

Q,

Q,

Abbildung I 15: Spezieller Box-Whisker-Plot

2.2.3

Momente und Schietemae

Nach Lage und Streuung ist die Schiefe ein drittes wichtiges Einzelcharakteristikum
von Hufigkeitsverteilungen. Wie wir bereits gesehen haben, fhren die Lageparameter x,..., x.", und x nur bei symmetrischen Verteilungen zu einheitlichen Ergebnissen. Bei asymmetrischen oder schiefen Verteilungen fallen die Ergebnisse auseinander. Die Auswahl und Interpretation von Lagernaen wird hier zum Problem.
Um das Ausma der Schiefe einer Verteilung abschtzen zu knnen, ist es sinnvoll,
die Schiefe anband einer Kennzahl zu messen. Hier bietet sich der Schiefekoeffizient an, der aus dem Konzept der Momente entsteht.

63

2. Eindimensionale Hlufigkeitsverteilungen

2.2.3.1

Empirische Momente

Beim Konzept der Momente handelt es sich um ein einheitliches System von Kennzahlen fr metrische Merkmale, mit dem wir in der Lage sind verschiedene Eigenschaften von HufigkeitsverteUungen (insbesondere auch Lage, Streuung und
Schiefe) zu beschreiben.
Ist eine Urliste ~, ~, ... ,x" gegeben und ist 6 eine natrliche Zahl, so erhalten wir
das sog. 6-te Moment um Null als

m,(O) =- LX:
n

,~

und das zentrale Moment der Ordnung 8 als

m.Ci) = ! t(x j -x)~ .


n~

Einige dieser Momente sind uns bereits begegnet. Das erste Moment um Null entspricht nmlich dem arithmetischen Mittel

ml(O)=!~::X:=x
n

1_1

und das zentrale Moment zweiter Ordnung der Varianz

m~(x) =! t(~
n

_X)l

= Sl.

I_I

Aufgrund der Zentraleigenschaft des arithmetischen Mittels ist das zentrale Moment
erster ordnung immer Null:
_

_,

1~

~(x)=-,L..(x!-x)

2.2.3.2

1_1

1~
_
=-,L..xl-x=O

l-l

Scldefemae

fJi

Fr symmetrische Verteilungen nehmen die zentralen Momente m,ex) ungemd


Ordnung a - 3,5,7, ... den Wert Null an. Aus m 5 (x) =I:. 0 fr ein 6 E (3,5,7, .. J kn- ~
nen wir daher auf eine schiefe Verteilung schlieen. Jedes dieser zentralen Momente ist daher theoretisch zur Messung der Schiefe geeignet. In der Praxis hat sich jedoch ein dimensionsloses Schiefema durchgesetzt. welches auf den zentralen
Momenten m1ex)=sl und m,(x) basiert und als ScbfcfckodBzicnt bezeichnet
winI.
Den Schiefekoeffizient &i berechnen wir in der Urliste als
m 5 ex)

m, (x)

gM=-S-'-= (SlY5 =

1 ~(
_)'
-,L..~-x
~n,,-~,.~,_ _ _=

(l.:t(XI-X)l)''
n

,~

64

I Deskriptive Statistik

Fr die Hufigkeitstabelle gilt

~. thCaj ) . Ca j n

gM =

x)'

j-l

tfCa j ) . Ca j

x)'

_!::j-~1_ _ _ _ _~

(~. thca;). Ca; _ xY)"5 = ( t fca;). Ca; _ xY)"5


n

(12: 69)

Liegt eine Hufigkeitstabel/e mit klassierten Daten vor, so werden zur nherungsweisen Berechnung in (12: 69) lediglich die a, durch die aj und die Hufigkeiten
durch Kiassenhufigkeiten ersetzt.
Eigenschaften des Schiefekoeffizienten:

Die Division durch

S3

generiert ein dimensionsloses Schiefema, welches den

Vergleich zwischen verschiedenen Verteilungen ennglicht.

Die Wahl von 3 an Stelle von 2 als Exponent bei der Abweichungsberechnung im Zhler bewirkt, dass groe Abweichungen strker ins Gewicht fallen
und die Vorzeichen der Abweichungen erhalten bleiben.

Das Vorzeichen des Schiefekoeffizienten gibt Auskunft ber die Schiefe der
Verteilung. Es gilt konkret
gM > 0
gM < 0
gM = 0

~
~

rechtsschief
linksschief
symmetrisch

(12: 70)

Je grer der Betrag IgM Ider Kennzahl ist, desto schiefer ist die Verteilung.
Beispiel I 2-36

Schiefekoeffizient

In einem Konzern mit 50.000 Mitarbeitern wurde von der Personalabteilung aufgrund bevorstehender Entlassungen eine Erhebung zur Anzahl der Kinder je Mitarbeiter (0 bis 3)
durchgefUhrt. Da kinderlose Mitarbeiter aufgrund der sozialen Entlassungspolitik zuerst
ausgestellt werden, sind die Ergebnisse von besonderer Bedeutung.

Es liegt nun dazu folgende HAufigkeitstabelie (mit = 0,77) vor. In diesem einfachen, bersichtlichen Fall kann bereits aus der Hufigkeitstabelle eine Aussage ber die Schiefe
der Verteilung gemacht werden. Aufgrund der kleiner werdenden Werte von f(al), ist nmlich eine rechtsschiefe Verteilung zu vermuten. Bei komplexeren Verteilungen sind konkrete Aussagen jedoch nur noch Ober den Schiefekoeffizenten mglich.

2
3
4

aj

h(a~

f(aj)

aJ-x

f(a;). (aj -

0
1
2
3

24.510
15.430
7.050
3.010
50.000

0,49
0,31
0,14
0,06
1,00

-0,77
0,23
1,23
2,23

0,29
0,02
0,21
0,30
0,82

x)'

f(a;). (a; -0,22


0,00
0,26
0,67
0,71

x)'

2. Eindimensionale Hufigkeitsverteilungen

65

Es ergibt sich daraus ein positiver Schiefekoeffizient von

g,. = 0,7,t, = 0,96,


0,82'
der anzeigt, dass die vorliegende Verteilung rechtsschief ist.

Neben g. existiert in der Literatur eine Vielzahl weiterer Schiefemae. Da er im


Vergleich zu g. unempfindlich gegenber Ausreiern ist, ist davon vor allem der
Schiejequarti/skoejfizlent von Bowley interessant. Er ist definiert als
(Q, gQ =

X M,.) -

(x"", - Q,)

QA

(12: 71)

Auch fr ihn gilt (12: 70) analog. Die Division des Zhlers durch den Quartilsabstand bewirkt eine Nonnierung der Kennzahl auf das Intervall -1 ,:; &, ,:; 1. Bei
ausgeprgter Rechtsscruefe gilt Q, = x."" woraus &, = 1 folgt. Analog gilt bei ausgeprgter Linksschiefe x.", = Q" woraus &, = -1 folgt.

2.2.4

Konzentrationsmessung

In den Wirtschaftswissenschaften bezeichnen wir eine Ballung der Verfgungsgewalt ber Produktionsfaktoren (natrliche Ressourcen, Beschftigte, usw.) oder
eine Ballung wirtschaftlicher Ertrge (Umstze, Gewinne, Einkommen, usw.) in den
Hnden weniger Wirtschaftssubjekte als Konzentration. Konzentration knnen wir
mittels spezieller Mazahlen quantifizieren. Diese lassen sich grob in zwei Klassen
einteilen: Mazahlen der absoluten Konzentration untersuchen, ob der Groteil
des gesamten Merkmalsbetrages (z.B. Umsatz) auf eine kleine Anzahl von Merkmalstrgern (z.B. Unternehmen) entfllt. Jene der relativen Konzentration messen, ob der Groteil des gesamten Merkmalsbetrages auf einen kleinen Anteil von
Merkmalstrgern entfllt.

Ein in der Praxis bedeutendes Einsatzgebiet der Konzentrationsmessung ist die Abschtzung von Ausma und Entwicklung der Ballung wirtschaftlicher Macht auf
einzelne oder wenige Unternehmen (Unternehmenskonzentratton). Die Beherrschung eines Marktes durch wenige groe Unternehmen beeintrchtigt nmlich
den Wettbewerb unter den Unternehmen. Gerade daher hat das Statistische Bundesamt ein Berichtssystem zur kontinuierlichen Beobachtung von Konzentrationsprozessen geschaffen. Zudem existieren mit dem Bundeskartellamt und der Mono-

polkommission Instanzen, die die Unternehmenskonzentration begutachten und


berwachen. Ein weiteres Einsatzgebiet der Konzentrationsmessung ist die Untersuchung der Einkommens- oder Vermgensverteilung von Wirtschaftssubjekten in
einer Volkswirtschaft (Einkommens- und Vermgenskonzentration). Diese ist von
Bedeutung, da sie die Entscheidungsgrundlage fr eine staatliche Verteilungspolitik
liefert. Auch einige betriebswirtschaftliche Fragestellungen lassen sich mit der Konzentrationsmessung beantworten. So knnen Konzentrationsmae z.B. zur Analyse
der Kostenstruktur von Beschaffungsgtern im Rahmen der sog. ABC-Analyse eingesetzt werden. In der Regel konzentriert sich nmlich ein hoher Anteil der Beschaffungskosten auf wenige Gter (sog. A-Gter), die es zu identifizieren gilt, damit ihre Beschaffungspolitik optimiert werden kann.

66

I Deskriptive Statistik

2.2.4.1

Mazahlen der abaoluten Konzentration

Voraussetzung fr viele Verfahren der Konzentrationsmessung ist zunchst, dass


Xz S; S; gilt. Die
sog. Merkmalssurnme MS ergibt sich daraus als

~ die n Merkmalswerte der Groe nach geordnet sind, also ~ S;

MS=

x..

ix,.
,~

Wir untersuchen ausschlielich metrisch skalierte Merkmale X, die nur nJchtnep._


dvc Zahl." als Werte annehmen knnen Cz.B. Unternehmensumstze, Haushaltseinkommen, Kosten von Beschaffungsgtern, usw.) und fr die nicht alle x..
gleichzeitig Null sind. Nur dann knnen wir nmlich die Anteile der einzelnen
Merkmalswerte an der Merkmalssumme
X,

([2, 73)

PI= MS

bestimmen, fr welche aufgrund der Sortierung der einzelnen Merkrnalswerte PI S;


Pz S; s: Pn gilt. Aus diesen Anteilswerten lassen sich die Konzentrationsrate, der
Herfmdahl-Index und der Exponentialindex berechnen:

1. Konzentrationsra:te
Unter der Konzentrationrate (-koeffizient) CR (engL concentration ratio) verstehen
wir den Anteil an der Merkmalssumme MS, der auf die m grten Merkmalstrger
entfllt. Er ist definiert als
CR =

i
i:,.,

x,

1... -",+1

XI

(12, 74)

p,

~_111.+1

und ergibt sich also durch einfache Addition der Anteilswerte der m grten
Merkmalswerte. Das "+ 11 in der Fonnel ergibt sich dadurch, dass wenn wir Z.B. die
3 grten Werte aus einer sortierten Uste von 7 Werten betrachten wollen, wir uns
konkret fr die Werte Ne. 5, 6 und 7 interessieren. Um die Nr. des Startwerts (hier
also 5) zu erhalten, knnen wir also nicht einfach 3 von 7 subtrahieren.
E~genscha.ften

der KonzentraUonsrate:

Die Anwendung von CR ist in der Praxis sehr beliebt, da sich dieses Ma
durch seine einfache Berechenbarkeit auszeichnet.

Durch Beschrnkung auf ein einziges, oft willkrlich festgelegtes m bleibt die
gesamte sonstige, in der Verteilung enthaltene Information unausgeschpft.
Bei der Beurteilung von Konzentrationsunterschieden in verschiedenen Verteilungen knnen wir leicht zu Fehlschlssen gelangen, wenn der Vergleich
ausschlielich fr einen einzigen Wert m durchgefhrt wird. Durch geschickte
Wahl von m kann das Ergebnis eines Vergleichs sogar beeinflusst werden.

Bei Gleichverteilung der Merkmalssumme MS auf die n Merkmalstrger gilt


1

PI = Pl'''=P.. =n

-+

CRm =

:t

1...,-m+1

~=m.
n

(12, 75)

2. Eindimensionale Hufigkeitsverteilungen

67

Beispiel I 2-37

Basisbeispiel zur Konzentrationsmessung

Grundlage fr die Beispiele, die wir in den nachfolgenden Abschnitten verwenden, sind
folgende Tabellen. Sie zeigen 8 Verteilungen {A-H} von Unternehmensumstzen. Betrachten wir z.B. Verteilung D, so knnen wir sagen, dass Firma 4 genau,,", = 280 Mio. Euro
Umsatz bzw. p. = 0,14 = 14 % des Gesamtumsatzes {bzw. der Merkmalssumme MS} aller
5 Unternehmen dieser Verteilung aufweist.
Verteilungen {Umsatz in Mio.}
B
e

A
Firma
1
2
3
4
5
MS

X,

~I

0
0
0
0
2.000
2.000

0,00
0,00
0,00
0,00
1,00
1,00

E
Firma

1
2
3
4
5

X,

PI

440
480
520
560
2.000

0,11
0,12
0,13
0,14
0,50

4.000

1,00

6
7
8
9
10
MS

Xi

400
400
400
400
400
2.000

~I

0,20
0,20
0,20
0,20
0,20
1,00

Xi

120
160
400
600
720
2.000

~I

0,06
0,08
0,20
0,30
0,36
1,00

Verteilungen {Umsatz in Mio.}


F
G
x,
Xi
PI
PI
60
60
80
80
200
200
300
300
360
360
2.000

0,03
0,03
0,04
0,04
0,10
0,10
0,15
0,15
0,18
0,18
1,00

200
200
200
200
200
200
200
200
200
200
2.000

0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
1,00

D
Xi

~I

220
240
260
280
1.000
2.000

0,11
0,12
0,13
0,14
0,50
1,00

H
Xi

1
1
1
1
1
399
399
399
399
399
2.000

PI
0,0005
0,0005
0,0005
0,0005
0,0005
0,1995
0,1995
0,1995
0,1995
0,1995
1,00

Vergleichen wir nun zunchst die Konzentration in den Verteilungen A, Bund e mittels der
Konzentrationsrate fr m = 3, liegt der Anteil der drei grten Unternehmen am Gesamtumsatz in den Verteilungen bei
eR: = Ps +P. +p, =1,00+0,00+0,00 =1,00

e~=~+~+~=~~+~~+~~=~OO

e~=~+~+~=~~+~~+~~=~OO,

was uns zeigt, dass die Verteilung A die hchste absolute Konzentration aufweist. Dies ist
auch nicht verwunderlich, da in dieser der gesamte Umsatz von nur einem Unternehmen
erwirtschaftet wird.

Zur einfachen Veranschaulichung der Manipulierbarkeit des Konzentrationsverhltnisses


bestimmen wir den Anteil der m = I, m = 2 und m = 3 grOten Unternehmen am Gesamtumsatz in den Verteilungen e und D. Wir erhalten damit folgende Werte:

68

I Deskriptive Statistik

CR~ = Ps = 0,36

CR~ =0,50

CRi = Ps +P. = 0,36+0,30 =0,66

CR~ = 0,50+0,14 = 0,64

CRi = Ps +P. +p, =0,36+0,30+0,20 = 0,86

CR~ = 0,50+0,14+0,13 = 0,77

Whlen wir also ein m grer als 1, so ist die Konzentration in Verteilung C hher. Entscheiden wir uns hingegen fiir m = 1, ist die Konzentration bei D hher. Der Leser statistischer Verffentlichungen sollte sich einer derartigen Problematik bewusst sein.

2_ Herfindahl-Index
Der Hetftndahl-Index H ist die Summe der quadrierten Anteile p. der Merkmalstrger an der Merkmalssumme MS. Da alle Anteile p, in die Berechnung eingehen,
mssen diese hier nicht der Gre nach geordnet sein.

i-I

(12: 76)

Eigenschaften des Heifindahl-Index:

Der Herfindahl-Index lsst sich sehr einfach aus nicht sortierten Merkmalsausprgungen berechnen und schpft die gesamten in der Verteilung enthaltenen
Infonnationen aus. Anders als bei der Konzentrationsrate eR kommt es bei
ihm also zu keiner Infonnationsvemachlssigung.

Haben alle Merkmalswerte den gleichen Anteil an der Merkmalssumme, so


liegt minimale Konzentration vor. Der Herfmdahl-Index ist in diesem Fall
gleich l/n. Es gilt nmlich
1

H=n-=-.
n' n

p, = p, = ... = Pn =n

(12: 77)

Im Falle maximaler Konzentration entfllt die gesamte Merkmalssumme auf


einen Merkmalstrger , wobei alle anderen Merkmalstrger einen Anteil von
Null an der Merkmalssumme haben. Der Herfmdahl-Index ist dann 1, da

PI = P2 = ... = Pn-l = 0, Pn = 1

H=1

(12: 78)

gilt. Aufgrund dieser Eigenschaft bewegt sich H im Intervall

~~H~I.

(12: 79)

Zwischen dem Herfindahl-Index und dem Variationskoeffizienten VC bzw.


der Varianz s' lsst sich folgender Zusammenhang feststellen:
1 ( VC,
H = ~.

1
+ 1) = ~.

(s'x'

+1

(12: 80)

In dieser Darstellung fonnulieren wir den Variationskoeffizienten nicht wie in


(12: 64) mit Absolutstrichen, da wir ja unsere Betrachtungen nur auf nichtnegative X, beschrnken.

69

2. Eindimensionale Hufigkeitsverteilungen

Beispiel I 2-38

HerfindahHndex

Fr die Verteilungen A, Bund C aus Beispiel I 2-37 erhaUen wir die folgenden HerfindahlIndizes:

HA = 0,00' +0,00' +0,00' +0,00' +1,00' = 1,00

H" = 0,20' +0,20' +0,20' +0,20' +0,20' = 0,20


He = 0,06' +o,oa' +0,20' +0,30' +0,36' = 0,27
Fr Verteilung A nimml H den Wert 1 an, was maximale Konzentration belegt. FOr Verteilung B erhalten wir 0,20 = 1/5 = l/n, sodass hier minimale Konzentration besttigt wird.
Betrachten wir die Verteilungen D und E, so ist festzustellen, dass eine proportionale Vernderung (z.B. Verdoppelung) der Merkmalswerte keinerlei Auswirkung auf den Herfindahl-Index hat. Es gilt HD = HE = 0,31.
Vergleichen wir die Verteilungen Bund H, zeigt sich, dass das Hinzufgen einer Anzahl
von sehr kleinen Merlkmalstrgern kaum Einfluss auf den Wert des Herfindahl-Index hat.
Es gilt nmlich He = 0,200 und HH = 0,199.
Der Herfindahl-Index der Verteilung B mit He = 0,20 ist doppelt so hoch wie der der Verteilung G mit HG = 0,10. Es macht also einen Unterschied, ob sich die Merkmalssumme
von 2.000 gleichmig Ober 5 oder 10 Merkmalstrger verteilt. hnliches gilt auch fOr die
Verteilungen C (He = 0,2696) und F (HF = 0,1348).

3_ExponentlaUndex
Potenzieren wir alle AnteUswerte p, mit sich selbst und multiplizieren diese Potenzen miteinander, erhalten wir den ExponentIalIndex E als
(12: 81)

Eigenschaften des Exponenttallndex:

pi

Bei Auftreten von Anteilswerten Pi ; ; ; 0 ist

E kann wie der Herfindahl-Index Werte zwischen 1In und 1 annehmen.

;;;;;;

1.

Beispiel I 2-39

Exponentialindex

Fr die Verteilungen A, Bund C aus Beispiel I 2-37 erhalten wir folgende Werte IOr den
Exponentialindex:

EA = 0' 0' 0' 0' 1' = 1


E. = 0,20'20 0,20'20 0,20'20 0,20,,20 0,20,,20 = 0, 20
Ee = 0,06"" + O,Oa"oe + 0, 20,,20 + 0, 30,,30 + 0, 36,,36 = 0, 24
Wie beim Herfindahl-Index wird auch hier bei Verteilung A maximale Konzentration (E = 1)
und bei B minimale Konzentration (E = 0,20 = 1/5 = l/n) besttigt.

70

I Deskriptive Statistik

2.2.4.2

MaRzNen der relativen Konzentration

Das wohl wichtigste grafische Hilfsmittel zur Bestimmung von Konzentrationstendenzen ist die sog. Lorenz-Kurve. Zu ihrer Konstruktion werden n Punkte (UI , VI)
einer in Urlistenform vorliegenden Verteilung bestimmt, zusammen mit einer Diagonalen und einem Punkt (0; 0) in ein quadratisches Schaubild Cvgl. Abbildung I
16) eingezeichnet und miteinander verbunden. Der entstehende Streckenzug heit
Lorenz..Kurve der Konzentration.

VO

r-----------------------------------_o. ~D

v,
v,
~~---~------------------~~

U,

Uo

U,

u,

Abbildung I 16: Konstruktion der Larenz-Kurve


Die n Punkte (UI! VI) werden folgendermaen ermittelt:

Grundvoraussetzung zur Berechnung der genannten Punkte sind wieder eine


der Gre nach sortierte urliste xl:S x 2 S ... S x n und nichtnegative Xi. die eine positive Merkmalssumme MS garantieren.

Die y-Koordinaten VI Ci - 1, "', n) geben die relativen Anteile der Merkmalssumme MS an, den die i kleinsten Merkmalstrger auf sich vereinigen und
werden daher durch Summierung der Anteile PI der i kleinsten Merkmalstrger
an der Merkmalssumme bestinunt:

LXI
I
VI=~=LPI
MS

(12, 82)

J-1

Die x-Koordinaten u, Ci - 1, ... , n) entsprechen den relativen Anteilen der i


kleinsten Merkmalstrger an der Gesamtzahl n der Merkmalstrger:

2. Eindimensionale Hufigkeitsverteilungen

71

Hufig werden die Anteilsstze u, und v, in Prozent ausgedrckt. Die Lorenz-Kurve


verluft dann durch den Ursprung (0; 0) sowie die n Punkte (u, . 100 %; v, . 100 %).
Formal gesehen ist die Lorenz-Kurve eine auf dem Intervall [0; 11 definierte monoton wachsende, konvexe Funktion L(u,) von u" deren Werte die 45'-Diagonale
(Winkelhalbierende) nicht bersteigen. Ein Wert L(u,) . 100 = v, . 100 gibt an, welcher prozentuale Anteil an der Merkmalssumme auf u, . 100 Prozent der kleinsten
Merkmalstrger entfallt. Entsprechend gibt (1 - L(u,)) . 100 = (1 - v) . 100 an, welcher prozentuale Anteil der Merkmalssumme auf (1 - u,) . 100 Prozent der grten
Merkmalstrger entfallt.
Beispiel I 2-40

Lorenz-Kurve

Fr die Umsatzverteilungen A und B aus Beispiel I 2-37 ergeben sich die im Folgenden
dargestellten Koordinaten (u"v,) und die daraus resultierenden Lorenz-Kurven.
Verteilung A

1
2
3
4
5

X;

PI

u,

v,

0
0
0
0
2.000
2.000

0
0
0
0
2.000

1/5=0,20
2/5 = 0,40
3/5 = 0,60
4/5 = 0,80
5/5=1,00

0/2.000 =
0/2.000 =
0/2.000 =
0/2.000 =
2,000/2,000 =

0,00
0,00
0,00
0,00
1,00
1,00

MS = 2.000
n=5

Verteilung B

2
3
4
5

u,

Pi

X;

400
400
400
400
400
2.000

400
800
1.200
1.600
2.000

V,

400 / 2.000 =
800/2.000 =
1.200/2.000 =
1,600/2,000 =
2.000/2.000 =

1/5 = 0,20
2/5= 0,40
3/5= 0,60
4/5= 0,80
5/5=1,00
1,0

1,0

Verteilung A

Verteilung B

0,8

0,8

0,6

0,6

0,'

0,'

0,2

0,2

0,0
0,0

0,20
0,40
0,60
0,80
1,00
3,00

MS -2.000
n=5

0,2

0,'

0,6

0,8

1,0

0,0
0,0

0,2

0,'

0,6

0,8

1,0

72

I Deskriptive Statistik
Die Verteilungen A und B zeigen zwei Extremflle von Konzentration. In Verteilung A liegt
maximale Konzentration vor. Ein Merkmalstrger vereint die gesamte Merkmalssumme auf
sich. Die Lorenz-Kurve verluft bis zum Punkt ((n--I )/n, 0) auf der x-Achse und steigt dann
geradlinig zum Punkt (1; 1) an. Die Funktion ist uerst stark durchgebogen und die Rche zwischen der 45-Diagonale und der Lorenz-Kurve umfasst nahezu die gesamte
Quadrathlfte unterhalb der Diagonalen.
Verteilung B zeigt minimale Konzentration. Jeder Merkmalstrger weist den gleichen Anteil
an der Merkmalssumme auf. Es entfallen auf (iln) . 100 % der kleinsten Merkmalstrger
immer (Vn) . 100 % der Merkmalssumme. Die Lorenz-Kurve fllt mit der 45-Diagonale zusammen und die Flche zwischen Lorenz-Kurve und 45-Diagonale ist logischerweise Null.
Wir knnen daraus schlieen, dass je strker die Konzentration ist,

desto grer ist das FlchenstOck zwischen Diagonale und Lorenz-Kurve,

desto strker ist die Lorenz-Kurve "gebaucht" bzw. desto strker "hngt sie durch".

Betrachten wir auch Verteilung C, stellen wir fest, dass weder minimale noch maximale
Konzentration vorliegt. Die Lorenz-Kurve zeigt hier einen typischen in der Praxis beobachteten Verlauf. Wir wollen nun diese Verteilung nutzen, um die typische Interpretation der
Werte der Lorenz-Kurve zu veranschaulichen. Wir knnen nmlich hier z.B. sagen, dass
auf die U2 . 100 % = 40 % der umsatzschwchsten Unternehmen genau V2 . 100 % = 14 %
des Gesamtumsatzes entfllt. Die (1 - U2) 100 % = 60 % der umsatzstrksten Unternehmen realisieren (1 - V2) 100 % = 86 % des Marktumsatzes.
Verteilung C

1
2
3
4
5

x;

p;

U;

v;

120
160
400
600
720
2.000

120
280
680
1.280
2.000

1/5=0,20
2/5=0,40
3/5 = 0,60
4/5 = 0,80
5/5= 1,00

120/2.000 =
280/2.000 =
680/2.000 =
1.280/2.000 =
2.000/2.000 =

,,0,------------7/
0,8

86 %

0.6
0,4

14 %

0,0

~::::::::-=----_...L

0,0

0,2

40%

0,4

________.l
0,8

0.6

60%

1,0

0,06

0,14
0,34
0,64
1,00
2,18

MS = 2.000
n=5

2. Eindimensionale Hufigkeitsverteilungen

73

Kommt es beim Vergleich der Konzentration zweier Verteilungen anhand ihrer


Lorenz-Kurven zu sich schneidenden Lorenz-Kurven, so kann nicht immer anhand
reiner optischer Analyse ausgesagt werden, welche die strkere Konzentration aufweist. Hilfreich wre also eine aussagekrftige Kennzahl zur Quantifizierung
relativer Konzentration. Wie wir bereits in Beispiel I 2-37 festgestellt haben, ist mit
steigender Konzentration auch eine Zunahme der Flche zwischen 45'-Diagonale
und Lorenz-Kurve verbunden. Diese Flche, die auch als Konzentrationst1che F
bezeichnet wird, kme also theoretisch als Konzentrationsma in Frage. Wie sich
zeigen lsst, knnen wir die Konzentrationsflche ber
1

F=---

(12: 84)

mit

bestimmen? Dividieren wir die Konzentrationsflche F durch die Flche zwischen


der 45'-Diagonalen und der x-Achse (Dreiecksflche mit Flcheninhalt 0,5), so erhalten wir den sog. Gini-Koefflzienten als Ma der relativen Konzentration Zu
G

=...!..= 2F =1- 2V
0,5

(12: 85)

Wir wissen bereits, dass die Konzentrationsflche im Falle minimaler Konzentration


den Wert Null annimmt, da dann 45-Diagonale und Lorenz-Kurve genau aufeinanderfallen. Auch G nimmt im Falle minimaler Konzentration den Wert Null an, da
sich G schlielich direkt aus F ergibt. Bei maximaler Konzentration nimmt F aufgrund der Tatsache, dass die Summe der v, dann gleich 1 ist (vgl. Beispiel I 2-37),
den Wert (n-l)/2n und damit G den Wert (n-1)/n an. Wir knnen damit festhalten,
dass sich G im Intervall
0:S;G:s;n-1
n

(12: 86)

bewegt. Es zeigt sich also, dass selbst im Fall maximaler Konzentration anders als
z.B. beim Herfindahl-Index oder Exponentialindex das Ma G nicht den Wert 1
annimmt, was jedoch eine wnschenswerte Eigenschaft fr ein Konzentrationsma
ist. Da auerdem das Maximum des Gini-Koeffizienten von n abhngt, kann dies
bei Vergleichen von Datenstzen unterschiedlicher Gre problematisch sein. Zur
Korrektur dieser Schwchen des Gini-Koeffizienten wird der Koeffizient daher hufig mit dem Kehrwert von (n-l)/n multipliziert. Wir bezeichnen das dadurch entstehende relative Konzentrationsma auch als normierten Ginl-Koefflzlenten:
G

nonn

=~'G
n-1

(12: 87)

Goo~ weist damit im Falle maximaler Konzentration den Wert Eins auf. Es gilt also
insgesamt

(12: 88)

7 Eine detaillierte Herleitung dieser Pannel ber die Berechnung diverser Dreiecksflchen

unter der Lorenz-Kurve findet sich z.B. in Bleymller, J., Gehlen, G., Glicher, H. (2004),
Kapitel 26.

74

I Deskriptive Statistik

Es lsst sich G und damit ber (12: 87) zudem G"~ auch direkt durch die Daten der
Urliste ausdrcken. So gilt unter Verwendung der Merktnalswerte X,
n

G=

2~>.x, -(n+1)~>,

ntx

1_ 1

(12: 89)

1_ 1
i

und bei Verwendung der Anteilswerte p,

i~)Pi -(n+1)
G

(12: 90)

Zusammengefasst knnen wir fr F, G und Gnorm festhalten, dass alle drei Mae im
Falle minimaler Konzentration den Wert Null annehmen und hohe Konzentration
ntit hohen Werten der Mae einhergeht. Bei maximaler Konzentration ist die Konzentrationsflche fast 0,5 bzw. (n-1)/2n, der einfache Gini-Koeffizient (n-1)/n und
der nonnierte Gini-Koeffizient 1.
Beispiel I 2-41

Gini-Koeffizient aus Urliste

Fr die Verteilungen A, Bund C, deren Lorenz-Kurven wir in Beispiel I 2-40 skizziert


haben, ergeben sich die in folgender Tabelle dargestellten relativen Konzentrationsmae.
Wir knnen darin sehr schn erkennen, dass die Formel (12: 94) zur Bestimmung des normierten Gini-Koeffizienten aus dem einfachen Gini-Koeffizienten exakt funktioniert, da im
Falle der Verteilung A genau ein Wert von 1 (maximale Konzentration) resultiert.
Verteilung A

(V -

F
G

Gnorm

1,00 - 0,50 - 0,50)


.1._ 0,50 =0 40
2
5
'

Verteilung B
!V - 3,00 - 0,50 - 2,50)

.1._ 2,5=000
2

'

.1._ 1,68=016
2

0,00=000
0,50
'
5
0,00- =0,00
5-1

0,40 =0 80
0,50
'
5
0,80-=1,00
5-1

Verteilung C
!V - 2,18 - 0,50 - 1,68)

'

0,16=032
0,50
'
5
0,32-=0,40
5-1

Die bisher behandelten Formeln haben sich auf die Konstruktion der Lorenz-Kurve
und die Bestimmung des Gini-Koeffizienten aus der Urliste bezogen. Liegt nun
aber keine Urliste, sondern eine Hujigke/tstabel/e vor, so gilt fr die Ermittlung
der nun k Punkte CUp v) der Lorenz-Kurve zunchst
,

Vi

L P; =
;=,

:th(al ) a l
.'-1_.0..'- - -

MS

mit

MS = LhCa;) a;

(12: 91)

j=l

Die v, werden also mit den auf die einzelnen Ausprgungen entfallenden Merkmalssummen h(a~ . al gebildet. Die u, erhalten wir durch Sumntierung der relativen
Hufigkeiten f(a~ der relevanten Merktnalsausprgungen:

75

2. Eindimensionale Hufigkeitsverteilungen

(12: 92)
Unter Verwendung dieser Werte erhalten wir die Konzentrationsflche F zu
1

1=1

F = - - - ~)(a) . (Vi

+ Vi_I)

(12: 93)

und dantit den Gini-Koeffizienten


k

G=l- ~)(a).(vi
i_I

+ Vi_I)

(12: 94)

Formel (12: 94) ist natrlich auch auf die Urliste anwendbar, wenn wir die relativen
Hufigkeiten durch 11n ersetzen und die v, nach (12: 82) bestinunen.
Zur Berechnung von G aus einer Hufigkeitstabelle empfiehlt sich die Verwendung
der Arbeitstabelle aus Abbildung I 17. Den normierten Gini-Koeffizienten erhalten
wir durch Einsetzen von (12: 94) in (12: 87).

a,

h(a)

fCa)

h(a,) ai

MS

Lh(a,).a,

,-,

u,

v,

VI

+ V 1_ 1

f(a i ) (Vi + Vi_I)

1:

Abbildung I 17: Arbeitstabelle zur Berechnung des Gini-Koeffizienten


Beispiel I 2-42

Gini-Koeffizient aus Hufigkeitstabelle

Eine statistische Untersuchung ergab, dass sich in einem Land 61 Firmen einen 300 Mio.
Euro Markt fr Schweinehlften wie folgt teilen:
Umsatz in Mio. Euro
ai
1
2
3

Anzahl der Firmen


h{a~

40
10

5
5

200
300

61

Berechnen wir nun daraus den normierten Gini-Koeffizienten und versuchen, darauf basierend, Aussagen ber die Konzentration auf diesem Markt zu machen:

76

I Deskriptive Statistik

,
a;
1
2
3
4
5

1
2
3
5
200

h{a;)

I{a;)

40
10
5
5
1
61

0,66
0,16
0,08
0,08
0,02
1,00

h{a,)' a,

Lh{al)al

u;

v;

40
60
75
100
300

0,66
0,82
0,90
0,98
1,00

0,13
0,20
0,25
0,33
1,00

1_'

40
20
15
25
200
300

Vi

+ Vi-1

!(a;) (v; + V;-1)

0,13
0,33
0,45
0,58
1,33

0,09
0,05
0,04
0,05
0,03
0,26

Es ergibt sich daraus


k

G = 1- LI{a,) . (v, +v,_,) = 1-0,26 = 0,74

,-,

norm

n
61
=-G=--074=075
n-1
61-1'
I

Die Konzentration auf diesem Markt kann also als sehr stark angesehen werden, was nicht
verwunderlich ist, da ein Unternehmen 2/3 des Umsatzes auf sich vereint.

Bei Vorliegen klassierter Daten sind fr die Konstruktion der Lorenz-Kurve


folgende Besonderheiten zu beachten:
Fall 1: Sind fr jede der k Klassen die Klassenhufigkeiten hl und die auf die Klas-

sen entfallenden Merkmalssummen

bekannt, so gehen wir wie soeben beschrie-

ben vor, d.h. wir verwenden die Klassenmerkmalssummen in (12: 91). Sind die
arithmetischen Mittel der Klassen gegeben, so ist entsprechend m l = h l . x fr die
J
jeweilige Merkmalssumme der Klasse j Zu verwenden. Die Berechnung der u, erfolgt unter Verwendung der h, bzw. f, analog Zu (12: 92).
Fall 2: Liegen nur Klassenhufigkeiten und -grenzen vor, behelfen wir uns damit,

fr das arithmetische Mittel der Klassen die jeweiligen Klassenmitten


heranzuziehen.

(a~

+ a~) / 2

Die Berechnung des Gini-Koeffizienten kann im Falle klassierter Daten analog zu

(12: 94) unter Verwendung relativer Klassenhufigkeiten


aus Abbildung I 17 durchgefhrt werden.
Beispiel I 2-43

f, und der Arbeitstabelle

Gini-Koeffizient aus klassierter Huligkeitstabelle

Betrachten wir lolgende liktive Einkommensverteilung. Die lr 7,6 Mio. Brger erhobenen
Einkommen sind in 4 Einkommensklassen eingeteilt. Fr jede der Klassen liegen die Anzahl hl (in Mio.) und der Anteil II der Brger vor, die in diese Klasse lallen. Auerdem kennen wir die Einkommenssumme mj (in Mrd. Euro), die den Brgern einer Klasse zulliet,
sowie den Anteil pj dieser Summe am Gesamteinkommen aller 7,6 Mio. Brger.
Einkommensklasse

ber a~ bis af
1
2
3
4
E

5.000
9.000
13.000

5.000
9.000
13.000
35.000

Einkommensbezieher
hl
2,0
2,0
1,8
1,8
7,6

II
0,26
0,26
0,24
0,24
1,00

Einkommen pro Klasse


ml
5
11
11

25
52

PI
0,10
0,21
0,21
0,48
1,00

77

2. Eindimensionale Hufigkeitsverteilungen

Hier erleichtert sich die Berechnung der Werte u, und v, erheblich, da die zur Kumulation
bentigten Daten fj und pj bereits vorliegen. Durch eine Kontrollrechnung wie P1 = m, / MS
= 5 / 52 = 0,10 erkennen wir jedoch, dass sich dahinter genau die geschilderte Vorgehensweise (Fall 1) verbirgt.
Zur Berechnung des Gini-Koeffizienten stellen wir die folgende Arbeitstabelle auf:

1
2
3
4

f,

p,

u,

v,

V 1+VI_1

f,,(v,+vl-1)

0,26
0,26
0,24
0,24
1,00

0,10
0,21
0,21
0,48
1,00

0,26
0,52
0,76
1,00

0,10
0,31
0,52
1,00

0,10
0,41
0,83
1,52

0,03
0,11
0,20
0,36
0,70

Daraus ergibt sich ein Gini-Koeffizient von G = 1 - 0,70


0,30. Es liegt also eine
relativ schwach ausgeprgte Konzentration vor. Eine Normierung des Gini-Koeffizienten ist
hier nicht erforderlich, da der Normierungsfaktor aufgrund des hohen Wertes fijr n
(7.600.000) ziemlich genau bei 1 liegt.

Wir haben bisher gesehen, dass wir relative Konzentrationsmae fr komparative


Konzentrationsuntersuchungen verschiedener Verteilungen einsetzen knnen.

Kritisch ist in diesem Zusammenhang jedoch anzumerken, dass der Lorenz-Kurve


und dem Gini-Koeffizienten gewisse Grenzen gesetzt sind. Die Anstze fhren zu
eindeutigen Ergebnissen, wenn fr zwei Verteilungen A und B die Lorenzkurve der
Verteilung A stets unterhalb der von B liegt. Es gilt dann offensichtlich GA > GD' Bei
sich schneidenden Kurven knnen nun jedoch Kompensationseffekte auftreten, so
dass GA = GD gilt. Die Ergebnisse sind in einem solchen Fall schwer interpretierbar,
wie das folgende Beispiel verdeutlicht. Eine Konzentrationsmessung sollte daher
nicht allein durch den Gini-Koeffizienten erfolgen, sondern durch die Lorenz-Kurve
untersttzt werden.
Beispiel I 2-44

Grenzen des Gini-Koeffizienten

Zwei Mrkte A und B werden durch 10 Unternehmen beliefert. Auf Markt A besitzen 9 Unternehmen einen 50/9 % Marktanteil. Der Marktanteil des 10. Unternehmens betrgt 50 %.
Auf Markt B weisen 5 Unternehmen jeweils einen 2 % und 5 Unternehmen jeweils einen
18 % Marktanteil auf. Die nachfolgende Grafik zeigt, die zugehrigen Lorenzkurven.

"0,------------....,,
,.
,:/.
0,8
,, ./
0,6

,,

,:

/
/

,'.", ..... A

0,4
/

0,2

.....

",''1
,,

"

'
B
0,0 .....:.--::.--------------'
/

". "': __ -- .. ----

0,0

0,2

0,4

0,6

0,8

1,0

78

I Deskriptive Statistik
Rein optisch erkennen wir sofort, dass die Konzentrationsflchen FA und Fe identisch sind.
Wir knnen zudem leicht berechnen, dass GA = Ge = 0,4 gilt. Obwohl also auf Markt A die
deutlich strkere Konzentration vorliegt, wOrden wir durch einen Vergleich der GiniKoeffizienten zu dem Schluss gleicher Konzentration kommen. Die Gini-Koeffizienten allein
reichen also zum Vergleich nicht aus.

Beschlieen wollen wir diesen Abschnitt mit einer kurzen Diskussion der unterschiedlichen Reaktion absoluter und relativer Konzentrationsmae auf nderungen
der zugrunde liegenden Verteilungen:
Fr die Verteilungen E und D aus Beispiel I 2-37 ergibt sich derselbe Wert fr den
normierten Gini-Koeffizienten. Dieser ist somit wie auch der Herfmdahl-Index invariant gegenber einer proportionalen Vernderung des auf die einzelnen Merkmalstrger entfallenden Merkmalsbetrages.
Beim Vergleich der Hetfindahl-Indizes der Verteilung Bund G ergab sich HB = 0,20
und HG = 0,10, d.h. ein doppelt so hoher Indexwert (vgl. Beispiel I 2-38). Es macht
also einen Unterschied, ob sich die Merkmalssumme von 2.000 gleichmig ber 5
oder 10 Merkmalstrger verteilt. Vergleichen wir die normierten Gini-Koeffizienten
beider Verteilungen, so erhalten wir in beiden Fllen den Wert Null.
Ein Vergleich von Verteilung Bund H hatte beim Hetfindahl-Index nahezu denselben Wert ergeben. Der normierte Gini-Koeffizient reagiert jedoch auerordentlich empfindlich auf die Hinzufgung von fnf Firmen mit ganz geringem Anteil
am gesamten Merkmalsbetrag. Whrend sich fr die Verteilung B ein Wert von
G_ = ergab, erhalten wir fr Verteilung H den Wert G_ = 0,55. Diese Eigenschaft des normierten Gini-Koeffizienten ist jedoch nicht als Schnheitsfehler anzu-

sehen. Sie zeigt auf, dass in der praktischen Anwendung der Untersuchungszweck
ber die Wahl absoluter oder relativer Konzentrationsmae entscheiden sollte:

Wird die Stellung von Unternehmen auf einem Markt analysiert, so wird der Markteintritt umsatzschwacher Unternehmen den normierten Gini-Koeffizienten stark er-

hhen, wohingegen der Hetfindahl-Index nahezu unverndert bleibt. Ist also die
Analyse von Wettbewerbsprozessen Untersuchungsgegenstand, so ist die Verwendung absoluter Konzentrat/onsmae zu empfehlen. Die Marktmacht der etablierten
Unternehmen wird durch die Markteinritte umsatzschwacher Unternehmen trotz in-

tensiveren Wettbewerbs zunchst nicht empfindlich beeintrchtigt werden. Deshalb


ist ein Konzentrationsma whlen, das sich kaum verndert. Ein relatives Konzentrationsma wie der Gini-Koeffizient wrde hingegen in einer solchen Situation
stark ansteigen und eine zunehmende Konzentration und damit schwcheren Wettbewerb anzeigen.
Bei der Darstellung von E/nkommensvene/lungen ist die letztgenannte Eigenschaft
relativer Konzentrationsmae eventuell problematisch. Die dabei verwendeten Daten werden blicherweise der Einkommensteuerstatistik entnommen. Wird der
Mindestbetrag angehoben, ab dem die Steuerpflicht besteht, fallen am unteren
Ende der Verteilung ein Teil der bisher Einkommensteuerpflichtigen heraus, d.h.
sie werden bei der Untersuchung nicht bercksichtigt. Damit verschiebt sich die
Lorenz-Kurve nach links, obwohl sich an der Verteilung der Einkommen nichts gendert hat. Vor allem bei internationalen Vergleichen ist daher grte Vorsicht geboten. Hhere oder niedrigere Konzentration der Einkommen hngt vielfach vornehmlich davon ab, welche Untergrenze in den einzelnen Lndern besteht. Da auf-

2. Eindimensionale Hufigkeitsverteilungen

79

grund der Grenunterschiede zwischen den Lndern und aus inhaltlichen Erw-

gungen hier relative Konzentrat/onsmae zu empfehlen sind, ist nun der Gebrauch
der Lorenz-Kurve und des nonnierten Gini-Koeffizienten nicht von vornherein ab-

zulehnen. Vielmehr ist bei der Interpretation der Ergebnisse auf solche Probleme
zu achten.

Zweidimensionale
Hufigkeitsverteilungen

Im vorhergehenden Abschnitt haben wir gesehen, dass durch die Erfassung nur eines
Merkmals von einer Grundgesamtheit von Merkmalstrgem eindimensionale Hufigkeits-

verteilungen entstehen, die sich durch eine Reihe von Kennzahlen charakterisieren lassen. Werden mehrere Merkmale erfasst, entstehen mehrdimensionale Hufigkeitsverteilungen. Auch diese knnen durch gewisse Mazahlen komprimiert dargestellt werden.
Diese Mazahlen und Grundlagen derartiger Verteilungen sind Thema dieses Abschnitts.

3.1 Grundlagen
In vielen statistischen Untersuchungen werden bei statistischen Einheiten gleich-

zeitig mehrere Merkmale erfasst. So kann etwa bei einer personenbezogenen Erhebung sowohl Einkommen, Geschlecht, Alter, Bildung, Berufserfahrung, u.. aufgezeichnet werden. hnliche Beispiele finden sich auch bei der Analyse von Unternehmen (Umsatz, Gewinn, Investitionen, Beschftigtenzahl, ... ), der Ertragsfhigkeit landwirtschaftlicher Nutzungsflchen (Ertrag je Hektar, Dngemitteleinsatz, .. .)
oder dem Bremsverhalten von Fahrzeugen (Geschwindigkeit, Bremsweg, ... ). Fr
jeden der n Merkmalstrger wird also ein m-Tupel von Merkmalswerten betrachtet.
Die Drliste muss daher n m Einzeldaten enthalten.
Bei solchem Datenmaterial ist hufig von Interesse, ob es Zusammenhnge zwischen den auftretenden Merkmalen gibt und wie stark diese sind. Wir stellen uns
also die Frage, ob es eine wechselseitige Abhngigkeit zwischen den Merkmalen
gibt. Auf die Beantwortung solcher Fragestellungen werden wir im Abschnitt I 3.2
CKorrelationsanalyse) nher eingehen. Im Folgenden mssen aber zunchst grundlegende Begriffe wie Kontingenztabelle, Randhufigkeit, bedingte Hufigkeit und
Streuungsdiagramm geklrt. werden. Wir beschrnken uns dabei auf zweidimensionales Datenmaterial (m - 2).

3.1.1

Kontlnganztaballa

Werden bei n statistischen Einheiten die Merkmale X und Y mit den Ausprgungen
~,Xz, ... ,x" und Y1'Y1' ... 'Yn erhoben, so erhalten wir fr die i-te statistische Einheit ~
einen Merkmalswert ~ der Variablen X und einen Merkmalswert Yj der Variablen Y.
Zur i-ten statistischen Einheit gehrt somit ein Wertepaar (:x;, y). Die Ur&te besteht daher aus allen n zweidimensionalen Wertepaaren (:x;, y) fr i - 1,2, ... ,n.
Aus Grnden der bersichtlichkeit kann die DrUste allgemein in zwei Formen dargestellt werden. Erstens kann ein sog. St:reud:iagramm erstellt werden, in welchem
alle n Wertepaare Cx" y) als Punkte in ein Koordinatensystem eingetragen werden
(vgL Abbildung I 18). Diese Vorgehensweise empfiehlt sich allerdings nur, wenn
sich alle oder fast alle Wertepaare voneinander unterscheiden.
B. Auer, H. Rottmann, Statistik und konometrie fr Wirtschaftswissenschaftler,
DOI 10.1007/978-3-658-06439-6_3, Springer Fachmedien Wiesbaden 2015

82

I Deskriptive Statistik

y! ------ --- -- --- ----- ----~ ----- -----.

P(X"y,)

x
Abbildung I 18: Streudiagramm
Zweitens kann eine sog. Kontl:ngenztabelle aufgestellt werden, wobei es sich um
eine tabellarische Darstellung der Hufigkeitsverteilung handelt. Sie sollte herangezogen werden, wenn viele Wertepaare identisch sind. Da sie auerdem Grundlage
fr weitere Analysen des erhobenen Datenmaterials ist, wollen wir uns im Folgenden nher mit ihr beschftigen. Da es sich bei einer Kontingenztabelle um eine
Hufigkeitstabelle handelt, bezeichnen wir in dieser die verschiedenen Ausprgungen des Merkmals X mit a. Ci - 1,2, ... ,k) und jene des Merkmals Y mit bJ
Ci - 1,2, ... ,r). Zur Erstellung der Kontingenztabelle ist auszuzhlen, bei wie vielen
Beobachtungswerten der Drliste die Ausprgungskombination (a,. b) auftritt. Der
resultierende Zahlenwert wird als gemdnsam.c absolute Hliuflgkdt h(a" b) oder
h.(a" b) der Kombination (a,. b) bezeichnet, die wir im Folgenden zumeist mit ~
abkOtzen. Fr diese gilt wie bei eindimensionalen Huflgkeitsverteilungen. dass sie
zwischen Null und n liegen und ihre Summe n ergeben muss:
OSh~

Sn

Die gemdnsame relative HIu6gkdt fCa., b) oder f.,(a., b) bzw. abgekrzt f~ ist
der Anteil der Beobachtungswerte in der UrUste, bei denen die Kombination (a,. b)
auftritt. Die Regeln eindimensionaler Verteilungen, also im Detail U2: 3), (12: 4) und
02: 5), knnen daher analog bertragen werden:
h
f~ =----'l
n

03,2)

Die tabellarische Darstellung dieser k . r Huftgkeiten (absolut oder relativ) mittels


Abbildung I 19 nennt man Kontl:ngenztabelle oder Kreuztabelle. Die Menge aller
Tripel (apbJ,ty bzw. (a.,1~i!:::rei - 1, ... ,k und j - 1, ... ,r bildet die sog. zweidimensionale absolute bzw.
Hilufigke.J'Siuh JblOl von X und Y. Gelegentlich
wird auf dreidimensionale Stabdiagramme zur grafischen Darstellung zweidimensionaler Hufigkeitsverteilungen zurckgegriffen (vgl. Beispiel I 3-1). Im Falle klassierter zweidimensionaler Hufigkeitsverteilungen kommen dabei auch dreidimensionale Histogramme zum Einsatz, deren Praxisrelevanz jedoch eher gering ist.

3. Zweidimensionale Hufigkeilsverteilungen

~n
von Y

83

b,

b,

b,

a,

hu

h"

h"

a,

h"

h"

h"

a"

h",

h.,

Ausprgungen
von X

Abbildung I 19: Kontingenztabelle


Im Falle ordinal- oder metrisch skalierter Daten ist auerdem die Definition der ab-

soluten kumulIerten gemeinsamen Hufigkeit


H(x,y)=H(X:S;x,Y:S;y)=

L L h(ai,b

03: 3)

j)

llj:!!OIbj:!i:y

(kurz H,) sinnvoll, fr welche


O:S;H(x,y):S;n

und

03: 4)

H(X:S;ak,Y:S;b,)=n

gilt. Sie gibt die Anzahl der Merkmalstrger an, die bei Merkmal X hchstens die
Ausprgung x und gleichzeitig bei Merkmal Y hchstens die Ausprgung y aufweisen (zur ungewhnlichen Summenschreibweise vgl. Abschnitt I 2.1.2).
Analog ergibt sich die relative kumulIerte gemeinsame Hufigkeit F(x, y) (kurz
F~. Sie gibt den Anteilssatz der Merkmalstrger an, deren Merkmale X und Y beliebig vorgegebene Zahlenpaare (x, y) nicht bersteigen:
F(x,y)= F(X:S;x,Y:S;y)=

03: 5)

Lf(ai,b j )

:lf:!>IbJ:S:y

Wir sprechen bei F(x, y) auch von der gemeinsamen empirischen Verteilungsfunktion der Merkmale X und Y. Sie nimmt stets Werte im Intervall [0; 1] an.
Beispiel I 3-1

Konlingenzlabelle

Von 80 Studienanfngern wurden die Abiturnoten in den Fchern Mathematik (X) und Englisch (Y) erfasst. Aus der Erhebung ergab sich die folgende bereits geordnete Urliste:
(1;1), (1;1), (1;1), (1;1), (1;2), (1;2), (1;3), (1;3), (1;3)
(2;1), (2;1), (2;1), (2;2), (2;2), (2;2), (2;2), (2;2), (2;3), (2;3), (2;3), (2;3), (2;3), (2;3), (2;3),
(2;3), (2;4), (2;4), (2;5), (2;5)
(3;1), (3;1), (3;2), (3;2), (3;2), (3;2), (3;3), (3;3), (3;3), (3;3), (3;3), (3;3), (3;3), (3;3), (3;3),
(3;3), (3;3), (3;3), (3;3), (3;4), (3;4), (3;4), (3;4), (3;4), (3;4), (3;4), (3;4), (3;4), (3;4), (3;5),
(3;5), (3;5)
(4;1), (4;1), (4;2), (4;2), (4;2), (4;3), (4;3), (4;3), (4;4), (4;4), (4;4), (4;4), (4;4), (4;5)
(5;3), (5;3), (5;4), (5;5), (5;5)

84

I Deskriptive Statistik
Eine Aufbereitung dieser Urliste liefert die folgende Kontingenztabelle:

Mathematiknote

2
3
4

1
4
3
2
2

2
2
5
4

Englischnote Y
4
3
3
8
2
13
10

3
2

5
2
3

5
2

Die Anzahl der Studenten, die sich z.B. sowohl mit einer Eins in Mathematik als auch in
Englisch auszeichneten, lag somit bei 4.
Da hier Wertepaare hufiger auftreten, ist ein Streudiagramm nicht zur Visualisierung der
Hufigkeitsverteilung geeignet. Ein dreidimensionales Stabdiagramm (komfortabel erzeugbar mit dem Befehl "stem3" in der Software Matlab 2009a) ergbe im vorliegenden Fall folgende Gestalt:

4
5

Interessieren wir uns dafOr, wie viele Studenten im Fach Mathematik nicht schlechter als
Drei und in Englisch nicht schlechter als Zwei waren, knnen wir diese Hufigkeit aus einer
Tabelle ablesen, die die absoluten gemeinsamen Hufigkeiten kumuliert:

Mathematiknote
X

2
3
4
5

4
7
9
11
11

Englischnote Y
3
9
25
20
44
25
52
25
54
2
6
14

4
9
27
56
69
72

5
9
29
61
75
80

Als Summe der Hufigkeiten im grau schattierten Bereich der Kontingenztabelle erhalten
wir die kumulierte gemeinsame Hufigkeit 20, d.h. genau 20 Studenten sind in Mathematik
nicht schlechter als Drei und gleichzeitig in Englisch nicht schlechter als Zwei. Obige
Tabelle zeigt auerdem auf, dass H{s., b,) = n = 80 gilt. Dividieren wir die Werte der Tabelle durch 80, erhalten wir die relativen Hufigkeiten der gemeinsamen empirischen Verteilungsfunktion.

85

3. Zweidimensionale Hufigkeitsverteilungen

3.1.2

Randhuligkeilen und -verteilungen

Die Bestimmung sog. lIa.ndhAu:6gkeitcn in einer Kontingenztabelle erfolgt duoch lFll


Bildung der Zeilen- und Spaltensummen der gemeinsamen Hufigkeiten. Durch ~
dieses Summieren der gemeinsamen Huflgkeiten wird jeweils ein Merkmal neliminiert", sodass innerhalb der zweidimensionalen Hufigkeitsverteilung die eindimensionalen Huftgkeitsverteilungen von X bzw. Y mit abgebildet werden.
Im Folgenden bezeichnen wir die Anzahl derjenigen Merkmalstrger, die bzgl. des
Merkmals X die Ausprgung a. aufweisen (gleichgltig welches die jeweilige Ausprgung des Merkmals Y isO, mit h(a) und entsprechend die Anzahl derjeniger
Merkmalstrger, die bzgl. des Merkmals Y die Ausprgung bJ aufweisen, mit h(b~.
Fr diese absoluten Randhuftgkeiten (relative Randhuftgkeiten analog) gilt damit
fonnal

h(a,) =

i>"

fr i = 1,2, ... ,k

,"'

und

h(b,) = ~>. fr j = 1,2, ... ,r.


,~

Die Zeilensummen (hufig auch bezeichnet mit hJa) oder h i .) liefern also die
Huflgkeiten der eindimensionalen Verteilung des Merkmals X und die Spaltensummen (huflg auch bezeichnet mit h,(b~ oder h. J ) die Huflgkeiten der eindimensionalen Verteilung des Merkmals Y. Diese bilden zusammen mit den jeweiligen Merkmalsausprngungen die sog. RandietlelbJOgcn von X und Y und sind in
Abbildung I 20 dargestellt. Da sie eindimensionale Verteilungen sind, knnen auf
sie die bereits behandelten Auswertungsmglichkeiten angewendet werden.
y

a,
a,
X

..
a,

Spaltensununen
(Randverteilung Y)

h"
h.

...
...
...

h,

h"

...

h"
h(b,)

h.

... h" ... h.


... h(b? ... h(b)

b,

b,

h"
h"

h(b,)

Zeilensummen
(Randverteilung X)

h"
h,

...
...
...

h"
h.

h(a l )

h,

.. .

h"

h(a,)

b,

h(a,)

h(a,)
n

Abbildung I 20: Kontingenztabel1e mit Randhufigkeiten


Die relativen Randhufigkeiten ffa) und

~)=~)
n

f(b~

bestimmen wir wie bisher ber

~)=~)
n

~m

I Deskriptive Statistik

B6

Eine wichtige Eigenschaft der absoluten Randhufigkeiten ist aus Abbildung I 20


abzulesen. So ist die Summe der Zeilensununen stets gleich der Swnm.e der Spaltensummen. Dies gilt auch fr die relativen Randhufigkeiten.

Beispiel I 3-2

Konllngenzlaballe und Randvertellungen

Fur die Kontingenztabelle der Schulnoten aus Beispiel I 3-1 ergibt sich:
Englischnote Y

Mathematikn018
X

h(bU

1
2
3
4
5

1
4
3
2
2

2
2
5
4
3

11

3
3
8
13
3
2
29

14

2
10
5
1
18

2
3
1
2
8

h(al)

9
20
32
14

5
80

Daraus lassen sich nun die eindimensionalen HAufigkeitsverteilungen der Englisch- und

MBlhematiknoten ableiten, fUr die wieder die bekannten Kennzahlen berechenbar sind:
Englischnote
HAufigkon h(bJ

3_1_3

,.
2

11

MathemaUknote

HAufigkeit h(BI)

20

29

18

3
32

4
14

5
5

Bedingte Huligkeiten und Verteilungen

Bei der Untersuchung des Zusanunenhangs zweier Merkmale X und Y spielen die
sog. bedJngten Hi'...ftgkeJten eine besondere Rolle. Sie geben an, mit welcher
relativen Huftgkeit eine Ausprgung eines Merkmals auftritt, wenn (unter der Bedingung, dass) das andere Merkmal auf einem bestimmten Wert festgehalten wird.
Die relative Hufigkeit der Ausprgung aj des Merkmals X unter der Bedingung.
dass das zweite Merkmal Y die konstante Ausprgung b j besitzt, bezeichnen wir im
Folgenden mit f,.(a, I b j ) fr i - 1.2 ..... k. Anders ausgedrUckt. betrachten wir also
die relative HufIgkeit. mit der die Ausprgung a,. bei denjenigen Merkmalstrgem
auftritt, die bzgl. des Merkmals Y die Ausprgung bJ aufweisen. Analog verwenden
wir f,.(b j I a,) fr j - 1.2 ... ,r. Diese bedingten Hufigkeiten knnen leicht aus einer
vorliegenden Kontingenztabelle errechnet werden. Sie entstehen durch Division
der gemeinsamen Hufigkeiten durch die entsprechenden Zeilen- oder Spalten-

3. Zweidimensionale Hufigkeitsverteilungen

87

summenhufigkeiten (Randhufigkeiten der Bedingungen). Es spielt dabei keine


Rolle, ob absolute oder relative Hufigkeiten zur Berechnung der bedingten Hufigkeiten herangezogen werden.

hij
-

h.

Va, I b j ) =

h(~I) = h(~j) = f(~I)

(13: 10)

h
h 'l

'l

f
f(b l a ) - - - - - - -'ly I I - h(a) - h(a) - f(a)
~

(13: 11)

Wie im unbedingten Fall, sind die bedingten relativen Hufigkeiten auf Eins normiert, d.h. es gilt
k

(13: 12)

LVa, I b j ) = Lfy(b j I a,) = 1.


1=1

j=l

Beispiel I 3-3

Bedingte Hufigkeiten

Eine Befragung von 1.000 berufsttigen Personen (Freiberufler, Angestellte, Beamte, ... )
ergab unter anderem, dass 250 Freiberufler nie beim Einzelhndler A einkaufen. Insgesamt meiden 500 der Befragten den besagten Einzelhndler. Die Anzahl der befragten
Freiberufler lag bei 400.
Wir erhalten aus diesen Angaben folgende (unvollstndige) Kontingenztabelle:
Einkaufsverhalten
Berufsgruppe
Freiberufler (= a,)

...

Randhufigkeiten

Nie bei Einzelhndler A


(= b,)
hl1 = 250

...

h{b,) = 500

...

Randhufigkeiten

...

h{a,) = 400

...

n = 1.000

...

...

In diesem Beispiel lsst sich berechnen, dass die relative Hufigkeit der Freiberufler unter
den Personen, die niemals beim Einzelhndler A einkaufen, bei 50 % liegt:

f,(Freiberuflerl Niemals Kauf bei Einzelhndler A) = f,(a,1 b,) =

h~~:) = ~~~ = 0,50

Die relative Hufigkeit der Personen, die nie beim Einzelhndler A einkaufen, liegt unter
den Freiberuflern bei 62,50 %:
f,(Niemals Kauf bei Einzelhndler AI Freiberufler) = f,{b,Ia,) =

h~~) = :~~ = 0,625

Aus (13: 10) und (13: 11) lassen sich sog. bedingte Verteilungen ableiten. Die bedingte Verteilung des Merkmals X bei gegebener Ausprgung b l des Merkmals Y
ergibt sich dabei aus den Ausprgungen al,a2""'~ und den zugehrigen bedingten
Hufigkeiten f.(a, I b j ), f.(a, I b j ), ... , f.(a k I b j). Es existieren also insgesamt r

88

I Deskriptive Statistik

Ci = 1 ... r) bedingte Verteilungen von X. Die bedingte Verteilung des Merkmals Y


bei gegebener Ausprgung a, des Merkmals X ergibt sich analog aus b"b" ... ,b, mit
fyCb, I a), t;, Cb, Ia), ... , t;, Cb, Ia,), sodass insgesamt k Ci = 1 ... k) bedingte Verteilungen von Y aufstellbar sind.
Beispiel I 3-4

Bedingte Verteilungen

Zum bekannten Schulnotenbeispiel I 3-2 wollen wir nun die bedingte Verteilung der
Mathematiknoten fijr die gegebene Englischnote 2 aufstellen. Dazu bentigen wir folgende
(grau schattierte) Daten:
Englischnote Y

4
3
2
2

2
2
5
4
3

11

14

1
Mathematiknote
X
h(b~

2
3
4
5

3
3
8
13
3
2
29

2
3
1
2
8

10
5
1
18

h(a,)

20
32
14
5

80

Die gesuchte bedingte Verteilung erhalten wir daraus durch Division der gemeinsamen
Hufigkeiten durch die zugehrige Spaltensumme. Dies erklrt auch, warum die bedingten
Hufigkeiten in der Summe Eins ergeben miissen.

a,
2
3
4
5
1:

f (a; I Y = 2) =

hi2

2/14
5/14
4/14
3/14
0/14

2
5
4
3
14

h2
'
h(Y=2)

= 0,14
= 0,36
= 0,29
= 0,21
= 0,00
1,00

Wie die Randverteilungen sind auch die bedingten Verteilungen eindimensionale


Hufigkeitsverteilungen, sodass wir hier ebenfalls die in Kapitel I 1 vorgestellten
Mazahlen zur verdichteten Beschreibung verwenden knnen. Wir bezeichnen sie
in diesem Kontext als bedingte Mazahlen. Ihre Berechnung erfolgt unter
Nutzung der bedingten relativen Hufigkeiten.
Liegen zwei Merkmale X und Y mit den Realisationsmglichkeiten a, Ci = 1,2, ... ,k)
bzw. b, Ci = 1,2, ... ,r) sowie die zugehrigen bedingten Hufigkeiten fCa, Ib~ fr
i = 1,2, ... ,k bzw. f(hjla) fr j = 1,2, ... ,r vor, dann ist z.B. der bedingte Mittelwert
von X gegeben Y = b j gleich
k

xlb j =La, f.Ca, Ib j )


1=1

03: 13)

3. Zweidimensionale HAufigkeitsveneilungen

89

und der bedingte Mittelwert von Y gegeben X - a, gleich

,-,

YIa, = tb, f,Cb, la,l .


Die bedingte Varianz von X gegeben Y - bJ ist

s! Ib j =La~ !,..Ca j Ibj)-Cxlb/

,-,

und die bedingte Varianz von Y gegeben X - a

s~ Iaj = ~>:
,., f,.Cbj Iaj)-Cy I~Y .
In entsprechender Weise knnen bedingte Mediane, bedingte Modi und andere

bedingte Mazahlen definiert werden.

Beispiel I 3-5

Bedingte Mazahlen

Bestimmen wir tOr die in Beispiel I 3-4 aufgestellte bedingte Veneilung der Schulnoten
bzw. die HAungkeltsvenellung der Mathematlknoten unter den Studenten mit der EnglIschnote 2 den bedingten Mittelwen und die bedingte Varianz. Wir erhalten
x I (Y = 2) = 10, 14+20,36+ ... +50,00 = 2,57,
d.h. der Mathematiknotendurchschnitt unter den Studenten mit der Englischnote 2 liegt bei
2,57 bei einer Varianz von

s: I(Y = 2) =1

3.1.4

O,14+~ .0,36+ ... +52 O,OO-2,5~ =0,95.

Statistische Unabhngigkeit

Von statistischer Unabhngigkeit sprechen wir, wenn sich zwei Merkmale X und Y If1
einer Hufigkeitsverteilung nicht beeinflussen, d.h. das Eintreten der verschiedenen ~
Merkmalsausprgungen beim einen Merkmal unabhngig davon ist, welchen Wert
das andere Merkmal annimmt. Ob Abhngigkeit oder Unabhngigkeit vorliegt,
kann anhand der bedingten Verteilungen geprft werden. Statlstfsch.c UmtbhnaJgkcJt liegt vor, wenn die bedingten Verteilungen von X alle identisch sind und mit
der jeweiligen Randverteilung bereinstimmen. Analoges muss fr Y gelten.
!,..Caj Ib1 )=f",Ca,lb2 )==!,..Ca j Ibr) =
bodIngIe VCltdl_

f,.Cb j la1 )=fyCb j la1)==fyCb j lai') =


bodIngte VCltdl_

fCa l )

fr

i=l, ... ,k

03: 17)

fr

j=l, ... ,r

03: 18)

Iand~

fCb j )

IandYClte!lun!!

Bedingungen bezglich Y haben also keinen Einfluss auf die Verteilung von X und
Bedingungen bezglich X auch keinen Einfluss auf die Verteilung von Y. X und Y
sind statistisch unabhngig.

90

I Deskriptive Statistik

Beispiel I 3-6

Statistische Unabhngigkeit

Gegeben sei folgende zweidimensionale Verteilung der Merkmale X (Ausprgungen a,)


und Y (Ausprgungen bJ), die in Form absoluter und relativer Hufigkeiten vorliegt:

a,

a.
a,
h(bJ)

b,

b2

b,

h(a,)

2
6
4
12

5
15
10
30

3
9
6
18

10
30
20
60

a,

a.
a,
f(bJ)

b,

b2

b,

f(a,)

0,03
0,10
0,07
0,20

0,08
0,25
0,17
0,50

0,05
0,15
0,10
0,30

0,17
0,50
0,33
1,00

Um zu prfen, ob die Merkmale X und Y unabhngig voneinander sind, bentigen wir die
bedingten Verteilungen von X und Y. Die bedingten Verteilungen von X gegen Y sind in
folgender Tabelle enthalten:

a,

a.
a,

b,

b2

b,

0,17
0,50
0,33

0,17
0,50
0,33

0,17
0,50
0,33

Rechenbeispiel :
h
6
f (a I b )=-'-' = - =0 50
' , ,
h(b,) 12
'

Wir erkennen, dass die bedingten Verteilungen (Spalten) alle identisch sind und mit der in
der Ausgangstabelle schattierten Randverteilung von X bereinstimmen.
Die bedingten Verteilungen von Y gegen X haben folgende Gestalt:
b,
a,

a.
a,

0,20
0,20
0,20

b2

b,

0,50
0,50
0,50

0,30
0,30
0,30

Rechenbeispiel :
h
6
f (b la )=_21_ =-=0 20
' , ,
h(a,) 30
'

Auch hier ist zu sehen, dass die bedingten Verteilungen (Zeilen) alle Obereinstimmen und
der schattierten Randverteilung von Y aus der Ausgangstabelle entsprechen.
Die beiden Merkmale knnen damit als statistisch unabhngig bezeichnet werden. Warden
die Werte der bedingten Verteilungen von der beschriebenen Vorschrift abweichen, wren
die Merkmale X und Y, wenn auch ggf. nur geringfgig, statistisch abhngig.

Aus 03: 10) und dem Fakt, dass bei statistischer Unabhngigkeit f,(a, I b j ) = f(a,)
gilt, kann
03: 19)
gefolgert werden. Dies bedeutet, dass bei statistischer Unabhngigkeit die gemeinsamen relativen Hufigkeiten gleich dem Produkt der jeweiligen relativen Randhufigkeiten sind. Die gemeinsamen absoluten Hufigkeiten erhalten wir, indem wir
(13: 19) wie folgt umformen:
nfxy(apb j )=

n f(a.) n f(b.)
1

03: 20)

3. Zweidimensionale Hufigkeitsverteilungen

91

Die gesamte Infonnation ber die gemeinsame Verteilung ist also im Falle von Unabhngigkeit bereits in den beiden eindimensionalen Verteilungen von X und Y
enthalten. Ist dies nicht der Fall, liegt statistiscbe Abbngigkeit vor. Zwischen den
Merkmalen bestehen sog. Interdependenzen.
Beispiel 13"7

Statistische Abhngigkeit

Eine Untersuchung unter 1.000 Personen zu den Merkmalen Raucher (X) mit den Ausprgungen "Rauche(' (R) und "Nichtraucher" (NR) und Lungenkrebs M mit den Ausprgun
gen "Lungenkrebs" (L) und "kein Lungenkrebs" (NL) ergab folgende Kontingenztabelle:

Raucher

nein [NR]
ja [R]

h(b;) (f(b;ll

Lungenkrebs Y
nein [NL]
ja [L]
650 (0,65)
50 (0,05)
250 (0,25)
50 (0,05)
900 (0,90)
100 (0,10)

h(a,j (f(a,ll
700 (0,70)
300 (0,30)
1.000 (I,O)

Anhand des zuletzt behandelten Zusammenhangs (13: 19) soll nun untersucht werden, ob
die Merkmale Raucher und Lungenkrebs statistisch unabhngig sind. Dazu wird eine sog.
hypothetische Kontingenztabelle aufgestellt. Die gemeinsamen relativen Hufigkeiten werden darin durch Multiplikation der relativen Randhufigkeiten bestimmt. Stimmen diese mit
denen der urprnglich vorhandenen Tabelle Oberein, liegt statistische Unabhngigkeit vor.
Kommt es zu Abweichungen, so kann diese Aussage nicht mehr gemacht werden.
Hypothetische
Kontingenztabelle
Raucher

nein [NR]
ja [R]
f,(b;}

Lungenkrebs Y
nein [NL]

ja [L]

f,(a,}

0,63
0,27

0,07
0,03

0,70
0,30

0,90

0,10

1,0

Die gemeinsamen relativen Hufigkeiten f'j weichen hier alle von denen der Ursprungstabelle ab. Die Merkmale X und Y sind also voneinander statistisch abhngig.
Wrde anhand der Formel (13: 18) auf Unabhngigkeit geprOft, so kme man zum gleichen
Schluss. Es gilt nmlich (in vereinfachter Schreibweise):

f(N~NR}=0,65=093

f (N~ R) = 0,25 = 0 83
,
0,30'

f,(LINR}

f,(LIR}

0,70'

= 0,05 =0 07
0,70
'

= 0,05 =0 17
0,30
'

Die Bedingungen haben also einen Einfluss auf die Verteilung von Y.

Von besonderer Bedeutung im Kontext des Begtiffs der Unabhngigkeit ist, dass
die von uns in diesem Abschnitt behandelten Unabhngigkeitsaussagen im Grunde
nur fr eine vorliegende Grundgesamtbeit gelten. In einer Stichprobe wird es nmlich fast immer zufallsbedingt Abweichungen von der Unabhngigkeit geben, selbst
wenn die beschtiebenen Unabhngigkeitsbedingungen in der Grundgesamtheit erfllt sind. Das Problem der Unabhngigkeit zweier Vatiablen wird deshalb in der
induktiven Statistik differenziert behandelt (vgJ. Kapitel III).

92

I Deskriptive Statistik

3.2 Korrelationsanalyse
Im Rahmen der Korrelationsanalyse werden diverse Mazahlen zur Quantiftzierung
des Ausmaes des statistischen Zusammenhanges zwischen verschiedenen Merkmalen berechnet. Im Folgenden beschrnken wir uns dabei wieder auf nur zwei
Merkmale X und Y und werden fr diese die Kovarianz, den Bravais-PearsonKorrelationskoeffizienten, den Speannan-Rangkorrelationskoeffizienten sowie den
Kontingenzkoeffizienten nher behandeln. Die Anwendbarkeit der Mazahlen
hngt entscheidend vom Skalenniveau der Variablen X und Y ab. Abbildung I 21
zeigt, fr welche Skalierungen welche Konelationsparameter heranzuziehen sind.
Zudem gibt sie einen ersten berblick darber, welche Infonnationen durch die
jeweilige Messzahl gewonnen werden knnen.
y

kardinal

ordinal
nonllnal

kanIinal

onlinal

nominal

Bravai.s.-PearsonKorrelation&koeff12ient1

SpeannanRangkorre1ationskoeffizient'

...
...

...

Kontingenzkoeffizient'

1: Misst Strke und Richtung eines linearen Zusanunenhangs


z: Misst Strke und Richtung eines monotonen Zusammenhangs

': Misst nur die Strke eines Zusammenhangs


Abbildung I 21: Korrelationsmae und Skalierung

3.2.1

Kovarianz und Bravals-Pearson-Korrelatlonskoefflzlent

Fr zwei metrisch skalierle Merkmale X und Y liege eine Urliste vor, in der weder
alle ~-Werte noch alle YrWerte identisch sind. Zudem seien x und y die jeweiligen arithmetischen MitteL Da ZU jedem ~ nur gerade ein Yj gehrt, knnen wir auf
den Index j verzichten, d.h. i-i. Damit ist die sog. KovarIanz definiert als

Im Falle einer vorliegenden Huftgkeitstabelle erhalten wir sie als


(13, 22)

3. Zweidimensionale Hufigkeitsverteilungen

93

Eine erste Betrachtung der Formel der Kovarianz zeigt, dass die Kovarianz eines
Merkmals X mit sich selbst gleich seiner Varianz ist, d.h. Cov"" = s~ gilt.
Zur Interpretation des Werts der Kovarianz betrachten wir Abbildung I 22. Es enthlt drei typische Streudiagramme zweidimensionaler Hufigkeitsverteilungen. Jedes der Streudiagramme wurde durch ein Fadenkreuz ergnzt, dessen Mittelpunkr
der Schwerpunkr (x, y) des jeweiligen Datensatzes ist. Es entstehen so in jedem
Diagramm 4 Quadranten I, 11, III und IV.
Y

11

III

IV

II

III

IV

II

III

IV

Abbildung I 22: Interpretation der Kovarianz


In den ersten beiden Streudiagrammen ist jeweils eine gemeinsame Tendenz der

Beobachtungen von X und der von Y zu erkennen. Im ersten Diagramm liegen die
Beobachtungspaare (x" y) berwiegend in den Quadranten I und III. Groe XWerte gehen hauptschlich mit groen Y-Werten und kleine X-Werte mit kleinen
Y-Werten einher. Es liegt ein sog. positiver Zusammenhang vor. Im zweiten Diagramm liegt die Mehrzahl der Beobachtungen in den Quadranten 11 und IV. Groe
X-Werte korrespondieren mit kleinen Y-Werten und umgekehrt. Es liegt ein sog.
negativer Zusammenhang vor. Das dritte Diagramm lsst keinen Zusammenhang
erkennen, da korrespondierend zu kleinen Werten der einen Variablen hnlich
viele kleine wie groe Werte der anderen Variablen zu beobachten sind. Die Begriffe "klein" und "gro" sind hier relativ zum jeweiligen Mittelwert zu sehen.
Den Schlssel zum Verstndnis der Kovarianz bilden die Abweichungsprodukte
(x, - x)(y, - V). Liegt ein Beobachtungspaar (x" y) in

x, y, > y

Quadrant I

gilt

X, >

Quadrant III

gilt

Quadrant 11

gilt

x,< x, y, < Y
x,< X, y,> Y

~ (Xi - X)(Yi ~

(Xi - X)(Yi -

(Xi - X)(Yi -

y)
y)
y)
y)

> 0,
> 0,
< 0,

< 0.
x,> X, YI< Y ~ (Xi - X)(Yi Da die Kovarianz das arithmetische Mittel der Abweichungsprodukte darstellt, gilt:
Liegen die Datenpunkte hauptschlich in den Quadranten I und III, so besteht
ein positiver Zusammenhang. Covxy ist positiv.
Liegen die Datenpunkte hauptschlich in den Quadranten 11 und IV, so besteht ein negativer Zusammenhang. Covxy ist negativ.

Quadrant IV

gilt

Sind die Punkre gleichmig auf die Quadranten verteilt, besteht kein Zusammenhang. Positive und negative Abweichungsprodukte heben sich bei der
Mittelung weitgehend auf und Covxy liegt nahe bei Null.

1Deskriptive Statistik

94

Ebenso wie fr die Varianz gilt auch fr die Kovarianz ein Verschtebungssatz. Dieser liefert den Ausdruck
1
CovXY =-

L xy
n
i_1

-xy

(13: 23)

Im Falle einer Hufigkeitsverteilung hat (13: 23) die Fonn

(13: 24)
Die Kovarianz ist in der Lage den empiriscben Zusammenhang zweier Variablen X
und Y anzuzeigen. Covxy > 0 zeigt einen positiven, Covxy < 0 einen negativen Zu-

sammenhang. Die Kovarianz ist also in der Lage die Richtung, nicht jedoch die
Strke des Zusammenhangs aufzuzeigen. Ein sehr groer positiver Wert bedeutet
beispielsweise nicht zwangslufig, dass ein sehr starker positiver Zusammenhang
vorliegt. Die Kovarianz ist nmlich eine dimensionsbehaftete Gre, die allein
durch die nderung der Maeinheit grer oder kleiner werden kann. Um diesem
Problem zu begegnen, wird eine normierte Kovarianz als Kenngre verwendet:
Dividieren wir die Kovarianz Cov= durch das Produkt der Standardabweichungen
von X und Y, also "x und Sy, erhalten wir den Bravais-Pearson-Korrelationskoeffizienten r=, d.h.

(13: 25)

bzw. vereinfacbt

rxy

=-r='~~~===============

t(x, -x)' t(y, -V)'


1=1

1=1

In (13: 25) knnen entsprechend auch die Fonneln verwendet werden, die sich des
Verscbiebungssatzes bedienen und/oder auf der Hufigkeitstabelle basieren. Durcb
die Division durch das Standardabweichungsprodukt (Nonnierung) ist r= automatiscb mastabs/os und verluft im Intervall
-1Srxy S+1 bzw. Ir=1 SI.

(13: 26)

r= - 1 gilt genau dann, wenn zwischen X und Y eine exakte Uneare Beziehung
besteht. Existiert nmlich die lineare Beziehung y, - a + bx" dann gilt
y=a+bx

und

S'y --

b's'x '

1 Den rechnerischen Beweis der Gltigkeit dieses Zusammenhangs berlassen wir in Aufgabe MH6 dem Leser.

95

3. Zweidimensionale Haufigkeitsverteilungen

Ferner ist
CovXY

:t
! :t

=!
=

j ...l

i_I

(x, - x)(a + bx, - [a + bxl)


(x, - x)(b[x, - xl)

b~(
-)'
X
=-L.Xi;;;;;;
n

b'
Sx

i_ I

Daraus folgt schlielich


f xy -

COV xy
Sx'Sy

;;;;;;

bsi

~=1.

sx1blsx

Ibl

Aufgrund der genannten Eigenschaften des Korrelationskoeffizienten knnen wir


nun folgern, dass der Korrelationskoeffizient rxy (und damit natrlich auch die Kovarianz Covxy) ein Ma fr den ltnearrm Zusammenhang zweier Variablen X und Y
ist. Gilt Irxv I - 1, besteht eine exakte ltneare Beziehung. Der lineare Zusammenhang ist umSQ schwcher, je kleiner der Absolutbetrag If n I des Koeffizienten ist.
Gilt rxy - 0, besteht keine lineare Beziehung. Im Fall rxy - heien die Merkmale X
und Y unkorreliert, im Fall Irxy I - 1 peifekt korreliert. Bei rxy > bzw. rxy < bezeichnen wir sie als positiv korreltert bzw. negativ korreliert. Bei Irxy I ;:, 0,8 ist von
starker, bei I rxy I S 0,5 von schwacher Korrelation auszugehen. Abbildung I 24, die
auf Seite 98 zu finden ist, illustriert diese Aussagen.

Beispiel I 3-8

Bravais-Pearson-Korrelationskoeffizient

Bei n Filialen einer Firma wurden die Variablen X - Verkaufsflache und Y - Umsatz erhoben. Es soll geprft werden, ob zwischen diesen beiden Merkmalen ein linearer Zusammenhang besteht. Wir verwenden dazu folgende Arbeitstabelle:

2
3
4
5
6
7
8
9
10

Xi

y,

100
150
110
140
160
200
110
130
180
190
1.470

800
1.000
800
900
1.200
1.600
600
1.000
1.500
1.300
10.700

...

y~
640.000
1.000.000
640.000
810.000
1.440.000
2.560.000
360.000
1.000.000
2.250.000
1.690.000
12.390.000

10.000
22.500
12.100
19.600
25.600
40.000
12.100
16.900
32.400
36.100
227.300

xl'Y.
80.000
150.000
88.000
126.000
192.000
320.000
66.000
130.000
270.000
247.000
1.669.000

Es ergeben sich daraus zunchst die folgenden arithmetischen Mittel:

1"
1
x=-.
LX;
=-1.470 =147
n
10
i_1

1"

Y=-'LY; =-10.700=1.070
n

i_1

10

96

I Deskriptive Statistik
Anhand der mittels Verschiebungssatz umgestellten Formel ergibt sich rxy zu

1.669.000 147.1.070

10
rxv = r===c==~~F.===C==~~
= 0,936.
227.300 -147'. 112.390.000 1.070'
IJ 10
10

Der Wert des Korrelationskoeffizienten ist positiv und liegt nahe 1. Es liegt also eine starke
positive Korrelation vor. Dies kann nun bedeuten, dass die Filialen durch eine Vergrerung der Verkaufsflche tendenziell eine Umsatzsteigerung erreichen oder auch, dass Filialen mit hohem Umsatz eher in der Lage sind grere Verkaufsflchen zu finanzieren. Die
Korrelationsanalyse kann also keine Aussagen uber Ursache und Wirkung (Kausalitt)
machen (vgl. Abschnitt I 3.2.6).

Beispiel I 3-9

Anscombe's Korrelationsdaten

Die folgende Tabelle enthlt vier von Anscombe, F.J. (1973) konstruierte zweidimensionale
Datenstze, die alle eine starke positive Korrelation von rxy = 0,82 aufweisen. Die Datenstze 1 bis 3 haben alle dieselben X-Werte.
Datensatz
Merkmal

1 bis 3

10
8
13
9
11
14
6
4
12
7
5

8,04
6,95
7,58
8,81
8,33
9,96
7,24
4,26
10,84
4,82
5,68

9,14
8,14
8,74
8,77
9,26
8,10
6,13
3,10
9,13
7,26
4,74

7,46
6,77
12,74
7,11
7,81
8,84
6,08
5,39
8,15
6,42
5,73

8
8
8
8
8
8
8
8
8
8
19

6,58
5,76
7,71
8,84
8,47
7,04
5,25
5,56
7,91
6,89
12,50

Die dazugehrigen Streudiagramme auf der Folgeseite zeigen jedoch vollstndig unterschiedliche Datenstrukturen. Betrachten wir zunchst die Datenstze 3 und 4, dann wird
aufgrund der Streudiagramme ersichtlich, dass Covxy und rxy keine robusten Mazahlen
sind. Sie sind empfindlich gegenber Ausreiern. Einzelne extreme Beobachtungswerte
knnen dazu fUhren, dass die Mazahlen einen starken linearen Zusammenhang unterbewerten (Datensatz 3) oder flschlicherweise eine stark lineare Beziehung ausweisen
(Datensatz 4). Fr die Datenstze 1 und 2 nimmt der Korrelationskoeffizient identische
Werte an, obwohl, im Gegensatz zu Datensatz 1, zwischen den Variablen in Datensatz 2
eine perfekte Beziehung besteht. Hier muss berucksichtigt werden, dass COvxy und rxy
nicht Mae fr statistische Zusammenhnge schlechthin sind. Sie beurteilen lediglich die
lineare Beziehung zwischen zwei Variablen. In Datensatz 2 liegt aber eine nichtlineare Beziehung vor.

97

3. Zweidimensionale Hufigkeitsverteilungen

Y
Datensatz 1

Datensatz 2

Y
Datensatz 3

Datensatz 4

I
I

~--------------~X

~--------------~X

Gerade dieses Beispiel zeigt, dass eine Korrelationsrechnung immer durch eine grafische
Beschreibung der Daten mittels eines Streudiagrammes begleitet werden sollte.

Beispiel I 3-10

Nichtlinearer Zusammenhang

Betrachten wir folgenden zweidimensionalen Datensatz:

x,
y,

-3
9

-2
4

-1

o
o

2
4

3
9

Wir erkennen sofort, dass /Ur die Kovarianz und den Korrelationskoeffizienten gilt:
1 7
_
Cov xv =- LX'y,-xy=O-O=O

i- 1

-->

rxv =0

Die Variablen weisen keine lineare Beziehung auf. Es gibt jedoch eine exakte Beziehung
zwischen ihnen, da y, = x~ gilt. Der Zusammenhang ist quadratisch, also nichtlinear, und
kann somit nicht vom Bravais-Pearson-Korrelationskoeffizienten aufgedeckt werden.
Im Falle statistisch unabhngiger Merkmale X und Y nimmt rxv den Wert 0 an. Sind
X und Y unkorreliert, dann sind sie nicht unbedingt auch statistisch unabhngig.
Es besteht dann lediglich kein linearer Zusammenhang. Eine z.B. quadratische Abhngigkeit knnte durchaus bestehen.

98

I Deskriptive Statistik

Irxy =

-11

Irxy

=+11

x
y

Irxy

stark negativ I

Irxy stark positiv I

x
y

y
Irxy schwach positiv I

Irxy=o l

Abbildung I 23: Bravais-Pearson-Korrelationskoeffizient und Streudiagramm

3.2.2

Kreuzkorrelation

Bisher haben wir Korrelationen zwischen zwei Merkmalen X und Y berechnet, indem wir ihre Realisationen X, und y, fr n verschiedene Lnder, Unternehmen oder
Personen verwendeten. Ein Wertepaar (x" y,) charakterisierte also immer ein Land,
ein Unternehmen oder eine Person zu einem bestimmten Zeitpunkt. Genausogut ist
es aber mglich, sich auf nur ein Land zu konzentrieren und hier die Ausprgungen der Merkmale zu unterschiedlichen Zeitpunkten (Tagen, Monaten, Jahren) zu

3. Zweidimensionale HAufigkeitsveneilungen

99

erfassen. Man dokumentiert dann unter Verwendung einer etwas modifizierten Notation die Realisationspaare (x., Y) zu den Zeitpunkten t - 1, ... , T und berechnet
Korrelationen auf dieser Datenbasis. Eine Korrelation zwischen Auftragseingang
und Bruttoinlandsprodukt knnen wir also beispielsweise berechnen, indem wir in
einem Quartal beide Merkmale fr verschiedene Lnder erfassen oder uns z.B. auf
Deutschland konzentrieren und hier die Ausprgungen beider Merkmale in jedem
der letzten 20 Quartale messen. Man spricht im ersten Fall von einer Berechnung
der Korrelation unter Nutzung von Querschnitt8daten (engI. cross-sectional correlation). Im letzten Fall verwendet man Zeitreihen oder Zeitrelhendaten~, ... , Xr
und YI, ... ,YT , da diese Abfolgen von Merkmalsausprgungen Entwicklungen der
Merkmale im Zeitverlauf beschreiben (engl. time-series correIation).
Bei Nutzung von Zeitreihen ist in der Praxis der Begriff der Kreuzkorrelatton von
besonderer Bedeutung. Hier werden den Beobachtungen X. eines Merkmals zu den
Zeitpunkten t Beobachtungen des anderen Merkmals ZU nachfolgenden Zeitpunkten (z.B. Yt+I) oder zu vorhergehenden Zeitpunkten (z.B. Y.) gegenbergestellt. Es
wird also z.B. der Auftragseingang eines Quartals nicht dem Bruttoinlandsprodukt
des gleichen sondern z.B. des Folgequartals gegenbergestellt. Dies ist sinnvoll, da
ein hherer Aufuagseingang in einem Quartal nicht nur zu einer Erhhung des
Bruttoinlandsproduktes im gleichen Quartal sondern auch in spteren quartalen
fhren kann. Der Auftragseingang ist ein sog. vorlaufender Konkunkturlndikator.
Ein hherer Wert in einem Quartal impliziert ein hheres Bruttoinlandsprodukt in
spteren Quartalen. Anders verhlt es sich bei sog. nacblaufenden Konjunkmrlndikatoren. Im Zuge eines Konjunktureinbruches (sinkendes Bruttoinlandsprodukt)
wird Z.B. aufgrund von Kndigungsschutz nicht die Arbeitslosenquote des gleichen
Quartals steigen. Hier ist es daher sinnvoll Arbeitslosenquoten spterer Quartale in
Korrelationsana1ysen zu verwenden.

Be18ple113-11

Kreuzkorrelatlon Q .

AnknOpfend an unsere theoretische Argumentation zur Kreuzkorrelation wollen wir in diesem Beispiel die Korrelation zwischen der Wachstumsrate des deutschen Brunolnlandsprodukts und zwei Konjunkturindikatoren (der Vernderung des Auftragseingangs und der
Vernderung der Arbeilslosenquole) berechnen. Wir verwenden dazu (saison- und kalenderbereinigtes) Zahlenmaterial aus der leitreihendatenbank der Deutschen Bundesbank
von 2006 bis 2012. Konkret nutzen wir den auf Quanalsbasis vorliegenden realen Kettenindex das Brunoinlandsprodukts (BIP) und Monatsdaten zum realen Auftragseingang (AE)
der Industrie und zur Arbeilslosenquote (ALQ) bezogen auf alle zivilen Erwerbspersonen.
Aufgrund der unterschiedlichen Datenfrequenz legen wir bei AE und ALQ zur Vereinfachung das arithmetische Mittel der jeweiligen drei Monate als Quartalswerl fast und berechnen daraus die Vernderungen von AE und ALQ. Die Wene zu den jeweiligen Quartalen t, d.h. BIP-Wachstumsrate (BIPWF\), AE-VerAnderung (AEVtl und ALQ-VerAnderung
(ALQVtl, sind in der Tabelle auf der Folgeseite zu sehen.
Berechnen wir die Korrelation zwischen BIPWR und AEV auf Basis dieser Ausgangsdaten
(sog. kontemporre Korrelation), erhalten wir einen Wen von 0,76. Mit gestiegenem Auftragseingang geht also tendenziell ein gesUegenes BIP einher. Wie bereits erwAhnt, handelt es sich beim AE um einen vorlaufenden KonjunkbJrindikator, sodass davon auszugehen ist, dass eine hhere Korrelation zu beobachten ist, wenn wir dem BIP eines Quartals
den Auflragseingang des Vorquartals gegenOberstelien. Dies geschieht in der vienen Spalte unserer Datentabelle durch Verwendung von AEVt_1. (Man beachte dabei, dass bei einer solchen Vorgehensweise die Datenbasis um eine Beobachtung verkOrzt wird.) Berechnen wir nun erneut den Korrelationskoeffizienten, so erhalten wir, wie erwanet, einen hhe-

I Deskriptive Statistik

100

ren Wert von 0,78, der auch deuUich hher ist als die Kreuzkorrelalion bei Verwendung
von AEVtt-l (nachfolgend nicht tabelliert; 0,33). Ein gestiegener AE in der Vorperiode 1-1 ist

also tendenziell mit einem gestiegenen BIP in der aktuellen Periode I verbunden.

Berechnen wir auf Basis der Ausgangsdalen die Korrelation zwischen BIPWR und ALQV,
so ergibt sich ein Wert von -0,55. Aufgrund des negativen Vorzeichens geht also mit ge-

stiegenem (gesunkenem) BIP tendenziell eine fallende (steigende) ALQ einher. Aufgrund

des nachlaufenden Charakters der ALQ ergibt sich ein Korrelationskoeffizient von -0,71,
wenn dem BIP eines Quartals die ALQ des Folgequarials gegenubergsslelll wird. Dies ge-

schieht durch Nutzung von ALQVt+l in der letzten TBbellenspalle. (Man beachte, dass Buch

hier eine Beobachtungsperiode verloren geht.) Wieder ist die Kreuzkorrelation absolut betrachtet hher als die kontemporre Korrelation und die Kreuzkorrelation bei Verwendung
von