Sie sind auf Seite 1von 216

 Grundbegriffe

der
deskriptiven
Statistik
 Einleitung
Statistische Datenauswertung
Vorlesen

Bevor wir uns mit der statistischen Datenauswertung befassen, müssen wir wissen, um
welche Daten es sich handelt. Dieses Kapitel wird häufig etwas „stiefmütterlich” behandelt, sollte
aber trotz allem gerade im Hinblick auf die Bearbeitung, Auswertung und Interpretation der Daten
in den anschließenden Kapiteln beachtet werden. So ist es z.B. nicht möglich bzw. führt zu einer
Fehlinterpretation, von jedem Merkmal jeden beliebigen Mittelwert zu berechnen – Was ist der
Mittelwert aus „männlich” und „weiblich”, bzw. was sollte er mir sagen?

Häufig wird in Klausuraufgaben auch „nur” gefordert, einen geeigneten Mittelwert oder ein
geeignetes Zusammenhangsmaß zu berechnen. Geeignet heißt hierbei, sich über die Qualität der
vorliegenden Daten bewusst zu sein (meist, welche Skalierung vorliegt), um dann die hierfür
angebrachte statistische Maßzahl zu bestimmen.

Ein weiterer Grund, dieses Kapitel nicht zu vernachlässigen, wird uns in der Praxis begegnen, wenn
wir selber, sei es im Studium im Rahmen eines Seminars bzw. der Diplom-/ Masterarbeit oder im
Beruf (z.B. bei Marketinganalysen, als Berater in volkswirtschaftlichen Fragestellungen oder im
Controlling etc.) mit der statistischen Datenauswertung in Berührung kommen. Schon einmal (für
viele erfreulicherweise) vorweg: „Per Hand” wird in der Paxis (fast) nichts mehr berechnet. Dies
überlässt man dem Computer, der einem alles (und wirklich alles!) ausgibt. Hier liegt aber auch das
größte Problem: Ein Computer ist DUMM! Er erkennt nicht, um was für Daten es sich handelt und
berechnet uns alle möglichen statistischen Kennzahlen, egal ob sinnvoll oder nicht. Meist werden
diese sogar ohne unser Zutun automatisch mit ausgegeben, ob sie sinnvoll sind, kann der Computer
nicht entscheiden, das müssen wir mit unserem Wissen tun.
Wir müssen entscheiden, was wir mit dem angegebenen Mittelwert aus z.B. „männlich” und
„weiblich” anfangen oder hoffentlich besser nicht anfangen. Die Sensibilität hierfür, als (wichtige)
Voraussetzung, schaffen wir mit diesem Kapitel.

Merkmal, Merkmalsausprägung und


Merkmalsträger
Vorlesen

Im folgenden Video werden wichtige Begriffe der deskriptiven Statistik erklärt. Diese stellen eine
Grundlage für das Verständnis der weiteren Kapitel dar.

Lernvideo Grundbegriffe der deskriptiven Statistik


Play Video

 Masse und
Merkmal
Statistische Masse
Vorlesen

Statistische Untersuchungen werden an statistischen Einheiten (= Merkmalsträgern)


vorgenommen. Unter statistischen Einheiten verstehen wir Träger einer Information.

Die Zusammenfassung von statistischen Einheiten, die

 mit dem Untersuchungsziel in


Verbindung stehen,
 die unter sich mindestens eine
übereinstimmende Eigenschaft
haben und
 die sich exakt abgrenzen lassen,
und zwar
◊ sachlich,
◊ räumlich sowie
◊ zeitlich,

bildet eine statistische Masse.

BEISPIEL

Beispiel 1:
Der Personalbestand des Statistik-Lehrstuhls Ihrer Universität im Jahre 2009 bildet eine statistische
Masse, die Mitarbeiter selbst die statistischen Einheiten.

Ob eine statistische Einheit zur statistischen Masse gehört, muss nach den Abgrenzungskriterien
unterschieden werden:

 zeitlich: Ein wissenschaftlicher


Mitarbeiter gehört nicht zur
statistischen Masse, wenn er erst
im Januar 2010 den Dienst am
Lehrstuhl antritt.
 räumlich: Die Zugehörigkeit zum
Statistik-Lehrstuhl ist hier
maßgeblich.
 sachlich: Wer gehört zum
Personal und wer nicht? Hier
geht es um die (arbeitsrechtliche,
nicht statistische) Definition des
Begriffs „Personal”.

Man beachte den Unterschied zwischen "statistischer Masse" und "statistischen Maßen". Beide
Begriffe existieren, bedeuten aber etwas vollkommen unterschiedliches. Die "statistischen Maße", zu
denen wir später noch kommen, sind z.B. arithmetisches Mittel und Standardabweichung...

Bestandsmasse und Bewegungsmasse


Weiterhin unterscheidet man nach der zeitlichen Einteilung zwei Arten von statistischen Massen:

 Bestandsmassen können zu
einem bestimmten Zeitpunkt
(Stichtag) gezählt werden.
Merkmalsträger, die zur
Bestandsmasse zählen, weisen
eine bestimmte Verweildauer
auf. Hierzu zählt demnach der
Personalbestand des Statistik-
Lehrstuhls (zum Stichtag
31.12.2009).
 Bewegungsmassen treten nur
zu bestimmten Zeitpunkten
(innerhalb einer Periode) auf. Sie
werden daher erfasst, indem sie
beim Auftreten innerhalb einer
Periode (Zeitraum) gezählt
werden. In unserem Beispiel sind
dies alle Neueinstellungen und
Kündigungen des
Statistiklehrstuhls im Jahre 2009.

MERKE

MERKE: Die Bestandsmassen werden durch Bewegungsmassen verändert. Zu jeder Bestandsmasse


gehören auch genau zwei Bewegungsmassen: alle Zu- und Abgänge.

BEISPIEL

Beispiel 2:
• Kontobewegungen auf dem eigenen Girokonto sind Bewegungsmassen, da sie zu bestimmten
Zeitpunkten auftreten, jedoch nicht genau zum Erhebungszeitpunkt (Stichtag, bspw. 24.08.2009;
10:32 Uhr).
• Der Kontostand hingegen ist eine Bestandsmasse. Er wird durch die Kontobewegungen verändert.
• Der Kapitalstock einer Firma ist eine Bestandsmasse, Investitionen und Abschreibungen
(Verschleiß) hingegen sind Bewegungsmassen, die den Kapitalstock (Bestandsmasse) verändern.

 1Lückentext Nr. 1
 2Lückentext Nr. 2
 3Lückentext Nr. 3
 4MC-Aufgabe Nr. 1
 5MC-Aufgabe Nr. 2
 6Unterschied zwischen Bestands- und
Bewegungsmassen

Lückentext Nr. 1

Aufgabe 1 von 6

Bitte die Lücken im Text sinnvoll ausfüllen.


 können zu einem bestimmten Zeitpunkt (Stichtag) gezählt werden.

Lösen

Statistisches Merkmal
Vorlesen

An einer statistischen Masse werden Merkmale untersucht. Unter Merkmalen versteht man


die Eigenschaften des Merkmalsträgers, für die man sich bei statistischen Untersuchungen
interessiert. Die Ergebnisse, die durch das Merkmal beim Merkmalsträger angenommen werden
können, heißen Merkmalsausprägungen. Der Beobachtungswert ist die Merkmalsausprägung der
betrachteten statistischen Einheit.

BEISPIEL

Beispiel 3:
Am Personal (die einzelnen Mitarbeiter sind also die Merkmalsträger) des Statistik-Lehrstuhls wird
das Merkmal „Geschlecht” untersucht, das mit den Merkmalsausprägungen „männlich” und
„weiblich” auftreten kann. Der Mitarbeiter Dr. Matthias Median weist den Beobachtungswert
„männlich” auf.

Merkmalsträger Merkmal Merkmalsausprägungen

Mensch Geschlecht männlich, weiblich

Wahlberechtigter Wahl SPD,CDU,...

Studenten Klausurnote sehr gut,gut,...

Univariate, bivariate und multivariate Statistik


Eine weitere Unterscheidung wird in der deskriptiven Statistik danach getroffen, wieviele Merkmale
in einer statistischen Untersuchung einbezogen werden.
 Wenn innerhalb ein- und
derselben statistischen Masse
genau ein Merkmal untersucht
wird, so ist dies Teil
der univariaten (=
eindimensionalen) Statistik.

 Genauso ist es aber möglich,


innerhalb derselben statistischen
Masse mehrere Merkmale zu
untersuchen.
Dies führt auf die multivariate (=
mehrdimensionale) Statistik. Ein
Spezialfall dieser multivariaten
Statistik ist, wenn genau zwei
Merkmale erhoben werden, so
wird dieser Vorgang speziell in
der sog. bivariaten (=
zweidimensionalen) Statistik
untersucht.

BEISPIEL

Beim Personal des Statistik-Lehrstuhls wird zum Einen das Geschlecht (1. Merkmal), zum Anderen
aber auch die Haarfarbe (2. Merkmal) und darüber hinaus noch das Alter (3. Merkmal) untersucht.

Häufbare und nicht häufbare Merkmale


Es gibt mehrere Möglichkeiten, Merkmale einzuteilen:

 häufbar: Ein Merkmalsträger


kann gleich mehrere
Merkmalsausprägungen
desselben Merkmals besitzen. So
kann z.B. ein Student
(Merkmalsträger) morgens
Zeitungen austragen und
tagsüber als studentische
Hilfskraft am Statistik-Lehrstuhl
tätig sein (beides sind
Merkmalsausprägungen des –
häufbaren – Merkmals „Job”).

BEISPIEL
Beispiel 4.1 - Häufbare Merkmale:

 Jobs: Ein Mitarbeiter kann


mehrere – unterschiedliche
– Tätigkeiten ausüben.
 Studienrichtungen eines
Studenten: BWL,
Mathematik und Theologie
gleichzeitig zu studieren, ist
zwar aufwändig, aber nicht
unmöglich.
 Mitgliedschaft in Vereinen:
Sie können gleichzeitig im
örtlichen Schach-, dem
Volleyball- und dem
Schützenverein organisiert
sein.

 nicht häufbar: Das o.e.


Phänomen tritt nicht auf, d.h.
jeder Merkmalsträger hat nur
genau eine Merkmalsausprägung
des Merkmals. So hat obiger
Student (Merkmalsträger) nur
genau eine Merkmalsausprägung
des Merkmals Geschlecht
(nämlich entweder männlich
oder weiblich, aber i.d.R. nicht
beides gleichzeitig). Darüber
hinaus hat er/sie nur ein Alter,
nur einen Geburtsort etc.

BEISPIEL

Beispiel 4.2 - Nicht häufbare Merkmale:

 Geburtsort: Wir haben nur


genau einen Geburtsort, es
ist unmöglich, an zwei
unterschiedlichen Orten
geboren worden zu sein.
 Geburtstag: Ebenso verhält
es sich mit dem Tag der
eigenen Geburt, der
eindeutig bestimmt ist.
 Alter: Sie haben genau ein
Alter, nicht mehrere.

Qualitative und quantitative Merkmale


Darüber hinaus existiert noch die Unterteilung in:

 qualitative Merkmale: Die
Ausprägungen lassen sich verbal
beschreiben und nicht direkt
durch Zahlen.

BEISPIEL

Beispiel 5.1 - Qualitative Merkmale

 Farben,
 Geschlechter,
 Nationalitäten.

 quantitative Merkmale: Die
Ausprägungen können durch
reelle Zahlen dargestellt werden
und sind insofern "zählbar".

BEISPIEL

Beispiel 5.2 - Quantitative Merkmale:

 die Körpergröße eines


Menschen,
 die Uhrzeit
 das Datum.

MERKE

MERKE: Die Tatsache, dass qualitative Ausprägungen nicht „rechenbar” sind, heißt nicht, dass sie
Zahlen gegenüber vollkommen unzugänglich sind. So lassen sich qualitative Merkmale
„quantifizieren”, wenn man ihnen Zahlen zuordnen und diese Zuordnung auch wieder
zurückverfolgen kann, sie also eineindeutig ist.

Man kann z.B. jeder weiblichen Mitarbeiterin des Statistik-Lehrstuhls die Zahl „1” und jedem
männlichen die Zahl „2” zuordnen. Bei einem Mitarbeiter mit einer „2” ist sofort bekannt, dass es
sich um eine männliche, mit einer „1” um eine weibliche Person handelt.
Die Zuordnung von Zahlen darf jedoch nicht (immer) so verstanden werden, dass man mit diesen
Zahlen auch rechnen darf. Bei „1” und „2” könnte man auf die Idee kommen, diese Zahlen zu
addieren, aber was sollte das dahinter liegende Ergebnis „3” = „weiblich” plus „männlich” bedeuten
bzw. wie sollte es interpretiert werden?

Warum führt man eine solche Zahlenzuordnung (= Codierung) überhaupt durch? Der Grund liegt
schlicht und allein in einer einfacheren Auswertung (meist mittels statistischer
Computerprogramme) der erfassten Daten. Sie haben sicherlich schon einmal einen Fragebogen
ausgefüllt bzw. zumindest vorliegen gehabt. Vielleicht ist Ihnen dabei aufgefallen, dass hinter den
Antwortmöglichkeiten Zahlencodes standen, diese werden für die statistische Auswertung
verwendet. Es ist eben einfacher, das Merkmal „17” zu erfassen als die zugehörige Ausprägung
„Diplom-Statistiker”.

 1LückentextNr. 4
 2LückentextNr. 5
 3MC-Aufgabe Nr. 3
 4MC-Aufgabe Nr. 4
 5MC-Aufgabe Nr. 5
 6Merkmalsträger, Merkmal,
Merkmalsausprägungen
 7Merkmalsträger, Merkmal,
Merkmalsausprägungen
 8Merkmalsträger, Merkmal,
Merkmalsausprägungen

Lückentext Nr. 4

Aufgabe 1 von 8

Bitte die Lücken im Text sinnvoll ausfüllen.

Wenn innerhalb ein- und derselben statistischen Masse genau ein Merkmal untersucht

wird, so ist dies Teil der   (= eindimensionalen) Statistik.

Lösen
 Skalierungen
Grundlagen Skalierung
Vorlesen

Entscheidend für den weiteren Umgang mit Daten ist die Skalierung der Merkmalsausprägungen.
So dürfen bspw. die in Kapitel 3 behandelten Lagemaße nicht auf jedes Merkmal angewandt
werden, sondern es muss vorher geprüft werden, ob die Skalierung des Merkmals z.B. die
Berechnung des arithmetischen Mittels auch zulässt bzw. ob wir dieses Lagemaß dann auch sinnvoll
interpretieren können. Im Folgenden fangen wir mit der niedrigsten Skala an und werden
anschließend, auf deren Eigenschaften aufbauend, die jeweils nächsthöhere ableiten.

Wir behandeln unterschiedliche Skalen:

 Nominalskala,
 Ordinalskala,
 metrische Skalen (=
Kardinalskalen),
o Intervallskala,
o Verhältnisskala und
o Absolutskala.

 1MC-Aufgabe Nr. 1
 2MC-Aufgabe Nr. 2

MC-Aufgabe Nr. 1

Aufgabe 1 von 2

Was fällt nicht unter den Begriff der Kardinalskalen?

Nominalskala

 
Absolutskala

Intervallskala

Lösen

Nominalskala
Vorlesen

Bei Nominalskalen sind die Werte entweder gleich oder verschieden. Eine Reihenfolge ist nicht
erkennbar, Abstandsbildung macht daher auch keinen Sinn. Wir halten folgendes fest.

MERKE

MERKE: Jedes nominalskalierte Merkmal ist immer auch ein qualitatives Merkmal.

Man kann also z.B. bei (dem Merkmal) Geschlecht lediglich sagen, dass (die Merkmalsausprägung)
„weiblich” etwas anderes ist als „männlich”, nicht hingegen, dass sie besser oder schlechter sei.

BEISPIEL

Beispiel 6 - Nominalskalierte Merkmale:

 Geschlechter,
 Farben,
 Nationalitäten,
 Religionen,
 Postleitzahlen

Hier sei nochmal auf das Beispiel der Zuordnung des qualitativen = nominalskalierten Merkmals
Geschlecht mit einer Zahl verwiesen. Die Zahlenzuordnung „weiblich” = „1” und „männlich” = „2”
heißt nun nicht, dass Männer doppelt so gut sind wie Frauen, auch wenn viele Männer dies gerne
glauben.
Ähnlich sieht es bei Postleitzahlen (PLZ) aus: Auch wenn die Zuordnung der Postleitzahlen den
Anschein macht, dass eine Reihung / Ordnung existiert, so ist diese doch rein willkürlich und
lediglich geographisch vorgenommen worden. Dass mit der Zuordnung von Zahlen die
geographische Lage ungefähr erkennbar ist, lässt nämlich keinen Rückschluss auf eine Reihung zu.
Mit anderen Worten: Berliner sind nicht deshalb „besser” als „Essener”, nur weil ihre PLZ mit einer 1
beginnt und nicht mit einer 4.

BEISPIEL

Aus der Praxis - Beispiel 7:


Diese Fehlinterpretation zeigte sich auch bei der Einführung der neuen 5-stelligen Postleitzahlen im
Jahre 1993 nach der deutschen Wiedervereinigung. Einige ostdeutsche Regionen (Sachsen und Teile
von Brandenburg, Sachsen-Anhalt und Thüringen) protestierten vehement dagegen, dass sie eine
PLZ mit Null beginnend bekamen, da sie „nicht die Nullen der Nation” sein wollten.

 1LückentextNr. 1
 2LückentextNr. 2
 3MC-Aufgabe Nr. 3

Lückentext Nr. 1

Aufgabe 1 von 3

Bitte die Lücken im Text sinnvoll ausfüllen.

Jedes nominalskalierte Merkmal ist immer auch ein   Merkmal.

Lösen

Ordinalskala
Vorlesen

Die Ordinalskala ist eine "Rangskala". Zusätzlich zu den Eigenschaften der Nominalskala lässt sich
eine Reihenfolge oder Rangfolge angeben. Die Abstände, insbesondere Vergleiche der Abstände,
sind jedoch weiterhin nicht sinnvoll interpretierbar.

BEISPIEL

Beispiel 8 - Ordinalskala:
• Schul- / Klausurnoten: sehr gut (1), gut (2), befriedigend (3), ausreichend (4), mangelhaft (5),
ungenügend (6).
• Güteklassen von Restaurants und Hotels: Fünf Sterne, Vier Sterne, ..., Ein Stern, Null Sterne

Man kann z.B. beim Merkmal der Klausurnoten sagen, dass die einzelnen Noten unterschiedlich
sind. Außerdem ist „sehr gut” besser als „gut”, „befriedigend” besser als „mangelhaft” etc. Es wäre
jedoch falsch zu sagen, der Abstand zwischen den Noten sehr gut und gut sei genau so groß wie
zwischen ausreichend und mangelhaft. Vor allem lässt sich nicht feststellen, dass ein Student mit
der Note Eins in der Statistikklausur doppelt so begabt ist wie jener mit der Note Zwei.

 1MC-Aufgabe Nr. 4

MC-Aufgabe Nr. 4

Aufgabe 1 von 1

Was passt zur Ordinalskala?

Auf der Ordinalskala lässt sich lediglich eine Reihenfolge feststellen, allerdings keine Unterschiede.

Auf der Ordinalskala lassen sich sowohl eine Reihenfolge als auch Unterschiede feststellen.

Auf der Ordinalskala lässt sich lediglich Unterschiede feststellen, nicht aber eine Reihenfolge.

Lösen

Metrische Skalen
Vorlesen

Die nächsten Skalen heißen Kardinalskalen oder metrische Skalen. Zusätzlich zu ordinal


skalierten Merkmalen ist nun die Abstandsbildung möglich und v.a. sinnvoll interpretierbar. Man
spricht dann auch von Differenzengleichheit. Bei den metrischen Skalen kann man noch einmal
zwischen

 Intervallskala,
 Verhältnisskala und
 Absolutskala

unterscheiden.

 1Lückentext Nr. 3
 2Lückentext Nr. 4
 3Lückentext Nr. 5
 4Lückentext Nr. 6
 5Lückentext Nr. 7
 6Skalen

Lückentext Nr. 3

Aufgabe 1 von 6

Bitte die Lücken im Text sinnvoll ausfüllen.

Im Gegensatz zu ordinal-skalierten Merkmalen ist bei metrischen Skalen

die   möglich und sinnvoll interpretierbar.

Lösen

Metrische Skalen - Intervallskala


Vorlesen

Die Intervallskala (= Einheitsskala) ist eine metrische Skala. Die Abstände sind hier sinnvoll
interpretierbar, es existiert jedoch kein natürlicher Nullpunkt und auch keine natürliche Einheit.

Hierbei ist der Begriff „natürlich” immer so zu verstehen, dass der Mensch keine willkürfreie
Wahlmöglichkeit hat, den natürlichen Nullpunkt bzw. die natürliche Einheit also nicht beeinflussen
kann. Einfacher: Die natürliche Einheit / der natürliche Nullpunkt ist unveränderlich.
BEISPIEL

Beispiel 9 - Intervallskalierte Merkmale

 Längengrade auf der Erde


und
 Temperaturmessungen in
°C.

Beide Merkmale zeichnen sich durch Differenzengleichheit aus, d.h. der Abstand ist messbar und
interpretierbar. Eine Erhöhung der Körpertemperatur von 37,5° auf 38,5°C ist genauso groß wie von
40° auf 41°C. Im Unterschied hierzu ist der Leistungsunterschied zwischen einer Fünf und einer Vier
bei den Klausurnoten nicht der gleiche wie zwischen einer Zwei und einer Eins.

Bei den Längengraden auf der Erde ist der Nullpunkt der nullte Grad, der durch das Observatorium
von Greenwich bei London geht und wurde damit vom Menschen willkürlich gewählt. Bis 1884 gab
es noch weitere „Nullmeridiane”, der bekannteste dürfte seit Dan Browns Bestseller „Sakrileg” der
Pariser Meridian und seine erfundene „Rosenlinie” sein. Auch die Einheit ist nicht natürlich: Ein
Längengrad wird dadurch definiert, dass vom nullten Längengrad durch Greenwich einmal um die
Erde „gewandert” und diese Distanz in 360 gleiche Grade eingeteilt wird. Man hätte aber genauso
gut nur 100 Einteilungen wählen können.

Der Nullpunkt 0°C der Temperaturmessung ist willkürlich, da Herr Celsius speziell den Gefrierpunkt
des Wassers gewählt hat. Bei der Wahl des Gefrierpunktes anderer Stoffe oder des Siedepunktes
wäre der Nullpunkt ein anderer. Genauso wurde die Einheit 1°C von Anders Celsius willkürlich
gewählt, denn er unterteilte die Distanz zwischen Gefrierpunkt (0°C) und Siedepunkt des Wassers
(100°C) in 100 gleiche Teile und nannte diese Teile dann 1°C.

MERKE

MERKE: Die Intervallskala hat – wegen der fehlenden Existenz des natürlichen Nullpunkts – den
Nachteil, dass Verhältnisse auf ihr nicht gleich bleiben und somit nicht interpretierbar sind. Man
sollte deswegen auf der Intervallskala nicht dividieren, lediglich Differenzen besitzen eine
Aussagekraft, nicht jedoch Quotienten.

BEISPIEL
Beispiel 10:
Bei der Temperaturmessung in °C gilt offenbar  20°C10°C=2, d.h. man würde sagen, dass 20°C
doppelt so warm ist wie 10°C. Rechnen wir die Celsius-Grade in Grad Fahrenheit (°F) um, so gilt
wegen der Umrechnungsformel  °F=95°C+32, dass eine Temperatur von 20°C einer
Temperatur von  95⋅20°C+32=68°F entspricht, analog ist 10°C dann 50°F. Die zweite
Temperatur ist dann aber nicht mehr doppelt so groß wie die
erste:  68°F50°F=1,36 ≠ 2=20°C10°C. Die Aussage „ist doppelt so warm wie”, die bei der
Einteilung in °C noch nachvollziehbar war, macht auf der Fahrenheit-Skala für die gleiche
Temperatur also keinen Sinn mehr.

 1MC-Aufgabe Nr. 5
 2MC-Aufgabe Nr. 6

MC-Aufgabe Nr. 5

Aufgabe 1 von 2

Was lässt sich zur Intervallskala sagen?

Weder Differenzen noch Quotienten besitzen eine Aussagekraft.

Lediglich Differenzen besitzen eine Aussagekraft, nicht jedoch Quotienten.

Lediglich Quotienten besitzen eine Aussagekraft, nicht jedoch Differenzen.

Lösen

Metrische Skalen - Verhältnisskala


Vorlesen

Die Verhältnisskala, auch "Ratioskala" genannt, ist eine weitere metrische Skala. Im Gegensatz zur
Intervallskala existiert ein natürlicher Nullpunkt, lediglich die Einheit bleibt willkürlich festgelegt.
BEISPIEL

Beispiel 11 - Verhältnisskalen

 Längenmessung/
Größenmessung in Metern
 Gewichtsmessung in kg, in
Pfund etc.

Bei der Größenmessung ist der Nullpunkt „0 m” insofern natürlich, als er vom Menschen nicht
beeinflussbar ist. „Null ist nichts.” Weniger als Null Meter groß kann man nicht sein. Die Einheit „1 m”
hingegen ist willkürlich festgelegt. Der physikalisch interessierte Leser kann noch heute den sog.
Urmeter in Sèvres bei Paris besichtigen.

Wichtig auch: die Temperaturmessung in Kelvin ist verhältnisskaliert, denn der Nullpunkt "0 Kelvin"
ist vom Menschen insofern nicht beeinflussbar, als dass er den "absoluten Nullpunkt" angibt (wenn
der Autor die physikalischen Zusammenhänge hier richtig verstanden hat, so bewegen sich ab 0
Kelvin die Elektronen im Atom nicht mehr, so dass es "nicht mehr kälter geht"... Hingegen ist die
Temperaturmessung in Grad Celsius als auch in Grad Fahrenheit intervallskaliert, denn dort ist der
Nullpunkt, wie im Vorkapitel erläutert, willkürlich.

MERKE

MERKE: Aufgrund des natürlichen Nullpunkts bleiben die Verhältnisse auf der Verhältnisskala


gleich. Es sind also nicht nur die Abstände, sondern auch deren Verhältnisse sinnvoll interpretierbar
bzw. vergleichbar.

BEISPIEL

Beispiel 12:
Der Torwart-Titan Olli Banane ist 2 m, der etwas kürzer geratene Mittelfeldspieler Ditte Keßler nur 1
m groß.
Olli ist nun wegen  2m1m=2 doppelt so groß wie Ditte. Rechnet man beide Größen nun in das
ältere bzw. heute noch gültige amerikanische Größenmaß Fuß (foot, ft) um, so werden wir
feststellen, dass Olli auch in den USA genau doppelt so groß ist wie Ditte. Ein Meter entspricht
3,2808 amerikanischen Fuß, Olli ist somit  2⋅3,2808=6,5616 ft groß und Ditte  3,2808 ft. Olli
bleibt aber wegen  6,5616 ft3,2808 ft=2=2m1m doppelt so groß wie Ditte, da hilft ihm auch ein
Umzug nichts.

MERKE
MERKE: Natürlicher Nullpunkt muss nicht bedeuten, dass keine negativen Werte angenommen
werden können. So ist z.B. der Kontostand verhältnisskaliert, da null €, also kein Geld auf dem Konto
zu haben, ein willkürfreier Wert ist. Allerdings ist es durchaus möglich, dass unser Konto einen
negativen Kontostand, d.h. Schulden, aufweist.

 1LückentextNr. 8
 2MC-Aufgabe Nr. 7
 3MC-Aufgabe Nr. 8

Lückentext Nr. 8

Aufgabe 1 von 3

Bitte die Lücken im Text sinnvoll ausfüllen.

Im Gegensatz zur Intervallskala existiert bei der Verhältnisskala ein natürlicher

Nullpunkt, lediglich die  bleibt willkürlich festgelegt.

Lösen

Metrische Skalen - Absolutskala


Vorlesen

Bei der letzten hier betrachteten metrischen Skala, der Absolutskala, sind die Abstände messbar
und insbesondere sind Nullpunkt und Einheit natürlich.

BEISPIEL

Beispiel 13 - Absolutskala:

 Stückzahlen: Anzahl von


Tischen und Stühlen in
einem Raum,
 Personenzahlen,
 allgemein: Häufigkeiten oder
alles, was man zählen kann.
Bei Stückzahlen ist der Nullpunkt insofern natürlich, da der Zustand „Null Tische” vom Menschen
nicht beeinflussbar ist; dass sich nichts im Raum befindet, ist natürlich. Genau so verhält es sich mit
der Einheit: Ein Tisch kann vom Menschen nicht verändert oder umbenannt werden.

Bestimmung Skalenniveau
Nachdem alle Skalen betrachtet und definiert worden sind, wird an dieser Stelle eine Hilfe gegeben
um die richtige Skalierung ermitteln zu können.

EXPERTENTIPP

Bestimmung der Skalierung - Schema zur Ermittlung des Skalenniveaus:

Prüfe das Merkmal anhand der Eigenschaften der jeweiligen Skala beginnend mit der niedrigsten
(Nominalskala):

 Nominalskala (passt immer)


 Ordinalskala: Ist eine
Rangfolge bestimmbar?
 Kardinalskala: Sind die
Abstände mess- und
interpretierbar?
o Intervallskala:
Abstand ist mess-
und interpretierbar
o Verhältnisskala:
natürlicher
Nullpunkt?
o Absolutskala:
natürliche Einheit?

Ist die Eigenschaft einer Skala nicht mehr erfüllt, so ist die nächstgeringere Skala die zutreffende.

Wenn also ein Merkmal mindestens verhältnisskaliert ist, weil der Nullpunkt natürlich ist und dann
zusätzlich bekannt wird, dass die Einheit auch natürlich ist, so ist die Absolutskala anzuwenden.

Wenn ein Merkmal also im Verdacht steht, verhältnisskaliert zu sein, weil der Nullpunkt natürlich ist
und dann aber bekannt wird, dass diese doch nicht der Fall ist, so ist höchstens die Intervallskala
richtig.
 1Lückentext Nr. 9
 2MC-Aufgabe Nr. 9
 3Skalen
 4Zuordnung

Lückentext Nr. 9

Aufgabe 1 von 4

Bitte die Lücken im Text sinnvoll ausfüllen.

Die Kardinalskalen bestehen aus den  -, Verhältnis- und Absolutskalen.

Lösen

Skalenniveau bestimmen
Vorlesen

Das folgende Video zeigt zusammenfassend nochmals die unterschiedlichen Skalenniveaus und gibt
Hilfestellungen wie sich das richtige Skalenniveau bestimmen lässt.

Lernvideo - Bestimmung des Skalenniveaus


Play Video

Aufgabe Skalierung
Vorlesen

Aufgabe Skalenniveau:

Bestimme die Skalierung der Merkmale Gewicht und Schulbildung.

Die Lösung zu dieser Aufgabe findest du im nächsten Text. Um die Kapitelabschlussprüfung zu


bestehen, sollte die Aufgabe aber vorab gelöst werden. Nun einen Moment Zeit, um die Aufgabe zu
bearbeiten...
Lösung Aufgabe Skalierung
Vorlesen

Welche Skalierung haben die Merkmale Gewicht und Schulbildung? Hier gibt es die Lösung. An
diesem Beispiel wird auch deutlich wie das optimale Vorgehen bei der Bestimmung des
Skalenniveaus ist.

Das Merkmal Gewicht ist auf jeden Fall mindestens nominalskaliert. Außerdem ist eine Rangfolge
bestimmbar: 100 kg ist schwerer als 50 kg, somit ist es auch zusätzlich ordinal skalierbar. Die
Abstände sind messbar, also liegt eine metrische Skalierung und zumindest ein intervallskaliertes
Merkmal vor.
Des Weiteren existiert beim Gewicht ein natürlicher Nullpunkt, nichts zu wiegen ist nun einmal 0 kg
und nichts anderes – es muss sich also um ein verhältnisskaliertes Merkmal handeln. Eine natürliche
Einheit liegt jedoch nicht vor, Kilogramm oder Pfund ist eine willkürlich festgelegte Einheit. Es kann
sich somit nicht um ein absolut skalierbares Merkmal handeln, das Gewicht ist somit kardinal - bzw.
speziell verhältnisskaliert.

Schulbildung ist selbstverständlich nominal skaliert. Des Weiteren kann die Schulbildung gereiht
bzw. geordnet werden: Abitur ist besser als Realschule, dieses ist wiederum besser als Hauptschule
und dies wiederum besser als gar kein Abschluss. Abstände bei der Schulbildung können jedoch
nicht gemessen werden (die Anzahl der Schuljahre sagt nichts über das Bildungsniveau aus), es lässt
sich nichts darüber aussagen, „um wie viel” Abitur besser ist als ein Realschulabschluss, lediglich
dass es besser ist. Schulbildung ist somit nicht kardinalskaliert und es liegt ein ordinalskaliertes
Merkmal vor.

 Skalentransfor
mation
Grundlagen Skalentransformation
Vorlesen

Man versteht unter dem Begriff Skalentransformation die Übertragung/Umwandlung von Werten


einer Skala in eine andere Skala. Zweckmäßigerweise sollten hierbei die Eigenschaften, die der
jeweiligen Skala zugrunde liegen, erhalten bleiben, um einen Informationsverlust zu vermeiden.

Eine Umwandlung in eine andere Skala ist nur zu einer niedrigeren möglich und damit auch immer
mit Informationsverlust verbunden. Eine Transformation in eine höherwertige Skala ist nicht
möglich. Es sei denn, man hat das Merkmal vorher in eine schlechtere Skala transformiert und kennt
noch die Ursprungseigenschaften und kann diese dann natürlich zurücktransformieren oder man
hat sich bewusst vorher für eine schlechtere Skala entschieden, obwohl eine höherwertige möglich
gewesen wäre.

Beispiel Skalentransformation

BEISPIEL

Beispiel 14:
Hühnereier werden nach Gewicht eingeteilt. Ein Ei sei 50 g schwer, ein zweites 60 g. Es wurde schon
festgestellt, dass das Gewicht metrisch, genauer gesagt sogar verhältnisskaliert ist.

Eine informationsverlustfreie Transformation wäre nun z.B. die Umrechnung in die


englische/amerikanische Unze (oz).
Hierbei ist 1 oz = 28,35 g und somit wiegt das 50 g Ei dann 50/28,35 = 1,76 oz und das 60 g Ei wiegt
nun 2,12 oz. Auch dieses Gewichtsmaß ist verhältnisskaliert, es entstand demnach kein
Informationsverlust.

Teilen wir jedoch die Eier in die üblichen Gewichtsklassen S (unter 53 g), M (53 bis unter 63 g), L (63 –
73 g) und XL (über 73 g) ein, so fällt das 50 g Ei in die Gewichtsklasse S und das 60 g Ei in die
Gewichtsklasse M. Die Einteilung ist nunmehr nur noch ordinalskaliert und uns sind somit wertvolle
Informationen verloren gegangen:
Wir wissen nun nur noch, dass das zweite Ei (M) schwerer ist als das erste (S), allerdings nicht mehr
um wie viel. Nichtsdestotrotz kann eine Transformation in eine niedrigere Skala manchmal sinnvoll
sein, wir werden bei der Klassierung hierauf zurückkommen.

Video zur Skalentransformation


Schauen wir uns in einem Lernvideo die Skalentransformation genauer an:
Play Video

Skalentransformation auf der Nominalskala


Vorlesen

Am Beispiel des Statistik-Lehrstuhl haben wir schon eine Transformation innerhalb


der Nominalskala durchgeführt. Dem Merkmal „weiblich” wurde die Zahl „1” und dem Merkmal
„männlich” die Zahl „2” zugeordnet. Nun ist bereits durch die Zahl klar, welchen Geschlechts ein
Mitarbeiter des Statistik-Lehrstuhls ist bzw. durch das Geschlecht ist sofort bekannt, welche Ziffer
dieser Person zugeordnet wird. Man kann also

 von dem Geschlecht auf die Zahl


 und von der Zahl auf das
Geschlecht

schließen.

Wegen dieser Eigenschaft – nämlich dass man in beide Richtungen schließen kann – nennt man die
vorliegende Skalentransformation umkehrbar eindeutig bzw. eineindeutig.

 1LückentextNr. 1
 2MC-Aufgabe Nr. 1

Lückentext Nr. 1

Aufgabe 1 von 2

Bitte die Lücken im Text sinnvoll ausfüllen.

Skalentransformationen auf der Nominalskala müssen  sein - d.h. sie


müssen sich hin- und zurückverfolgen lassen.

Lösen

Skalentransformation auf der Ordinalskala


Vorlesen

Wir hatten ebenfalls schon festgestellt, dass sich die ordinal klassierten Klausurnoten „sehr gut” bis
„ungenügend” transformieren lassen nach „1” bis „6”. Eine andere Möglichkeit existiert in der
Schweiz (und vor dem zweiten Weltkrieg auch in Deutschland), wo ein „sehr gut” einer „6” bis hin zu
„ungenügend” einer „1” entspricht. Man merkt hier, dass die Skalentransformationen eineindeutig
ist, denn man kann hin- und zurückschließen. Zusätzlich wird aber auch die Reihenfolge eingehalten.
Die Merkmalsausprägungen sehr gut, gut,..., ungenügend sind in derselben Reihenfolge angeordnet
wie die Zahlen 1, 2,...,6 bzw. 6, 5,...,1 in der Schweiz.
Die Skalentransformation auf der Ordinalskala ist also eineindeutig und streng monoton, d.h. die
Reihenfolge wird jeweils eingehalten.

Beispiel Skalentransformation
Das Wort „jeweils” ist sehr wichtig. Die Einhaltung der Reihenfolge bzw. der strengen Monotonie
kann also auch bedeuten, dass die Reihenfolge genau verdreht wird, d.h. aus Klein wird Groß und
aus Groß wird Klein:

Leistung Note D Note CH

sehr gut 1 6

gut 2 5

befriedigen 3 4
d

ausreichend 4 3

mangelhaft 5 2

ungenügend 6 1

Man weiß aber, dass die deutsche Note 3 an der dritten Stelle steht und die Schweizer Note 4
deshalb auch an der dritten Stelle, genauso die deutsche Note 6 an der letzten Stelle, so wie die
Schweizer Note 1. „Streng monoton” heißt also lediglich, dass die Reihenfolge für sich, also jeweils,
beibehalten wird.

Durch die Skalentransformation der Schulnoten sehr gut, gut, befriedigend,... auf die Zahlen 1,2,3,...
könnte man auf die Idee kommen, man dürfte mit diesen Noten rechnen wie mit Zahlen (z.B. als
Mittelwert der Notenverteilung 1,2,3,3,6 die Note (1 + 2 + 3 + 3 + 6):5 = 3). Dies ist aber falsch, da
man dies bei den eigentlich dahinterstehenden Noten nicht kann: „sehr gut + gut“ lässt sich nicht
ausrechnen. Der geeignete Mittelwert ist daher auch nicht das arithmetische Mittel, sondern, wie
später noch gezeigt wird, der sog. Median. Statistisch gesehen ist also die Berechnung des
Notendurchschnitts, wie es in der Schule oder im Studium gemacht wird, falsch.

EXPERTENTIPP

Hinweis:
Beachte, dass dies trotzdem „überall“ gemacht wird. Auch Prüfungsämter von Universitäten ordnen
den Noten der Studenten Zahlen zu (aus „sehr gut“ wird „1“, aus „gut“ wird „2“ etc.) und berechnen
hieraus als Durchschnittsnote das arithmetische Mittel.

Video zur Skalentransformation auf der Ordinalskala


Schauen wir uns nun ein Video zur Skalentransformation auf der Ordinalskala an:
Play Video

 1Lückentext Nr. 2
 2MC-Aufgabe Nr. 2

Lückentext Nr. 2

Aufgabe 1 von 2

Bitte die Lücken im Text sinnvoll ausfüllen.

Die strenge Monotonie als Anforderung an die Skalentransformation auf der

Ordinalskala bedeutet, dass eine Reihenfolge   wird.

Lösen
Skalentransformation auf der Kardinalskala
Vorlesen

Die Transformation auf den Kardinalskalen erfolgt nach der Regel

MERKE

Skalentransformation auf Kardinalskalen


 y=c⋅x+d
Diese Transformation wird nachfolgend bei Intervallskala, Verhältnisskala und Absolutskala gezeigt.

Transformation der Intervallskala

BEISPIEL

Beispiel 15:
Dr. Matthias Median, Mitarbeiter des Statistik Lehrstuhls, fliegt zu der Tagung „Skalierungen: Ein
statistisches Übel?” in die USA nach Boston. Beim Aussteigen aus dem Flugzeug wird ihm gesagt, es
sei 68°F warm. Was bedeutet diese Grad-Fahrenheit Temperatur in Grad-Celsius?

Wie wir schon aus Beispiel 10 wissen, lautet die Umrechnungsformel


von  ∘C in  ∘F:  ∘F=95∘C+32. Lösen wir nach °C auf:  °C=59°F−1609 und wir wissen, dass
68°F der Temperatur 20°C entsprechen. Das Merkmal Temperatur bleibt intervallskaliert, ob in Grad
Celsius oder in Grad Fahrenheit angegeben.
Intervall skalierte Merkmale werden linear transformiert nach der Regel  y=c⋅x+d mit c > 0 und d
beliebig. Dies ist die gebräuchlichste Transformationsvorschrift.

MERKE

Merke: Mathematisch und statistisch korrekt sowie von einigen Autoren auch vorgeschlagen ist
sogar, den Parameter c nur ungleich Null zu wählen. Wie schon zuvor angemerkt wurde, war die
ursprüngliche Celsius-Skala von 100 (Gefrierpunkt) bis 0 (Siedepunkt) skaliert. Die Umwandlung auf
unsere heute bekannte Einteilung erfolgte nach der Regel:  ∘Cneu=−∘Calt+100, beide
Einteilungen besitzen für uns aber den gleichen Informationsgehalt und sind intervallskaliert,
obwohl die Transformationsregel der gebräuchlichen Vorschrift widerspricht.

Transformation der Verhältnisskala


Da bei der Verhältnisskala ein natürlicher Nullpunkt existiert und damit Verhältnisse sinnvoll
interpretiert werden können, darf nur noch proportional transformiert werden, d.h.
 y=c⋅x+d mit  c>0 Skalentransformation auf Verhältnisskala
und  d=0 oder kurz  y=c⋅x Nur hierdurch ist gewährleistet, dass die Verhältnisse / Quotienten
gleich bleiben.

BEISPIEL

Beispiel 16:
Als häufiger Nutzer der Fluglinie „AeroShrott” hat Dr. Median wieder fleißig Bonusmeilen
gesammelt. Ihm wird mitgeteilt, dass er 3.500 Meilen auf dem Flug nach Boston gutgeschrieben
bekommt. Er möchte nun wissen, wie viel Kilometer er zurückgelegt hat. In seinem Reiseführer
steht, dass eine Meile etwa 1,6 km entsprechen. Er ist also  3.500⋅1,6=5.600km geflogen. Beide
Entfernungsangaben sind verhältnisskaliert und bleiben dies auch bei einer Umrechnung.

Transformation der Absolutskala


Auf der Absolutskala schließlich ist selbst das c nicht mehr variabel, sondern gleich 1, konkret also:

MERKE

Skalentransformation auf Absolutskala


 y=c⋅x+d
mit c = 1 und d = 0, also y = x.

Die Transformation ist identisch.

MERKE

Merke: Man kann Stückzahlen wie die Anzahl von Tischen in einem Raum nicht umrechnen. Drei
Tische sind einfach drei Tische, es gibt keine andere Zahl hierfür.

Anforderungen an eine Skalentransformation


Nachdem alle Skalen und deren Transformation betrachtet wurden, wird abschließend
zusammenfassend festgehalten:

Skala Anforderung an die Skalentransformation


Nominalskala umkehrbar eindeutig

Ordinalskala eindeutig streng monoton

Intervallskala linear, d.h.  y=c⋅x+d


mit c > 0 und d beliebig
Verhältnisskal proportional,  y=c⋅x
a mit c > 0
Absolutskala identisch, d.h.  y=x

 1Lückentext Nr. 3
 2MC-Aufgabe Nr. 3
 3Anforderungen an eine
Skalentransformation

Lückentext Nr. 3

Aufgabe 1 von 3

Bitte die Lücken im Text sinnvoll ausfüllen.

Die Tatsache, dass Verhältnisse auf der Intervallskala nicht gleich bleiben, liegt bei der

Skalentransformation y = a + b*x, mit a≠0, an der Zahl  .

Lösen

 Abzählbarkeit
Diskrete Merkmale
Vorlesen

Merkmale lassen sich weiterhin einteilen nach der Abzählbarkeit. Hier wird zwischen diskreten
Merkmalen und stetigen Merkmalen unterschieden. Ein Merkmal heißt diskret, wenn es
nur abzählbar  viele Werte annimmt. Eine Menge heißt wiederum abzählbar, wenn man sie abzählen
kann.
Klingt tautologisch, ist aber schwerer als man denkt:

 Jede endliche Menge ist


abzählbar, weil man die Elemente
anordnen und durchzählen kann.
 Eine Menge mit unendlich vielen
Elemente ist abzählbar, wenn sie
so viele Elemente hat wie
natürliche Zahlen existieren.

BEISPIEL

Beispiel 17:
Die Anzahl der Menschen auf der Erde ist endlich, also abzählbar. Wenn die Erde und die
Menschheit unendlich lange existieren, dann ist die Gesamtanzahl der Menschen, die auf der Erde
lebten und leben werden abzählbar, aber unendlich groß.

MERKE

Merke: Ein diskretes Merkmal ist also dadurch gekennzeichnet, dass es „Löcher” hat. So ist die
Augenzahl eines Würfels 1 oder 2 oder 3 usw., aber nicht 1,23 und nicht 1,79 etc. Genauso im
beschriebenen Beispiel der Menschen: es gibt im Laufe der Zeit 314.000 oder 314.001 Menschen,
aber nicht 314.000,739.

BEISPIEL

Beispiel 18:
Die Anzahl der Personen in einem Hörsaal oder in der Eissporthalle (zählbar von 0 bis 5.000, je nach
Fassungsvermögen des Hörsaals oder der Halle). Ebenso ist der Kontostand eines Einlegers diskret
(zählbar in 1 Cent Schritten von -10.000 € oder weniger bis +100.000 € oder mehr, je nach Vermögen
des Einlegers).

Man beachte insgesamt also:

 die Menge der natürlichen


Zahlen hat zwar unendlich viele
Elemente, aber abzählbar
unendlich viele.
 die Menge der rationalen Zahlen
hat zwar unendlich viele
Elemente, aber immer noch
abzählbar unendlich viele.
 die Menge der reellen Zahlen
Zahlen hat unendlich viele
Elemente, und zwar
überabzählbar viele.

 1LückentextNr. 1
 2LückentextNr. 2
 3MC-Aufgabe Nr. 1

Lückentext Nr. 1

Aufgabe 1 von 3

Bitte die Lücken im Text sinnvoll ausfüllen.

Die Menge A mit A = {1,2,3,4,...,10} ist  , also abzählbar.

Lösen

Stetige Merkmale
Vorlesen

Nun zu den stetigen Merkmalen. Ein Merkmal heißt stetig, wenn es überabzählbar viele Werte
annehmen kann. Es ist damit durch zwei Eigenschaften gekennzeichnet:

 Es müssen auf jeden Fall


unendlich viele Elemente sein
und
 es müssen „mehr Zahlen” als
natürliche Zahlen sein, nämlich
so viele wie es reelle Zahlen gibt.

EXPERTENTIPP

Regel zu stetigen Merkmalen:


Ein Merkmal ist stetig, wenn zwischen zwei Werten immer noch ein weiterer existiert und
dazwischen auch wiederum usw. d.h. wenn prinzipiell jeder Zwischenwert erzielt werden kann, dann
liegt ein stetiges Merkmal zugrunde.
 Beispiel

 Beispiel
Beispiel 19:
Die Körpergröße eines Menschen ist ein stetiges Merkmal, da wir theoretisch unendlich genau
messen könnten. Selbst wenn wir nur in cm oder mm messen können, so liegt z.B. zwischen 178 cm
und 179 cm noch der Wert 178,5 cm und zwischen 178 und 178,5 cm noch der Wert 178,25 cm usw.

Unterschied zwischen stetig und diskret

EXPERTENTIPP

Tipp zur Unterscheidung stetig und diskret:

Für die Unterscheidung zwischen diskret und stetig bieten sich auch folgende beide Merkregeln an:

 diskret = digital und stetig =


analog: Die Uhrzeit einer
Digitaluhr ist diskret, jene
einer Analoguhr stetig.
 Eine Treppe ist diskret, auf
einem Steg hingegen laufe
ich  stetig nach oben.

Abschließend gibt die folgende Abbildung Aufschluss über diskrete und stetige Merkmale:

Einteilung von Merkmalen


Play Video

Skalierung und der Einteilung nach der Abzählbarkeit


Es gibt einen Zusammenhang zwischen der Skalierung und der Einteilung nach der Abzählbarkeit.
Stetige Merkmale sind immer metrisch skaliert, lediglich diskrete können nominal-, ordinal- oder
metrisch skaliert sein:

Einteilung nach ... … der Skalierung

nominal ordinal metrisch

… der stetig nicht existent nicht existent Temperatur, Gewicht


Abzählbarkeit
diskret Geschlecht, Schulnoten, Bevölkerung,
Postleitzahlen IQ Stückzahlen

Merke: Alle nominalskalierten Merkmale sind diskret.

BEISPIEL

Beispiel 20a:

Ist die Anzahl der Menschen auf dieser Erde diskret oder stetig?

Sie ist diskret, denn es sind abzählbar viele (etwas unter 7.000.000.000 derzeit. Eine zwar sehr große
Zahl, aber trotzdem endlich viele und also abzählbar. Man könnte die Menschen in einer Reihe
aufstellen, wenn man wollte, und abzählen...

BEISPIEL

Beispiel 20b:

Ist die Anzahl der Menschen der Menschheit (von Anbeginn der Zeit bzw. des Menschen bis zum
möglichen Ende) auf dieser Erde diskret oder stetig?

Sie ist diskret, denn es sind abzählbar viele (bis jetzt haben nach Wissen des Autors maximal
14.000.000.000 Menschen gelebt. Eine zwar sehr große Zahl, aber trotzdem endlich viele und also
abzählbar.) Man könnt auch diese Menschen in einer Reihe aufstellen, wenn man wollte, und
abzählen.
Selbst wenn die Menschheit unendlich lange existieren sollte und also unendlich viele Menschen
existieren werden, so werden es schließlich doch "nur" abzählbar unendlich viele Menschen sein,
nämlich soviele wie natürliche Zahlen existieren...

Video zu stetigen Merkmalen


Abschließend vertiefen wir das Thema der stetigen Merkmale durch ein Lernvideo:
Play Video

 1Lückentext Nr. 3
 2Lückentext Nr. 4
 3MC-Aufgabe Nr. 2
 4Zuordnung

Lückentext Nr. 3

Aufgabe 1 von 4

Bitte die Lücken im Text sinnvoll ausfüllen.

Wenn man es absolut genau nimmt, ist das Gewicht eines Menschen ein stetiges
Merkmal. Da man allerdings nicht unendlich genau messen kann, hat man schließlich

nur endlich viele Werte zur Auswahl und misst (!) also  .

Lösen

 Quasistetige
Merkmale und
Klassierung
Gründe für quasistetige Merkmale
Vorlesen
Oftmals ist es für die statistische Weiterverarbeitung zweckmäßig von den getroffenen Einteilungen
abzuweichen und Merkmale anders zu behandeln als sie es tatsächlich sind. So werden bspw.
eigentlich diskrete Merkmale wie stetige behandelt oder es wird bewusst ein Informationsverlust in
Kauf genommen, in dem stetige Merkmale in diskrete umgewandelt oder sogar wie bei der
Skalentransformation angeführt in eine geringere Skala transformiert werden.

Das führt zu dem nächsten Grundbegriff in der Statistik: Quasistetige Merkmale.

Quasistetige Merkmale
Vorlesen

Liegen bei einem diskreten (aber kardinal skalierten) Merkmal sehr viele Ausprägungen vor bzw.
liegen die Abstände „relativ” eng beieinander, so kann es sich anbieten, dieses diskrete wie ein
stetiges Merkmal zu behandeln. Um diese (Quasi-) Verstetigung kenntlich zu machen, bezeichnet
man es als quasistetiges Merkmal.

BEISPIEL

Beispiel 21:
Die Einwohnerzahl einer Stadt oder eines Landes ist ein diskretes Merkmal. Zweckmäßigerweise
betrachtet man es trotzdem als quasistetig, da es sich so besser analysieren lässt. So ist z.B. die
Aussage, dass die Fruchtbarkeitsrate/Fertilität (durchschnittliche Zahl der Geburten einer
gebärfähigen Frau) in Deutschland bei 1,38 Kindern liegt natürlich nicht korrekt: 1,38 Kinder kann
eine Frau auch bei derzeitigem medizinischen Fortschritt nicht gebären.

„Anzahl der Geburten” sowie „Anzahl der Frauen” sind beides diskrete Merkmale und demnach
müsste es heißen, dass die Fertilität bei eins oder zwei liegt bzw. dass auf hundert Frauen im
gebärfähigen Alter 138 Geburten kommen. Allerdings wäre v.a. die erste Angabe recht
unbefriedigend, da sie „zu ungenau” ist und deshalb bietet es sich hier an, die Bevölkerungszahl als
quasistetiges Merkmal zu betrachten, da es hierdurch auch nicht zu einer fehlerhaften
Interpretation der Ergebnisse kommt (wenn man sich der Tatsache, dass die Bevölkerung ein
diskretes Merkmal ist, bewusst ist).

BEISPIEL

Beispiel 22:
Weitere, als quasistetig behandelbare Merkmale sind

 Preise in Cent,
 Währungen,
 Einkommen,
 i.d.R. alle Stückzahlen.

 1MC-Aufgabe Nr. 1

MC-Aufgabe Nr. 1

Aufgabe 1 von 1

Welche der folgenden Aussagen zu quasistetigen Merkmalen ist richtig?

Der Unterschied zwischen „diskret“ und „stetig“ hängt von der Messgenauigkeit ab. Wenn man die
Körpergröße eines Menschen mit dem Lineal misst und also genauestenfalls in Centimetern, so ist
die Messung zwar diskret, in Wahrheit aber stetig.

Der Unterschied zwischen „diskret“ und „stetig“ hängt von der Messgenauigkeit ab. Wenn man die
Körpergröße eines Menschen mit dem Lineal misst und also genauestenfalls in Centimetern, so ist
die Messung zwar stetig, in Wahrheit aber diskret.

Der Unterschied zwischen „diskret“ und „stetig“ hängt nicht von der Messgenauigkeit ab. Wenn man
die Körpergröße eines Menschen mit dem Lineal misst und also genauestenfalls in Centimetern, so
ist die Messung stets stetig.

Lösen

Klassierung
Vorlesen

Auch die umgekehrte Vorgehensweise, ein stetiges (bzw. quasistetiges) als diskretes Merkmal zu
behandeln bzw. wie schon erwähnt ein kardinal in ein ordinal skaliertes Merkmal zu transformieren
kann u.U. zweckmäßig sein.
Hierbei werden Merkmalsausprägungen, z.B. weil jede Ausprägung zu selten vorkommt, zu Gruppen
oder Klassen zusammengefasst. Diesen Vorgang nennt man auch Gruppierung (= Klassierung) von
Daten.
Im Beispiel 14 wurde bereits eine Klassierung des metrisch skalierten Merkmals des Gewichts von
Eiern in die Gewichtsklassen S, M, L und XL beschrieben. Hierbei hatten wir festgestellt, dass mit der
Klassierung ein Informationsverlust einhergeht. Dieser wird jedoch in Kauf genommen, da es
zweckmäßiger erscheint, die Eier nach Gewichtsklassen einzuteilen und zu verpacken, als von jedem
Ei getrennt und einzeln das Gewicht auszuweisen.

BEISPIEL

Beispiel 23:
Bei der statistischen Erfassung der Einkommenshöhen von Haushalten und bei der Ausgabe der
Einkommensverteilung z.B. im Statistischen Jahrbuch werden die Einkommen in Klassen bspw. von
je 1.000 € eingeteilt.

Dies hat zum einen bei der Datenerhebung den Grund, dass viele Haushalte überhaupt nicht wissen,
wie hoch ihr konkretes Einkommen ist und des Weiteren die Akzeptanz zur Angabe des
Haushaltseinkommens steigt, wenn dieses nur innerhalb bestimmter Grenzen angegeben werden
muss. Zum anderen macht die Klassierung auch bei der Auswertung und Ausgabe der Daten
dahingehend Sinn, dass die Darstellung aber v.a. die Übersichtlichkeit und damit der „visuelle
Informationsgehalt” der Daten wesentlich verbessert werden kann. Wir werden hierauf im nächsten
Kapitel bei der Darstellung der Daten zurückkommen.

Überführung/Transformation von Merkmalen

MERKE
Merke: Bei jeder Transformation, egal ob in die eine oder andere Richtung, sollten wir beachten,
dass wir die Daten anders behandeln, als sie tatsächlich vorliegen:

 Eine Gruppierung / Klassierung


geht i.d.R. mit einem
Informationsverlust einher, da
die Messgenauigkeit (künstlich)
erheblich reduziert wird. Jedoch
vereinfacht sich gegebenenfalls
die Darstellung und u.U. auch die
statistische Weiterverarbeitung.
 Jede Klassierung entspricht im
Grunde einer Transformation
mindestens auf die Ordinalskala
zurück. Die Eigenschaft der
Kardinalskala, nämlich dass die
Abstände messbar und sinnvoll
interpretierbar sind, geht
eigentlich verloren. Wenn wir nur
noch wissen, dass Dr. Matthias
Median in die Gehaltsklasse
zwischen 2.000 und 3.000 € fällt,
können wir nicht mehr angeben,
wie viel weniger er verdient als
Professor Rainer Streuung,
welcher der Gehaltsklasse
zwischen 5.000 und 6.000 €
angehört, sondern nur noch,
dass er weniger bzw. in einem
Rahmen von 2.000 bis 4.000 €
weniger verdient. Genauso ist es
nun nicht mehr möglich, einen
Gehaltsunterschied mit anderen
Mitarbeitern festzustellen, die in
dieselbe Gehaltsklasse wie Dr.
Median fallen.
 Eine „Verstetigung” dient der
einfacheren Bearbeitung der
statistischen Daten, jedoch
können hierbei „unsinnige”
(bspw. 1,2 Kinder) bzw. nicht
nachweisbare (z.B. Angabe eines
mittleren Einkommens bei
Klassierung) Ergebnisse ermittelt
werden. Man sollte sich also bei
der Interpretation der Ergebnisse
dieser Tatsache bewusst sein.
V.a. auf letzteres werden wir an
geeigneter Stelle noch einmal
zurückkommen.

 1MC-Aufgabe Nr. 2

MC-Aufgabe Nr. 2

Aufgabe 1 von 1

Welche der folgenden Aussagen zur Klassierung ist richtig?

 
Die Menge A = {1,2,3} lässt sich in vier mögliche Variationen klassieren.

 
Die Menge A = {1,2,3} lässt sich in unendlich vielen möglichen Variationen klassieren.

 
Die Menge der natürlichen Zahlen N = {1,2,3,4,5,6,7,8,...} kann nicht klassiert werden.

Lösen

 Selbstkontrolla
ufgabe zu den
Grundbegriffe
n der
deskriptiven
Statistik
Aufgabe Merkmale
Vorlesen

Zur Übung der Begriffe in der Statistik eine Aufgabe.


Aufgabe 2: Entscheide, ob die Merkmale

 a) häufbar oder nicht häufbar


sind,
 b) qualitativ oder quantitativ,
 c) nominal, ordinal oder metrisch
skaliert,
 d) diskret oder stetig,
 e) klassiert oder unklassiert

sind und gib mögliche Ausprägungen an.

Merkmal

Inhalt von Bierflaschen in ml

Haarfarbe

Nationalität

Nummernschilder

Beruf

Alter

Haushaltsgröße in Personen

Telefonnummer

Hausnummer

Rendite von Wertpapieren

Längengrade

Geschlecht
Freizeitbeschäftigung

Sparguthaben

Gewicht

Religionszugehörigkeit

Geburtsdatum

Schulbildung

Bremsweg eines PKW

Postleitzahlen

Einkommen

Schadensfreiheitsklasse bei der Auto-Haftpflicht

Noten

Bergkategorie bei der Tour de France

Körpergröße

TOP-100 Verkaufscharts von Musik-Singles

Kleidergrößen

Lösung Aufgabe Merkmale


Vorlesen

Lösungen zur Aufgabe "Merkmale": Einteilung dieser nach

a) häufbar oder nicht häufbar sind,


b) qualitativ oder quantitativ,
c) nominal, ordinal oder metrisch skaliert,
d) diskret oder stetig,
e) klassiert oder unklassiert

Wenn eine Klassierung i.d.R. vorgenommen wird, das Merkmal ist es jedoch nicht, so wird es als
nicht klassiert charakterisiert (z.B. Inhalt von Bierflaschen, Einkommen). Es bedeuten:

a) h ... häufbar und n.h. ... nicht häufbar

b) qual. ... qualitativ und quant. ... quantitativ

c) n ... nominal; o ... ordinal; m.i. ... metrisch, Intervallskala; m.v. ... metrisch, Verhältnisskala und m.a.
... metrisch absolut skaliert

d) d ... diskret und s ... stetig

e) k ... klassiert und n.k. ... nicht klassiert

Merkmal a) b) c) d) e)

Inhalt von Bierflaschen n.h. quant m.v. s n.k.


.

Haarfarbe h qual. n d n.k.

Nationalität h qual. n d n.k.

Nummernschilder n.h. qual. n d n.k.

Beruf h qual. n d n.k.


Alter n.h. quant m.v. s n.k.
.

Haushaltsgröße in Personen n.h. quant m.a. d n.k.


.

Telefonnummer n.h. qual. n d n.k.

Hausnummer n.h. qual. n d n.k.

Rendite von Wertpapieren n.h. quant m.v. s n.k.


.

Längengrade n.h. quant m.i. s n.k.


.

Geschlecht n.h. qual. n d n.k.

Freizeitbeschäftigung h qual. n d n.k.

Sparguthaben n.h. quant m.v d n.k


.

Gewicht n.h. quant m.v. s n.k.


.

Religionszugehörigkeit n.h. qual. n d n.k.

Geburtsdatum n.h. quant m.i. d n.k.


.

Schulbildung n.h. qual. o d n.k.

Bremsweg eines PKW n.h. quant m.v. s n.k.


.
Postleitzahlen n.h. qual. n d n.k.

Einkommen n.h. quant m.v. d n.k.


.

Schadensfreiheitsklasse bei der n.h. qual. o d k


Autohaftpflicht

Noten n.h. qual. o d n.k.

Bergkategorie bei der Tour de France n.h. qual. o d k

Körpergröße n.h. quant m.v. s n.k.


.

TOP-100 Verkaufscharts von Musiksingles n.h. qual. o d n.k.

Kleidergrößen n.h. quant o d k


.

Man beachte z.B., dass Nummernschilder nicht häufbar sind, denn dasselbe Auto darf nicht
mehrere (ungleiche) Nummernschilder besitzen.

Weiterhin gibt es bei Berufen zwar durchaus Hierarchien (Chefarzt, Oberarzt, Stationsarzt,...), dies
aber im gleichen Beruf. Insofern blicken wir hier von diesen Hierarchien ab und betrachten nur
unterschiedliche Berufe, die folglich nominalskaliert sind, nicht aber mit einer Reihenfolge versehen,
nicht also ordinalskaliert.

Kapitelabschlusstest
Sie sind zum Kapitelabschlusstest zugelassen.

Jetzt Kapitelabschlusstest starten Überspringen ?


Schriftfarbe 
Markieren 

 Häufigkeitsverteilungen
 Unklassierte Daten und ihre Darstellung
Grundlagen der Häufigkeitsverteilung
Vorlesen

In diesem Kapitel zur Häufigkeitsverteilung werden zunächst die Grundlagen erklärt.

Wenn ein Merkmal  x an  n Merkmalsträgern einer statistischen Masse beobachtet wird, so erhält


man die Merkmalswerte (= Beobachtungswerte)  x1,x2,x3,...,xn.
Diese Werte bilden die sogenannte Urliste. Der Platzhalter  xi gibt uns den i. Wert wieder, demnach
ist also  x5 der fünfte Wert der Urliste, insgesamt gibt es  n Werte.

BEISPIEL

Beispiel 24:
Dr. Median hielt das Seminar „Häufigkeiten und ihre Darstellung” mit 20 Studenten ab. Abschließend
ließ er zu diesem Thema einen Test schreiben, wobei folgende Noten erzielt wurden:
53451145342544455252

Dr. Median möchte nun die Verteilung der Noten geeignet darstellen, damit er diese, wie üblich, am
Schwarzen Brett des Statistik-Lehrstuhls aushängen kann. Da er dies ungern selber tut, beauftragt
er uns mit dieser wichtigen Aufgabe.
Zunächst stellen wir hierzu die Urliste der besseren Übersicht wegen in Form einer Tabelle auf.
Hierbei tragen wir in der ersten Zeile den Laufindex i ein, der in unserem Fall von 1 bis n = 20 läuft.
In der zweiten Zeile ordnen wir dann die zugehörigen Merkmalsausprägungen  xi an:

I 1 2 3 4 5 6 7 8 9 1 11 1 13 1 1 16 1 18 1 20
0 2 4 5 7 9

  5 3 4 5 1 1 4 5 3 4 2 5 4 4 4 5 5 2 5 2
xi

Die geordnete Urliste

BEISPIEL
Beispiel 25:
Der dritte Wert ist  x3=4, der folgende hingegen  x5=1, der 20. Wert lautet  x20=2.

Aus der Urliste bilden wir nun eine sogenannte geordnete Urliste, indem die
Merkmalsausprägungen der Größe nach sortiert werden:

1 1 2 2 2 3 3 4 4 4 4 4 4 5 5 5 5 5 5 5

 1Lückentext Nr. 1

Lückentext Nr. 1

Aufgabe 1 von 1

Bitte die Lücken im Text sinnvoll ausfüllen.

Wenn ein Merkmal x an n Merkmalsträgern einer statistischen Masse beobachtet wird,

so erhält man die  (= Beobachtungswerte) x1,x2,x3,...,xn.


Lösen

Häufigkeiten
Vorlesen

In der geordneten Urliste haben wir gesehen, dass einzelne Werte mehrfach erscheinen. Deshalb
schreiben wir vereinfachend nur noch die Zahlen auf, die vorkommen, und zwar ebenfalls geordnet:
12345

oder allgemein  a1,a2,a3,...,am und  a1<a2<a3<...<am. Hierbei ist  m die Anzahl der


unterschiedlichen Werte, welche der Größe nach ( a1<a2<a3<...<am) angeordnet werden.
Während uns oben in der Notation mit  x die Stelle interessiert hat, so ist nun der Wert wichtig; wir
schreiben  aj und meinen den  j - Wert. So ist z.B.  a2=2 die zweite Zahl, die auftritt und diese hat
den Wert 2. Wir haben damit fünf unterschiedliche Zahlen, die als Noten vorkommen.
Es lassen sich

 absolute Häufigkeiten und


 relative Häufigkeiten

unterscheiden.

Absolute Häufigkeiten
Vorlesen

Unter der absoluten Häufigkeit  h(aj) oder kurz  hj versteht man, wie oft  aj vorkommt. Es gilt:

 ai 1 2 3 4 5

 h(ai) 2 3 2 6 7

Es gilt also z.B.  h(a3)=h(3)=2, weil die dritte Ausprägung die Zahl 3 ist und diese zweimal
vorkommt. Die Summe aller absoluten Häufigkeiten muss dabei der Gesamtzahl der
Beobachtungswerte n entsprechen, in unserem Beispiel also n = 20. Wir schreiben hierfür:

 ∑j=1mh(aj)=n

oder kürzer

 ∑h(aj)=n

Exkurs: Summen und Summenzeichen


Anstatt alle Summanden einzeln aufzuzählen, z.B. h(a1)+h(a2)+...+h(an) , benutzen wir
hierfür das sog. Summenzeichen  ∑ (griechischer Buchstabe Sigma). Damit wir wissen, was wir

alles aufsummieren müssen, benutzen wir einen sog. Laufindex und schreiben unter das
Summenzeichen  ∑ den Startwert, z.B. i = 1 oder j = 1 und über das  ∑ den gewünschten

Endwert, z.B. n oder m oder 20 etc. In unserem obigen Beispiel bedeutet dies:

 ∑j=1mh(aj)=h(a1)+h(a2)+h(a3)+h(a4)+h(a5)=2+3+2+6+7=20=n.

Summieren wir über alle Werte auf also z.B. von i = 1 bis n oder von j = 1 bis m, so lässt man die
Angaben unter und oberhalb des  ∑ einfach weg und schreibt anstatt

 ∑j=1mh(aj)

nur noch

 ∑h(aj)
Existieren mehrere Indizes, wir möchten aber nur über einen bestimmten aufsummieren, so
schreibt man kürzer nur den Index, über den aufsummiert werden soll unter das  ∑:

 ∑i=1nai⋅bj

wird zu

 ∑iai⋅bj

Wir wollen also nur über i aufsummieren, der Index j bleibt konstant. In Kapitel 6 wird uns noch die
Doppelsumme „ ∑∑ ” begegnen, dies bedeutet nichts anderes, als dass wir mit dem Laufindex
des ersten Summenzeichens beginnen, diesen auf den Startwert setzen und dann einmal über alles
des zweiten Summenzeichens aufsummieren. Erhöhen wir nun den Laufindex des ersten
Summenzeichens um Eins und summieren wieder über alles des zweiten Summenzeichens auf usw.
Auch hier kürzen wir häufig ab, indem wir nur den Laufindex unter das  ∑ schreiben, wenn wir
über alles aufsummieren wollen:

 ∑i=1n∑j=1mai⋅bj=∑i∑jai⋅bj

 =a1⋅b1+a1⋅b2+...+a1⋅bm
 +a2⋅b1+a2⋅b2+...+a2⋅bm
 +an⋅b1+an⋅b2+...+an⋅bm

 1Lückentext Nr. 2

Lückentext Nr. 2

Aufgabe 1 von 1

Bitte die Lücken im Text sinnvoll ausfüllen.

Bei der   3,4,3,3,5,2,3,1 liegt die absolute Häufigkeit des Wertes "3" bei 4.

Lösen

Relative Häufigkeit
Vorlesen

Man kann statt der absoluten auch die relative Häufigkeit  f(aj) oder kurz  fj beobachten. Diese
ergibt sich dadurch, dass wir die absolute Häufigkeit  h(aj) durch die Anzahl der Beobachtungen n
teilen:
 f(aj)=1n⋅h(aj) Relative Häufigkeit.
Die relative Häufigkeit  f(aj) gibt uns den Anteil einer Ausprägung aller Beobachtungen an. Für das
o.e. Beispiel erhält man folgende relative Häufigkeiten:

 ai 1 2 3 4 5

 f(a  220  32  220  620  720


i) 0

Die Note 1 wurde demnach von zwei von den 20 Studenten bzw. von  220⋅100 der Studenten
geschrieben. Die Summe der relativen Häufigkeiten muss gleich 1 sein, d.h.  ∑f(aj)=1, da hier

alle Beobachtungen (also 100 %) enthalten sind.

MERKE

Merke:
• Die Summe der absoluten Häufigkeiten  h(aj) ist gleich dem Umfang der Erhebung,
d.h.  ∑h(aj)=n.
• Die Summe der relativen Häufigkeiten  f(aj) ist gleich 1, d.h.  ∑f(aj)=1. Relative Häufigkeiten
können auch als Prozentwerte angegeben werden ( f(aj)⋅100). Im obigen Beispiel bedeutet dies,
dass genau 10 % der Studenten eine „Eins“ oder 30 % eine „Vier“ geschrieben haben. Nicht zu
verwechseln mit der Interpretation in der Wahrscheinlichkeitsrechnung. Wir dürfen nicht
behaupten, dass mit einer Wahrscheinlichkeit von 10 % eine Eins geschrieben wird! Wir haben es
hier mit tatsächlichen Beobachtungen zu tun und wollen (noch) keine Vorhersagen über die Zukunft
tätigen.

Darstellung der absoluten und der relativen Häufigkeit


Zusammenfassend können wir nun sowohl die absoluten als auch die relativen Häufigkeiten sowie
die Summen von beiden übersichtlich in einer Tabelle darstellen. Dies ist die gebräuchlichste
Darstellung, wir werden sie in Zukunft immer wieder verwenden.

 ai 1 2 3 4 5  

 h(aj 2 3 2 6 7 20
)
 f(aj  22  320  220  62  720 1
) 0 0

 1LückentextNr. 3
 2LückentextNr. 4
 3MC-Aufgabe Nr. 1

Lückentext Nr. 3

Aufgabe 1 von 3

Bitte die Lücken im Text sinnvoll ausfüllen.

Zur Urliste 3,4,3,3,6,2,3,1 liegt die relative Häufigkeit des Wertes 3 bei  %.

Lösen

Graphische Darstellung
Vorlesen

Die Häufigkeitstabelle ist unsere erste Darstellung des statistischen Datenmaterials. Sie bildet die
Grundlage für die weitere statistische Verarbeitung. Für eine bessere visuelle Darstellung bieten sich
jedoch eher Diagramme an, da hier oft einfacher und schneller die Verteilung der statistischen
Daten erkannt werden kann.

Im folgenden werden das Stabdiagramm und das Kreisdiagramm vorgestellt.

Stabdiagramm oder Säulendiagramm


Vorlesen

Bei einem Stab- oder Säulendiagramm werden auf der Abszisse (Abszisse = am Boden entlang =
waagerechte Koordinatenachse) die Beobachtungswerte  aj und auf der Ordinate (Ordinate = nach
oben = senkrechte Koordinatenachse) die zugehörigen absoluten oder relativen Häufigkeiten
abgetragen. Ein Säulendiagramm lässt lediglich die Stäbe dicker werden, hat allerdings den Nachteil,
dass hier der Eindruck entsteht, dass es sich um einen Wertebereich (bspw. Note von 1,5 bis 2,5
anstatt nur die Note 2) handelt, was tatsächlich gar nicht der Fall ist. Säulendiagramme sollten
deshalb nur bei nominalskalierten Merkmalen benutzt werden. Wir sehen weiterhin, dass die Höhe
der Stäbe bzw. Säulen in den beiden Fällen der absoluten und relativen Häufigkeit gleich sind (sogar
sein müssen), lediglich die Ordinatenwerte sind unterschiedlich:

Stabdiagramm für absolute Häufigkeiten

Stabdiagramme für relative Häufigkeiten


Säulendiagramme für absolute Häufigkeiten

Säulendiagramme für relative Häufigkeiten

 1LückentextNr. 5
 2LückentextNr. 6
 3MC-Aufgabe Nr. 2

Lückentext Nr. 5

Aufgabe 1 von 3

Bitte die Lücken im Text sinnvoll ausfüllen.


Bei einem Stab- oder Säulendiagramm werden auf der  die
Beobachtungswerte abgetragen.

Lösen

Kreisdiagramm
Vorlesen

Eine weitere Möglichkeit der Darstellung ist das Kreisdiagramm (=Kuchendiagramm). Hierbei


werden die Flächen der Kreissektoren proportional zu den Häufigkeiten gewählt. Ausrechnen lassen
sich diese über die Winkel. Ein ganzer Kreis entspricht 360°, der kleinste Anteil von 1/n ist dann
360°/n. Wir können somit die zugehörigen Winkel wie folgt berechnen:

 αj=haj⋅360°n=360°haj=faj⋅360° Winkel des Kreisdiagramms

Für unser Beispiel ergibt sich demnach für die Note 1 der Winkel, indem wir 360° durch die absolute
Häufigkeit teilen oder mit der relativen Häufigkeit multiplizieren. Wir erhalten somit einen Winkel
von  α1=0,1⋅360°=36° für die Note 1, für die Note 2
entsprechend  α2=0,15⋅360°=54° usw.:
Kreisdiagramm

Das Kreisdiagramm besitzt den Vorteil, dass wir den relativen Anteil sehr leicht erkennen bzw.
visualisieren können. Wir sehen sofort, dass etwa ein Drittel der Studenten die Klausur nicht
bestanden hat (Note 5) oder dass etwas mehr als die Hälfte der Studenten die Klausuren mit
durchschnittlichem Erfolg (Note 2 bis 4) geschrieben haben, aber auch, dass die Klausur insgesamt
schlecht ausgefallen ist, da etwa zwei Drittel der Studenten die Note 4 oder 5 erhalten haben. Ein
weiterer Vorteil zeigt sich bei der Verwendung von nominalskalierten Merkmalen, da hier nicht, wie
bei Stabdiagrammen möglich, der Eindruck entsteht, es könnte sich um ordinal- oder
kardinalskalierte Merkmale handeln.

 1MC-Aufgabe Nr. 3

MC-Aufgabe Nr. 3

Aufgabe 1 von 1

Angenommen, dass die nächste Bundestagswahl wie folgt ausfällt: CDU 50 %, SPD 40
%, FDP 10 %. Was lässt sich dann über das zugehörige Kreisdiagramm aussagen?
 

Die CDU erhält eine Fläche mit einem Winkel von 170°, die SPD von 144°, die FDP den Rest.

Die CDU erhält eine Fläche mit einem Winkel von 180°, die SPD von 144°, die FDP den Rest.

Die CDU erhält eine Fläche mit einem Winkel von 180°, die SPD von 140°, die FDP den Rest.

Lösen

 Klassierte Daten und ihre Darstellung


Grundlagen Klassierung
Vorlesen

Wie bereits im Kapitel zu den Grundbegriffen, im Abschnitt Quasistetige Merkmale und Klassierung
erwähnt wurde, bietet sich u.U. zur Darstellung von statistischem Datenmaterial die Klassierung an.
Nehmen wir einmal als Beispiel die Einkommensverteilung der Nettogehälter der Mitarbeiter des
Statistik-Lehrstuhls oder der Einwohner unseres Heimatortes an. Wir können davon ausgehen, dass
jede Person in Deutschland aufgrund diverser Merkmale (Alter, Familienstand,
Betriebszugehörigkeit, Qualifikation, Absetzungsmöglichkeiten etc.) ein anderes Einkommen hat. Die
Darstellung sowohl in einer Häufigkeitstabelle als auch als Stabdiagramm oder Kreisdiagramm wäre
recht mühsam und für den Betrachter auch sinnlos.

Dazu nochmal im folgenden Video eine Zusammenfassung und Unterscheidung von klassierte
Daten und unklassierte Daten.

Lernvideo - Klassierte Daten und unklassierte Daten


Play Video

Klassierung und ihre Darstellung


Vorlesen
Für die Darstellung klassierter Daten betrachten wir nochmal folgendes Beispiel:

BEISPIEL

Beispiel 26:
Dr. M. Median ist über die Klausurergebnisse nicht sehr erfreut. Um so mehr wurmt es ihn, dass bei
seiner Kollegin Dipl.-Stat. Verena Varianza in ihrem Seminar „Darf man nur der Statistik trauen, die
man selber bezahlt hat” von den 25 Studenten etwa die Hälfte mit gut oder sehr gut abgeschnitten
haben und nur 10% durchgefallen sind.

Er stellt uns deshalb die Punkteverteilung zur Verfügung:

i 1 2 3 4 5 6 7 8 9 1 1 1 1 14 1 1 1 18 1 20
0 1 2 3 5 6 7 9

Punkte   33 7 6 0 98 9 6 5 66 6 9 7 5 61 5 4 1 80 4 87
xi 8 3 5 0 4 0 0 2 8 9 9
Note 5 3 4 5 1 1 4 5 3 4 2 5 4 4 4 5 5 2 5 2
und beauftragt uns, diese darzustellen, in der Hoffnung, durch eine andere Einteilung eine bessere
„Verteilung” zu erreichen. Stellen wir zunächst die Punkteverteilung mit einem Stabdiagramm dar.
Wir sehen nun lediglich, dass keine Punktzahl mehr als einmal erreicht wurde und u.U. Bereiche
innerhalb der Daten gehäuft vorkommen. In unserem Beispiel ist dies bei 50 und 60 Punkten der
Fall. Diese Häufung muss jedoch nicht bei jeder Verteilung eintreten, es hätte auch eine
gleichmäßigere Punkteverteilung der Fall sein können. I.d.R. werden wir aber durch die Darstellung
des Stabdiagramms (oder der Häufigkeitstabelle) keinen nennenswerten Informationsgewinn
erhalten:

Stabdiagramm der Punkteverteilung

Zur besseren Visualisierung sollten wir die Daten klassieren (= gruppieren). Zunächst muss man
hierzu die Merkmalswerte in Klassen einteilen, diese Einteilung ist jedoch oft recht willkürlich. Hierzu
teilen wir das Punktespektrum bspw. in fünf gleich breite (= äquidistante) Klassen à 20 Punkte ein
und ermitteln die jeweilige Klassenbesetzung bzw. Klassenhäufigkeit, wobei wir für die absolute
Klassenhäufigkeit die Notation  hk und für die relative  fk verwenden (k steht für die Klasse):

Klasse  hk absolute  fk relative


Klassenhäufigkeit Klassenhäufigkeit
[0;20) 4 4/20 = 0,20
[20;40) 1 1/20 = 0,05
[40;60) 4 4/20 = 0,20
[60;80) 6 6/20 = 0,30
[80;100 5 5/20 = 0,25
)
 ∑ 20 1

Bei der Klassierung müssen wir die Einteilung der Klassengrenzen beachten. Üblicherweise wählt
man die untere Klassengrenze geschlossen und die obere Klassengrenze offen. Dass heißt, die
Schreibweise [0;20) bedeutet in der obigen Tabelle, dass die Zahl 0 eingeschlossen ist, die Zahl 20
hingegen nicht. Wir sehen nun, dass z.B. in der ersten Klasse vier Studenten liegen, d.h. zwischen
null und zwanzig Punkten geschrieben haben oder sechs Seminarteilnehmer zwischen 60 und 80
Punkte.

MERKE

Merke: Es ist auch möglich, die untere Klassengrenze offen und die obere geschlossen zu wählen.
Bei stetigen Variablen (z.B. Einkommen) ändert sich hierdurch in den weiteren Berechnungen nichts.
Vorsicht ist jedoch, wie im vorliegenden Fall, bei diskreten Variablen geboten. Wenn wir hier nicht
aufpassen, welche Klassengrenze offen oder geschlossen ist, verändern sich möglicherweise unsere
Ergebnisse. In unserem Beispiel würden jene Personen mit exakt 60 bzw. exakt 80 Punkten in die
nächsthöhere Klasse „rutschen” und damit würde sich auch die Klassenbesetzung ändern.

Alternative Schreibweisen für offene und geschlossene Klassengrenzen / Intervalle sind:

 unten geschlossene und oben offene Klassengrenze / Intervall [...;...) = [...;...[ = (von ... bis
unter ...)
 unten offene und oben geschlossene Klassengrenze / Intervall (...;...] = ]...;...] = (von über ...
bis ...)

Weiterhin ist für eine sinnvolle Klassierung wichtig, welche Randwerte man wählt, d.h. wie weit man
nach oben (mit der obersten Klasse) und wie weit man nach unten (mit der untersten Klasse) geht.
 1Lückentext Nr. 1
 2MC-Aufgabe Nr. 1

Lückentext Nr. 1

Aufgabe 1 von 2

Ergänzen Sie bitte "rechts", "links" oder "mittleren"

Wenn man als Rohdaten die Zahlen 3,2,3,5,4,3,1,3 hat und diese klassiert ausdrücken
möchte mit den Klassen [1,2), [2,3) und [3,6), dann liegen sechs Elemente in der

 liegenden Klasse.

Lösen

Histogramm
Vorlesen

Zur graphischen Darstellung klassierter Daten verwendet man das Histogramm. Ein Histogramm ist
nun analog zu einem Säulendiagramm zu sehen, mit dem wesentlichen Unterschied, dass die
Flächen der Säulen hier die (absoluten oder relativen) Häufigkeiten widergeben und nicht ihre
Höhen. Bei äquidistanten Klassenbreiten werden häufig an der Ordinate auch Häufigkeiten
abgetragen. Dies ist zwar nicht ganz korrekt, kann zur übersichtlicheren Darstellung aber getan
werden. Bei nicht-äquidistanten Klassenbreiten wäre diese Vorgehensweise aber nicht mehr
korrekt.

MERKE

Merke: Die Ordinatenwerte, d.h. die Höhe der Rechtecke eines Histogramms, sind unerheblich für
das Verständnis. Sie werden lediglich so konstruiert, dass sie, multipliziert mit der Klassenbreite,
gleich der Häufigkeit sind.
Histogramme mit äquidistanter Klassenbreite

Beispiel zur Erstellung eines Histogramm


Warum wird nun aber der Flächeninhalt und nicht der Ordinatenwert als Zuordnung der
Häufigkeiten benutzt? Machen wir uns das an einem einfachen Beispiel der Einkommensverteilung
unseres Statistiklehrstuhls klar, welches wie folgt aussehen soll:

BEISPIEL

Beispiel 27:

Name Nettoeinkommen in €

Prof. Dr. Rainer Streuung 4.500

Dr. Matthias Median 3.000

Dipl.-Stat. Verena 2.000


Varianza

Lorenzo Fusioni 900

Patrik Pärson 800

Lars Pärsle 500


Wir wollen nun die Einkünfte der studentischen Hilfskräfte L. Fusioni, P. Pärson sowie L. Pärsle von
den normalen Mitarbeitern trennen und klassieren deshalb von 0 – 1.000 € und von 1.000 - 5.000 €
Nettoeinkommen. Wir erhalten nachfolgende Häufigkeitstabelle sowie Histogramm, wenn wir die
Häufigkeiten an der Ordinate abtragen würden:

Klasse absolute Klassenhäufigkeit relative Klassenhäufigkeit

[0;1000) 3 3/6 = 0,5

[1000;5000 3 3/6 = 0,5


)

 ∑ 6 1

Histogramm Beispiel

Wir können nun relativ einfach die Häufigkeit an der Ordinate ablesen, allerdings täuscht uns diese
Darstellung eine „stärker” besetzte zweite Klasse vor. Die Balken sind unterschiedlich mächtig, der
erste „passt” viermal in den zweiten hinein und wir erhalten somit den Eindruck, dass die zweite
Klasse viermal so stark besetzt ist wie die erste.
Um diesen Fehleindruck zu vermeiden, benutzen wir den Flächeninhalt zur Darstellung der
Häufigkeiten,der Ordinatenwert dient uns lediglich zu deren Ermittlung. Wie errechnet man Breite
und Höhe der Balken des Histogramms?

 Die Abszissenwerte (Werte auf derjenigen Achse, die nach rechts zeigt), also die Breiten der
Rechtecke, sind bestimmt durch die jeweilige Klassenbreite  (bk).
 Für die Ordinatenwerte (Werte auf derjenigen Achse, die nach oben zeigt), also die Höhe der
Rechtecke, muss man die (relativen oder absoluten) Häufigkeiten der jeweiligen Klasse
dividieren durch die Klassenbreite:
Ordinatenwert = Häufigkeit : Klassenbreite

Also ist z.B. für die Höhe der ersten Klasse zu rechnen:  31000=0,003 bzw.  0,51000=0,0005 bei
absoluten bzw. relativen Häufigkeiten. Analog erhalten wir für die zweite
Klasse:  35000−1000=34000=0,00075 bzw.  0,54000=0,000125 und erhalten folgendes
korrektes Histogramm:

Beispiel Histogramm mit optimaler Breite /Höhe der Balken

MERKE

Merke: Bei äquidistanter Einteilung ist das höchste Rechteck jenes mit der größten Häufigkeit. Bei
nicht-äquidistanter Einteilung hingegen kommt es auf den Flächeninhalt an, nicht auf die
Rechteckhöhe! Hier vertritt jener Balken die größte Häufigkeit, der die größte Fläche hat.

 1Lückentext Nr. 2
 2MC-Aufgabe Nr. 2

Lückentext Nr. 2

Aufgabe 1 von 2

Bitte die Lücken im Text sinnvoll ausfüllen.

Für den Ordinatenwert einer Säule in einem Histogramm gilt: Ordinatenwert =

Häufigkeit, dividiert durch 


Lösen

Aufgabe Histogramm
Vorlesen

Dr. M. Median ist mit unserer Zusammenstellung der Punktzahlen zufrieden, da dies nun ein etwas
positiveres Bild abgibt. Beeindruckt von unserer Arbeit und unserem Wissen über Histogramme
bittet er uns, die der Notenverteilung zugrundeliegende Punkteklassierung noch einmal
darzustellen, er möchte danach entscheiden, ob er lieber die Noten wie in Abb. 3a und 3b oder die
Punkteverteilung als Histogramm aushängen sollte. Die den Noten zugrunde liegende
Punkteverteilung lautet: 5 entspricht Punktzahl [0;50), 4 entspricht [50;65), 3 entspricht der
Punktzahl [65;80), 2 entspricht [80;95) und 1 entspricht der Punktzahl [95;100).

Erstellen Sie eine Häufigkeitstabelle mit den Klassenbreiten und den Klassenhöhen.

Abb. 3a: Stabdiagramme für absolute Häufigkeiten


Abb. 3b: Stabdiagramme für relative Häufigkeiten

Lösung Aufgabe Histogramm


Vorlesen

Die Häufigkeitstabelle mit den Klassenbreiten  bk und den Klassenhöhen  fk/bk lautet:

Not Klasse k Punkte hk fk bk fk/bk


e

5 1 [0;50) 7 0,35 50 0,007

4 2 [50;65) 6 0,3 15 0,02

3 3 [65;80) 2 0,1 15 0,0067

2 4 [80;95) 3 0,15 15 0,01

1 5 [95;100 2 0,1 5 0,02


]

Σ - - 20 1 100 -

Häufigkeitspolygon
Vorlesen

Zur besseren Visualisierung klassierter Daten bzw. des Histogramms wird häufig auch das
sog. Häufigkeitspolygon verwendet. Dies erhält man, wenn man die Mitten der oberen Kanten der
Rechtecke eines Histogramms miteinander verbindet. Es wird i.d.R. bis zur Merkmalsachse
verlängert, indem der erste und letzte Punkt des Häufigkeitspolygons eine halbe Klassenbreite links
und rechts der untersten bzw. obersten Klassengrenze auf die Abszisse gelegt wird. Für unser
vorheriges Beispiel erhalten wir also:

Histogramm mit Häufigkeitspolygon

Das Häufigkeitspolygon sollte nur bei äquidistanter Klassierung verwendet werden, da nur so
gewährleistet ist, dass der Flächeninhalt unter dem Histogramm und unter dem Häufigkeitspolygon
identisch ist. Des weiteren suggeriert uns das Häufigkeitspolygon, dass die Werte innerhalb der
Klassen gleichmäßig sind und es entsteht der Eindruck, dass Merkmalsausprägungen, die tatsächlich
(teilweise auch objektiv) nicht realisiert wurden (bzw. worden sein konnten), doch eintraten. In
unserem Beispiel sieht es so aus, als ob die niedrigste Punktzahl -10 und die höchste 110 Punkte
gewesen ist, was offensichtlich nicht der Fall war.

MERKE

Merke: Das Häufigkeitspolygon findet auch bei nicht-klassierten Daten als sogenanntes


Liniendiagramm Anwendung. Hierbei werden die Spitzen der einzelnen Stäbe miteinander
verbunden. Jedoch ist auch diese Darstellung mit Vorsicht zu genießen, da sie Spielraum für
Fehlinterpretationen lässt.
Konstruktion eines Liniendiagramms

Konstruktion eines Liniendiagramms

 1Lückentext Nr. 3

Lückentext Nr. 3

Aufgabe 1 von 1

Bitte die Lücken im Text sinnvoll ausfüllen.


Bei der Konstruktion eines Häufigkeitspolygons werden die Mitten der oberen Kanten

der Säulen eines  miteinander verbunden.

Lösen

Regeln zur Klassenbildung in der Statistik


Vorlesen

Um nochmals auf das wichtige Thema der Klassenbildung zurück zu kommen, gibt es dazu an dieser
Stelle einen kleinen Exkurs. Hier werden Regeln und Hinweise gegeben, die bei einer Klassenbildung
zu beachten sind.

Bei der Klassenbildung stehen wir vor diversen Problemen, die wir beachten sollten. Ein
Patentrezept gibt es hierzu nicht, grundsätzlich kann hier relativ willkürlich vorgegangen werden.
Einige Regeln sollten wir aber – wenn möglich – beachten:

1. Bilde, wenn möglich, sinnvoll äquidistante Klassenbreiten.

2. Bilde nicht zu viele (gewünschte Informationsverdichtung wird nicht erreicht) aber auch nicht
zu wenige Klassen (Struktur der ursprünglichen Daten geht evtl. verloren).

Als Regeln für die Anzahl der Klassen k bei n voneinander verschiedenen Beobachtungswerten
haben sich hierzu u.a. herausgebildet:
o  k=n√ für n ≤ 100 (Faustregel)
o  k=1+3,3log10 n = 1+3,3ln(n)/ln10 (Sturges-Regel)
o k = 10 bei n ≈ 100, k = 13 bei n ≈ 1.000 und k = 16 bei n ≈ 10.000 (DIN 55302, Blatt 1)

3. Vermeide es, Bereiche, in denen Merkmalsausprägungen gehäuft auftauchen, durch eine


Klassengrenze zu zerschneiden oder sie am Rand einer Klasse gehäuft auftreten zu lassen. Hier
kann es dann sinnvoll sein, nicht-äquidistante Klassenbreiten zu verwenden.
Der aufmerksame Leser wird nun feststellen, dass wir in einer Aufgabe genau gegen diese
Regel verstoßen haben. Wir haben im ersten Fall den gehäuft auftretenden Bereich um 50
Punkte „zerschnitten” und im anderen Fall die Klassengrenze an den linken Rand des gehäuft
auftretenden Bereichs von 60 - 66 Punkte gelegt. Wir haben die Klassengrenzen somit
eigentlich schlecht gewählt; es ist aber nicht immer möglich, sich an alle Regeln zu halten und
in einigen Fällen (z.B. bei der Notenzuordnung) werden die Klassengrenzen auch im Vorhinein
festgelegt, d.h. die Beobachtungen liegen noch gar nicht vor.

4. Versuche die Klassen homogen (= gleichmäßig) zu besetzen bzw. gehäufte Bereiche in die
Klassenmitte zu bringen.
5. Fasse Bereiche mit sehr wenigen Merkmalsausprägungen zu einer einzigen Klasse
zusammen.

6. Vermeide offene Randklassen, d.h. als untere Klasse eine Einteilung „weniger als ...” bzw. als
obere Randklasse „mehr als ...” zu verwenden. Ist dies nicht möglich, sind streng genommen
keine Histogramme darstellbar und keine statistischen Maßzahlen berechenbar. Hilfsweise
kann man für die offenen Klassen
o die sonst übliche Klassenbreite,
o die benachbarte Klassenbreite oder
o einen objektiv sinnvollen Wert

verwenden. Offene Randklassen werden zumeist bei der Einkommensverteilung gebraucht, die
Angabe einer Einkommenshöchstgrenze ist hier nicht möglich oder aus Datenschutzgründen
sogar verboten.

 1MC-Aufgabe Nr. 3

MC-Aufgabe Nr. 3

Aufgabe 1 von 1

Wenn man neun Werte in einer unklassierten Häufigkeitstabelle hat, was lässt sich
dann über die Empfehlungen zur Anzahl der Klassen aussagen, um diese in eine
klassierte Häufigkeitstabelle zu übertragen?

Nach der Faustregel sollte man drei Klassen wählen, nach der Sturges-Regel allerdings vier.

Nach der Faustregel sollte man vier Klassen wählen, nach der Sturges-Regel allerdings drei.

Sowohl nach der Faustregel als auch nach der Sturges-Regel sollte man drei Klassen wählen.

Lösen

 Empirische Verteilungsfunktion
Beispiel und Eigenschaften der
Verteilungsfunktion
Vorlesen

Häufig stellt sich nicht nur die Frage, wie viele Beobachtungswerte genau eine bestimmte
Merkmalsausprägung besitzt, sondern wie viele Beobachtungen liegen unterhalb einer
Merkmalsausprägung. Dafür müssen die absoluten oder relativen Häufigkeiten bis zum gesuchten
Beobachtungswert aufsummiert werden.
Es ergibt sich die absolute Häufigkeitsverteilungen H(x) sowie die
empirische Verteilungsfunktion F(x).

Beispiel zur Verteilungsfunktion


Schauen wir uns hierzu noch einmal unser Beispiel 25 der Notenverteilung des Seminars von Dr. M.
Median an. Die Frage war bisher: Wie viele Studenten schrieben (z.B.) eine „vier” in dem Test? Wir
könnten uns aber auch die Frage stellen:

BEISPIEL

Beispiel 28:
Wie viele Studenten haben die Klausur bestanden, d.h. mindestens eine vier geschrieben? Gib auch
den relativen Anteil an.

Dies führt uns auf die absolute bzw. relative kumulierte Häufigkeitsverteilung. Hierbei werden die
absoluten oder relativen Häufigkeiten bis zum gesuchten Beobachtungswert aufsummiert. Formal
stellt sich dies wie folgt dar:

  H(x)=∑aj≤xhaj als absolute Häufigkeitsverteilung sowie


  F(x)=∑aj≤xfaj als relative Häufigkeitsverteilung, häufig auch empirische
Verteilungsfunktion genannt.

Bezogen auf unser Beispiel, der Anzahl der bestandenen Klausuren, bedeutet dies:

BEISPIEL
Beispiel 29:

Berechne den Wert der empirischen Verteilungsfunktion an der Stelle 4 und interpretiere ihn.

 F(4)=∑aj≤4f(aj)=f(a1)+f(a2)+f(a3)+f(a4)=0,1+0,15+0,1+0,3=0,65
Also haben 13 Studenten bzw. 65 % der Studenten den Test bestanden, d.h. mindestens eine vier
geschrieben. Wir können die Häufigkeiten auch zusammenfassend darstellen:

Note  a  h(aj  H(a  f(a  F(aj


j ) j) j) )
1 2 2 0,1 0,1
2 3 5 0,15 0,25
3 2 7 0,1 0,35
4 6 13 0,3 0,65
5 7 20 0,35 1
 ∑ 20 / 1 /

Grafisch erhalten wir eine monoton steigende Treppenfunktion, welche an den realisierten
Merkmalsausprägungen ja gerade um ihre absolute bzw. relative Häufigkeit springt. Der Grund
hierfür liegt darin, dass Werte zwischen den Ausprägungen nicht existieren bzw. nicht realisiert
wurden, d.h. bspw., dass die Anzahl der Studenten, die mindestens eine 2,8 geschrieben haben,
genau gleich ist mit jener, die genau eine 2 geschrieben zu haben. Die Note 2,8 gibt es in unserem
Beispiel nicht.

Kumulierte Häufigkeitsverteilungen
Eigenschaften der Verteilungsfunktion und der
Häufigkeitsverteilung
Man beachte folgende Eigenschaften der Häufigkeitsverteilungen H(x) bzw. Verteilungsfunktion F(x):

1. Sie sind rechtsseitig stetig.


2. F bzw. H konvergieren für x gegen „minus unendlich” gegen Null. Anders gesagt, unterhalb
der kleinsten (realisierten) Ausprägung ist die Häufigkeitsverteilung immer Null:

 limx→−∞F(x)=0

bzw.

 limx→−∞H(x)=0

3. F (bzw. H) konvergiert für x gegen unendlich gegen 1 (gegen n), d.h. ab der größtmöglichen
(realisierten) Ausprägung entspricht die Häufigkeitsverteilung immer 100 % bzw. dem
Stichprobenumfang n:

 limx→∞F(x)=1

bzw.

 limx→∞H(x)=n

4. F bzw. H sind monoton wachsend, d.h. aus $\ x_1

Video zur Verteilungsfunktion


Schauen wir uns das ganze nun in einem Lernvideo zur Verteilungsfunktion an:
Play Video

 1LückentextNr. 1
 2MC-Aufgabe Nr. 1
 3MC-Aufgabe Nr. 2

Lückentext Nr. 1

Aufgabe 1 von 3
Bitte die Lücken im Text sinnvoll ausfüllen.

In der vorliegenden Aufgabe bedeutet F(x) =  , dass 35 % der Studenten


eine Note von schlechtestenfalls befriedigend geschrieben haben.
Lösen

Beispielaufgabe empirische Verteilungsfunktion


Vorlesen

Um das wichtige Thema nochmals zu festigen wird in diesem Video eine Beispielaufgabe
vorgerechnet und gezeigt, wie eine empirische Verteilungsfunktion erstellt und dargestellt wird.

Empirische Verteilungsfunktion Beispiel


Play Video

 Selbstkontrollaufgaben zu den
Häufigkeitsverteilungen
Aufgabe Urliste und Median
Vorlesen

Am Ende des Kapitels "Häufigkeitsverteilungen" noch eine weitere Selbstkontrollaufgabe zur


weiteren Übung.

Die 20 Studenten der schönen Kreisstadt Poisson-City haben folgende Zeiten (in Tagen) für die
Vorbereitung auf ihre Statistik-Klausur benötigt:

8 3 2 1 9 10 11 2 8 4 2 5 10 7 8 9 8 9 12 12.

a) Wie lautet die geordnete Urliste?

b) Wie lautet der Median?


Da der Begriff "Median" erst weiter hinten eingeführt wird, hier schon die nötigen Details, die für die
Bearbeitung dieser Aufgabe wichtig sind. Der Median ist der Wert in der Mitte der geordneten
Urliste. Liegen zwei Werte in der Mitte, so wird das arithmetische Mittel der beiden Zahlen als
Median angesehen.

Lösung Aufgabe Urliste und Median


Vorlesen

Die Lösung der Selbstkontrollaufgabe "Urliste und Median":

a) Die geordnete Urliste lautet:

1 2 2 2 3 4 5 7 8 8 8 8 9 9 9 10 10 11 12 12

b) Der Median lautet 8, denn der zehnte und der elfte Wert sind jeweils 8. Links vom zehnten Wert
liegen neun andere Werte, rechts vom elften Wert liegen ebenfalls neun Werte, so dass diese beiden
"in der Mitte liegen" und mithin das arithmetische Mittel aus 8 und 8 (also 8) der Median ist.

 Verteilungsmaße
 Lagemaße
Modus
Vorlesen

Das folgende Kapitel beschäftigt sich mit den Verteilungsmaßen in der Statistik.

Wir besprechen im Folgenden

 Lagemaße,
 Streuungsmaße und
 Zusammenhangsmaße.

Lagemaße
Beginnen wir mit den Lagemaßen. Je nachdem, welche Skalierung vorliegt, haben wir es mit
unterschiedlichen Lagemaßen zu tun:

 Modus,
 Fraktile
 Median und
 arithmetisches Mittel.

MERKE

Der Modus (= Modalwert) ist der häufigste Wert einer gegebenen Verteilung.

 Beispiel

 Beispiel

Beispiel 30 - Modus:
In einem Raum befinden sich acht Männer und drei Frauen. Modus ist dann „männlich”.
Der Modus sollte hauptsächlich bei eingipfligen (= unimodalen) Häufigkeitsverteilungen benutzt
werden. Hierbei ist dieser dann nämlich eindeutig bestimmt. So gibt es ihn bei zweigipfligen (=
bimodalen) Verteilungen gleich doppelt.

Modus bei klassierten Daten


Bei unklassierten Daten ist die Bestimmung des Modus also noch recht einfach, man nimmt einfach
den häufigsten Wert (oder die häufigsten Werte). Bei klassierten Daten ist eine Fallunterscheidung
notwendig:

 Bei gleichen Klassenbreiten ist die am häufigsten vorkommende Klasse die Modalklasse, als


Modus selbst wird meistens die Klassenmitte verwendet. Für die graphische Bestimmung
mithilfe eines Histogramms gibt der flächengrößte Balken - der also die größte absolute oder
relative Häufigkeit angibt - die größte Modalklasse an.
 Bei ungleichen Klassenbreiten muss dies nicht mehr so sein, denn die nicht–äquidistante
Einteilung auf der Abszisse erschwert die Vergleichbarkeit. Da die Klassenhäufigkeit auf die
Klassenbreite bezogen werden muss, ist nun die Klasse mit dem höchsten Balken die
Modalklasse.

Was ist aber, wenn Klassen zusammengefasst und/oder Klassenbreiten vergrößert werden?
Beispiel Modus bei klassierten Daten

Betrachte folgende Daten

Klasse Klassenhäufigkeit

[0,6) 7

[6,9) 5

[9,12) 6

[12,15 2
)

Zunächst müssen die Klassenhöhen berechnet werden:

Klasse Klassenhäufigkeit Klassenbreite Klassenhöhe

[0,6) 7 6 7:6 = 1,167

[6,9) 5 3 5:3 = 1,67

[9,12) 6 3 6:3 = 2

[12,15 2 3 2:3 = 0,67


)

Hier bleibt trotz Zusammenfassung der ersten beiden Klassen der Modus in der Klasse [9,12), da
diese immer noch die höchste ist. Denn sie hat zwar absolut gesehen weniger Elemente (6 statt 7)
als die Klasse [0,6), aber bezogen auf ihre deutlich kleinere Breite (3 Einheiten statt 6) hat sie mehr,
nämlich  63=2 vs.  76=1,167, was durch die Klassenhöhe angegeben wird.

 1LückentextNr. 1
 2MC-Aufgabe Nr. 1

Lückentext Nr. 1
Aufgabe 1 von 2

Bitte die Lücken im Text sinnvoll ausfüllen.

In einem Raum sind vier Männer und drei Frauen. Der Modus des Geschlechts ist

deswegen  .

Lösen

Fraktile
Vorlesen

Ein weiteres Lagemaße sind sind die Fraktile bzw. Quantile, die in der Statistik eine große Rolle
spielen.

Ein  α–Fraktil (=  α–Quantil =  α–Punkt ) xα gibt an, dass  α Prozent der Werte einer geordneten
Urliste bis zu dem  α– Fraktil erreicht oder gerade eben überschritten sind. Die Formel für
das  α− Fraktil bei Vorliegen einer geordneten Urliste aus n Werten ist  xα=xα⋅n.
Hierbei ist  ⌈α⋅n⌉ die obere Gaußklammerfunktion, die einer reellen Zahl die nächst größere ganze
Zahl zuordnet.
So ist  ⌈0,8⌉ = 1, ⌈1,23⌉=2,  ⌈3,9⌉=4,  ⌈6⌉=6 etc.

BEISPIEL

Für das Beispiel aus der Aufgabe der Statistik-Schüler der Kreisstadt Poisson-City etwa liegt folgende
geordnete Urliste vor:
1 2 2 2 3 4 5 7 8 8 8 8 9 9 9 10 10 11 12 12.

Es handelt sich um n = 20 Werte. Für das 0,1 - Fraktil rechnet man  n⋅α=20⋅0,1=2, d.h. der
zweite Wert dieser Liste ist das 0,1 - Fraktil:  x0,1=2. Für das 0,4 - Fraktil rechnet man  20⋅0,4=8,
d.h. x0,4=x⌈20⋅0,4⌉=x8=7.

Was ist aber das 18 % Fraktil?


Man rechnet  0,18⋅20=3,6 und die obere Gaußklammer von 3,6 ist  ⌈3,6⌉=4. Also ist das 18 %-
Fraktil der vierte Wert, d.h.  x0,18=x4=2. Es ist der vierte Wert, weil beim dritten Wert
erst  320=0,15 = 15 % aller Werte erreicht sind, beim vierten Wert aber schon  420=0,2 = 20 %,
d.h. beim 4. Wert sind 18 % der Werte erreicht oder gerade eben überschritten.

Quartile als Spezialfall


Spezielle Fraktile sind die sogenannten Quartile:

  x0,25 ist das untere Quartil, hier sind 25 % der Werte erreicht oder gerade eben
überschritten,
  x0,75 ist das obere Quartil, hier sind 75 % der Werte erreicht oder gerade eben
überschritten.

Fraktile berechnen und graphisch bestimmen


Für klassierte Daten existiert noch ein gesonderter Weg, ein  α-Fraktil auszurechnen, nämlich über
eine lineare Interpolation. Zunächst die Formel für den Feinberechneten Median (= Lineare
Interpolation):
 xα=x→k−1+x→k−x→k−1f(xk)⋅(α−F(x∗k−1))

Es gibt eine graphisch sehr schöne Möglichkeit, Fraktile mit Hilfe empirischer Verteilungsfunktionen
zu ermitteln. Hierzu wieder das Beispiel der 20 Studenten aus Poisson-City und ihrer
Klausurvorbereitungszeit sowie die zugehörige empirische Verteilungsfunktion:

Fraktile mit Hilfe der empirischen Verteilungsfunktion


Möchten wir nun z.B. den Median bestimmen, so zeichnen wir eine gestrichelte Linie durch die Stelle
0,5 auf der Ordinate. An der Stelle, wo diese Linie die empirische Verteilungsfunktion trifft, fällt man
das Lot auf die Abzisse und erhält den Median. Dasselbe analoge Vorgehen liefert alle anderen
Fraktile.

EXPERTENTIPP

Ermittlung  α-Fraktil bei klassierten Daten:

1. Berechne die Klasse, in die der Wert  xα fällt (Einfallsklasse). Bilde hierzu die relative
Häufigkeit f und die kumulierte relative Häufigkeit F und schaue, bei welcher Klasse die
kumulierte relative Häufigkeit F den Wert  α erreicht oder gerade eben übersteigt. Alle
weiteren Berechnungen finden innerhalb der Einfallsklasse statt.
2. Es ist  x∗k−1 die untere Grenze dieser Klasse,  x∗k die obere Grenze. Die relative
Häufigkeit (unkumuliert) der Einfallsklasse ist  f(xk), die kumulierte relative Häufigkeit
bis vor die Einfallsklasse wird durch  Fx∗k−1 angegeben.
3. Setze ein in die Formel

 x=x∗k−1+x∗k−x∗k−1fxk ∗x−Fx∗k−1

Achtung:
Der Wert  xα muss selbstverständlich innerhalb der Einfallsklasse liegen. Schaue also nach,
ob  x∗k−1≤xα≤x∗k gilt. Rechnen wir die Methode an einem Beispiel nach.

Beispiel Berechnung der Quantile bei klassierten Daten

BEISPIEL

Beispiel 32:
Die Zugehörigkeit von Lehrern an der Gauss-Schule in der sonnigen Kreisstadt Poisson-City werde
durch folgende Tabelle wiedergegeben:

Zugehörigkeit in Jahren Anzahl der Lehrer

bis unter einem Jahr 6

zwischen einem und zwei Jahren 5


zwischen zwei und fünf Jahren 8

zwischen fünf und zehn Jahren 13

zwischen zehn und zwanzig 18


Jahren

Berechne das untere sowie das obere Quartil als auch den Median. Wir gehen das Kochrezept
jeweils Schritt für Schritt durch. Zunächst jedoch müssen wir die Häufigkeitstabelle erstellen.

Zugehörigkei Index Anzahl der relative kumulierte relative


t k Lehrer Häufigkeit f Häufigkeit F

[0;1) 1 6 0,12 0,12

[1;2) 2 5 0,1 0,22

[2;5) 3 8 0,16 0,38

[5;10) 4 13 0,26 0,64

[10;20) 5 18 0,36 1

 ∑ - 50 1 -

Das untere Quartil  x0,25 liegt offenbar in der dritten Klasse, weil hier die kumulierte relative
Häufigkeit zum ersten Mal 25 % überschreitet. Der Index ist daher k = 3. Damit ist die untere
Klassengrenze  x∗k−1=x∗3−1=x∗2=2, die obere  x∗k=x∗3=5. Es
ist  f(xk)=f(x3)=0,16 und  Fx∗k−1=Fx∗3−1=Fx∗2=F(2)=0,22 die kumulierte relative
Häufigkeit bis vor die Einfallsklasse.
Also rechnet man
 x0,25=x∗2+x∗3−x∗2(fx3⋅0,25−Fx∗2=2+5−20,16⋅(0,25−0,22)=2,5625.
Das untere Quartil ist daher  x0,25=2,5625. Den Median rechnet man genauso aus. Man nennt
den Median bei klassierten Daten auch feinberechneten Median bzw. Zentralwert. Medianklasse
ist die vierte Klasse, man rechnet
 x0,5=5+10−50,26⋅(0,5–0,38)=5+2,308=7,308.
Für das obere Quartil gilt
 x0,75=10+20−100,36⋅(0,75–0,64)=13,056.

 1Lückentext Nr. 2
 2MC-Aufgabe Nr. 2

Lückentext Nr. 2

Aufgabe 1 von 2

Bitte die Lücken im Text sinnvoll ausfüllen.

Das dritte Dezil einer Verteilung gibt an, wo die   30 % einer Verteilung
höchstens liegen.

Lösen

Median
Vorlesen

Der Median (= Zentralwert) ist, wie schon angedeutet, ein spezielles Fraktil, nämlich der 0,5–Wert, in
Zeichen  x0,5. Wegen seiner großen Bedeutung widmen wir ihm trotzdem ein spezielles Kapitel und
lassen es nicht bei der Erwähnung im Abschnitt über Fraktile. Man muss für den Zentralwert
zunächst die Urliste in eine geordnete Urliste verwandeln, um dann den Wert in der Mitte zu
erkennen.

BEISPIEL

Beispiel 33:
Gegeben seien die Schulnoten gut, gut, befriedigend, sehr gut, mangelhaft, ausreichend,
ungenügend. Gib einen geeigneten Mittelwert an. Die geordnete Urliste ist:
sehr gut, gut, gut, befriedigend, ausreichend, mangelhaft, ungenügend.
Der Wert in der Mitte, also der Median, lautet „befriedigend“.
In der Mitte bedeutet, dass genau so viele Werte links liegen wie rechts (hier jeweils genau drei
Stück). Problematisch wird diese Definition, wenn keine ungerade Anzahl von Werten vorliegt (wie
hier n = 7), sondern eine gerade Anzahl.

BEISPIEL

Beispiel 34:
Ein achter Schüler habe die Note ausreichend, ansonsten gelten die Zahlen aus dem vorherigen
Beispiel.
Angeordnet erhält man die n = 8 Werte: sehr gut, gut, gut, befriedigend, ausreichend, ausreichend,
mangelhaft, ungenügend. Nun liegen zwei Werte in der Mitte, denn es sind drei Noten links von
befriedigend und drei Noten rechts von der ersten ausreichend-Note vorhanden.

Als Median sieht man dann meistens das arithmetische Mittel der beiden Werte der Mitte an.

Definition Median
Der Median wird wie folgt definiert:

  x0,5=x(n+1)2, wenn n ungerade ist, und


  x0,5=12⋅(xn2+xn2+1), wenn n gerade ist.

Problematisch hierbei:

 Man muss eine Skalentransformation durchführen, d.h. befriedigend = 3, ausreichend = 4


usw.
 Man setzt sich über das Verbot hinweg, auf der Ordinalskala zu rechnen. Wer würde schon
„befriedigend + ausreichend“ rechnen wollen? Erst mit den transformierten Werten 3 und 4
lässt sich etwas addieren, was aber nicht sinnvoll ist:  3+4=7 , und 7 ist keine Note.

Also bezogen auf das Beispiel 34: bei n = 7 ist n ungerade, d.h.  x0,5=x(n+1)2=x(7+1)2=x4 =
befriedigend, denn der vierte Wert der geordneten Urliste ist befriedigend.
Bei n = 8 ist n gerade, d.h.,  x0,5=12⋅(xn2+xn2+1)=12⋅(x82+x82+1)=12⋅(x4+x5)=3,5, denn
in der geordneten Urliste ist befriedigend (= 3) der vierte Wert, also  x4=3, und ausreichend (= 4)
der fünfte, d.h.  x5=4.
Zusammenfassend einige Hilfestellungen zur Bestimmung des Median

EXPERTENTIPP
Bestimmung des Median  x0,5:

1. Ist das Merkmal mindestens ordinalskaliert?

2. Bilde die Urliste.

3. Bilde die geordnete Urliste.

4. Ist der Umfang n gerade oder ungerade?

 n ungerade:  x0,5=x(n+1)2,
 n gerade:  x0,5=12⋅(xn2+xn2+1).

MERKE

Merke: Der Unterschied zwischen folgenden Fraktilen = Quantilen ist:

spezielle Fraktile:

 Dezile (10 % - Werte),


 Pentile (20 % - Werte),
 Quartile,

spezielle Quartile, nämlich die jeweiligen 25 % - Werte:

 das 25 % - Quantil (= erste Quartil = unteres Quartil),


 das 50 % - Quantil (= zweite Quartil = der Median),
 das 75 % - Quantil (= drittes Quartil = oberes Quartil).

Der Median zeichnet sich aus durch eine gewisse Optimalitätseigenschaft: Wenn man
kardinalskalierte Merkmale wählt und hiervon den Median berechnet, so ist die Summe der
absoluten Abweichungen der Beobachtungswerte von einem Punkt m dann minimal, wenn m der
Median ist, d.h.  ∑mi=1|xi−m| min!  ↔m=x0,5.

BEISPIEL

Beispiel 35:
Gegeben seien die Zahlen 8, 3, 3, 5, 2, 1, 3, 4.
Die geordnete Urliste ist 1 2 3 3 3 4 5 8 Median ist  x0,5=3. Die Beträge der Differenzen der
Beobachtungswerte z.B. von der Zahl m = 2 sind  |1–2|+|2−2|+...+|8–2|=1+0+...
+6=14, bei m = 0,5 erhält man  |1–0,5|+|2–0,5|+...+|8–0,5|=0,5+1,5+...
+7,5=22,5, beim Median hingegen lediglich  |1–3|+|2–3|+...+|8–3|=11. Diese Zahl 11
wird nicht unterschritten! Es gibt kein m, das eine kleinere Summe von absoluten Abweichungen der
Beobachtungswerte von sich selbst liefert als der Median.

 1LückentextNr. 3
 2MC-AufgabeNr. 3
 3Vorgehensweise zur Bestimmung des Medians

Lückentext Nr. 3

Aufgabe 1 von 3

Bitte die Lücken im Text sinnvoll ausfüllen.

Das fünfte Dezil einer Verteilung nennt man auch  .

Lösen

Boxplot
Vorlesen

Der Boxplot stellt eine Möglichkeit dar, Lagemaße graphisch darzustellen. Die folgende Abbildung
für die Zahlen aus dem vorhergehenden Beispiel zeigt näheres:
Boxplot

Man sieht, bei welcher Zahl der Median  x0,5 sowie das untere und das obere
Quartil  x0,25 und  x0,75 liegen. Durch die Box wird damit für das Auge auf einen Blick angedeutet,
zwischen welchen beiden Werten die mittleren 50 % der Verteilung liegen – nämlich zwischen dem
unteren sowie dem oberen Quartil. Darüber hinaus zeigt ein Boxplot an den Enden des Striches den
minimalen Wert  xmin und den maximalen  xmax. Außerdem kann durch einen Boxplot die Schiefe
einer Verteilung kenntlich gemacht werden. Wir gehen hierauf später ein. Für die Kleinstadt Poisson-
City aus unserem bekannten Beispiel sieht der Boxplot folgendermaßen aus:
Boxplot für die Daten der Kreisstadt Poisson-City

 1LückentextNr. 4
 2LückentextNr. 5
 3MC-Aufgabe Nr. 4

Lückentext Nr. 4

Aufgabe 1 von 3

Bitte die Lücken im Text sinnvoll ausfüllen.

Das rechte Ende eines Boxplots wird durch den   von statistischen Daten
bestimmt.

Lösen

Arithmetisches Mittel
Vorlesen

Ein weiteres Lagemaß ist das arithmetische Mittel.

Auf den metrischen Skalen sind alle numerischen Operationen, also addieren, subtrahieren,
multiplizieren und dividieren, erlaubt (wenngleich nicht immer sinnvoll – so ist  20°C10°C=2 keine
sinnvolle Aussage, wie wir bei der Intervallskala gesehen hatten. Erst ab der Verhältnisskala ist auch
die Division ohne Probleme anwendbar). Man wählt deshalb als Mittelwert auf den metrischen
Skalen das arithmetische Mittel  x¯ mit
 x¯=1n(x1+x2+...+xn)
Dieses gewöhnliche arithmetisches Mittel wird auch als ungewogenes arithmetisches Mittel
bezeichnet.

BEISPIEL

Beispiel 36 - Arithmetisches Mittel:


Die Körpergrößen von fünf Personen lauten 1,80 m, 1,70 m, 1,75 m, 1,89 m, 1,90 m.
Die mittlere Körpergröße ist dann
 x¯=1n∑i=1nxi=15⋅(1,8+1,7+1,75+1,89+1,9)=1,808m

Formel arithmetisches Mittel


Es gibt zwei Varianten des arithmetischen Mittels, die unterschiedlich aussehen, es aber nicht sind:

 Das ungewogene arithmetische Mittel

 x¯=1n∑i=1nxi

Jeder einzelne Beobachtungswert geht gleichstark (jeweils mit  1n gewichtet) in das


arithmetische Mittel  x¯ ein.

 Das gewogene arithmetische Mittel

 x¯=∑j=1mf(aj)⋅aj=1n⋅∑j=1mh(aj)⋅aj

Diese Formel wird benutzt, wenn einzelne Beobachtungswerte, also einzelne  xi, mehrfach
vorkommen.

Video zum arithmetischen Mittel


Play Video

Beispiel gewogenes arithmetisches Mittel berechnen

BEISPIEL

Beispiel 37:
Es soll das arithmetische Mittel der folgenden Zahlen ausgerechnet werden:
2, 3, 4, 3, 7, 8, 3, 2, 7, 7, 7, 9, 10, 8, 11.

Mit dem ungewogenen arithmetischen Mittel wird jeder Beobachtungswert xi gleich gewichtet. Es
ist  x1=2,x2=3,x3=4,...,x15=11.
Man rechnet also
 x¯=1n∑j=1nxi=115∑i=115xi=115(2+3+4+...+8+11)=6,067

Beim gewogenen arithmetischen Mittel hingegen erfolgt eine Gewichtung. Man rechnet nicht


mehr mit den Beobachtungswerten xi – die mehrfach auftreten können – sondern mit den
Merkmalsprägungen aj, die zwar mehrfach vorkommen können, aber immer unterschiedlich sind.
So ist hier  a1=2,a2=3,a3=4,a4=7,a5=8,a6=9,a7=10,a8=11

j 1 2 3 4 5 6 7 8

 aj 2 3 4 7 8 9 10 11

 h(aj 2 3 1 4 2 1 1 1
)
 f(aj 2/15 3/15 1/15 4/1 2/15 1/15 1/15 1/15
) 5

Der Wert  a4=7 tritt viermal auf, deshalb ist die absolute Häufigkeit  h(a4)=h(7)=4. Die
relative Häufigkeit lautet demnach
 f(a4)=f(7)=1n⋅h(7)=115⋅4=415.
Man fasst also Werte zusammen, die gleich sind und kann dadurch das arithmetische Mittel
schneller ausrechnen:

 x¯=1n∑j=1mh(aj)⋅aj=115⋅(2⋅2+3⋅3+1⋅4+4⋅7+...+1⋅11)=9115=6.067

bzw.

 x¯=∑j=1mf(aj)⋅aj=215⋅2+315⋅3+...+115⋅11=6,067

MERKE

Merke:

 Die Anzahl m der (unterschiedlichen) Merkmalsausprägungen  aj (hier m=8) ist stets kleiner


oder gleich der Anzahl n der (nicht unbedingt unterschiedlichen)
Beobachtungswerte  xi (hier n=15).
 Wenn alle Beobachtungswerte vorliegen, ist es lediglich ein geringerer Rechenaufwand, das
gewogene arithmetische Mittel zu rechnen.

Eigenschaften des arithmetischen Mittels


Achtung:
Das arithmetische Mittel ist anfälliger für Ausreißer als es der Median oder der Modus ist. Dies zeigt
folgendes Beispiel

BEISPIEL

Beispiel 38:
Eine Sekretärin sollte folgende Rechnungsbeträge in den Computer eingeben: 100 €, 200 €, 100 €,
300 € und 350€. Statt der letzten Zahl hängt sie fälschlicherweise eine Null zuviel an, schreibt also
3.500 €. Wie verändern sich die einzelnen Mittelwerte?
Die geordnete Urliste sollte eigentlich 100, 100, 200, 300, 350 sein, in Wahrheit ist sie aber nun 100,
100, 200, 300, 3.500. Der Modus und der Median bleiben gleich bei 100 € und bei 200 €, sie
verändern sich also nicht durch den statistischen Ausreißer. Lediglich das arithmetische
Mittel  x¯ ändert sich von vorher  x¯=210€ auf nunmehr  x¯=840€.

Das arithmetische Mittel zeichnet sich aus durch die

 Ersatzwerteigenschaft, die
 Nulleigenschaft und eine
 Optimalitätseigenschaft.

Im einzelnen:
Ersatzwerteigenschaft bedeutet, dass

 n⋅x¯=∑i=1nx

gilt, was unmittelbar aus der Definition des arihmetischen Mittels hervorgeht. Wenn man also
das  x¯ mit dem Umfang n der statistischen Masse multipliziert, dann erhält man die
Merkmalssumme  ∑ni=1x. Für das Beispiel 36 der Körpergrößen rechnet man diese Gleichheit
nach:  n⋅x¯=5⋅1,8=9 und  ∑ni=1xi=1,8+1,7+1,75+1,85+1,9=9.

Nulleigenschaft sagt aus, dass

 ∑i=1n(xi−x¯)=0

was klar wird aus der


Rechnung  ∑ni=1(xi−x¯)=∑ni=1xi−∑ni=1x¯=n⋅1n⋅∑ni=1xi−n⋅x¯=n⋅x¯−n⋅x¯
=0.
Die positiven und die negativen Abweichungen vom arithmetischen Mittel heben sich also
gegenseitig auf. Für das Beispiel 36 der Körpergrößen heißt dies  ∑ni=1(xi−x¯)
 =(1,8–1,8)+(1,7−1,8)+(1,75−1,8)+(1,85−1,8)+(1,9–1,8)=0+(−0,1)+
(−0,05)+0,05+0,1=0.
Optimalitätseigenschaft besagt, dass

 ∑i=1n(xi−m)2

Min!, wenn  m=x¯. Die Summe der quadrierten Abweichungen der Beobachtungswerte  xi von


einem beliebigen Punkt  m wird minimal, wenn dieser Punkt das arithmetische Mittel  x¯ ist. Auch
hier wieder das Beispiel 36 der Körpergrößen: wählt man z.B.  m=1, dann ist die Summe der
quadrierten Abweichungen  ∑ni=(xi−m)2=(1,8−1)2+(1,7−1)2+...
+(1,9−1)2=3,225 , für  m=2 hingegen erhält man  ∑ni=1(xi−m)2=0,225 ,
für  m=x¯=1,8 schließlich ist die Summe der
Abweichungsquadrate  ∑ni=1(xi−m)2=0,025 , und das ist unter den gegebenen Ergebnissen
(und unter allen möglichen) minimal . Die Zahl 0,025 wird nicht unterschritten, kein anderes m liefert
einen kleineren Wert.

 1LückentextNr. 6
 2LückentextNr. 7
 3MC-Aufgabe Nr. 5

Lückentext Nr. 6

Aufgabe 1 von 3

Bitte die Lücken im Text sinnvoll ausfüllen.

Das arithmetische Mittel der Zahlen 4, 4,  und 1 lautet 3.

Lösen

Geometrisches Mittel
Vorlesen

Bestehen die Merkmalswerte aus Wachstums- oder Aufzinsungsfaktoren, die über unterschiedliche
Perioden hinweg betrachtet werden, so ist nicht das arithmetische, sondern das geometrische
Mittel zu verwenden. Zum Verständnis folgendes Beispiel.
Beispiel zum geometrischen Mittel

BEISPIEL

Beispiel 39:
Der Kontostand des Studenten D entwickelte sich in den letzten Jahren wie folgt (alle Beträge auf €
umgerechnet)

Jahre 199 1999 200 2001 200 2003


8 0 2

Kontostan 100 1050 102 1200 120 1300


d 0 0 0

Berechne

 die Wachstumsraten der einzelnen Jahre und


 die durchschnittliche Verzinsung insgesamt.

Die einzelnen Verzinsungen lauten für die einzelnen Jahre

Jahre 1998-1999 1999-2000 2000-2001 2001-2002 2002-2003

Verzinsun 0,05 -0,0286 0,1765 0 0,0833


g

So rechnet man beispielsweise  (12001020−1)⋅100=17,65% für den Zeitraum von 2000 bis 2001.
Wie lautet nun die Wachstumsrate insgesamt im Jahresdurchschnitt? Wenn ein Konto von 1.000 €

auf 1.300 € in fünf Jahren wächst, dann sind das  (13001000−−−√5−1)⋅100=5,3874% pro

Jahr. Dies verifiziert man leicht durch die Probe der Kontostände, die sich ergeben bei einer Rendite
von 5,3874 % pro Jahr:

Jahre 199 1999 200 2001 200 2003


8 0 2

Kontostan 100 1054 111 1170 123 1300


d 0
1 4

Formel des geometrischen Mittels

EXPERTENTIPP

Zwei Wege zur Bestimmung des geometrischen Mittels:

 direkter Weg Man erhält also die mittlere Wachstumsrate auf direktem Wege durch die
Formel

 x¯g=(KnK0−−−√n−1)⋅100

 indirekter Weg (= geometrisches Mittel) Über die einzelnen Jahresrenditen selbst gelangt
man aber auch zum Ziel durch das geometrische Mittel  x¯g

 x¯g=(x1⋅x2⋅...⋅xn−−−−−−−−−−−√n−1)⋅100

MERKE

Merke: Die einzelnen  xi in der Wurzel sind die Aufzinsungsfaktoren, nicht die Renditen selbst:

 bei einer Rentabilität von 5 % (also 0,05) ist der Aufzinsungsfaktor 1,05,
 bei einer negativen Rendite von –2,9579 % lautet der Aufzinsungsfaktor 0,970421,
 wenn der Kontostand gleich bleibt wie zwischen 2001 und 2002, ist die Rendite 0 %, der
Aufzinsungsfaktor also 1,0.

Angewendet auf das Beispiel 39 rechnet man damit:


 x¯g=(1,05⋅0,97143⋅1,17647⋅1⋅1,0833−−−−−−−−−−−−−−−−−−−−−−
−−−−−√5−1)⋅100=5,387 %

Video zum geometrischen Mittel


Schauen wir uns abschließend ein Lernvideo zum geometrischen Mittel an:
Play Video
 1Lückentext Nr. 8
 2MC-Aufgabe Nr. 6

Lückentext Nr. 8

Aufgabe 1 von 2

Bitte die Lücken im Text sinnvoll ausfüllen.

Das geometrische Mittel ist am besten geeignet als Lagemaß von   

oder  .

Lösen

Harmonisches Mittel
Vorlesen

Wenn die Merkmalswerte aus Brüchen bestehen, von denen entweder der Zähler oder der Nenner
nicht gegeben sind, so verwendet man das harmonische Mittel. Dazu folgende Beispiele.

Beispiele zum harmonischen Mittel

Beispiel 40

Der Student D fährt mit seinem neuen Auto eines namhaften süddeutschen Autobauers die
folgenden Strecken mit den erwähnten Geschwindigkeiten:

Strecke 1 2 3 4

Distanz 100 km 140 km 50 km 150 km

Geschwindigkei 50 km/h 100 80 km/h 150 km/h


t km/h

Wie lange hat er insgesamt gebraucht? Mit welcher Durchschnittsgeschwindigkeit ist er insgesamt
gefahren?
Der Begriff Geschwindigkeit ist definiert als Weg s pro Zeit t, d.h. in Buchstaben  v=st . Man
errechnet, dass der Student D folgende Zeiten auf den einzelnen Strecken benötigt hat:

Streck 1 2 3 4
e

Zeit 2 h 1,4 h 0,625 h 1 h

So ist er z.B. auf Strecke 2 die Distanz von 140 km mit 100 km/h gefahren, hat also
 140km100km/h=1,4kmh/km=1,4h
benötigt. Insgesamt war er also 5,025 h unterwegs. Bezogen auf eine Distanz von 440 km bedeutet
dies, dass er eine Durchschnittsgeschwindigkeit von  440km5,025h=87,56 km/h hatte.

Beispiel 41

Besagter Student gibt nun lediglich an, wie lange er für die einzelnen Strecken brauchte und mit
welcher Geschwindigkeit er fuhr, nicht aber, wie lange die Distanz war:

Strecke 5 6 7 8

Zeit 1,5 h 2h 1h 0,6 h

Geschwindigkei 120 km/h 100 80 km/h 110 km/h


t km/h

Welche Strecke ist er insgesamt gefahren? Mit welcher Durchschnittsgeschwindigkeit fuhr er?
Wir berechnen zunächst die Distanzen der einzelnen Strecken, so ist z.B. der Weg 8
insgesamt  110km/h⋅0,6h=66 km lang.

Streck 5 6 7 8
e
Distanz 180 km 200 km 80 km 66 km

Insgesamt fuhr der Student also 526 km in einer Zeit von 5,1 Stunden. Das ergibt eine
Durchschnittsgeschwindigkeit von  v¯=5265,1=103,137 km/h.

Formel harmonisches Mittel


Wenn man also das Mittel aus Brüchen  aibi ausrechnen möchte, ist die direkte Methode, den
gesamten Zähler und den gesamten Nenner zu berechnen, durch die Formel Mittelwert bei „direkter
Methode“
 v¯=∑ni=1ai∑ni=1bi

gegeben. Genau dies haben wir gemacht. Im ersten Beispiel waren die Nenner  bi, nämlich die
Zeiten, nicht gegeben, im zweiten Beispiel waren die Zähler  ai unbekannt, nämlich die Distanzen.
Beide wurden zunächst berechnet, um dann den Mittelwert zu berechnen. Es gibt aber auch
eine indirekte Methode, mit der nicht zunächst Zähler oder Nenner ausgerechnet werden müssen,
diese Methode nennen wir harmonisches Mittel  x¯h.

EXPERTENTIPP

Mittelwerte bei Brüchen:


Gegeben seien die Beziehungszahlen  xi=aibi.
Wir berechnen das Mittel aus diesen Werten

 wenn die einzelnen Nenner  bi unbekannt sind durch:

 x¯h=∑ni=1ai∑ni=1aixi

 wenn die einzelnen Zähler  ai unbekannt sind durch:

 x¯h=∑ni=1xi⋅bi∑ni=1bi

Angewendet auf die o.e. Beispiele errechnet man für das Beispiel 40:

 x¯h=(100km+140km+50km+150km)100km50km/h+140km100km/h+50km80km/h+1
50km150km/h=440km(2h+1,4h+0,625h+1h)=440km5,025h=87,562km/h

und für das Beispiel 41:


 x¯h=120km/h⋅1,5h+100km/h⋅2h+80km/h⋅1h+110km/h⋅0,6h(1,5h+2h+1h
+0,6h)=180km+200km+80km+66km)5,1h=526km5,1h=103,137km/h
Durch das ausführliche Aufschreiben sieht man, dass die indirekte Methode, nämlich das Rechnen
mit dem harmonischen Mittel, in Wahrheit nichts anderes ist als die direkte, nämlich das
Ausrechnen entweder des Zählers oder des Nenners.
Oftmals schreibt man die Formel für das harmonische Mittel folgendermaßen:
 x¯H=n∑ki=1mixi
bzw.
 x¯H=1∑ki=1hixi
Hierbei sind die xi die o.g. Beziehungszahlen, also z.B. die Geschwindigkeitsangaben. Die linke
Formel entspricht exakt Methode 1, nämlich das Ausrechnen eines Mittelwertes bei bekanntem
Zähler ai, aber unbekanntem Nenner  Ni . Wenn man hierbei durch n kürzt, erhält man den rechten
Ausdruck. Der Parameter  hi ist also  hi=nin und gibt den jeweiligen Anteil an.
Im Beispiel 1 ist z.B.  n=n1+n2+n3+n4=100+140+5+150=395 [km] und es
gilt  h1=100440=0,2273, h2=140440=0,3182, h3=0,1136, h4=0,3409. Damit rechnet
man das harmonische Mittel aus als
 x¯H=1∑ki=1hixi=10,2273500,31821000,1136800,3404150=10,0114=87,56km/h

also genau das gleiche Ergebnis wie oben errechnet.

Mittelwerte und Skalenniveau

MERKE

Merke: Für die Anwendbarkeit des richtigen Mittelwertes ist es entscheidend, wie die
Merkmalswerte skaliert sind. Für die einzelnen Skalen listet die folgende Tabelle die passenden
Mittelwerte auf.

Skala Lageparameter

Nominalskala Modus

Ordinalskala Median

Intervallskala arithmetisches Mittel


Verhältnisskal geometrisches Mittel
a

 1Lückentext Nr. 9
 2Lückentext Nr. 10
 3MC-Aufgabe Nr. 7
 4Paarbildung

Lückentext Nr. 9

Aufgabe 1 von 4

Bitte die Lücken im Text sinnvoll ausfüllen.

Das geometrische Mittel ist erst für  ausrechenbar.

Lösen

Zusammenfassung Lagemaße
Vorlesen

Folgendes Lernvideo gibt eine Zusammenfassung zu den Lagemaßen in der Statistik und erklärt bei
welchen Skalenniveaus Modus, Median und das arithmetische Mittel Anwendung finden.

Lernvideo - Lagemaße der deskriptiven Statistik


Play Video

 Streuungsmaße
Unterschiedliche Streuungsmaße
Vorlesen
Wenn man lediglich einen Lageparameter einer Verteilung angibt, so ist hiermit noch keine Aussage
darüber gemacht, ob die anderen Werte „nahe dran” oder „weit weg” liegen. Dafür gibt es in der
deskripitiven Statistik unterschiedliche Streuungsmaße.

Beispiel zu den Streuungsmaßen


Als Beispiel 42 werden die Einkommensverteilung in unterschiedlichen Gruppen A, B, und C
betrachtet

Die Einkommensverteilung der Gruppe A ist:

Gruppe 1 2 3 4 5

Einomme 5000 500 500 5000 5000


n 0 0

Die Einkommensverteilung der Gruppe B lautet:

Gruppe 1 2 3 4 5

Einkomme 3000 4000 500 6000 7000


n 0

und für die Gruppe C sind die Einkommen:

Gruppe 1 2 3 4 5

Einkomme 1000 2000 500 8000 9000


n 0

Wie stark streuen die Einkommen in den einzelnen Gruppen?

Das Durchschnittseinkommen, hier als arithmetisches Mittel berechnet (wobei der Median das
gleiche Ergebnis liefern würde), liegt in allen Gruppen bei 5.000 €. Man erkennt aber direkt, dass die
Verteilung in Gruppe B ungleichmäßiger als in Gruppe A ist, denn dort ist das Einkommen
gleichverteilt. Die sogenannte Streuung ist in B höher als in A. In Gruppe C sogar streut das
Einkommen noch stärker als in B, die „Schere“ zwischen den kleinsten und den größten Einkommen
ist noch größer.

Das Streuungsmaß in der Statistik


Der Begriff der Ungleichheit lässt sich quantifizieren durch den Streuungsparameter
(= Streuungsmaß), oder auch Dispersionsmaß genannt.
Man kennt unterschiedliche Streuungen für kardinalskalierte Beobachtungswerte  x1,x2,...,xn:

 absolute Streuungsmaße
o Spannweite
o durchschnittliche absolute Abweichung
o mittlere quadratische Abweichung
o Standardabweichung
o Quartilsabstand
 relatives Streuungsmaß
o Variationskoeffizient.

Spannweite
Die Spannweite SP (= Range) wird durch die Formel  SP=xmax–xmin berechnet. Sie gibt also die
Differenz zwischen dem größten und dem kleinsten Beobachtungswert an. Diese ist
sehr ausreißerempfindlich, da sie unmittelbar abhängt von den Werten am Rand der geordneten
Urliste.
Es ist  SPB=xmax–xmin=7.000–3.000=4.000€ für die Spannweite aus dem Beispiel zur
Einkommensverteilung der Gruppe B.

Durchschnittliche absolute Abweichung


Die durchschnittliche absolute Abweichung  s¯ von einem Lageparameter  λ ist definiert als

 s¯=1n∑n|xi−λ|=∑j=1k|aj−λ|⋅f(aj)

Die durchschnittliche absolute Abweichung, ist also das arithmetische Mittel der Abstände aller
Beobachtungswerte von  λ , speziell für  λ=xmed ist die durchschnittliche Medianabweichung.
Bekannt ist außerdem, dass die Summe  ∑ni=1|xi−λ| minimal wird, wenn man für  λ den
Median  xmed einsetzt (Die sogenannte Optimalitätseigenschaft des Median).
Es ist

 s¯=1n∑|xi−λ|=15⋅(|3.000−5.000|)+(...)+(|7.000−5.000|)=1200€

für die durchschnittliche Abweichung vom arithmetischen Mittel  x¯=5.000€.

Mittlere quadratische Abweichung


Die mittlere quadratische Abweichung  s2 ist

 s2=1n∑i=1n(xi−x¯)2

bzw

 s2=∑j=1k(aj−x¯)2⋅f(aj)

bzw.  s2=1n(∑ni=1x2i)−(x¯)2 (Steinerscher Verschiebungssatz), also das arithmetische Mittel


der quadrierten Abstände aller Beobachtungswerte  xi von  x¯. Man bildet die Differenzen der
einzelnen  xi speziell vom arithmetischen Mittel  x¯, da man weiß, dass die
Summe  ∑ni=1(xi−λ)2 minimal wird, wenn man für  λ das arithmetische Mittel  x¯ einsetzt
(sogenannte Optimalitätseigenschaft des arithmetischen Mittels).
Die zweite Formel für  s2 , nämlich  ∑nj=1(aj−x¯)2⋅h(aj) gilt, wenn man die
Häufigkeitsverteilung zugrunde legt

MERKE

Merke: Viele Autoren bevorzugen  s2=1(n−1)∑ni=1(xi−x¯)2 als mittlere quadratische


Abweichung, d.h. mit dem Vorfaktor  1(n−1) statt  1n. Dies hat Gründe, die wir erst in der
Stichprobentheorie verstehen werden. In der deskriptiven Statistik rechnen wir deshalb
ausschließlich mit dem Vorfaktor  1n und also mit der oben erwähnten Definition der mittleren
quadratischen Abweichung.

Für die mittlere quadratische Abweichung rechnet man

 s2B=15⋅[(3.000−5.000)2+...+(7.000−5.000)2]=2.000.000€2
Mit dem Verschiebungssatz kommt man auf das gleiche Ergebnis:

 s2B=15⋅[(3.000)2+(4.000)2+...
+(7.000)2]−(5.000)2=27.000.000−25.000.000=2.000.000€2

Standardabweichung
Die Standardabweichung s berechnet man als Wurzel aus der mittleren quadratischen
Abweichung, also

 s=s2−−√

Sie hat (im Gegensatz zur mittleren quadratischen Abweichung) die gleiche Dimension wie die
Beobachtungswerte.
Die Standardabweichung ist also  sB=2.000.000−−−−−−−−√=1.414,21€.

Quartilsabstand
Unter dem sogenannten Quartilsabstand QA versteht man die Distanz zwischen dem unteren
Quartil  x0,25 und dem oberen Quartil  x0,75:

 QA=x0,75–x0,25

Für das oben erwähnte Beispiel der Einkommensverteilung in Gruppe B ist der Quartilsabstand
 QA=x0,75−x0,25=6.000–4.000=2.000 €.

MERKE

Merke: Dieses Streuungsmaß ist benutzbar ab ordinalskalierten Merkmalen. Trotzdem sollte er erst
ab metrisch skalierten Daten benutzt werden, da zwar die Berechnung der Quartile selbst möglich
ist, die Berechnung einer Differenz aber erst ab metrischen Skalen sinnvoll.

Variationskoeffizient
Den Variationskoeffizienten v ermittelt man durch
 v=sx¯

also als Quotienten aus Standardabweichung s und arithmetischem Mittel  x¯. Es ist sinnvoll, nur
positive -  x¯ Werte bei der Definition zuzulassen.
Der Variationskoeffizient ist ein  relatives Streuungsmaß insofern, als der Anteil der Streuung am
arithmetischen Mittel gemessen wird.
Der Variationskoeffizient im erwähnten Beispiel ist  vB=1.414,2145.000=0,2828=28,28%.
Der Variationskoeffizient  v schließlich von  v=0,2828 besagt, dass die Streuung  s als Maß der
Abweichung 28,28 % vom Mittelwert ausmacht. Es ist oftmals sinnvoll, ihn als Prozentwert
anzugeben.

Interpretation der Streuungsmaße


 Die Spannweite SP zeigt, dass innerhalb einer Spanne von 4.000 € jeder Wert liegt, d.h. dass
zwischen dem kleinsten und dem größten Wert eine Spanne von 4.000 € ist. Dieses
Streuungsmaß ist jedoch recht groß, denn man weiß nun lediglich, dass alle Werte in dieser
Spanne liegen. Wo aber liegen die meisten? Diese Frage wird einigermaßen zufriedenstellend
durch die Standardabweichung  s beantwortet.

 Die Abweichungen als Maß dafür, wie schlecht die Schätzung des Mittelwertes ist, werden
bei der mittleren quadratischen Abweichung  s2 stark gewichtet, nämlich quadriert. Von
Nachteil ist allerdings, dass die Dimension (hier  €2) nicht mit der Dimension der
Beobachtungswerte übereinstimmt. Dieser Nachteil wird geheilt durch die
Standardabweichung  s.

 Die durchschnittliche Abweichung vom arithmetischen Mittel, also  s¯, zeigt, dass im


Mittel die Werte betragsmäßig um 1.200 € vom Mittelwert von 5.000 € abweichen.

Zum Vergleich der Verteilungen seien die Streuungsmaße für alle Gruppen aufgelistet.

Streuungsma  SP  s¯  s2  s  v  QA


ß

A 0 0 0 0 0 0
B 4.000 1.200 2.000.000 1.414,2 0,2828 2.000
1
C 8.000 2.800 10.000.000 3.162,2 0,6325 4.000
8
Man erkennt deutlich, dass die Werte in C stärker streuen als in B, die Verteilung ist damit
ungleichmäßiger. Verteilung A streut gar nicht, weil die Werte alle gleich sind. Die Abweichungen
vom Mittelwert sind also alle gleich null.

MERKE

Merke: Es gilt für Lineartransformationen aus den Werten  xi, also für  yi=a+bx, die Beziehung

 sy2=1n∑i=1n(yi−y¯)2=1n∑i=1n(a+bxi−(a+bx¯))2=1n∑i=1n((xi−x¯)⋅b)2

/b2⋅1n∑i=1n(xi−x¯)2

d.h.
 sy2=b2⋅sx2
für die mittlere quadratische Abweichung bzw.
 sy=|b|⋅sx
für die Standardabweichung.

Zur letzten Bemerkung weitere Beispiele:

BEISPIEL

Beispiel 43:
Jeder Teilnehmer aus den Gruppen A,B,C aus dem obigen Beispiel 42 möge nun das doppelte Gehalt
beziehen und noch einen Zuschlag von 1.000 € zusätzlich erhalten.

Inwiefern handelt es sich um eine Lineartransformation? Gib die Parameter c und d an.
Es ist c = 1.000 € und d = 2, d.h. statt  xi (also die alten Gehälter) rechnet man nun
mit  yi=1.000+2xi, also den neuen. Die neuen Einkommen sind dann

1 2 3 4 5

A 11000 11000 11000 11000 11000

B 7000 9000 11000 13000 15000

C 3000 5000 11000 17000 19000


Die mittleren quadratischen Abweichungen  s2 und die Standardabweichungen  s sind in den
einzelnen Gruppen

 s2  s

A 0 0
B 8.000.000 2828,43
C 40.000.000 6324,56
Die Werte für  s2 werden also vervierfacht (da das Gehalt zunächst verdoppelt wurde), die Streuung
verdoppelt. Dass also jeder noch 1.000 € zusätzlich erhält (a = 1.000), verändert sich die Streuung
nicht, da diese ein Maß für die Ungleichheit ist, denn da aber jeder diese 1.000 € mehr erhält, geht
diese klarerweise nicht in die Streuung ein. Lediglich die Verdopplung (b = 2) findet Eingang und
führt zu einer Vervierfachung (b2 = 22 = 4) der mittleren quadratischen Abweichung bzw. zu einer
Verdopplung der Streuung  s (denn |b| = |2| = 2). Die „Schere“, also die Ungleichverteilung,
zwischen Gering- und Vielverdienern wird durch die Verdopplung aller Gehälter noch größer.

MERKE

Merke: Für den Vergleich zwischen jenen Streuungsmaßen, die dieselbe Streuung besitzen,
gilt  s¯≤s≤SP, d.h. die durchschnittliche Abweichung  s¯ ist kleiner oder gleich der
Standardabweichung  s und diese ist kleiner oder gleich der Spannweite SP.

Im vorliegenden Beispiel 43 sieht man dies z.B. für Gruppe B, dass  1.200≤1.414,21≤4.000,


also  s¯B≤sB≤SPB.

 1LückentextNr. 1
 2LückentextNr. 2
 3MC-Aufgabe Nr. 1
 4MC-Aufgabe Nr. 2
 5Streuungsmaße

Lückentext Nr. 1

Aufgabe 1 von 5

Bitte die Lücken im Text sinnvoll ausfüllen.


Bei der mittleren quadratischen Abweichung bildet man das arithmetische Mittel der

quadrierten   zwischen den jeweiligen Werten und dem arithmetischen


Mittel.

Lösen

Streuungszerlegung
Vorlesen

Die Streuungszerlegung, auch Varianzzerlegung, erklärt die Gesamtvarianz unterschiedlicher


statistischer Massen mit Hilfe der Teilvarianzen.

Beispiel zur Streuungszerlegung

BEISPIEL

Beispiel 44:
Gegeben sei folgendes Beispiel einer Einkommensverteilung.

1 2 3 4 5

A 200 2000 2000


0

B 300 4000 6000 700


0 0

C 400 4000 5000 600 11000


0 0

Wie kann man die Gesamtvarianz aller zwölf Teilnehmer erklären mit Hilfe der Teilvarianzen der
einzelnen Gruppen?
Dazu dient die Streuungszerlegungsformel (sprachlich ungenau, besser wäre der Begriff
Varianzzerlegungsformel)
Streuungszerlegungsformel und Mittelwertzerlegungsformel
Für k unterschiedliche statistische Massen  M1,M2,...,Mk mit jeweils  nj Beobachtungswerten,
deren jeweiliges arithmetisches Mittel  x¯1,...,x¯k und deren mittlere quadratische
Abweichungen  s12,s22,...,sk2 seien, gilt für die Gesamtmasse  M=M1∪M2∪...∪Mk, die
aus  n=n1+n2+...+nk Beobachtungswerten besteht, d.h. gilt für die Gruppen insgesamt die
Varianz

 s2ges=1n∑j=1knj⋅sj2+1n∑j=1knj⋅(x¯j−x¯ges)2

(Streuungszerlegungsformel) wobei das Gesamtmittel berechnet wird als

 x¯ges=1n∑j=1knj⋅x¯j

(Mittelwertzerlegungsformel)

Im vorliegenden oben erwähnten Beispiel errechnet


man  x¯A=2.000€,x¯B=5.000€ und  x¯C=6.000€ sowie für die
Varianzen  sA2=0,sB2=2.500.000€2 und sC2=6.800.000€2. Die Stichprobenumfänge
sind  n1=3,n2=4 und  n3=5. Also ist  n=n1+n2+n3=3+4+5=12, der Gesamtmittelwert
ist  x¯Ges=112⋅(3⋅2.000+4⋅5.000+5⋅6.000)=4.666,67
und die Gesamtvarianz
 s2ges=112⋅(3⋅0+4⋅2.500.000+5⋅6.800.000)+112⋅(3⋅(2.000−4.666,67)2+...
+5⋅(6.000–4.666,67)2)
 =3.666.666,67+2.555.555,56=6.222.222,222.

Erklärung der Formel


Man macht sich die Unterteilung der Streuungszerlegungsformel klar:

 Der erste Summand, nämlich

 1/n∑j=1knj⋅sj2

wird als interne mittlere quadratische Abweichung bezeichnet (hier 3666.666,67),

 der zweite Summand, nämlich


 1n∑j=1knj⋅(xj−x¯ges)2

als externe mittlere quadratische Abweichung (hier 2.555.555,56).

Der Vorteil der Streuungszerlegungsformel besteht darin, dass man nicht alle Werte kennen muss,
um die Gesamtvarianz ausrechnen zu können. Die jeweiligen arithmetischen Mittel, die
Streuungen  si in den Gruppen sowie die jeweiligen Stichprobenumfänge  nj reichen vollkommen
aus. Darüber hinaus hat die Streuungszerlegungsformel in der Varianzanalyse eine große
Bedeutung, was erst in der Stichprobentheorie relevant sein wird.

 1MC-Aufgabe Nr. 3

MC-Aufgabe Nr. 3

Aufgabe 1 von 1

Betrachte zwei Gruppen, die eine bestehend aus den Zahlen 3,4,5, die zweite aus den
Zahlen 8,9,4. Welche der folgenden Aussagen hierzu ist richtig?

 
Die gesamte mittlere quadratische Abweichung beträgt 3,17.

 
Die interne mittlere quadratische Abweichung beträgt 8/3 = 2,667, die externe mittlere quadratische
Abweichung liegt bei 1,5.

 
Die interne mittlere quadratische Abweichung beträgt 1,5, die externe mittlere quadratische
Abweichung liegt bei 2,667.

Lösen

Mittlere quadratische Abweichung berechnen


Vorlesen

Ein wichtiger Teil der Streuungsmaße in der deskriptiven Statistik wird nochmals aufgegriffen. Im
folgenden Video wird gezeigt, wie sich die mittlere quadratische Abweichung mit und
ohne Verschiebungssatz berechnen lässt.
Lernvideo - Mittlere quadratische Abweichung
Play Video

 Formmaße
Unterschiedliche Formmaße
Vorlesen

Bei Verteilungen von Merkmalswerten sind neben Lageparametern und Streuungen noch weitere
Dinge von Bedeutung:

 Symmetrie,
 Schiefe und
 Wölbung (= Excess = Kurtosis).

Diese werden in den folgenden Kapiteln dieses Online-Kurses behandelt.

 1Lückentext Nr. 1

Lückentext Nr. 1

Aufgabe 1 von 1

Bitte die Lücken im Text sinnvoll ausfüllen.

Die Zahlen 1,3,5 sind ein Beispiel für eine  Verteilung.

Lösen

Schiefe
Vorlesen

Die Schiefe sieht man sehr gut an einem Stabdiagramm, das zwar ein Maximum hat, welches aber
nicht in der Mitte liegt. Man spricht von rechtsschiefen (= linkssteilen) Verteilungen, wenn sie nach
rechts weiter auslaufen als nach links. Wenn die Verteilung hingegen weiter nach links ausläuft als
nach rechts, redet man von linksschiefen (= rechtssteilen) Verteilungen.

Linksschiefe Verteilung

Rechtsschiefe Verteilung

Eine eingipflige, symmetrische Verteilung liegt vor, wenn

 ca. die Hälfte der Daten unter bzw. über dem mittleren Wert liegt
 und die meisten Beobachtungswerte sich ungefähr in der Mitte befinden.
Symmetrische Verteilung

Man spricht hingegen von einer u-förmigen Verteilung, wenn sowohl am rechten als auch am
linken Rand der Skala gleichviele Beobachtungswerte liegen und sehr wenige dazwischen.

U-förmige Verteilung

Bei der Gleichverteilung ist die Anzahl von Beobachtungswerten bei allen Merkmalsausprägungen


gleich.
Gleichverteilung

Momente in der Statistik


Um ein Schiefemaß zu entwickeln, benötigen wir zunächst den Begriff der Momente. Unter dem k-
ten Moment der Verteilung x um den Wert a versteht man die Zahl

 mk(a)=1n∑i=1n(xi−a)k

Es gilt:

 Momente mit  a=0 bezeichnet man als gewöhnliche Momente


 Momente mit  a=x¯, also in Bezug auf das arithmetische Mittel, werden zentrale
Momente genannt.

MERKE

 Das arithmetische Mittel  x¯=1n∑ni=1xi=1n∑ni=1(xi−0)1 ist


wegen  a=0 und  k=1 das 1.gewöhnliche Moment.
 Die mittlere quadratische Abweichung  s2=1n∑ni=1(xi−x¯)2 ist
wegen  a=x¯ und  k=2 das 2.zentrale Moment.

Es existieren unterschiedliche Maße bzw. Regeln für die Schiefe einer Verteilung, nämlich

 die Momentschiefe,
 die Quartilsschiefe und
 die Fechnersche Lageregel
Momentschiefe
Die Momentschiefe  uM ist

 uM=m3(0)s3=∑ni=1(xi−x¯)3n⋅s3=∑kj=1(aj−x¯)3⋅h(aj)n⋅s3

Man dividiert also das 3. gewöhnliche Moment durch die dritte Potenz der Standardabweichung.

  uM>0 heißt, dass die Verteilung rechtsschief ist,


  uM<0 heißt, dass die Verteilung linksschief ist

Quartilsschiefe
Die Quartilsschiefe  uQ liest sich als
 uQ=(x0,75−x0,5)−(x0,5−x0,25)(x0,75−x0,25)
Man berechnet die Differenz aus dem Abstand zwischen oberem Quartil und dem Median,
d.h.  x0,75–x0,5, sowie aus dem Median und dem unteren Quartil, also  x0,5–x0,25. Diesen
Abstand dividiert man durch den Quartilsabstand  x0,75–x0,25. Bei rechtsschiefen Verteilungen
liegt das erste Quartil  x0,25 näher am Median  x0,5 als das obere Quartil  x0,75. Dies bedeutet,
dass die Differenz  x0,5–x0,25 kleiner sein wird als die Differenz  x0,75–x0,5. Mithin ist die
Differenz dieser beiden Differenzen dann positiv. Also

  uQ>0 bedeutet, dass die Verteilung rechtsschief ist


  uQ<0 bedeutet, dass die Verteilung linksschief ist

MERKE

Merke: Die Quartilsschiefe  uQ liegt stets zwischen – 1 und 1, also  −1≤uQ≤1

Fechnersche Lageregel
Nach der Fechnerschen Lageregel ist eine Verteilung rechtsschief, wenn gilt, dass der Modus
kleiner als der Median ist und dieser wiederum kleiner als das arithmetische
Mittel:  xModus<x0,5<x¯. Andernfalls ist sie linksschief, d.h. wenn gilt  xModus>x0,5>x¯.
Beispiel Schiefekennzahlen
Beispiel 45: Um die Schiefekennzahlen besser zu verstehen, gehen wir auf die Bearbeitungszeiten
der Statistik-Klausur aus einer vorherigen Aufgabe zurück.

Zunächst berechnet man – für die Quartilsschiefe – den Median  x0,5=8, das untere
Quartil  x0,25=3 und das obere Quartil  x0,75=9. Damit ist die Quartilsschiefe $$\ u_Q={(x_{0,75}-
x_{0,5})-(x_{0,5}-x_{0,25}) \over (x_{0,75}-x_{0,25})}={(9-8)-(8-3) \over (9-3)}=-0,67
Die Momentschiefe ist hingegen etwas mühsamer zu berechnen: $$\ u_m={{\sum_{j=1}^k (a_j-
\overline x)^3 \cdot h(a_j)} \over {n \cdot s^3}} ={(1-7)^3+(2-7)^3 \cdot 3+...+(12-7)^3 \over {20
\cdot \sqrt {12^3}}} =-0,3536

Beide Kennzahlen deuten also auf eine linksschiefe Verteilung hin.

MERKE

Merke: Die Schiefekennzahlen  uQ und  uM sind nicht frei von Fehlern. Es kann durchaus


vorkommen, dass  uQ0 ist und man daher meint, dieselbe Verteilung sei doch rechtsschief.

 1Lückentext Nr. 2
 2Lückentext Nr. 3
 3Lückentext Nr. 4
 4Lückentext Nr. 5
 5Lückentext Nr. 6
 6MC-Aufgabe Nr. 1
 7MC-Aufgabe Nr. 2

Lückentext Nr. 2

Aufgabe 1 von 7

Bitte die Lücken im Text sinnvoll ausfüllen.

Die Zahlen 1,3,9 sind ein Beispiel für eine  Verteilung.

Lösen
Wölbung
Vorlesen

Die Wölbung einer Verteilung behandelt die Frage, wie spitz oder flach eine Verteilung ist – genauer:
inwieweit die Merkmalswerte in der Mitte oder an den Enden der Verteilung sich konzentrieren. So
haben z.B. die Kurven der beiden u.e. Verteilungen unterschiedliche Wölbungen, in der folgenden
Abbildung ist die helle Verteilung stärker gewölbt (also spitzer) als die dunkle (die weniger gewölbt
und also flacher ist).

Zwei unterschiedlich gewölbte Verteilungen

Berechnung der Wölbung


Maßzahlen für die Wölbung sind das

 Momentenwölbungsmaß und das


 Quartilswölbungsmaß.

Das Momentenwölbungsmaß  wM ist definiert als

 wM=m4x¯n⋅s4−3=∑ni=1(xi−x¯)4(∑ni=1(xi−x¯)2)2−3

Hier ist für die Zahlen aus der Aufgabe mit den Bearbeitungszeiten der Statistik-
Klausuren  wM=(1−7)4+(2−7)4+...+(12−7)4)[(1−7)2+(2−7)2+...+(12−7)2]2−3=−2,909.

Es gilt die Regel:


  wM<0 bedeutet, dass die Verteilung flacher ist als die Glockenkurve der Normalverteilung,
  wM>0 heißt, dass die Verteilung spitzer ist als jene der Glockenkurve der
Normalverteilung

MERKE

Merke: Die Kennzahl  wM liegt im Bereich zwischen –2 und +  ∞, also  –2<wM<+∞.

Das Quartilswölbungsmaß  wQ bezeichnet man durch


 wQ=1−(x0,75−x0,25)x0,8−x0,2
Für das vorliegende Beispiel erhält man  wQ=1−(9−3)(10−2)=0,25.

MERKE

Merke:

 Das Quartilswölbungsmaß liegt zwischen 0 und 1:  0≤wq≤1


 Für die Normalverteilung ist  wQ ca. bei 0,2, diese Zahl wird als Referenzwert benutzt.

Damit entwickelt man als Regel: Wenn  wQ größer als 0,2 ausfällt, dann ist die zugrunde liegende
Verteilung stärker gewölbt als jene der Normalverteilung – andernfalls ist sie flacher. Der
Quartilsabstand  x0,75–x0,25 und der Quintilsabstand  x0,8–x0,2 liegen enger beieinander, wenn
die Enden der Verteilung stärker besetzt sind.

 1LückentextNr. 7
 2MC-Aufgabe Nr. 3
 3MC-Aufgabe Nr. 4

Lückentext Nr. 7

Aufgabe 1 von 3

Bitte die Lücken im Text sinnvoll ausfüllen.

Wenn das Momentenwölbungsmaß  ist als null, dann bedeutet dies, dass
die Verteilung flacher ist als die Glockenkurve der Normalverteilung.
Lösen

 Konzentrationsmessung
 Einleitung
Konzentrationsmaße
Vorlesen

Das nächste Kapitel befasst sich mit der Konzentrationsmessung. Wir untersuchen im Folgenden

 die relative Konzentration und


 die absolute Konzentration.

Beispiel relative und absolute Konzentration

BEISPIEL

Beispiel 46:
In der schönen schwäbischen Stadt Beimen sind zehn Verkäufer von Tennisschlägern ansässig.
Sechs von ihnen erwirtschaften einen Umsatz von jeweils 500.000 €. Das Geschäft Ivan ist
erfolgreicher: es hat einen Ertrag von 700.000 €. Michael, ein Geschäft am Stadtrand, erzielt 600.000
€. Die Läden Steffi und Boris hingegen liegen direkt in der Stadtmitte und erzielen den höchsten
Umsatz: auf Steffi entfallen 1.700.000 €, auf Boris sogar 2.000.000 €.

Stelle die Konzentration anhand geeigneter Konzentrationsmaße dar.

Man sieht an der Aufgabe unterschiedliche Fragestellungen:

Konzentriert sich die Merkmalssumme (hier der Umsatz) auf wenige „große“ Merkmalsträger (hier
die Geschäfte, also z.B. die erfolgreichsten Läden Steffi und Boris)? Man spricht dann von relativer
Konzentration. Als Analyseinstrumente bieten sich an:

 Lorenz-Kurve,
 Gini-Koeffizient,
 Länge der Lorenzkurve,
 normierter Gini-Koeffizient,
 Konzentrationsmaß CRg.
Wenn sich hingegen zusätzlich der Umfang der statistischen Masse verkleinert (hier also z.B. von
zehn Geschäften auf acht), so spricht man von absoluter Konzentration. Zur Untersuchung nimmt
man oftmals:

 die absolute Konzentrationskurve,


 Herfindahl-Index,
 den Rosenbluth-Index.

Lernvideo - Konzentrationsmaße
Eine erste Einführung in das Thema gibt das folgende Lernvideo.
Play Video

 1Lückentext Nr. 1
 2Lückentext Nr. 2
 3MC-Aufgabe Nr. 1
 4Analyseinstrumente

Lückentext Nr. 1

Aufgabe 1 von 4

Bitte die Lücken im Text sinnvoll ausfüllen.

Konzentriert sich die Merkmalssumme auf wenige große Merkmalsträger, so spricht

dann von starker Konzentration.

Lösen

 Relative Konzentration
Übersicht relative Konzentration
Vorlesen
Nochmals eine Übersicht der Instrumente, die zur Analyse der relativen Konzentration dienen. Im
Folgenden werden behandelt:

 Lorenz-Kurve,
 Gini-Koeffizient,
 Länge der Lorenzkurve,
 normierter Gini-Koeffizient,
 Herfindahl-Index,
 Konzentrationsmaß CRg.

Lorenzkurve
Vorlesen

Zur Verdeutlichung der Lorenzkurve wird mit dem in der Einführung erwähnten Beispiel 46


"Verkäufer von Tennisschlägern" weitergerechnet.

Zunächst empfiehlt es sich, die Geschäfte nach ihrem Umsatz (in Tsd. €) zu ordnen, und zwar von
unten nach oben:

Geschäf 1 2 3 4 5 6 Michae Ivan Steff Boris


t l i

Umsatz 500 500 500 500 500 500 600 700 1.700 2.000

Alsdann werden die Anteile der Geschäfte am Gesamtumsatz, hier also U= 8.000,00 €, ermittelt und
danach kumuliert:

Geschäft 1 2 3 4 5 6 M I S B

Umsatz 500 500 500 500 500 500 600 700 1.700 2.000

Anteil 0,0625 0,062 0,062 0,0625 0,062 0,062 0,075 0,087 0,212 0,25
5 5 5 5 5 5

kumul. 0,0625 0,125 0,187 0,25 0,312 0,375 0,45 0,537 0,75 1
Anteil 5 5 5
So besagt z.B. die Zahl 37,5 %, dass die kleinsten sechs Geschäfte zusammen 37,5 % des Umsatzes
erzielen. Ebenso sieht man, dass die kleinsten acht Geschäfte 53,75 % des Gesamtumsatzes erzielen.
Anders ausgedrückt, entfällt fast die Hälfte des Ertrags (genauer: 46,25 %) auf zwei Geschäfte,
nämlich Boris und Steffi.
Es liegt also eine deutliche Konzentration auf die Läden 9 und 10 vor. Die „größten” 20 % der
Geschäfte erzielen beinahe 50 % des Umsatzes!

Lorenzkurve zeichnen
Die Konzentration zu visualisieren, wird durch die Lorenzkurve geleistet. Hierzu werden zunächst
noch die Anteile der Geschäfte an der Gesamtzahl von n = 10 errechnet und kumuliert:
Die fett markierten Punkte sind dann jene der Lorenzkurve.

Geschäft 1 2 3 4 5 6 M I S B

Umsatz 500 500 500 500 500 500 600 700 1.700 2.000

Anteil 0,0625 0,062 0,062 0,0625 0,062 0,062 0,075 0,087 0,212 0,25
5 5 5 5 5 5

kumul. 0,0625 0,125 0,187 0,25 0,312 0,375 0,45 0,537 0,75 1
Anteil 5 5 5

Anteil 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1
Geschäft

kumul. 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Anteil

Die Zeilen mit den kumulierten Anteilen ergeben die Punkte der Lorenzkurve und werden
eingezeichnet:
Lorenzkurve

MERKE

Merke:

 Die Lorenzkurve steigt unterhalb der Hauptdiagonalen an. Dies liegt daran, dass die
Geschäfte von klein nach groß sortiert werden.
 Die Lorenzkurve wird von links nach rechts immer steiler.

Konzentrationsmessung anhand der Lorenzkurve


Man sieht an der gestrichelten Linie wieder die 50 % - Marke – die ersten sieben Geschäfte erzielen
weniger als die Hälfte des Umsatzes (nämlich 45 %), bei den ersten acht Geschäften ist die Hälfte des
Umsatzes bereits überschritten (und 53,75 % erreicht). Ist die Konzentration des Umsatzes nun
groß oder klein?

 Wenn keine Konzentration vorliegt, d.h. wenn im vorliegenden Beispiel jedes Geschäft den
gleichen Umsatzanteil hätte, konkret 10 %, also 800.000 €, dann wäre die Lorenzkurve gleich
der Hauptdiagonalen.
 Je weiter die Lorenzkurve nach unten rechts gezogen wird, umso größer ist die
Konzentration
Lorenzkurve bei größerer Konzentration

 Wenn eine absolute Konzentration auf ein einziges Geschäft vorliegt, d.h. dass im
vorliegenden Fall z.B. das Geschäft Boris den gesamten Umsatz in Höhe von 8 000.000 €
einfährt und die restlichen Geschäfte nichts erwirtschaften, dann sieht die Lorenzkurve
folgendermaßen aus:
Lorenzkurve bei maximaler Konzentration

 1Lückentext Nr. 1
 2MC-Aufgabe Nr. 1

Lückentext Nr. 1

Aufgabe 1 von 2

Bitte die Lücken im Text sinnvoll ausfüllen.

Die Lorenzkurve bewegt sich stets   der Winkelhalbierenden. Dies liegt


daran, dass die Werte von klein nach groß angeordnet werden und nicht umgekehrt.

Lösen

Gini-Koeffizient
Vorlesen
Interessant ist es, nicht nur die Konzentration auf der Lorenz-Kurve zu sehen, sondern auch, sie
zu berechnen. Hier hilft der Gini-Koeffizient. Wenn man die Fläche K zwischen der
Winkelhalbierenden und der Lorenzkurve schraffiert, dann steigt bei wachsender Konzentration die
Größe dieser Fläche.

Formel zur Berechnung des Gini-Koeffizienten


Die Fläche K wird nun dividiert durch das Dreieck unter der Winkelhalbierenden (die wir auch
manchmal Hauptdiagonale nennen) und der Abszisse. Letzteres ist genau  12⋅100⋅100=5.000.
Man erhält den Gini-Koeffizienten G als

 G=Fläche zwischen der Lorenzkurve und der 45°-LinieFläche unterhalb der


45°-Linie

Da die Fläche unterhalb der Hauptdiagonalen allerdings  12⋅100⋅100=5.000 ist, lässt sich direkt


rechnen:  G=K5.000.
Zweckmäßigerweise errechnet man K als Differenz aus dem Dreieck unterhalb der Hauptdiagonalen
und der Summe der Trapeze unterhalb der Lorenzkurve.
Darüber hinaus gibt es unterschiedliche Formeln für den Gini-Koeffizienten, die ohne das
graphische Verständnis der Fläche unterhalb der Lorenzkurve auskommen:

 G=2∑ni=1i⋅pi−(n+1)n

  G=2∑ni=1i⋅xi−(n+1)⋅∑ni=1xin⋅∑ni=1xi
  G=1n2∑ni=1∑nj=1|xi−xj|2⋅x¯
  G=∑i=1n(Hi−1+Hi)⋅ci−1

Die letzte Formel ist insbesondere für klassierte Daten geeignet (kann aber genau so auch bei
unklassierten verwendet werden).
Man benennt  F(xj) als Anteil auf der Abszisse (also hier: der Geschäfte) und  g(xj) als Anteil auf
der Ordinate (hier: des Umsatzes).
Klarerweise liegt G zwischen 0 und  n−1n d.h. es ist  0≤G≤n−1n.

 Im Fall der völligen Konzentration


o gilt  G=n−1n,
 bei einer Gleichverteilung (also fehlender Konzentration),
o ist  G=0.
Der normierte Gini-Koeffizient
Die fehlende Normierung des Gini-Koeffizienten auf 1 wird durch den sog. normierten Gini-
Koeffizienten G* hergestellt. Man berechnet ihn durch
 G∗=nn−1⋅G
Für die Stadt Beimen aus einem vorherigen Beispiel errechnet man einen Gini-Koeffizienten von
 G=n2∑ni=1i⋅pi−(n+1)=102⋅(1⋅0,0625+2⋅0,0625+...+10⋅0,25)−(10+1)=0,29
oder anders:
 G=n⋅∑ni=1xi2∑ni=1i⋅xi−(n+1)⋅∑ni=1xi=10⋅8.0002⋅(1⋅500+...+10⋅2.000)−11⋅8.000=0,29
oder auch
 G=∑ni=1(Hi−1+Hi)⋅ci−1
 =(0+0,1)⋅0,0625+(0,1+0,2)⋅0,0625+[...]+(0,9+1)⋅0,25−1
 =0,0625⋅3,6+0,0175+0,13125+0,36125+0,475−1=0,29

 1LückentextNr. 2
 2LückentextNr. 3
 3MC-Aufgabe Nr. 2

Lückentext Nr. 2

Aufgabe 1 von 3

Bitte die Lücken im Text sinnvoll ausfüllen.

Je größer die  Konzentration, umso größer ist der Gini-Koeffizient.

Lösen

Länge der Lorenzkurve


Vorlesen

Ein weiteres Konzentrationsmaß ist die Länge L der Lorenzkurve. Hierzu werden die Längen der
Streckenabschnitte einfach aufaddiert. Es gilt
 L=F(x1)2+g(x1)2−−−−−−−−−−−−−√+[F(x2)−F(x1)]2+

[g(x2)−g(x1)]2−−−−−−−−−−−−−−−−−−−−−−−−−−−√

 +...+[F(xm)−F(xm−1)]2+[g(xm)−g(xm−1)]2−−−−−−−−−−−−−−−−−−
−−−−−−−−−−−−−−−√

oder kürzer

 =∑j=1m−1[F(xj+1)F(xj)]2[g(xj+1)−g(xj)]2−−−−−−−−−−−−−−−−−−−

−−−−−−−√

Im vorliegenden Beispiel rechnet man


 =(0,1−0)2+(0,0625−0)2−−−−−−−−−−−−−−−−−−−−
−√+(0,2−0,1)2+(0,125−0,0625)2−−−−−−−−−−−−−−−−−−−−−−−

−−−√  +...+(1−0,9)2+(1−0,75)2−−−−−−−−−−−−−−−−−−

−√=1,4695
Die Länge L der Lorenzkurve liegt zwischen 2√ und  2:  2√≤L≤2.

 Bei absoluter Konzentration auf einen einzigen Merkmalswert


o ist  L=12+12=2,
 bei Gleichverteilung
o gilt  L=12+12−−−−−−√=2√

Concentration-Ratio
Vorlesen

Das Konzentrationsmaß Concentration-Ratio  CRg ist sehr einfach zu bestimmen. Es gibt an,


welchen Anteil der Merkmalssumme die  g größten Merkmalsträger auf sich vereinigen.
So ist in dem bekannten Beispiel
 CR1=2.0008.000=0,25,
 CR2=(2.000+1.700)8.000=0,4625,
 CR3=4.4008.000=0,55 usw.
 1Lückentext Nr. 6
 2MC-Aufgabe Nr. 4

Lückentext Nr. 6

Aufgabe 1 von 2

Bitte die Lücken im Text sinnvoll ausfüllen.

Das relative Konzentrationsmaß CRg gibt den Anteil an, den die  der "g"
größten Merkmalsträger auf sich vereinigen.
Lösen

 Absolute Konzentration
Übersicht absolute Konzentration
Vorlesen

Auch die absolute Konzentration lässt sich bestimmen. Wenn die kleinen Geschäfte der
Tennisschlägerverkäufer in Beimen aus dem vorherigen Beispiel sich zu einem einzigen großen
Geschäft zusammenschließen, so steigt die absolute Konzentration, da sich derselbe Gesamtumsatz
auf weniger Geschäfte verteilt. Die relative Konzentration hingegen muss hierdurch nicht steigen.
Sie täte es auf jeden Fall, wenn die großen Geschäfte fusionieren würden, d.h. wenn die großen
einen noch größeren Teil des Kuchens erhielten.

Bei der absoluten Konzentrationskurve trägt man auf der Abszisse nicht die relativen kumulierten
Häufigkeiten, sondern vielmehr absolute kumulierte Häufigkeiten ab. Dies liegt daran, dass bei
der absoluten Konzentration zwei Dinge eine Rolle spielen:

 die Verteilung der Merkmalssumme innerhalb der statistischen Masse,


 der Umfang der statistischen Masse.

Bzgl. der absoluten Konzentration lassen sich unterscheiden

 die absolute Konzentrationskurve


 der Rosenbluth-Index.
 1Lückentext Nr. 1
 2Lückentext Nr. 2
 3Lückentext Nr. 3

Lückentext Nr. 1

Aufgabe 1 von 3

Bitte die Lücken im Text sinnvoll ausfüllen.

Bei der   Konzentrationskurve trägt man auf der Abszisse nicht die
relativen kumulierten Häufigkeiten, sondern vielmehr absolute kumulierte
Häufigkeiten ab.

Lösen

Absolute Konzentrationskurve
Vorlesen

Die absolute Konzentrationskurve soll darstellen, auf wieviele Merkmalsträger sich ein


bestimmter Anteil der Merkmalssumme verteilt.
Es gibt nun zwei Möglichkeiten der Zunahme der Konzentration:

 wenn die Kurve weiter weg von der Winkelhalbierenden verläuft


o die relative Konzentration nimmt zu,
 wenn weniger statistische Einheiten beteiligt sind,
o die Länge der Abzisse nimmt ab,
o die absolute Konzentration nimmt zu.

Die Fläche  Fa unterhalb der absoluten Konzentrationskurve verläuft

 zwischen  n⋅12=12⋅n (wenn keine Konzentration vorliegt) und


  12 (wenn  n=1 ist),

also wenn die höchste Konzentration auf ein einziges Geschäft vorliegt. Also gilt  12≤Fa≤12n.
Herfindahl-Index
Vorlesen

Ein anderer Koeffizient zur Konzentrationsmessung ist der Herfindahl-Index. Die relative Häufigkeit

 pi=xi∑(i=1)nxi
die bereits für die Berechnung des Gini-Koeffizienten wichtig war, findet hier Eingang, der
Herfindahl-Index ist definiert als

 H=∑i=1np2i

MERKE

Merke: Der Herfindahl-Index H bewegt sich in den Grenzen  1n≤H≤1

Folgendes gilt:

 er ist  H=1n bei der Gleichverteilung


 er ist  H=1 bei absoluter Konzentration auf einen einzigen Merkmalsträger.

Berechnung Herfindahl-Index
Im vorliegenden Beispiel 46 rechnet man
 H=∑p2i=(5008.000)2+...+(2.0008.000)2=0,144375.

 1LückentextNr. 4
 2LückentextNr. 5
 3MC-Aufgabe Nr. 3

Lückentext Nr. 4

Aufgabe 1 von 3

Bitte die Lücken im Text sinnvoll ausfüllen.

Je größer der  -Index, umso größer ist die relative Konzentration.


Lösen

Exponentialindex
Vorlesen

Ein weiteres Konzentrationsmaß ist der Exponentialindex  CE mit

 CE=∏j=1nccjj=cc11⋅cc22⋅...⋅ccnn

Im Beispiel der Stadt Beimen lautet der Exponentialindex


 CE=0,06256⋅0,0625⋅0,0750,075⋅0,08750,0875⋅0,250,25=0,2846.

Relative Konzentration berechnen


Zusammenfassend wird nochmals festgehalten, wie bei Berechnung der relativen Konzentration
vorgegangen wird und welche Konzentrationsmaße sich bestimmen lassen.

EXPERTENTIPP

Vorgehen bei der Konzentrationsmessung:

 Gegeben sei ein Merkmal mit den Beobachtungswerten  x1,...,xn.


 Ordne die Werte an und erhalte  x1,...,xm
 Berechne die relativen Häufigkeiten

 g(xk)=∑ki=1xi∑ni=1xi

 Trage die Werte  g(xk) zusammen mit den relativen Häufigkeiten der Abszisse ab in ein
Koordinatensystem
 Die Punkte  (F(x1),g(x1)),(F(x2),g(x2)),...,(F(xm),g(xm)), bilden die
Lorenzkurve
 Berechne Konzentrationsmaße:
oGini-Koeffizient,
onormierter Gini-Koeffizient,
oHerfindahl-Index,
oKonzentrationsrate CRg,
oExponentialindex,
oLänge der Lorenzkurve.
BEISPIEL

Beispiel 47:
Wenn fünf Unternehmen, die gleich groß sind, auf einem Markt existieren und auf einem anderen
Markt 20 gleich große Unternehmen, so ist auf beiden der Gini-Koeffizient gleich 0, obwohl der erste
Markt als „konzentrierter” gelten kann. Auch die Lorenzkurve liefert beide Male dasselbe Bild,
nämlich die Winkelhalbierende und damit keine – relative – Konzentration.

Rosenbluth-Index
Vorlesen

Der Rosenbluth-Index  CR gilt als Maß für die absolute Konzentration: Der Rosenbluth-Index


berechnet sich als
 CR=12⋅∑mi=1Gi−1
Dieser Index ist wiederum:
 CR=1n bei fehlender Konzentration und

 CR=1 bei kompletter Konzentration.

Berechnung des Rosenbluth-Index

BEISPIEL

Beispiel 46 der Tennisschlägerverkäufer (zur Erinnerung):

In der schönen schwäbischen Stadt Beimen sind zehn Verkäufer von Tennisschlägern ansässig.
Sechs von ihnen erwirtschaften einen Umsatz von jeweils 500.000 €. Das Geschäft Ivan (I) ist
erfolgreicher: es hat einen Ertrag von 700.000 €. Michael (M), ein Geschäft am Stadtrand, erzielt
600.000 €. Die Läden Steffi (S) und Boris (B) hingegen liegen direkt in der Stadtmitte und erzielen
den höchsten Umsatz: auf Steffi entfallen 1.700.000 €, auf Boris sogar 2.000.000 €. Stelle die
Konzentration anhand der Lorenzkurve und anhand geeigneter Konzentrationsmaße dar.

Alsdann werden die Anteile der Geschäfte am Gesamtumsatz, hier also U = 8 000.000 €, ermittelt
und danach kumuliert:

Geschäft 1 2 3 4 5 6 M I S B

Umsatz 500 500 500 500 500 500 600 700 1.700 2.000
Anteil 0,0625 0,062 0,062 0,0625 0,062 0,062 0,075 0,087 0,212 0,25
5 5 5 5 5 5

kumul. 0,0625 0,125 0,187 0,25 0,312 0,375 0,45 0,537 0,75 1
Anteil 5 5 5

Im Fall der Stadt Beimen rechnen wir also

 CR=12⋅(0,0625+0,125+0,1875+(...)+0,5375+0,75+1)−1=12⋅4,05−1=0,141
wenn es zehn Geschäfte sind.
Sollten sich die kleinsten sechs der Geschäfte zusammenschließen, so beträgt deren Umsatz
zusammen bekanntlich 3.000.000 €. Damit erhält man

Geschäf 1 2 3 4 5
t

Umsatz 3.000.000 600.000 700.00 1.700.00 2.000.000


(= 6 * 0 0
500.000)

und also:

 CR=12⋅(0,375+0,45+0,5375+0,75+1)−1=12⋅3,1125−1=0,191
Der Rosenbluth-Index der absoluten Konzentration steigt also.

Beispiel klassierte Daten


Schließlich noch ein Beispiel zu klassierten Daten.

BEISPIEL

Beispiel 48:
Das Einkommen innerhalb der Unternehmung X sei wie folgt verteilt:

Einkommensklasse Anzahl der Mitarbeiter


bis 1.000 5

1.000 bis unter 2.000 10

2.000 bis unter 5.000 18

5.000 bis unter 13


10.000

über 10.000 4

Gib die Lorenzkurve und den Gini-Koeffizienten für die vorliegenden klassierten Daten an.
Es muss ausgerechnet werden, wie viel in den Klassen insgesamt verdient wird, um diese
Gesamteinkommen pro Klasse zu kumulieren und hiervon die relativen Häufigkeiten  ci zu
berechnen und diese dann zu  Ci zu kumulieren. Für die Werte auf der Abzisse bezieht man die
jeweiligen Zahlen der Mitarbeiter auf die Gesamtzahl aller Arbeitnehmer, hier also auf 50. Schließlich
muss man eine geeignete Klassengrenze für die oberste Klasse wählen, so z.B. 20.000 €.
Es gilt also

Klasse Mitte Anzah Einkommen  ci  Cj  fj  Fj


l

[0;1.000) 500 5 2.500 0,011 0,011 0,1 0,1


[1.000;2.000) 1.500 10 15.000 0,063 0,074 0,2 0,3
[2.000;5.000) 3.500 18 63.000 0,265 0,339 0,3 0,66
6
[5.000;10.000) 7.500 13 97.500 0,41 0,749 0,2 0,92
6
[10.000;20.000 15.000 4 60.000 0,252 1 0,0 1
) 8
∑ 50 238.000 1 1
Der Gini-Koeffizient ist damit
 DG=∑(Fi–1+Fi)⋅ci–1  =(0+0,1)⋅0,011+(0,1+0,3)⋅0,063+...
+(0,92+1)⋅0,252–1=0,41234
 1MC-Aufgabe Nr. 1
 2MC-Aufgabe Nr. 2

MC-Aufgabe Nr. 1

Aufgabe 1 von 2

Bei kompletter Konzentration beträgt der Rosenbluth-Index...

0,5

1/n

Lösen

 Mehrdimensionale Verteilungen
Mehrdimensionale Verteilung - Einführung
Vorlesen

Das folgende Kapitel beschäftigt sich mit mehrdimensionalen Verteilungen.

Es werden nun zwei oder mehr Verteilungen gleichzeitig betrachtet. Wenn genau zwei Merkmale X
und Y mit ihren jeweiligen Merkmalsausprägungen  ai (für X) und  bj (für Y) betrachtet werden,
dann lässt sich dies zweidimensional, d.h. in einer Tabelle, darstellen. Bei zwei nominalskalierten
Merkmalen spricht man hierbei von Kontingenztabellen, bei zwei ordinal- oder kardinalskalierten
Merkmalen eher von Korrelationstabellen. Eine solche Tabelle sieht allgemein folgendermaßen aus:

Ausprägungen Merkmal Ausprägungen Merkmal Y Randhäufigkeit


X b1 b2 … bl

 a1  h11  h12 …  h1l  h1.


 a2  h21  h22 …  h2l  h2.
… … … … … …
 ak  hk1  hk2 …  hkl  hk.
Randhäufigkeit  h.1  h.2 …  h.l  1
Wir haben in diese Tabelle relative Häufigkeiten  hij eingetragen (man könnte aber auch, analog
hierzu, genau so gut eine gesamte Tabelle mit absoluten Häufigkeiten  Hij aufstellen). Der vordere
Index  i in  hij mit  i=1,…,k und  j=1,…,l ist der Zeilenindex und damit die i. Ausprägung
des Merkmals X. Entsprechend bezeichnet  j den Spaltenindex, also die Merkmalsausprägung von
Y. Zur Spaltensumme ist zu sagen, dass z.B.  h2. die Randhäufigkeit von  a2 angibt – über alle
Ausprägungen von Y aufsummiert.
Die Häufigkeit  „h2.” gibt also lediglich an,

 dass in der zweiten Zeile (denn der Zeilenindex, also die vorne stehende Zahl, ist gleich „2”)
 aufsummiert wird (denn der Punkt „•” gibt gerade an, dass keine einzelne Spalte
herausgegriffen wird, sondern vielmehr alle Spalten aufsummiert werden)

Zum besseren Verständnis betrachten wir konkretes Zahlenmaterial.

Beispiel mehrdimensionale Verteilung

BEISPIEL

Beispiel 49:
Eine Befragung unter 100 Studenten bzgl. der Religionszugehörigkeit und der Studienrichtung ergibt
folgendes Ergebnis:

BWL Jura Medizin Anglistik

katholisch 10 12 6 18

evangelisch 8 3 18 9
muslimisch 7 6 2 1

Stelle die Häufigkeitsverteilung dar. Gehe dabei ein auf die Begriffe

 gemeinsame Verteilung,
 Randverteilung,
 bedingte Verteilung,
 Unabhängigkeit.

Bei ein- und demselben Studenten wird also das Merkmal Studienrichtung X und
Religionszugehörigkeit Y gemessen.

 1Lückentext Nr. 2
 2Lückentext Nr. 3
 3Lückentext Nr. 4
 4Paarbildung Nr. 1
 5Paarbildung Nr. 2
 6Paarbildung Nr. 3
 7Paarbildung Nr. 4
 8Multiple-Choice

Lückentext Nr. 2

Aufgabe 1 von 8

Bitte die Lücken im Text sinnvoll ausfüllen.

Die Zahl H23=    gibt an, dass 18 evangelische Studenten Medizin


studieren.
Lösen

Gemeinsame Verteilung
Vorlesen

Die Zahlen innerhalb der folgenden beiden Tabellen geben die absoluten (erste Tabelle) bzw.
relativen Häufigkeiten (zweite Tabelle) an, dass beide Merkmale gleichzeitig erfüllt werden.
So ist bspw. die absolute Häufigkeit, dass ein beliebiger Student Anglistik studiert und katholisch
ist,  H14= 18 (siehe die erste Zeile und vierte Spalte der ersten Tabelle). Die relative Häufigkeit, dass
ein Student evangelisch ist und BWL studiert, lautet hingegen  h21= 0,08 (siehe die zweite Zeile und
erste Spalte der zweiten Kontingenztabelle).

BWL Jura Medizi Anglistik  


n

katholisch 10 12 6 18 46
evangelisc 8 3 18 9 38
h
muslimisch 7 6 2 1 16
 ∑ 25 21 26 28 100

In diese Tabelle schreibt man relative Häufigkeiten

BWL Jur Medizin Anglisti  


a k

katholisch 0,1 0,12 0,06 0,18 0,46


evangelisc 0,08 0,03 0,18 0,09 0,38
h
muslimisch 0,07 0,06 0,02 0,01 0,16
 ∑ 0,25 0,21 0,26 0,28 1

 1Lückentext Nr. 5
 2Lückentext Nr. 6
 3MC-Aufgabe Nr. 1
 4MC-Aufgabe Nr. 2
 5Paarbildung Nr. 5

Lückentext Nr. 5

Aufgabe 1 von 5
Bitte die Lücken im Text sinnvoll ausfüllen.

In der Kontingenztabelle der   Häufigkeiten bedeutet H3=26 , dass wir 26


Medizin-Studenten haben.
Lösen

Randverteilungen
Vorlesen

Die Randverteilung für die Religionszugehörigkeit X lauten:

Religion X relative
Häufigkeit

katholisch 0,46 =  h1.

evangelisc 0,38 = h2.


h
muslimisch 0,16 =  h3.

Die Randverteilungen für das Studienfach Y lauten:

Studienfächer relative Häufigkeit


Y

BWL 0,25 =  h.1

Jura 0,21 =  h.2


Medizin 0,26 =  h.3
Anglistik 0,28 =  h.4

Für Randverteilungen allgemein lässt sich Folgendes festhalten:

MERKE

Merke: Randverteilungen sind also immer eindimensionale Verteilungen. Alle Maßzahlen, die wir bis
jetzt kennen gelernt haben (Mittelwerte, Streuungsmaße etc.), sind also hierauf anwendbar.
 1LückentextNr. 7
 2LückentextNr. 8
 3MC-Aufgabe Nr. 3
 4MC-Aufgabe Nr. 4

Lückentext Nr. 7

Aufgabe 1 von 4

Bitte die Lücken im Text sinnvoll ausfüllen.

Randverteilungen sind immer   Verteilungen.

Lösen

Bedingte Verteilungen
Vorlesen

Wir betrachten nun Ereignisse, die unter der Maßgabe (= Voraussetzung) auftreten, dass ein anderes
Ereignis bereits eingetreten sei. So kann man sich z.B. für die Frage interessieren, wieviele Studenten
Anglistik studieren, wenn sie katholisch sind. Allgemein lauten die relativen Häufigkeiten für solche
bedingten Ereignisse in Zeichen:

 h(ai∣bj)=hijh.j

Bedingte Verteilungen berechnen


Die bedingte relative Häufigkeit, dass ein Student Anglistik studiert, wenn er katholisch ist, lautet
nicht 0,18 (denn dies wäre die relative Häufigkeit dafür, dass er Anglistik-Student ist und er
katholisch ist), sondern vielmehr:

 h(b4∣a1)=h14h1.=0,180,46=0,39.

Nicht zu verwechseln ist dies mit der umgekehrten Fragestellung: Wie groß ist die relative Häufigkeit
des Ereignisses, dass ein Student katholisch ist, wenn er Anglistik studiert (für das bessere
Verständnis schreiben wir dies ausführlich und nicht lediglich mit Symbolen auf):
 h(X=katholisch|Y=Anglistik)
 =f(X=katholischundY=Anglistik)f(Y=Anglistik)

in Zeichen
 h(a1∣b4)=h14h.4=0,180,28=0,64

Insgesamt lautet also die bedingte Verteilung für die katholischen Studenten:

 rel. Häufigkeit ( Y = BWL | X = katholisch),


o in Zeichen  h(b1∣a1)=h11h1.=0,10,46=0,217
 rel. Häufigkeit ( Y = Jura | X = katholisch),
o also  h(b2∣a1)=h12h1.=0,120,46=0,261
 rel. Häufigkeit ( X = Medizin | Y = katholisch) =  0,13,
 rel. Häufigkeit ( X = Anglistik | Y = katholisch) =  0,391.

Wenn man nun die Zahlen in eine einzige Tabelle einträgt, erhält man die bedingte Verteilung für die
katholischen Studenten, d.h. wenn x = katholisch gesetzt wird:

Y|(X = rel. Häufigkeit


katholisch)

BWL 0,217

Jura 0,261

Medizin 0,13

Anglistik 0,391

Die bedingte Verteilung der Studienrichtungen für evangelische Studenten lautet

Y|(X = rel. Häufigkeit


evangelisch)

BWL 0,211

Jura 0,079
Medizin 0,474

Anglistik 0,237

Jene für muslimische hingegen

Y|(x = rel. Häufigkeit


muslimisch)

BWL 0,4375

Jura 0,375

Medizin 0,125

Anglistik 0,0625

Die bedingte Verteilung der Studienrichtung unter den Voraussetzungen der gegebenen Religion ist
in der folgenden Tabelle zusammen gefasst:

BWL Jura Medizi Anglistik  


n

katholisch 0,217 0,261 0,13 0,391 1


evangelisc 0,211 0,079 0,474 0,237 1
h
muslimisch 0,4375 0,375 0,125 0,0625 1

Kennzahlen bei bedingten Verteilungen


Es lassen sich nun außerdem für bedingte Verteilungen gewisse Kennzahlen berechnen, nämlich

 bedingte Lagemaße,
 bedingte Streuungsmaße,
 bedingte Formmaße.
Die Ermittlung erfolgt hierbei absolut analog zu den unbedingten Maßen. Der bedingte Modus der
katholischen Studenten ist das Anglistik Studium, weil die bedingte relative Häufigkeit mit 0,391 in
der Zeile für „katholisch“ am größten ist. Genauso ist der bedingte Modus der evangelischen
Studenten das Fach Medizin, bei den Moslems hingegen die BWL.

 1Lückentext Nr. 9
 2Lückentext Nr. 10
 3MC-Aufgabe Nr. 5
 4Lückentext Nr. 11

Lückentext Nr. 9

Aufgabe 1 von 4

Bitte die Lücken im Text sinnvoll ausfüllen.

Bei bedingten Verteilungen gibt das   stehende Ereignis die Hypothese (=


Voraussetzung) an.

Lösen

Unabhängigkeit
Vorlesen

Es stellt sich alsdann die Frage, ob die Studienrichtung mit der Religion zusammenhängt, ob z.B.
muslimische Studenten bevorzugt Medizin oder ein anderes Fach studieren etc. Diese Frage wird
beantwortet durch die Analyse der Abhängigkeit zweier Verteilungen.
Zwei Verteilungen X und Y heißen statistisch unabhängig (= empirisch unabhängig), wenn gilt

relative Häufigkeit (X = x und Y = y) = rel. Häufigkeit (X = x) ∙ rel. Häufigkeit (Y = y)

und zwar für alle x und y.

In Zeichen wenn gilt:

 für die relativen Häufigkeiten


o  hij=hi.⋅h.j, für  i=1,…,k und  j=1,…,l
 für die absoluten Häufigkeiten
o  Hij=Hi.⋅H.jn, für  i=1,…,k und  j=1,…,l

Konkret heißt dies, dass die Gleichheit für alle Werte erfüllt sein muss, die von den Verteilungen X
und Y angenommen werden können.

EXPERTENTIPP

Statistische Unabhängigkeit:
Wenn eine zweidimensionale Tabelle bereits bekannt ist, heißt dies konkret, dass

 das Produkt der relativen Randhäufigkeiten gleich dem Eintrag in der Zelle sein muss, und
zwar für alle Zellen (Tabelle mit relativen Häufigkeiten), beziehungsweise, dass
 das Produkt der absoluten Randhäufigkeiten geteilt durch Beobachtungsumfang n gleich
dem Eintrag in der Zelle sein muss (Tabelle mit absoluten Häufigkeiten). Dies muss für alle
Zellen gelten.

Statistische Unabhängigkeit berechnen


Bezogen auf das vorherige Beispiel also müsste bei Unabhängigkeit (!) die relative Häufigkeit wie
folgt lauten:

BWL Jura Medizi Anglistik  


n

katholisch 0,115 0,0966 0,1196 0,1288 0,46


evangelisch 0,095 0,0798 0,0988 0,1064 0,38
muslimisch 0,04 0,0336 0,0416 0,0448 0,16
 ∑ 0,25 0,21 0,26 0,28 1

So müsste z.B. bei Unabhängigkeit die relative Häufigkeit, Jura zu studieren und evangelisch zu sein,
0,21∙0,38 = 0,0798 lauten (siehe Tabelle oben). Allerdings gilt für die relative Häufigkeit vielmehr 0,03
(wie in der Tabelle im Kapitel "Gemeinsame Verteilungen" berechnet wurde). Da also bereits für eine
Zelle die Ungleichheit gilt, sind die beiden Verteilungen X und Y nicht unabhängig, sondern
abhängig.

MERKE
Merke: Bei Unabhängigkeit der Merkmale ist die gesamte Information über die gemeinsame
Verteilung bereits in den Randverteilungen enthalten.

 1Lückentext Nr. 12
 2Lückentext Nr. 13
 3Lückentext Nr. 14
 4MC-Aufgabe Nr. 6
 5MC-Aufgabe Nr. 7

Lückentext Nr. 12

Aufgabe 1 von 5

Bitte die Lücken im Text sinnvoll ausfüllen.

Bei Kontingenztabellen mit absoluten Häufigkeiten prüft man, ob Unabhängigkeit

vorliegt, indem die Randhäufigkeiten miteinander  werden und man


alsdann das Produkt durch die Gesamthäufigkeit dividiert. Das Ergebnis muss der
beobachteten Häufigkeit entsprechen.

Lösen

Beispiel mehrdimensionale Verteilung


Vorlesen

Zur Erinnerung, hier noch einmal das Beispiel 49:


Eine Befragung unter 100 Studenten bzgl. der Religionszugehörigkeit und der Studienrichtung ergibt
folgendes Ergebnis:

BWL Jura Medizin Anglistik

katholisch 10 12 6 18

evangelisch 8 3 18 9

muslimisch 7 6 2 1
Stelle die Häufigkeitsverteilung dar. Gehe dabei ein auf die Begriffe

 gemeinsame Verteilung,
 Randverteilung,
 bedingte Verteilung,
 Unabhängigkeit.

Bei ein- und demselben Studenten wird also das Merkmal Studienrichtung X und
Religionszugehörigkeit Y gemessen. Das folgende Video zeigt die Lösung.
Play Video

 Zusammenhangsmaße
 Zusammenhangsmaße auf Nominal- und
Ordinalskala
Korrelationsanalyse
Vorlesen

Im vorliegenden Kapitel wird die Abhängigkeit zweier Merkmale untersucht. Die Vorgehensweise


nennt man auch Korrelationsrechung (= Korrelationsanalyse). Das Skalenniveau ist hierbei äußerst
wichtig, wir unterscheiden im Folgenden:

 Kontingenzmaße für nominalskalierte Merkmale


o φ- Koeffizient
o Kontingenzkoeffizient nach Pearson
o korrigierter Koeffizient nach Pearson
o Kontingenzkoeffizient nach Cramér
 Rangkorrelationsmaße für ordinalskalierte Daten
o Rangkorrelationskoeffizient nach Spearman
 Korrelationskoeffizienten für metrische Skalen
o Korrelationskoeffizient von Fechner
o Korrelationskoeffizient von Bravais und Pearson.

Interpretation des Zusammenhanges


Grundsätzlich gilt, dass man zwei Dinge unterscheiden möchte, nämlich:

 die Richtung und


 die Stärke

des linearen Zusammenhanges zwischen zwei Merkmalen (was allerdings erst ab den Ordinalskalen
möglich ist).

Beispiele zur Richtung des Zusammenhanges

Mit der „Richtung” des Zusammenhanges soll ausgedrückt werden, ob sich die beiden Merkmale

 gleichgerichtet (positiver Korrelationskoeffizient) oder


 entgegengerichtet (negativer Korrelationskoeffizient) bewegen.

 Beispiel

 Beispiel

Beispiel 50 - Negativer Korrelationskoeffizient:


Wenn z.B. der Preis eines Gutes steigt, bewegt sich i.A. (wenn man von preisunabhängigen- und
Giffen-Gütern absieht) die nachgefragte Menge nach unten. Es liegt also ein entgegen gerichteter
Zusammenhang vor, der Korrelationskoeffizient wäre negativ.

Beispiele zur Stärke des Zusammenhanges

Bei der Stärke des Zusammenhanges ist die Fragestellung eine andere, nämlich ob die Veränderung
des einen Merkmals eine deutliche Veränderung des anderen Merkmals bewirkt (bei
einem starken Zusammenhang) oder nicht (bei einem schwachen Zusammenhang).

„Stark” bedeutet bei dem Korrelationskoeffizienten nach Spearman und Bravais-Pearson, dass die
Werte nah bei + 1 oder -1 liegen, „schwach” hingegen ist der lineare Zusammenhang, wenn der
jeweilige Korrelationskoeffizient nahe bei 0 liegt (auch zwischen -0,5 und +0,5 gilt der
Zusammenhang noch als sehr schwach).
Zu beachten ist außerdem, dass wir hier nur einen statistischen, d.h. formalen Zusammenhang
beschreiben bzw. erkennen können. Ob dieser auch kausal richtig ist, kann oft der Statistiker nicht
sagen, sondern muss vom jeweiligen Fachmann (Mediziner, Ökonomen, Psychologen, etc.)
untersucht werden.
BEISPIEL

Beispiel 52 - Statistischer Zusammenhang:


Eine altbekannte Frage: Fördert rauchen den Lungenkrebs? Der Statistiker kann (formal)
untersuchen, ob die relative Häufigkeit, an Lungenkrebs zu erkranken, bei Rauchern höher ist als bei
Nichtrauchern. Wenn die Antwort „Ja” lauten sollte, dann heißt dies noch lange nicht, dass der
kausale Zusammenhang damit geklärt ist. Vielmehr müssen Mediziner diese Frage entscheiden. Es
könnte nämlich z.B. sein, dass die Raucher eher durch andere Umwelteinflüsse an Lungenkrebs
erkranken und deswegen die statistische Untersuchung verfälscht war.

Zwei weitere Probleme gibt es in diesem Zusammenhang, die eine Korrelation vortäuschen, obwohl
sie aus anderen Gründen oder obwohl sie gar nicht besteht:

 Scheinkorrelation,
 Nonsenskorrelation.

Bei der Scheinkorrelation besteht ein Zusammenhang zwischen zwei Merkmalen nur deswegen, weil
eine dritte Größe dahinter steht und beide beeinflusst.

 Beispiel

 Beispiel
 Beispiel

Beispiel 53 - Scheinkorrelation:
Student Max erzielt in VWL eine 1,3 und in Recht eine 2,0.
Es existiert ein Zusammenhang zwischen den beiden guten Ergebnissen nur insofern, als dass eine
dritte Größe, nämlich der Lernaufwand, dahinter steht.

Eine Aussage, die natürlich völlig falsch ist, schon der Aufwand, zu diesem Zweck die Daten zu
erheben und einen Zusammenhang zu ermitteln war völlig sinn- und zwecklos. Bevor etwas
miteinander korreliert wird, sollte überprüft werden, ob ein kausaler Zusammenhang überhaupt
bestehen kann.

 1Lückentext Nr. 1
 2Lückentext Nr. 2
 3Lückentext Nr. 3
 4Lückentext Nr. 4
 5Lückentext Nr. 5
 6Paarbildung

Lückentext Nr. 1

Aufgabe 1 von 6

Bitte die Lücken im Text sinnvoll ausfüllen.

Mit der Richtung des Zusammenhanges soll ausgedrückt werden, ob sich

Merkmale  (positiver Korrelationskoeffizient) oder entgegengerichtet


(negativer Korrelationskoeffizient) bewegen.

Lösen

Zusammenhangsmaße auf der Nominalskala


Vorlesen

Im o.e. Beispiel 49 der Religionszugehörigkeit und dem Studienfach könnte man sich die Frage
stellen, den Zusammenhang zu quantifizieren, d.h. die Stärke der Zugehörigkeit durch eine Zahl
auszudrücken. Beide Merkmale sind nominalskaliert, da lediglich Unterschiede, nicht hingegen
eine Reihenfolge feststellbar ist. Relevant ist also nicht der Bravais-Pearsonsche
Korrelationskoeffizient (dieser erst bei den metrischen Skalen) oder der Spearmansche
Rangkorrelationskoeffizient (dieser erst ab ordinalskalierten Daten).

Achtung: Wir rechnen im folgenden mit den absoluten Häufigkeiten  Hij, nicht mit den
relativen  hij!
Man berechnet zunächst die erwarteten Häufigkeiten  Heij, (oder, in Langform
geschrieben,  He(xi,yj) die sich bei Unabhängigkeit ergeben („e” steht für „expected” = erwartet).
Hierzu

 addiert man zeilen- bzw. spaltenweise die Zahlen der Tabelle,


 multipliziert die sich ergebenden Randhäufigkeiten und
 dividiert durch den Stichprobenumfang n.

Man erhält für das Beispiel somit


BWL Jura Medizi Anglistik  
n

katholisch 11,5 9,66 11,96 12,88 46


evangelisc 9,5 7,98 9,88 10,64 38
h
muslimisch 4 3,36 4,16 4,48 16
 ∑ 25 21 26 28 100

Wenn also das Studienfach und die Zugehörigkeit zu einer Glaubensrichtung unabhängig
voneinander wären, dann gäbe es z.B.  He31=4muslimische BWLer
bzw.  He23=9,88evangelische Mediziner bzw.  He12=9,66 katholische Juristen etc. Die
beobachteten absoluten Häufigkeiten  H0ij=Hij und die erwarteten Häufigkeiten  Heij werden
dann zu einer Kennzahl  χ2(sprich: Chi-Quadrat) zusammengefasst.

Chi-Quadrat berechnen

 χ2=∑i=1k∑j=1l(H0(xi,yj)

−He(xi,yj))2He(xi,yj)=∑i=1k∑j=1l(H0ij−Heij)2Heij

 xi steht für den Eintrag der i. Zeile,  yj entsprechend für jenen der j. Spalte. So
ist  ho(x2,y3)=18,ho(x3,y4)=1(s. Zahlen dieses Beispiels aus vorherigen
Kapiteln),  he(x2,y1)=9,5 usw. Das  Ho steht für beobachtete Häufigkeit (o wie
observed), He steht, wie oben bereits erwähnt, für die erwartete Häufigkeit (e wie expected). Die
Doppelsumme heißt lediglich, dass über alle Felder aufsummiert wird, nämlich über alle Zeilen
(erstes Summenzeichen) und alle Spalten (zweites Summenzeichen). Konkret stellt man am besten
beobachtete (linke Zahl) und erwartete Häufigkeiten (rechte Zahl) zunächst zusammen dar und
errechnet dann die Größe  χ2:

BWL Jura Medizin Anglisti


k

katholisch 10 11,5 12 9,6 6 11,96 18 12,88


6

evangelisc 8 9,5 3 7,9 18 9,88 9 10,64


h 8

muslimisch 7 4 6 3,3 2 4,16 1 4,48


6

Damit ist

 χ2=(10−11,5)211,5+(12−9,66)29,66+...+(1−4,48)24,48
 =0,1957+0,5668+...+2,7032=24,1878

Es ist klar, dass  χ2=0 ist, wenn die beiden betrachteten Merkmale unabhängig sind, denn dann
sind bereits die Zahlen innerhalb jeder Zelle gleich. Problematisch sind an der Kenngröße zwei
Dinge:

 die Zahl  χ2 ist nicht normiert, es gilt also nicht die wünschenswerte Eigenschaft  χ2≤1


 die Zahl  χ2 ist abhängig vom Stichprobenumfang n, d.h. bei anderem n, z.B. n = 200, aber
gleichen relativen Häufigkeiten verändert sich  χ2, was für ein Zusammenhangsmaß wenig
sinnvoll ist.

Messen des Zusammenhangs zweier nominalskalierter


Merkmale
Man nimmt deshalb die Zahl  χ2 nicht als Maßzahl für den linearen Zusammenhang zwischen zwei
nominalskalierten Merkmalen. Als Maßzahlen für den Zusammenhang zweier nominalskalierter
Merkmale bieten sich vielmehr an:

 der Phi-Koeffizient φ,
 der Kontingenzkoeffizient nach Pearson  CP
 der korrigierte Kontingenzkoeffizient  Ckorr
 der Kontingenzkoeffizient nach Cramér  CC

Zur Berechnung der einzelnen Maßzahlen: Der Phi-Koeffizient ist definiert als

 Φ=χ2n−−−√
und ist hier also  Φ=24,1878100−−−−−√=0,4918

 CP, der sogenannte Kontingenzkoeffizienten nach Pearson, ist

 CP=χ2χ2+n−−−−−−√

Im vorliegenden Beispiel 49 gilt  CP=χ2χ2+n−−−−√=24,187824,1878+100−−−−−−−

−√=0,4413.
Die Zahl  CP nimmt nicht den Wert 1 an und ist damit nicht voll als Zusammenhangsmaß geeignet.

Dieser Schönheitsfehler wird geheilt durch

 Ckorr=CPC∗C∗−1−−−−−−√=χ2χ2+n⋅C∗(C∗−1−−−−−−−−−−−−−

−√

korrigierter Kontingenzkoeffizient.

Hierbei ist  C∗ das Minimum aus der Anzahl der Zeilen k und der Anzahl der Spalten l, also  C∗ =
min {k; l}. Im o.e. Beispiel ist C = min {3; 4} = 3, also

 Ckorr=24,187824,1878+100⋅33−1−−−−−−−−−−−−√=0,5405
Der korrigierte Kontingenzkoeffizient  Ckorr ist normiert, liegt also zwischen 0 und 1: 0≤Ckorr≤1
Wenn  Ckorr=1 ist, dann kann von einem Merkmal sicher auf die Ausprägung des anderen
Merkmals geschlossen werden (jedenfalls in eine Richtung).
Wenn  Ckorr=0 ist, dann ergibt sich die relative Häufigkeit der gemeinsamen Verteilung als
Produkt der relativen Randhäufigkeiten.

Darüber hinaus existiert

 CC=χ2n⋅[min(m,l)−1]−−−−−−−−−−√  Kontingenzkoeffizient nach Cramér.

Auch hier gilt  0≤CC≤1, der Cramérsche Koeffizient ist also normiert. Für das o.e. Beispiel 49 ist
damit

 CC=24,1878100⋅[min(4;3)−1]−−−−−−−−−−−√=24,1878200−−−−−√=0,3478
 1Lückentext Nr. 6
 2MC-Aufgabe Nr. 1

Lückentext Nr. 6

Aufgabe 1 von 2

Bitte die Lücken im Text sinnvoll ausfüllen.

Der Chi-Quadratwert als Zusammenhangsmaß auf der Nominalskala hat den Nachteil,

dass er nicht  ist.

Lösen

Zusammenhangsmaße auf der Ordinalskala


Vorlesen

Für ordinal skalierte Merkmale liegt nicht lediglich die Unterscheidbarkeit vor, sondern zusätzlich
eine Reihenfolge, man kann daher Ränge bilden. Der Korrelationskoeffizient für
die Ordinalskala heißt Spearmanscher Rangkorrelationskoeffizient. Er sei an einem Beispiel
vorgeführt.

BEISPIEL

Beispiel:
Zehn Studenten der Uni Bonn erzielen folgende Ergebnisse in ihrer Statistik- und in ihrer VWL-
Klausur:

Studen Statistik-Note VWL-Note


t

1 sehr gut befriedigend

2 gut ausreichend
3 befriedigend gut

4 mangelhaft ausreichend

5 mangelhaft befriedigend

6 ausreichend ausreichend

7 mangelhaft ausreichend

8 gut gut

9 gut mangelhaft

10 befriedigend befriedigend

Gib in einer einzigen Kennzahl an, wie stark die Noten zusammenhängen.

Rangkorrelationskoeffizienten nach Spearman berechnen


Um den Zusammenhang zu quantifizieren, hier ein "Kochrezept", das streng genommen nur für den
Fall ohne Bindungen gilt. Da viele Autoren diesen trotzdem auch für den Fall mit Bindungen
rechnen, sei er trotzdem insbesondere auch für diesen Fall erwähnt (nämlich in Schritt 2 des
folgenden Schema).

EXPERTENTIPP

Spearmanscher Rangkorrelationskoeffizienten - Schema:

1. Urliste der Ausprägungen der beiden Merkmale erstellen


2. Ränge  xi,yi bilden; bei doppelt, dreifach usw. vorkommenden Rängen (= Bindungen)
vergibt man einheitlich das arithmetische Mittel der entsprechenden Rangzahlen
3. Rangdifferenzen  di=xi–yi errechnen
4. Rangdifferenzen quadrieren, d.h.  d2i errechnen
5. in die Formel für den Spearmanschen Rangkorrelationskoeffizienten

 rs=1−6∑nI=1d2i(n−1)⋅n⋅(n+1)

einsetzen.

Der Rangkorrelationskoeffizient nach Spearman besitzt folgende Eigenschaften:

 er liegt zwischen – 1 und +1:  −1≤rs≤1


 er ist der Bravais-Pearsonsche Korrelationskoeffizient der Rangzahlen.

Spearmanscher Rangkorrelationskoeffizient Beispiel


Das o.e. Kochrezept sei am Beispiel 56 vorgeführt:

 Die Urliste steht meistens, so auch hier, in der Aufgabenstellung.


 Die Ränge schreibt man in eine erweiterte Tabelle:

Studen Statistik-Note Rang   VWL-Note Rang  y


t xi i

1 sehr gut 1 befriedigen 4


d
2 gut 3 ausreichend 7,5
3 befriedigend 5,5 gut 1,5
4 mangelhaft 9 ausreichend 7,5
5 mangelhaft 9 befriedigen 4
d
6 ausreichend 7 ausreichend 7,5
7 mangelhaft 9 ausreichend 7,5
8 gut 3 gut 1,5
9 gut 3 mangelhaft 10
10 befriedigend 5,5 befriedigen 4
d
Die Note „gut” taucht bei den Statistik-Ergebnissen dreimal auf, und zwar bei den Rängen 2,3 und 4,
die eigentlich zu vergeben wären. Da die Studenten 2, 8 und 9, die alle die Note „gut” haben, deshalb
bzgl. der Note nicht unterscheidbar sind, erhalten sie alle den Rang  2+3+43=3, also das
arithmetische Mittel der drei in Frage kommenden Ränge. Genauso die Studenten 3 und 10, die
beide den Rang  5+62=5,5 erhalten, da sie auf den Plätzen 5 und 6 liegen, usw.
Nun zu den Rangdifferenzen, zu ihren Quadraten und der Summe der Quadrate, also zu den Schritt
3 und 4:

Schritt 2 Schritt 3 Schritt 4

Studen  xi  yi  di(=xi−  d2i


t yi)

1 1 4 -3 9
2 3 7,5 -4,5 20,25
3 5,5 1,5 4 16
4 9 7,5 1,5 2,25
5 9 4 5 25
6 7 7,5 -0,5 0,25
7 9 7,5 1,5 2,25
8 3 1,5 1,5 2,25
9 3 10 -7 49
10 5,5 4 1,5 2,25
Schritt 5:  ∑=128,
5
Schritt 5, also das Einsetzen in die Formel, liefert einen Korrelationskoeffizienten nach Spearman
von

 rs=1−6∑nI=1d2i(n−1)⋅n⋅(n+1)=1−6⋅128,510⋅9⋅11=0,221

Die Kennzahl deutet also auf einen recht geringen Zusammenhang hin.
Merke:

 Im Beispiel sind so genannte Bindungen aufgetreten. Man spricht von einer Bindung, wenn


innerhalb eines Merkmals mehrere Merkmalsträger denselben Rang erhalten – im Beispiel 56
hätten die Studenten 3 und 10 bei der Statistik-Note den Rang 4 und 5 erhalten. Da sie sich
nicht unterschieden, erhielten sie beide den Rang  4+52=4,5. Die o.e. Formel für den
Spearmanschen Rangkorrelationskoeffizienten ist allerdings nur korrekt im Fall ohne
Bindungen. Sollten Bindungen existieren (so wie im Beispiel), sollte man besser den Bravais-
Pearsonschen Korrelationskoeffizienten mit den Rängen rechnen. Im Beispiel 56 erhält man als
Bravais-Pearsonschen Korrelationskoeffizienten  rBP=0,16016 – der Unterschied ist also
recht gering.
 Der Rangkorrelationskoeffizient nach Spearman misst lediglich monotone Zusammenhänge.
Es muss also ein durchgehend positiver oder ein durchgehend negativer Zusammenhang
vorliegen, damit dieser von  rS erkannt wird.

Video zum spearmanschen Rangkorrelationskoeffizient


Play Video

VERTIEFUNG

Hier klicken zum Ausklappen


Hinweis:Das Ergebnis lautet 0,35 und nicht -0,35!

 1Lückentext Nr. 7
 2Lückentext Nr. 8
 3Lückentext Nr. 9
 4MC-Aufgabe Nr. 2
 5Spearmanscher Rangkorrelationskoeffizient

Lückentext Nr. 7

Aufgabe 1 von 5

Bitte die Lücken im Text sinnvoll ausfüllen.

Um den Spearmanschen Rangkorrelationskoeffizienten berechnen zu können, muss

man für den Zähler die quadrierten  aufaddieren.

Lösen
 Zusammenhangsmaße auf metrischen
Skalen
Übersicht Zusammenhangsmaße auf metrischen
Skalen
Vorlesen

Erst ab den Kardinalskalen sind alle Rechenoperationen erlaubt. Man nimmt für den linearen
Zusammenhang zweier metrisch skalierter Merkmale

 den Bravais-Pearsonschen Korrelationskoeffizienten  rBP


 oder den Korrelationskoeffizienten nach Fechner  rF

Folgendes Lernvideo zeigt, nochmals in der Übersicht die Zusammenhangsmaße auf den
unterschiedlichen Skalenniveaus und erklärt im Besonderen die Zusammenhangsmaße auf den
metrischen Skalen.

Lernvideo - Zusammenhangsmaße
Play Video

Bravais-Pearsonscher Korrelationskoeffizient
Vorlesen

An einem Beispiel wird der Bravais-Pearsonsche Korrelationskoeffizient erklärt.

BEISPIEL

Beispiel 57:
Es seien folgende Werte zweier Variablen X und Y gegeben:

Y X

2 4
3 1

4 0

3 3

Berechne den Bravais-Pearsonschen Korrelationskoeffizienten.

Berechnung Korrelationskoeffizient nach Bravais-Pearson

EXPERTENTIPP

Bravais-Pearsonscher Korrelationskoeffizient - Schema:

1. Urliste von X und Y bestimmen.


2. Arithmetische Mittel  x¯=1n∑ni=1xi und  y¯=1n∑ni=1yi ausrechnen.
3. Differenz der Werte vom jeweiligen arithmetischen Mittel bilden, d.h. und ausrechnen.
4. Differenzen quadrieren, also  (xi−x¯)2 und  (yi−y¯)2berechnen.
5. Produkt der Abweichungen ermitteln, also  (xi−x¯)(yi−y¯) .
6. Summe der Zahlen aus Schritt 4 und 5 ermitteln, nämlich

 ∑i=1n(xi−x¯)2

 ∑i=1n(yi−y¯)2

und

 ∑i=1n(xi−x¯)(yi−y¯)

7. Einsetzen in die Formel

 rBP=∑ni=1(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2⋅∑ni=1(yi−y¯)2−−−−−−
−−−−−−−−−−−−−−−−−−−−√
Für das o.e. Beispiel 57 rechnet man die einzelnen Schritte einfach in einer Arbeitstabelle durch.

Schritt 1 Schritt 3 Schritt 4 Schritt 5

i  yi  xi  yi−y  xi−x¯  (yi−y¯  (xi−x¯  (xi–x¯)


¯ )2 )2 (yi−y¯)
1 2 4 -1 2 1 4 -2
2 3 1 0 -1 0 1 0
3 4 0 1 -2 1 4 -2
4 3 3 0 1 0 1 0
Schritt 6  ∑= 2 ∑ = 10  ∑ = -4
Es ist  x¯=4+1+0+34=84=2 und  y¯=2+3+4+34=124=3. Der Korrelationskoeffizient nach
Bravais-Pearson lautet demnach

 rBP=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2⋅∑ni=1(yi−y¯)2−−−−−−−−−−
−−−−−−−−−−−−−−√=−410⋅2−−−−√=−0,8944

Da  rBP zwischen –1 und + 1 liegt, liegt mit – 0,8944 ein recht starker Zusammenhang vor.

MERKE

Merke:
Der Korrelationskoeffizient nach Bravais-Pearson misst nur lineare Zusammenhänge zwischen zwei
Größen. Wenn also rBP nahe bei 0 liegt, so heißt dies lediglich, dass kaum ein linearer
Zusammenhang vorliegt. Es könnte aber sehr wohl ein nichtlinearer existieren, so z.B. ein
exponentieller Zusammenhang. Dies heißt, dass aus der Unkorreliertheit nicht die Unabhängigkeit
folgt!

Darstellung im Streuungsdiagramm
Die Extremfälle für  rBP lassen sich am Streuungsdiagramm darstellen.
 rBP = 1 heißt, dass die Punkte des Streudiagramms exakt auf einer positiv geneigten Geraden
liegen,
Exakt positiv korreliert

 rBP = -1 liegen die Punkte exakt auf einer negativ geneigten Geraden.

Exakt negativ korreliert

Wenn  rBP nahe bei +1 liegt, dann ist der Grund hierfür, dass die einzelnen Punkte fast auf einer –
positiv geneigten – Geraden liegen,
Hoch positiv korreliert

 rBP nahe bei – 1 bedeutet, dass die Punkte fast auf einer – negativ geneigten – Geraden liegen

Stark negativ korreliert

Video zum Korrelationskoeffizient nach Bravais-Pearson


Schauen wir uns nun das Thema in einem Lernvideo an:
Play Video

 1Lückentext Nr. 1
 2Lückentext Nr. 2
 3Lückentext Nr. 3
 4Lückentext Nr. 4
 5MC-Aufgabe Nr. 1
 6MC-Aufgabe Nr. 2
 7Bravais-Pearsonscher Korrelationskoeffizient

Lückentext Nr. 1

Aufgabe 1 von 7

Bitte die Lücken im Text sinnvoll ausfüllen.

Der Zähler des Bravais-Pearsonschen Korrelationskoeffizienten enthält

die  zwischen zwei Merkmalen.

Lösen

Korrelationskoeffizient von Fechner


Vorlesen

Der Korrelationskoeffizient von Fechner benötigt Kardinalskalenniveau für beide Merkmale. Er


wird folgendermaßen berechnet:

Berechnung Korrelationskoeffizient von Fechner

EXPERTENTIPP

Korrelationskoeffizient von Fechner - Schema:

1. Trage die Punktwolke  (xi,yi) in ein Koordinatensystem ab.


2. Berechne die arithmetischen Mittel  (x¯,y¯).
3. „Berechne” das Vorzeichen der Abweichungen  xi−x¯ und  yi−y¯ .
4. Die Vorzeichen der Abweichungen stimmen in zwei der vier Quadranten überein. Die
Anzahl der Punkte in diesen beiden Quadranten bezeichnen wir mit ü. Sollte einer der
Werte  xi−x¯ oder  yi−y¯ gleich Null sein, so wird dies als Übereinstimmung gezählt.
5. Berechne den Korrelationskoeffizienten nach Fechner als

 rF=ü−(n−ü)ü+(n−ü)=2ü−nn

Wir rechnen das Kochrezept an einem Beispiel nach:


BEISPIEL

Beispiel 58:
Die Punkte seien:

i  xi  yi

1 3 5
2 4 1
3 7 3
4 8 2
5 8 9
Die Tabelle liefert folgendes Diagramm:
Einteilung für Korrelationskoeffizienten nach Fechner

Die arithmetischen Mittel sind  x¯=6 und  y¯=4, die Tabelle kann dann erweitert werden zu:

i    y  Xi− Vorzeichen  Yi−y Vorzeichen Übereinstimmung


xi i x¯ ¯

1 3 5 -3 - 1 + nein
2 4 1 -2 - -3 - ja
3 7 3 1 + -1 - nein
4 8 2 2 + -2 - nein
5 8 9 2 + 5 + ja
Die Anzahl der „Ja-Antworten”, also der übereinstimmenden Vorzeichen der Abweichungen, ist ü = 2.
Also lautet der Korrelationskoeffizient

 rF=ü−(n−ü)ü+(n−ü)=2−(5−2)2+(5−2)=2−32+3=−15=−0,2

Der Korrelationskoeffizient von Fechner ist nicht sehr bedeutungsvoll, da zwar die Vorzeichen der
Abweichungen in die Formel eingehen, nicht jedoch die Abweichungen selbst.

MERKE

Merke: Für die Wahl des richtigen Korrelationskoeffizienten ist die Skalierung maßgeblich.

Skalenniveau und Korrelationskoeffizient


Abschließend werden jene Korrelationskoeffizienten, die ab der angegeben Skala verwendbar sind
zusammengefasst:

Skala Korrelationskoeffizient

Nominalskala (korrigierter) Kontingenzkoeffizient nach Pearson  CP,Ckorr


Kontingenzkoeffizient nach Cramér  CC
Ordinalskala Spearmanscher Rangkorrelationskoeffizient  rS
metrische Bravais-Pearsonscher Korrelationskoeffizient  rBP, Korrelationskoeffizient
Skalen nach Fechner  rF

Wenn zwei Merkmale verglichen werden sollen, die unterschiedlich skaliert sind, so nimmt man
stets den Korrelationskoeffizienten, der zu der schwächeren Skalierung passt. Wenn also ein
(behaupteter) Zusammenhang zwischen Haarfarbe (nominalskaliert) und IQ (ordinalskaliert)
gemessen werden soll, so nimmt man einen Koeffizienten für die Nominalskala.
 1Lückentext Nr. 5
 2MC-Aufgabe Nr. 3
 3Korrelationskoeffizient von Fechner
 4Zusammenhangsmaße

Lückentext Nr. 5

Aufgabe 1 von 4

Bitte die Lücken im Text sinnvoll ausfüllen.

Man möchte schauen, ob ein Zusammenhang zwischen der Statistiknote und der
Körpergröße von Studenten an der Universität X in der Stadt Y besteht. Hierfür würde

man das Zusammenhangsmaß nach  berechnen.

Lösen

 Zeitreihenanalyse
 Einleitung
Längsschnittdaten und Querschnittdaten
Vorlesen

Für das nächste Kapitel, der Zeitreihenanalyse, muss zunächst zwischen

 Längsschnittdaten und
 Querschnittdaten

unterschieden werden.

Aufgabe der Zeitreihenanalyse ist es, Längsschnittdaten zu erfassen. Hierunter versteht man die
Beobachtungswerte einer statistischen Einheit zu unterschiedlichen Zeitpunkten.
Eine Querschnittanalyse untersucht hingegen an einem bestimmten, gegebenen Zeitpunkt oder in
einem gegebenen Zeitintervall die statistischen Einheiten einer gegebenen statistischen Masse.

 1Lückentext Nr. 1
 2Lückentext Nr. 2
 3Lückentext Nr. 3

Lückentext Nr. 1

Aufgabe 1 von 3

Bitte die Lücken im Text sinnvoll ausfüllen.

Unter Längsschnittdaten versteht man die Beobachtungswerte einer statistischen

Einheit zu unterschiedlichen  .

Lösen

 Zeitreihenverfahren
Verfahren der Zeitreihenanalyse
Vorlesen

Zum Verständnis der Zeitreihenanalyse ist es wichtig, einige Verfahren gut zu kennen:

 Methode der gleitenden Durchschnitte,


 Exponentielle Glättung,
 Methode der Kleinsten Quadrate (= KQ-Schätzung),
 Methode der Reihenhälften.

Die Methode der gleitenden Durchschnitte stellen wir im folgenden vor, gerade weil ohne ihre Hilfe
die Zeitreihenanalyse - insbesondere die Zerlegung in einzelne Komponenten - nicht möglich wäre.
Es folgen einige Darstellungen zur exponentiellen Glättung, zur Methode der Kleinsten Quadrate
und zur Methode der Reihenhälften.
Schließlich benutzen wir die einzelnen Verfahren für die Zerlegung von Zeitreihen in einzelne
Komponenten.

 1Lückentext Nr. 1
 2Lückentext Nr. 2

Lückentext Nr. 1
Aufgabe 1 von 2

Bitte die Lücken im Text sinnvoll ausfüllen.

Ein Verfahren zur Zeitreihenanalyse ist die Methode der   Durchschnitte.

Lösen

Methode der gleitenden Durchschnitte


Vorlesen

Um die Methode der gleitenden Durchschnitte zu verstehen orientieren wir uns wieder an einem
Beispiel.

BEISPIEL

Beispiel 59:
Gegeben seien die Daten

t 1 2 3 4 5 6 7 8 9 10

x 1 4 4 4 7 7 1 4 4 10

x 1 4 4 4 7 7 1 4 4 10

Berechnung des gleitenden Durchschnitt

EXPERTENTIPP

Gleitende Durchschnitte m. Ordnung:

 Liste die Werte auf


 will man gleitende Durchschnitte ungerader oder gerader Ordnung bilden?
obei ungerader Ordnung ist  m=2k+1,
obei gerader Ordnung  m=2k zu bilden

Gleitende Durchschnitte ungerader Ordnung m


 Entscheide, was m und k ist
o  m ist also  =3,5,7,...
o  k ist damit  1,2,3,...
 zentrale Formel
 konkretes Vorgehen
o für den ersten Wert
 greife die ersten m Glieder der Zeitreihe heraus
 ordne dieses Mittel an die  m+12-te Stelle der Zeitreihe an
o für den zweiten Wert
 nimm dann das  2.,3.,...(m+1). Glied
 bilde wieder das arithmetische Mittel dieser Zahlen
 schreibe diesen Mittelwert eine Stelle weiter, d.h. an die  1+m+12-te Stelle
o Verfahre so mit den folgenden Werten weiter
 Ergebnis
 man erhält die Glieder der gleitenden Durchschnitte
 Wichtig ist hierbei, dass am Anfang und am Ende der neuen, der geglätteten Zeitreihe,
jeweils  k=m−12 Glieder herausfallen

Video zu den gleitenden Durchschnitten ungerader Ordnung


Play Video

Gleitende Durchschnitte gerader Ordnung m

 Entscheide, was  m und  k ist
o  m ist also  =2,4,6,...
o  k ist damit  1,2,3,...
 zentrale Formel
 konkretes Vorgehen
o für den ersten Wert
 greife die ersten  m+1 Glieder heraus
 zähle bei der Bildung des arithmetischen Mittels aber das erste und das
letzte Glied nur zur Hälfte, d.h. bilde  12x1+x2+...+xm+12xm−1
 dividiere diese Summe durch die tatsächliche Anzahl der Werte, also
durch  m
 schreibe dieses (gewogene) arithmetische Mittel an die  (m2+1)-te Stelle
der ersten m Glieder
o für den zweiten Wert
 nimm dann das  2.,3.,...,(m+2). Glied
 zähle wiederum das erste und das letzte Glied nur zur Hälfte
 dividiere die Summe durch die Anzahl  m=2k der Werte
 schreibe diesen Mittelwert an die  (m2+2)-te Stelle
o usw.
 Ergebnis
o man erhält die Glieder der gleitenden Durchschnitte
o es fallen  k=m2Glieder am Anfang und am Ende weg

Oftmals fällt es schwer, zu behalten, wie viele Glieder wegfallen bzw. an welcher Stelle das erste und
das letzte vorkommende Glied stehen. Deshalb zur Erleichterung die folgende Tabelle:

Ordnung

 m=2k+1 (ungerad  m=2k (gerad
e) e)
es fallen weg  k=m−12  k=m2
der erste Wert steht an der  k+1=m+12  k+1=m2+1
Stelle

Video zu den gleitenden Durchschnitten gerader Ordnung


Play Video

Beispiel zum gleitenden Durschnitt


Wir rechnen nun das o.e. Beispiel 59.
Bilde zunächst gleitende Durchschnitte dritter Ordnung . Damit ist m=3 und  k=1 . Rechne mit
der Formel

Man sieht, dass mit  t=−2 überhaupt erst begonnen werden kann, damit die Summe
bei  x1 startet. Das arithmetische Mittel der ersten drei Zahlen ist  (1+4+4)3=3. Schreibe diese 3 an
die  m+12=3+12=2-te Stelle. Bilde das arithmetische Mittel der Zahlen  4,4,4 (was natürlich
wiederum = 4 ist), gehe also eine Zahl weiter. Schreibe die 4 an die  1+3+12=3-te Stelle usw. Man
erhält die Zahlen der gleitenden Durchschnitte dritter Ordnung. Am Anfang und am Ende ist
jeweils  3−12=1 Glied herausgefallen.

1 1

2 4 3

3 4 4

4 4 5

5 7 6

6 7 5

7 1 4

8 4 3

9 4 6

10 10

Bilde dann gleitende Durchschnitte vierter Ordnung , d.h.  m=4 und  k=2. Rechne also nach


der Formel 
Konkret damit 
Auch hier ist ersichtlich, dass das kleinste t die Zahl 3 sein muss, damit der erste Wert  x3−2=x1 in
die Summe zur Hälfte eingeht. Greife die ersten fünf Zahlen heraus, d.h.  1,4,4,4,7. Zähle die 1
und die 7 aber nur zur Hälfte, d.h.  0,5⋅1+4+4+4+0,5⋅7=0,5+12+3,5=16. Bilde das
arithmetische Mittel als  14⋅16=4 . Schreibe diese Zahl an die  m2+1=42+1=3-te Stelle. Mache
dasselbe für die Zahlen  4,4,4,7,7. Man rechnet  0,5⋅4+4+4+7+0,5⋅7=2+15+3,5=20,5.
Das arithmetische Mittel ist damit 5,125. Diese Zahl wird an die  m2+2=42+2=4-te Stelle
geschrieben usw. Man erhält
t

1 1

2 4

3 4 4

4 4 5,125

5 7 5,125

6 7 4,75

7 1 4,375

8 4 4,375

9 4

10 10

Berechne für die Daten aus Beispiel 59 die gleitenden Durchschnitte 5., 6., 7., 8., 9. Ordnung. Zur
Kontrolle und zum eigenen Nachrechnen seien hier die gleitenden Durchschnitte von der zweiten
bis zur neunten Ordnung angegeben.

1 1

2 4 3,25 3

3 4 4 4 4 4
4 4 4,75 5 5,125 5,2 4,5 4

5 7 6,25 6 5,125 4,6 4,5 4,428 4,188 4


6

6 7 5,5 5 4,75 4,6 4,5 4,428 4,75 5


6

7 1 3,25 4 4,375 4,6 5 5,285


7

8 4 3,25 3 4,375 5,2

9 4 5,5 6

1 10
0

MERKE

Merke:

 Für  m=1 (also  k=0), stimmt die Reihe der gleitenden Durchschnitte (hier erster


Ordnung) mit der Originalreihe überein.
 Für immer größeres  k nimmt die Anzahl der Werte gleitender Durchschnitte immer weiter
ab, da vorne und hinten immer mehr abgeschnitten werden muss.
 Die Zeitreihe der gleitenden Durchschnitte selbst verläuft für größeres  k immer glatter.

 1LückentextNr. 3
 2MC-Aufgabe Nr. 1

Lückentext Nr. 3

Aufgabe 1 von 2
Bitte die Lücken im Text sinnvoll ausfüllen.

Gegeben seien die Zahlen 3,5,8,2,5,7,6. Man möchte nun die gleitenden Durchschnitte

fünfter Ordnung berechnen. Wie lauten die ersten drei Ergebnisse?   

;   und 

Lösen

Exponentielle Glättung
Vorlesen

Die Methode der exponentiellen Glättung (= exponential smoothing) ragt aus den Zeitreihen-
Modellen ein wenig heraus und wird deshalb hier auch gesondert behandelt. Sie ist ein heuristisches
Verfahren, ihr liegt kein explizit formuliertes Zeitreihen-Modell zugrunde. Anders hingegen
parametrische Zeitreihen-Modelle wie Box-Jenkins-Verfahren oder die Spektralanalyse, die
allerdings beide im Rahmen dieser einführenden Analyse nicht behandelt werden.

Die exponentielle Glättung mit erster Ordnung prognostiziert den Wert der  (t+1).
Periode  y^t+1=0≤α≤1 nach der Formel

  y^t+1=∑ni=0α(1−α)i⋅yt–i+(1−α)n+1⋅y^1,
  y^t+1=α⋅y+(1−α)⋅y^t (Einschrittprognose),
  y^t+1=y^t+α⋅(yt−y^t) (partielle Korrektur der Fehlschätzung der Vorperiode).

Es bezeichnen

  yt den wahren Wert der t. Periode


  y^t (sprich: „y-t-Dach“) den in der (t-1). Periode prognostizierten Wert der Folgeperiode,
also jenen für die t. Periode
  α den Glättungsparameter, der sich zwischen 0 und 1 bewegt.
o wenn  α nahe bei 0 liegt, wird der für die t. Periode prognostizierte Wert stärker
gewichtet als der wahre Wert der t. Periode,
o bei  α nahe bei 1 genau umgekehrt.
Wir unterscheiden also den prognostizierten Wert (mit Dach) und den wahren Wert (ohne Dach).
Wichtig ist außerdem die Festlegung des Startwertes, d.h.  y^1. Oftmals nimmt man
hier  y^1=y1 oder das arithmetische Mittel der vorhandenen Beobachtungswerte.

MERKE

Merke:

 Zur ersten Formel: wenn man direkt den Prognosewert für die (t + 1)-te Periode haben
möchte in Abhängigkeit der wahren Werte  y1,y2,...,yt und des Startwertes  y^1, so
geht dies über die Formel  y^t+1=∑ni=0α(1−α)i⋅yt–i+(1−α)n+1⋅y^1
 Zur zweiten Formel: die Ein-Schritt-Prognose  y^t+1 ist in der Methode der exponentiellen
Glättung ein gewogenes arithmetisches Mittel aus dem (wahren) Zeitreihen-Wert  yt der
Periode t und dem für die Periode t prognostizierten Wert  y^t (wobei diese Prognose in
der Periode t-1 abgegeben wurde).
 Zur dritten Formel: wenn man mit  yt−y^t die Fehlschätzung der t. Periode bezeichnet, so
lässt sich die Prognose  y^t+1 auch berechnen als

 y^t+1=y^t+α⋅(yt−y^t), also als partielle Korrektur der Fehlschätzung der Vorperiode.

Video zur exponentiellen Glättung


Play Video

VERTIEFUNG

Hier klicken zum Ausklappen


Hinweis zum Video: x^5=6,767

Berechnung exponentielle Glättung am Beispiel

BEISPIEL

Beispiel: Hinweis zum Video: x^5=6,767


Die Zeitreihenwerte der Perioden  t=1,...,5 lauten
t 1 2 3 4 5

 y 4 5 7 9 13
t

Prognostiziere den Wert für die sechste Periode. Glättungsparameter sei  α=0,3, der Startwert
ist  y^1=y1.
Man berechnet nach unterschiedlichen Methoden den gleichen Wert:

Erste Formel
Die wahren Werte der ersten fünf Perioden werden zur Prognose der sechsten herangezogen.
Mit  t=5 und  n=4 erhält man
 y^6=(1−α)i⋅y5–i+(1−α)n+1⋅y^1
 =α⋅y5+α(1−α)y4+α(1−α)2y3+α(1−α)3y2+α(1−α)4y1+(1−α)5y^1
 =0,3⋅13+0,3⋅0,7⋅9+0,3⋅0,72⋅7+0,3⋅0,73⋅5+0,3⋅0,74⋅4+0,75⋅4=8,2939

Zweite Formel
Man prognostiziert zunächst die Werte für die 2., 3., 4. und 5. Periode, um danach erst jenen für die
6. vorhersagen zu können:
 y^2=α⋅y1+(1−α)⋅y^1=0,3⋅4+0,7⋅4=4
 y^3=α⋅y2+(1−α)⋅y^2=0,3⋅5+0,7⋅4=4,3
 y^4=5,11,  y^5=6,277,  y^6=8,2939

Dritte Formel
Nach dem Vorgehen der Prognosefehler berechnet man

 zunächst die Vorhersagewerte  y^t,


 dann die Prognosefehler  y^t−yt und
 benutzt nur jenen der 5. Periode, also  y^5−y5:
 und damit dann die Prognose für die 6. Periode:
 y^6=y^5+α⋅(y5–y^r)=6,277+0,3⋅6,723=8,2939

t 1 2 3 4 5

 yt 4 5 7 9 13

 y^t 4 4 4,3 5,11 6,277


 y^t− 0 1 2,7 3,89 6,723
yt
Zum eigenen Nachrechnen seien die Prognosewerte angegeben

 in Zeile drei der folgenden Tabelle für einen anderen Glättungsparameter  α=0,5 und


Startwert  y^1=4 wie oben sowie
 in Zeile 4 der folgenden Tabelle 48 für einen anderen Startwert ŷ1, nämlich dem
arithmetisches Mittel der fünf wahren Werte, also  y^1=−7,6 und alter Glättungsparameter
von  α=0,3.

t 1 2 3 4 5 6

 yt 4 5 7 9 13

 y^t(α=0,5) 4 4 4,5 5,75 7,375 10,1875

 y^t(y^1=7, 7,6 6,5 5,764 5,3848 5,4944 6,586


6) 2

 1Lückentext Nr. 4
 2MC-Aufgabe Nr. 2

Lückentext Nr. 4

Aufgabe 1 von 2

Bitte die Lücken im Text sinnvoll ausfüllen.

Bei der exponentiellen Glättung handelt es sich um eine  Korrektur der


Fehlschätzung der Vorperiode.

Lösen

Beispiel Methode der Kleinsten Quadrate


Vorlesen

Die Methode der kleinsten Quadrate wird im folgenden Lernvideo an einem Beispiel erklärt.

Lernvideo - Methode der kleinsten Quadrate


Play Video

Methode der Kleinsten Quadrate


Vorlesen

Auch bei dieser Methode der Zeitreihenanalyse, der Methode der Kleinsten Quadrate, orientieren
wir uns an einem weiteren Beispiel.

BEISPIEL

Beispiel 62:
In der Kleinstadt Poisson-City wurden die folgenden Daten erhoben:

 xi  yi

3 5
7 8
9 10
5 8
6 4
Berechne eine lineare Regression mit Hilfe der Methode der Kleinsten Quadrate. Zunächst malt man
die Punktwolke, bestehend aus den x- und den y-Werten, auf. So ist z.B.  (x5,y5)=(6,4) der fünfte
Punkt der Wolke. Graphisch sieht dies folgendermaßen aus:
Punktwolke

Es bezeichnet  x den Regressor (= erklärende Variable = exogene Variable) und  y den


Regressanden (= erklärte Variable = endogene Variable).
Folgende Fragen stellen sich:

 Kann man einen linearen Trend durch die Punkte (die sog. Punktwolke) legen, die gewissen
Optimalitätseigenschaften genügt?
 Lässt sich damit prognostizieren, was der y-Wert ist, wenn z.B. x = 11 oder 12 etc. ist?

Punktwolke, Regressionsgerade und Residuenquadrate


Die Fragen werden beantwortet durch die Methode der Kleinsten Quadrate (= KQ-Methode = OLS-
Methode (Ordinary-Least-Squares-Methode)). Man legt eine Regressionsgerade (=
Ausgleichsgerade) so durch die Punktwolke, dass die Summe der Quadrate der
sogenannten Residuen  ei insgesamt minimal ist. Ein Residum ist hierbei die Differenz aus
beobachtetem Wert  yi und dem durch die Gerade geschätzten Wert  y^i.

Punktwolke, Regressionsgerade und Residuenquadrate


 Die Werte  y^i (mit Dach, also geschätzt), die man durch die Gerade erhält, berechnen sich
durch  y^i=a+b⋅xi. Sie sind die y-Werte, die man eigentlich erhalten müsste, wenn die
Gerade absolut richtig wäre. Damit geben die  y^i–Werte die durch die Regression erklärten
Werte an. Für das konkrete Beispiel sind die  y^i– Daten weiter unten ausgerechnet.
 Die Werte  yi hingegen (ohne Dach, also nicht geschätzt, sondern wahr) sind die tatsächlich
beobachteten Werte.
 Die Differenz zwischen dem tatsächlichen Wert  yi und dem durch die Gerade berechneten
Wert  y^i heißt Residuum  ei, d.h.  ei=yi–y^i.

Errechnet werden soll nun die lineare Schätzung  y=bx+a, die die Summe der Residuenquadrate
minimiert.
Man erhält die Steigung b der Geraden durch unterschiedlich aussehende Formeln:

 b=∑ni=1(xi−x¯)⋅(yi−y¯)∑ni=1(xi−x¯)2
Steigung der Regressionsgeraden
 b=n⋅∑ni=1xi⋅yi−∑ni=1xi⋅∑ni=1yin⋅∑ni=1x2i−(∑ni=1xi)2
 b=rBP⋅sYsX

Den Ordinatenabschnitt a errechnet man durch


 a=y¯−b⋅x¯

 a=∑ni=1x2i⋅y¯−x¯⋅∑ni=1xi⋅yin1n∑ni=1(xi−x¯)2
Ordinatenabschnitt der Regressionskurve
 a=∑ni=1x2i⋅∑ni=1yi−∑ni=1xi⋅∑ni=1xi⋅yin⋅∑ni=1x2i−(∑ni=1xi)2

Berechnung am Beispiel
Rechnen wir dies mit den Zahlen des Beispiels 62 aus:

i  xi  yi  x2i  Xi⋅Yi  (xi−x¯)2  (yi−y¯)2  (xi−x¯)⋅(yi−y¯)

1 3 5 9 15 9 4 6
2 7 8 49 56 1 1 1
3 9 10 81 90 9 9 9
4 5 8 25 40 1 1 -1
5 6 4 36 24 0 9 0
30 35 200 225 20 24 15
 ∑

Damit erhält man zunächst die Steigung b der Regressionsgeraden als

 b=∑ni=1(xi−x¯)⋅(yi−y¯)∑ni=1(xi−x¯)2=1520=0,75
oder mit der anderen Formel
 b=n⋅∑ni=1xi⋅yi−∑ni=1xi⋅∑ni=1yin⋅∑ni=1x2i−
(∑ni=1xi)2=5⋅225−30⋅355⋅200−302=0,75
Den Ordinatenabschnitt a erhält man mit
 a=y¯−b⋅x¯=7−0,75⋅6=2,5
oder durch
 a=∑ni=1x2i⋅y¯−x¯⋅∑ni=1xi⋅yin1n∑ni=1(xi−x¯)2=20050⋅7−6⋅2255205=104=2,5
bzw.
 a=∑ni=1x2i⋅∑ni=1yi−∑ni=1xi⋅∑ni=1xi⋅yin⋅∑ni=1x2i−
(∑ni=1xi)2=200⋅35−30⋅2255⋅200−302=2,5

Zeichnen wir diese Gerade:


Regressionsgerade nach der KQ-Methode

Die Residuen errechnen sich damit als Differenz aus beobachteten Werten yi und den durch die
Gerade geschätzten Werten  y^i, d.h.  ei=yi−y^i. Konkret gilt für die durch die Gerade
geschätzten Werte
 y^1=2,5+0,75⋅3=4,75,
 y^2=2,5+0,75⋅7=7,75, entsprechend
 y^3=9,25,y^4=6,25 und  y^5=7.
Damit lautet das erste Residuum
 e1=5–4,75=0,25, die anderen Residuen sind
 e2=0,25,e3=0,75,e4=1,75,e5=−3.
Die Residuenquadrate sind in der folgenden Tabelle eingetragen.

  yi  y^  ei  e2i


xi i

3 5 4,7 0,25 0,0625


5
7 8 7,7 0,25 0,0625
5
9 10 9,2 0,75 0,5625
5
5 8 6,2 1,75 3,0625
5
6 4 7 -3 9
 ∑e2i=12,
75
Die Summe der Residuenquadrate ist damit  ∑e2i=12,75.

Die Frage ist nun, wie gut die Anpassung der Punkte funktioniert durch eine lineare Regression. Dies
lässt sich mithilfe des Determinationskoeffizienten (= Bestimmtheitsmaß) D beantworten:
 D=s2y^s2y=∑ni=1(y^i−y¯)2∑ni=1(yi−y¯)2

Es gilt:

 D ist der durch die Regression erklärte Anteil der Varianz, was aus der o.e. Definition
ersichtlich ist.
 Der Ausdruck  s2y^ ist die Varianz der Werte der Geraden  y^,
 hingegen ist  s2y die Varianz der empirisch beobachteten Werte  yi,i=1,…,n,
 D liegt zwischen 0 und 1, d.h. es gilt  0≤D≤1,
 D ist maßstabsunabhängig,
 D lässt sich auch berechnen durch

 D=1−∑ni=1e2i∑ni=1(yi−y¯)2

  D=r2, d.h. der Determinationskoeffizient ist das Quadrat des Bravais-Pearsonschen


Korrelationskoeffizienten.

 1LückentextNr. 5
 2MC-Aufgabe Nr. 3
 3MC-Aufgabe Nr. 4

Lückentext Nr. 5

Aufgabe 1 von 3
Bitte die Lücken im Text sinnvoll ausfüllen.

Die Methode der Kleinsten Quadrate heißt in der englischsprachigen

Literatur  -Least-Squares Methode.

Lösen

Exkurs: Linearisierung
Vorlesen

Oftmals kommt es vor, dass ein nichtlinearer Ansatz gefragt ist. Dieser wird einfach linearisiert; mit
diesen Werten rechnet man dann einen KQ-Ansatz durch und transformiert die Werte dann zurück.

BEISPIEL

Beispiel 63:
Die Beziehung zwischen den Variablen y und x sei gegeben durch eine exponentielle
Funktion  y=a⋅eb⋅x

x 2 4 10 15 20

y 5,5 15 300 3.600 44.000

Berechne die Koeffizienten a und b der exponentiellen Schätzung.


Wir gehen in folgenden Schritten vor:

 Linearisierung

 y~=lny=ln(a⋅eb⋅x)=lna+lneb⋅x=lna+b⋅x=a~+b⋅x

 Berechne also  lny und
 Führe eine KQ-Schätzung durch für x und  y~=lny, d.h. errechne
 a~=lna
 Transformiere zurück, d.h. berechne a aus  a~=lna.
Linearisierung am Beispiel
x 2 4 10 15 20

 y~=ln 1,7047 2,7081 5,7038 8,1887 10,6919


y
Damit ist  x¯=10,2 und  y~=5,79944; außerdem  1n∑n1=nx2i=149,
 1n∑y2i=44,8289 ,  1n∑xiyi=81,58966, also ist
 b=xy¯¯¯¯−x⋅y¯¯¯¯¯¯s2x=81,58966−10,2⋅5,79944149−10,22=0,499
Der Ordinatenschnitt ist  lna=lny¯¯¯¯¯−b⋅x¯=5,79944−0,499⋅10,2=0,70956,
schließlich ist  lna=0,70956 und also  e0,70956=2,0331:
Also liegt insgesamt die exponentielle Regression  y=2,0331⋅e0,499⋅x vor.

Nichtlineare Regression
Abschließend ein Schema zur Bestimmung Nichtlinearer Regression

EXPERTENTIPP

Nichtlineare Regression - Schema:

1. Welche Art von nichtlinearer Regression liegt vor?


Typische Beispiele:

oexponentielle Regression:  y=a⋅ebx
oPotenzregression:  y=a⋅xb
ohyperbolische Regression:  y=a+bx
2. Linearisiere die Ansätze

oexponentielle Regression:  y~=lny, y~=lna+b⋅x=a~+b⋅x
oPotenzregression:  y~= lny, y~=a~+b⋅x
 x~=lnx, a~=lna
oHyperbolische Regression:  y~=a+b⋅x~, x~=1x
3. Rechne eine KQ-Schätzung mit den linearisierten Daten.
4. Transformiere zurück.

 1MC-Aufgabe Nr. 5
MC-Aufgabe Nr. 5

Aufgabe 1 von 1

Welche der folgenden Aussagen zur Linearisierung ist richtig?

Man linearisiert, wenn in Wahrheit ein exponentieller Ansatz gegeben ist und man aber mit einem
linearen Ansatz rechnen möchte.

Man linearisiert, wenn in Wahrheit ein linearer Ansatz gegeben ist und man aber mit einem
exponentiellen Ansatz rechnen möchte.

Man linearisiert, wenn in Wahrheit ein exponentieller Ansatz gegeben ist und man aber mit einem
exponentiellen Ansatz rechnen möchte.

Lösen

Methode der Reihenhälften


Vorlesen

Bei der Methode der Reihenhälften, das letzte hier vorgestellte Verfahren der Zeitreihenanalyse,
geht man folgendermaßen vor:

EXPERTENTIPP

Methode der Reihenhälften - Schema:

1. Teile die Punktwolke von der Abszisse her in zwei Hälften ein, d.h. die erste Hälfte besteht
aus den ersten  n1 Punkten, die zweite Hälfte besteht aus den zweiten  n2 Punkten
und  n=n1+n2.
2. Bestimme in beiden Hälften das arithmetische Mittel jeweils auf der Abszisse und auf der
Ordinate, d.h. bilde  (x¯1,y¯1) und  (x¯2,y¯2) .
3. Verbinde die beiden Punkte. Die Verbindung bildet die Regressionsgerade  y=a+b⋅x .
4. Die Steigung ist  b=y¯2−y¯1x¯2−x¯1, der Ordinatenabschnitt
ist  a=y¯1−b⋅x¯1 bzw.  a=y¯2−b⋅x¯2.

Methode der Reihenhälften am Beispiel


Wir führen die Methode an einem Beispiel vor.

BEISPIEL

Beispiel 64:
Gegeben seien die Punkte (3,5), (4,2), (1,3), (2,1), (5,2), (6,4), (8,7) und (7,3).

Bestimme eine Trendgerade mit der Methode der Reihenhälften. Zunächst zeichnet man die Punkte,
um zu erkennen, wo die Hälfte liegt.

Streudiagramm für Reihenhälften


Die arithmetischen Mittel sind  x¯1=14⋅(1+2+3+4)=2,5,
 y¯1=14⋅(1+2+3+5)=2,75 sowie  x¯2=6,5, y¯2=4.
Die beiden Punkte, die die Regressionsgerade festlegen, sind
also  (x¯1,y¯1)=(2,5;2,75) und  (x¯2,y¯2)=(6,5;4).
Die Steigung der Regressionsgeraden ist

 b=y¯2−y¯1x¯2−x¯1=4−2,756,5−2,5=1,254=516=0,3125

 a=y¯1−b⋅x¯1=2,75−516⋅2,5
 =2,75−516⋅52=2,75−2532=1,96875

 a=y¯2−b⋅x¯2=4−516⋅6,5=1,96875

Die Regressionsgerade ist daher  y=1,96875+0,3125⋅x.

Zeitreihenzerlegung
Vorlesen

Nach den unterschiedlichen Verfahren, kommen wir zur Zeitreihenzerlegung. Die Anwendung der
Zeitreihenzerlegung ist auch leichter Verständlich, wenn diese anhand konkreter Zahlen erfolgt.
Dazu folgendes Beispiel.

BEISPIEL

Beispiel 65:
Für die Auftragseingänge  yt im Baugewerbe der norddeutschen Stadt Elmshorn werden in den
Jahren 2001 – 2003 im jeweiligen Monat die folgenden Werte gemessen.

Monat 2001 200 2003


2

Januar 24 25 24

Februar 26 27 27
März 28 30 30

April 30 27 26

Mai 29 30 28

Juni 35 38 35

Juli 38 40 38

August 40 42 42

Septembe 35 34 35
r

Oktober 30 30 30

November 28 27 28

Dezember 25 26 27

Die Werte  yt hängen also primär von der Zeit ab, t gibt hierbei den Zeitindex an. Es stellen sich
mehrere Fragen:

 Sind die Auftragseingänge ausschließlich zeitabhängig?


 Lässt sich ein Trend erkennen, so dass z.B. die Anzahl der Aufträge in den Jahren 2001, 2002
und 2003 ansteigt, unabhängig vom jeweiligen genauen Wert in den Monaten?
 Werden die Daten von einem Zyklus überlagert, so dass z.B. ein Konjunkturtief in 2003 für
grundsätzlich niedrigere Werte sorgt als ein Hoch in 2001?
 Lassen sich Saisoneffekte erkennen, so dass die Anzahl der Aufträge in den Wintermonaten
beispielsweise geringer ist als in den Sommermonaten?

Trendkomponente, zyklische Komponente,


Saisonkomponente
Sinn der folgenden Überlegungen ist es, die Werte durch Zerlegung zu erklären, und zwar in die
schon angedeutete

 Trendkomponente  Tt
- diese wird durch langfristig wirkende Faktoren bedingt
- oftmals durch KQ-Schätzungen erklärt
 die zyklische Komponente  Zt
- sie wird durch Konjunkturzyklen bedingt
- sie ist oftmals wellenförmig
 die Saisonkomponente  St
- hier werden Saisoneinflüsse beobachtet
- wie z.B. im vorliegenden Fall verminderte Auftragseingänge im Baugewerbe
 die irreguläre Komponente  Ut
- die Ursachen sind keinen der o.e. Gründe zuzurechnen.
- die Werte der irregulären Komponente (= Störvariable, = Zufallsschwankung, = unerklärter
Rest) werden als relativ klein angenommen
- und als unsystematisch um null schwankend verstanden

MERKE

Merke: Oftmals fasst man den Trend und die zyklische Komponente zur sog. glatten
Komponente  Gt zusammen.

Additive Zerlegung und multiplikative Zerlegung


Es werden nun mehrere Arten von Zeitreihenmodellen unterschieden:

 Die additiven Modelle mit der Zerlegung (= Überlagerung)  y=T+Z+S+U oder die


 multiplikativen Modelle mit der Zerlegung  y=T⋅Z⋅S⋅U

Wir betrachten im folgenden ausschließlich das additive Modell.

EXPERTENTIPP

Ermittlung der Zeitreihen-Komponenten:

1. Ermittlung der Trendkomponente  Tt (oftmals mit einer linearen Regression). Fasse die


Zeitreihen-Werte auf als Werte, die sich aus dem Ansatz  yt=a+b⋅t ergeben. (Man kann
den Trend aber auch mit der Methode der gleitenden Durchschnitte ausrechnen.)
2. Berechnung der zyklischen Komponente  Zt. Schätze zunächst die Trendwerte mit Hilfe
des in Schritt 1 ermittelten Trends, bilde dann die glatte Komponente  Gt=Tt+Zt mit
Hilfe gleitender Durchschnitte der ursprünglichen Zeitreihe. Errechne den Zyklus als
Differenz der glatten Komponente und der Trendwerte, also als  Zt=Gt–Tt
3. Berechnung der Saisonkomponente  St
Die Werte aus Schritt 2 werden gemittelt gemäß

 S~j=1mj∑iϵMj(ui,j−y∗i,j)=Sj+1mj∑iϵMjUi,j

Diese Werte werden normiert durch

 S~j=S~j−1k∑j=1kS~j

Hierbei ist k die Anzahl der Werte  S~j


 S~j ist eine Schätzung für die (monatstypische, quartalstypische,...) Abweichung, die
saisonbereinigte Zeitreihe ist dann die Differenz.

MERKE

Merke:
Im zweiten Schritt funktioniert die Bildung der glatten Komponente unabhängig und losgelöst vom
ersten Schritt. Für die glatte Komponente ist also die Trend-Berechnung uninteressant, erst für den
Zyklus muss sie um den Trend bereinigt werden.

Zeitreihenzerlegung am Beispiel
Anwendung auf das Beispiel 65 damit wie folgt.

Schätzung des Trends

Die Trendkomponente  Tt wird mit der KQ-Methode geschätzt, die schon aus vorherigen Kapiteln
bekannt ist. Wichtig ist allerdings, dass nun die Zeit der Regressor ist, also  yt=a+b⋅t gilt. Alle
übrigen Komponenten, also  Zt, St und  Ut, sind hier das Residuum.
Es ist im vorliegenden Beispiel  ∑36t=1t2=16.206, das arithmetische Mittel der Zeitdaten
ist  t¯=136∑36t=1t=18,5, das Produkt  ∑36t=1t⋅yt=20.793. Also rechnet man die Steigung

b aus als
 b=1n⋅∑nt=1t⋅yt−t¯⋅y¯1n⋅∑nt=1t2−t¯ 2=136⋅20.793−18,5⋅30,944136⋅16.206−18,5
2=0,04736

Der Ordinatenabschnitt a ist  a=y¯–b⋅t¯=30,944−0,04736⋅18,5=30,068. Man erhält also


als Trendgerade  y=30,068+0,04736⋅t. Setzt man z.B. für t = 4 ein, so erhält man den
Trendwert für den April des Jahres 2001 durch:  30,068+0,04736⋅4=30,25744. Die anderen
Trendwerte sind in der folgenden Tabelle widergegeben.

2001 Trend- 2002 Trendkomponente 200 Trendkomponente


komponente 3

Januar 24 30,115 25 30,684 24 31,252

Februar 26 30,163 27 30,731 27 31,299

März 28 30,21 30 30,778 30 31,347

April 30 30,257 27 30,826 26 31,394

Mai 29 30,305 30 30,873 28 31,441

Juni 35 30,352 38 30,92 35 31,488

Juli 38 30,34 40 30,968 38 31,536

August 40 30,447 42 31,015 42 31,583

Septembe 35 30,494 34 31,063 35 31,631


r

Oktober 30 30,542 30 31,1099 30 31,678

November 28 30,589 27 31,157 28 31,726

Dezember 25 30,636 26 31,205 27 31,773


Schätzung der glatten Komponente

Zur Ermittlung der zyklischen Komponente bedient man sich der Methode der gleitenden
Durchschnitte. Wir schätzen die glatte Komponente als gleitenden Durchschnitt 12. Ordnung, d.h. k
= 6 (wegen der Monatsdaten). Man verwendet die Formel

 x∗t=[12xt−k+12xt+k+∑τ=t−(k−1)t+(k+1)xτ]

die speziell für k = 6 dann lautet:

 x∗t=12⋅6⋅[12xt−6+12xt+6+∑τ=t−5t+5xτ]

Die möglichen t-Werte starten damit bei t = 7, damit in der Klammer mit  x7−6=x1 die Zählung
begonnen werden kann. Damit rechnet man z.B.

 x∗7=112[12x1+12x13+∑τ=212xτ]=112[12⋅24+12⋅25+(26+28+…

+28+25)]=30,7083

Die anderen Werte werden errechnet und die Arbeitstabelle 53 eingetragen. Man erhält damit die
Zahlen der glatten Komponente.

2001 glatte 200 glatte 200 glatte


2 3
Komponent Komponent Komponente
e e

Januar 24 - 25 31,1667 24 30,6667

Februar 26 - 27 31,3333 27 30,583

März 28 - 30 31,375 30 30,625

April 30 - 27 31,3333 26 30,667

Mai 29 - 30 31,2917 28 30,7083


Juni 35 - 38 31,2917 35 30,7917

Juli 38 30,7083 40 31,2917 38 -

August 40 30,7917 42 31,25 42 -

Septembe 35 30,9167 34 31,25 35 -


r

Oktober 30 30,875 30 31,2083 30 -

November 28 30,79167 27 31,0833 28 -

Dezember 25 30,9583 26 30,875 27 -

Alsdann bildet man die Differenz aus den tatsächlichen Zahlen yt und den Werten der glatten
Komponente  y∗t, d.h. die um die glatte Komponente bereinigte Zeitreihe  yt−y∗t:

2001  yt−y 2002  yt−y 200  yt−y


∗t ∗t 3 ∗t

Januar 24 - 25 -6,167 24 -6,667


Februar 26 - 27 -4,333 27 -3,583
März 28 - 30 -1,375 30 -0,625
April 30 - 27 -4,333 26 -4,667
Mai 29 - 30 -1,292 28 -2,708
Juni 35 - 38 6,708 35 4,208
Juli 38 7,292 40 8,708 38 -
August 40 9,208 42 10,75 42 -
Septembe 35 4,083 34 2,75 35 -
r
Oktober 30 -0,875 30 -1,208 30 -
November 28 -2,792 27 -4,083 28 -
Dezember 25 -5,958 26 -4,875 27 -
Danach ordnet man zur besseren Übersicht die zum jeweils gleichen Monat passenden Daten
spaltenweise an:

1 2 3 4 5 6 7 8 9 10 11 12

200 - - - - - - 7,29 9,208 4,083 -0,88 -2,79 -5,958


1 2

200 -6,17 -4,33 -1,38 - -1,29 6,71 8,70 10,75 2,75 -1,21 -4,08 -4,875
2 4,333 8

200 -6,67 -3,58 -0,63 - -2,71 4,21 - - - - - -


3 4,667

Schließlich werden die Zahlen aus Schritt 3 spaltenweise (!) gemittelt gemäß der Formel

 Sj=1mj∑iϵMj(ui,j−y∗i,j)=Sj+1mj∑iϵMjUi,j

 Mj ist die Menge der Jahre, für die dann die um die glatte Komponente bereinigte Zeitreihe
gebildet wird. Die Zahl  mj ist hierbei die Anzahl der Jahre, für die man die um die glatte
Komponente bereinigte Zeitreihe berechnen kann. Also ist  M1=M2=…=M6={2,3}, weil nur
für das 2. und 3. Jahr der Wert gebildet werden kann, denn dadurch dass am Anfang sechs Monate
herausfallen, sind die Werte für die Monate Januar bis Juni nur aus den Jahren 2 und 3 zu
berechnen. Der Parameter  m1 ist dabei  m2=2, nämlich die Anzahl der Elemente der
Mengen  Ml, I=1,…, 6.
Genau andersrum verhält es sich bei  M7=M8=…=M12={1,2}. Dadurch, dass am Ende (im
Jahr 2003) sechs Monate wegfallen, sind für die Monate Juli bis Dezember nur die Jahre 2001 und
2002, also 1 und 2, brauchbar. Also ist  m2, wie oben die Zahl  m1 auch,  m2=2. Man erhält also

1 2 3 4 5 6 7 8 9 10 11 12

2001 - - - - - - 7,3 9,2 4,0 -0,9 -2,79 -5,96


1 8

2002 -6,17 -4,33 -1,38 - -1,3 6,7 8,7 10, 2,7 -1,2 -4,08 -4,88
4,33 1 8 5

2003 -6,67 -3,58 -0,63 - -2,7 4,2 - - - - - -


4,67 1

Sschlange -6,42 -3,96 -1 -4,5 -2 5,4 8 9,9 3,4 -1 -3,44 -5,42


j 6 8 2

Wenn die Summe der  S~j nicht null ergibt bzw. nicht hinreichend nahe bei null liegt, muß man
noch ein Korrekturglied ermitteln, nämlich das arithmetische Mittel der  S~j-Werte: es ist
hier  112∑12j=1S^j=−0,0763. Dieses Korrekturglied wird von den  −S~j Werten jeweils
abgezogen, man erhält die normierten Schätzwerte für die monatstypische Abweichung  Sj.

1 2 3 4 5 6 7 8 9 10 11 12

2001 - - - - - - 7,3 9,2 4,0 -0,9 -2,79 -5,96


1 8

2002 -6,17 -4,33 -1,38 - -1,3 6,7 8,7 10, 2,7 -1,2 -4,08 -4,88
4,33 1 8 5

2003 -6,67 -3,58 -0,63 - -2,7 4,2 - - - - - -


4,67 1

Sschlange -6,42 -3,96 -1 -4,5 -2 5,4 8 9,9 3,4 -1 -3,44 -5,42


j 6 8 2

Sdachj -6,34 -3,88 -0,92 - -1,9 5,5 8,1 10, 3,4 -1 -3,36 -5,34
4,42 3 1 9

Saisonbereinigte Zeitreihe

Die eigentliche saisonbereinigte Zeitreihe ergibt sich dann durch Subtraktion der Werte aus Schritt
4 und der beobachteten Werte aus der Original-Zeitreihe.

200 saisonber. ZR 200 saisonber. ZR 2003 saisonber. ZR


1 2

Januar 24 - 25 -6,167 24 -6,667


Februar 26 22,12 27 23,12 27 23,12

März 28 28,92 30 30,92 30 30,92

April 30 34,42 27 31,42 26 30,42

Mai 29 30,9 30 31,9 28 29,9

Juni 35 29,47 38 32,47 35 29,47

Juli 38 29,9 40 31,9 38 29,9

August 40 29,9 42 31,9 42 31,9

Septembe 35 31,51 34 30,51 35 31,51


r

Oktober 30 30,97 30 30,97 30 30,97

November 28 31,36 27 30,36 28 31,36

Dezember 25 30,34 26 31,34 27 32,34

MERKE

Merke:

Die obigen Überlegungen gelten nur bei folgenden einschränkenden Annahmen:

 die glatte Komponente kann innerhalb eines Zeitraums von m + 1 Perioden durch eine
lineare Schätzung angenähert werden,
 die Saisonfigur, also das Tupel  (S1, S2,…, Sm), ist in der Summe null, d.h.  S1+S2+
…+Sm=0. Konkret heißt dies bei Monatsdaten (bei Quartalsdaten), dass die
Monatswerte (die Quartalswerte) eines Jahres in der Summe gleich null ergeben. Sollte
dies nicht der Fall sein, dann muss man zunächst durch Normierung dafür sorgen, dass
dies gilt.
 die Werte der Saisonkomponente  St sind jeweils identisch für die gleichnamigen Perioden
(sog. Konstanz der Saisonfigur, eine variable Saisonfigur wird hier nicht angesprochen)
  St=St+12 bei Monatswerten
  St=St+4 bei Quartalswerten.

 1LückentextNr. 1
 2LückentextNr. 2
 3MC-Aufgabe Nr. 1

Lückentext Nr. 1

Aufgabe 1 von 3

Bitte die Lücken im Text sinnvoll ausfüllen.

Oftmals fasst man den Trend und die zyklische Komponente zur sog.   
Komponente zusammen.

Lösen

 Indexrechnung
 Grundbegriffe
Verhältniszahlen
Vorlesen

Im abschließenden Kapitel unseres Kurses zur deskriptiven Statistik beschäftigen wir uns mit dem
Thema der Indexrechnung.

Die weiter unten zu besprechenden Indexzahlen (speziell Preisindices und Mengenindices) lassen


sich aus Verhältniszahlen heraus erklären. Der Begriff der Verhältniszahl soll zunächst erklärt
werden. Unter diesen versteht man Brüche, die eine Beziehung widergeben zwischen der Zahl im
Zähler und jener im Nenner.
Man unterscheidet folgende Arten von Verhältniszahlen:

 Gliederungszahlen,
 Beziehungszahlen und
 Messzahlen
o Preisindices,
o Mengenindices,
o Wertindices.

Gliederungszahl
Bei Gliederungszahlen haben der Zähler und der Nenner dieselbe Dimension, weil eine Gesamtheit
aufgegliedert wird, so z.B. in dem folgenden

BEISPIEL

Beispiel 66 - Gliederungszahl:
In einer Schule gibt es 672 Schüler, davon 350 Mädchen und 322 Jungen.
Der Anteil der Mädchen ist damit  350672=0,5208=52,08 %, der Anteil der Jungen
entsprechend  322672=0,4792=47,92 %.

Man benutzt also Gliederungszahlen dazu, um die Teilgesamtheiten in Beziehung zueinander zu


setzen und die interne Struktur der Gesamtmasse abzubilden. Gliederungszahlen stellt man gerne
auch in Kuchendiagrammen (= Kreisdiagrammen) dar.

BEISPIEL

Beispiel 67 :
Weitere Gliederungszahlen sind:
- Studenten nach Studienfächern gegliedert,
- Angehörige eines Fitnessstudios, nach Berufsgruppen gegliedert.

Beziehungszahl

MERKE

Merke: Bei Beziehungszahlen haben Zähler und Nenner nicht dieselbe Dimension. Es werden
verschiedenartige Größen zueinander in Beziehung gesetzt (trotzdem sollten Zähler und Nenner
sinnvoll zusammenhängen). Insbesondere ist der Zähler kein Teil des Nenners.
 Beispiel

 Beispiel
Beispiel 68:
Ein Autofahrer fährt eine Strecke von 240 km in einer Zeit von vier Stunden.
Er ist also mit einer durchschnittlichen Geschwindigkeit von  240km4h=60kmh gefahren.

Messzahl
Als Messzahlen bezeichnet man Quotienten, die aus Zeitreihenwerten gebildet werden. Diese
müssten allerdings metrisch skaliert sein. Die Messzahl  xixj gibt an, in welchem Ausmaß sich die
Mehrmalsausprägung x in der Berichtsperiode i im Vergleich zur Basisperiode j geändert hat.
So sei z.B. konkret das Preisniveau in der Basisperiode 2003 als 100 [%] gesetzt. Im Vergleich hierzu
habe sich das Preisniveau in der Berichtsperiode 2004 auf 105 [%] erhöht. Die
Messzahl  x2004x2003=105100=1,05 gibt dann an, dass sich das Preisniveau um 5 % erhöht hat.
Zur Übersicht nochmal die folgende Grafik:

Systematisierung von Verhältniszahlen

Wir werden in den folgenden Kapiteln speziell auf die Messzahlen eingehen und uns mit den
Preisindices, Mengenindices und Wertindices beschäftigen.

 Preisindizes
Definition Preisindizes
Vorlesen

Als Einführung zu den Preisindizes (auch: Preisindices) wird folgendes Beispiel betrachtet:


BEISPIEL

Beispiel 70 - Preisindex:
Der Düsseldorfer Student Hubert konsumiert Bücher, Cola und Nudeln in folgenden Mengen:

Bücher Cola Nudeln

Jahr Menge Preis Menge Preis Menge Preis

2001 20 10 500 l 1 €/l 100 kg 0,8 €/kg

2002 30 15 600 l 1,3 €/l 80 kg 1 €/kg

Hubert – ein statistisch sehr interessierter Student – hört nun von der Diskussion „Euro – Teuro” und
möchte ausrechnen, ob seine Lebenshaltung teurer geworden ist.
Er rechnet die Ausgaben für 2001 aus. Hierbei bezeichnet  pti den Preis des i. Gutes im Jahr t,
entsprechend  qti die Menge des i. Gutes im t. Jahr. So ist  pt2=1,3 € der Preis des zweiten Gutes,
also von Cola, im Jahr t = 2002, bzw.  p03=0,8 € der Preis von Nudeln im Jahr t = 0.

Berechnung der Preisentwicklung


Die Gesamtausgaben liegen bei

 Ausgabe2001=∑i=13p2001i⋅q2001i=10⋅20+1⋅500+0,8⋅100=780 €

Jene für 2002 lauten

 ∑i=13p2002i⋅q2002i=15⋅30+1,3⋅600+1⋅80=1.310 €

Er denkt nun, dass das Preisniveau um  (1.310780–1)⋅100=68 % gestiegen ist. Dies ist jedoch
nicht richtig, da für eine Ausgabensteigerung des Haushalts zwei Gründe maßgeblich sind:

 zum einen eine Steigerung der Preise,


 zum anderen aber auch eine Steigerung der Mengen.

Um also allein auf die Preisentwicklung abzustellen, muss man für das sog. Berichtsjahr t – jenes
Jahr, für das man den Preisindex ausrechnen möchte – die gleichen Mengen unterstellen wie für das
Basisjahr 0 – jenes Jahr, mit dem verglichen wird. Also rechnet Hubert (t = 2002 als Berichtsjahr, 0 =
2001 als Basisjahr)  Ausgabe2001=780 € und  Ausgabe2002 unter der Annahme der Mengen
für 2001:

 (fiktive) Ausgabe2002=∑i=13pti⋅q0i=∑i=13p2002i⋅q2001i=15⋅20+1,3⋅500+1⋅10
0=1.050 €
Man nimmt also die Mengen des Basisjahres 0 = 2001 und multipliziert diese mit den Preisen des
Berichtsjahres t, also von t = 2002. Und damit für den Anstieg des Preisniveaus:

 ∑ptiq0i∑p0iq0i=∑p2002iq2001i∑p2001iq2001i=(1.050780−1)⋅100=34,6%

Definition Preisindex
Wir definieren daher einen Preisindex wie folgt. Gegeben seien n Güter mit Preisen  p0i in der
Basisperiode 0 und  pti in der Berichtsperiode t. Die nachgefragten Menge seien in beiden Perioden
jeweils gleich, d.h.  q0i=qti
Ein Preisindex PI0,t errechnet sich dann als
 PI0,t=∑ptiqi∑p0iqi

Zum Preisindex folgende Regel.

MERKE

Merke: Diese Zahl gibt also an, wie sehr die Ausgaben prozentual gesteigert wurden, wenn
unterstellt wird, dass die Mengen jeweils gleich bleiben. Man stellt also ausschließlich auf die
Preisänderung ab und lässt die Mengenänderung außen vor.

In der Wahl der Mengen  qi, d.h. ob man  qti aus der Basis- oder der Berichtsperiode im Zähler
und/oder im Nenner wählt, unterscheiden sich im folgenden

 der Preisindex nach Laspeyres und


 der Preisindex nach Paasche.

Preisindizes nach Laspeyres und Paasche


Vorlesen

Die beiden wichtigsten Preisindizes, die auch in den folgenden Kapiteln behandelt werden, sind
die Preisindizes nach Laspeyres und nach Paasche.
Formeln
Der Preisindex  PIL0,t nach Laspeyres ist

MERKE

Aggregatformel (Laspeyres)
 PIL0,t=∑ptiq0i∑p0iq0i

Man rechnet also wie oben geschehen: wie verändert sich das Preisniveau, wenn in der
Berichtsperiode t die gleichen Mengen  q0i verwendet würden wie in der Basisperiode 0. Es wird
lediglich auf die Preisentwicklung abgestellt, die Mengen bleiben konstant. Der Preisindex nach
Laspeyres betrachtet als Mengen jene der Basisperiode 0.
Play Video

Anders des Preisindex nach Paasche: er wählt die Mengen der Berichtsperiode t und errechnet sich
damit als

MERKE

Aggregatformel (Paasche)
 PIP0,t=∑ptiqti∑p0iqti
Play Video

Berechnung am Beispiel
Im vorliegenden Beispiel 70 erhält man für die Formel nach Paasche

 PIP2001,2002=15⋅30+1,3⋅600+1⋅8010⋅30+1⋅600+0,8⋅80=1310964=1,3589
Man erhält nach dieser Methode also eine Preissteigerung in Höhe von 35,9 %. Der Preisindex
von Laspeyres hingegen ist
 PIL2001,2002=15⋅20+1,3⋅500+1⋅10010⋅32+1⋅500+0,8⋅100=1050780=1,3462

MERKE

Merke:
 beide Preisindices, also jene nach Laspeyres und nach Paasche, unterstellen im Zähler und
Nenner jeweils für sich dieselben Mengen,
 beide stellen damit ausschließlich auf die Preisentwicklung ab,
 Laspeyres betrachtet die Mengen der Basisperiode, also von 0,
 Paasche hingegen stellt ab auf die Mengen der Berichtsperiode, also von t.

Preismesszahl
Berechnet man nun mit

 gi=p0iq0i∑nj=1p0jq0j

den Ausgabenanteil des i. Gutes (i = 1, ..., n), dann hält man durch einige Umformungen zunächst für
den allgemein formulierten Preisindex:

 PI0,t=∑ptiqi∑p0iqi=∑qip0i⋅ptip0i∑p0iqi=∑qip0i∑p0iqi⋅ptip0i=∑gi⋅ptip0i

Der Quotient  ptip0i wird häufig als Preismesszahl bezeichnet. Er gibt an, wie sich der Preis – ohne
Betrachtung der Mengen – des jeweiligen, d.h. des i. Gutes, verändert hat. Für das o.e. Beispiel 70
sind die Preismesszahlen  p20021p20011=1510=1,5 für die Bücher,  1,31=1,3 für die Cola
sowie  10,8=1,25 für die Nudeln.
Der Ausgabenanteil  gi wiederum gibt an, welcher Teil der Gesamtausgaben für das i. Gut
ausgegeben werden. Sie sind normiert, liegen also zwischen 0 und 1, in Zeichen:  0≤gi≤1

MERKE

Merke: Ein Preisindex  PI0,t ist wegen der Gültigkeit der Formel  PI0,t=∑gi⋅ptip0i ein -


gewogenes, - arithmetisches Mittel, - der Preismesszahlen.

Unterschied zwischen Laspeyres und Paasche


Man sieht, dass die Preisindices nach Laspeyres und nach Paasche sich hierin unterscheiden: jener
nach Laspeyres gewichtet mit den Mengen der Basisperiode, jener nach Paasche mit den Mengen
der Berichtsperiode. Konkret:

MERKE

Laspeyres-Preisindex

 PIL0,t=∑p0iq0i∑p0jq0j⋅ptip0i=∑gi⋅ptip0i
Genauso für Paasche. Paasche-Preisindex
 PIP0,t=∑p0iqti∑p0jqtj⋅ptip0i, d.h. gi=p0iqti∑p0jqtj

Also errechnet man nach dem Vorgehen über die Ausgabenanteile:

 die Ausgabenanteile nach Laspeyres sind  gi=p0iq0i∑p0jq0j


o der Nenner des Ausdrucks  gi sind die Gesamtausgaben des Basisjahres,
also  ∑p0jq0j=780
o der Ausgabenanteil der Bücher ist  g1=10⋅20780=0,2564, jene für Cola
lautet  g2=500⋅1780=0,6410 und für die Nudeln gilt  g3=100⋅0,8780=0,1026
 die Preismesszahlen sind  p61p01=1510=1,5 für die Nudeln (der Preis nahm – unabhängig
von der Menge – um 50 % zu), für die Cola  1,31=1,3 und  10,8=1,25 für die Nudeln.
 Der Preisindex nach Laspeyres berechnet sich damit als

 PIL0,t=∑ptiq0ip0iq0i=∑p0iq0i∑p0jq0j⋅ptip0i=10⋅2010⋅20+1⋅500+0,8⋅100
⋅1510+1⋅500780⋅1,31+0,8⋅100780⋅10,8=0,2564⋅1,5+0,641⋅1,3+0,103⋅1,25
=1,3467

 Für den Preisindex nach Paasche erhält man

 PIP0,t=∑ptiqtip0iqti=∑p0iqti∑p0jqtj⋅ptip0i=10⋅3010⋅30+1⋅600+0,8⋅80⋅1
510+1⋅600964⋅1,31+0,8⋅80964⋅10,8=0,31⋅1,5+0,622⋅1,3+0,066⋅1,25=1,35
61

MERKE

Merke:

 Die Ausgabenanteile  gi sind keine Mengenanteile, sondern dividieren im Zähler und im


Nenner monetäre Größen.
 Der Ausgabenanteil des Basisjahres von z.B.  g1=0,2564 gibt bspw. an, dass 25,65 % der
Ausgaben im Jahr 2001 für Bücher getätigt wurden.
 Die Ausgabenanteile der Paasche-Formel lassen sich nicht unmittelbar verstehen, da hier die
Preise und Mengen, die jeweils miteinander multipliziert werden, nicht aus ein- und
derselben Periode stammen.

Der Preisindex nach Paasche lässt sich wie folgt als harmonisches Mittel schreiben. Darüber hinaus
notieren wir die Formel für den Laspeyres-Index nochmals dabei, was für das Verständnis der
folgenden „MERKE”-Position sehr wichtig ist.
 PIP0,t=1∑p0iq0i∑p0jq0j⋅p0ipti

sowie

 PIL0,t=∑p0iq0i∑p0jq0j⋅ptip0i

MERKE

Merke:

 Der Preisindex nach Laspeyres ist ein gewogenes arithmetisches Mittel der Preismesszahlen,


wobei die Gewichte die Umsatzanteile der Berichtsperiode sind.
 Der Preisindex nach Paasche hingegen ist ein harmonisches Mittel der Preismesszahlen,
wobei die Gewichte die Umsatzanteile der Basisperiode sind.

 1LückentextNr. 1
 2LückentextNr. 2
 3MC-Aufgabe Nr. 1
 4MC-Aufgabe Nr. 2

Lückentext Nr. 1

Aufgabe 1 von 4

Bitte die Lücken im Text sinnvoll ausfüllen.

Der Preisindex nach Laspeyres stellt ab auf die Mengen der  .

Lösen

Indexrechnung mit Preisindizes


Vorlesen

Im folgenden Lernvideo wird nochmals genauer eingegangen auf die Indices nach Laspeyres und
nach Paasche. Außerdem wird der sogenannte Wertindex erläutert.
Lernvideo - Indexrechnung
Play Video

 Mengenindizes
Definition Mengenindizes
Vorlesen

Zusätzlich zu den Preisindices lassen sich auch Mengenindices (oder: Mengenindizes) ausmachen.


Hierzu werden zunächst die Preise konstant gehalten, d.h.  pti=p0i und die Veränderung der
Mengen betrachtet.
Ein Mengenindex  MI0,t lässt sich deswegen allgemein definieren als

MERKE

Formel Mengenindex
 MI0,t=∑piqti∑piq0i

 1Preis- und Mengenindex

Preis- und Mengenindex

Aufgabe 1 von 1

Bitte bilde Paare zwischen den Elementen auf der rechten und der linken Seite.

die Menge bleibt konstant und die Veränderung


Preisindex
Preise wird untersucht

die Preise bleiben konstant und die Veränderun


Mengenindex
Menge wird untersucht
Lösen

Mengenindizes nach Laspeyres und Paasche


Vorlesen

Auch bei den Mengenindizes unterscheidet man wiederum einen

 Mengenindex nach Laspeyres  MIL0,t=∑p0iqti∑p0iq0i und einen


 Mengenindex nach Paasche  MIP0,t=∑ptiqti∑ptiq0i.

Laspeyres rechnet mit Preisen der Basisperiode 0, Paasche mit Preisen der Berichtsperiode t. Analog
die Interpretation als arithmetisches Mittel, diesmal von Mengenmesszahlen  qtiq0i:

MERKE

Mengenindex nach Laspeyres

 MIL0,t=∑p0iq0i∑p0jq0j⋅qtiq0i

Mengenindex nach Paasche

 MIP0,t=∑ptiq0i∑ptjq0j⋅qtiq0i

Laspeyres gewichtet demnach die Mengenmesszahlen mit Zahlen der Basisperiode, Paasche
hingegen mit Zahlen der Berichtsperiode.

Berechnung am Beispiel
Konkret für Beispiel 70:

 MIL2001,2002=10⋅30+1⋅600+0,8⋅8020⋅10+1⋅500+0,8⋅100=964780=1,2359

 MIP2001,2002=15⋅30+1,3⋅600+1⋅8015⋅10+1,3⋅500+1⋅100=13101050=1,2476

Auch hier wieder die Interpretation mit dem gewogenen arithmetischen Mittel der
Mengenmesszahlen:
 MIL0,t=10⋅2010⋅20+1⋅500+0,8⋅100⋅3020+1⋅500780⋅600500+0,8⋅100780⋅8010
0=0,2564⋅1,5+0,641⋅1,2+0,1026⋅0,8=1,2359
für den Mengenindex nach Laspeyres und
 MIP0,t=15⋅2015⋅20+1,3⋅500+1⋅100⋅3020+1,3⋅5001050⋅600500+1⋅1001050⋅801
00=0,2857⋅1,5+0,619⋅1,2+0,0952⋅0,8=1,2476
für jenen nach Paasche.

 Mengenindex nach Laspeyres  MIL0,t=∑p0iqti∑p0iq0i und einen


 Mengenindex nach Paasche  MIP0,t=∑ptiqti∑ptiq0i

Mengenindizes nach Laspeyres


Play Video

Mengenindizes nach Paasche


Play Video

 1Lückentext Nr. 1
 2MC-Aufgabe Nr. 1
 3MC-Aufgabe Nr. 2
 4Paarbildung

Lückentext Nr. 1

Aufgabe 1 von 4

Bitte die Lücken im Text sinnvoll ausfüllen.

In der Aggregatformel des Mengenindex nach Laspeyres stehen die Umsätze

der  im Nenner.

Lösen

 Wertindizes
Der Wertindex
Vorlesen

Der sog. Wertindex WI ist nun der Umsatz der Berichtsperiode, dividiert durch den Umsatz der
Basisperiode:

MERKE

Wertindex
 WI=∑ptiqti∑p0iq0i

Konkret ist hier der Wertindex also

 WI=∑ptiqti∑p0iq0i=1.310780=1,6795

MERKE

Merke: Es gilt folgende Beziehung zwischen Mengen- und


Preisindices:  PIL0,t⋅MIP0,t=PIP0,t⋅MIL0,t= Wertindex.

Man rechnet
 PIL0,t⋅MIP0,t=1,3467⋅1,2476=1,6801 und
 PIP0,t⋅MIL0,t=1,3589⋅1,2359=1,6795,
was beide Male, bis auf Rundungsfehler, die gewünschte Zahl, nämlich den Wertindex, ergibt.

 1LückentextNr. 1
 2LückentextNr. 2
 3MC-Aufgabe Nr. 1

Lückentext Nr. 1

Aufgabe 1 von 3

Bitte die Lücken im Text sinnvoll ausfüllen.

Beim Wertindex stehen die Umsätze der  im Zähler.


Lösen

 Weitere Indizes
Übersicht weitere Indizes
Vorlesen

Alternativ zu den Indices nach Laspeyres und Paasche existieren noch jene nach

 Lowe,
 Fisher und
 Marshall-Edgeworth.

Diese einzelnen Indices werden in den folgenden Kapitel kurz erläutert.

Index nach Lowe


Vorlesen

Der Index nach Lowe ist der erste, der hier kurz behandelt werden soll.

MERKE

Preisindex nach Lowe:


 PILowe0,t=∑ptiqi∑p0iqi
wobei die  qi nun nicht mehr die Mengen selbst sind, sondern vielmehr:

 qi=1t+1∑k=1t+1qki

Lowe verwendet also das arithmetische Mittel  qi der Mengen der einzelnen Perioden. Im Nenner
steht hierbei t+1, da bis zur t. Periode, also der Berichtsperiode, insgesamt t+1 Perioden vergangen
sind, wenn man in der nullten Periode, also der Basisperiode, anfängt zu zählen. Analog errechnet
sich ein Mengenindex nach Lowe, diesmal mit arithmetischen Mitteln der Preise:

MERKE

Mengenindex nach Lowe

 MILowe0,t=∑qtipi∑q0ipi mit pi=1t+1∑k=1t+1pki
Berechnung am Beispiel
Konkret für das Beispiel 70 des Düsseldorfer Studenten Hubert:

 Preisindex nach
Lowe  q1=11+1∑1+1k=1qk1=12(20+30)=25, q2=12(600+500)=550,
 q3=12(100+80)=90. Also ist der Preisindex nach Lowe

 PILowe0,t=15⋅25+1,3⋅550+1⋅9010⋅25+1⋅550+0,8⋅90=1180872=1,3532

 Mengenindex nach
Lowe  p1=11+1∑1+1k=1pk1=12(10+15)=12,5, p2=12(1,3+1)=1,15 und
 p3=12(1+0,8)=0,9.
Also  MILowe0,t=30⋅12,5+600⋅1,15+80⋅0,920⋅12,5+500⋅1,15+100⋅0,9=1137915=1,2426.

 1Lückentext Nr. 1

Lückentext Nr. 1

Aufgabe 1 von 1

Bitte die Lücken im Text sinnvoll ausfüllen.

Der Preisindex nach Lowe verwendet das arithmetische Mittel der   der
einzelnen Perioden.

Lösen

Fisherscher Idealindex
Vorlesen

Der Preisindex bzw. Mengenindex nach Fisher ist das geometrische Mittel der entsprechenden


Indices nach Laspeyres und Paasche. Also

MERKE
Preisindex nach Fisher

 PIFisher0,t=PIL0,t⋅PIP0,t−−−−−−−−−√

Mengenindex nach Fisher

 MIFisher0,t=MIL0,t⋅MIP0,t−−−−−−−−−−√

Konkret rechnet man damit

 Preisindex nach Fisher


 PIFisher0,t=1,3467⋅1,3561−−−−−−−−−−−−√=1,3514 und
 Mengenindex nach Fisher
 MIFisher0,t=1,2359⋅1,24751−−−−−−−−−−−−−√=1,2417

 1Lückentext Nr. 2
 2MC-Aufgabe Nr. 1

Lückentext Nr. 2

Aufgabe 1 von 2

Bitte die Lücken im Text sinnvoll ausfüllen.

Der Preisindex nach Fisher ist das geometrische Mittel der Preisindices

nach   und Paasche.

Lösen

Marshall-Edgeworth-Preisindex
Vorlesen

Der Marshall-Edgeworth-Preisindex ist der letzte, der in diesem Kurs betrachtet wird. Dieser


benutzt einen Warenkorb, der die Verbrauchsmengen der Basis- und der Berichtsperiode mittelt:

MERKE
Preisindex nach Marshall-Edgeworth
 PIME0,t=∑pti(q0i+qti)∑p0i(q0i+qti)

Also konkret an bereits bekannten Beispiel:

 PIME0,t=15⋅(20+30)+1,3⋅(500+600)+1⋅(100+80)10⋅(20+30)+1⋅(500+600)+
0,8⋅(100+80)=1,3532

 1MC-Aufgabe Nr. 2
 2Paarbildung

MC-Aufgabe Nr. 2

Aufgabe 1 von 2

Welche der folgenden Aussagen über den Preisindex nach Marshall-Edgeworth ist
richtig?

Im Nenner steht die Summe aus den Preisen der Berichtsperiode, jeweils multipliziert mit der
Summe aus den Mengen der Basis- und der Berichtseriode.

Im Zähler steht die Summe aus den Preisen der Basisperiode, jeweils multipliziert mit der Summe
aus den Mengen der Basis- und der Berichtseriode.

Im Zähler steht die Summe aus den Preisen der Berichtsperiode, jeweils multipliziert mit der Summe
aus den Mengen der Basis- und der Berichtseriode.

Lösen

 Umbasierung und Verkettung von


Indizes
Die Rundprobe
Vorlesen

Ein weiteres wichtiges Thema in der Indexrechnung ist die Verkettung und Umbasierung.


Problematisch wird die Interpretation von Preis- und auch von Mengenindices, wenn diese sich
auf unterschiedliche Basisperioden beziehen. So kann man sagen, dass
bei  PI00,01=1,1 ;  PI00,02=1,2 ;  PI00,03=1,35
sich das Preisniveau im ersten Jahr um 10 % erhöht hat, um danach um 20 %, im letzten Jahr sogar
um 35 % zu steigen (alle Angaben im Vergleich zum Basisjahr t = 2000!). Wie interpretiert man
allerdings dann
 PI00,01=1,1 ;  PI00,02=1,2 ;  PI00,03=1,35 ;  PI02,03=1,2; PI03,04=1,3 ?

Die Rundprobe
Die letzten beiden Indices haben einen ganz anderen Bezugspunkt, d.h. ein anderes Basisjahr. Ideal
wäre es, wenn ein Preisindex die sogenannte Rundprobe erfüllt.

MERKE

Rundprobe
 PI0,t=PI0,1⋅PI1,2⋅PI2,3⋅…⋅Pit−1,t
Man könnte dann die jeweiligen Preisindices unterschiedlicher, aber benachbarter Perioden,
aufmultiplizieren und würde schließlich nach t-facher Multiplikation den Preisindex erhalten zum
Berichtsjahr t (und zum ersten auf der rechten Seite gewählten Basisjahr 0).

MERKE

Merke: Leider hat von den o.g. Indices nur der Lowe-Index die Eigenschaft, die Rundprobe zu
erfüllen.

Berechnung am Beispiel

BEISPIEL

Beispiel 71:
Wir erweitern das Beispiel 70 des Düsseldorfer Studenten Hubert:
Bücher Cola Nudeln

Jahr Menge Preis Mengen Preis Menge Preis


n n

200 20 10 500l 1€/l 100kg 0,8€/kg


1

200 30 15 600l 1,3€/l 80kg 1€/kg


2

200 35 20 650l 1,5€/l 100kg 0,9€/kg


3

200 40 22 700l 1,3€/l 120kg 0,8€/kg


4

Genügt der Laspeyres-Index der Rundprobe?


Die Preisindices nach Laspeyres sind

 PIL02,03=∑p03q02∑p02q02=20⋅30+1,5⋅600+0,9⋅8015⋅30+1,3⋅600+1⋅80=15721
310=1,2
und
 PIL03,04=1170780=1,5
Es müsste also gelten
 PIL03,04=PIL01,02⋅PIL02,03⋅PIL03,04⇔1,5=1,347⋅1,2⋅0,9603⇔1,5=1,5522, was
aber nicht stimmt. Der Laspeyres-Index genügt also im vorliegenden Beispiel (und damit allgemein)
nicht der Rundprobe.
In einem weiteren Beispiel wird gezeigt, das die Rundprobe jedoch beim Lowe-Preisindex Gültigkeit
besitzt.

BEISPIEL

Beispiel 72:
Zeige am vorliegenden Beispiel 71 die Gültigkeit der Rundprobe für den Lowe-Preisindex.
 PILowe01,02=1,3532, wie oben errechnet. Für den Preisindex zum Basisjahr 0 = 2002 und dem
Berichtsjahr t = 2003 rechnet man
 q1=11+1∑(k=1)(1+1)qk1, also
 q1=12(30+35)=32,5;q2=12(600+650)=625 und  q3=12=(80+100)=90.
Damit ist

 PILowe02,03=∑ptiqi∑p0iqi=20⋅32,5+1,5⋅625+0,9⋅9015⋅32,5+1,3⋅625+1⋅90=1.
668,51.390=1,20036
Den Preisindex nach Lowe für 0 = 03 und t = 04 rechnet man wieder die q-Werte als arithmetisches
Mittel der Mengen aus:  q1=21, q2=675 und  q3=110. Der Preisindex selbst ist dann

 PILowe03,04=20⋅21+1,3⋅675+0,8⋅11020⋅21+1,5⋅675+0,9⋅110=1.427,51.531,5=
0,9321
Der Preisindex nach Lowe schließlich zum Basisjahr 0 = 01 und zum Berichtsjahr t = 2004 ist
nämlich  q1=14(20+30+35+40)=31,25,  q2=612,5 und  q3=100.

 PILowe01,04=22⋅31,25+1,3⋅612,5+0,8⋅100⋅10⋅31,25+1⋅612,5+0,8⋅110=1.563,75
1.005=1,55597
 PIL0,14=PIL01,02⋅PIL02,03⋅PIL03,04=1,3532⋅1,20036⋅0,9321=1,514,
also stimmt die Rundprobe (wenn man von Rundungsungenauigkeiten absieht).

 1Lückentext Nr. 1
 2MC-Aufgabe Nr. 1

Lückentext Nr. 1

Aufgabe 1 von 2

Bitte die Lücken im Text sinnvoll ausfüllen.

Bei der Rundprobe wird überprüft, ob der Preisindex zum Berichtsjahr t und zum

Basisjahr 0 nichts anderes ist als ein  von Preisindices, wobei Berichts- und
Basisjahr jeweils nur genau ein Jahr voneinander entfernt liegen.

Lösen

Umbasierung
Vorlesen

Unter Umbasierung einer Zeitreihe von Indexwerten versteht man, dass man die Basisperiode
ändert. Dies geschieht durch die Umrechnung

MERKE

Umbasierung von Zeitreihenwerten


 PI∗k,t=PI0,tPI0,k
und zwar von der 0. auf die k. Periode.
Dieser durch Umbasierung errechnete Wert stimmt allerdings nur dann generell mit dem
tatsächlichen Wert  PI0,t überein, wenn die o.g. Rundprobe erfüllt ist.

Umbasierung am Beispiel
Für das Beispiel 70 des Düsseldorfer Studenten Hubert möchte man z.B. die Zahlen umbasieren auf
das Basisjahr 0 = 2002. Man rechnet für die Laspeyres-Indices
 PI∗2002,2003=PI01,03PI01,02=1,58971,3462=1,1809 und
 PI∗2003,2004=PI01,04PI01,03=1,51,5897=0,9435.
Beide Werte stimmen nicht überein mit den wahren Werten
 PIL2002,2003=20⋅30+1,5⋅600+0,9⋅8015⋅30+1,3⋅600+1⋅80=15721310=1,2 und
 PIL2003,2004=22⋅35+1,3⋅650+0,8⋅10035⋅20+1,5⋅650+0,9⋅100=16951795=0,9603.
Das liegt daran, dass der Laspeyres-Preisindex die Rundprobe nicht erfüllt.

 1LückentextNr. 2
 2MC-Aufgabe Nr. 2

Lückentext Nr. 2

Aufgabe 1 von 2

Bitte die Lücken im Text sinnvoll ausfüllen.

Bei der Umbasierung einer Zeitreihe wird die   geändert.


Lösen

Verkettung
Vorlesen

Unter Verkettung von Indices versteht man, dass man benachbarte


Indexwerte  PI0,1, PI2,3, …, Pt−1,t aufmultipliziert und das Ergebnis ansieht als (theoretisch
geltenden) Index mit der Basis-Periode 0 und der Berichtsperiode t:

MERKE

Verkettung
 PI∗0,t=PI0,1⋅PI1,2⋅PI2,3⋅…⋅PIt–1,t
Wenn der so erzeugte Indexwert  PI∗0,t mit dem wahren Index  PI0,t übereinstimmt, dann ist
diese Verkettung unmittelbar die Rundprobe.

 1Lückentext Nr. 3

Lückentext Nr. 3

Aufgabe 1 von 1

Bitte die Lücken im Text sinnvoll ausfüllen.

Verkettung bedeutet unmittelbar die Überprüfung Gültigkeit der  .

Lösen