Beruflich Dokumente
Kultur Dokumente
der
deskriptiven
Statistik
Einleitung
Statistische Datenauswertung
Vorlesen
Bevor wir uns mit der statistischen Datenauswertung befassen, müssen wir wissen, um
welche Daten es sich handelt. Dieses Kapitel wird häufig etwas „stiefmütterlich” behandelt, sollte
aber trotz allem gerade im Hinblick auf die Bearbeitung, Auswertung und Interpretation der Daten
in den anschließenden Kapiteln beachtet werden. So ist es z.B. nicht möglich bzw. führt zu einer
Fehlinterpretation, von jedem Merkmal jeden beliebigen Mittelwert zu berechnen – Was ist der
Mittelwert aus „männlich” und „weiblich”, bzw. was sollte er mir sagen?
Häufig wird in Klausuraufgaben auch „nur” gefordert, einen geeigneten Mittelwert oder ein
geeignetes Zusammenhangsmaß zu berechnen. Geeignet heißt hierbei, sich über die Qualität der
vorliegenden Daten bewusst zu sein (meist, welche Skalierung vorliegt), um dann die hierfür
angebrachte statistische Maßzahl zu bestimmen.
Ein weiterer Grund, dieses Kapitel nicht zu vernachlässigen, wird uns in der Praxis begegnen, wenn
wir selber, sei es im Studium im Rahmen eines Seminars bzw. der Diplom-/ Masterarbeit oder im
Beruf (z.B. bei Marketinganalysen, als Berater in volkswirtschaftlichen Fragestellungen oder im
Controlling etc.) mit der statistischen Datenauswertung in Berührung kommen. Schon einmal (für
viele erfreulicherweise) vorweg: „Per Hand” wird in der Paxis (fast) nichts mehr berechnet. Dies
überlässt man dem Computer, der einem alles (und wirklich alles!) ausgibt. Hier liegt aber auch das
größte Problem: Ein Computer ist DUMM! Er erkennt nicht, um was für Daten es sich handelt und
berechnet uns alle möglichen statistischen Kennzahlen, egal ob sinnvoll oder nicht. Meist werden
diese sogar ohne unser Zutun automatisch mit ausgegeben, ob sie sinnvoll sind, kann der Computer
nicht entscheiden, das müssen wir mit unserem Wissen tun.
Wir müssen entscheiden, was wir mit dem angegebenen Mittelwert aus z.B. „männlich” und
„weiblich” anfangen oder hoffentlich besser nicht anfangen. Die Sensibilität hierfür, als (wichtige)
Voraussetzung, schaffen wir mit diesem Kapitel.
Im folgenden Video werden wichtige Begriffe der deskriptiven Statistik erklärt. Diese stellen eine
Grundlage für das Verständnis der weiteren Kapitel dar.
Masse und
Merkmal
Statistische Masse
Vorlesen
BEISPIEL
Beispiel 1:
Der Personalbestand des Statistik-Lehrstuhls Ihrer Universität im Jahre 2009 bildet eine statistische
Masse, die Mitarbeiter selbst die statistischen Einheiten.
Ob eine statistische Einheit zur statistischen Masse gehört, muss nach den Abgrenzungskriterien
unterschieden werden:
Man beachte den Unterschied zwischen "statistischer Masse" und "statistischen Maßen". Beide
Begriffe existieren, bedeuten aber etwas vollkommen unterschiedliches. Die "statistischen Maße", zu
denen wir später noch kommen, sind z.B. arithmetisches Mittel und Standardabweichung...
Bestandsmassen können zu
einem bestimmten Zeitpunkt
(Stichtag) gezählt werden.
Merkmalsträger, die zur
Bestandsmasse zählen, weisen
eine bestimmte Verweildauer
auf. Hierzu zählt demnach der
Personalbestand des Statistik-
Lehrstuhls (zum Stichtag
31.12.2009).
Bewegungsmassen treten nur
zu bestimmten Zeitpunkten
(innerhalb einer Periode) auf. Sie
werden daher erfasst, indem sie
beim Auftreten innerhalb einer
Periode (Zeitraum) gezählt
werden. In unserem Beispiel sind
dies alle Neueinstellungen und
Kündigungen des
Statistiklehrstuhls im Jahre 2009.
MERKE
BEISPIEL
Beispiel 2:
• Kontobewegungen auf dem eigenen Girokonto sind Bewegungsmassen, da sie zu bestimmten
Zeitpunkten auftreten, jedoch nicht genau zum Erhebungszeitpunkt (Stichtag, bspw. 24.08.2009;
10:32 Uhr).
• Der Kontostand hingegen ist eine Bestandsmasse. Er wird durch die Kontobewegungen verändert.
• Der Kapitalstock einer Firma ist eine Bestandsmasse, Investitionen und Abschreibungen
(Verschleiß) hingegen sind Bewegungsmassen, die den Kapitalstock (Bestandsmasse) verändern.
1Lückentext Nr. 1
2Lückentext Nr. 2
3Lückentext Nr. 3
4MC-Aufgabe Nr. 1
5MC-Aufgabe Nr. 2
6Unterschied zwischen Bestands- und
Bewegungsmassen
Lückentext Nr. 1
Aufgabe 1 von 6
Lösen
Statistisches Merkmal
Vorlesen
BEISPIEL
Beispiel 3:
Am Personal (die einzelnen Mitarbeiter sind also die Merkmalsträger) des Statistik-Lehrstuhls wird
das Merkmal „Geschlecht” untersucht, das mit den Merkmalsausprägungen „männlich” und
„weiblich” auftreten kann. Der Mitarbeiter Dr. Matthias Median weist den Beobachtungswert
„männlich” auf.
BEISPIEL
Beim Personal des Statistik-Lehrstuhls wird zum Einen das Geschlecht (1. Merkmal), zum Anderen
aber auch die Haarfarbe (2. Merkmal) und darüber hinaus noch das Alter (3. Merkmal) untersucht.
BEISPIEL
Beispiel 4.1 - Häufbare Merkmale:
BEISPIEL
qualitative Merkmale: Die
Ausprägungen lassen sich verbal
beschreiben und nicht direkt
durch Zahlen.
BEISPIEL
Farben,
Geschlechter,
Nationalitäten.
quantitative Merkmale: Die
Ausprägungen können durch
reelle Zahlen dargestellt werden
und sind insofern "zählbar".
BEISPIEL
MERKE
MERKE: Die Tatsache, dass qualitative Ausprägungen nicht „rechenbar” sind, heißt nicht, dass sie
Zahlen gegenüber vollkommen unzugänglich sind. So lassen sich qualitative Merkmale
„quantifizieren”, wenn man ihnen Zahlen zuordnen und diese Zuordnung auch wieder
zurückverfolgen kann, sie also eineindeutig ist.
Man kann z.B. jeder weiblichen Mitarbeiterin des Statistik-Lehrstuhls die Zahl „1” und jedem
männlichen die Zahl „2” zuordnen. Bei einem Mitarbeiter mit einer „2” ist sofort bekannt, dass es
sich um eine männliche, mit einer „1” um eine weibliche Person handelt.
Die Zuordnung von Zahlen darf jedoch nicht (immer) so verstanden werden, dass man mit diesen
Zahlen auch rechnen darf. Bei „1” und „2” könnte man auf die Idee kommen, diese Zahlen zu
addieren, aber was sollte das dahinter liegende Ergebnis „3” = „weiblich” plus „männlich” bedeuten
bzw. wie sollte es interpretiert werden?
Warum führt man eine solche Zahlenzuordnung (= Codierung) überhaupt durch? Der Grund liegt
schlicht und allein in einer einfacheren Auswertung (meist mittels statistischer
Computerprogramme) der erfassten Daten. Sie haben sicherlich schon einmal einen Fragebogen
ausgefüllt bzw. zumindest vorliegen gehabt. Vielleicht ist Ihnen dabei aufgefallen, dass hinter den
Antwortmöglichkeiten Zahlencodes standen, diese werden für die statistische Auswertung
verwendet. Es ist eben einfacher, das Merkmal „17” zu erfassen als die zugehörige Ausprägung
„Diplom-Statistiker”.
1LückentextNr. 4
2LückentextNr. 5
3MC-Aufgabe Nr. 3
4MC-Aufgabe Nr. 4
5MC-Aufgabe Nr. 5
6Merkmalsträger, Merkmal,
Merkmalsausprägungen
7Merkmalsträger, Merkmal,
Merkmalsausprägungen
8Merkmalsträger, Merkmal,
Merkmalsausprägungen
Lückentext Nr. 4
Aufgabe 1 von 8
Wenn innerhalb ein- und derselben statistischen Masse genau ein Merkmal untersucht
Lösen
Skalierungen
Grundlagen Skalierung
Vorlesen
Entscheidend für den weiteren Umgang mit Daten ist die Skalierung der Merkmalsausprägungen.
So dürfen bspw. die in Kapitel 3 behandelten Lagemaße nicht auf jedes Merkmal angewandt
werden, sondern es muss vorher geprüft werden, ob die Skalierung des Merkmals z.B. die
Berechnung des arithmetischen Mittels auch zulässt bzw. ob wir dieses Lagemaß dann auch sinnvoll
interpretieren können. Im Folgenden fangen wir mit der niedrigsten Skala an und werden
anschließend, auf deren Eigenschaften aufbauend, die jeweils nächsthöhere ableiten.
Nominalskala,
Ordinalskala,
metrische Skalen (=
Kardinalskalen),
o Intervallskala,
o Verhältnisskala und
o Absolutskala.
1MC-Aufgabe Nr. 1
2MC-Aufgabe Nr. 2
MC-Aufgabe Nr. 1
Aufgabe 1 von 2
Nominalskala
Absolutskala
Intervallskala
Lösen
Nominalskala
Vorlesen
Bei Nominalskalen sind die Werte entweder gleich oder verschieden. Eine Reihenfolge ist nicht
erkennbar, Abstandsbildung macht daher auch keinen Sinn. Wir halten folgendes fest.
MERKE
MERKE: Jedes nominalskalierte Merkmal ist immer auch ein qualitatives Merkmal.
Man kann also z.B. bei (dem Merkmal) Geschlecht lediglich sagen, dass (die Merkmalsausprägung)
„weiblich” etwas anderes ist als „männlich”, nicht hingegen, dass sie besser oder schlechter sei.
BEISPIEL
Geschlechter,
Farben,
Nationalitäten,
Religionen,
Postleitzahlen
Hier sei nochmal auf das Beispiel der Zuordnung des qualitativen = nominalskalierten Merkmals
Geschlecht mit einer Zahl verwiesen. Die Zahlenzuordnung „weiblich” = „1” und „männlich” = „2”
heißt nun nicht, dass Männer doppelt so gut sind wie Frauen, auch wenn viele Männer dies gerne
glauben.
Ähnlich sieht es bei Postleitzahlen (PLZ) aus: Auch wenn die Zuordnung der Postleitzahlen den
Anschein macht, dass eine Reihung / Ordnung existiert, so ist diese doch rein willkürlich und
lediglich geographisch vorgenommen worden. Dass mit der Zuordnung von Zahlen die
geographische Lage ungefähr erkennbar ist, lässt nämlich keinen Rückschluss auf eine Reihung zu.
Mit anderen Worten: Berliner sind nicht deshalb „besser” als „Essener”, nur weil ihre PLZ mit einer 1
beginnt und nicht mit einer 4.
BEISPIEL
1LückentextNr. 1
2LückentextNr. 2
3MC-Aufgabe Nr. 3
Lückentext Nr. 1
Aufgabe 1 von 3
Lösen
Ordinalskala
Vorlesen
Die Ordinalskala ist eine "Rangskala". Zusätzlich zu den Eigenschaften der Nominalskala lässt sich
eine Reihenfolge oder Rangfolge angeben. Die Abstände, insbesondere Vergleiche der Abstände,
sind jedoch weiterhin nicht sinnvoll interpretierbar.
BEISPIEL
Beispiel 8 - Ordinalskala:
• Schul- / Klausurnoten: sehr gut (1), gut (2), befriedigend (3), ausreichend (4), mangelhaft (5),
ungenügend (6).
• Güteklassen von Restaurants und Hotels: Fünf Sterne, Vier Sterne, ..., Ein Stern, Null Sterne
Man kann z.B. beim Merkmal der Klausurnoten sagen, dass die einzelnen Noten unterschiedlich
sind. Außerdem ist „sehr gut” besser als „gut”, „befriedigend” besser als „mangelhaft” etc. Es wäre
jedoch falsch zu sagen, der Abstand zwischen den Noten sehr gut und gut sei genau so groß wie
zwischen ausreichend und mangelhaft. Vor allem lässt sich nicht feststellen, dass ein Student mit
der Note Eins in der Statistikklausur doppelt so begabt ist wie jener mit der Note Zwei.
1MC-Aufgabe Nr. 4
MC-Aufgabe Nr. 4
Aufgabe 1 von 1
Auf der Ordinalskala lässt sich lediglich eine Reihenfolge feststellen, allerdings keine Unterschiede.
Auf der Ordinalskala lassen sich sowohl eine Reihenfolge als auch Unterschiede feststellen.
Auf der Ordinalskala lässt sich lediglich Unterschiede feststellen, nicht aber eine Reihenfolge.
Lösen
Metrische Skalen
Vorlesen
Intervallskala,
Verhältnisskala und
Absolutskala
unterscheiden.
1Lückentext Nr. 3
2Lückentext Nr. 4
3Lückentext Nr. 5
4Lückentext Nr. 6
5Lückentext Nr. 7
6Skalen
Lückentext Nr. 3
Aufgabe 1 von 6
Lösen
Die Intervallskala (= Einheitsskala) ist eine metrische Skala. Die Abstände sind hier sinnvoll
interpretierbar, es existiert jedoch kein natürlicher Nullpunkt und auch keine natürliche Einheit.
Hierbei ist der Begriff „natürlich” immer so zu verstehen, dass der Mensch keine willkürfreie
Wahlmöglichkeit hat, den natürlichen Nullpunkt bzw. die natürliche Einheit also nicht beeinflussen
kann. Einfacher: Die natürliche Einheit / der natürliche Nullpunkt ist unveränderlich.
BEISPIEL
Beide Merkmale zeichnen sich durch Differenzengleichheit aus, d.h. der Abstand ist messbar und
interpretierbar. Eine Erhöhung der Körpertemperatur von 37,5° auf 38,5°C ist genauso groß wie von
40° auf 41°C. Im Unterschied hierzu ist der Leistungsunterschied zwischen einer Fünf und einer Vier
bei den Klausurnoten nicht der gleiche wie zwischen einer Zwei und einer Eins.
Bei den Längengraden auf der Erde ist der Nullpunkt der nullte Grad, der durch das Observatorium
von Greenwich bei London geht und wurde damit vom Menschen willkürlich gewählt. Bis 1884 gab
es noch weitere „Nullmeridiane”, der bekannteste dürfte seit Dan Browns Bestseller „Sakrileg” der
Pariser Meridian und seine erfundene „Rosenlinie” sein. Auch die Einheit ist nicht natürlich: Ein
Längengrad wird dadurch definiert, dass vom nullten Längengrad durch Greenwich einmal um die
Erde „gewandert” und diese Distanz in 360 gleiche Grade eingeteilt wird. Man hätte aber genauso
gut nur 100 Einteilungen wählen können.
Der Nullpunkt 0°C der Temperaturmessung ist willkürlich, da Herr Celsius speziell den Gefrierpunkt
des Wassers gewählt hat. Bei der Wahl des Gefrierpunktes anderer Stoffe oder des Siedepunktes
wäre der Nullpunkt ein anderer. Genauso wurde die Einheit 1°C von Anders Celsius willkürlich
gewählt, denn er unterteilte die Distanz zwischen Gefrierpunkt (0°C) und Siedepunkt des Wassers
(100°C) in 100 gleiche Teile und nannte diese Teile dann 1°C.
MERKE
MERKE: Die Intervallskala hat – wegen der fehlenden Existenz des natürlichen Nullpunkts – den
Nachteil, dass Verhältnisse auf ihr nicht gleich bleiben und somit nicht interpretierbar sind. Man
sollte deswegen auf der Intervallskala nicht dividieren, lediglich Differenzen besitzen eine
Aussagekraft, nicht jedoch Quotienten.
BEISPIEL
Beispiel 10:
Bei der Temperaturmessung in °C gilt offenbar 20°C10°C=2, d.h. man würde sagen, dass 20°C
doppelt so warm ist wie 10°C. Rechnen wir die Celsius-Grade in Grad Fahrenheit (°F) um, so gilt
wegen der Umrechnungsformel °F=95°C+32, dass eine Temperatur von 20°C einer
Temperatur von 95⋅20°C+32=68°F entspricht, analog ist 10°C dann 50°F. Die zweite
Temperatur ist dann aber nicht mehr doppelt so groß wie die
erste: 68°F50°F=1,36 ≠ 2=20°C10°C. Die Aussage „ist doppelt so warm wie”, die bei der
Einteilung in °C noch nachvollziehbar war, macht auf der Fahrenheit-Skala für die gleiche
Temperatur also keinen Sinn mehr.
1MC-Aufgabe Nr. 5
2MC-Aufgabe Nr. 6
MC-Aufgabe Nr. 5
Aufgabe 1 von 2
Lösen
Die Verhältnisskala, auch "Ratioskala" genannt, ist eine weitere metrische Skala. Im Gegensatz zur
Intervallskala existiert ein natürlicher Nullpunkt, lediglich die Einheit bleibt willkürlich festgelegt.
BEISPIEL
Beispiel 11 - Verhältnisskalen
Längenmessung/
Größenmessung in Metern
Gewichtsmessung in kg, in
Pfund etc.
Bei der Größenmessung ist der Nullpunkt „0 m” insofern natürlich, als er vom Menschen nicht
beeinflussbar ist. „Null ist nichts.” Weniger als Null Meter groß kann man nicht sein. Die Einheit „1 m”
hingegen ist willkürlich festgelegt. Der physikalisch interessierte Leser kann noch heute den sog.
Urmeter in Sèvres bei Paris besichtigen.
Wichtig auch: die Temperaturmessung in Kelvin ist verhältnisskaliert, denn der Nullpunkt "0 Kelvin"
ist vom Menschen insofern nicht beeinflussbar, als dass er den "absoluten Nullpunkt" angibt (wenn
der Autor die physikalischen Zusammenhänge hier richtig verstanden hat, so bewegen sich ab 0
Kelvin die Elektronen im Atom nicht mehr, so dass es "nicht mehr kälter geht"... Hingegen ist die
Temperaturmessung in Grad Celsius als auch in Grad Fahrenheit intervallskaliert, denn dort ist der
Nullpunkt, wie im Vorkapitel erläutert, willkürlich.
MERKE
BEISPIEL
Beispiel 12:
Der Torwart-Titan Olli Banane ist 2 m, der etwas kürzer geratene Mittelfeldspieler Ditte Keßler nur 1
m groß.
Olli ist nun wegen 2m1m=2 doppelt so groß wie Ditte. Rechnet man beide Größen nun in das
ältere bzw. heute noch gültige amerikanische Größenmaß Fuß (foot, ft) um, so werden wir
feststellen, dass Olli auch in den USA genau doppelt so groß ist wie Ditte. Ein Meter entspricht
3,2808 amerikanischen Fuß, Olli ist somit 2⋅3,2808=6,5616 ft groß und Ditte 3,2808 ft. Olli
bleibt aber wegen 6,5616 ft3,2808 ft=2=2m1m doppelt so groß wie Ditte, da hilft ihm auch ein
Umzug nichts.
MERKE
MERKE: Natürlicher Nullpunkt muss nicht bedeuten, dass keine negativen Werte angenommen
werden können. So ist z.B. der Kontostand verhältnisskaliert, da null €, also kein Geld auf dem Konto
zu haben, ein willkürfreier Wert ist. Allerdings ist es durchaus möglich, dass unser Konto einen
negativen Kontostand, d.h. Schulden, aufweist.
1LückentextNr. 8
2MC-Aufgabe Nr. 7
3MC-Aufgabe Nr. 8
Lückentext Nr. 8
Aufgabe 1 von 3
Lösen
Bei der letzten hier betrachteten metrischen Skala, der Absolutskala, sind die Abstände messbar
und insbesondere sind Nullpunkt und Einheit natürlich.
BEISPIEL
Beispiel 13 - Absolutskala:
Bestimmung Skalenniveau
Nachdem alle Skalen betrachtet und definiert worden sind, wird an dieser Stelle eine Hilfe gegeben
um die richtige Skalierung ermitteln zu können.
EXPERTENTIPP
Prüfe das Merkmal anhand der Eigenschaften der jeweiligen Skala beginnend mit der niedrigsten
(Nominalskala):
Ist die Eigenschaft einer Skala nicht mehr erfüllt, so ist die nächstgeringere Skala die zutreffende.
Wenn also ein Merkmal mindestens verhältnisskaliert ist, weil der Nullpunkt natürlich ist und dann
zusätzlich bekannt wird, dass die Einheit auch natürlich ist, so ist die Absolutskala anzuwenden.
Wenn ein Merkmal also im Verdacht steht, verhältnisskaliert zu sein, weil der Nullpunkt natürlich ist
und dann aber bekannt wird, dass diese doch nicht der Fall ist, so ist höchstens die Intervallskala
richtig.
1Lückentext Nr. 9
2MC-Aufgabe Nr. 9
3Skalen
4Zuordnung
Lückentext Nr. 9
Aufgabe 1 von 4
Lösen
Skalenniveau bestimmen
Vorlesen
Das folgende Video zeigt zusammenfassend nochmals die unterschiedlichen Skalenniveaus und gibt
Hilfestellungen wie sich das richtige Skalenniveau bestimmen lässt.
Aufgabe Skalierung
Vorlesen
Aufgabe Skalenniveau:
Welche Skalierung haben die Merkmale Gewicht und Schulbildung? Hier gibt es die Lösung. An
diesem Beispiel wird auch deutlich wie das optimale Vorgehen bei der Bestimmung des
Skalenniveaus ist.
Das Merkmal Gewicht ist auf jeden Fall mindestens nominalskaliert. Außerdem ist eine Rangfolge
bestimmbar: 100 kg ist schwerer als 50 kg, somit ist es auch zusätzlich ordinal skalierbar. Die
Abstände sind messbar, also liegt eine metrische Skalierung und zumindest ein intervallskaliertes
Merkmal vor.
Des Weiteren existiert beim Gewicht ein natürlicher Nullpunkt, nichts zu wiegen ist nun einmal 0 kg
und nichts anderes – es muss sich also um ein verhältnisskaliertes Merkmal handeln. Eine natürliche
Einheit liegt jedoch nicht vor, Kilogramm oder Pfund ist eine willkürlich festgelegte Einheit. Es kann
sich somit nicht um ein absolut skalierbares Merkmal handeln, das Gewicht ist somit kardinal - bzw.
speziell verhältnisskaliert.
Schulbildung ist selbstverständlich nominal skaliert. Des Weiteren kann die Schulbildung gereiht
bzw. geordnet werden: Abitur ist besser als Realschule, dieses ist wiederum besser als Hauptschule
und dies wiederum besser als gar kein Abschluss. Abstände bei der Schulbildung können jedoch
nicht gemessen werden (die Anzahl der Schuljahre sagt nichts über das Bildungsniveau aus), es lässt
sich nichts darüber aussagen, „um wie viel” Abitur besser ist als ein Realschulabschluss, lediglich
dass es besser ist. Schulbildung ist somit nicht kardinalskaliert und es liegt ein ordinalskaliertes
Merkmal vor.
Skalentransfor
mation
Grundlagen Skalentransformation
Vorlesen
Eine Umwandlung in eine andere Skala ist nur zu einer niedrigeren möglich und damit auch immer
mit Informationsverlust verbunden. Eine Transformation in eine höherwertige Skala ist nicht
möglich. Es sei denn, man hat das Merkmal vorher in eine schlechtere Skala transformiert und kennt
noch die Ursprungseigenschaften und kann diese dann natürlich zurücktransformieren oder man
hat sich bewusst vorher für eine schlechtere Skala entschieden, obwohl eine höherwertige möglich
gewesen wäre.
Beispiel Skalentransformation
BEISPIEL
Beispiel 14:
Hühnereier werden nach Gewicht eingeteilt. Ein Ei sei 50 g schwer, ein zweites 60 g. Es wurde schon
festgestellt, dass das Gewicht metrisch, genauer gesagt sogar verhältnisskaliert ist.
Teilen wir jedoch die Eier in die üblichen Gewichtsklassen S (unter 53 g), M (53 bis unter 63 g), L (63 –
73 g) und XL (über 73 g) ein, so fällt das 50 g Ei in die Gewichtsklasse S und das 60 g Ei in die
Gewichtsklasse M. Die Einteilung ist nunmehr nur noch ordinalskaliert und uns sind somit wertvolle
Informationen verloren gegangen:
Wir wissen nun nur noch, dass das zweite Ei (M) schwerer ist als das erste (S), allerdings nicht mehr
um wie viel. Nichtsdestotrotz kann eine Transformation in eine niedrigere Skala manchmal sinnvoll
sein, wir werden bei der Klassierung hierauf zurückkommen.
schließen.
Wegen dieser Eigenschaft – nämlich dass man in beide Richtungen schließen kann – nennt man die
vorliegende Skalentransformation umkehrbar eindeutig bzw. eineindeutig.
1LückentextNr. 1
2MC-Aufgabe Nr. 1
Lückentext Nr. 1
Aufgabe 1 von 2
Lösen
Wir hatten ebenfalls schon festgestellt, dass sich die ordinal klassierten Klausurnoten „sehr gut” bis
„ungenügend” transformieren lassen nach „1” bis „6”. Eine andere Möglichkeit existiert in der
Schweiz (und vor dem zweiten Weltkrieg auch in Deutschland), wo ein „sehr gut” einer „6” bis hin zu
„ungenügend” einer „1” entspricht. Man merkt hier, dass die Skalentransformationen eineindeutig
ist, denn man kann hin- und zurückschließen. Zusätzlich wird aber auch die Reihenfolge eingehalten.
Die Merkmalsausprägungen sehr gut, gut,..., ungenügend sind in derselben Reihenfolge angeordnet
wie die Zahlen 1, 2,...,6 bzw. 6, 5,...,1 in der Schweiz.
Die Skalentransformation auf der Ordinalskala ist also eineindeutig und streng monoton, d.h. die
Reihenfolge wird jeweils eingehalten.
Beispiel Skalentransformation
Das Wort „jeweils” ist sehr wichtig. Die Einhaltung der Reihenfolge bzw. der strengen Monotonie
kann also auch bedeuten, dass die Reihenfolge genau verdreht wird, d.h. aus Klein wird Groß und
aus Groß wird Klein:
sehr gut 1 6
gut 2 5
befriedigen 3 4
d
ausreichend 4 3
mangelhaft 5 2
ungenügend 6 1
Man weiß aber, dass die deutsche Note 3 an der dritten Stelle steht und die Schweizer Note 4
deshalb auch an der dritten Stelle, genauso die deutsche Note 6 an der letzten Stelle, so wie die
Schweizer Note 1. „Streng monoton” heißt also lediglich, dass die Reihenfolge für sich, also jeweils,
beibehalten wird.
Durch die Skalentransformation der Schulnoten sehr gut, gut, befriedigend,... auf die Zahlen 1,2,3,...
könnte man auf die Idee kommen, man dürfte mit diesen Noten rechnen wie mit Zahlen (z.B. als
Mittelwert der Notenverteilung 1,2,3,3,6 die Note (1 + 2 + 3 + 3 + 6):5 = 3). Dies ist aber falsch, da
man dies bei den eigentlich dahinterstehenden Noten nicht kann: „sehr gut + gut“ lässt sich nicht
ausrechnen. Der geeignete Mittelwert ist daher auch nicht das arithmetische Mittel, sondern, wie
später noch gezeigt wird, der sog. Median. Statistisch gesehen ist also die Berechnung des
Notendurchschnitts, wie es in der Schule oder im Studium gemacht wird, falsch.
EXPERTENTIPP
Hinweis:
Beachte, dass dies trotzdem „überall“ gemacht wird. Auch Prüfungsämter von Universitäten ordnen
den Noten der Studenten Zahlen zu (aus „sehr gut“ wird „1“, aus „gut“ wird „2“ etc.) und berechnen
hieraus als Durchschnittsnote das arithmetische Mittel.
1Lückentext Nr. 2
2MC-Aufgabe Nr. 2
Lückentext Nr. 2
Aufgabe 1 von 2
Lösen
Skalentransformation auf der Kardinalskala
Vorlesen
MERKE
BEISPIEL
Beispiel 15:
Dr. Matthias Median, Mitarbeiter des Statistik Lehrstuhls, fliegt zu der Tagung „Skalierungen: Ein
statistisches Übel?” in die USA nach Boston. Beim Aussteigen aus dem Flugzeug wird ihm gesagt, es
sei 68°F warm. Was bedeutet diese Grad-Fahrenheit Temperatur in Grad-Celsius?
MERKE
Merke: Mathematisch und statistisch korrekt sowie von einigen Autoren auch vorgeschlagen ist
sogar, den Parameter c nur ungleich Null zu wählen. Wie schon zuvor angemerkt wurde, war die
ursprüngliche Celsius-Skala von 100 (Gefrierpunkt) bis 0 (Siedepunkt) skaliert. Die Umwandlung auf
unsere heute bekannte Einteilung erfolgte nach der Regel: ∘Cneu=−∘Calt+100, beide
Einteilungen besitzen für uns aber den gleichen Informationsgehalt und sind intervallskaliert,
obwohl die Transformationsregel der gebräuchlichen Vorschrift widerspricht.
BEISPIEL
Beispiel 16:
Als häufiger Nutzer der Fluglinie „AeroShrott” hat Dr. Median wieder fleißig Bonusmeilen
gesammelt. Ihm wird mitgeteilt, dass er 3.500 Meilen auf dem Flug nach Boston gutgeschrieben
bekommt. Er möchte nun wissen, wie viel Kilometer er zurückgelegt hat. In seinem Reiseführer
steht, dass eine Meile etwa 1,6 km entsprechen. Er ist also 3.500⋅1,6=5.600km geflogen. Beide
Entfernungsangaben sind verhältnisskaliert und bleiben dies auch bei einer Umrechnung.
MERKE
MERKE
Merke: Man kann Stückzahlen wie die Anzahl von Tischen in einem Raum nicht umrechnen. Drei
Tische sind einfach drei Tische, es gibt keine andere Zahl hierfür.
1Lückentext Nr. 3
2MC-Aufgabe Nr. 3
3Anforderungen an eine
Skalentransformation
Lückentext Nr. 3
Aufgabe 1 von 3
Die Tatsache, dass Verhältnisse auf der Intervallskala nicht gleich bleiben, liegt bei der
Lösen
Abzählbarkeit
Diskrete Merkmale
Vorlesen
Merkmale lassen sich weiterhin einteilen nach der Abzählbarkeit. Hier wird zwischen diskreten
Merkmalen und stetigen Merkmalen unterschieden. Ein Merkmal heißt diskret, wenn es
nur abzählbar viele Werte annimmt. Eine Menge heißt wiederum abzählbar, wenn man sie abzählen
kann.
Klingt tautologisch, ist aber schwerer als man denkt:
BEISPIEL
Beispiel 17:
Die Anzahl der Menschen auf der Erde ist endlich, also abzählbar. Wenn die Erde und die
Menschheit unendlich lange existieren, dann ist die Gesamtanzahl der Menschen, die auf der Erde
lebten und leben werden abzählbar, aber unendlich groß.
MERKE
Merke: Ein diskretes Merkmal ist also dadurch gekennzeichnet, dass es „Löcher” hat. So ist die
Augenzahl eines Würfels 1 oder 2 oder 3 usw., aber nicht 1,23 und nicht 1,79 etc. Genauso im
beschriebenen Beispiel der Menschen: es gibt im Laufe der Zeit 314.000 oder 314.001 Menschen,
aber nicht 314.000,739.
BEISPIEL
Beispiel 18:
Die Anzahl der Personen in einem Hörsaal oder in der Eissporthalle (zählbar von 0 bis 5.000, je nach
Fassungsvermögen des Hörsaals oder der Halle). Ebenso ist der Kontostand eines Einlegers diskret
(zählbar in 1 Cent Schritten von -10.000 € oder weniger bis +100.000 € oder mehr, je nach Vermögen
des Einlegers).
1LückentextNr. 1
2LückentextNr. 2
3MC-Aufgabe Nr. 1
Lückentext Nr. 1
Aufgabe 1 von 3
Lösen
Stetige Merkmale
Vorlesen
Nun zu den stetigen Merkmalen. Ein Merkmal heißt stetig, wenn es überabzählbar viele Werte
annehmen kann. Es ist damit durch zwei Eigenschaften gekennzeichnet:
EXPERTENTIPP
Beispiel
Beispiel 19:
Die Körpergröße eines Menschen ist ein stetiges Merkmal, da wir theoretisch unendlich genau
messen könnten. Selbst wenn wir nur in cm oder mm messen können, so liegt z.B. zwischen 178 cm
und 179 cm noch der Wert 178,5 cm und zwischen 178 und 178,5 cm noch der Wert 178,25 cm usw.
EXPERTENTIPP
Für die Unterscheidung zwischen diskret und stetig bieten sich auch folgende beide Merkregeln an:
Abschließend gibt die folgende Abbildung Aufschluss über diskrete und stetige Merkmale:
BEISPIEL
Beispiel 20a:
Ist die Anzahl der Menschen auf dieser Erde diskret oder stetig?
Sie ist diskret, denn es sind abzählbar viele (etwas unter 7.000.000.000 derzeit. Eine zwar sehr große
Zahl, aber trotzdem endlich viele und also abzählbar. Man könnte die Menschen in einer Reihe
aufstellen, wenn man wollte, und abzählen...
BEISPIEL
Beispiel 20b:
Ist die Anzahl der Menschen der Menschheit (von Anbeginn der Zeit bzw. des Menschen bis zum
möglichen Ende) auf dieser Erde diskret oder stetig?
Sie ist diskret, denn es sind abzählbar viele (bis jetzt haben nach Wissen des Autors maximal
14.000.000.000 Menschen gelebt. Eine zwar sehr große Zahl, aber trotzdem endlich viele und also
abzählbar.) Man könnt auch diese Menschen in einer Reihe aufstellen, wenn man wollte, und
abzählen.
Selbst wenn die Menschheit unendlich lange existieren sollte und also unendlich viele Menschen
existieren werden, so werden es schließlich doch "nur" abzählbar unendlich viele Menschen sein,
nämlich soviele wie natürliche Zahlen existieren...
1Lückentext Nr. 3
2Lückentext Nr. 4
3MC-Aufgabe Nr. 2
4Zuordnung
Lückentext Nr. 3
Aufgabe 1 von 4
Wenn man es absolut genau nimmt, ist das Gewicht eines Menschen ein stetiges
Merkmal. Da man allerdings nicht unendlich genau messen kann, hat man schließlich
nur endlich viele Werte zur Auswahl und misst (!) also .
Lösen
Quasistetige
Merkmale und
Klassierung
Gründe für quasistetige Merkmale
Vorlesen
Oftmals ist es für die statistische Weiterverarbeitung zweckmäßig von den getroffenen Einteilungen
abzuweichen und Merkmale anders zu behandeln als sie es tatsächlich sind. So werden bspw.
eigentlich diskrete Merkmale wie stetige behandelt oder es wird bewusst ein Informationsverlust in
Kauf genommen, in dem stetige Merkmale in diskrete umgewandelt oder sogar wie bei der
Skalentransformation angeführt in eine geringere Skala transformiert werden.
Quasistetige Merkmale
Vorlesen
Liegen bei einem diskreten (aber kardinal skalierten) Merkmal sehr viele Ausprägungen vor bzw.
liegen die Abstände „relativ” eng beieinander, so kann es sich anbieten, dieses diskrete wie ein
stetiges Merkmal zu behandeln. Um diese (Quasi-) Verstetigung kenntlich zu machen, bezeichnet
man es als quasistetiges Merkmal.
BEISPIEL
Beispiel 21:
Die Einwohnerzahl einer Stadt oder eines Landes ist ein diskretes Merkmal. Zweckmäßigerweise
betrachtet man es trotzdem als quasistetig, da es sich so besser analysieren lässt. So ist z.B. die
Aussage, dass die Fruchtbarkeitsrate/Fertilität (durchschnittliche Zahl der Geburten einer
gebärfähigen Frau) in Deutschland bei 1,38 Kindern liegt natürlich nicht korrekt: 1,38 Kinder kann
eine Frau auch bei derzeitigem medizinischen Fortschritt nicht gebären.
„Anzahl der Geburten” sowie „Anzahl der Frauen” sind beides diskrete Merkmale und demnach
müsste es heißen, dass die Fertilität bei eins oder zwei liegt bzw. dass auf hundert Frauen im
gebärfähigen Alter 138 Geburten kommen. Allerdings wäre v.a. die erste Angabe recht
unbefriedigend, da sie „zu ungenau” ist und deshalb bietet es sich hier an, die Bevölkerungszahl als
quasistetiges Merkmal zu betrachten, da es hierdurch auch nicht zu einer fehlerhaften
Interpretation der Ergebnisse kommt (wenn man sich der Tatsache, dass die Bevölkerung ein
diskretes Merkmal ist, bewusst ist).
BEISPIEL
Beispiel 22:
Weitere, als quasistetig behandelbare Merkmale sind
Preise in Cent,
Währungen,
Einkommen,
i.d.R. alle Stückzahlen.
1MC-Aufgabe Nr. 1
MC-Aufgabe Nr. 1
Aufgabe 1 von 1
Der Unterschied zwischen „diskret“ und „stetig“ hängt von der Messgenauigkeit ab. Wenn man die
Körpergröße eines Menschen mit dem Lineal misst und also genauestenfalls in Centimetern, so ist
die Messung zwar diskret, in Wahrheit aber stetig.
Der Unterschied zwischen „diskret“ und „stetig“ hängt von der Messgenauigkeit ab. Wenn man die
Körpergröße eines Menschen mit dem Lineal misst und also genauestenfalls in Centimetern, so ist
die Messung zwar stetig, in Wahrheit aber diskret.
Der Unterschied zwischen „diskret“ und „stetig“ hängt nicht von der Messgenauigkeit ab. Wenn man
die Körpergröße eines Menschen mit dem Lineal misst und also genauestenfalls in Centimetern, so
ist die Messung stets stetig.
Lösen
Klassierung
Vorlesen
Auch die umgekehrte Vorgehensweise, ein stetiges (bzw. quasistetiges) als diskretes Merkmal zu
behandeln bzw. wie schon erwähnt ein kardinal in ein ordinal skaliertes Merkmal zu transformieren
kann u.U. zweckmäßig sein.
Hierbei werden Merkmalsausprägungen, z.B. weil jede Ausprägung zu selten vorkommt, zu Gruppen
oder Klassen zusammengefasst. Diesen Vorgang nennt man auch Gruppierung (= Klassierung) von
Daten.
Im Beispiel 14 wurde bereits eine Klassierung des metrisch skalierten Merkmals des Gewichts von
Eiern in die Gewichtsklassen S, M, L und XL beschrieben. Hierbei hatten wir festgestellt, dass mit der
Klassierung ein Informationsverlust einhergeht. Dieser wird jedoch in Kauf genommen, da es
zweckmäßiger erscheint, die Eier nach Gewichtsklassen einzuteilen und zu verpacken, als von jedem
Ei getrennt und einzeln das Gewicht auszuweisen.
BEISPIEL
Beispiel 23:
Bei der statistischen Erfassung der Einkommenshöhen von Haushalten und bei der Ausgabe der
Einkommensverteilung z.B. im Statistischen Jahrbuch werden die Einkommen in Klassen bspw. von
je 1.000 € eingeteilt.
Dies hat zum einen bei der Datenerhebung den Grund, dass viele Haushalte überhaupt nicht wissen,
wie hoch ihr konkretes Einkommen ist und des Weiteren die Akzeptanz zur Angabe des
Haushaltseinkommens steigt, wenn dieses nur innerhalb bestimmter Grenzen angegeben werden
muss. Zum anderen macht die Klassierung auch bei der Auswertung und Ausgabe der Daten
dahingehend Sinn, dass die Darstellung aber v.a. die Übersichtlichkeit und damit der „visuelle
Informationsgehalt” der Daten wesentlich verbessert werden kann. Wir werden hierauf im nächsten
Kapitel bei der Darstellung der Daten zurückkommen.
MERKE
Merke: Bei jeder Transformation, egal ob in die eine oder andere Richtung, sollten wir beachten,
dass wir die Daten anders behandeln, als sie tatsächlich vorliegen:
1MC-Aufgabe Nr. 2
MC-Aufgabe Nr. 2
Aufgabe 1 von 1
Die Menge A = {1,2,3} lässt sich in vier mögliche Variationen klassieren.
Die Menge A = {1,2,3} lässt sich in unendlich vielen möglichen Variationen klassieren.
Die Menge der natürlichen Zahlen N = {1,2,3,4,5,6,7,8,...} kann nicht klassiert werden.
Lösen
Selbstkontrolla
ufgabe zu den
Grundbegriffe
n der
deskriptiven
Statistik
Aufgabe Merkmale
Vorlesen
Merkmal
Haarfarbe
Nationalität
Nummernschilder
Beruf
Alter
Haushaltsgröße in Personen
Telefonnummer
Hausnummer
Längengrade
Geschlecht
Freizeitbeschäftigung
Sparguthaben
Gewicht
Religionszugehörigkeit
Geburtsdatum
Schulbildung
Postleitzahlen
Einkommen
Noten
Körpergröße
Kleidergrößen
Wenn eine Klassierung i.d.R. vorgenommen wird, das Merkmal ist es jedoch nicht, so wird es als
nicht klassiert charakterisiert (z.B. Inhalt von Bierflaschen, Einkommen). Es bedeuten:
c) n ... nominal; o ... ordinal; m.i. ... metrisch, Intervallskala; m.v. ... metrisch, Verhältnisskala und m.a.
... metrisch absolut skaliert
Merkmal a) b) c) d) e)
Man beachte z.B., dass Nummernschilder nicht häufbar sind, denn dasselbe Auto darf nicht
mehrere (ungleiche) Nummernschilder besitzen.
Weiterhin gibt es bei Berufen zwar durchaus Hierarchien (Chefarzt, Oberarzt, Stationsarzt,...), dies
aber im gleichen Beruf. Insofern blicken wir hier von diesen Hierarchien ab und betrachten nur
unterschiedliche Berufe, die folglich nominalskaliert sind, nicht aber mit einer Reihenfolge versehen,
nicht also ordinalskaliert.
Kapitelabschlusstest
Sie sind zum Kapitelabschlusstest zugelassen.
Häufigkeitsverteilungen
Unklassierte Daten und ihre Darstellung
Grundlagen der Häufigkeitsverteilung
Vorlesen
BEISPIEL
Beispiel 24:
Dr. Median hielt das Seminar „Häufigkeiten und ihre Darstellung” mit 20 Studenten ab. Abschließend
ließ er zu diesem Thema einen Test schreiben, wobei folgende Noten erzielt wurden:
53451145342544455252
Dr. Median möchte nun die Verteilung der Noten geeignet darstellen, damit er diese, wie üblich, am
Schwarzen Brett des Statistik-Lehrstuhls aushängen kann. Da er dies ungern selber tut, beauftragt
er uns mit dieser wichtigen Aufgabe.
Zunächst stellen wir hierzu die Urliste der besseren Übersicht wegen in Form einer Tabelle auf.
Hierbei tragen wir in der ersten Zeile den Laufindex i ein, der in unserem Fall von 1 bis n = 20 läuft.
In der zweiten Zeile ordnen wir dann die zugehörigen Merkmalsausprägungen xi an:
I 1 2 3 4 5 6 7 8 9 1 11 1 13 1 1 16 1 18 1 20
0 2 4 5 7 9
5 3 4 5 1 1 4 5 3 4 2 5 4 4 4 5 5 2 5 2
xi
BEISPIEL
Beispiel 25:
Der dritte Wert ist x3=4, der folgende hingegen x5=1, der 20. Wert lautet x20=2.
Aus der Urliste bilden wir nun eine sogenannte geordnete Urliste, indem die
Merkmalsausprägungen der Größe nach sortiert werden:
1 1 2 2 2 3 3 4 4 4 4 4 4 5 5 5 5 5 5 5
1Lückentext Nr. 1
Lückentext Nr. 1
Aufgabe 1 von 1
Häufigkeiten
Vorlesen
In der geordneten Urliste haben wir gesehen, dass einzelne Werte mehrfach erscheinen. Deshalb
schreiben wir vereinfachend nur noch die Zahlen auf, die vorkommen, und zwar ebenfalls geordnet:
12345
unterscheiden.
Absolute Häufigkeiten
Vorlesen
ai 1 2 3 4 5
h(ai) 2 3 2 6 7
Es gilt also z.B. h(a3)=h(3)=2, weil die dritte Ausprägung die Zahl 3 ist und diese zweimal
vorkommt. Die Summe aller absoluten Häufigkeiten muss dabei der Gesamtzahl der
Beobachtungswerte n entsprechen, in unserem Beispiel also n = 20. Wir schreiben hierfür:
∑j=1mh(aj)=n
oder kürzer
∑h(aj)=n
alles aufsummieren müssen, benutzen wir einen sog. Laufindex und schreiben unter das
Summenzeichen ∑ den Startwert, z.B. i = 1 oder j = 1 und über das ∑ den gewünschten
Endwert, z.B. n oder m oder 20 etc. In unserem obigen Beispiel bedeutet dies:
∑j=1mh(aj)=h(a1)+h(a2)+h(a3)+h(a4)+h(a5)=2+3+2+6+7=20=n.
Summieren wir über alle Werte auf also z.B. von i = 1 bis n oder von j = 1 bis m, so lässt man die
Angaben unter und oberhalb des ∑ einfach weg und schreibt anstatt
∑j=1mh(aj)
nur noch
∑h(aj)
Existieren mehrere Indizes, wir möchten aber nur über einen bestimmten aufsummieren, so
schreibt man kürzer nur den Index, über den aufsummiert werden soll unter das ∑:
∑i=1nai⋅bj
wird zu
∑iai⋅bj
Wir wollen also nur über i aufsummieren, der Index j bleibt konstant. In Kapitel 6 wird uns noch die
Doppelsumme „ ∑∑ ” begegnen, dies bedeutet nichts anderes, als dass wir mit dem Laufindex
des ersten Summenzeichens beginnen, diesen auf den Startwert setzen und dann einmal über alles
des zweiten Summenzeichens aufsummieren. Erhöhen wir nun den Laufindex des ersten
Summenzeichens um Eins und summieren wieder über alles des zweiten Summenzeichens auf usw.
Auch hier kürzen wir häufig ab, indem wir nur den Laufindex unter das ∑ schreiben, wenn wir
über alles aufsummieren wollen:
∑i=1n∑j=1mai⋅bj=∑i∑jai⋅bj
=a1⋅b1+a1⋅b2+...+a1⋅bm
+a2⋅b1+a2⋅b2+...+a2⋅bm
+an⋅b1+an⋅b2+...+an⋅bm
1Lückentext Nr. 2
Lückentext Nr. 2
Aufgabe 1 von 1
Bei der 3,4,3,3,5,2,3,1 liegt die absolute Häufigkeit des Wertes "3" bei 4.
Lösen
Relative Häufigkeit
Vorlesen
Man kann statt der absoluten auch die relative Häufigkeit f(aj) oder kurz fj beobachten. Diese
ergibt sich dadurch, dass wir die absolute Häufigkeit h(aj) durch die Anzahl der Beobachtungen n
teilen:
f(aj)=1n⋅h(aj) Relative Häufigkeit.
Die relative Häufigkeit f(aj) gibt uns den Anteil einer Ausprägung aller Beobachtungen an. Für das
o.e. Beispiel erhält man folgende relative Häufigkeiten:
ai 1 2 3 4 5
Die Note 1 wurde demnach von zwei von den 20 Studenten bzw. von 220⋅100 der Studenten
geschrieben. Die Summe der relativen Häufigkeiten muss gleich 1 sein, d.h. ∑f(aj)=1, da hier
MERKE
Merke:
• Die Summe der absoluten Häufigkeiten h(aj) ist gleich dem Umfang der Erhebung,
d.h. ∑h(aj)=n.
• Die Summe der relativen Häufigkeiten f(aj) ist gleich 1, d.h. ∑f(aj)=1. Relative Häufigkeiten
können auch als Prozentwerte angegeben werden ( f(aj)⋅100). Im obigen Beispiel bedeutet dies,
dass genau 10 % der Studenten eine „Eins“ oder 30 % eine „Vier“ geschrieben haben. Nicht zu
verwechseln mit der Interpretation in der Wahrscheinlichkeitsrechnung. Wir dürfen nicht
behaupten, dass mit einer Wahrscheinlichkeit von 10 % eine Eins geschrieben wird! Wir haben es
hier mit tatsächlichen Beobachtungen zu tun und wollen (noch) keine Vorhersagen über die Zukunft
tätigen.
ai 1 2 3 4 5
∑
h(aj 2 3 2 6 7 20
)
f(aj 22 320 220 62 720 1
) 0 0
1LückentextNr. 3
2LückentextNr. 4
3MC-Aufgabe Nr. 1
Lückentext Nr. 3
Aufgabe 1 von 3
Zur Urliste 3,4,3,3,6,2,3,1 liegt die relative Häufigkeit des Wertes 3 bei %.
Lösen
Graphische Darstellung
Vorlesen
Die Häufigkeitstabelle ist unsere erste Darstellung des statistischen Datenmaterials. Sie bildet die
Grundlage für die weitere statistische Verarbeitung. Für eine bessere visuelle Darstellung bieten sich
jedoch eher Diagramme an, da hier oft einfacher und schneller die Verteilung der statistischen
Daten erkannt werden kann.
Bei einem Stab- oder Säulendiagramm werden auf der Abszisse (Abszisse = am Boden entlang =
waagerechte Koordinatenachse) die Beobachtungswerte aj und auf der Ordinate (Ordinate = nach
oben = senkrechte Koordinatenachse) die zugehörigen absoluten oder relativen Häufigkeiten
abgetragen. Ein Säulendiagramm lässt lediglich die Stäbe dicker werden, hat allerdings den Nachteil,
dass hier der Eindruck entsteht, dass es sich um einen Wertebereich (bspw. Note von 1,5 bis 2,5
anstatt nur die Note 2) handelt, was tatsächlich gar nicht der Fall ist. Säulendiagramme sollten
deshalb nur bei nominalskalierten Merkmalen benutzt werden. Wir sehen weiterhin, dass die Höhe
der Stäbe bzw. Säulen in den beiden Fällen der absoluten und relativen Häufigkeit gleich sind (sogar
sein müssen), lediglich die Ordinatenwerte sind unterschiedlich:
1LückentextNr. 5
2LückentextNr. 6
3MC-Aufgabe Nr. 2
Lückentext Nr. 5
Aufgabe 1 von 3
Lösen
Kreisdiagramm
Vorlesen
Für unser Beispiel ergibt sich demnach für die Note 1 der Winkel, indem wir 360° durch die absolute
Häufigkeit teilen oder mit der relativen Häufigkeit multiplizieren. Wir erhalten somit einen Winkel
von α1=0,1⋅360°=36° für die Note 1, für die Note 2
entsprechend α2=0,15⋅360°=54° usw.:
Kreisdiagramm
Das Kreisdiagramm besitzt den Vorteil, dass wir den relativen Anteil sehr leicht erkennen bzw.
visualisieren können. Wir sehen sofort, dass etwa ein Drittel der Studenten die Klausur nicht
bestanden hat (Note 5) oder dass etwas mehr als die Hälfte der Studenten die Klausuren mit
durchschnittlichem Erfolg (Note 2 bis 4) geschrieben haben, aber auch, dass die Klausur insgesamt
schlecht ausgefallen ist, da etwa zwei Drittel der Studenten die Note 4 oder 5 erhalten haben. Ein
weiterer Vorteil zeigt sich bei der Verwendung von nominalskalierten Merkmalen, da hier nicht, wie
bei Stabdiagrammen möglich, der Eindruck entsteht, es könnte sich um ordinal- oder
kardinalskalierte Merkmale handeln.
1MC-Aufgabe Nr. 3
MC-Aufgabe Nr. 3
Aufgabe 1 von 1
Angenommen, dass die nächste Bundestagswahl wie folgt ausfällt: CDU 50 %, SPD 40
%, FDP 10 %. Was lässt sich dann über das zugehörige Kreisdiagramm aussagen?
Die CDU erhält eine Fläche mit einem Winkel von 170°, die SPD von 144°, die FDP den Rest.
Die CDU erhält eine Fläche mit einem Winkel von 180°, die SPD von 144°, die FDP den Rest.
Die CDU erhält eine Fläche mit einem Winkel von 180°, die SPD von 140°, die FDP den Rest.
Lösen
Wie bereits im Kapitel zu den Grundbegriffen, im Abschnitt Quasistetige Merkmale und Klassierung
erwähnt wurde, bietet sich u.U. zur Darstellung von statistischem Datenmaterial die Klassierung an.
Nehmen wir einmal als Beispiel die Einkommensverteilung der Nettogehälter der Mitarbeiter des
Statistik-Lehrstuhls oder der Einwohner unseres Heimatortes an. Wir können davon ausgehen, dass
jede Person in Deutschland aufgrund diverser Merkmale (Alter, Familienstand,
Betriebszugehörigkeit, Qualifikation, Absetzungsmöglichkeiten etc.) ein anderes Einkommen hat. Die
Darstellung sowohl in einer Häufigkeitstabelle als auch als Stabdiagramm oder Kreisdiagramm wäre
recht mühsam und für den Betrachter auch sinnlos.
Dazu nochmal im folgenden Video eine Zusammenfassung und Unterscheidung von klassierte
Daten und unklassierte Daten.
BEISPIEL
Beispiel 26:
Dr. M. Median ist über die Klausurergebnisse nicht sehr erfreut. Um so mehr wurmt es ihn, dass bei
seiner Kollegin Dipl.-Stat. Verena Varianza in ihrem Seminar „Darf man nur der Statistik trauen, die
man selber bezahlt hat” von den 25 Studenten etwa die Hälfte mit gut oder sehr gut abgeschnitten
haben und nur 10% durchgefallen sind.
i 1 2 3 4 5 6 7 8 9 1 1 1 1 14 1 1 1 18 1 20
0 1 2 3 5 6 7 9
Punkte 33 7 6 0 98 9 6 5 66 6 9 7 5 61 5 4 1 80 4 87
xi 8 3 5 0 4 0 0 2 8 9 9
Note 5 3 4 5 1 1 4 5 3 4 2 5 4 4 4 5 5 2 5 2
und beauftragt uns, diese darzustellen, in der Hoffnung, durch eine andere Einteilung eine bessere
„Verteilung” zu erreichen. Stellen wir zunächst die Punkteverteilung mit einem Stabdiagramm dar.
Wir sehen nun lediglich, dass keine Punktzahl mehr als einmal erreicht wurde und u.U. Bereiche
innerhalb der Daten gehäuft vorkommen. In unserem Beispiel ist dies bei 50 und 60 Punkten der
Fall. Diese Häufung muss jedoch nicht bei jeder Verteilung eintreten, es hätte auch eine
gleichmäßigere Punkteverteilung der Fall sein können. I.d.R. werden wir aber durch die Darstellung
des Stabdiagramms (oder der Häufigkeitstabelle) keinen nennenswerten Informationsgewinn
erhalten:
Zur besseren Visualisierung sollten wir die Daten klassieren (= gruppieren). Zunächst muss man
hierzu die Merkmalswerte in Klassen einteilen, diese Einteilung ist jedoch oft recht willkürlich. Hierzu
teilen wir das Punktespektrum bspw. in fünf gleich breite (= äquidistante) Klassen à 20 Punkte ein
und ermitteln die jeweilige Klassenbesetzung bzw. Klassenhäufigkeit, wobei wir für die absolute
Klassenhäufigkeit die Notation hk und für die relative fk verwenden (k steht für die Klasse):
Bei der Klassierung müssen wir die Einteilung der Klassengrenzen beachten. Üblicherweise wählt
man die untere Klassengrenze geschlossen und die obere Klassengrenze offen. Dass heißt, die
Schreibweise [0;20) bedeutet in der obigen Tabelle, dass die Zahl 0 eingeschlossen ist, die Zahl 20
hingegen nicht. Wir sehen nun, dass z.B. in der ersten Klasse vier Studenten liegen, d.h. zwischen
null und zwanzig Punkten geschrieben haben oder sechs Seminarteilnehmer zwischen 60 und 80
Punkte.
MERKE
Merke: Es ist auch möglich, die untere Klassengrenze offen und die obere geschlossen zu wählen.
Bei stetigen Variablen (z.B. Einkommen) ändert sich hierdurch in den weiteren Berechnungen nichts.
Vorsicht ist jedoch, wie im vorliegenden Fall, bei diskreten Variablen geboten. Wenn wir hier nicht
aufpassen, welche Klassengrenze offen oder geschlossen ist, verändern sich möglicherweise unsere
Ergebnisse. In unserem Beispiel würden jene Personen mit exakt 60 bzw. exakt 80 Punkten in die
nächsthöhere Klasse „rutschen” und damit würde sich auch die Klassenbesetzung ändern.
unten geschlossene und oben offene Klassengrenze / Intervall [...;...) = [...;...[ = (von ... bis
unter ...)
unten offene und oben geschlossene Klassengrenze / Intervall (...;...] = ]...;...] = (von über ...
bis ...)
Weiterhin ist für eine sinnvolle Klassierung wichtig, welche Randwerte man wählt, d.h. wie weit man
nach oben (mit der obersten Klasse) und wie weit man nach unten (mit der untersten Klasse) geht.
1Lückentext Nr. 1
2MC-Aufgabe Nr. 1
Lückentext Nr. 1
Aufgabe 1 von 2
Wenn man als Rohdaten die Zahlen 3,2,3,5,4,3,1,3 hat und diese klassiert ausdrücken
möchte mit den Klassen [1,2), [2,3) und [3,6), dann liegen sechs Elemente in der
liegenden Klasse.
Lösen
Histogramm
Vorlesen
Zur graphischen Darstellung klassierter Daten verwendet man das Histogramm. Ein Histogramm ist
nun analog zu einem Säulendiagramm zu sehen, mit dem wesentlichen Unterschied, dass die
Flächen der Säulen hier die (absoluten oder relativen) Häufigkeiten widergeben und nicht ihre
Höhen. Bei äquidistanten Klassenbreiten werden häufig an der Ordinate auch Häufigkeiten
abgetragen. Dies ist zwar nicht ganz korrekt, kann zur übersichtlicheren Darstellung aber getan
werden. Bei nicht-äquidistanten Klassenbreiten wäre diese Vorgehensweise aber nicht mehr
korrekt.
MERKE
Merke: Die Ordinatenwerte, d.h. die Höhe der Rechtecke eines Histogramms, sind unerheblich für
das Verständnis. Sie werden lediglich so konstruiert, dass sie, multipliziert mit der Klassenbreite,
gleich der Häufigkeit sind.
Histogramme mit äquidistanter Klassenbreite
BEISPIEL
Beispiel 27:
Name Nettoeinkommen in €
∑ 6 1
Histogramm Beispiel
Wir können nun relativ einfach die Häufigkeit an der Ordinate ablesen, allerdings täuscht uns diese
Darstellung eine „stärker” besetzte zweite Klasse vor. Die Balken sind unterschiedlich mächtig, der
erste „passt” viermal in den zweiten hinein und wir erhalten somit den Eindruck, dass die zweite
Klasse viermal so stark besetzt ist wie die erste.
Um diesen Fehleindruck zu vermeiden, benutzen wir den Flächeninhalt zur Darstellung der
Häufigkeiten,der Ordinatenwert dient uns lediglich zu deren Ermittlung. Wie errechnet man Breite
und Höhe der Balken des Histogramms?
Die Abszissenwerte (Werte auf derjenigen Achse, die nach rechts zeigt), also die Breiten der
Rechtecke, sind bestimmt durch die jeweilige Klassenbreite (bk).
Für die Ordinatenwerte (Werte auf derjenigen Achse, die nach oben zeigt), also die Höhe der
Rechtecke, muss man die (relativen oder absoluten) Häufigkeiten der jeweiligen Klasse
dividieren durch die Klassenbreite:
Ordinatenwert = Häufigkeit : Klassenbreite
Also ist z.B. für die Höhe der ersten Klasse zu rechnen: 31000=0,003 bzw. 0,51000=0,0005 bei
absoluten bzw. relativen Häufigkeiten. Analog erhalten wir für die zweite
Klasse: 35000−1000=34000=0,00075 bzw. 0,54000=0,000125 und erhalten folgendes
korrektes Histogramm:
MERKE
Merke: Bei äquidistanter Einteilung ist das höchste Rechteck jenes mit der größten Häufigkeit. Bei
nicht-äquidistanter Einteilung hingegen kommt es auf den Flächeninhalt an, nicht auf die
Rechteckhöhe! Hier vertritt jener Balken die größte Häufigkeit, der die größte Fläche hat.
1Lückentext Nr. 2
2MC-Aufgabe Nr. 2
Lückentext Nr. 2
Aufgabe 1 von 2
Aufgabe Histogramm
Vorlesen
Dr. M. Median ist mit unserer Zusammenstellung der Punktzahlen zufrieden, da dies nun ein etwas
positiveres Bild abgibt. Beeindruckt von unserer Arbeit und unserem Wissen über Histogramme
bittet er uns, die der Notenverteilung zugrundeliegende Punkteklassierung noch einmal
darzustellen, er möchte danach entscheiden, ob er lieber die Noten wie in Abb. 3a und 3b oder die
Punkteverteilung als Histogramm aushängen sollte. Die den Noten zugrunde liegende
Punkteverteilung lautet: 5 entspricht Punktzahl [0;50), 4 entspricht [50;65), 3 entspricht der
Punktzahl [65;80), 2 entspricht [80;95) und 1 entspricht der Punktzahl [95;100).
Erstellen Sie eine Häufigkeitstabelle mit den Klassenbreiten und den Klassenhöhen.
Σ - - 20 1 100 -
Häufigkeitspolygon
Vorlesen
Zur besseren Visualisierung klassierter Daten bzw. des Histogramms wird häufig auch das
sog. Häufigkeitspolygon verwendet. Dies erhält man, wenn man die Mitten der oberen Kanten der
Rechtecke eines Histogramms miteinander verbindet. Es wird i.d.R. bis zur Merkmalsachse
verlängert, indem der erste und letzte Punkt des Häufigkeitspolygons eine halbe Klassenbreite links
und rechts der untersten bzw. obersten Klassengrenze auf die Abszisse gelegt wird. Für unser
vorheriges Beispiel erhalten wir also:
Das Häufigkeitspolygon sollte nur bei äquidistanter Klassierung verwendet werden, da nur so
gewährleistet ist, dass der Flächeninhalt unter dem Histogramm und unter dem Häufigkeitspolygon
identisch ist. Des weiteren suggeriert uns das Häufigkeitspolygon, dass die Werte innerhalb der
Klassen gleichmäßig sind und es entsteht der Eindruck, dass Merkmalsausprägungen, die tatsächlich
(teilweise auch objektiv) nicht realisiert wurden (bzw. worden sein konnten), doch eintraten. In
unserem Beispiel sieht es so aus, als ob die niedrigste Punktzahl -10 und die höchste 110 Punkte
gewesen ist, was offensichtlich nicht der Fall war.
MERKE
1Lückentext Nr. 3
Lückentext Nr. 3
Aufgabe 1 von 1
Lösen
Um nochmals auf das wichtige Thema der Klassenbildung zurück zu kommen, gibt es dazu an dieser
Stelle einen kleinen Exkurs. Hier werden Regeln und Hinweise gegeben, die bei einer Klassenbildung
zu beachten sind.
Bei der Klassenbildung stehen wir vor diversen Problemen, die wir beachten sollten. Ein
Patentrezept gibt es hierzu nicht, grundsätzlich kann hier relativ willkürlich vorgegangen werden.
Einige Regeln sollten wir aber – wenn möglich – beachten:
2. Bilde nicht zu viele (gewünschte Informationsverdichtung wird nicht erreicht) aber auch nicht
zu wenige Klassen (Struktur der ursprünglichen Daten geht evtl. verloren).
Als Regeln für die Anzahl der Klassen k bei n voneinander verschiedenen Beobachtungswerten
haben sich hierzu u.a. herausgebildet:
o k=n√ für n ≤ 100 (Faustregel)
o k=1+3,3log10 n = 1+3,3ln(n)/ln10 (Sturges-Regel)
o k = 10 bei n ≈ 100, k = 13 bei n ≈ 1.000 und k = 16 bei n ≈ 10.000 (DIN 55302, Blatt 1)
4. Versuche die Klassen homogen (= gleichmäßig) zu besetzen bzw. gehäufte Bereiche in die
Klassenmitte zu bringen.
5. Fasse Bereiche mit sehr wenigen Merkmalsausprägungen zu einer einzigen Klasse
zusammen.
6. Vermeide offene Randklassen, d.h. als untere Klasse eine Einteilung „weniger als ...” bzw. als
obere Randklasse „mehr als ...” zu verwenden. Ist dies nicht möglich, sind streng genommen
keine Histogramme darstellbar und keine statistischen Maßzahlen berechenbar. Hilfsweise
kann man für die offenen Klassen
o die sonst übliche Klassenbreite,
o die benachbarte Klassenbreite oder
o einen objektiv sinnvollen Wert
verwenden. Offene Randklassen werden zumeist bei der Einkommensverteilung gebraucht, die
Angabe einer Einkommenshöchstgrenze ist hier nicht möglich oder aus Datenschutzgründen
sogar verboten.
1MC-Aufgabe Nr. 3
MC-Aufgabe Nr. 3
Aufgabe 1 von 1
Wenn man neun Werte in einer unklassierten Häufigkeitstabelle hat, was lässt sich
dann über die Empfehlungen zur Anzahl der Klassen aussagen, um diese in eine
klassierte Häufigkeitstabelle zu übertragen?
Nach der Faustregel sollte man drei Klassen wählen, nach der Sturges-Regel allerdings vier.
Nach der Faustregel sollte man vier Klassen wählen, nach der Sturges-Regel allerdings drei.
Sowohl nach der Faustregel als auch nach der Sturges-Regel sollte man drei Klassen wählen.
Lösen
Empirische Verteilungsfunktion
Beispiel und Eigenschaften der
Verteilungsfunktion
Vorlesen
Häufig stellt sich nicht nur die Frage, wie viele Beobachtungswerte genau eine bestimmte
Merkmalsausprägung besitzt, sondern wie viele Beobachtungen liegen unterhalb einer
Merkmalsausprägung. Dafür müssen die absoluten oder relativen Häufigkeiten bis zum gesuchten
Beobachtungswert aufsummiert werden.
Es ergibt sich die absolute Häufigkeitsverteilungen H(x) sowie die
empirische Verteilungsfunktion F(x).
BEISPIEL
Beispiel 28:
Wie viele Studenten haben die Klausur bestanden, d.h. mindestens eine vier geschrieben? Gib auch
den relativen Anteil an.
Dies führt uns auf die absolute bzw. relative kumulierte Häufigkeitsverteilung. Hierbei werden die
absoluten oder relativen Häufigkeiten bis zum gesuchten Beobachtungswert aufsummiert. Formal
stellt sich dies wie folgt dar:
Bezogen auf unser Beispiel, der Anzahl der bestandenen Klausuren, bedeutet dies:
BEISPIEL
Beispiel 29:
Berechne den Wert der empirischen Verteilungsfunktion an der Stelle 4 und interpretiere ihn.
F(4)=∑aj≤4f(aj)=f(a1)+f(a2)+f(a3)+f(a4)=0,1+0,15+0,1+0,3=0,65
Also haben 13 Studenten bzw. 65 % der Studenten den Test bestanden, d.h. mindestens eine vier
geschrieben. Wir können die Häufigkeiten auch zusammenfassend darstellen:
Grafisch erhalten wir eine monoton steigende Treppenfunktion, welche an den realisierten
Merkmalsausprägungen ja gerade um ihre absolute bzw. relative Häufigkeit springt. Der Grund
hierfür liegt darin, dass Werte zwischen den Ausprägungen nicht existieren bzw. nicht realisiert
wurden, d.h. bspw., dass die Anzahl der Studenten, die mindestens eine 2,8 geschrieben haben,
genau gleich ist mit jener, die genau eine 2 geschrieben zu haben. Die Note 2,8 gibt es in unserem
Beispiel nicht.
Kumulierte Häufigkeitsverteilungen
Eigenschaften der Verteilungsfunktion und der
Häufigkeitsverteilung
Man beachte folgende Eigenschaften der Häufigkeitsverteilungen H(x) bzw. Verteilungsfunktion F(x):
limx→−∞F(x)=0
bzw.
limx→−∞H(x)=0
3. F (bzw. H) konvergiert für x gegen unendlich gegen 1 (gegen n), d.h. ab der größtmöglichen
(realisierten) Ausprägung entspricht die Häufigkeitsverteilung immer 100 % bzw. dem
Stichprobenumfang n:
limx→∞F(x)=1
bzw.
limx→∞H(x)=n
1LückentextNr. 1
2MC-Aufgabe Nr. 1
3MC-Aufgabe Nr. 2
Lückentext Nr. 1
Aufgabe 1 von 3
Bitte die Lücken im Text sinnvoll ausfüllen.
Um das wichtige Thema nochmals zu festigen wird in diesem Video eine Beispielaufgabe
vorgerechnet und gezeigt, wie eine empirische Verteilungsfunktion erstellt und dargestellt wird.
Selbstkontrollaufgaben zu den
Häufigkeitsverteilungen
Aufgabe Urliste und Median
Vorlesen
Die 20 Studenten der schönen Kreisstadt Poisson-City haben folgende Zeiten (in Tagen) für die
Vorbereitung auf ihre Statistik-Klausur benötigt:
8 3 2 1 9 10 11 2 8 4 2 5 10 7 8 9 8 9 12 12.
1 2 2 2 3 4 5 7 8 8 8 8 9 9 9 10 10 11 12 12
b) Der Median lautet 8, denn der zehnte und der elfte Wert sind jeweils 8. Links vom zehnten Wert
liegen neun andere Werte, rechts vom elften Wert liegen ebenfalls neun Werte, so dass diese beiden
"in der Mitte liegen" und mithin das arithmetische Mittel aus 8 und 8 (also 8) der Median ist.
Verteilungsmaße
Lagemaße
Modus
Vorlesen
Lagemaße,
Streuungsmaße und
Zusammenhangsmaße.
Lagemaße
Beginnen wir mit den Lagemaßen. Je nachdem, welche Skalierung vorliegt, haben wir es mit
unterschiedlichen Lagemaßen zu tun:
Modus,
Fraktile
Median und
arithmetisches Mittel.
MERKE
Beispiel
Beispiel
Beispiel 30 - Modus:
In einem Raum befinden sich acht Männer und drei Frauen. Modus ist dann „männlich”.
Der Modus sollte hauptsächlich bei eingipfligen (= unimodalen) Häufigkeitsverteilungen benutzt
werden. Hierbei ist dieser dann nämlich eindeutig bestimmt. So gibt es ihn bei zweigipfligen (=
bimodalen) Verteilungen gleich doppelt.
Was ist aber, wenn Klassen zusammengefasst und/oder Klassenbreiten vergrößert werden?
Beispiel Modus bei klassierten Daten
Klasse Klassenhäufigkeit
[0,6) 7
[6,9) 5
[9,12) 6
[12,15 2
)
[9,12) 6 3 6:3 = 2
Hier bleibt trotz Zusammenfassung der ersten beiden Klassen der Modus in der Klasse [9,12), da
diese immer noch die höchste ist. Denn sie hat zwar absolut gesehen weniger Elemente (6 statt 7)
als die Klasse [0,6), aber bezogen auf ihre deutlich kleinere Breite (3 Einheiten statt 6) hat sie mehr,
nämlich 63=2 vs. 76=1,167, was durch die Klassenhöhe angegeben wird.
1LückentextNr. 1
2MC-Aufgabe Nr. 1
Lückentext Nr. 1
Aufgabe 1 von 2
In einem Raum sind vier Männer und drei Frauen. Der Modus des Geschlechts ist
deswegen .
Lösen
Fraktile
Vorlesen
Ein weiteres Lagemaße sind sind die Fraktile bzw. Quantile, die in der Statistik eine große Rolle
spielen.
Ein α–Fraktil (= α–Quantil = α–Punkt ) xα gibt an, dass α Prozent der Werte einer geordneten
Urliste bis zu dem α– Fraktil erreicht oder gerade eben überschritten sind. Die Formel für
das α− Fraktil bei Vorliegen einer geordneten Urliste aus n Werten ist xα=xα⋅n.
Hierbei ist ⌈α⋅n⌉ die obere Gaußklammerfunktion, die einer reellen Zahl die nächst größere ganze
Zahl zuordnet.
So ist ⌈0,8⌉ = 1, ⌈1,23⌉=2, ⌈3,9⌉=4, ⌈6⌉=6 etc.
BEISPIEL
Für das Beispiel aus der Aufgabe der Statistik-Schüler der Kreisstadt Poisson-City etwa liegt folgende
geordnete Urliste vor:
1 2 2 2 3 4 5 7 8 8 8 8 9 9 9 10 10 11 12 12.
Es handelt sich um n = 20 Werte. Für das 0,1 - Fraktil rechnet man n⋅α=20⋅0,1=2, d.h. der
zweite Wert dieser Liste ist das 0,1 - Fraktil: x0,1=2. Für das 0,4 - Fraktil rechnet man 20⋅0,4=8,
d.h. x0,4=x⌈20⋅0,4⌉=x8=7.
x0,25 ist das untere Quartil, hier sind 25 % der Werte erreicht oder gerade eben
überschritten,
x0,75 ist das obere Quartil, hier sind 75 % der Werte erreicht oder gerade eben
überschritten.
Es gibt eine graphisch sehr schöne Möglichkeit, Fraktile mit Hilfe empirischer Verteilungsfunktionen
zu ermitteln. Hierzu wieder das Beispiel der 20 Studenten aus Poisson-City und ihrer
Klausurvorbereitungszeit sowie die zugehörige empirische Verteilungsfunktion:
EXPERTENTIPP
1. Berechne die Klasse, in die der Wert xα fällt (Einfallsklasse). Bilde hierzu die relative
Häufigkeit f und die kumulierte relative Häufigkeit F und schaue, bei welcher Klasse die
kumulierte relative Häufigkeit F den Wert α erreicht oder gerade eben übersteigt. Alle
weiteren Berechnungen finden innerhalb der Einfallsklasse statt.
2. Es ist x∗k−1 die untere Grenze dieser Klasse, x∗k die obere Grenze. Die relative
Häufigkeit (unkumuliert) der Einfallsklasse ist f(xk), die kumulierte relative Häufigkeit
bis vor die Einfallsklasse wird durch Fx∗k−1 angegeben.
3. Setze ein in die Formel
x=x∗k−1+x∗k−x∗k−1fxk ∗x−Fx∗k−1
Achtung:
Der Wert xα muss selbstverständlich innerhalb der Einfallsklasse liegen. Schaue also nach,
ob x∗k−1≤xα≤x∗k gilt. Rechnen wir die Methode an einem Beispiel nach.
BEISPIEL
Beispiel 32:
Die Zugehörigkeit von Lehrern an der Gauss-Schule in der sonnigen Kreisstadt Poisson-City werde
durch folgende Tabelle wiedergegeben:
Berechne das untere sowie das obere Quartil als auch den Median. Wir gehen das Kochrezept
jeweils Schritt für Schritt durch. Zunächst jedoch müssen wir die Häufigkeitstabelle erstellen.
[10;20) 5 18 0,36 1
∑ - 50 1 -
Das untere Quartil x0,25 liegt offenbar in der dritten Klasse, weil hier die kumulierte relative
Häufigkeit zum ersten Mal 25 % überschreitet. Der Index ist daher k = 3. Damit ist die untere
Klassengrenze x∗k−1=x∗3−1=x∗2=2, die obere x∗k=x∗3=5. Es
ist f(xk)=f(x3)=0,16 und Fx∗k−1=Fx∗3−1=Fx∗2=F(2)=0,22 die kumulierte relative
Häufigkeit bis vor die Einfallsklasse.
Also rechnet man
x0,25=x∗2+x∗3−x∗2(fx3⋅0,25−Fx∗2=2+5−20,16⋅(0,25−0,22)=2,5625.
Das untere Quartil ist daher x0,25=2,5625. Den Median rechnet man genauso aus. Man nennt
den Median bei klassierten Daten auch feinberechneten Median bzw. Zentralwert. Medianklasse
ist die vierte Klasse, man rechnet
x0,5=5+10−50,26⋅(0,5–0,38)=5+2,308=7,308.
Für das obere Quartil gilt
x0,75=10+20−100,36⋅(0,75–0,64)=13,056.
1Lückentext Nr. 2
2MC-Aufgabe Nr. 2
Lückentext Nr. 2
Aufgabe 1 von 2
Das dritte Dezil einer Verteilung gibt an, wo die 30 % einer Verteilung
höchstens liegen.
Lösen
Median
Vorlesen
Der Median (= Zentralwert) ist, wie schon angedeutet, ein spezielles Fraktil, nämlich der 0,5–Wert, in
Zeichen x0,5. Wegen seiner großen Bedeutung widmen wir ihm trotzdem ein spezielles Kapitel und
lassen es nicht bei der Erwähnung im Abschnitt über Fraktile. Man muss für den Zentralwert
zunächst die Urliste in eine geordnete Urliste verwandeln, um dann den Wert in der Mitte zu
erkennen.
BEISPIEL
Beispiel 33:
Gegeben seien die Schulnoten gut, gut, befriedigend, sehr gut, mangelhaft, ausreichend,
ungenügend. Gib einen geeigneten Mittelwert an. Die geordnete Urliste ist:
sehr gut, gut, gut, befriedigend, ausreichend, mangelhaft, ungenügend.
Der Wert in der Mitte, also der Median, lautet „befriedigend“.
In der Mitte bedeutet, dass genau so viele Werte links liegen wie rechts (hier jeweils genau drei
Stück). Problematisch wird diese Definition, wenn keine ungerade Anzahl von Werten vorliegt (wie
hier n = 7), sondern eine gerade Anzahl.
BEISPIEL
Beispiel 34:
Ein achter Schüler habe die Note ausreichend, ansonsten gelten die Zahlen aus dem vorherigen
Beispiel.
Angeordnet erhält man die n = 8 Werte: sehr gut, gut, gut, befriedigend, ausreichend, ausreichend,
mangelhaft, ungenügend. Nun liegen zwei Werte in der Mitte, denn es sind drei Noten links von
befriedigend und drei Noten rechts von der ersten ausreichend-Note vorhanden.
Als Median sieht man dann meistens das arithmetische Mittel der beiden Werte der Mitte an.
Definition Median
Der Median wird wie folgt definiert:
Problematisch hierbei:
Also bezogen auf das Beispiel 34: bei n = 7 ist n ungerade, d.h. x0,5=x(n+1)2=x(7+1)2=x4 =
befriedigend, denn der vierte Wert der geordneten Urliste ist befriedigend.
Bei n = 8 ist n gerade, d.h., x0,5=12⋅(xn2+xn2+1)=12⋅(x82+x82+1)=12⋅(x4+x5)=3,5, denn
in der geordneten Urliste ist befriedigend (= 3) der vierte Wert, also x4=3, und ausreichend (= 4)
der fünfte, d.h. x5=4.
Zusammenfassend einige Hilfestellungen zur Bestimmung des Median
EXPERTENTIPP
Bestimmung des Median x0,5:
n ungerade: x0,5=x(n+1)2,
n gerade: x0,5=12⋅(xn2+xn2+1).
MERKE
spezielle Fraktile:
Der Median zeichnet sich aus durch eine gewisse Optimalitätseigenschaft: Wenn man
kardinalskalierte Merkmale wählt und hiervon den Median berechnet, so ist die Summe der
absoluten Abweichungen der Beobachtungswerte von einem Punkt m dann minimal, wenn m der
Median ist, d.h. ∑mi=1|xi−m| min! ↔m=x0,5.
BEISPIEL
Beispiel 35:
Gegeben seien die Zahlen 8, 3, 3, 5, 2, 1, 3, 4.
Die geordnete Urliste ist 1 2 3 3 3 4 5 8 Median ist x0,5=3. Die Beträge der Differenzen der
Beobachtungswerte z.B. von der Zahl m = 2 sind |1–2|+|2−2|+...+|8–2|=1+0+...
+6=14, bei m = 0,5 erhält man |1–0,5|+|2–0,5|+...+|8–0,5|=0,5+1,5+...
+7,5=22,5, beim Median hingegen lediglich |1–3|+|2–3|+...+|8–3|=11. Diese Zahl 11
wird nicht unterschritten! Es gibt kein m, das eine kleinere Summe von absoluten Abweichungen der
Beobachtungswerte von sich selbst liefert als der Median.
1LückentextNr. 3
2MC-AufgabeNr. 3
3Vorgehensweise zur Bestimmung des Medians
Lückentext Nr. 3
Aufgabe 1 von 3
Lösen
Boxplot
Vorlesen
Der Boxplot stellt eine Möglichkeit dar, Lagemaße graphisch darzustellen. Die folgende Abbildung
für die Zahlen aus dem vorhergehenden Beispiel zeigt näheres:
Boxplot
Man sieht, bei welcher Zahl der Median x0,5 sowie das untere und das obere
Quartil x0,25 und x0,75 liegen. Durch die Box wird damit für das Auge auf einen Blick angedeutet,
zwischen welchen beiden Werten die mittleren 50 % der Verteilung liegen – nämlich zwischen dem
unteren sowie dem oberen Quartil. Darüber hinaus zeigt ein Boxplot an den Enden des Striches den
minimalen Wert xmin und den maximalen xmax. Außerdem kann durch einen Boxplot die Schiefe
einer Verteilung kenntlich gemacht werden. Wir gehen hierauf später ein. Für die Kleinstadt Poisson-
City aus unserem bekannten Beispiel sieht der Boxplot folgendermaßen aus:
Boxplot für die Daten der Kreisstadt Poisson-City
1LückentextNr. 4
2LückentextNr. 5
3MC-Aufgabe Nr. 4
Lückentext Nr. 4
Aufgabe 1 von 3
Das rechte Ende eines Boxplots wird durch den von statistischen Daten
bestimmt.
Lösen
Arithmetisches Mittel
Vorlesen
Auf den metrischen Skalen sind alle numerischen Operationen, also addieren, subtrahieren,
multiplizieren und dividieren, erlaubt (wenngleich nicht immer sinnvoll – so ist 20°C10°C=2 keine
sinnvolle Aussage, wie wir bei der Intervallskala gesehen hatten. Erst ab der Verhältnisskala ist auch
die Division ohne Probleme anwendbar). Man wählt deshalb als Mittelwert auf den metrischen
Skalen das arithmetische Mittel x¯ mit
x¯=1n(x1+x2+...+xn)
Dieses gewöhnliche arithmetisches Mittel wird auch als ungewogenes arithmetisches Mittel
bezeichnet.
BEISPIEL
x¯=1n∑i=1nxi
x¯=∑j=1mf(aj)⋅aj=1n⋅∑j=1mh(aj)⋅aj
Diese Formel wird benutzt, wenn einzelne Beobachtungswerte, also einzelne xi, mehrfach
vorkommen.
BEISPIEL
Beispiel 37:
Es soll das arithmetische Mittel der folgenden Zahlen ausgerechnet werden:
2, 3, 4, 3, 7, 8, 3, 2, 7, 7, 7, 9, 10, 8, 11.
Mit dem ungewogenen arithmetischen Mittel wird jeder Beobachtungswert xi gleich gewichtet. Es
ist x1=2,x2=3,x3=4,...,x15=11.
Man rechnet also
x¯=1n∑j=1nxi=115∑i=115xi=115(2+3+4+...+8+11)=6,067
j 1 2 3 4 5 6 7 8
aj 2 3 4 7 8 9 10 11
h(aj 2 3 1 4 2 1 1 1
)
f(aj 2/15 3/15 1/15 4/1 2/15 1/15 1/15 1/15
) 5
Der Wert a4=7 tritt viermal auf, deshalb ist die absolute Häufigkeit h(a4)=h(7)=4. Die
relative Häufigkeit lautet demnach
f(a4)=f(7)=1n⋅h(7)=115⋅4=415.
Man fasst also Werte zusammen, die gleich sind und kann dadurch das arithmetische Mittel
schneller ausrechnen:
x¯=1n∑j=1mh(aj)⋅aj=115⋅(2⋅2+3⋅3+1⋅4+4⋅7+...+1⋅11)=9115=6.067
bzw.
x¯=∑j=1mf(aj)⋅aj=215⋅2+315⋅3+...+115⋅11=6,067
MERKE
Merke:
BEISPIEL
Beispiel 38:
Eine Sekretärin sollte folgende Rechnungsbeträge in den Computer eingeben: 100 €, 200 €, 100 €,
300 € und 350€. Statt der letzten Zahl hängt sie fälschlicherweise eine Null zuviel an, schreibt also
3.500 €. Wie verändern sich die einzelnen Mittelwerte?
Die geordnete Urliste sollte eigentlich 100, 100, 200, 300, 350 sein, in Wahrheit ist sie aber nun 100,
100, 200, 300, 3.500. Der Modus und der Median bleiben gleich bei 100 € und bei 200 €, sie
verändern sich also nicht durch den statistischen Ausreißer. Lediglich das arithmetische
Mittel x¯ ändert sich von vorher x¯=210€ auf nunmehr x¯=840€.
Ersatzwerteigenschaft, die
Nulleigenschaft und eine
Optimalitätseigenschaft.
Im einzelnen:
Ersatzwerteigenschaft bedeutet, dass
n⋅x¯=∑i=1nx
gilt, was unmittelbar aus der Definition des arihmetischen Mittels hervorgeht. Wenn man also
das x¯ mit dem Umfang n der statistischen Masse multipliziert, dann erhält man die
Merkmalssumme ∑ni=1x. Für das Beispiel 36 der Körpergrößen rechnet man diese Gleichheit
nach: n⋅x¯=5⋅1,8=9 und ∑ni=1xi=1,8+1,7+1,75+1,85+1,9=9.
∑i=1n(xi−x¯)=0
∑i=1n(xi−m)2
1LückentextNr. 6
2LückentextNr. 7
3MC-Aufgabe Nr. 5
Lückentext Nr. 6
Aufgabe 1 von 3
Lösen
Geometrisches Mittel
Vorlesen
Bestehen die Merkmalswerte aus Wachstums- oder Aufzinsungsfaktoren, die über unterschiedliche
Perioden hinweg betrachtet werden, so ist nicht das arithmetische, sondern das geometrische
Mittel zu verwenden. Zum Verständnis folgendes Beispiel.
Beispiel zum geometrischen Mittel
BEISPIEL
Beispiel 39:
Der Kontostand des Studenten D entwickelte sich in den letzten Jahren wie folgt (alle Beträge auf €
umgerechnet)
Berechne
So rechnet man beispielsweise (12001020−1)⋅100=17,65% für den Zeitraum von 2000 bis 2001.
Wie lautet nun die Wachstumsrate insgesamt im Jahresdurchschnitt? Wenn ein Konto von 1.000 €
Jahr. Dies verifiziert man leicht durch die Probe der Kontostände, die sich ergeben bei einer Rendite
von 5,3874 % pro Jahr:
EXPERTENTIPP
direkter Weg Man erhält also die mittlere Wachstumsrate auf direktem Wege durch die
Formel
x¯g=(KnK0−−−√n−1)⋅100
indirekter Weg (= geometrisches Mittel) Über die einzelnen Jahresrenditen selbst gelangt
man aber auch zum Ziel durch das geometrische Mittel x¯g
x¯g=(x1⋅x2⋅...⋅xn−−−−−−−−−−−√n−1)⋅100
MERKE
Merke: Die einzelnen xi in der Wurzel sind die Aufzinsungsfaktoren, nicht die Renditen selbst:
bei einer Rentabilität von 5 % (also 0,05) ist der Aufzinsungsfaktor 1,05,
bei einer negativen Rendite von –2,9579 % lautet der Aufzinsungsfaktor 0,970421,
wenn der Kontostand gleich bleibt wie zwischen 2001 und 2002, ist die Rendite 0 %, der
Aufzinsungsfaktor also 1,0.
Lückentext Nr. 8
Aufgabe 1 von 2
oder .
Lösen
Harmonisches Mittel
Vorlesen
Wenn die Merkmalswerte aus Brüchen bestehen, von denen entweder der Zähler oder der Nenner
nicht gegeben sind, so verwendet man das harmonische Mittel. Dazu folgende Beispiele.
Beispiel 40
Der Student D fährt mit seinem neuen Auto eines namhaften süddeutschen Autobauers die
folgenden Strecken mit den erwähnten Geschwindigkeiten:
Strecke 1 2 3 4
Wie lange hat er insgesamt gebraucht? Mit welcher Durchschnittsgeschwindigkeit ist er insgesamt
gefahren?
Der Begriff Geschwindigkeit ist definiert als Weg s pro Zeit t, d.h. in Buchstaben v=st . Man
errechnet, dass der Student D folgende Zeiten auf den einzelnen Strecken benötigt hat:
Streck 1 2 3 4
e
So ist er z.B. auf Strecke 2 die Distanz von 140 km mit 100 km/h gefahren, hat also
140km100km/h=1,4kmh/km=1,4h
benötigt. Insgesamt war er also 5,025 h unterwegs. Bezogen auf eine Distanz von 440 km bedeutet
dies, dass er eine Durchschnittsgeschwindigkeit von 440km5,025h=87,56 km/h hatte.
Beispiel 41
Besagter Student gibt nun lediglich an, wie lange er für die einzelnen Strecken brauchte und mit
welcher Geschwindigkeit er fuhr, nicht aber, wie lange die Distanz war:
Strecke 5 6 7 8
Welche Strecke ist er insgesamt gefahren? Mit welcher Durchschnittsgeschwindigkeit fuhr er?
Wir berechnen zunächst die Distanzen der einzelnen Strecken, so ist z.B. der Weg 8
insgesamt 110km/h⋅0,6h=66 km lang.
Streck 5 6 7 8
e
Distanz 180 km 200 km 80 km 66 km
Insgesamt fuhr der Student also 526 km in einer Zeit von 5,1 Stunden. Das ergibt eine
Durchschnittsgeschwindigkeit von v¯=5265,1=103,137 km/h.
gegeben. Genau dies haben wir gemacht. Im ersten Beispiel waren die Nenner bi, nämlich die
Zeiten, nicht gegeben, im zweiten Beispiel waren die Zähler ai unbekannt, nämlich die Distanzen.
Beide wurden zunächst berechnet, um dann den Mittelwert zu berechnen. Es gibt aber auch
eine indirekte Methode, mit der nicht zunächst Zähler oder Nenner ausgerechnet werden müssen,
diese Methode nennen wir harmonisches Mittel x¯h.
EXPERTENTIPP
x¯h=∑ni=1ai∑ni=1aixi
x¯h=∑ni=1xi⋅bi∑ni=1bi
Angewendet auf die o.e. Beispiele errechnet man für das Beispiel 40:
x¯h=(100km+140km+50km+150km)100km50km/h+140km100km/h+50km80km/h+1
50km150km/h=440km(2h+1,4h+0,625h+1h)=440km5,025h=87,562km/h
MERKE
Merke: Für die Anwendbarkeit des richtigen Mittelwertes ist es entscheidend, wie die
Merkmalswerte skaliert sind. Für die einzelnen Skalen listet die folgende Tabelle die passenden
Mittelwerte auf.
Skala Lageparameter
Nominalskala Modus
Ordinalskala Median
1Lückentext Nr. 9
2Lückentext Nr. 10
3MC-Aufgabe Nr. 7
4Paarbildung
Lückentext Nr. 9
Aufgabe 1 von 4
Lösen
Zusammenfassung Lagemaße
Vorlesen
Folgendes Lernvideo gibt eine Zusammenfassung zu den Lagemaßen in der Statistik und erklärt bei
welchen Skalenniveaus Modus, Median und das arithmetische Mittel Anwendung finden.
Streuungsmaße
Unterschiedliche Streuungsmaße
Vorlesen
Wenn man lediglich einen Lageparameter einer Verteilung angibt, so ist hiermit noch keine Aussage
darüber gemacht, ob die anderen Werte „nahe dran” oder „weit weg” liegen. Dafür gibt es in der
deskripitiven Statistik unterschiedliche Streuungsmaße.
Gruppe 1 2 3 4 5
Gruppe 1 2 3 4 5
Gruppe 1 2 3 4 5
Das Durchschnittseinkommen, hier als arithmetisches Mittel berechnet (wobei der Median das
gleiche Ergebnis liefern würde), liegt in allen Gruppen bei 5.000 €. Man erkennt aber direkt, dass die
Verteilung in Gruppe B ungleichmäßiger als in Gruppe A ist, denn dort ist das Einkommen
gleichverteilt. Die sogenannte Streuung ist in B höher als in A. In Gruppe C sogar streut das
Einkommen noch stärker als in B, die „Schere“ zwischen den kleinsten und den größten Einkommen
ist noch größer.
absolute Streuungsmaße
o Spannweite
o durchschnittliche absolute Abweichung
o mittlere quadratische Abweichung
o Standardabweichung
o Quartilsabstand
relatives Streuungsmaß
o Variationskoeffizient.
Spannweite
Die Spannweite SP (= Range) wird durch die Formel SP=xmax–xmin berechnet. Sie gibt also die
Differenz zwischen dem größten und dem kleinsten Beobachtungswert an. Diese ist
sehr ausreißerempfindlich, da sie unmittelbar abhängt von den Werten am Rand der geordneten
Urliste.
Es ist SPB=xmax–xmin=7.000–3.000=4.000€ für die Spannweite aus dem Beispiel zur
Einkommensverteilung der Gruppe B.
s¯=1n∑n|xi−λ|=∑j=1k|aj−λ|⋅f(aj)
Die durchschnittliche absolute Abweichung, ist also das arithmetische Mittel der Abstände aller
Beobachtungswerte von λ , speziell für λ=xmed ist die durchschnittliche Medianabweichung.
Bekannt ist außerdem, dass die Summe ∑ni=1|xi−λ| minimal wird, wenn man für λ den
Median xmed einsetzt (Die sogenannte Optimalitätseigenschaft des Median).
Es ist
s¯=1n∑|xi−λ|=15⋅(|3.000−5.000|)+(...)+(|7.000−5.000|)=1200€
s2=1n∑i=1n(xi−x¯)2
bzw
s2=∑j=1k(aj−x¯)2⋅f(aj)
MERKE
s2B=15⋅[(3.000−5.000)2+...+(7.000−5.000)2]=2.000.000€2
Mit dem Verschiebungssatz kommt man auf das gleiche Ergebnis:
s2B=15⋅[(3.000)2+(4.000)2+...
+(7.000)2]−(5.000)2=27.000.000−25.000.000=2.000.000€2
Standardabweichung
Die Standardabweichung s berechnet man als Wurzel aus der mittleren quadratischen
Abweichung, also
s=s2−−√
Sie hat (im Gegensatz zur mittleren quadratischen Abweichung) die gleiche Dimension wie die
Beobachtungswerte.
Die Standardabweichung ist also sB=2.000.000−−−−−−−−√=1.414,21€.
Quartilsabstand
Unter dem sogenannten Quartilsabstand QA versteht man die Distanz zwischen dem unteren
Quartil x0,25 und dem oberen Quartil x0,75:
QA=x0,75–x0,25
Für das oben erwähnte Beispiel der Einkommensverteilung in Gruppe B ist der Quartilsabstand
QA=x0,75−x0,25=6.000–4.000=2.000 €.
MERKE
Merke: Dieses Streuungsmaß ist benutzbar ab ordinalskalierten Merkmalen. Trotzdem sollte er erst
ab metrisch skalierten Daten benutzt werden, da zwar die Berechnung der Quartile selbst möglich
ist, die Berechnung einer Differenz aber erst ab metrischen Skalen sinnvoll.
Variationskoeffizient
Den Variationskoeffizienten v ermittelt man durch
v=sx¯
also als Quotienten aus Standardabweichung s und arithmetischem Mittel x¯. Es ist sinnvoll, nur
positive - x¯ Werte bei der Definition zuzulassen.
Der Variationskoeffizient ist ein relatives Streuungsmaß insofern, als der Anteil der Streuung am
arithmetischen Mittel gemessen wird.
Der Variationskoeffizient im erwähnten Beispiel ist vB=1.414,2145.000=0,2828=28,28%.
Der Variationskoeffizient v schließlich von v=0,2828 besagt, dass die Streuung s als Maß der
Abweichung 28,28 % vom Mittelwert ausmacht. Es ist oftmals sinnvoll, ihn als Prozentwert
anzugeben.
Die Abweichungen als Maß dafür, wie schlecht die Schätzung des Mittelwertes ist, werden
bei der mittleren quadratischen Abweichung s2 stark gewichtet, nämlich quadriert. Von
Nachteil ist allerdings, dass die Dimension (hier €2) nicht mit der Dimension der
Beobachtungswerte übereinstimmt. Dieser Nachteil wird geheilt durch die
Standardabweichung s.
Zum Vergleich der Verteilungen seien die Streuungsmaße für alle Gruppen aufgelistet.
A 0 0 0 0 0 0
B 4.000 1.200 2.000.000 1.414,2 0,2828 2.000
1
C 8.000 2.800 10.000.000 3.162,2 0,6325 4.000
8
Man erkennt deutlich, dass die Werte in C stärker streuen als in B, die Verteilung ist damit
ungleichmäßiger. Verteilung A streut gar nicht, weil die Werte alle gleich sind. Die Abweichungen
vom Mittelwert sind also alle gleich null.
MERKE
Merke: Es gilt für Lineartransformationen aus den Werten xi, also für yi=a+bx, die Beziehung
sy2=1n∑i=1n(yi−y¯)2=1n∑i=1n(a+bxi−(a+bx¯))2=1n∑i=1n((xi−x¯)⋅b)2
/b2⋅1n∑i=1n(xi−x¯)2
d.h.
sy2=b2⋅sx2
für die mittlere quadratische Abweichung bzw.
sy=|b|⋅sx
für die Standardabweichung.
BEISPIEL
Beispiel 43:
Jeder Teilnehmer aus den Gruppen A,B,C aus dem obigen Beispiel 42 möge nun das doppelte Gehalt
beziehen und noch einen Zuschlag von 1.000 € zusätzlich erhalten.
Inwiefern handelt es sich um eine Lineartransformation? Gib die Parameter c und d an.
Es ist c = 1.000 € und d = 2, d.h. statt xi (also die alten Gehälter) rechnet man nun
mit yi=1.000+2xi, also den neuen. Die neuen Einkommen sind dann
1 2 3 4 5
s2 s
A 0 0
B 8.000.000 2828,43
C 40.000.000 6324,56
Die Werte für s2 werden also vervierfacht (da das Gehalt zunächst verdoppelt wurde), die Streuung
verdoppelt. Dass also jeder noch 1.000 € zusätzlich erhält (a = 1.000), verändert sich die Streuung
nicht, da diese ein Maß für die Ungleichheit ist, denn da aber jeder diese 1.000 € mehr erhält, geht
diese klarerweise nicht in die Streuung ein. Lediglich die Verdopplung (b = 2) findet Eingang und
führt zu einer Vervierfachung (b2 = 22 = 4) der mittleren quadratischen Abweichung bzw. zu einer
Verdopplung der Streuung s (denn |b| = |2| = 2). Die „Schere“, also die Ungleichverteilung,
zwischen Gering- und Vielverdienern wird durch die Verdopplung aller Gehälter noch größer.
MERKE
Merke: Für den Vergleich zwischen jenen Streuungsmaßen, die dieselbe Streuung besitzen,
gilt s¯≤s≤SP, d.h. die durchschnittliche Abweichung s¯ ist kleiner oder gleich der
Standardabweichung s und diese ist kleiner oder gleich der Spannweite SP.
1LückentextNr. 1
2LückentextNr. 2
3MC-Aufgabe Nr. 1
4MC-Aufgabe Nr. 2
5Streuungsmaße
Lückentext Nr. 1
Aufgabe 1 von 5
Lösen
Streuungszerlegung
Vorlesen
BEISPIEL
Beispiel 44:
Gegeben sei folgendes Beispiel einer Einkommensverteilung.
1 2 3 4 5
Wie kann man die Gesamtvarianz aller zwölf Teilnehmer erklären mit Hilfe der Teilvarianzen der
einzelnen Gruppen?
Dazu dient die Streuungszerlegungsformel (sprachlich ungenau, besser wäre der Begriff
Varianzzerlegungsformel)
Streuungszerlegungsformel und Mittelwertzerlegungsformel
Für k unterschiedliche statistische Massen M1,M2,...,Mk mit jeweils nj Beobachtungswerten,
deren jeweiliges arithmetisches Mittel x¯1,...,x¯k und deren mittlere quadratische
Abweichungen s12,s22,...,sk2 seien, gilt für die Gesamtmasse M=M1∪M2∪...∪Mk, die
aus n=n1+n2+...+nk Beobachtungswerten besteht, d.h. gilt für die Gruppen insgesamt die
Varianz
s2ges=1n∑j=1knj⋅sj2+1n∑j=1knj⋅(x¯j−x¯ges)2
x¯ges=1n∑j=1knj⋅x¯j
(Mittelwertzerlegungsformel)
1/n∑j=1knj⋅sj2
Der Vorteil der Streuungszerlegungsformel besteht darin, dass man nicht alle Werte kennen muss,
um die Gesamtvarianz ausrechnen zu können. Die jeweiligen arithmetischen Mittel, die
Streuungen si in den Gruppen sowie die jeweiligen Stichprobenumfänge nj reichen vollkommen
aus. Darüber hinaus hat die Streuungszerlegungsformel in der Varianzanalyse eine große
Bedeutung, was erst in der Stichprobentheorie relevant sein wird.
1MC-Aufgabe Nr. 3
MC-Aufgabe Nr. 3
Aufgabe 1 von 1
Betrachte zwei Gruppen, die eine bestehend aus den Zahlen 3,4,5, die zweite aus den
Zahlen 8,9,4. Welche der folgenden Aussagen hierzu ist richtig?
Die gesamte mittlere quadratische Abweichung beträgt 3,17.
Die interne mittlere quadratische Abweichung beträgt 8/3 = 2,667, die externe mittlere quadratische
Abweichung liegt bei 1,5.
Die interne mittlere quadratische Abweichung beträgt 1,5, die externe mittlere quadratische
Abweichung liegt bei 2,667.
Lösen
Ein wichtiger Teil der Streuungsmaße in der deskriptiven Statistik wird nochmals aufgegriffen. Im
folgenden Video wird gezeigt, wie sich die mittlere quadratische Abweichung mit und
ohne Verschiebungssatz berechnen lässt.
Lernvideo - Mittlere quadratische Abweichung
Play Video
Formmaße
Unterschiedliche Formmaße
Vorlesen
Bei Verteilungen von Merkmalswerten sind neben Lageparametern und Streuungen noch weitere
Dinge von Bedeutung:
Symmetrie,
Schiefe und
Wölbung (= Excess = Kurtosis).
1Lückentext Nr. 1
Lückentext Nr. 1
Aufgabe 1 von 1
Lösen
Schiefe
Vorlesen
Die Schiefe sieht man sehr gut an einem Stabdiagramm, das zwar ein Maximum hat, welches aber
nicht in der Mitte liegt. Man spricht von rechtsschiefen (= linkssteilen) Verteilungen, wenn sie nach
rechts weiter auslaufen als nach links. Wenn die Verteilung hingegen weiter nach links ausläuft als
nach rechts, redet man von linksschiefen (= rechtssteilen) Verteilungen.
Linksschiefe Verteilung
Rechtsschiefe Verteilung
ca. die Hälfte der Daten unter bzw. über dem mittleren Wert liegt
und die meisten Beobachtungswerte sich ungefähr in der Mitte befinden.
Symmetrische Verteilung
Man spricht hingegen von einer u-förmigen Verteilung, wenn sowohl am rechten als auch am
linken Rand der Skala gleichviele Beobachtungswerte liegen und sehr wenige dazwischen.
U-förmige Verteilung
mk(a)=1n∑i=1n(xi−a)k
Es gilt:
MERKE
Es existieren unterschiedliche Maße bzw. Regeln für die Schiefe einer Verteilung, nämlich
die Momentschiefe,
die Quartilsschiefe und
die Fechnersche Lageregel
Momentschiefe
Die Momentschiefe uM ist
uM=m3(0)s3=∑ni=1(xi−x¯)3n⋅s3=∑kj=1(aj−x¯)3⋅h(aj)n⋅s3
Man dividiert also das 3. gewöhnliche Moment durch die dritte Potenz der Standardabweichung.
Quartilsschiefe
Die Quartilsschiefe uQ liest sich als
uQ=(x0,75−x0,5)−(x0,5−x0,25)(x0,75−x0,25)
Man berechnet die Differenz aus dem Abstand zwischen oberem Quartil und dem Median,
d.h. x0,75–x0,5, sowie aus dem Median und dem unteren Quartil, also x0,5–x0,25. Diesen
Abstand dividiert man durch den Quartilsabstand x0,75–x0,25. Bei rechtsschiefen Verteilungen
liegt das erste Quartil x0,25 näher am Median x0,5 als das obere Quartil x0,75. Dies bedeutet,
dass die Differenz x0,5–x0,25 kleiner sein wird als die Differenz x0,75–x0,5. Mithin ist die
Differenz dieser beiden Differenzen dann positiv. Also
MERKE
Fechnersche Lageregel
Nach der Fechnerschen Lageregel ist eine Verteilung rechtsschief, wenn gilt, dass der Modus
kleiner als der Median ist und dieser wiederum kleiner als das arithmetische
Mittel: xModus<x0,5<x¯. Andernfalls ist sie linksschief, d.h. wenn gilt xModus>x0,5>x¯.
Beispiel Schiefekennzahlen
Beispiel 45: Um die Schiefekennzahlen besser zu verstehen, gehen wir auf die Bearbeitungszeiten
der Statistik-Klausur aus einer vorherigen Aufgabe zurück.
Zunächst berechnet man – für die Quartilsschiefe – den Median x0,5=8, das untere
Quartil x0,25=3 und das obere Quartil x0,75=9. Damit ist die Quartilsschiefe $$\ u_Q={(x_{0,75}-
x_{0,5})-(x_{0,5}-x_{0,25}) \over (x_{0,75}-x_{0,25})}={(9-8)-(8-3) \over (9-3)}=-0,67
Die Momentschiefe ist hingegen etwas mühsamer zu berechnen: $$\ u_m={{\sum_{j=1}^k (a_j-
\overline x)^3 \cdot h(a_j)} \over {n \cdot s^3}} ={(1-7)^3+(2-7)^3 \cdot 3+...+(12-7)^3 \over {20
\cdot \sqrt {12^3}}} =-0,3536
MERKE
1Lückentext Nr. 2
2Lückentext Nr. 3
3Lückentext Nr. 4
4Lückentext Nr. 5
5Lückentext Nr. 6
6MC-Aufgabe Nr. 1
7MC-Aufgabe Nr. 2
Lückentext Nr. 2
Aufgabe 1 von 7
Lösen
Wölbung
Vorlesen
Die Wölbung einer Verteilung behandelt die Frage, wie spitz oder flach eine Verteilung ist – genauer:
inwieweit die Merkmalswerte in der Mitte oder an den Enden der Verteilung sich konzentrieren. So
haben z.B. die Kurven der beiden u.e. Verteilungen unterschiedliche Wölbungen, in der folgenden
Abbildung ist die helle Verteilung stärker gewölbt (also spitzer) als die dunkle (die weniger gewölbt
und also flacher ist).
wM=m4x¯n⋅s4−3=∑ni=1(xi−x¯)4(∑ni=1(xi−x¯)2)2−3
Hier ist für die Zahlen aus der Aufgabe mit den Bearbeitungszeiten der Statistik-
Klausuren wM=(1−7)4+(2−7)4+...+(12−7)4)[(1−7)2+(2−7)2+...+(12−7)2]2−3=−2,909.
MERKE
MERKE
Merke:
Damit entwickelt man als Regel: Wenn wQ größer als 0,2 ausfällt, dann ist die zugrunde liegende
Verteilung stärker gewölbt als jene der Normalverteilung – andernfalls ist sie flacher. Der
Quartilsabstand x0,75–x0,25 und der Quintilsabstand x0,8–x0,2 liegen enger beieinander, wenn
die Enden der Verteilung stärker besetzt sind.
1LückentextNr. 7
2MC-Aufgabe Nr. 3
3MC-Aufgabe Nr. 4
Lückentext Nr. 7
Aufgabe 1 von 3
Wenn das Momentenwölbungsmaß ist als null, dann bedeutet dies, dass
die Verteilung flacher ist als die Glockenkurve der Normalverteilung.
Lösen
Konzentrationsmessung
Einleitung
Konzentrationsmaße
Vorlesen
Das nächste Kapitel befasst sich mit der Konzentrationsmessung. Wir untersuchen im Folgenden
BEISPIEL
Beispiel 46:
In der schönen schwäbischen Stadt Beimen sind zehn Verkäufer von Tennisschlägern ansässig.
Sechs von ihnen erwirtschaften einen Umsatz von jeweils 500.000 €. Das Geschäft Ivan ist
erfolgreicher: es hat einen Ertrag von 700.000 €. Michael, ein Geschäft am Stadtrand, erzielt 600.000
€. Die Läden Steffi und Boris hingegen liegen direkt in der Stadtmitte und erzielen den höchsten
Umsatz: auf Steffi entfallen 1.700.000 €, auf Boris sogar 2.000.000 €.
Konzentriert sich die Merkmalssumme (hier der Umsatz) auf wenige „große“ Merkmalsträger (hier
die Geschäfte, also z.B. die erfolgreichsten Läden Steffi und Boris)? Man spricht dann von relativer
Konzentration. Als Analyseinstrumente bieten sich an:
Lorenz-Kurve,
Gini-Koeffizient,
Länge der Lorenzkurve,
normierter Gini-Koeffizient,
Konzentrationsmaß CRg.
Wenn sich hingegen zusätzlich der Umfang der statistischen Masse verkleinert (hier also z.B. von
zehn Geschäften auf acht), so spricht man von absoluter Konzentration. Zur Untersuchung nimmt
man oftmals:
Lernvideo - Konzentrationsmaße
Eine erste Einführung in das Thema gibt das folgende Lernvideo.
Play Video
1Lückentext Nr. 1
2Lückentext Nr. 2
3MC-Aufgabe Nr. 1
4Analyseinstrumente
Lückentext Nr. 1
Aufgabe 1 von 4
Lösen
Relative Konzentration
Übersicht relative Konzentration
Vorlesen
Nochmals eine Übersicht der Instrumente, die zur Analyse der relativen Konzentration dienen. Im
Folgenden werden behandelt:
Lorenz-Kurve,
Gini-Koeffizient,
Länge der Lorenzkurve,
normierter Gini-Koeffizient,
Herfindahl-Index,
Konzentrationsmaß CRg.
Lorenzkurve
Vorlesen
Zunächst empfiehlt es sich, die Geschäfte nach ihrem Umsatz (in Tsd. €) zu ordnen, und zwar von
unten nach oben:
Umsatz 500 500 500 500 500 500 600 700 1.700 2.000
Alsdann werden die Anteile der Geschäfte am Gesamtumsatz, hier also U= 8.000,00 €, ermittelt und
danach kumuliert:
Geschäft 1 2 3 4 5 6 M I S B
Umsatz 500 500 500 500 500 500 600 700 1.700 2.000
Anteil 0,0625 0,062 0,062 0,0625 0,062 0,062 0,075 0,087 0,212 0,25
5 5 5 5 5 5
kumul. 0,0625 0,125 0,187 0,25 0,312 0,375 0,45 0,537 0,75 1
Anteil 5 5 5
So besagt z.B. die Zahl 37,5 %, dass die kleinsten sechs Geschäfte zusammen 37,5 % des Umsatzes
erzielen. Ebenso sieht man, dass die kleinsten acht Geschäfte 53,75 % des Gesamtumsatzes erzielen.
Anders ausgedrückt, entfällt fast die Hälfte des Ertrags (genauer: 46,25 %) auf zwei Geschäfte,
nämlich Boris und Steffi.
Es liegt also eine deutliche Konzentration auf die Läden 9 und 10 vor. Die „größten” 20 % der
Geschäfte erzielen beinahe 50 % des Umsatzes!
Lorenzkurve zeichnen
Die Konzentration zu visualisieren, wird durch die Lorenzkurve geleistet. Hierzu werden zunächst
noch die Anteile der Geschäfte an der Gesamtzahl von n = 10 errechnet und kumuliert:
Die fett markierten Punkte sind dann jene der Lorenzkurve.
Geschäft 1 2 3 4 5 6 M I S B
Umsatz 500 500 500 500 500 500 600 700 1.700 2.000
Anteil 0,0625 0,062 0,062 0,0625 0,062 0,062 0,075 0,087 0,212 0,25
5 5 5 5 5 5
kumul. 0,0625 0,125 0,187 0,25 0,312 0,375 0,45 0,537 0,75 1
Anteil 5 5 5
Anteil 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1
Geschäft
kumul. 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Anteil
Die Zeilen mit den kumulierten Anteilen ergeben die Punkte der Lorenzkurve und werden
eingezeichnet:
Lorenzkurve
MERKE
Merke:
Die Lorenzkurve steigt unterhalb der Hauptdiagonalen an. Dies liegt daran, dass die
Geschäfte von klein nach groß sortiert werden.
Die Lorenzkurve wird von links nach rechts immer steiler.
Wenn keine Konzentration vorliegt, d.h. wenn im vorliegenden Beispiel jedes Geschäft den
gleichen Umsatzanteil hätte, konkret 10 %, also 800.000 €, dann wäre die Lorenzkurve gleich
der Hauptdiagonalen.
Je weiter die Lorenzkurve nach unten rechts gezogen wird, umso größer ist die
Konzentration
Lorenzkurve bei größerer Konzentration
Wenn eine absolute Konzentration auf ein einziges Geschäft vorliegt, d.h. dass im
vorliegenden Fall z.B. das Geschäft Boris den gesamten Umsatz in Höhe von 8 000.000 €
einfährt und die restlichen Geschäfte nichts erwirtschaften, dann sieht die Lorenzkurve
folgendermaßen aus:
Lorenzkurve bei maximaler Konzentration
1Lückentext Nr. 1
2MC-Aufgabe Nr. 1
Lückentext Nr. 1
Aufgabe 1 von 2
Lösen
Gini-Koeffizient
Vorlesen
Interessant ist es, nicht nur die Konzentration auf der Lorenz-Kurve zu sehen, sondern auch, sie
zu berechnen. Hier hilft der Gini-Koeffizient. Wenn man die Fläche K zwischen der
Winkelhalbierenden und der Lorenzkurve schraffiert, dann steigt bei wachsender Konzentration die
Größe dieser Fläche.
G=2∑ni=1i⋅pi−(n+1)n
G=2∑ni=1i⋅xi−(n+1)⋅∑ni=1xin⋅∑ni=1xi
G=1n2∑ni=1∑nj=1|xi−xj|2⋅x¯
G=∑i=1n(Hi−1+Hi)⋅ci−1
Die letzte Formel ist insbesondere für klassierte Daten geeignet (kann aber genau so auch bei
unklassierten verwendet werden).
Man benennt F(xj) als Anteil auf der Abszisse (also hier: der Geschäfte) und g(xj) als Anteil auf
der Ordinate (hier: des Umsatzes).
Klarerweise liegt G zwischen 0 und n−1n d.h. es ist 0≤G≤n−1n.
1LückentextNr. 2
2LückentextNr. 3
3MC-Aufgabe Nr. 2
Lückentext Nr. 2
Aufgabe 1 von 3
Lösen
Ein weiteres Konzentrationsmaß ist die Länge L der Lorenzkurve. Hierzu werden die Längen der
Streckenabschnitte einfach aufaddiert. Es gilt
L=F(x1)2+g(x1)2−−−−−−−−−−−−−√+[F(x2)−F(x1)]2+
[g(x2)−g(x1)]2−−−−−−−−−−−−−−−−−−−−−−−−−−−√
+...+[F(xm)−F(xm−1)]2+[g(xm)−g(xm−1)]2−−−−−−−−−−−−−−−−−−
−−−−−−−−−−−−−−−√
oder kürzer
=∑j=1m−1[F(xj+1)F(xj)]2[g(xj+1)−g(xj)]2−−−−−−−−−−−−−−−−−−−
−−−−−−−√
−−−√ +...+(1−0,9)2+(1−0,75)2−−−−−−−−−−−−−−−−−−
−√=1,4695
Die Länge L der Lorenzkurve liegt zwischen 2√ und 2: 2√≤L≤2.
Concentration-Ratio
Vorlesen
Lückentext Nr. 6
Aufgabe 1 von 2
Das relative Konzentrationsmaß CRg gibt den Anteil an, den die der "g"
größten Merkmalsträger auf sich vereinigen.
Lösen
Absolute Konzentration
Übersicht absolute Konzentration
Vorlesen
Auch die absolute Konzentration lässt sich bestimmen. Wenn die kleinen Geschäfte der
Tennisschlägerverkäufer in Beimen aus dem vorherigen Beispiel sich zu einem einzigen großen
Geschäft zusammenschließen, so steigt die absolute Konzentration, da sich derselbe Gesamtumsatz
auf weniger Geschäfte verteilt. Die relative Konzentration hingegen muss hierdurch nicht steigen.
Sie täte es auf jeden Fall, wenn die großen Geschäfte fusionieren würden, d.h. wenn die großen
einen noch größeren Teil des Kuchens erhielten.
Bei der absoluten Konzentrationskurve trägt man auf der Abszisse nicht die relativen kumulierten
Häufigkeiten, sondern vielmehr absolute kumulierte Häufigkeiten ab. Dies liegt daran, dass bei
der absoluten Konzentration zwei Dinge eine Rolle spielen:
Lückentext Nr. 1
Aufgabe 1 von 3
Bei der Konzentrationskurve trägt man auf der Abszisse nicht die
relativen kumulierten Häufigkeiten, sondern vielmehr absolute kumulierte
Häufigkeiten ab.
Lösen
Absolute Konzentrationskurve
Vorlesen
also wenn die höchste Konzentration auf ein einziges Geschäft vorliegt. Also gilt 12≤Fa≤12n.
Herfindahl-Index
Vorlesen
Ein anderer Koeffizient zur Konzentrationsmessung ist der Herfindahl-Index. Die relative Häufigkeit
pi=xi∑(i=1)nxi
die bereits für die Berechnung des Gini-Koeffizienten wichtig war, findet hier Eingang, der
Herfindahl-Index ist definiert als
H=∑i=1np2i
MERKE
Folgendes gilt:
Berechnung Herfindahl-Index
Im vorliegenden Beispiel 46 rechnet man
H=∑p2i=(5008.000)2+...+(2.0008.000)2=0,144375.
1LückentextNr. 4
2LückentextNr. 5
3MC-Aufgabe Nr. 3
Lückentext Nr. 4
Aufgabe 1 von 3
Exponentialindex
Vorlesen
CE=∏j=1nccjj=cc11⋅cc22⋅...⋅ccnn
EXPERTENTIPP
g(xk)=∑ki=1xi∑ni=1xi
Trage die Werte g(xk) zusammen mit den relativen Häufigkeiten der Abszisse ab in ein
Koordinatensystem
Die Punkte (F(x1),g(x1)),(F(x2),g(x2)),...,(F(xm),g(xm)), bilden die
Lorenzkurve
Berechne Konzentrationsmaße:
oGini-Koeffizient,
onormierter Gini-Koeffizient,
oHerfindahl-Index,
oKonzentrationsrate CRg,
oExponentialindex,
oLänge der Lorenzkurve.
BEISPIEL
Beispiel 47:
Wenn fünf Unternehmen, die gleich groß sind, auf einem Markt existieren und auf einem anderen
Markt 20 gleich große Unternehmen, so ist auf beiden der Gini-Koeffizient gleich 0, obwohl der erste
Markt als „konzentrierter” gelten kann. Auch die Lorenzkurve liefert beide Male dasselbe Bild,
nämlich die Winkelhalbierende und damit keine – relative – Konzentration.
Rosenbluth-Index
Vorlesen
BEISPIEL
In der schönen schwäbischen Stadt Beimen sind zehn Verkäufer von Tennisschlägern ansässig.
Sechs von ihnen erwirtschaften einen Umsatz von jeweils 500.000 €. Das Geschäft Ivan (I) ist
erfolgreicher: es hat einen Ertrag von 700.000 €. Michael (M), ein Geschäft am Stadtrand, erzielt
600.000 €. Die Läden Steffi (S) und Boris (B) hingegen liegen direkt in der Stadtmitte und erzielen
den höchsten Umsatz: auf Steffi entfallen 1.700.000 €, auf Boris sogar 2.000.000 €. Stelle die
Konzentration anhand der Lorenzkurve und anhand geeigneter Konzentrationsmaße dar.
Alsdann werden die Anteile der Geschäfte am Gesamtumsatz, hier also U = 8 000.000 €, ermittelt
und danach kumuliert:
Geschäft 1 2 3 4 5 6 M I S B
Umsatz 500 500 500 500 500 500 600 700 1.700 2.000
Anteil 0,0625 0,062 0,062 0,0625 0,062 0,062 0,075 0,087 0,212 0,25
5 5 5 5 5 5
kumul. 0,0625 0,125 0,187 0,25 0,312 0,375 0,45 0,537 0,75 1
Anteil 5 5 5
CR=12⋅(0,0625+0,125+0,1875+(...)+0,5375+0,75+1)−1=12⋅4,05−1=0,141
wenn es zehn Geschäfte sind.
Sollten sich die kleinsten sechs der Geschäfte zusammenschließen, so beträgt deren Umsatz
zusammen bekanntlich 3.000.000 €. Damit erhält man
Geschäf 1 2 3 4 5
t
und also:
CR=12⋅(0,375+0,45+0,5375+0,75+1)−1=12⋅3,1125−1=0,191
Der Rosenbluth-Index der absoluten Konzentration steigt also.
BEISPIEL
Beispiel 48:
Das Einkommen innerhalb der Unternehmung X sei wie folgt verteilt:
über 10.000 4
Gib die Lorenzkurve und den Gini-Koeffizienten für die vorliegenden klassierten Daten an.
Es muss ausgerechnet werden, wie viel in den Klassen insgesamt verdient wird, um diese
Gesamteinkommen pro Klasse zu kumulieren und hiervon die relativen Häufigkeiten ci zu
berechnen und diese dann zu Ci zu kumulieren. Für die Werte auf der Abzisse bezieht man die
jeweiligen Zahlen der Mitarbeiter auf die Gesamtzahl aller Arbeitnehmer, hier also auf 50. Schließlich
muss man eine geeignete Klassengrenze für die oberste Klasse wählen, so z.B. 20.000 €.
Es gilt also
MC-Aufgabe Nr. 1
Aufgabe 1 von 2
0,5
1/n
Lösen
Mehrdimensionale Verteilungen
Mehrdimensionale Verteilung - Einführung
Vorlesen
Es werden nun zwei oder mehr Verteilungen gleichzeitig betrachtet. Wenn genau zwei Merkmale X
und Y mit ihren jeweiligen Merkmalsausprägungen ai (für X) und bj (für Y) betrachtet werden,
dann lässt sich dies zweidimensional, d.h. in einer Tabelle, darstellen. Bei zwei nominalskalierten
Merkmalen spricht man hierbei von Kontingenztabellen, bei zwei ordinal- oder kardinalskalierten
Merkmalen eher von Korrelationstabellen. Eine solche Tabelle sieht allgemein folgendermaßen aus:
dass in der zweiten Zeile (denn der Zeilenindex, also die vorne stehende Zahl, ist gleich „2”)
aufsummiert wird (denn der Punkt „•” gibt gerade an, dass keine einzelne Spalte
herausgegriffen wird, sondern vielmehr alle Spalten aufsummiert werden)
BEISPIEL
Beispiel 49:
Eine Befragung unter 100 Studenten bzgl. der Religionszugehörigkeit und der Studienrichtung ergibt
folgendes Ergebnis:
katholisch 10 12 6 18
evangelisch 8 3 18 9
muslimisch 7 6 2 1
Stelle die Häufigkeitsverteilung dar. Gehe dabei ein auf die Begriffe
gemeinsame Verteilung,
Randverteilung,
bedingte Verteilung,
Unabhängigkeit.
Bei ein- und demselben Studenten wird also das Merkmal Studienrichtung X und
Religionszugehörigkeit Y gemessen.
1Lückentext Nr. 2
2Lückentext Nr. 3
3Lückentext Nr. 4
4Paarbildung Nr. 1
5Paarbildung Nr. 2
6Paarbildung Nr. 3
7Paarbildung Nr. 4
8Multiple-Choice
Lückentext Nr. 2
Aufgabe 1 von 8
Gemeinsame Verteilung
Vorlesen
Die Zahlen innerhalb der folgenden beiden Tabellen geben die absoluten (erste Tabelle) bzw.
relativen Häufigkeiten (zweite Tabelle) an, dass beide Merkmale gleichzeitig erfüllt werden.
So ist bspw. die absolute Häufigkeit, dass ein beliebiger Student Anglistik studiert und katholisch
ist, H14= 18 (siehe die erste Zeile und vierte Spalte der ersten Tabelle). Die relative Häufigkeit, dass
ein Student evangelisch ist und BWL studiert, lautet hingegen h21= 0,08 (siehe die zweite Zeile und
erste Spalte der zweiten Kontingenztabelle).
katholisch 10 12 6 18 46
evangelisc 8 3 18 9 38
h
muslimisch 7 6 2 1 16
∑ 25 21 26 28 100
1Lückentext Nr. 5
2Lückentext Nr. 6
3MC-Aufgabe Nr. 1
4MC-Aufgabe Nr. 2
5Paarbildung Nr. 5
Lückentext Nr. 5
Aufgabe 1 von 5
Bitte die Lücken im Text sinnvoll ausfüllen.
Randverteilungen
Vorlesen
Religion X relative
Häufigkeit
MERKE
Merke: Randverteilungen sind also immer eindimensionale Verteilungen. Alle Maßzahlen, die wir bis
jetzt kennen gelernt haben (Mittelwerte, Streuungsmaße etc.), sind also hierauf anwendbar.
1LückentextNr. 7
2LückentextNr. 8
3MC-Aufgabe Nr. 3
4MC-Aufgabe Nr. 4
Lückentext Nr. 7
Aufgabe 1 von 4
Lösen
Bedingte Verteilungen
Vorlesen
Wir betrachten nun Ereignisse, die unter der Maßgabe (= Voraussetzung) auftreten, dass ein anderes
Ereignis bereits eingetreten sei. So kann man sich z.B. für die Frage interessieren, wieviele Studenten
Anglistik studieren, wenn sie katholisch sind. Allgemein lauten die relativen Häufigkeiten für solche
bedingten Ereignisse in Zeichen:
h(ai∣bj)=hijh.j
h(b4∣a1)=h14h1.=0,180,46=0,39.
Nicht zu verwechseln ist dies mit der umgekehrten Fragestellung: Wie groß ist die relative Häufigkeit
des Ereignisses, dass ein Student katholisch ist, wenn er Anglistik studiert (für das bessere
Verständnis schreiben wir dies ausführlich und nicht lediglich mit Symbolen auf):
h(X=katholisch|Y=Anglistik)
=f(X=katholischundY=Anglistik)f(Y=Anglistik)
in Zeichen
h(a1∣b4)=h14h.4=0,180,28=0,64
Insgesamt lautet also die bedingte Verteilung für die katholischen Studenten:
Wenn man nun die Zahlen in eine einzige Tabelle einträgt, erhält man die bedingte Verteilung für die
katholischen Studenten, d.h. wenn x = katholisch gesetzt wird:
BWL 0,217
Jura 0,261
Medizin 0,13
Anglistik 0,391
BWL 0,211
Jura 0,079
Medizin 0,474
Anglistik 0,237
BWL 0,4375
Jura 0,375
Medizin 0,125
Anglistik 0,0625
Die bedingte Verteilung der Studienrichtung unter den Voraussetzungen der gegebenen Religion ist
in der folgenden Tabelle zusammen gefasst:
bedingte Lagemaße,
bedingte Streuungsmaße,
bedingte Formmaße.
Die Ermittlung erfolgt hierbei absolut analog zu den unbedingten Maßen. Der bedingte Modus der
katholischen Studenten ist das Anglistik Studium, weil die bedingte relative Häufigkeit mit 0,391 in
der Zeile für „katholisch“ am größten ist. Genauso ist der bedingte Modus der evangelischen
Studenten das Fach Medizin, bei den Moslems hingegen die BWL.
1Lückentext Nr. 9
2Lückentext Nr. 10
3MC-Aufgabe Nr. 5
4Lückentext Nr. 11
Lückentext Nr. 9
Aufgabe 1 von 4
Lösen
Unabhängigkeit
Vorlesen
Es stellt sich alsdann die Frage, ob die Studienrichtung mit der Religion zusammenhängt, ob z.B.
muslimische Studenten bevorzugt Medizin oder ein anderes Fach studieren etc. Diese Frage wird
beantwortet durch die Analyse der Abhängigkeit zweier Verteilungen.
Zwei Verteilungen X und Y heißen statistisch unabhängig (= empirisch unabhängig), wenn gilt
Konkret heißt dies, dass die Gleichheit für alle Werte erfüllt sein muss, die von den Verteilungen X
und Y angenommen werden können.
EXPERTENTIPP
Statistische Unabhängigkeit:
Wenn eine zweidimensionale Tabelle bereits bekannt ist, heißt dies konkret, dass
das Produkt der relativen Randhäufigkeiten gleich dem Eintrag in der Zelle sein muss, und
zwar für alle Zellen (Tabelle mit relativen Häufigkeiten), beziehungsweise, dass
das Produkt der absoluten Randhäufigkeiten geteilt durch Beobachtungsumfang n gleich
dem Eintrag in der Zelle sein muss (Tabelle mit absoluten Häufigkeiten). Dies muss für alle
Zellen gelten.
So müsste z.B. bei Unabhängigkeit die relative Häufigkeit, Jura zu studieren und evangelisch zu sein,
0,21∙0,38 = 0,0798 lauten (siehe Tabelle oben). Allerdings gilt für die relative Häufigkeit vielmehr 0,03
(wie in der Tabelle im Kapitel "Gemeinsame Verteilungen" berechnet wurde). Da also bereits für eine
Zelle die Ungleichheit gilt, sind die beiden Verteilungen X und Y nicht unabhängig, sondern
abhängig.
MERKE
Merke: Bei Unabhängigkeit der Merkmale ist die gesamte Information über die gemeinsame
Verteilung bereits in den Randverteilungen enthalten.
1Lückentext Nr. 12
2Lückentext Nr. 13
3Lückentext Nr. 14
4MC-Aufgabe Nr. 6
5MC-Aufgabe Nr. 7
Lückentext Nr. 12
Aufgabe 1 von 5
Lösen
katholisch 10 12 6 18
evangelisch 8 3 18 9
muslimisch 7 6 2 1
Stelle die Häufigkeitsverteilung dar. Gehe dabei ein auf die Begriffe
gemeinsame Verteilung,
Randverteilung,
bedingte Verteilung,
Unabhängigkeit.
Bei ein- und demselben Studenten wird also das Merkmal Studienrichtung X und
Religionszugehörigkeit Y gemessen. Das folgende Video zeigt die Lösung.
Play Video
Zusammenhangsmaße
Zusammenhangsmaße auf Nominal- und
Ordinalskala
Korrelationsanalyse
Vorlesen
des linearen Zusammenhanges zwischen zwei Merkmalen (was allerdings erst ab den Ordinalskalen
möglich ist).
Mit der „Richtung” des Zusammenhanges soll ausgedrückt werden, ob sich die beiden Merkmale
Beispiel
Beispiel
Bei der Stärke des Zusammenhanges ist die Fragestellung eine andere, nämlich ob die Veränderung
des einen Merkmals eine deutliche Veränderung des anderen Merkmals bewirkt (bei
einem starken Zusammenhang) oder nicht (bei einem schwachen Zusammenhang).
„Stark” bedeutet bei dem Korrelationskoeffizienten nach Spearman und Bravais-Pearson, dass die
Werte nah bei + 1 oder -1 liegen, „schwach” hingegen ist der lineare Zusammenhang, wenn der
jeweilige Korrelationskoeffizient nahe bei 0 liegt (auch zwischen -0,5 und +0,5 gilt der
Zusammenhang noch als sehr schwach).
Zu beachten ist außerdem, dass wir hier nur einen statistischen, d.h. formalen Zusammenhang
beschreiben bzw. erkennen können. Ob dieser auch kausal richtig ist, kann oft der Statistiker nicht
sagen, sondern muss vom jeweiligen Fachmann (Mediziner, Ökonomen, Psychologen, etc.)
untersucht werden.
BEISPIEL
Zwei weitere Probleme gibt es in diesem Zusammenhang, die eine Korrelation vortäuschen, obwohl
sie aus anderen Gründen oder obwohl sie gar nicht besteht:
Scheinkorrelation,
Nonsenskorrelation.
Bei der Scheinkorrelation besteht ein Zusammenhang zwischen zwei Merkmalen nur deswegen, weil
eine dritte Größe dahinter steht und beide beeinflusst.
Beispiel
Beispiel
Beispiel
Beispiel 53 - Scheinkorrelation:
Student Max erzielt in VWL eine 1,3 und in Recht eine 2,0.
Es existiert ein Zusammenhang zwischen den beiden guten Ergebnissen nur insofern, als dass eine
dritte Größe, nämlich der Lernaufwand, dahinter steht.
Eine Aussage, die natürlich völlig falsch ist, schon der Aufwand, zu diesem Zweck die Daten zu
erheben und einen Zusammenhang zu ermitteln war völlig sinn- und zwecklos. Bevor etwas
miteinander korreliert wird, sollte überprüft werden, ob ein kausaler Zusammenhang überhaupt
bestehen kann.
1Lückentext Nr. 1
2Lückentext Nr. 2
3Lückentext Nr. 3
4Lückentext Nr. 4
5Lückentext Nr. 5
6Paarbildung
Lückentext Nr. 1
Aufgabe 1 von 6
Lösen
Im o.e. Beispiel 49 der Religionszugehörigkeit und dem Studienfach könnte man sich die Frage
stellen, den Zusammenhang zu quantifizieren, d.h. die Stärke der Zugehörigkeit durch eine Zahl
auszudrücken. Beide Merkmale sind nominalskaliert, da lediglich Unterschiede, nicht hingegen
eine Reihenfolge feststellbar ist. Relevant ist also nicht der Bravais-Pearsonsche
Korrelationskoeffizient (dieser erst bei den metrischen Skalen) oder der Spearmansche
Rangkorrelationskoeffizient (dieser erst ab ordinalskalierten Daten).
Achtung: Wir rechnen im folgenden mit den absoluten Häufigkeiten Hij, nicht mit den
relativen hij!
Man berechnet zunächst die erwarteten Häufigkeiten Heij, (oder, in Langform
geschrieben, He(xi,yj) die sich bei Unabhängigkeit ergeben („e” steht für „expected” = erwartet).
Hierzu
Wenn also das Studienfach und die Zugehörigkeit zu einer Glaubensrichtung unabhängig
voneinander wären, dann gäbe es z.B. He31=4muslimische BWLer
bzw. He23=9,88evangelische Mediziner bzw. He12=9,66 katholische Juristen etc. Die
beobachteten absoluten Häufigkeiten H0ij=Hij und die erwarteten Häufigkeiten Heij werden
dann zu einer Kennzahl χ2(sprich: Chi-Quadrat) zusammengefasst.
Chi-Quadrat berechnen
χ2=∑i=1k∑j=1l(H0(xi,yj)
−He(xi,yj))2He(xi,yj)=∑i=1k∑j=1l(H0ij−Heij)2Heij
xi steht für den Eintrag der i. Zeile, yj entsprechend für jenen der j. Spalte. So
ist ho(x2,y3)=18,ho(x3,y4)=1(s. Zahlen dieses Beispiels aus vorherigen
Kapiteln), he(x2,y1)=9,5 usw. Das Ho steht für beobachtete Häufigkeit (o wie
observed), He steht, wie oben bereits erwähnt, für die erwartete Häufigkeit (e wie expected). Die
Doppelsumme heißt lediglich, dass über alle Felder aufsummiert wird, nämlich über alle Zeilen
(erstes Summenzeichen) und alle Spalten (zweites Summenzeichen). Konkret stellt man am besten
beobachtete (linke Zahl) und erwartete Häufigkeiten (rechte Zahl) zunächst zusammen dar und
errechnet dann die Größe χ2:
Damit ist
χ2=(10−11,5)211,5+(12−9,66)29,66+...+(1−4,48)24,48
=0,1957+0,5668+...+2,7032=24,1878
Es ist klar, dass χ2=0 ist, wenn die beiden betrachteten Merkmale unabhängig sind, denn dann
sind bereits die Zahlen innerhalb jeder Zelle gleich. Problematisch sind an der Kenngröße zwei
Dinge:
der Phi-Koeffizient φ,
der Kontingenzkoeffizient nach Pearson CP
der korrigierte Kontingenzkoeffizient Ckorr
der Kontingenzkoeffizient nach Cramér CC
Φ=χ2n−−−√
und ist hier also Φ=24,1878100−−−−−√=0,4918
CP=χ2χ2+n−−−−−−√
−√=0,4413.
Die Zahl CP nimmt nicht den Wert 1 an und ist damit nicht voll als Zusammenhangsmaß geeignet.
Ckorr=CPC∗C∗−1−−−−−−√=χ2χ2+n⋅C∗(C∗−1−−−−−−−−−−−−−
−√
korrigierter Kontingenzkoeffizient.
Hierbei ist C∗ das Minimum aus der Anzahl der Zeilen k und der Anzahl der Spalten l, also C∗ =
min {k; l}. Im o.e. Beispiel ist C = min {3; 4} = 3, also
Ckorr=24,187824,1878+100⋅33−1−−−−−−−−−−−−√=0,5405
Der korrigierte Kontingenzkoeffizient Ckorr ist normiert, liegt also zwischen 0 und 1: 0≤Ckorr≤1
Wenn Ckorr=1 ist, dann kann von einem Merkmal sicher auf die Ausprägung des anderen
Merkmals geschlossen werden (jedenfalls in eine Richtung).
Wenn Ckorr=0 ist, dann ergibt sich die relative Häufigkeit der gemeinsamen Verteilung als
Produkt der relativen Randhäufigkeiten.
Auch hier gilt 0≤CC≤1, der Cramérsche Koeffizient ist also normiert. Für das o.e. Beispiel 49 ist
damit
CC=24,1878100⋅[min(4;3)−1]−−−−−−−−−−−√=24,1878200−−−−−√=0,3478
1Lückentext Nr. 6
2MC-Aufgabe Nr. 1
Lückentext Nr. 6
Aufgabe 1 von 2
Der Chi-Quadratwert als Zusammenhangsmaß auf der Nominalskala hat den Nachteil,
Lösen
Für ordinal skalierte Merkmale liegt nicht lediglich die Unterscheidbarkeit vor, sondern zusätzlich
eine Reihenfolge, man kann daher Ränge bilden. Der Korrelationskoeffizient für
die Ordinalskala heißt Spearmanscher Rangkorrelationskoeffizient. Er sei an einem Beispiel
vorgeführt.
BEISPIEL
Beispiel:
Zehn Studenten der Uni Bonn erzielen folgende Ergebnisse in ihrer Statistik- und in ihrer VWL-
Klausur:
2 gut ausreichend
3 befriedigend gut
4 mangelhaft ausreichend
5 mangelhaft befriedigend
6 ausreichend ausreichend
7 mangelhaft ausreichend
8 gut gut
9 gut mangelhaft
10 befriedigend befriedigend
Gib in einer einzigen Kennzahl an, wie stark die Noten zusammenhängen.
EXPERTENTIPP
rs=1−6∑nI=1d2i(n−1)⋅n⋅(n+1)
einsetzen.
1 1 4 -3 9
2 3 7,5 -4,5 20,25
3 5,5 1,5 4 16
4 9 7,5 1,5 2,25
5 9 4 5 25
6 7 7,5 -0,5 0,25
7 9 7,5 1,5 2,25
8 3 1,5 1,5 2,25
9 3 10 -7 49
10 5,5 4 1,5 2,25
Schritt 5: ∑=128,
5
Schritt 5, also das Einsetzen in die Formel, liefert einen Korrelationskoeffizienten nach Spearman
von
rs=1−6∑nI=1d2i(n−1)⋅n⋅(n+1)=1−6⋅128,510⋅9⋅11=0,221
Die Kennzahl deutet also auf einen recht geringen Zusammenhang hin.
Merke:
VERTIEFUNG
1Lückentext Nr. 7
2Lückentext Nr. 8
3Lückentext Nr. 9
4MC-Aufgabe Nr. 2
5Spearmanscher Rangkorrelationskoeffizient
Lückentext Nr. 7
Aufgabe 1 von 5
Lösen
Zusammenhangsmaße auf metrischen
Skalen
Übersicht Zusammenhangsmaße auf metrischen
Skalen
Vorlesen
Erst ab den Kardinalskalen sind alle Rechenoperationen erlaubt. Man nimmt für den linearen
Zusammenhang zweier metrisch skalierter Merkmale
Folgendes Lernvideo zeigt, nochmals in der Übersicht die Zusammenhangsmaße auf den
unterschiedlichen Skalenniveaus und erklärt im Besonderen die Zusammenhangsmaße auf den
metrischen Skalen.
Lernvideo - Zusammenhangsmaße
Play Video
Bravais-Pearsonscher Korrelationskoeffizient
Vorlesen
BEISPIEL
Beispiel 57:
Es seien folgende Werte zweier Variablen X und Y gegeben:
Y X
2 4
3 1
4 0
3 3
EXPERTENTIPP
∑i=1n(xi−x¯)2
∑i=1n(yi−y¯)2
und
∑i=1n(xi−x¯)(yi−y¯)
rBP=∑ni=1(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2⋅∑ni=1(yi−y¯)2−−−−−−
−−−−−−−−−−−−−−−−−−−−√
Für das o.e. Beispiel 57 rechnet man die einzelnen Schritte einfach in einer Arbeitstabelle durch.
rBP=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2⋅∑ni=1(yi−y¯)2−−−−−−−−−−
−−−−−−−−−−−−−−√=−410⋅2−−−−√=−0,8944
Da rBP zwischen –1 und + 1 liegt, liegt mit – 0,8944 ein recht starker Zusammenhang vor.
MERKE
Merke:
Der Korrelationskoeffizient nach Bravais-Pearson misst nur lineare Zusammenhänge zwischen zwei
Größen. Wenn also rBP nahe bei 0 liegt, so heißt dies lediglich, dass kaum ein linearer
Zusammenhang vorliegt. Es könnte aber sehr wohl ein nichtlinearer existieren, so z.B. ein
exponentieller Zusammenhang. Dies heißt, dass aus der Unkorreliertheit nicht die Unabhängigkeit
folgt!
Darstellung im Streuungsdiagramm
Die Extremfälle für rBP lassen sich am Streuungsdiagramm darstellen.
rBP = 1 heißt, dass die Punkte des Streudiagramms exakt auf einer positiv geneigten Geraden
liegen,
Exakt positiv korreliert
rBP = -1 liegen die Punkte exakt auf einer negativ geneigten Geraden.
Wenn rBP nahe bei +1 liegt, dann ist der Grund hierfür, dass die einzelnen Punkte fast auf einer –
positiv geneigten – Geraden liegen,
Hoch positiv korreliert
rBP nahe bei – 1 bedeutet, dass die Punkte fast auf einer – negativ geneigten – Geraden liegen
1Lückentext Nr. 1
2Lückentext Nr. 2
3Lückentext Nr. 3
4Lückentext Nr. 4
5MC-Aufgabe Nr. 1
6MC-Aufgabe Nr. 2
7Bravais-Pearsonscher Korrelationskoeffizient
Lückentext Nr. 1
Aufgabe 1 von 7
Lösen
EXPERTENTIPP
rF=ü−(n−ü)ü+(n−ü)=2ü−nn
Beispiel 58:
Die Punkte seien:
i xi yi
1 3 5
2 4 1
3 7 3
4 8 2
5 8 9
Die Tabelle liefert folgendes Diagramm:
Einteilung für Korrelationskoeffizienten nach Fechner
Die arithmetischen Mittel sind x¯=6 und y¯=4, die Tabelle kann dann erweitert werden zu:
1 3 5 -3 - 1 + nein
2 4 1 -2 - -3 - ja
3 7 3 1 + -1 - nein
4 8 2 2 + -2 - nein
5 8 9 2 + 5 + ja
Die Anzahl der „Ja-Antworten”, also der übereinstimmenden Vorzeichen der Abweichungen, ist ü = 2.
Also lautet der Korrelationskoeffizient
rF=ü−(n−ü)ü+(n−ü)=2−(5−2)2+(5−2)=2−32+3=−15=−0,2
Der Korrelationskoeffizient von Fechner ist nicht sehr bedeutungsvoll, da zwar die Vorzeichen der
Abweichungen in die Formel eingehen, nicht jedoch die Abweichungen selbst.
MERKE
Merke: Für die Wahl des richtigen Korrelationskoeffizienten ist die Skalierung maßgeblich.
Skala Korrelationskoeffizient
Wenn zwei Merkmale verglichen werden sollen, die unterschiedlich skaliert sind, so nimmt man
stets den Korrelationskoeffizienten, der zu der schwächeren Skalierung passt. Wenn also ein
(behaupteter) Zusammenhang zwischen Haarfarbe (nominalskaliert) und IQ (ordinalskaliert)
gemessen werden soll, so nimmt man einen Koeffizienten für die Nominalskala.
1Lückentext Nr. 5
2MC-Aufgabe Nr. 3
3Korrelationskoeffizient von Fechner
4Zusammenhangsmaße
Lückentext Nr. 5
Aufgabe 1 von 4
Man möchte schauen, ob ein Zusammenhang zwischen der Statistiknote und der
Körpergröße von Studenten an der Universität X in der Stadt Y besteht. Hierfür würde
Lösen
Zeitreihenanalyse
Einleitung
Längsschnittdaten und Querschnittdaten
Vorlesen
Längsschnittdaten und
Querschnittdaten
unterschieden werden.
Aufgabe der Zeitreihenanalyse ist es, Längsschnittdaten zu erfassen. Hierunter versteht man die
Beobachtungswerte einer statistischen Einheit zu unterschiedlichen Zeitpunkten.
Eine Querschnittanalyse untersucht hingegen an einem bestimmten, gegebenen Zeitpunkt oder in
einem gegebenen Zeitintervall die statistischen Einheiten einer gegebenen statistischen Masse.
1Lückentext Nr. 1
2Lückentext Nr. 2
3Lückentext Nr. 3
Lückentext Nr. 1
Aufgabe 1 von 3
Einheit zu unterschiedlichen .
Lösen
Zeitreihenverfahren
Verfahren der Zeitreihenanalyse
Vorlesen
Die Methode der gleitenden Durchschnitte stellen wir im folgenden vor, gerade weil ohne ihre Hilfe
die Zeitreihenanalyse - insbesondere die Zerlegung in einzelne Komponenten - nicht möglich wäre.
Es folgen einige Darstellungen zur exponentiellen Glättung, zur Methode der Kleinsten Quadrate
und zur Methode der Reihenhälften.
Schließlich benutzen wir die einzelnen Verfahren für die Zerlegung von Zeitreihen in einzelne
Komponenten.
1Lückentext Nr. 1
2Lückentext Nr. 2
Lückentext Nr. 1
Aufgabe 1 von 2
Lösen
Um die Methode der gleitenden Durchschnitte zu verstehen orientieren wir uns wieder an einem
Beispiel.
BEISPIEL
Beispiel 59:
Gegeben seien die Daten
t 1 2 3 4 5 6 7 8 9 10
x 1 4 4 4 7 7 1 4 4 10
x 1 4 4 4 7 7 1 4 4 10
EXPERTENTIPP
Entscheide, was m und k ist
o m ist also =2,4,6,...
o k ist damit 1,2,3,...
zentrale Formel
konkretes Vorgehen
o für den ersten Wert
greife die ersten m+1 Glieder heraus
zähle bei der Bildung des arithmetischen Mittels aber das erste und das
letzte Glied nur zur Hälfte, d.h. bilde 12x1+x2+...+xm+12xm−1
dividiere diese Summe durch die tatsächliche Anzahl der Werte, also
durch m
schreibe dieses (gewogene) arithmetische Mittel an die (m2+1)-te Stelle
der ersten m Glieder
o für den zweiten Wert
nimm dann das 2.,3.,...,(m+2). Glied
zähle wiederum das erste und das letzte Glied nur zur Hälfte
dividiere die Summe durch die Anzahl m=2k der Werte
schreibe diesen Mittelwert an die (m2+2)-te Stelle
o usw.
Ergebnis
o man erhält die Glieder der gleitenden Durchschnitte
o es fallen k=m2Glieder am Anfang und am Ende weg
Oftmals fällt es schwer, zu behalten, wie viele Glieder wegfallen bzw. an welcher Stelle das erste und
das letzte vorkommende Glied stehen. Deshalb zur Erleichterung die folgende Tabelle:
Ordnung
m=2k+1 (ungerad m=2k (gerad
e) e)
es fallen weg k=m−12 k=m2
der erste Wert steht an der k+1=m+12 k+1=m2+1
Stelle
Man sieht, dass mit t=−2 überhaupt erst begonnen werden kann, damit die Summe
bei x1 startet. Das arithmetische Mittel der ersten drei Zahlen ist (1+4+4)3=3. Schreibe diese 3 an
die m+12=3+12=2-te Stelle. Bilde das arithmetische Mittel der Zahlen 4,4,4 (was natürlich
wiederum = 4 ist), gehe also eine Zahl weiter. Schreibe die 4 an die 1+3+12=3-te Stelle usw. Man
erhält die Zahlen der gleitenden Durchschnitte dritter Ordnung. Am Anfang und am Ende ist
jeweils 3−12=1 Glied herausgefallen.
1 1
2 4 3
3 4 4
4 4 5
5 7 6
6 7 5
7 1 4
8 4 3
9 4 6
10 10
1 1
2 4
3 4 4
4 4 5,125
5 7 5,125
6 7 4,75
7 1 4,375
8 4 4,375
9 4
10 10
Berechne für die Daten aus Beispiel 59 die gleitenden Durchschnitte 5., 6., 7., 8., 9. Ordnung. Zur
Kontrolle und zum eigenen Nachrechnen seien hier die gleitenden Durchschnitte von der zweiten
bis zur neunten Ordnung angegeben.
1 1
2 4 3,25 3
3 4 4 4 4 4
4 4 4,75 5 5,125 5,2 4,5 4
9 4 5,5 6
1 10
0
MERKE
Merke:
1LückentextNr. 3
2MC-Aufgabe Nr. 1
Lückentext Nr. 3
Aufgabe 1 von 2
Bitte die Lücken im Text sinnvoll ausfüllen.
Gegeben seien die Zahlen 3,5,8,2,5,7,6. Man möchte nun die gleitenden Durchschnitte
; und
Lösen
Exponentielle Glättung
Vorlesen
Die Methode der exponentiellen Glättung (= exponential smoothing) ragt aus den Zeitreihen-
Modellen ein wenig heraus und wird deshalb hier auch gesondert behandelt. Sie ist ein heuristisches
Verfahren, ihr liegt kein explizit formuliertes Zeitreihen-Modell zugrunde. Anders hingegen
parametrische Zeitreihen-Modelle wie Box-Jenkins-Verfahren oder die Spektralanalyse, die
allerdings beide im Rahmen dieser einführenden Analyse nicht behandelt werden.
Die exponentielle Glättung mit erster Ordnung prognostiziert den Wert der (t+1).
Periode y^t+1=0≤α≤1 nach der Formel
y^t+1=∑ni=0α(1−α)i⋅yt–i+(1−α)n+1⋅y^1,
y^t+1=α⋅y+(1−α)⋅y^t (Einschrittprognose),
y^t+1=y^t+α⋅(yt−y^t) (partielle Korrektur der Fehlschätzung der Vorperiode).
Es bezeichnen
MERKE
Merke:
Zur ersten Formel: wenn man direkt den Prognosewert für die (t + 1)-te Periode haben
möchte in Abhängigkeit der wahren Werte y1,y2,...,yt und des Startwertes y^1, so
geht dies über die Formel y^t+1=∑ni=0α(1−α)i⋅yt–i+(1−α)n+1⋅y^1
Zur zweiten Formel: die Ein-Schritt-Prognose y^t+1 ist in der Methode der exponentiellen
Glättung ein gewogenes arithmetisches Mittel aus dem (wahren) Zeitreihen-Wert yt der
Periode t und dem für die Periode t prognostizierten Wert y^t (wobei diese Prognose in
der Periode t-1 abgegeben wurde).
Zur dritten Formel: wenn man mit yt−y^t die Fehlschätzung der t. Periode bezeichnet, so
lässt sich die Prognose y^t+1 auch berechnen als
VERTIEFUNG
BEISPIEL
y 4 5 7 9 13
t
Prognostiziere den Wert für die sechste Periode. Glättungsparameter sei α=0,3, der Startwert
ist y^1=y1.
Man berechnet nach unterschiedlichen Methoden den gleichen Wert:
Erste Formel
Die wahren Werte der ersten fünf Perioden werden zur Prognose der sechsten herangezogen.
Mit t=5 und n=4 erhält man
y^6=(1−α)i⋅y5–i+(1−α)n+1⋅y^1
=α⋅y5+α(1−α)y4+α(1−α)2y3+α(1−α)3y2+α(1−α)4y1+(1−α)5y^1
=0,3⋅13+0,3⋅0,7⋅9+0,3⋅0,72⋅7+0,3⋅0,73⋅5+0,3⋅0,74⋅4+0,75⋅4=8,2939
Zweite Formel
Man prognostiziert zunächst die Werte für die 2., 3., 4. und 5. Periode, um danach erst jenen für die
6. vorhersagen zu können:
y^2=α⋅y1+(1−α)⋅y^1=0,3⋅4+0,7⋅4=4
y^3=α⋅y2+(1−α)⋅y^2=0,3⋅5+0,7⋅4=4,3
y^4=5,11, y^5=6,277, y^6=8,2939
Dritte Formel
Nach dem Vorgehen der Prognosefehler berechnet man
t 1 2 3 4 5
yt 4 5 7 9 13
t 1 2 3 4 5 6
yt 4 5 7 9 13
1Lückentext Nr. 4
2MC-Aufgabe Nr. 2
Lückentext Nr. 4
Aufgabe 1 von 2
Lösen
Auch bei dieser Methode der Zeitreihenanalyse, der Methode der Kleinsten Quadrate, orientieren
wir uns an einem weiteren Beispiel.
BEISPIEL
Beispiel 62:
In der Kleinstadt Poisson-City wurden die folgenden Daten erhoben:
xi yi
3 5
7 8
9 10
5 8
6 4
Berechne eine lineare Regression mit Hilfe der Methode der Kleinsten Quadrate. Zunächst malt man
die Punktwolke, bestehend aus den x- und den y-Werten, auf. So ist z.B. (x5,y5)=(6,4) der fünfte
Punkt der Wolke. Graphisch sieht dies folgendermaßen aus:
Punktwolke
Kann man einen linearen Trend durch die Punkte (die sog. Punktwolke) legen, die gewissen
Optimalitätseigenschaften genügt?
Lässt sich damit prognostizieren, was der y-Wert ist, wenn z.B. x = 11 oder 12 etc. ist?
Errechnet werden soll nun die lineare Schätzung y=bx+a, die die Summe der Residuenquadrate
minimiert.
Man erhält die Steigung b der Geraden durch unterschiedlich aussehende Formeln:
b=∑ni=1(xi−x¯)⋅(yi−y¯)∑ni=1(xi−x¯)2
Steigung der Regressionsgeraden
b=n⋅∑ni=1xi⋅yi−∑ni=1xi⋅∑ni=1yin⋅∑ni=1x2i−(∑ni=1xi)2
b=rBP⋅sYsX
a=∑ni=1x2i⋅y¯−x¯⋅∑ni=1xi⋅yin1n∑ni=1(xi−x¯)2
Ordinatenabschnitt der Regressionskurve
a=∑ni=1x2i⋅∑ni=1yi−∑ni=1xi⋅∑ni=1xi⋅yin⋅∑ni=1x2i−(∑ni=1xi)2
Berechnung am Beispiel
Rechnen wir dies mit den Zahlen des Beispiels 62 aus:
1 3 5 9 15 9 4 6
2 7 8 49 56 1 1 1
3 9 10 81 90 9 9 9
4 5 8 25 40 1 1 -1
5 6 4 36 24 0 9 0
30 35 200 225 20 24 15
∑
b=∑ni=1(xi−x¯)⋅(yi−y¯)∑ni=1(xi−x¯)2=1520=0,75
oder mit der anderen Formel
b=n⋅∑ni=1xi⋅yi−∑ni=1xi⋅∑ni=1yin⋅∑ni=1x2i−
(∑ni=1xi)2=5⋅225−30⋅355⋅200−302=0,75
Den Ordinatenabschnitt a erhält man mit
a=y¯−b⋅x¯=7−0,75⋅6=2,5
oder durch
a=∑ni=1x2i⋅y¯−x¯⋅∑ni=1xi⋅yin1n∑ni=1(xi−x¯)2=20050⋅7−6⋅2255205=104=2,5
bzw.
a=∑ni=1x2i⋅∑ni=1yi−∑ni=1xi⋅∑ni=1xi⋅yin⋅∑ni=1x2i−
(∑ni=1xi)2=200⋅35−30⋅2255⋅200−302=2,5
Die Residuen errechnen sich damit als Differenz aus beobachteten Werten yi und den durch die
Gerade geschätzten Werten y^i, d.h. ei=yi−y^i. Konkret gilt für die durch die Gerade
geschätzten Werte
y^1=2,5+0,75⋅3=4,75,
y^2=2,5+0,75⋅7=7,75, entsprechend
y^3=9,25,y^4=6,25 und y^5=7.
Damit lautet das erste Residuum
e1=5–4,75=0,25, die anderen Residuen sind
e2=0,25,e3=0,75,e4=1,75,e5=−3.
Die Residuenquadrate sind in der folgenden Tabelle eingetragen.
Die Frage ist nun, wie gut die Anpassung der Punkte funktioniert durch eine lineare Regression. Dies
lässt sich mithilfe des Determinationskoeffizienten (= Bestimmtheitsmaß) D beantworten:
D=s2y^s2y=∑ni=1(y^i−y¯)2∑ni=1(yi−y¯)2
Es gilt:
D ist der durch die Regression erklärte Anteil der Varianz, was aus der o.e. Definition
ersichtlich ist.
Der Ausdruck s2y^ ist die Varianz der Werte der Geraden y^,
hingegen ist s2y die Varianz der empirisch beobachteten Werte yi,i=1,…,n,
D liegt zwischen 0 und 1, d.h. es gilt 0≤D≤1,
D ist maßstabsunabhängig,
D lässt sich auch berechnen durch
D=1−∑ni=1e2i∑ni=1(yi−y¯)2
1LückentextNr. 5
2MC-Aufgabe Nr. 3
3MC-Aufgabe Nr. 4
Lückentext Nr. 5
Aufgabe 1 von 3
Bitte die Lücken im Text sinnvoll ausfüllen.
Lösen
Exkurs: Linearisierung
Vorlesen
Oftmals kommt es vor, dass ein nichtlinearer Ansatz gefragt ist. Dieser wird einfach linearisiert; mit
diesen Werten rechnet man dann einen KQ-Ansatz durch und transformiert die Werte dann zurück.
BEISPIEL
Beispiel 63:
Die Beziehung zwischen den Variablen y und x sei gegeben durch eine exponentielle
Funktion y=a⋅eb⋅x
x 2 4 10 15 20
Linearisierung
y~=lny=ln(a⋅eb⋅x)=lna+lneb⋅x=lna+b⋅x=a~+b⋅x
Berechne also lny und
Führe eine KQ-Schätzung durch für x und y~=lny, d.h. errechne
a~=lna
Transformiere zurück, d.h. berechne a aus a~=lna.
Linearisierung am Beispiel
x 2 4 10 15 20
Nichtlineare Regression
Abschließend ein Schema zur Bestimmung Nichtlinearer Regression
EXPERTENTIPP
oexponentielle Regression: y=a⋅ebx
oPotenzregression: y=a⋅xb
ohyperbolische Regression: y=a+bx
2. Linearisiere die Ansätze
oexponentielle Regression: y~=lny, y~=lna+b⋅x=a~+b⋅x
oPotenzregression: y~= lny, y~=a~+b⋅x
x~=lnx, a~=lna
oHyperbolische Regression: y~=a+b⋅x~, x~=1x
3. Rechne eine KQ-Schätzung mit den linearisierten Daten.
4. Transformiere zurück.
1MC-Aufgabe Nr. 5
MC-Aufgabe Nr. 5
Aufgabe 1 von 1
Man linearisiert, wenn in Wahrheit ein exponentieller Ansatz gegeben ist und man aber mit einem
linearen Ansatz rechnen möchte.
Man linearisiert, wenn in Wahrheit ein linearer Ansatz gegeben ist und man aber mit einem
exponentiellen Ansatz rechnen möchte.
Man linearisiert, wenn in Wahrheit ein exponentieller Ansatz gegeben ist und man aber mit einem
exponentiellen Ansatz rechnen möchte.
Lösen
Bei der Methode der Reihenhälften, das letzte hier vorgestellte Verfahren der Zeitreihenanalyse,
geht man folgendermaßen vor:
EXPERTENTIPP
1. Teile die Punktwolke von der Abszisse her in zwei Hälften ein, d.h. die erste Hälfte besteht
aus den ersten n1 Punkten, die zweite Hälfte besteht aus den zweiten n2 Punkten
und n=n1+n2.
2. Bestimme in beiden Hälften das arithmetische Mittel jeweils auf der Abszisse und auf der
Ordinate, d.h. bilde (x¯1,y¯1) und (x¯2,y¯2) .
3. Verbinde die beiden Punkte. Die Verbindung bildet die Regressionsgerade y=a+b⋅x .
4. Die Steigung ist b=y¯2−y¯1x¯2−x¯1, der Ordinatenabschnitt
ist a=y¯1−b⋅x¯1 bzw. a=y¯2−b⋅x¯2.
BEISPIEL
Beispiel 64:
Gegeben seien die Punkte (3,5), (4,2), (1,3), (2,1), (5,2), (6,4), (8,7) und (7,3).
Bestimme eine Trendgerade mit der Methode der Reihenhälften. Zunächst zeichnet man die Punkte,
um zu erkennen, wo die Hälfte liegt.
b=y¯2−y¯1x¯2−x¯1=4−2,756,5−2,5=1,254=516=0,3125
a=y¯1−b⋅x¯1=2,75−516⋅2,5
=2,75−516⋅52=2,75−2532=1,96875
a=y¯2−b⋅x¯2=4−516⋅6,5=1,96875
Zeitreihenzerlegung
Vorlesen
Nach den unterschiedlichen Verfahren, kommen wir zur Zeitreihenzerlegung. Die Anwendung der
Zeitreihenzerlegung ist auch leichter Verständlich, wenn diese anhand konkreter Zahlen erfolgt.
Dazu folgendes Beispiel.
BEISPIEL
Beispiel 65:
Für die Auftragseingänge yt im Baugewerbe der norddeutschen Stadt Elmshorn werden in den
Jahren 2001 – 2003 im jeweiligen Monat die folgenden Werte gemessen.
Januar 24 25 24
Februar 26 27 27
März 28 30 30
April 30 27 26
Mai 29 30 28
Juni 35 38 35
Juli 38 40 38
August 40 42 42
Septembe 35 34 35
r
Oktober 30 30 30
November 28 27 28
Dezember 25 26 27
Die Werte yt hängen also primär von der Zeit ab, t gibt hierbei den Zeitindex an. Es stellen sich
mehrere Fragen:
Trendkomponente Tt
- diese wird durch langfristig wirkende Faktoren bedingt
- oftmals durch KQ-Schätzungen erklärt
die zyklische Komponente Zt
- sie wird durch Konjunkturzyklen bedingt
- sie ist oftmals wellenförmig
die Saisonkomponente St
- hier werden Saisoneinflüsse beobachtet
- wie z.B. im vorliegenden Fall verminderte Auftragseingänge im Baugewerbe
die irreguläre Komponente Ut
- die Ursachen sind keinen der o.e. Gründe zuzurechnen.
- die Werte der irregulären Komponente (= Störvariable, = Zufallsschwankung, = unerklärter
Rest) werden als relativ klein angenommen
- und als unsystematisch um null schwankend verstanden
MERKE
Merke: Oftmals fasst man den Trend und die zyklische Komponente zur sog. glatten
Komponente Gt zusammen.
EXPERTENTIPP
S~j=1mj∑iϵMj(ui,j−y∗i,j)=Sj+1mj∑iϵMjUi,j
S~j=S~j−1k∑j=1kS~j
MERKE
Merke:
Im zweiten Schritt funktioniert die Bildung der glatten Komponente unabhängig und losgelöst vom
ersten Schritt. Für die glatte Komponente ist also die Trend-Berechnung uninteressant, erst für den
Zyklus muss sie um den Trend bereinigt werden.
Zeitreihenzerlegung am Beispiel
Anwendung auf das Beispiel 65 damit wie folgt.
Schätzung des Trends
Die Trendkomponente Tt wird mit der KQ-Methode geschätzt, die schon aus vorherigen Kapiteln
bekannt ist. Wichtig ist allerdings, dass nun die Zeit der Regressor ist, also yt=a+b⋅t gilt. Alle
übrigen Komponenten, also Zt, St und Ut, sind hier das Residuum.
Es ist im vorliegenden Beispiel ∑36t=1t2=16.206, das arithmetische Mittel der Zeitdaten
ist t¯=136∑36t=1t=18,5, das Produkt ∑36t=1t⋅yt=20.793. Also rechnet man die Steigung
b aus als
b=1n⋅∑nt=1t⋅yt−t¯⋅y¯1n⋅∑nt=1t2−t¯ 2=136⋅20.793−18,5⋅30,944136⋅16.206−18,5
2=0,04736
Zur Ermittlung der zyklischen Komponente bedient man sich der Methode der gleitenden
Durchschnitte. Wir schätzen die glatte Komponente als gleitenden Durchschnitt 12. Ordnung, d.h. k
= 6 (wegen der Monatsdaten). Man verwendet die Formel
x∗t=[12xt−k+12xt+k+∑τ=t−(k−1)t+(k+1)xτ]
x∗t=12⋅6⋅[12xt−6+12xt+6+∑τ=t−5t+5xτ]
Die möglichen t-Werte starten damit bei t = 7, damit in der Klammer mit x7−6=x1 die Zählung
begonnen werden kann. Damit rechnet man z.B.
x∗7=112[12x1+12x13+∑τ=212xτ]=112[12⋅24+12⋅25+(26+28+…
+28+25)]=30,7083
Die anderen Werte werden errechnet und die Arbeitstabelle 53 eingetragen. Man erhält damit die
Zahlen der glatten Komponente.
Alsdann bildet man die Differenz aus den tatsächlichen Zahlen yt und den Werten der glatten
Komponente y∗t, d.h. die um die glatte Komponente bereinigte Zeitreihe yt−y∗t:
1 2 3 4 5 6 7 8 9 10 11 12
200 -6,17 -4,33 -1,38 - -1,29 6,71 8,70 10,75 2,75 -1,21 -4,08 -4,875
2 4,333 8
Schließlich werden die Zahlen aus Schritt 3 spaltenweise (!) gemittelt gemäß der Formel
Sj=1mj∑iϵMj(ui,j−y∗i,j)=Sj+1mj∑iϵMjUi,j
Mj ist die Menge der Jahre, für die dann die um die glatte Komponente bereinigte Zeitreihe
gebildet wird. Die Zahl mj ist hierbei die Anzahl der Jahre, für die man die um die glatte
Komponente bereinigte Zeitreihe berechnen kann. Also ist M1=M2=…=M6={2,3}, weil nur
für das 2. und 3. Jahr der Wert gebildet werden kann, denn dadurch dass am Anfang sechs Monate
herausfallen, sind die Werte für die Monate Januar bis Juni nur aus den Jahren 2 und 3 zu
berechnen. Der Parameter m1 ist dabei m2=2, nämlich die Anzahl der Elemente der
Mengen Ml, I=1,…, 6.
Genau andersrum verhält es sich bei M7=M8=…=M12={1,2}. Dadurch, dass am Ende (im
Jahr 2003) sechs Monate wegfallen, sind für die Monate Juli bis Dezember nur die Jahre 2001 und
2002, also 1 und 2, brauchbar. Also ist m2, wie oben die Zahl m1 auch, m2=2. Man erhält also
1 2 3 4 5 6 7 8 9 10 11 12
2002 -6,17 -4,33 -1,38 - -1,3 6,7 8,7 10, 2,7 -1,2 -4,08 -4,88
4,33 1 8 5
Wenn die Summe der S~j nicht null ergibt bzw. nicht hinreichend nahe bei null liegt, muß man
noch ein Korrekturglied ermitteln, nämlich das arithmetische Mittel der S~j-Werte: es ist
hier 112∑12j=1S^j=−0,0763. Dieses Korrekturglied wird von den −S~j Werten jeweils
abgezogen, man erhält die normierten Schätzwerte für die monatstypische Abweichung Sj.
1 2 3 4 5 6 7 8 9 10 11 12
2002 -6,17 -4,33 -1,38 - -1,3 6,7 8,7 10, 2,7 -1,2 -4,08 -4,88
4,33 1 8 5
Sdachj -6,34 -3,88 -0,92 - -1,9 5,5 8,1 10, 3,4 -1 -3,36 -5,34
4,42 3 1 9
Saisonbereinigte Zeitreihe
Die eigentliche saisonbereinigte Zeitreihe ergibt sich dann durch Subtraktion der Werte aus Schritt
4 und der beobachteten Werte aus der Original-Zeitreihe.
MERKE
Merke:
die glatte Komponente kann innerhalb eines Zeitraums von m + 1 Perioden durch eine
lineare Schätzung angenähert werden,
die Saisonfigur, also das Tupel (S1, S2,…, Sm), ist in der Summe null, d.h. S1+S2+
…+Sm=0. Konkret heißt dies bei Monatsdaten (bei Quartalsdaten), dass die
Monatswerte (die Quartalswerte) eines Jahres in der Summe gleich null ergeben. Sollte
dies nicht der Fall sein, dann muss man zunächst durch Normierung dafür sorgen, dass
dies gilt.
die Werte der Saisonkomponente St sind jeweils identisch für die gleichnamigen Perioden
(sog. Konstanz der Saisonfigur, eine variable Saisonfigur wird hier nicht angesprochen)
St=St+12 bei Monatswerten
St=St+4 bei Quartalswerten.
1LückentextNr. 1
2LückentextNr. 2
3MC-Aufgabe Nr. 1
Lückentext Nr. 1
Aufgabe 1 von 3
Oftmals fasst man den Trend und die zyklische Komponente zur sog.
Komponente zusammen.
Lösen
Indexrechnung
Grundbegriffe
Verhältniszahlen
Vorlesen
Im abschließenden Kapitel unseres Kurses zur deskriptiven Statistik beschäftigen wir uns mit dem
Thema der Indexrechnung.
Gliederungszahlen,
Beziehungszahlen und
Messzahlen
o Preisindices,
o Mengenindices,
o Wertindices.
Gliederungszahl
Bei Gliederungszahlen haben der Zähler und der Nenner dieselbe Dimension, weil eine Gesamtheit
aufgegliedert wird, so z.B. in dem folgenden
BEISPIEL
Beispiel 66 - Gliederungszahl:
In einer Schule gibt es 672 Schüler, davon 350 Mädchen und 322 Jungen.
Der Anteil der Mädchen ist damit 350672=0,5208=52,08 %, der Anteil der Jungen
entsprechend 322672=0,4792=47,92 %.
BEISPIEL
Beispiel 67 :
Weitere Gliederungszahlen sind:
- Studenten nach Studienfächern gegliedert,
- Angehörige eines Fitnessstudios, nach Berufsgruppen gegliedert.
Beziehungszahl
MERKE
Merke: Bei Beziehungszahlen haben Zähler und Nenner nicht dieselbe Dimension. Es werden
verschiedenartige Größen zueinander in Beziehung gesetzt (trotzdem sollten Zähler und Nenner
sinnvoll zusammenhängen). Insbesondere ist der Zähler kein Teil des Nenners.
Beispiel
Beispiel
Beispiel 68:
Ein Autofahrer fährt eine Strecke von 240 km in einer Zeit von vier Stunden.
Er ist also mit einer durchschnittlichen Geschwindigkeit von 240km4h=60kmh gefahren.
Messzahl
Als Messzahlen bezeichnet man Quotienten, die aus Zeitreihenwerten gebildet werden. Diese
müssten allerdings metrisch skaliert sein. Die Messzahl xixj gibt an, in welchem Ausmaß sich die
Mehrmalsausprägung x in der Berichtsperiode i im Vergleich zur Basisperiode j geändert hat.
So sei z.B. konkret das Preisniveau in der Basisperiode 2003 als 100 [%] gesetzt. Im Vergleich hierzu
habe sich das Preisniveau in der Berichtsperiode 2004 auf 105 [%] erhöht. Die
Messzahl x2004x2003=105100=1,05 gibt dann an, dass sich das Preisniveau um 5 % erhöht hat.
Zur Übersicht nochmal die folgende Grafik:
Wir werden in den folgenden Kapiteln speziell auf die Messzahlen eingehen und uns mit den
Preisindices, Mengenindices und Wertindices beschäftigen.
Preisindizes
Definition Preisindizes
Vorlesen
Beispiel 70 - Preisindex:
Der Düsseldorfer Student Hubert konsumiert Bücher, Cola und Nudeln in folgenden Mengen:
Hubert – ein statistisch sehr interessierter Student – hört nun von der Diskussion „Euro – Teuro” und
möchte ausrechnen, ob seine Lebenshaltung teurer geworden ist.
Er rechnet die Ausgaben für 2001 aus. Hierbei bezeichnet pti den Preis des i. Gutes im Jahr t,
entsprechend qti die Menge des i. Gutes im t. Jahr. So ist pt2=1,3 € der Preis des zweiten Gutes,
also von Cola, im Jahr t = 2002, bzw. p03=0,8 € der Preis von Nudeln im Jahr t = 0.
Ausgabe2001=∑i=13p2001i⋅q2001i=10⋅20+1⋅500+0,8⋅100=780 €
∑i=13p2002i⋅q2002i=15⋅30+1,3⋅600+1⋅80=1.310 €
Er denkt nun, dass das Preisniveau um (1.310780–1)⋅100=68 % gestiegen ist. Dies ist jedoch
nicht richtig, da für eine Ausgabensteigerung des Haushalts zwei Gründe maßgeblich sind:
Um also allein auf die Preisentwicklung abzustellen, muss man für das sog. Berichtsjahr t – jenes
Jahr, für das man den Preisindex ausrechnen möchte – die gleichen Mengen unterstellen wie für das
Basisjahr 0 – jenes Jahr, mit dem verglichen wird. Also rechnet Hubert (t = 2002 als Berichtsjahr, 0 =
2001 als Basisjahr) Ausgabe2001=780 € und Ausgabe2002 unter der Annahme der Mengen
für 2001:
(fiktive) Ausgabe2002=∑i=13pti⋅q0i=∑i=13p2002i⋅q2001i=15⋅20+1,3⋅500+1⋅10
0=1.050 €
Man nimmt also die Mengen des Basisjahres 0 = 2001 und multipliziert diese mit den Preisen des
Berichtsjahres t, also von t = 2002. Und damit für den Anstieg des Preisniveaus:
∑ptiq0i∑p0iq0i=∑p2002iq2001i∑p2001iq2001i=(1.050780−1)⋅100=34,6%
Definition Preisindex
Wir definieren daher einen Preisindex wie folgt. Gegeben seien n Güter mit Preisen p0i in der
Basisperiode 0 und pti in der Berichtsperiode t. Die nachgefragten Menge seien in beiden Perioden
jeweils gleich, d.h. q0i=qti
Ein Preisindex PI0,t errechnet sich dann als
PI0,t=∑ptiqi∑p0iqi
MERKE
Merke: Diese Zahl gibt also an, wie sehr die Ausgaben prozentual gesteigert wurden, wenn
unterstellt wird, dass die Mengen jeweils gleich bleiben. Man stellt also ausschließlich auf die
Preisänderung ab und lässt die Mengenänderung außen vor.
In der Wahl der Mengen qi, d.h. ob man qti aus der Basis- oder der Berichtsperiode im Zähler
und/oder im Nenner wählt, unterscheiden sich im folgenden
Die beiden wichtigsten Preisindizes, die auch in den folgenden Kapiteln behandelt werden, sind
die Preisindizes nach Laspeyres und nach Paasche.
Formeln
Der Preisindex PIL0,t nach Laspeyres ist
MERKE
Aggregatformel (Laspeyres)
PIL0,t=∑ptiq0i∑p0iq0i
Man rechnet also wie oben geschehen: wie verändert sich das Preisniveau, wenn in der
Berichtsperiode t die gleichen Mengen q0i verwendet würden wie in der Basisperiode 0. Es wird
lediglich auf die Preisentwicklung abgestellt, die Mengen bleiben konstant. Der Preisindex nach
Laspeyres betrachtet als Mengen jene der Basisperiode 0.
Play Video
Anders des Preisindex nach Paasche: er wählt die Mengen der Berichtsperiode t und errechnet sich
damit als
MERKE
Aggregatformel (Paasche)
PIP0,t=∑ptiqti∑p0iqti
Play Video
Berechnung am Beispiel
Im vorliegenden Beispiel 70 erhält man für die Formel nach Paasche
PIP2001,2002=15⋅30+1,3⋅600+1⋅8010⋅30+1⋅600+0,8⋅80=1310964=1,3589
Man erhält nach dieser Methode also eine Preissteigerung in Höhe von 35,9 %. Der Preisindex
von Laspeyres hingegen ist
PIL2001,2002=15⋅20+1,3⋅500+1⋅10010⋅32+1⋅500+0,8⋅100=1050780=1,3462
MERKE
Merke:
beide Preisindices, also jene nach Laspeyres und nach Paasche, unterstellen im Zähler und
Nenner jeweils für sich dieselben Mengen,
beide stellen damit ausschließlich auf die Preisentwicklung ab,
Laspeyres betrachtet die Mengen der Basisperiode, also von 0,
Paasche hingegen stellt ab auf die Mengen der Berichtsperiode, also von t.
Preismesszahl
Berechnet man nun mit
gi=p0iq0i∑nj=1p0jq0j
den Ausgabenanteil des i. Gutes (i = 1, ..., n), dann hält man durch einige Umformungen zunächst für
den allgemein formulierten Preisindex:
PI0,t=∑ptiqi∑p0iqi=∑qip0i⋅ptip0i∑p0iqi=∑qip0i∑p0iqi⋅ptip0i=∑gi⋅ptip0i
Der Quotient ptip0i wird häufig als Preismesszahl bezeichnet. Er gibt an, wie sich der Preis – ohne
Betrachtung der Mengen – des jeweiligen, d.h. des i. Gutes, verändert hat. Für das o.e. Beispiel 70
sind die Preismesszahlen p20021p20011=1510=1,5 für die Bücher, 1,31=1,3 für die Cola
sowie 10,8=1,25 für die Nudeln.
Der Ausgabenanteil gi wiederum gibt an, welcher Teil der Gesamtausgaben für das i. Gut
ausgegeben werden. Sie sind normiert, liegen also zwischen 0 und 1, in Zeichen: 0≤gi≤1
MERKE
MERKE
Laspeyres-Preisindex
PIL0,t=∑p0iq0i∑p0jq0j⋅ptip0i=∑gi⋅ptip0i
Genauso für Paasche. Paasche-Preisindex
PIP0,t=∑p0iqti∑p0jqtj⋅ptip0i, d.h. gi=p0iqti∑p0jqtj
PIL0,t=∑ptiq0ip0iq0i=∑p0iq0i∑p0jq0j⋅ptip0i=10⋅2010⋅20+1⋅500+0,8⋅100
⋅1510+1⋅500780⋅1,31+0,8⋅100780⋅10,8=0,2564⋅1,5+0,641⋅1,3+0,103⋅1,25
=1,3467
PIP0,t=∑ptiqtip0iqti=∑p0iqti∑p0jqtj⋅ptip0i=10⋅3010⋅30+1⋅600+0,8⋅80⋅1
510+1⋅600964⋅1,31+0,8⋅80964⋅10,8=0,31⋅1,5+0,622⋅1,3+0,066⋅1,25=1,35
61
MERKE
Merke:
Der Preisindex nach Paasche lässt sich wie folgt als harmonisches Mittel schreiben. Darüber hinaus
notieren wir die Formel für den Laspeyres-Index nochmals dabei, was für das Verständnis der
folgenden „MERKE”-Position sehr wichtig ist.
PIP0,t=1∑p0iq0i∑p0jq0j⋅p0ipti
sowie
PIL0,t=∑p0iq0i∑p0jq0j⋅ptip0i
MERKE
Merke:
1LückentextNr. 1
2LückentextNr. 2
3MC-Aufgabe Nr. 1
4MC-Aufgabe Nr. 2
Lückentext Nr. 1
Aufgabe 1 von 4
Lösen
Im folgenden Lernvideo wird nochmals genauer eingegangen auf die Indices nach Laspeyres und
nach Paasche. Außerdem wird der sogenannte Wertindex erläutert.
Lernvideo - Indexrechnung
Play Video
Mengenindizes
Definition Mengenindizes
Vorlesen
MERKE
Formel Mengenindex
MI0,t=∑piqti∑piq0i
Aufgabe 1 von 1
Bitte bilde Paare zwischen den Elementen auf der rechten und der linken Seite.
Laspeyres rechnet mit Preisen der Basisperiode 0, Paasche mit Preisen der Berichtsperiode t. Analog
die Interpretation als arithmetisches Mittel, diesmal von Mengenmesszahlen qtiq0i:
MERKE
MIL0,t=∑p0iq0i∑p0jq0j⋅qtiq0i
MIP0,t=∑ptiq0i∑ptjq0j⋅qtiq0i
Laspeyres gewichtet demnach die Mengenmesszahlen mit Zahlen der Basisperiode, Paasche
hingegen mit Zahlen der Berichtsperiode.
Berechnung am Beispiel
Konkret für Beispiel 70:
MIL2001,2002=10⋅30+1⋅600+0,8⋅8020⋅10+1⋅500+0,8⋅100=964780=1,2359
MIP2001,2002=15⋅30+1,3⋅600+1⋅8015⋅10+1,3⋅500+1⋅100=13101050=1,2476
Auch hier wieder die Interpretation mit dem gewogenen arithmetischen Mittel der
Mengenmesszahlen:
MIL0,t=10⋅2010⋅20+1⋅500+0,8⋅100⋅3020+1⋅500780⋅600500+0,8⋅100780⋅8010
0=0,2564⋅1,5+0,641⋅1,2+0,1026⋅0,8=1,2359
für den Mengenindex nach Laspeyres und
MIP0,t=15⋅2015⋅20+1,3⋅500+1⋅100⋅3020+1,3⋅5001050⋅600500+1⋅1001050⋅801
00=0,2857⋅1,5+0,619⋅1,2+0,0952⋅0,8=1,2476
für jenen nach Paasche.
1Lückentext Nr. 1
2MC-Aufgabe Nr. 1
3MC-Aufgabe Nr. 2
4Paarbildung
Lückentext Nr. 1
Aufgabe 1 von 4
der im Nenner.
Lösen
Wertindizes
Der Wertindex
Vorlesen
Der sog. Wertindex WI ist nun der Umsatz der Berichtsperiode, dividiert durch den Umsatz der
Basisperiode:
MERKE
Wertindex
WI=∑ptiqti∑p0iq0i
WI=∑ptiqti∑p0iq0i=1.310780=1,6795
MERKE
Man rechnet
PIL0,t⋅MIP0,t=1,3467⋅1,2476=1,6801 und
PIP0,t⋅MIL0,t=1,3589⋅1,2359=1,6795,
was beide Male, bis auf Rundungsfehler, die gewünschte Zahl, nämlich den Wertindex, ergibt.
1LückentextNr. 1
2LückentextNr. 2
3MC-Aufgabe Nr. 1
Lückentext Nr. 1
Aufgabe 1 von 3
Weitere Indizes
Übersicht weitere Indizes
Vorlesen
Alternativ zu den Indices nach Laspeyres und Paasche existieren noch jene nach
Lowe,
Fisher und
Marshall-Edgeworth.
Der Index nach Lowe ist der erste, der hier kurz behandelt werden soll.
MERKE
qi=1t+1∑k=1t+1qki
Lowe verwendet also das arithmetische Mittel qi der Mengen der einzelnen Perioden. Im Nenner
steht hierbei t+1, da bis zur t. Periode, also der Berichtsperiode, insgesamt t+1 Perioden vergangen
sind, wenn man in der nullten Periode, also der Basisperiode, anfängt zu zählen. Analog errechnet
sich ein Mengenindex nach Lowe, diesmal mit arithmetischen Mitteln der Preise:
MERKE
MILowe0,t=∑qtipi∑q0ipi mit pi=1t+1∑k=1t+1pki
Berechnung am Beispiel
Konkret für das Beispiel 70 des Düsseldorfer Studenten Hubert:
Preisindex nach
Lowe q1=11+1∑1+1k=1qk1=12(20+30)=25, q2=12(600+500)=550,
q3=12(100+80)=90. Also ist der Preisindex nach Lowe
PILowe0,t=15⋅25+1,3⋅550+1⋅9010⋅25+1⋅550+0,8⋅90=1180872=1,3532
Mengenindex nach
Lowe p1=11+1∑1+1k=1pk1=12(10+15)=12,5, p2=12(1,3+1)=1,15 und
p3=12(1+0,8)=0,9.
Also MILowe0,t=30⋅12,5+600⋅1,15+80⋅0,920⋅12,5+500⋅1,15+100⋅0,9=1137915=1,2426.
1Lückentext Nr. 1
Lückentext Nr. 1
Aufgabe 1 von 1
Der Preisindex nach Lowe verwendet das arithmetische Mittel der der
einzelnen Perioden.
Lösen
Fisherscher Idealindex
Vorlesen
MERKE
Preisindex nach Fisher
PIFisher0,t=PIL0,t⋅PIP0,t−−−−−−−−−√
MIFisher0,t=MIL0,t⋅MIP0,t−−−−−−−−−−√
1Lückentext Nr. 2
2MC-Aufgabe Nr. 1
Lückentext Nr. 2
Aufgabe 1 von 2
Der Preisindex nach Fisher ist das geometrische Mittel der Preisindices
Lösen
Marshall-Edgeworth-Preisindex
Vorlesen
MERKE
Preisindex nach Marshall-Edgeworth
PIME0,t=∑pti(q0i+qti)∑p0i(q0i+qti)
PIME0,t=15⋅(20+30)+1,3⋅(500+600)+1⋅(100+80)10⋅(20+30)+1⋅(500+600)+
0,8⋅(100+80)=1,3532
1MC-Aufgabe Nr. 2
2Paarbildung
MC-Aufgabe Nr. 2
Aufgabe 1 von 2
Welche der folgenden Aussagen über den Preisindex nach Marshall-Edgeworth ist
richtig?
Im Nenner steht die Summe aus den Preisen der Berichtsperiode, jeweils multipliziert mit der
Summe aus den Mengen der Basis- und der Berichtseriode.
Im Zähler steht die Summe aus den Preisen der Basisperiode, jeweils multipliziert mit der Summe
aus den Mengen der Basis- und der Berichtseriode.
Im Zähler steht die Summe aus den Preisen der Berichtsperiode, jeweils multipliziert mit der Summe
aus den Mengen der Basis- und der Berichtseriode.
Lösen
Die Rundprobe
Die letzten beiden Indices haben einen ganz anderen Bezugspunkt, d.h. ein anderes Basisjahr. Ideal
wäre es, wenn ein Preisindex die sogenannte Rundprobe erfüllt.
MERKE
Rundprobe
PI0,t=PI0,1⋅PI1,2⋅PI2,3⋅…⋅Pit−1,t
Man könnte dann die jeweiligen Preisindices unterschiedlicher, aber benachbarter Perioden,
aufmultiplizieren und würde schließlich nach t-facher Multiplikation den Preisindex erhalten zum
Berichtsjahr t (und zum ersten auf der rechten Seite gewählten Basisjahr 0).
MERKE
Merke: Leider hat von den o.g. Indices nur der Lowe-Index die Eigenschaft, die Rundprobe zu
erfüllen.
Berechnung am Beispiel
BEISPIEL
Beispiel 71:
Wir erweitern das Beispiel 70 des Düsseldorfer Studenten Hubert:
Bücher Cola Nudeln
PIL02,03=∑p03q02∑p02q02=20⋅30+1,5⋅600+0,9⋅8015⋅30+1,3⋅600+1⋅80=15721
310=1,2
und
PIL03,04=1170780=1,5
Es müsste also gelten
PIL03,04=PIL01,02⋅PIL02,03⋅PIL03,04⇔1,5=1,347⋅1,2⋅0,9603⇔1,5=1,5522, was
aber nicht stimmt. Der Laspeyres-Index genügt also im vorliegenden Beispiel (und damit allgemein)
nicht der Rundprobe.
In einem weiteren Beispiel wird gezeigt, das die Rundprobe jedoch beim Lowe-Preisindex Gültigkeit
besitzt.
BEISPIEL
Beispiel 72:
Zeige am vorliegenden Beispiel 71 die Gültigkeit der Rundprobe für den Lowe-Preisindex.
PILowe01,02=1,3532, wie oben errechnet. Für den Preisindex zum Basisjahr 0 = 2002 und dem
Berichtsjahr t = 2003 rechnet man
q1=11+1∑(k=1)(1+1)qk1, also
q1=12(30+35)=32,5;q2=12(600+650)=625 und q3=12=(80+100)=90.
Damit ist
PILowe02,03=∑ptiqi∑p0iqi=20⋅32,5+1,5⋅625+0,9⋅9015⋅32,5+1,3⋅625+1⋅90=1.
668,51.390=1,20036
Den Preisindex nach Lowe für 0 = 03 und t = 04 rechnet man wieder die q-Werte als arithmetisches
Mittel der Mengen aus: q1=21, q2=675 und q3=110. Der Preisindex selbst ist dann
PILowe03,04=20⋅21+1,3⋅675+0,8⋅11020⋅21+1,5⋅675+0,9⋅110=1.427,51.531,5=
0,9321
Der Preisindex nach Lowe schließlich zum Basisjahr 0 = 01 und zum Berichtsjahr t = 2004 ist
nämlich q1=14(20+30+35+40)=31,25, q2=612,5 und q3=100.
PILowe01,04=22⋅31,25+1,3⋅612,5+0,8⋅100⋅10⋅31,25+1⋅612,5+0,8⋅110=1.563,75
1.005=1,55597
PIL0,14=PIL01,02⋅PIL02,03⋅PIL03,04=1,3532⋅1,20036⋅0,9321=1,514,
also stimmt die Rundprobe (wenn man von Rundungsungenauigkeiten absieht).
1Lückentext Nr. 1
2MC-Aufgabe Nr. 1
Lückentext Nr. 1
Aufgabe 1 von 2
Bei der Rundprobe wird überprüft, ob der Preisindex zum Berichtsjahr t und zum
Basisjahr 0 nichts anderes ist als ein von Preisindices, wobei Berichts- und
Basisjahr jeweils nur genau ein Jahr voneinander entfernt liegen.
Lösen
Umbasierung
Vorlesen
Unter Umbasierung einer Zeitreihe von Indexwerten versteht man, dass man die Basisperiode
ändert. Dies geschieht durch die Umrechnung
MERKE
Umbasierung am Beispiel
Für das Beispiel 70 des Düsseldorfer Studenten Hubert möchte man z.B. die Zahlen umbasieren auf
das Basisjahr 0 = 2002. Man rechnet für die Laspeyres-Indices
PI∗2002,2003=PI01,03PI01,02=1,58971,3462=1,1809 und
PI∗2003,2004=PI01,04PI01,03=1,51,5897=0,9435.
Beide Werte stimmen nicht überein mit den wahren Werten
PIL2002,2003=20⋅30+1,5⋅600+0,9⋅8015⋅30+1,3⋅600+1⋅80=15721310=1,2 und
PIL2003,2004=22⋅35+1,3⋅650+0,8⋅10035⋅20+1,5⋅650+0,9⋅100=16951795=0,9603.
Das liegt daran, dass der Laspeyres-Preisindex die Rundprobe nicht erfüllt.
1LückentextNr. 2
2MC-Aufgabe Nr. 2
Lückentext Nr. 2
Aufgabe 1 von 2
Verkettung
Vorlesen
MERKE
Verkettung
PI∗0,t=PI0,1⋅PI1,2⋅PI2,3⋅…⋅PIt–1,t
Wenn der so erzeugte Indexwert PI∗0,t mit dem wahren Index PI0,t übereinstimmt, dann ist
diese Verkettung unmittelbar die Rundprobe.
1Lückentext Nr. 3
Lückentext Nr. 3
Aufgabe 1 von 1
Lösen