Sie sind auf Seite 1von 54

3

Kapitel 1
Beschreibende Statistik
1.1 Individuen und ihre Merkmale
Ganz allgemein gesehen beschMtigt sich die beschreibende Statistik mit M erk-
malen von Individuen. Mathematisch gesehen sind die Individuen Elemente einer
Menge M, die wir zur Vereinfachung als endlich annehmen, also
mit n E N. Ein Merkmal (etwa eine Anzahl, Lange, Farbe, etc.) kann verschiedene
Auspriigungen haben, die alle in einer anderen Menge A enthalten sein sollen.
Dann ist die Erhebung eines Merkmals mathematisch gesehen eine Abbildung
X : M ---> A, (3 f--+ X((3) .
Zur Abkurzung nennt man eine solche Abbildung ein Merkmal.
Fur die mathematische Beschreibung kann man ein Individuum durch die laufen-
de Nummer, also (3j durch j ersetzen; dann wird einfacher
M={l, ... ,n}.
Bei den Auspragungen ist das schwieriger, weil sie vollig verschiedenartig sein
konnen. Bei einer Anzahl ist A = N angemessen, bei einer Lange oder Tempera-
tur A = lR, bei einer zoologischen Spezies A = {Lowe, Ente, ... }. Hier sieht man
schon einen wesentlichen U nterschied: Anzahlen oder Spezies etwa sind diskrete
Merkmale, Langen oder Temperaturen kontinui erliche. Da aber auch kontinuier-
liche Merkmale nur mit begrenzter Genauigkeit gemessen werden konnen, ist der
Ubergang zu diskreten Merkmalen in der Praxis flieEend.
Urn das alles unter einen Hut zu bringen, ersetzt man auch diskrete Merkmale
durch reelle Zahlen. Bei A = N c lR ist das offensichtlich, bei verschiedenartigen
Spezies wahlt man eine Codierung dieser Spezies durch Zahlen. Dabei ist keines-
falls klar, ob die Codierung so geschehen kann, dass die Differenz zwischen den
Code-Zahlen ein MaE fur den Unterschied der Spezies ist.
Fur die einheitliche mathematische Beschreibung ist ein Merkmal also schlieBlich
eine Abbildung
X: {l, .. . ,n}---> lR, jf--+X(j),
und ublicherweise schreibt man Xj statt X(j) fUr dieses Merkmal des Individuums
mit der laufenden Nummer j.
n
G. Fischer, Stochastik einmal anders
Friedr. Vieweg & Sohn Verlag/GWV Fachverlage GmbH, Wiesbaden 2005
1.1 Incli idu 11 lllld ihr M rkmal 5
In der Praxis erhebt man oft mehrere Merkmale und vergleicht sie untereinander.
Untersucht man insgesamt m Merkmale, so hat man Abbildungen
Xi : M ----> lR fUr i = 1, ... ,m.
Wir beschranken uns hier auf hochstens zwei Merkmale, die dann einfacher mit
X, Y bezeichnet werden.
Die beschreibende Statistik beschaftigt sich nun in erster Linie mit der Analyse
eines Merkmals und dem Vergleich von mehreren Merkmalen. Das ist ziemlich
einfach und erfordert nur ganz element are mathematische Hilfsmittel.
Die Erhebung eines Merkmals geschieht haufig durch eine Umfrage. Das wesentli-
che Problem dabei ist nicht die mathematische Auswertung, sondern die adaquate
Auswahl und Formulierung der gestellten Fragen.
Spannendere Probleme entstehen, wenn aus einer groBen Menge M' von Indivi-
duen nur von einer Teilmenge M C M' ein Merkmal
X: M={l, ... ,n}---->lR
erhoben wird, und aus dem Ergebnis Eigenschaften dieses Merkmals in ganz M'
abgeschatzt oder vorhergesagt werden sollen. Typisches Beispiel dafilr ist eine
Umfrage vor einer Wahl. Man nennt die Werte X (1) , . .. , X (n) in einem solchen
Fall das Ergebnis einer Stichprobe vom Umfang n.
Die Auswahl von M C M' kann nach sehr unterschiedlichen Methoden erfolgen,
zum Beispiel "zufallig". Damit kommt der Begriff "Wahrscheinlichkeit" ins Spiel,
und man kann ilber M' hochstens noch Aussagen derart machen, mit welcher
Sicherheit der Fehler der Vorhersage begrenzt werden kann. Auf diese wesentlich
schwierigere Frage kommen wir in Kapitel 3 zurilck.
n
1.2 Hliufigk it n 7
1.2 Haufigkeiten
1st eine Erhebung abgeschlossen, so solI das Ergebnis in moglichst ubersichtlicher
und einpragsamer Weise dargestellt werden. Wird ein Merkmal
X: M----+lE.
untersucht, so hat man die Werte von X, die mit
Xl = X(l), X2 = X(2) , Xn = X(n)
bezeichnet werden. Wesentlich fUr die Erhebung ist, dass ein Wert von X mehr-
mals angenommen werden kann, d.h. die Xj muss en nicht alle verschieden sein.
Daher sind folgende Bezeichnungen hilfreich: Die Menge
X(M) = {all .. " ad c lE.
mit paarweise verschiedenen al ... , ak bezeichnet man als Menge der Auspriigun-
gen. Offensichtlich ist k ::; n. 1m Extremfall k = n ist das Merkmal fUr aIle
Individuen verschieden. Fur beliebiges a E lE. bezeichnet (wie in der Statistik
ublich)
{X = a} := {j EM: Xj = a} = X-I (a) C M
die Gesamtheit der Individuen, fiir die das Merkmal X die Auspragung a hat. Es
gilt
{X = a} "I 0 a E X (M) .
Die erste Zusammenfassung besteht nun darin, nur noch abzuzahlen, wie viele
Individuen die Mengen {X = a} enthalten. Man nennt diese Anzahl (in Zeichen
#)
h(X = a) := #{X = a}
die (absolute) Hiiufigkeit der Auspragung a und
r(X = a) := = a)
die relative Hiiufigkeit der Auspragung a. Es ist
Die Funktion
h(X = al) + '" + h(X = ak)
r(X = al) + ... + r(X = ak)
lE.----+lE.,
n und
l.
(1.2.1 )
hei13t Hiiufigkeitsverteilung des Merkmals X. Sie hat genau an den SteIlen
aI, ... ,ak Werte ungleich Null. Man kann sie durch ein Stabdiagmmm oder ein
Kreisdiagmmm darstellen. Das ist allerdings nur hilfreich, wenn k genugend klein
ist.
Bei einem Stabdiagramm ist zu beachten, dass nur die Hohe der Stabe von Bedeu-
tung ist, sie gibt die relative Haufigkeit an. Die Breite der Stabe dient lediglich
der deutlichen Sichtbarkeit. 1m Stabdiagramm kann man durch Anderung des
MaBstabes auf der vertikalen Skala statt der relativen auch die absoluten Haufig-
keiten anzeigen. Urn von den relativen zu den absoluten Haufigkeiten ubergehen
zu konnen, muss man naturlich die Gesamtzahl n kennen.
1st k sehr groB (vor allem im Vergleich zu n), so wird das Stabdiagramm leicht
zu einem Datenfriedhof (fast aIle Grabsteine sind gleich hoch).
3/11
2/n
l/n
r(X) = a
k - 16, n - 20
a
In diesem Fall fasst man besser ahnliche A uspriigungen zu Klassen zusammen.
Dabei ist nun wichtig, dass die Codierung der Merkmale durch reelle Zahlen sinn-
voll ist, d.h. dass nahe beieinander liegende Zahlen ahnlichen Merkmalen entspre-
chen. Entscheidend sind die Begriffe der (absoluten und relativen) kumulierten
(d.h. "aufgehauften") Haufigkeiten. Fur 0: < f3 sind sie erklart durch
h(o: :::; X < (3) #{j EM: 0: :::; Xj < f3} und
r(o::::;X<f3) .-
(1.2.2)
Entsprechend kann man andere Ungleichungen vorschreiben und eine der Grenzen
0: oder f3 auch weglassen.
Zur Definition der Merkmalsklassen wahlt man zu den Auspragungen al < a2 <
... < ak Schnittstellen
I
0:0
k = 7, m = 3
1.2 Haufigkei n 11
Wichtig ist dabei, dass fUr groBes n die Zahl m wesentlich kleiner ist (eine Faust-
regel ist m fo). Wir betrachten fUr i = 1, ... , m das halboffene Intervall
[O:i-1,O:i[; die Menge
{j EM: O:i-1 S Xj < O:i} c M
heiBt die i-te M erkmalsklasse von X. Die Anzahl ihrer Elemente ist die kumulierte
Raufigkeit
hi := h(O:i-1S X <O:i),
sie heiBt die (absolute) H aufigkeit der i-ten Merkmalsklasse. Die Schnittstellen O:i
wahlt man am besten so, dass die Zahlen hi im Vergleich zu n nicht zu klein und
untereinander nicht zu verschieden groB werden.
Die relative Haufigkeit der i-ten Merkmalsklasse ist erklart durch
I' '- 1 h
i .-; i
Das Histogramm del' relativen Haufigkeiten von X beziiglich der Unterteilung
0:0 < 0:1 < ... < O:m ist nun eine Treppenfunktion, wobei die Rohe d; der Trep-
penstufe liber dem Intervall [0:;_1,0:;[ so gewahlt ist, dass
(1.2.3)
d.h. die relative Raufigkeit der i-ten Merkmalsklasse ist gleich der Flache unter-
halb der i-ten Stufe.
Die folgende Abbildung zeigt einen Ausschnitt von zwei aufeinander folgenden
Teilintervallen mit Stabdiagramm und Ristogramm:
r, d;
3/n
2/n
,.. - - --I
,
lIn
o
Q
Dabei entnimmt man der Zeichnung:
hi = 2, ai - ai-1 = 8,
1
d--
, - 4n'
3
di+l = 2n'
13
Man beachte dabei, dass die Auspragung a = ai zur Klasse i + 1 gezahlt wird.
Aus der disjunkten Zerlegung
{j EM: ao S; Xj < ad u ... U {j EM: am -1 S; Xj < am} M
folgt
m m
L hi = n und L ri = 1 . (1.2.4)
i=l i=l
Aus der zweiten Gleichung folgt, dass die Gesamtflache unter dem Histogramm
gleich 1 ist.
Besonders wichtig ist der Spezialfall einer aquidistanten Aufteilung. Ist der Ma13-
stab so gewahlt, dass ai - ai-1 = 1, so ist die Hohe di des Blocks gleich der
relativen Haufigkeit rio Bei aufeinander folgenden ganzzahligen ai kann man ein
urn 90
0
gedrehtes Histogramm auch anders erhalten: Man schreibt die ai iiberein-
ander und von jedem Xj E [ai, ai+d die erste Dezimalstelle daneben. So ergeben
die ai einen Stamm und die Dezimalen einen Ast (meist Blatt genannt). Man
spricht von der Stamm-Blatt-Darstellung. Aus ihr kann man im Vergleich zum
Histogramm mit der Schrittweite 1 sogar noch die Verteilung in Schritten von 0.1
rekonstruieren.
1.3 15
1.3 Mittelwerte
Mit Hilfe von Stabdiagramm und Histogramm kann man die Verteilung eines
Merkmals ubersichtlich beschreiben. Fur viele Zwecke sind die dabei sichtbaren
Details gar nicht notig, sie konnen eher verwirrend sein. Deshalb ist es nutzlich,
aus einer Verteilung charakteristische Zahlen zu extrahieren. Am wichtigsten sind
MaBe fur "Mittelwerte" und "Streuung". Zunachst behandeln wir Mittelwerte, die
auch LagemafJe genannt werden.
A Arithmetisches Mittel
Sei also ein Merkmal
X:M={l, ... ,n}--+lR, jl--'tXj,
mit den Auspragungen {aI, ... , ak} und mit den Haufigkeitsverteilungen
h(X = ai) und r(X = ai) fUr i = 1, ... ,k
gegeben. Unter dem arithmetischen Mittel von X versteht man die Zahl
Man kann x auch aus den Haufigkeitsverteilungen berechnen, indem man in der
obigen Summe gleiche Summanden zusammenfasst. Das ergibt
~ a l . h(X = al) + '" + ak . h(X = ak))
al . r(X = al) + ... + ak . r(X = ak) .
Daraus folgt die Gleichgewichtsbedingung
(1.3.1)
(1.3.2)
Physikalisch gesehen kann man sie so interpretieren: Man betrachtet die reelle
Zahlengerade als gewichtslose Stange und befestigt in den Punkten ai die Gewich-
te h(X = ai). Dann ist x der Schwerpunkt des Systems. Befestigt man das System
in x, so sind die Faktoren (ai -x) Hebelarme und die Produkte (ai -x) h(X = ai)
Drehmomente. Legt man die Zahlengerade horizontal, so kann man die Gewich-
te h(X = ai) auch darauf stellen. Unterstiitzt man das System in x, so bleibt
es waagerecht stehen und ubt auf x das gleiche Gewicht aus, wie ein einziger
(gestrichelt gezeichneter) Stab vom Gewicht n.
n
= a1)
= 02)
= a3)
a1
a3
B Median
Ein Problem bei Mittelwerten sind "AusreifJer", d.h. extreme Auspragungen. Fur
manche Zwecke wie Versicherungspramien (Beispiel 1) sind sie entscheidend, in
anderen Fallen (Beispiel 2) storend. Daher betrachtet man oft den "Median" .
Zu seiner Definition muss man aile Werte Xl , ... , Xn der GroBe nach ordnen. Sie
werden neu nummeriert (dafiir ist die Bezeichnung x(1), .. . ,x(n) ublich), so dass
X(l) :s; X(2) :s; ... :s; X(n-l) :s; X(n)
Del' Median x (auch die Bezeichnungen x.!. oder x.!. kommen VOl') von X ist nun
ein Wert derart, dass - wenn moglich - vie1e Werte Xj kleiner wie groBer
als x sind. Die prazise Definition ist
falls n ungerade,
(1.3.3)
falls n gerade.
Man beachte, dass x fur gerades n nur dann eine Auspragung von X ist, wenn
XU}) = Eine wichtige Eigenschaft des Medians ist
#{j EM: Xj < x} :s; und #{j EM: Xj > x} :s; (1.3.4)
Manchmal wird jedes x mit dieser Eigenschaft als Median bezeichnet . Fur gerades
n ist x dann allerdings im Allgemeinen nicht mehr eindeutig bestimmt, sondern
kann zwischen und variieren.
Man kann den Median auch aus der Verteilung der relativen Haufigkeiten bestim-
men. Dazu ordnet man die Auspragungen der GroBe nach, also
1.3 1
und betrachtet die kumulierten relativen Hiiufigkeiten, d.h. die Teilsummen
der relativen Haufigkeiten fUr 1 ::; m ::; k - 1. Gibt es ein m, so dass Sm = ~ so
ist
x = Ham + am+1).
Andernfalls gibt es ein m < k mit
In diesem Fall ist x = am+i.
Man mache sich dies etwa im Fall k = 3 mit den Verteilungen
klar.
r(X = al) = i r(X = a2) = i r(X = a3) = ~ und
r(X = al) = i r(X = a2) = ~ r(X = a3) = i
Man beachte, dass Rundungsfehler in den relativen Haufigkeiten r(X = ai) bei
dieser Berechnung des Medians zu Schwankungen fUhren konnen.
C Quantile
Ais Verallgemeinerung des Medians kann man anstatt ~ fUr jede reelle Zahl p
mit 0 < p < 1 ein "p-Quantil" xp des Merkmals X erklaren. Fur p = ~ ist
Xl. nach (1.3.3) eindeutig festgelegt. Fur beliebiges p verallgemeinert man die
2
Eigenschaft (1.3.4): Eine Zahl xp E lR hei13t p-Quantil des Merkmals X oder der
Werte Xl, ... ,Xn , wenn
#{j EM: Xj < xp} ::; pn und #{jE M: Xj > xp} ::; (l-p)n. (1.3.5)
In der Sprache der kumulierten Haufigkeiten (1.2.2) bedeutet das
Man beachte, dass xp im Allgemeinen nicht eindeutig festgelegt ist, sondern
manchmal innerhalb eines Intervalls variieren darf (siehe Beispiel 3).
Die beiden Bedingungen (1.3.5) kann man nach Division durch n auch durch
kumulierte relative Haufigkeiten ausdrucken: Damit bedeuten sie
r(X < xp) ::; p und r(X > xp) ::; 1 - p. (1.3.5')
Wegen r(X ::; xp ) + r(X > xp ) = 1 kann man sie zusammenfassen zu
1.3
(1.3.6)
Dieser haarspalterische Umgang mit Ungleichungen ist etwas gewohnungsbedurf-
tig.
U m die Quantile besser zu verstehen, kann man die aus den kumulierten relati-
ven Haufigkeiten entstandene (empirische) Verteilungsfunktion des Merkmals X
benutzen. Man versteht darunter die Funktion
F : lR -t [0,1] mit F(x):= r(X :s: x).
Bezeichnen al < ... < ai < ... < ak wieder die Auspragungen von X, so ist
F(x) = L r(X = ai), (1.3.7)
ai:Sx
also ist F eine Treppenfunktion mit Sprungstellen an den Auspragungen
al,, ak Fur x < al ist F(x) = 0, fUr x :2: ak ist F(x) = 1.
F(x)
0.5
:t
Verteilung rfunktion bei 3 Auspriigungen
Fur p E] 0, 1 [ gibt es nun zwei Moglichkeiten:
1. Wenn es eine Auspragung am gibt mit F(a
m
) = p, so ist jedes
ein p-Quantil: Fur x E [am, am+d ist r(X < x) :s: r(X :s: x) = F(am ) = p,
also
r(X < x) :s: p = r(X:S: x).
Fur x = am+l ist r(X < x) = r(X < am+l) = r(X :s: am) = p, also
r(X < x) = p < r(X:S: x).
21
1.3
Fall 1: mehrere Quantile
2. Andernfalls gibt es ein m, so dass F(am) < p < F(am+l), das bedeutet
Wegen r(X ::; am) = r(X < am+l) ist xp = am+l das einzige p-Quantil.
_______ _ T
I
'-V
Fall 2: eindeutiges Quantil
23
An dieser Beschreibung sieht man, dass der Fall 1 eine Ausnahme darstellt, im
"Normalfall" ist ein p-Quantil eindeutig bestimmt.
Fiir spezielle Werte von p haben die Quantile eigene Namen: x.!. bzw. x ~ heiBen
4 4
unteres bzw. oberes Quartil, fiir p = 16 mit k = 1, ... ,9 spricht man von Dezilen.
Die Bedeutung der Quantile ist klar: AuBerhalb des Intervalls [x.!., x ~ liegen
4 4
h6chstens die Hiilfte der Xj, auBerhalb [XO.l, XO.9] h6chstens 20 %. Man schlieBt
also h6chstens 20% der Individuen aus, wenn man die Auspriigung des Merkmals
X auf das Intervall [XO.l, XO.9] beschriinkt.
Man kann die Lage der Quantile auch niiherungsweise an einem Histogramm der
relativen Hiiufigkeiten erkennen: xp liegt ungefiihr an der Stelle, an der die Fliiche
unterhalb der Treppenfunktion links von xp den Wert p hat. Die Niiherung ist
umso genauer, je feiner die Zerlegung ao < al < ... am ist.
1.3 25
D Boxplots
Ais vereinfachte Darstellung der Verteilungsfunktion dient oft ein sogenannter
Boxplot. In ihm sind neben arithemtischem Mittel x und Median x auch vier
Quantile, meist
XO.l, XO.25, XO.75, XO.9
angegeben. Uber die Quartile wird eine Box gesetzt, bis zu den Dezilen reichen
Whiskers (Schnurrhaare). Weitere Auspragungen unterhalb von XO.l und ober-
halb von XO.9 k6nnen durch einzelne Punkte markiert werden. Diese graphische
Darstellung vermittelt einen erst en Eindruck von der Verteilung der Haufigkeiten.
E Geometrisches Mittel
Sind Xl, ... , Xn die Werte eines Merkmals X, so ist manchmal neben dem arith-
metischen Mittel
x = ~ X l + ... + xn)
im Fall Xi ;::: 0 (fiir alle i = 1, ... , n) auch das geometrische Mittel
Xgeo := ylXI ..... Xn
von Bedeutung. Der mathematische Zusammenhang zwischen den beiden Mittel-
wert en ist durch die Exponentialfunktion gegeben. Ist
Yi = In Xi und y = ~ (Yl + ... + Yn)
das arithmetische Mittel der Logarithmen, so folgt
_ 1
e
y
= (e
Y1
. . eYn)n = X
. . . geo'
Allgemein gilt
Xgeo ::; x und Xgeo = X } Xl = ... = Xn .
1m Fall n = 2 kann man das leicht am Graph des Logarithmus erkennen,
(1.3.8)
1.3
oder nachrechnen:
also
xi - 2XIX2 + ~
xi + 2XIX2 + ~ - 4XIX2
(Xl + X2)2 - 4XIX2
XIX2 :::; HXl + X2)2 .
Wegen der Monotonie der Quadratwurzel folgt
27
Eine wichtige Anwendung des geometrischen Mittels und der Ungleichung (1.3.8)
betrifft Wachstumsprozesse. Dabei wird ein Ausgangswert a E lR+ Veranderungen
unterworfen, die durch Multiplikation mit Faktoren Xi entstehen. 1st etwa a ein
Geldbetrag und Zi der Zinssatz im Jahr i in %, so ist der Wertfaktor
Xi := 1 + 160Zi .
Bei der Wertentwicklung von Aktien kann Zi < 0, also Xi < 1 sein.
Betrachtet man etwa die Wertfaktoren Xl, ... , Xn in n aufeinanderfolgenden J ah-
ren, so ist der Endwert nach den n Jahren gleich
/
a := a . Xl ..... Xn .
Ein adaquater gemittelter Wertfaktor von Xl, . . . , Xn ist Xgeo , denn
Das arithmetische Mittel x von Xl, ... , Xn wurde im Allgemeinen einen zu groBen
Wert ergeben, denn nach (1.3.8) ist
a (Xgeot:::; ax.
Wir geben ein stark vereinfachtes aber dafiir sehr deutliches Beispiel. Angenom-
men der Kurs einer Aktie steigt im erst en Jahr urn 30% und faUt im zweiten Jahr
wieder urn 30%. Dann ist
Xl = 1.3, X2 = 0.7, x = 1.0 und Xgeo = JQ.9i = 0.954.
Nach zwei Jahren hat man also insgesamt 9% und im JahresmitteI4.6% verloren,
und das unabhangig davon, in welcher Reihenfolge Kursgewinn und Kursverlust
eingetreten sind!
1. 2
1.4 StreuungsmaBe
Neben der Festlegung von Mittelwerten fUr die Werte Xl, ... ,X
n
eines Merkmals
X ist es auch von Interesse, ein Maf3 dafUr zu finden, wie stark die Xl, ... , Xn streu-
en. Etwa die Quantilsabstande :T0.75 - :T0.25 oder :T0.9 - :T0.1 sind grobe Indikatoren
dafUr. Es gibt aber bessere Maf3e. Zunachst erklart man fur einen beliebigen Wert
c E JR;
n k
Str1(X, c)
Llxj -cl L lai - cl . h(X = ai) ,
j=l i=l
n k
Str2(X, c) - L(Xj - C)2 L(ai - c? h(X = ai).
j=l i=l
Str1 (X, c) bzw. Str2(X, c) heif3t lineare bzw. quadratische Streuung von X um c.
Physikalisch interpretiert ist Str2(X, c) das von den Gewichten h(X = ai) verur-
sachte Tragheitsmoment, wenn das gesamte System urn den Punkt c rotiert. Es
ist klar, dass die beiden Streuungen von der Wahl von c abhangen. Das folgende
Ergebnis zeigt, dass jeweils ein Wert von c ausgezeichnet ist.
Satz tiber die Extremaleigenschaften von Median und arithmetischem
Mittel. Als Funktion von c ist
Str1 (X, c) minimal fur c = x,
Str2(X, c) minimal JUT c = X.
Einen Beweis geben wir im Anhang.
Die Werte x des Medians und x des arithmetischen Mittels haben eine direkte
Bedeutung: Sie entsprechen einer Auspragung im "Normalfall". Die beiden mini-
malen Streuungsmaf3e
sind Zahlen, die zunachst keine unmittelbare Bedeutung haben: Sie hangen insbe-
sondere ab von der Maf3einheit der Merkmale und von der Zahl n der Individuen.
Dabei ist in einfachen Beispielen (siehe Beispiel 1) eine Linearitat in n zu er-
kennen. 1m Folgenden beschranken wir uns auf die quadratische Streuung; der
wesentliche Grund dafur ist, dass man damit besser rechnen kann.
Die storende Abhangigkeit der Streuung von n kann man am einfachsten beseiti-
gen, indem man die absolute durch die relative Haufigkeit ersetzt. Man nennt
31
k
~ .- L (ai - X)2 . r(X = ai) = ~ Str2(X, x) (1.4.1)
i =l
die mittlere quadratische Abweichung von X , genauer der Xj von x.
Physikaliseh ist s ~ das Tragheitsmoment eines Systems vom Gesamtgewieht 1 mit
den Einzelgewiehten r(X = ai) in den Punkten ai bei Rotation urn x. Dureh diese
"Normierung" auf die relativen Haufigkeiten macht man die mittlere quadratische
Abweichung unabhangig von der Gesamtzahl n der Individuen; sie hangt nur noch
ab von der Verteilung der relativen Haufigkeiten.
Da bei der Definition der mittleren quadratischen Abweichung Quadrate verwen-
det wmden, liegt es nahe aus dem Ergebnis die VVurzel zu ziehen: Die Zahl
Sx := Iii = J "L:]=1 (Xj - X)2
heiBt Standardabweichung von X.
(1.4.2)
Sowohl die rnittlere quadmtische Abweiehung als auch die Standardabweichung
sind abhangig vom MaBstab. 1st er jedoch fest gewahlt, so ist ein Vergleich dieser
Abweichungen auch zwischen verschieden graBen Mengen von Individuen sinnvoll
(Beispiele 1 und 3).
Gibt man ein Merkmal X in einem neuen MaBstab an, so entsteht damus ein
Merkmal
Y=aX,
wobei a E ~ den Umrechnungsfaktor beschreibt. Fur die Werte und die arithme-
tischen Mittel gilt
Yj=aXj, y=ax,
also ergibt eine einfache Rechnung
fUr die Umrechnung der Standardabweichungen (Beispiel 2).
lal Sx
Manchmal staren beim Vergleich verschiedener Streuungen nicht nm die unter-
schiedlichen MaBstabe, sand ern auch die unterschiedlichen GraBen der Mittelwer-
te. Vergleicht man etwa die Streuung der Preise fUr Tomaten in Munchen, Neapel
und Zurich, so muss man berucksichtigen, dass die Schweiz eine andere Wahrung
hat, und dass Tomaten in Italien am billigsten, in der Schweiz am t euersten sind.
Daher geschieht der Vergleich in solch einem Fall am besten iiber den sogenannten
Variaiionskoejfizieni en
Sx
Vx :=
x
n
1.4 reuunpma8e
33
Er ist jedoch nur sinnvoll fUr x > O.
Man kann die mittlere quadratische Abweichung auch durch Mittelwerte beschrei-
ben. Dazu betrachten wir neb en dem Merkmal X auch sein Quadrat
X2 : M -+ IR, j f--7 ~ .
Sein arithmetisches Mittel ist X2. Es ist wohl zu unterscheiden von x
2
, dem qua-
drierten arithmetischen Mittel von X. Nun formen wir urn:
n
Str2(X, x) = L (Xj - X)2
j=l
(tX/) -nx
2
= n (X2 - X2) .
Aus dem Ergebnis dieser Rechnung und (1.4.1) folgt sofort
s3s: = X2 - x
2
(1.4.3)
(1.4.4 )
Man beachte, dass der Ausdruck X2 - x
2
empfindlich ist gegen Rundungsfehler,
weil hier oft eine sehr kleine Differenz sehr groBer Zahlen entsteht (Beispiel 3).
Manchmal dividiert man die quadratische Streuung nicht wie in (1.4.1) durch n
sondern durch n - 1 und nennt das Ergebnis
s'x:= /_1_Str2(X, x)
V n-1
(1.4.5)
die empirische Standardabweichung. Eine Motivation dafUr wird sich in der
Schatztheorie in Abschnitt 3.1 C ergeben.
Ein Grund fUr die Bevorzugung der quadratischen Streuung gegenuber der linea-
ren ist der Bezug zur linearen Algebra. Ist wieder X ein Merkmal mit den Werten
Xl, ... ,Xn und dem arithmetischen Mittel x, so erhiilt man ganz kanonisch einen
Vektor
Vx := (Xl - x, .. . , Xn - x) E IR
n
,
der Abweichungsvektor (genauer Vektor der Abweichungen von x) genannt wird.
Fur das Quadrat seiner Norm gilt
n
Ilvxll
2
:= L(Xj - X)2
j=l
1.4 'lreuulIgNma8c
also gilt fUr die Standardabweichung
1
Sx = fo Ilvxll
Dies ist ein Schlussel zum Verstandnis des nachsten Abschnitts, in dem zwei
Merkmale verglichen werden.
1.5 hied n r M rkmal
37
1.5 Vergleich verschiedener Merkmale
Sind auf einer Menge M = {I, ... , n} von Individuen verschiedene Merkmale
Xi : M -+]R fUr i = I, ... ,m
gegeben, so liegt es nahe, diese zu vergleichen. Wir beschranken uns auf den Fall
m = 2 und bezeichnen die Merkmale einfacher mit X und Y. Weiter seien
Xj := X(j) und Yj:= Y(j) fUr j = 1, ... , n
die Werte von X und Y,
al, a2,"" ak mit k S n die Auspragungen von X)
bl , b2 )., bl mit I S n die Auspragungen von Y,
X und 'jj die arithmetischen Mittel von X und Y,
Sx und Sy die Standardabweichungen von X und Y.
Zur graphischen Darstellung von X und Y kann man in ]R2 aIle Punkte (Xj, Yj)
markieren. Das Ergebnis ist ein Punktschwarm
bei dem jedoch manche Punkte mehrere j als Urbilder haben konnen. Man kann
sie deswegen entsprechend dicker markieren oder dreidimensional zeichnen, indem
man Stabe entsprechender Hohe auf die Ebene ]R2 stellt.
n= 10
k=3
1=4
43
(:til. 1/9)
Punktschwarm
1.5 Y, rglcich v I1>chicd 11 r 1 rkmal
. I.. I
.. 0
.. I:::::.... .. ......... :: ....... .
.'
'\ ............ . ' "0
Stabdiagrnmm
n= 10
k = 3
1= 4
3
Wie bei den Stabdiagrammen in Abschnitt l.2 ist die Breite der Stabe ohne
Bedeutung.
Gilnstiger filr die rechnerische Auswertung ist eine matrixformige Tabelle (auch
Kontingenztajel genannt). Sie sieht wie folgt aus:
x
Dabei nennt man
1.5 1
die gemeinsame Hiiufigkeit der Auspragungen a
K
und b)... Die letzte Spalte mit
den Eintragen
I
Lh(X = aK , Y = b)..)
)..=1
und die unterste Zeile mit den Eintragen
k
h+,).. := h(Y = b)..) = L h(X = aK , Y = b)..)
K=l
heiBen Marginalverteilungen. Ihre Summen ergeben jeweils die Gesamtzahl n der
Individuen.
Entsprechend kann man auch die relativen Haufigkeiten
eintragenj dann ergibt die Gesamtsumme rechts unten jeweils 1.
Sind die Zahlen k und I der Auspragungen nicht wesentlich kleiner als die Zahl
n der Individuen, so werden sehr viele Haufigkeiten hK ,).. klein (vor allem 0 und
1) sein. In diesem Fall fasst man besser wie schon in Abschnitt 1.2 ahnliche
Auspragungen zu Klassen zusammen. Da dies nun ftir X und Y geschehen muss,
wahlt man neben
0'0 < 0'1 < ... < am mit 0'0 ::::: a1 und ak < am
noch
(30 < (31 < ... < (3r mit (30 ::::: b1 und bl < (3r ,
wobei die Schnittstellen a und (3 so gewahlt werden, dass gentigend und vergleich-
bar groBe Klassen entstehen. Daraus erhalt man eine KontingenztaJel fUr die m'T
M erkmalsklassen
{j EM: O'jL-1 ::::: Xj < O'jL und (312-1 ::::: Yj < (3g} c M fUr 1 ::::: f.L ::::: m, 1 ::::: fl ::::: r
mit Eintragen [O'jL-lo 0'J.L[ und [(312- 1, (312 [ in der linken Randspalte und der oberen
Randzeile, sowie
in Zeile f.L und Spalte fl. Entsprechend kann man auch die relativen Haufigkeiten
eintragen.
3
Nun zu der entscheidenden Frage nach einer eventuellen Beziehung zwischen den
beiden Merkmalen (ob sie kausal ist oder nicht, ist ein ganz anderes Problem).
Die einfachste Art der Beziehung ist eine lineare, also
Y = aX + (3 oder X = 1 Y + 5 ,
mit a, (3,1, fj E JR., wobei diese Beziehungen, wenn sie bestehen, bis auf die Ex-
tremfiiJle a = 0 oder 1 = 0 gleichwertig sind. Fur den Punktschwarm {(Xj,Yj)}
bedeutet das, dass er auf einer Geraden liegt. Aber im Allgemeinen wird der
Punktschwarm hochstens eine Tendenz zeigen, in der Nahe einer Geraden zu blei-
ben. Selbst bei evident nichtlinearen Abhangigkeiten (wie etwa Korpergro13e und
Gewicht) ist in einem begrenzten Bereich eine line are Approximation moglich.
Nun betrachtet man in der Ebene JR.2 mit Koordinaten (x, y) eine beliebige Gerade
G""f3 mit der Gleichung
Y = ax + ,f3
und vergleicht ihre Lage mit dem Punktschwarm in folgender Weise: Fur jedes
j E M hat man den Punkt (Xj, Yj) im Schwarm und den senkrecht daruber oder
darunter liegenden Punkt

Die vertikale Abweichung ist
Yj - aXj - (3,
und als Gesamtabweichung definiert man die Summe der Quadrate, also
n
F(a, (3) := i)Yj - aXj - (3?
j=l
1.iJ ef 'll'ich v( dlil'd II 'r \erkmale 15
Diese Funktion ist offenbar ein quadratisches Polynom in den Variablen a und {3.
Es wird nun versucht, diese Abweichung moglichst klein zu machen, das ist eine
Methode der kleinsten Quadrate. 1m Anhang wird folgendes bewiesen:
Satz tiber die Regressionsgerade. Die Gesamtabweichung F( a, {3) hat genau
ein relatives und auch absolutes Minimum, namlich fur
(1.5.1)
{3 = {3* := '[1 - a*x.
Dazu muss natiirlich Sx of 0, d.h. X nicht konstant, d.h. k 2 sein.
Die durch X und Y eindeutig bestimmte Gerade Ry(x) mit der Gleichung
Y = a'x + {3*
heif3t Regressionsgemde bezuglich Y in Abhangigkeit von X. Der Wert von {3'
zeigt, dass sie durch den Schwerpunkt (x, '[1) des Punktschwarms geht. Die Stei-
gung a* ist bestimmt durch die schon in Abschnitt 1.4 erklarten Abweichungs-
vektoren
Vx := (Xl - x, ... ,Xn - x) und Vy:= (YI - '[1, ... ,Yn - '[1)
im ]Rn. Damit ist
sl = (vx,vx) = und a* =
Vx,Vx
wobei (, ) das Skalarprodukt und 1111 die Norm in ]Rn bezeichnen. Dabei ist fur
jedes v E ]Rn
(v, v) = IIvl1
2
.
Eine Vereinfachung der Rechnung ergibt sich wie folgt mit Hilfe der Kontingenz-
tafel: In der Formel
n
(vx,Vy) = 2)Xj -x) (Yj -'[1) (1.5.2)
j=l
hat man n Summanden, von denen viele gleich sein konnen. Sind al,"" ak bzw.
b], ... ,bl die Auspragungen von X bzw. Y, so ergibt die Zusammenfassung eine
Doppelsumme von k . I Summand en
(vx,Vy) = '2:.:::h(X=aK"Y=bJ,).(a,,-x).(bJ,-'[1). (1.5.2')
K"J,
17
Die Zahl der Paare (K;, A) mit einer Haufigkeit h(X = a,,, Y = b).,) =I 0 ist haehs-
tens gleieh n, sehr oft deutlieh kleiner.
Wir erwahnen noeh eine andere Magliehkeit zur einfaeheren Bereehnung des Ska-
larprodukts. 1st
so ist
( v x , vy) = (x, Y) - nxy . (1.5.3)
Diese Formel beweisen wir im Anhang. Man beaehte jedoeh, dass dabei wieder
sehr kleine Differenzen sehr groJ3er Zahlen entstehen kannen, wenn die Xj und Yj
nahe bei x und y liegen.
Die Extremaleigenschaft der Regressionsgeraden bedeutet nur, class sie so gut
wie maglieh dureh clen Punktsehwarm lauft. Mit Hilfe einer zweiten Geraden
kann man nun ein ganz brauehbares MaJ3 clafUr ableiten, inwieweit Y eine lineare
Tendenz zu X hat.
Dazu vertauseht man X und Y, d.h. man betrachtet Geraden mit der Gleichung
x = ,,(Y + 8
und clie entspreehend aus den waagereehten Abweiehungen des Punktsehwarms
entstehende Funktion
n
F(,,(,8) := 2)Xj - "(Yj - 8)2 .
j=l
Aus dem obigen Satz folgt, class sie fUr
ein Minimum annimmt. Die Gerade Rx(y) mit cler Gleiehung
(1.5.4 )
heiJ3t Regressionsgemde bezuglich X in Abhiingigkeit von Y. Sie geht wie Ry(x)
dureh den Sehwerpunkt (x, y), im Allgemeinen sind aber Ry(x) und Rx(y) ver-
sehieden, ihre gegenseitige Lage wird im Anhang erlautert.
Ob die beiden Regressionsgeraden libereinstimmen und ob das Merkmal Y eine
lineare Funktion von X ist, kann man an einer einzigen, leieht bereehenbaren Zahl
ablesen, clem K orrelationskoeffizienten
Ui Vergl 'Idl \ ,'rsdliedt'llcr \l'rkl11nl'
rXY:=
oder ausfiihrlicher geschrieben
(vx,Vy)
Ilvxll'llvyll'
(1.5.5)
Die extreme Abhangigkeit ist Y = X. In diesem Fall ist rXY = rxx = 1 wegen
(vx,vx) = Ilvxl12.
Offensichtlich ist
~ y = a* . "Y* .
Geometrisch interpretiert ist rXY bestimmt durch den Winkel zwischen den Ab-
weichungsvektoren, es ist
rXY = cos(L(vx,vy)).
Die Werte von a* und {3* hangen ab von den gewahlten MaBstaben, rXY ist davon
unabhiingig. Das sieht man so: 1st
Xl = a . X und yl = b . Y ,
so folgt wegen VX' = a Vx und Vy' = b Vy
(a')' = ~ . a* ,
a
(
*)1 a 'Y*
"Y = _. I
b
und rX'Y' = rXY'
Daran sieht man, dass auch der Winkel zwischen den Regressionsgeraden Ry(x)
und Rxcy) von den MaBstaben abhangt und nicht durch rXY allein, sondern durch
a * und "Y* bestimmt ist . Das wird im Anhang erliiutert.
1m Anhang beweisen wir als zentrales Ergebnis dieses Abschnitts den
Satz tiber den Korrelationskoeffizienten. Sind auf M = {I, ... , n} nicht
konstante M erkmale
X,Y: M ----> lR
gegeben und ist rXY ihr Korrelationskoeffizient, so gilt
-1::; rXY::; +1.
Die folgenden Bedingungen sind gleichwertig:
i) y ist eine lineare Funktion von X,
ii) fur die beiden Regressionsgeraden gilt Rxcy) = Ry(x) ,
iii) rXY = 1.
1.) \'l!"\ idl \'1'1'. ('ili((II'Il('r ~ l lklll ~ 51
Sind diese Bedingungen eTfiillt, so ist
Y = a*X + (3*
(Vx,VYI
mit a* = und (3* = y - a*x ,
(vx, vXI
FUT TXY = +1 ist a* > 0, also wachst Y mit X; JUT TXY = -1 ist a* < 0, also
Jallt Y mit wachsendem X.
In der Praxis wird der Fall TXY = 1 (abgesehen von vollig evidenten Situationenl
kaum auftreten. Aber die Position des Wertes von T XY zwischen -1 und + 1 zeigt,
wie stark der "Trend" zur linearen Abhangigkeit ist. Je kleiner der Betrag von
TXY, desto geringer der Trend. 1m Extremfall TXY = 0 ist a* = ,* = 0, die
Regressionsgeraden sind also die Achsenparallelen durch den Schwerpunkt; sie
stehen aufeinander senkrecht (Beispiel 1 b ),
,




,.




r=1
,.
.
,.
r=O






,






r = 0.9


.


.. .. .
. .
..

.



r = -0,5

.
.

..
.

r = 0,3

..










...
r= -1

..
.
.
,


"

. ...



Verschiedene Punktschwarrne und Korrelationskoeffizienten bei n = 20 (aus [L-M-R, p.87]).
Urn den Korrelationskoeffizienten T XY zu bestimmen, muss man das Skalarpro-
dukt (vx, vy I berechnen, das sind n Summanden, und n kann sehr groJ3 sein. Diese
Summe laJ3t sich eventuell sehr verkiirzen, wenn man die Auspragungen a" und
b). so wie ihre Haufigkeiten verwendet. Durch entsprechende Zusammenfassung
l.
wird
k,l
(VX,Vy) = L(a"-x)(b.\-y).h(X=a,,,Y=b.\ ).
",'\=1
Neben einer linearen Abhangigkeit Y = aX + (3 kann es auch Abhangigkeiten
h6herer Ordnung (etwa bei K6rpergr613e und Gewicht) geben. Dafur gibt es ei-
ne Theorie der nichtlinearen Regression (vgl. etwa [L]) . Wir wollen aber noch
kurz auf das Gegenteil der Abhangigkeit von Merkmalen eingehen, namlich ihre
"Unabhangigkeit". Eine gute Bedingung dafur ist die folgende:
Zwei Merkmale X und Y heil3en unabhangig, wenn fUr aile Auspragungen a von
X und b von Y die "Produktregel"
T(X=a,Y=b) = T(X=a)'T(Y=b) (l.5.6)
gilt. In einer Kontingenztafel mit relativen Haufigkeiten bedeutet das, dass jeder
Eintrag T t< ,.\ gleich dem Produkt der Eintrage am Rand ist , also
T 1<,.\ = T t<, + . T + ,.\ fUr alle /'i" A . (l.5.6')
Anders ausgedruckt ist die Verteilung in jeder Zeile und Spalte proportional der
entsprechenden Marginalverteilung; intuitiv bedeutet es, dass die beiden Merk-
male sich nicht gegenseitig beeinflussen.
Ganz einfach beweist man (siehe Anhang) den
Satz liber den Korrelationskoeffizienten unabhangiger Merkmale. Sind
X und Y unabhtingig, so ist TXY = O.
Die Unabhangigkeit ist jedoch eine wesentlich st arkere Bedingung als das Ver-
schwinden des Korrelationskoeffizienten (Beispiel 5).
'j VI I '\pi h \ t' hied '111'1 I 'rklll \.
Abschlie13end noch einige Anmerkungen zum Thema Korrelation und Kausalitiit.
Wenn der Korrelationskoeffizient rXY zweier Merkmale X und Y deutlich von
Null verschieden ist, dann bedeutet das intuitiv eine Abhangigkeit zwischen X
und Y; im Extremfall kann Y durch X eindeutig festgelegt sein. Das legt die
Vermutung nahe, dass ein kausaler Zusammenhang bestehen konnte. Bedeuten
bei einer Schulklasse X die Korpergro13e und Y die Leistung beim Weitsprung,
so ist rXY > 0 tatsachlich physikalisch begriindet, aber durch alleinige Messung
von X und Y nicht bewiesen.
Bei den Merkmalen "Rauchen und Lungenkrebs" (Beispiel 3) wird jede geniigend
umfangreiche Erhebung ein Ergebnis rXY > 0 liefern. Damit ist jedoch keinesfalls
ein kausaler Zusammenhang bewiesen. Es konnte ja sein, dass irgendein verb or-
genes Hintergrundmerkmal existiert, eine Krankheit, von der die Begierde nach
Tabak und Lungenkrebs zwei Auswirkungen sind. Besonders deutlich wird diese
Problematik im Beispiel 4 (Storche, Babies etc.).
Ein tiickisches Hintergrundmerkmal tritt bei Studienzeiten und Anfangsgehalt auf
(Beispiel 6). Hieran sieht man auch, wie leicht sich statistische Daten manipulieren
lassen, urn Dinge zu "beweisen", die gerade niitzlich erscheinen.