Beruflich Dokumente
Kultur Dokumente
Gabriele Hornsteiner
Springer VS
© Springer-Verlag Berlin Heidelberg 2012
Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht
ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags.
Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und
die Einspeicherung und Verarbeitung in elektronischen Systemen.
Planung und Lektorat: Katharina Neuser-von Oettingen, Marion Krämer, Sabine Bartels
Redaktion: Regine Zimmerschied
Einbandabbildung: © 1997 PhotoAlto-Fabriqué en France par MPO
Einbandentwurf: wsp design Werbeagentur GmbH, Heidelberg
Springer VS ist eine Marke von Springer DE. Springer DE ist Teil der Fachverlagsgruppe Springer
Science+Business Media.
www.springer-vs.de
Vorwort
Statistik – warum brauchen wir sie? Psychologe, Soziologe, Politologe ... wer das werden
möchte, hat meistens mit Statistik wenig am Hut. Aber sie kann nicht weggewünscht
werden. Wir brauchen sie, um unsere Theorien, Analysen und Untersuchungen wissen-
schaftlich korrekt zu untermauern.
Die Statistik wird von vielen Studierenden gehasst und gefürchtet. Sie gilt als „Killerfach“.
Damit tut man der Statistik unrecht. Gut, sie ist eine spröde Dame. Und so hat es wenig
Sinn, Statistik zu lernen, sie will verstanden sein. Dann aber lässt sie uns in ihre Welt
eintreten. So nimmt die Autorin des Buches den Studienanfänger an die Hand und führt
ihn durch die Landschaften der Statistik. Unterwegs werden wir die Art des Herangehens
an statistische Fragestellungen lernen. Am Ende dieser Wanderung sollte die oder der
Studierende die Statistik-Klausur überleben können.
Dieses Buch versetzt den Studierenden in die Lage, die richtigen Methoden anzuwenden.
Und auch die Grenzen der Statistik zu erkennen. Für jede statistische Methode gibt es
spezielle Regeln. Diese Regeln müssen beachtet werden. Die Herausforderung besteht also
darin herauszufinden, welches Verfahren anzuwenden ist. Dann können wir die entspre-
chenden Regeln benützen. Ebenso dient das Buch dem Praktiker mit wenig Erfahrung
in statistischen Dingen als methodische Grundlage, seine Auswertungen methodisch ein-
wandfrei und unangreifbar durchzuführen.
Mathematische Vorkenntnisse sind für das Niveau dieses Buches nicht erforderlich – es
genügen im Wesentlichen die vier Grundrechenarten. Die meisten Studierenden mögen
Beweise nicht. Es wurde darauf verzichtet. Es gibt genügend statistische Lehrbücher, die
auch Beweise aufführen.
Im ersten Kapitel wird die deskriptive oder auch beschreibende Statistik gezeigt. Es geht
dabei im Wesentlichen darum, vorliegende Daten in geeigneter Weise zusammenzufassen.
Verteilung, Kennwerte der Lage und der Streuung beschreiben die Daten. Grafiken wie
Balkendiagramm, Histogramm, Stamm-Blätter-Diagramm und Punktdiagramm sind hier
unverzichtbare Instrumente.
Das zweite Kapitel liefert einen kurzen Abriss der Wahrscheinlichkeitstheorie. Hier stehen
Wahrscheinlichkeiten von Ereignissen und ihre Rechenregeln in Vordergrund. Abhängige
und unabhängige Ereignisse werden thematisiert, ebenso die Abfolge mehrerer Experi-
mente.
näher beschrieben. Von Interesse sind die speziellen Eigenschaften der Normalverteilung,
die vor allem auf dem zentralen Grenzwertsatz fußen.
Die Schätzung von Eigenschaften einer Zufallsvariablen ist das Thema des vierten Ka-
pitels. Schätzfunktionen von Verteilungsparametern und ihre Konfidenzintervalle werden
systematisch durchgearbeitet.
Aufbauend auf die Erkenntnisse des vierten Kapitels fasst das fünfte Kapitel die wich-
tigsten Hypothesentests zusammen. Ein ausführliches Beispiel führt in die Thematik ein.
Besonders werden auch Fehler erster und zweiter Art genauer erläutert.
Das sechste Kapitel widmet sich der simultanen Analyse mehrerer Variablen. Ein kurzer
Abschnitt über deskriptive Verfahren zeigt die wichtigsten Instrumente zur Gewinnung
von Informationen. Schlagworte sind hier Kontingenztabelle und Streudiagramm. Von
Interesse sind vor allem Art und Stärke des Zusammenhangs zwischen zwei Variablen,
die durch verschiedene Koeffizienten gemessen werden. Als spezielle Verfahren werden
Regressionsanalyse und Varianzanalyse näher erläutert. Spezielle Konfidenzintervalle und
Hypothesentests runden dieses letzte Kapitel ab.
Zum Schluss möchte ich noch Danksagungen aussprechen. Zum einen will ich vor al-
lem meinem Mann Norbert Hornsteiner danken. Mit dem Blick des Laien legte er den
Finger erbarmungslos in jede Wunde, wo die Ausführungen zu wissenschaftlich abstrakt
abhoben. Als studierter Deutschlehrer korrigierte und verbesserte er gründlich den ge-
samten Text. Als Ehemann ertrug er geduldig die Zeit, in der die Autorin sich von der
Alltagswelt verabschiedete, um das Buch zu vollenden. Mein Dank gebührt auch den
Mitarbeiterinnen von Spektrum Akademischer Verlag, Katharina Neuser-von Oettingen,
Sabine Bartels und Marion Krämer. Mit viel Einsatz und Streicheleinheiten sorgten sie
dafür, dass aus dem Projekt ein Buch wurde.
3 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.1 Diskrete Zufallsvariablen – Warum ist die Serviceagentur so diskret? . . . . . . . 93
3.1.1 Lageparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
3.1.2 Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
3.2 Diskrete Verteilungen – Ist Dichotomie eine Urnenkrankheit? . . . . . . . . . . . . . 105
3.2.1 Hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
3.2.2 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
3.2.3 Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
3.3 Stetige Zufallsvariablen – Warum kann ein Fisch nicht genau zehn Tage
lang leben? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
3.3.1 Geometrische Ermittlung der Verteilungsfunktion . . . . . . . . . . . . . . . . . 118
3.3.2 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
3.3.3 Integrieren bei Verteilungsfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
3.4 Normalverteilung – die Königin der Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 124
3.4.1 Eigenschaften der Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
3.4.2 Reproduktivität der Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
3.4.3 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
3.4.4 Approximation von Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
3.5 Gemeinsam verteilte Zufallsvariablen – Steigt immer die Zahl der Kinder
mit der Zahl der Störche? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
3.5.1 Kovarianz und Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
3.5.2 Lineare Funktionen von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . 147
4 Parameterschätzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
4.1 Schätzverteilungen – Könnte man sie Designerverteilungen nennen? . . . . . . . 151
4.1.1 χ2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
4.1.2 F -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
4.1.3 t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
4.2 Schätzfunktionen – Ist der beste Schätzer auch der beste Schätzer? . . . . . . . . 159
4.2.1 Schätzfunktion für den Erwartungswert eines normalverteilten Merk-
mals mit bekannter Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
4.2.2 Schätzfunktion für die Varianz eines normalverteilten Merkmals . . . . . 164
4.2.3 Schätzfunktion für den Erwartungswert eines normalverteilten Merk-
mals mit unbekannter Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
4.2.4 Schätzfunktion für den Erwartungswert eines normalverteilten Merk-
mals bei einer Auswahl ohne Zurücklegen . . . . . . . . . . . . . . . . . . . . . . . . 166
4.2.5 Schätzfunktion für den Anteil der Kugeln erster Sorte einer binomi-
alverteilten Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
4.3 Konfidenzintervalle – Wie weit geht das Vertrauen in den Schätzer? . . . . . . . 168
4.3.1 Konfidenzintervall für den Erwartungswert eines normalverteilten
Merkmals mit bekannter Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
Inhaltsverzeichnis ix
Die Werkzeugkiste für die geeignete Aufbereitung von Daten ist die Statistik. Die eher
lakonische Definition der Statistik zeigt das:
Statistik ist die Gesamtheit der Methoden, die für die Untersuchung von Massen-
daten angewendet werden können.
Bei dem Wort Statistik werden einige Leser erbleichen und heftige Unlustgefühle verspü-
ren. Leider werden sich Ausflüge in die wissenschaftliche Welt von Formeln und Theorien
nicht ganz vermeiden lassen.
2 1 Deskriptive Statistik
Wenn wir für das Verstehen und Lernen etwas zum Anfassen brauchen – hier haben wir
es: reale Daten, die wir bearbeiten sollen, Statistik zum Anfassen. Wir wollen also das
Gold in den Daten anreichern und gewinnen.
Um mit der Materie vertraut zu werden, schauen wir uns zunächst einmal verschiedene
Daten an, die irgendwann erhoben worden sind.
Geschlecht 1 2 1 1 1 2 1 2 2
BMI 30,39 32,88 26,14 26,37 24,39 20,55 22,68 28,48 36,79
Mit der Liste der Werte kann Norbert nicht sehr viel anfangen. Er könnte jetzt etwa den
durchschnittlichen BMI für alle Patienten ermitteln. Der Durchschnitt errechnet sich
wie wir es beispielsweise von der Durchschnittsnote gewohnt sind, das heißt die Werte
aufsummieren und dann durch die Zahl der Werte teilen:
Könnte vielleicht zwischen dem durchschnittlichen BMI der Männer und dem der Frauen
ein deutlicher Unterschied vorliegen? Norbert berechnet und vergleicht:
Der mittlere BMI der Frauen ist höher als der der Männer, was auf den ersten Blick über-
rascht. Kann es sein, dass im Krankenhaus vor allem Frauen mit Übergewicht vorgespro-
chen haben? Liegen möglicherweise zu wenige Beobachtungen vor, um Rückschlüsse auf
die Gesamtheit der Patienten zu ziehen? Das kann aber mit unseren jetzigen Kenntnissen
der Materie noch nicht beantwortet werden.
1.1 Einführung in die deskriptive Statistik 3
Tab. 1.2: Zahl der Plätze in der Jugendpsychiatrie je Bundesland (Quelle: Statistisches
Bundesamt, 2001).
Was fällt uns auf, wenn wir die Daten näher studieren? Würden wir die Aussage des
Abgeordneten König einfach durchwinken? Hätten wir einen alternativen Vorschlag?
Antwortvorschläge: Schon beim Studieren der Tabelle fällt auf, dass kleine Länder
wenige und große Länder viele Plätze haben, was nicht verwunderlich ist, weil die Zahl der
Plätze vor allem von der Zahl der jugendlichen Einwohner abhängt. Wir entwickeln eine
neue Tabelle (Tabelle 1.3). Informativ wäre etwa die durchschnittliche Zahl der Plätze
pro jugendlicher Person (Spalte 4). Nun stören aber die vielen Nullen hinter dem Komma,
was die Information schwer lesbar und vergleichbar macht. Deshalb multiplizieren wir die
Kommazahlen mit 1 Million und erhalten nun „Zahl der Plätze pro 1 Mio. Personen“, was
uns wunderbare Zahlen beschert (Spalte 5). Was können wir diesen Zahlen entnehmen?
4 1 Deskriptive Statistik
Möchte man noch etwas Ordnung in die Kennzahlen bringen, könnte man den Kennzahlen
Ränge zuordnen (Spalte 6). Hier sind die Ränge absteigend, das heißt, die größte Zahl
bekommt den Rang 1, die zweitgrößte den Rang 2 usw. Wir sehen jetzt, dass Nordrhein-
Westfalen mit den angebotenen Plätzen an elfter Stelle der 16 Bundesländer liegt.
In Tabelle 1.4 wurden die Beurteilungen zusammengefasst. Wie könnten wir Ordnung
in diesen Zahlenbrei bringen? Könnten wir grafisch etwas bewirken?
3 4 3 3 4 3 3 2 2 2 2 2 4 3 3 2 4 3
2 2 2 3 3 3 3 3 4 3 3 3 3 3 2 3 3 2
3 4 2 2 4 3 3 2 2 4 2 3 2 4 3 1 4 3
Da viele gleiche Werte auftreten, ist es bestimmt nicht ungeschickt, sie zu zählen. Dann
fassen wir die Ergebnisse als „Zahl der Studierenden“ in einer sogenannten Häufigkeits-
tabelle (Tabelle 1.5) zusammen. Wir interessieren uns vor allem für die Aufteilung der
einzelnen Noten. Die prozentuale Aufteilung, hier „Anteil der Studierenden (%)“, ist für
einen Außenstehenden informativer als die absoluten Zahlen.
40
30
20
10
0
stimme stimme stimme stimme gar
sehr zu eher zu weniger zu nicht zu
Tab. 1.6: Kindersterblichkeit (Zahl der gestorbenen Kinder unter 5 Jahre auf 1000 Einwoh-
ner) in 194 Staaten.
257 15 37 3 158 11 16 24 6 4 39 13 10 61
12 13 5 25 123 84 57 14 40 22 9 12 191 180
91 148 6 32 172 209 9 22 20 66 125 18 11 127
6 7 5 4 55 161 4 127 11 38 22 36 24 206
70 6 119 18 4 4 91 109 30 4 115 4 19 39
150 198 60 76 24 7 3 72 31 33 44 4 5 4
31 4 24 32 121 63 11 38 70 9 29 84 133 18
3 8 3 112 111 11 30 196 5 54 119 15 35 40
18 4 43 10 34 168 103 68 30 55 5 6 35 176
189 4 27 12 90 10 23 65 29 20 28 7 4 15
5 15 15 181 18 18 19 27 4 99 25 114 8 13
262 3 8 4 70 142 59 4 21 109 29 91 3 5
17 67 7 17 97 100 23 35 21 23 50 37 130 24
8 6 116 8 14 41 34 19 15 73 170 90
Es bietet sich an, die Beobachtungen in Intervalle, sogenannte Klassen, einzuteilen. Die
Zahl der Werte in jeder Klasse werden dann gezählt. Das Ergebnis sehen wir in Tabel-
le 1.7.
Typisch für eine Grafik bei klassierten Häufigkeiten ist das Histogramm. Hier wird über
jedem Intervall eine Säule errichtet, deren Fläche die Häufigkeit darstellt. Wir sehen in
Abbildung 1.2 sofort, dass die meisten Staaten, es sind ca. 2/3, eine kleine Sterblichkeit bis
1.2 Begrifflichkeiten 7
40 aufweisen. Das Drittel der Staaten mit einer höheren Kindersterblichkeit weist im We-
sentlichen eine gleichförmige Aufteilung aller Sterblichkeitsziffern von 40 bis ca. 270 auf.
Wir haben soeben eine kurze Führung durch eine Datengoldmine bekommen, mit inter-
essanten Highlights, und wir ahnen nun, dass mehr Wissen dazugehört, um selbst Gold
aus den Daten zu gewinnen. Als Erstes müssen wir die korrekte Terminologie lernen.
8 1 Deskriptive Statistik
Was möchte ich wissen? Hier: Wie zufrieden sind die Studierenden? Was ist damit
gemeint? Fühlen sie sich geborgen? Erhoffen sie sich Karrierechancen? Ist ein gewisser
„Fun-Faktor“ entscheidend?
Mit welchen Fragen kann ich das herausbekommen? Ich muss mir darüber im Kla-
ren sein, wie ich Zufriedenheit messen will. Ich werde etwa verschiedene Fragen zu
einzelnen Aspekten stellen (Zufriedenheit mit der Lehre, mit der Bibliothek, mit der
IT-Ausstattung etc.). Die Antworten sollen in Notenstufen von 1 bis 5 gegeben wer-
den. Ich kann auch sogenannte offene Fragen zulassen, in denen die Befragten eigene
Eindrücke wiedergeben können. So etwas wird von Unerfahrenen gerne gemacht, weil
man auf diese Weise den Informationsgehalt maximieren kann. Spätestens bei der Aus-
wertung bereut man das bitter, vor allem wenn die Zahl der Befragten groß ist.
Wen muss ich fragen? Will ich alle Studierenden befragen? Die Gesamtheit aller Studie-
renden nennen wir Grundgesamtheit. Das können alle Studierenden eines bestimmten
Jahrgangs, aber auch alle Studierenden in einem bestimmten Jahr sein. Oder alle Stu-
dierenden, das heißt, auch Absolventen und zukünftige Studierende. Die Grundgesamt-
heit muss also sauber abgegrenzt werden. Die Erhebung von Daten einer Grundgesamt-
heit kann sehr aufwendig, häufig – wie im Fall aller Studierenden – auch unmöglich
sein.
Ist mir die Erfassung der Grundgesamtheit zu aufwendig? In diesem Fall kann ich eine
Stichprobe machen. Bei einer Stichprobe wählt man aus der Grundgesamtheit nach
dem Zufallsprinzip eine bestimmte Zahl n von Studierenden aus und hofft, dass die
erhobenen Daten die Grundgesamtheit einigermaßen zutreffend widerspiegeln.
Bezeichnen wir eine Person unseres Interesses als Objekt. Wenn wir die Zusammenfassung
der Objekte als Mengen auffassen, können wir definieren:
1.2 Begrifflichkeiten 9
Grundgesamtheit – Stichprobe
Die Grundgesamtheit ist die Menge aller Objekte. Sie muss vor der Analyse festge-
legt werden.
Die Stichprobe ist eine Teilmenge der Grundgesamtheit. Ihre Elemente werden mit-
hilfe einer Vorschrift zufällig erhoben.
Die Stichprobe soll auf jeden Fall die Grundgesamtheit möglichst genau widerspiegeln,
wobei „möglichst genau“ einen gewissen Interpretationsspielraum beinhaltet. Das Schlag-
wort ist hier die Repräsentativität. Eine typische Frage von Statistiklaien lautet: „Ist
meine Stichprobe repräsentativ?“ Und die typische Antwort des Statistikfachmanns wird
sein: „Die Repräsentativität gibt es nicht.“
In der Regel werden erhobene Daten durch bestimmte Eigenschaften des Objekts beein-
flusst. Wir überlegen uns im Zufriedenheitsbeispiel, ob bestimmte Eigenschaften einer
Person einen merkbaren Einfluss auf die Antwort haben könnten. In Beispiel 1.5 wären
das etwa die Semesterzahl und das Geschlecht. Wir werden also versuchen, in unserer
Stichprobe eine Aufteilung nach Geschlecht und Semesterzahl wie in der Grundgesamt-
heit zu erreichen, sodass dann die Stichprobe die Grundgesamtheit repräsentiert. Um eine
repräsentative Aufteilung zu erhalten, gibt es verschiedene Verfahren. Schwarze (1988,
S. 142 ff.), liefert darüber einen knappen, informativen Überblick. Es gibt aber auch die
banale Erkenntnis, dass über die Aufteilung der Eigenschaften in der Grundgesamtheit
nichts bekannt ist.
Die Größe der Stichprobe, genannt Stichprobenumfang, spielt für eine „wahrheitsgetreue“
Wiedergabe der Grundgesamtheit ebenfalls eine wichtige Rolle. Man kann beispielsweise
die Mindestgröße der Stichprobe so festlegen, dass ein Fehler in der Stichprobe nur einen
bestimmten maximalen Wert annehmen kann. Grundsätzlich gilt hier: Viel hilft viel.
1.2.2 Begriffsdefinitionen
In aller Regel werden wir es bei der Datenanalyse mit einer Stichprobe zu tun haben.
Dazu müssen zunächst Begriffe definiert werden, damit wir alle auch dasselbe meinen,
wenn wir dasselbe sagen.
Merkmal,
Variable
Merkmalsträger Beobachtungswert
Objekt Realisation
Merkmalswert
Die Spalten bestehen aus Eigenschaften, die an den Personen beobachtet werden können.
Man bezeichnet sie als (statistische) Merkmale oder (statistische) Variablen. Variablen
werden meist kleinbuchstabig bezeichnet. So hat das Merkmal Alter das Symbol x.
Die verschiedenen möglichen Werte, die eine Variable annehmen kann, sind die Ausprä-
gungen. Die Variable u hat die Ausprägungen 1, 2, 3, 4, dagegen hat z die Ausprägungen
0, 1, 2, 3, 4, 5, 6, 7. Bei der Variablen x kann man den Bereich nicht von vornherein
eingrenzen. Man wird hier die Menge der ganzen positiven Zahlen 0, 1, 2, . . . nennen. y
hat als Ausprägungen dagegen die Menge der positiven reellen Zahlen.
Eine Person ist ein Objekt, eine Untersuchungseinheit oder Merkmalsträger, denn man
kann an ihr die Merkmale erfassen. Natalie ist also ein Merkmalsträger. Im psycholo-
gischen Bereich bezeichnet man so ein Element auch als Versuchsperson. Ein einzelner
Datenwert ist ein Merkmalswert, ein Beobachtungswert oder eine Realisation. So ist etwa
der BMI-Wert 37,98 ein Merkmalswert von y.
1.2 Begrifflichkeiten 11
Wir können die Beobachtungen in der Reihenfolge der Erhebung mit einem Index i (i =
1, 2, . . . , n) durchnummerieren: x1 = 25, x2 = 18 usw. Eine Liste von Beobachtungen,
die in dieser Reihenfolge aufgeführt sind, nennen wir Urliste.
Wir nehmen uns wieder das Reha-Beispiel (Beispiel 1.6) vor. Lene soll heute in einem
Bachelorseminar erste Ergebnisse ihrer Arbeit vortragen. Zunächst möchte sie ein paar
Durchschnittswerte präsentieren:
Wir wollen die Tragödie der Präsentation nicht weiterverfolgen. Es dürfte jedem klar
sein, dass der Wert 1,125 blanker Unfug ist. Aber wieso eigentlich? Wieso ist die Mittel-
wertbildung im ersten Fall sinnvoll und im zweiten nicht? Es liegt daran, dass die beiden
Variablen unterschiedlich bearbeitet werden müssen. Man sagt, sie haben unterschiedliche
Messvorschriften. Sie sind unterschiedlich skaliert.
Nominalskala: Die Zahlen der Variablen v (Familienstand) in Beispiel 1.6 sind eigentlich
keine gemessenen Größen, sondern sie stellen lediglich eine Kodierung der Familienstände
dar. Wir können die Ausprägungen von v nicht ordnen, denn man kann nicht sagen,
dass beispielsweise ledig weniger ist als verheiratet oder dass geschieden schöner ist als
verwitwet.
Merkmale wie
Familienstand,
Augenfarbe: braun, blau, . . .
Organspender: ja/nein,
Blume: Aster, Nelke, Tulpe, . . .
sind nominalskaliert.
Die Ausprägungen des nominalskalierten Merkmals können nicht geordnet werden, man
kann sie nur vergleichen und abzählen. Es handelt sich um qualitative Merkmale. Werden
den Ausprägungen Ziffern zugeordnet, besteht lediglich eine Verschlüsselung (Kodierung).
Beispielsweise können wir den Familienstand kodieren mit 0 = ledig, 1 = verheiratet, 2
= geschieden, 3 = verwitwet.
12 1 Deskriptive Statistik
Ordinalskala oder Rangskala: Wie sieht es mit dem Merkmal u, des Zustimmungsgrades
einer Aussage in Beispiel 1.6, aus? Auch hier liegt ja offensichtlich eine Kodierung vor.
Jedoch kann man hier sagen, dass 1 ein höherer Zustimmungsgrad ist als 2. Man kann
offensichtlich die Ausprägungen von u ordnen. Allerdings kann ein Wert 1,5 nicht sinnvoll
interpretiert werden. Man kann auch nicht angeben, ob der Abstand zwischen 1 und 2
größer oder kleiner ist als der Abstand zwischen 2 und 3.
Zwischen den Ausprägungen des ordinalskalierten (rangskalierten) Merkmals existiert
eine Beziehung der Form mehr oder weniger, < oder >, besser oder schlechter usw., also
eine Art natürlicher Reihenfolge. Beispiele sind:
Zustimmungsgrad,
Sterne eines Campingplatzes: *, **, ***, . . . ,
Kleidergröße: XS, S, M, . . . ,
Noten: 1, 2, 3, 4, 5.
Für die Ausprägungen lässt sich also eine Rangordnung feststellen, aber die Abstände
zwischen den Rängen sind nicht interpretierbar. Da der Abstand nicht interpretierbar ist,
können auch Bruchteile eines Abstands nicht interpretiert werden. Eine Durchschnitts-
note von 2,5 ist im Grunde eine sinnlose Aussage. Trotzdem werden beispielsweise im
Bildungssystem Durchschnittsnoten errechnet, denn der Durchschnitt suggeriert eine Ge-
nauigkeit, um zwischen Leistungen zu differenzieren.
Metrische Skala: Nun betrachten wir die Variable y, den BMI in Abbildung 1.3. Wir
können sagen, dass ein BMI von 30 höher ist als 20. Und wir können auch Zwischenwerte
sinnvoll interpretieren. Wir können analog zu oben einen mittleren BMI von 32,035 er-
mitteln, was uns sagt, dass die Teilnehmer der Befragung im Mittel einen BMI von etwas
mehr als 32 hatten.
Die Abstände zwischen den Ausprägungen des metrisch skalierten (quantitativen) Merk-
mals können gemessen werden. Es handelt sich bei den Ausprägungen um (reelle) Zahlen.
Beispiele: Kinderzahl, Einkommen, Temperatur, . . .
Die metrischen Variablen werden noch in diskret und stetig unterschieden.
Ein Merkmal ist diskret (= unterschieden), wenn man die Ausprägungen abzählen –
sinngemäß dasselbe wie „durchnummerieren“ – kann.
Beispiele sind:
Zahl der Kraftfahrzeuge in einem Haushalt: 0, 1, 2, . . . ,
Zahl der Unfälle auf einem Autobahnabschnitt innerhalb eines Jahres: 0, 1, 2, . . . ,
Füllmenge von Katzenfutterdosen: 100 g, 200 g, 400 g, 800 g.
Durchnummeriert sehen die Füllmengen der Katzenfutterdosen so aus:
In unserem Beispiel 1.6 ist die Variable z, Zahl der Sporttage in der Woche, diskret,
denn wir können die Ausprägungen durchnummerieren.
1.2 Begrifflichkeiten 13
Ein Merkmal x ist stetig (kontinuierlich), wenn sich in jedem noch so kleinen Intervall
der Werte, die x annehmen kann, unendlich viele Ausprägungen (überabzählbar viele)
befinden, beispielsweise:
Länge eines Regenwurms,
Gewicht einer Haselmaus,
Dauer bis zur Wirkung eines Medikaments,
Alkoholkonzentration im Blut.
In Beispiel 1.6 ist die Variable y (BMI) stetig. Eine Person kann einen BMI von 30,
30,01, 30,000001, 30,99999 usw. haben. Im Intervall zwischen 30 und 31 liegen also
unendlich viele Ausprägungen, man kann sie nicht mehr durchnummerieren. Deshalb
nennt man sie überabzählbar. Wir kennen Vergleichbares von stetigen Funktionen.
Bemerkung: Gelegentlich hat man es mit diskreten Variablen zu tun, die sehr viele un-
terschiedliche Ausprägungen aufweisen. Hier erweist es sich meistens als zweckmäßig, die
Variable als stetig zu betrachten, was die Handhabbarkeit in der Datenanalyse verein-
facht. Man spricht hier von Quasistetigkeit der Variablen. So würden wir in Beispiel 1.4
(5) die Kindersterblichkeit als quasistetig definieren.
Aussage a akzeptieren wir ohne Weiteres, aber Aussage b wirkt befremdlich. Der Grund
dafür ist, dass die Variable Temperatur (Grad Celsius) keinen natürlichen Nullpunkt
hat – Null bedeutet nicht „keine Temperatur“. Ähnlich ist das bei historischen Daten:
Das Jahr 2000 n. Chr. ist nicht doppelt so jung wie das Jahr 1000 – auch vor Christi
Geburt gab es schon Zeit. Allerdings kann man beispielsweise sagen, dass zwischen 2000
und 2010 zehn Jahre vergangen sind. Wir können also Abstände zwischen historischen
Daten betrachten, aber diese Daten nicht ins Verhältnis setzen. Deshalb nennt man derlei
Variablen intervallskaliert. Variablen, deren Beobachtungen ins Verhältnis gesetzt werden
können, sind verhältnisskaliert. So ist die Variable Alter verhältnisskaliert. In den meisten
Fällen einer Analyse genügt aber die Festlegung als metrisch skaliert.
nem Intervall von 0 bis 10 die Position ankreuzen lässt, was aber gelegentlich abfällig als
pseudogenau diffamiert wird. Oder man formt die Frage um, etwa: In wie vielen von fünf
Fällen geben Sie nach, wenn Ihr Kind Süßigkeiten will? Zur Problematik rangskaliert vs.
metrisch skaliert gibt es in der Literatur verschiedene Betrachtungen (z. B. Bortz 2005,
S. 15 ff.).
Tab. 1.8: Gewicht (in kg) von 100 ausgewählten Personen in Führungspositionen: Urliste der
Variable x.
83 71 77 86 76 68 82 82 70 82
68 78 83 92 78 87 73 60 82 88
80 82 55 76 100 86 92 76 107 75
74 74 72 97 85 83 85 80 90 119
94 113 77 85 80 82 57 112 58 60
83 62 79 77 84 97 80 86 98 88
100 82 67 108 91 79 85 93 92 83
95 85 93 72 74 80 69 83 87 85
78 82 90 85 78 78 74 58 73 79
83 83 120 64 50 88 119 86 125 95
1.3 Verteilung eines Merkmals 15
Bezeichnen wir das Gewicht als Variable x. Wir sehen, dass die Werte als Urliste vor-
liegen. Welches Skalenniveau haben diese Daten? Sie sind metrisch skaliert, und zwar
verhältnisskaliert, denn beispielsweise sind 100 kg doppelt so viel wie 50 kg. Da viele
verschiedene Werte vorliegen, legen wir sie aus praktischen Gründen als stetig fest.
Was könnte Paula nun mit diesen Daten anfangen? Sie fragt sich, ob Personen in lei-
tender Stellung auf ihr Gewicht achten oder ob sie so gestresst sind, dass sie keine Zeit
mehr für ihren Körper haben. Für einen ersten Überblick teilt Paula die Personen in
Gewichtsintervalle ein. Ihr fällt auf, dass keine Person unter 50 kg und keine über 130 kg
wiegt. Also bildet sie Zehnerintervalle von 50 bis 130. Natürlich soll verhindert werden,
dass eine Person in zwei Intervalle fällt. Um das zu vermeiden, bildet sie die Gruppen 50
bis unter 60, 60 bis unter 70, . . . , 110 bis unter 120. Dann ordnet sie die Personen den
Gruppen zu und zählt, wie viele Personen in einer Klasse sind. Wir haben zur Veran-
schaulichung die Werte der Größe nach sortiert und die Klasseneinteilung in Tabelle 1.9
eingetragen. Paula erhält die Häufigkeitstabelle 1.10.
Tab. 1.9: Gewicht (in kg) von 100 ausgewählten Personen in Führungspositionen: Sortierte
Werte der Variablen x.
50 55 57 58 58 |60 60 62 64 67
68 68 69 |70 71 72 72 73 73 74
74 74 74 75 76 76 76 77 77 77
78 78 78 78 78 79 79 79 |80 80
80 80 80 82 82 82 82 82 82 82
82 83 83 83 83 83 83 83 83 84
85 85 85 85 85 85 85 86 86 86
86 87 87 88 88 88 |90 90 91 92
92 92 93 93 94 95 95 97 97 98
|100 100 107 108 |112 113 119 119 |120 125
Jetzt kann Paula auch eine schicke Grafik erstellen. Sie trägt in einem Koordinatensystem
auf der x-Achse die Intervalle ein und errichtet über jedem Intervall eine Säule, deren
Fläche die Häufigkeit darstellt. Wir kennen die Grafik schon als Histogramm. Da wir
gleiche Klassenbreiten haben, kann die Häufigkeit direkt aus der Höhe der Säule abgelesen
werden.
Wir können in Abbildung 1.4 als erste Information festhalten, dass es sehr schlanke und
auch sehr korpulente Führungskräfte gibt. Die meisten Personen wiegen unter 90 kg.
Von Interesse ist vor allem die Form der Verteilung. Betrachten wir verschiedene Histo-
gramme in den Beispielen 1 bis 4 der Abbildung 1.5.
16 1 Deskriptive Statistik
Tab. 1.10: Gewicht (in kg) von 100 ausgewählten Personen in Führungspositionen:
Häufigkeitstabelle der Variablen x.
40
Häufigkeit: Zahl der Personen
35
30
25
20
15
10
5
0
45 55 65 75 85 95 105 115 125 135
Gewicht x
Abb. 1.4: Gewicht (in kg) von 100 ausgewählten Personen in Führungspositionen: Histo-
gramm der Gewichte.
Symmetrische Verteilung (Beispiel 1): In einem landesweiten Test sollten 300 Schüler
der dritten Klasse eine Mathematikaufgabe lösen. Die Variable x bezeichnet die Zeit in
Minuten, die ein Schüler für die Lösung der Aufgabe benötigt. Die meisten Kinder brauch-
ten um die 20 ± 5 Minuten, einige waren deutlich schneller, einige deutlich langsamer.
Die Verteilung hat eine annähernd symmetrische Pyramidenform.
Rechtsschiefe Verteilung (Beispiel 2): Von ca. 200 börsennotierten Unternehmen wurde
der Umsatz (in Milliarden Euro) des letzten Jahres erfasst. Man sieht, dass die meisten
Unternehmen bis zu 15 Milliarden Euro umsetzten, einige wenige nahmen deutlich mehr
ein. Das ergibt eine rechtsschiefe (oder auch linkssteile) Verteilung. Die sehr großen Um-
sätze können vermutlich als Ausreißer in den Daten angesehen werden.
Häufigkeit
60 160
140
50
120
40 100
30 80
60
20
40
10
20
0 0
10 15 20 25 0 25 50 75 100
Minuten Umsatz (Milliarden €
Beispiel 1: symmetrisch Beispiel 2: rechtsschief
35 25
Häufigkeit
Häufigkeit
30
20
25
20 15
15 10
10
5
5
0 0
10 14 18 22 26 30 34 38 0 1 2 3 4 5 6 7 8 9 10 11 12
Knoten/h Tiefgang
Beispiel 3: linksschief Beispiel 4: multimodal
Beginn des Zweiten Weltkrieges wurden erhoben. Es handelte sich um die Schiffsklassen
Schlachtschiff, Kreuzer und Zerstörer. Schlachtschiffe sind groß und schwerfällig, Zerstörer
relativ klein und sehr schnell und wendig. Kreuzer sind erheblich größer als Zerstörer und
erheblich langsamer. Das Merkmal x ist die Höchstgeschwindigkeit (Knoten/h) eines
Schiffes. Da es nur wenige Schlachtschiffe gibt, aber viele Kreuzer und Zerstörer, sind die
meisten Schiffe relativ schnell. Wir erhalten eine linksschiefe Verteilung.
Multimodale Verteilung (Beispiel 4): Es wird der Sachverhalt von Beispiel 3 verwendet.
Das Histogramm zeigt die Verteilung des Tiefgangs der Schiffe. Man sieht deutlich, dass
hier mehrere Verteilungen vermischt worden sind, denn die gesamte Verteilung weist drei
Maxima auf. Man nennt eine Verteilung mit mehreren Häufigkeitsspitzen multimodal.
Speziell Merkmale, in denen verschiedenartige Gruppen zusammengefasst sind, weisen
Multimodalität auf. Hier ist etwa die Verteilung des Beispiels 2 unimodal. Die beiden
Beispiele 1 und 3 sind ebenfalls multimodal. Während in Beispiel 3 auch wieder die ver-
schiedenen Schiffsklassen die Ursache sein können, haben in Beispiel 1 wohl eher zufällige
Schwankungen der erhobenen Daten die zweite Spitze auf der rechten Seite der Pyramide
verursacht.
18 1 Deskriptive Statistik
Die Intervalle, in die wir die Daten einteilen, werden meistens Klassen, aber auch Gruppen
genannt. Die Klassen bekommen eine Nummer j (j = 1, 2, . . . , m). Der schematische
Aufbau einer klassierten Häufigkeitsverteilung steht in Tabelle 1.11. Jede Klasse hat
eine Unter- und Obergrenze. Wir wollen die Untergrenze der j-ten Klasse xuj und ihre
Obergrenze xoj nennen. Die Obergrenze einer Klasse ist zugleich die Untergrenze der
nächstfolgenden (was oft in der Formelsammlung als xuj = xo,j−1 oder ähnlich steht).
Wir beziehen uns weiter auf die Salutogenese-Daten in Tabelle 1.10. Hier hat die Klasse
2 die Obergrenze 70 und Klasse 3 hat die Untergrenze 70 und nicht etwa 71. Man geht
ja davon aus, dass x stetig ist, und daher können die Werte in einem Intervall beliebig
nahe an die Grenze des benachbarten Intervalls reichen.
Jeder Beobachtungswert kann nur einem einzigen Intervall zugeordnet werden. Der Ma-
thematiker spricht hier von einer Partition der Datenmenge. Deshalb vermeiden wir
Zuordnungen wie „50 − 60; 60 − 70; . . . “ und sagen stattdessen „50 bis unter 60; 60
bis unter 70; . . . “. Wir können die Werte auch in „über 50 bis 60, über 60 bis 70 usw.“
einteilen.
Die Breite einer Klasse entspricht dann der Breite des Intervalls. Nennen wir sie dj , wie
Distanz oder Differenz. Berechnet wird sie als Klassenobergrenze – Klassenuntergrenze,
das heißt dj = xoj − xuj . Wir brauchen sie gelegentlich für das Erstellen von Histogram-
men.
Häufig verwendet wird die Klassenmitte xj . Sie stellt den Mittelpunkt eines Intervalls dar
x +x
und berechnet sich als xj = uj 2 oj . xj wird stellvertretend für die Datenwerte in einer
Klasse verwendet, Vielfach sind die Originaldaten der klassierten Variablen nicht mehr
verfügbar. Für die Berechnung von Verteilungskennwerten wird dann stellvertretend xj
genommen.
Die Zahl der Beobachtungswerte in einer Klasse ist die absolute Häufigkeit. Wir wol-
len sie nj nennen, analog zur Gesamtzahl n der Beobachtungen. Die Summe über die
Häufigkeiten ist natürlich n, also
n1 + n2 + · · · + nm = n.
Klassenbildung
Besteht die Urliste aus vielen verschiedenen Datenwerten, teilen wir zweckmäßiger-
weise die Werte in Klassen ein. Dazu werden Intervalle gebildet. Die Klassen werden
mit j nummeriert.
In den meisten Lehrbüchern liest man die Empfehlung, alle Klassen gleich breit zu ma-
chen, was verschiedene Vorteile hat. Zudem geben die meisten Computerprogramme nur
gleiche Breiten aus. Manchmal ist es von der Struktur der Daten her aber günstiger, die
Klassen verschieden breit zu machen. Hier erhalten wir ein Histogramm wie beispielsweise
Abbildung 1.2.
Die wichtigste Frage wird wohl die Zahl der Klassen sein. Zu wenige Klassen bieten zu
wenig Information, zu viele Klassen dagegen zerstören möglicherweise eine erkennbare
Verteilungsstruktur der Daten und erfordern einen erhöhten Leseaufwand. Eine einfache
Faustregel ist, dass die optimale Zahl m der Klassen ungefähr die Wurzel aus n ist.
20 1 Deskriptive Statistik
Tab. 1.12: Gewicht (in kg) von 100 ausgewählten Personen in Führungspositionen: Konkreter
Aufbau der Häufigkeitstabelle nebst Kennwerten.
In unserem Beispiel 1.7 bzw. Tabelle 1.10 waren das bei n = 100 Beobachtungen etwa m =
10 Klassen. Acht Klassen waren genau richtig, denn so ergaben sich als Klassengrenzen
nicht zu „krumme“ Werte.
Paula möchte für die Präsentation der Forschungsergebnisse noch die relativen Häufigkei-
ten angeben (Tabelle 1.13). Sie kann nun einige Verteilungsaussagen machen: Ein Viertel
der Personen wog zwischen 70 und 80 kg. 10 % der Personen (0,04 + 0,04 + 0,02) wogen
mindestens 100 kg usw. Paula findet es praktisch, die relativen Häufigkeiten laufend auf-
zusummieren, also zu kumulieren. Sie erhält die relativen Summenhäufigkeiten Sj∗ . Wir
sehen nun sofort, dass zum Beispiel 90 % aller Probanden weniger als 100 kg wogen. 13 %
wogen lediglich weniger als 70 kg usw.
Summenhäufigkeit
Sj = n1 + n2 + ... + nj (1.1)
1.3 Verteilung eines Merkmals 21
Tab. 1.13: Gewicht (in kg) von 100 ausgewählten Personen in Führungspositionen: Relative
Häufigkeiten.
Zusätzlich zum Histogramm will Paula auch die Summenhäufigkeit grafisch darstellen:
eine Summenkurve. Sie erstellt ein Koordinatensystem mit den Intervallen auf der x-
Achse und den relativen Summenhäufigkeiten Sj∗ auf der y-Achse. Dann setzt sie Punkte
mit den Koordinaten Klassenobergrenze und Summenhäufigkeit (xoj und Sj∗ ) in das Dia-
gramm. Sie setzt noch einen Punkt mit der ersten Klassenuntergrenze und der Häufigkeit
0, also (xu1 und 0). Dann verbindet sie alle Punkte geradlinig. Schließlich fügt sie links
von der kleinsten Intervalluntergrenze und rechts von der obersten Intervallgrenze einen
horizontalen Strich dazu. Fertig ist Abbildung 1.6 der Summenkurve.
Nun kann Paula auch noch weitere Verteilungsaussagen grafisch ermitteln. So wogen bei-
spielsweise ca. 10 % der Personen höchstens 65 kg. Wenn wir anhand von Abbildung 1.6
Verteilungsaussagen machen, können wir vereinfachend die Obergrenze auch statt „we-
niger als“ mit „höchstens“ angeben. Denn der Grafik sind die Unterscheidungen nicht
mehr zu entnehmen.
Ebenso kann auch die absolute Summenhäufigkeit Sj ermittelt werden. Hier werden für
die Erstellung statt der relativen die absoluten kumulierten Häufigkeiten verwendet. Alle
weiteren Verwendungen ergeben sich analog.
22 1 Deskriptive Statistik
Relative Summenhäufigkeit Sj
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
30 40 50 60 70 80 90 100 110 120 130 140 150
Gewicht x
Abb. 1.6: Gewicht (kg) von 100 ausgewählten Personen in Führungspositionen. Relative
Summenkurve mit den (xoj ; Sj )-Koordinaten.
Summenkurve
Die Summenkurve ist eine Grafik. Sie gibt bei einem klassierten Merkmal nähe-
rungsweise die Häufigkeit der Werte an, die kleiner oder gleich einer bestimmten
Zahl a sind.
Links von der ersten Untergrenze und rechts von der letzten Obergrenze verläuft
die Funktion horizontal. Die Häufigkeiten werden grafisch abgelesen.
1.3 Verteilung eines Merkmals 23
Paula hat sich mithilfe der klassierten Häufigkeiten einen Überblick verschafft. Sie möch-
te die Daten eingehend untersuchen. Da die Klassierung immer einen Informationsverlust
bewirkt, will sie nun die Einzelwerte analysieren. Vor allem möchte sie die Verteilung gra-
fisch etwas genauer dargestellt haben. Sie wählt das sogenannte Punktediagramm (Abbil-
dung 1.7) oder, in der englischen Bezeichnungsweise, dotplot. Hier werden gleiche Werte
als Punkte gestapelt. Wir sehen beispielsweise, dass genau zwei Personen 60 kg wogen,
drei Personen wogen 92 kg. Diese Grafik bietet mehr Information als das Histogramm,
ist also vor allem für die Analyse der Daten geeignet. Das Histogramm dagegen wirkt
eleganter und wird meistens für Präsentationen verwendet.
Abb. 1.7: Gewicht (in kg) von 100 ausgewählten Personen in Führungspositionen: Punkte-
diagramm.
Paula kennt noch eine weitere Methode, Daten aus einer Urliste grafisch aufzuberei-
ten. Sie ist sehr einfach. Paula kann damit sogar händisch Datenwerte in relativ kurzer
Zeit sortieren und grafisch aufbereiten. Wir helfen ihr und basteln ein Stamm-Blätter-
Diagramm (stem-and-leaf plot). Die Idee ist, die Daten als Baum aufzufassen: Der Stamm
baut sich aus den Zehnern auf. Von jedem Zehner geht ein Ast aus, an dem die Einer
hängen.
Diese Werte wollen wir nun in das Stamm-Blätter-Diagramm eintragen. In Tabelle 1.14
sind die ersten Schritte erläutert. Wir schauen erst, welche Größenordnung die Zahlen
haben. Sie reichen von ca. 80 bis unter 130. Wir stapeln die Zehner 8 bis 12 auf und
erhalten den Stamm, von dem die Äste abgehen. Nun hängen wir die Blätter an die
Äste. Der erste Wert ist 117: Wir hängen das Blatt 7 an den Ast 11 des Baumstammes.
Der zweite Wert ist 108: Wir hängen das Blatt 8 an den Ast 10. Der dritte Wert ist 110:
Wir hängen das Blatt 0 an den Ast 11 usw.
Nun wird das Stamm-Blätter-Diagramm vervollständigt. Wir ordnen die Blätter der
Größe nach. Schließlich fügen wir noch Angaben über die Zahl der Werte und die Einheit
der Blätter hinzu, und fertig ist das Stamm-Blätter-Diagramm (Tabelle 1.15). Nun tragen
1.3 Verteilung eines Merkmals 25
wir zusätzlich links vom Ast die Zahl der Blätter ein. Dann müssen wir sie nicht immer
zählen.
Wir sehen, dass wir in sehr kurzer Zeit diese elf Werte der Größe nach sortiert haben. Was
entnehmen wir der Grafik an Information? Kippt man sie um 90° im Gegenuhrzeigersinn,
sieht sie wie ein Balkendiagramm aus. Wir sehen, dass die meisten Kinder einen IQ von
mindestens 100 aufweisen.
Zurück zu Paula und zu Beispiel 1.7: Da hier viel mehr Werte vorliegen als im Beispiel mit
den IQ-Werten, lässt sie das Stamm-Blätter-Diagramm mithilfe von Minitab erstellen,
einem Softwarepaket zur Analyse von Daten. Sie erhält den (für unsere Zwecke etwas
geänderten) Output in Tabelle 1.16.
Allerdings sind hier die Zeilen sehr lang und die Struktur der Daten wird nicht so recht
deutlich. Deshalb teilt sie den Stamm feiner auf. Ein Ast enthält die Blätter von 0 bis 4,
ein folgender die von 5 bis 9, wie wir Tabelle 1.17 entnehmen können. Paula erkennt nun,
dass die meisten Personen zwischen 70 und 90 kg wiegen. Sie findet, dass die Verteilung
etwas rechtsschief ist.
26 1 Deskriptive Statistik
Die Einteilung von Daten in Klassen ist nur sinnvoll, wenn auch genügend Datenmate-
rial zur Verfügung steht. Bei psychologischen Anwendungen hat man es aber häufig mit
wenigen Beobachtungen zu tun, denn das Menschenmaterial ist nicht beliebig vermehr-
bar. Auch hier wollen wir Verteilungsaussagen machen wie oben, aber wir verwenden die
Urliste.
Zuerst beginnen wir mit dem kleinen IQ-Beispiel 1.8. Für unsere Zwecke müssen die
Daten nach Größe sortiert werden:
Wir fragen nun: „Wie viele Kinder hatten einen IQ von höchstens a?“, wobei a eine belie-
bige Konstante ist. Wir beantworten diese Frage mit der sogenannten Summenfunktion
S(a), die die empirische Verteilung beschreibt. Beispiele wären etwa:
Wie viele Kinder hatten einen IQ von höchstens 104? 4 Kinder → S(104) = 4.
(Bitte anhand der Daten abzählen!)
Wie viele Kinder hatten einen IQ von höchstens 110? 7 Kinder → S(110) = 7.
Wie viele Kinder hatten einen IQ von höchstens 108? 6 Kinder → S(108) = 6.
Wie viele Kinder hatten einen IQ von höchstens 70? 0 Kinder → S(70) = 0.
Ebenso ist S(−10) = 0, S(80) = 0, S(80,99999) = 0 usw.
Es ist also S(a) = 0 für alle Werte von a < 81.
Wie viele Kinder hatten einen IQ von höchstens 81? 1 Kind → S(81) = 1.
1.3 Verteilung eines Merkmals 27
Die Summenfunktion S(a) gibt folglich wieder, wie viele der Größe nach geordnete Werte
xi kleiner oder gleich a sind. Wir können diese Werte in einem Koordinatenssystem abtra-
gen (Abbildung 1.8). Die letzten beiden Summenfunktionswerte S(a) = 0 und S(a) = 1
verraten uns, dass wir es bei der Summenfunktion mit einer Treppenfunktion zu tun ha-
ben. Die Knötchen auf den Sprungstellen der Funktion bedeuten, dass der genaue x-Wert
an dieser Stelle zu der oberen Linie gehört. So ist etwa S(114) = 7 und nicht 6. Beachten
wir, dass bei 108 die Summenfunktion um 2 steigt, weil der Wert zweimal vorkommt.
12
Summenfunktion S(a)
11
Zahl der Kinder
10
9
8
7
6
5
4
3
2
1
0
60 70 80 90 100 110 120 130 140
IQ
Abb. 1.8: IQ von elf Schulkindern: Summenfunktion S(a).
Jetzt können wir anhand der Grafik bestimmte Verteilungsaussagen machen. Zum Bei-
spiel können wir die Antwort auf die Frage: „Wie viele Kinder hatten einen IQ von
höchstens 96?“ der Abbildung 1.8 entnehmen: S(96) = 3. Es hatten also drei Kinder
einen IQ von höchstens 96.
Die absolute Summenfunktion S(a) gibt an, wie viele Objekte xi einer Urliste einen
Merkmalswert von höchstens a aufweisen.
Wir führen unser Beispiel 1.7 mit den Salutogenese-Daten fort. Paula möchte jetzt die
Summenfunktion der Werte grafisch darstellen. Sie verwendet das Statistikprogramm
Minitab und erhält Abbildung 1.9.
A nteil der P ersonen (% )
100
80
60
40
20
Paula hat hier statt der absoluten Werte die prozentualen Anteile verwendet, weil sie
vermutet, dass diese interessanter für den „Konsumenten“ sind als die absoluten Zahlen.
Wir bezeichnen das als relative Summenfunktion S ∗ (a) = S(a)
n .
Hier ist bei n = 100 die Summenfunktion viel kleinteiliger als in Beispiel 1.8 und ähnelt
einer S-förmigen Kurve. Paula vermutet, dass die Verteilungsfunktion des Gewichts in
der Grundgesamtheit durch eine mathematische Funktion beschrieben werden kann.
Würden wir alle (unendlichen vielen) x-Werte, die in der Normalverteilung vorhan-
den sind, in feine Klassen einteilen, ergäbe sich in etwa ein Histogramm wie in Ab-
bildung 1.10 a. Die Verteilungsfunktion in Abbildung 1.10 b hat die typische S-Kurve.
Auffällig ist, dass die Form der „Glocke“ symmetrisch ist. Dies ist nur eine vieler wün-
schenswerter Eigenschaften, die die Normalverteilung besitzt, sodass sich der Statistiker
freut, wenn seine Daten normalverteilt sind.
1.3 Verteilung eines Merkmals 29
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
a) b)
Abb. 1.10: Feines Histogramm und feine Summenfunktion von sehr vielen Werten einer
Normalverteilung.
100
80
60
40
20
Quantile: Bisher hatten wir bei einer Häufigkeitsverteilung gefragt, wie viel Prozent
der Daten höchstens gleich einem Wert x waren. So lag in Beispiel 1.7 der Anteil der
Personen mit höchstens 84 kg Körpergewicht bei 60 %, also S(84) = 0,6, wie man anhand
der sortierten Werte schnell nachprüft. Wir hatten also die Summenfunktion verwendet.
Nun interessieren wir uns beispielsweise aber auch für die Fragestellung: Welches Höchst-
gewicht hatten die 25 % leichtesten Personen, oder welches war das unterste Gewicht der
30 1 Deskriptive Statistik
10 % schwersten Personen? In diesem Fall ist der Anteil vorgegeben, der dazugehörige
x-Wert wird gesucht. Man nennt so einen Wert ein Quantil. Wenn wir den Anteil p nen-
nen, ist der dazugehörige x-Wert das p-Quantil: x(p). Analog zu oben wäre x(0,6) = 84,
das heißt, die 60 % leichtesten Personen wogen höchstens 84 kg.
Auch wenn aus didaktischen Gründen im Folgenden eher Beispiele für kleines n gezeigt
werden, beweisen die Quantile ihren Nutzen erst richtig bei großen Datenmengen, die
nicht mehr auf den ersten Blick erfassbar sind.
Median: Um das Prinzip des Quantils zu verstehen, wollen wir erst mit dem einfachsten
Quantil, dem Median, beginnen. Der Median wird auch Zentralwert genannt, deshalb
bezeichnen wir ihn als z. Sind die Beobachtungswerte der Größe nach geordnet, wie in
der Fortführung des IQ-Beispiels 1.8, liegt der Median im Zentrum der Daten. Der Median
teilt also die Daten in zwei gleichgroße Hälften. Er ist das 50 %-Quantil: z = x(0,5).
Im IQ-Beispiel 1.8 ist der Median der 6. Wert (Tabelle 1.18). Wir können also sagen: Die
50 % kleinsten Werte betragen höchstens 108. Ebenso betragen die 50 % größten Werte
mindestens 108.
i 1 2 3 4 5 6 7 8 9 10 11
xi (geordnet) 81 89 93 104 108 108 110 114 117 120 122
↑
z
Im IQ-Beispiel 1.8 ist n ungeradzahlig, und der Median liegt genau auf einem Wert. Wie
gehen wir aber nun vor, wenn n geradzahlig ist? Nehmen wir uns die Daten von Lenes
Bachelorarbeit im Beispiel 1.6 vor. Sie hatte bei acht übergewichtigen Patienten in einer
Reha-Klinik den Body-Mass-Index (BMI) erfragt. In Tabelle 1.19 sind die geordneten
Daten aufgeführt. Hier fällt der Median in die Lücke zwischen zwei Werten. Wir nehmen
einfach den Durchschnitt der beiden Werte in der Mitte, also
35,51 + 36,33
z= = 35,92.
2
Analog zu oben können wir wieder sagen: Die 50 % kleinsten Werte betragen höchstens
35,92. Ebenso betragen die 50 % größten Werte mindestens 35,92.
i 1 2 3 4 5 6 7 8
xi (geordnet) 34,89 35,38 35,43 35,51 z 36,33 37,98 39,18 40,76
1.3 Verteilung eines Merkmals 31
Median z
n+1
z= ter Wert.
2
Wenn n gerade ist, liegt der Median zwischen dem n2 ten Wert und dem ( n2 + 1) ten
Wert. Wir nehmen einfach die Mitte zwischen den beiden x-Werten:
n
2 ter Wert + ( n2 + 1) ter Wert
z= .
2
11+1
In Beispiel 1.8 liegt also der Median auf dem n+1
2 ten = 2 ten = 6. Wert. In Beispiel 1.6
n n
liegt der Median zwischen dem 2 ten und ( 2 + 1) ten, also zwischen dem 4. und 5. Wert.
Nun wollen wir die Salutogenese-Daten des Beispiels 1.7 untersuchen. Für die Ermittlung
des Medians müssen die Gewichte der Größe nach geordnet sein, was Paula schon in
Tabelle 1.9 erledigt hat. Der Median liegt hier (n = 100) zwischen dem 50. und 51. Wert,
also
(82 + 82)
z= = 82.
2
Quartile: Neben dem Median kommt den Quartilen die größte Bedeutung zur Beschrei-
bung der Verteilung zu. Schon der Name Quartil deutet auf Viertel hin: Teilt nämlich
der Median die geordneten Daten in zwei gleiche Teile, zerlegen die Quartile die Daten
in vier gleiche Teile (Tabelle 1.20). Daher gibt es drei Quartile – das erste Quartil Q1 ,
das zweite Q2 und das dritte Q3 . Das zweite ist natürlich der Median.
Das erste und dritte Quartil begrenzen die 50 % der geordneten Werte, die in der Mitte
der Daten liegen. Diese Information kann wertvoll für die Beurteilung der Streubreite
von Datenwerten sein.
Für die Ermittlung von Quartilen findet man in der Literatur ein Fülle von Vorschriften,
je nach gewünschtem Genauigkeitsgrad. Einigermaßen einfach ist unsere Vorgehensweise.
i 1 2 3 4 5 6 7 8 9 10 11 12
xi 11,8 12,3 13,6 13,7 15 16,5 17,1 17,2 17,4 17,6 17,7 18,8
13,6 + 13,7
Q1 = = 13,65.
2
17,4 + 17,6
Q3 = = 17,5.
2
i 1 2 3 4 5 6 7 8 9 10 11 12 13
xi 11,8 12,3 13,6 13,7 15 16,5 17,1 17,2 17,4 17,6 17,7 18,8 19,1
Q1 = 13,7.
Q3 = 17,6.
Wir sehen, dass mit dieser Vorgehensweise die Aufteilung immer gleichmäßig ist.
Weitere Quantile: Spezielle Quantile neben Median und Quartilen sind Quintile, die
die Daten in fünf gleich große Teile zerlegen, Dezentile, die die Daten in zehn gleich große
Teile zerlegen, und Perzentile, die die Daten in 100 gleich große Teile zerlegen. Da diese
Quantile seltener verwendet werden als die drei Quartile, sehen wir von einer genaueren
Erläuterung ab. Ihre Ermittlung funktioniert im Prinzip genauso wie bei den Quartilen.
Liegen die Daten nur in klassierter Form vor, können wir die Quantile auch näherungs-
weise anhand der relativen Summenkurve ermitteln. Hier suchen wir auf der y-Achse
(auch Ordinate genannt) den Anteil p. Der entsprechende Wert auf der x-Achse (auch
Abszisse genannt) der Summenkurve gibt das Quantil an.
Die etwas linkische Überschrift heißt statistisch-formal: Verteilung eines Merkmals mit
wenigen unterschiedlichen Ausprägungen. Man nennt so eine Variable häufbar. Oben
hatten wir mit Daten zu tun, die sehr unterschiedlich waren. Vor allem die grafische Dar-
stellung ihrer Verteilung war nicht so recht begeisternd, Punktediagramm und Stamm-
Blätter-Diagramm waren das einzige Angebot. Erst die Einteilung der Daten in Klassen
erlaubte die Darstellung als Histogramm. Wir haben also schon oben Daten in Häu-
figkeitstabellen eingeteilt. Häufbare Variablen können nominal-, ordinal- und metrisch
diskret skaliert sein. In Abschnitt 1.2.3 finden wir die Definition der Skalenniveaus.
34 1 Deskriptive Statistik
Bemerkung: Die häufbaren Merkmale mit ihren besonderen Eigenschaften werden in der
Literatur, insbesondere der englischsprachigen, oftmals als kategorial – im Gegensatz zu
numerisch – eingeteilt. Diese Einteilung ist unglücklich, denn es gibt auch numerische,
also metrische Variablen, die häufbar sind.
Die Variable x, die die Antwort auf „Durch wen wünschen Sie bei der Vermögensanlage
beraten zu werden?“ enthält, ist nominalskaliert, denn die möglichen Antwortkategorien
können nicht geordnet werden. Wir nummerieren die Kategorien mit j durch. Wie oben
bei den klassierten Häufigkeiten nennen wir die Häufigkeiten dann wieder nj . Bert findet,
dass Prozente besser verständlich sind, und fügt in Tabelle 1.24 noch die Anteile als die
relativen Häufigkeiten pj bei:
nj
pj = . (1.3)
n
Damit das Ganze besser lesbar ist, wandelt Bert die Anteile in Prozent um mit pj · 100 %.
Bert erkennt nun sofort, dass fast die Hälfte der Kunden mit dem Kundenberater zufrie-
den ist und dass nur etwa 30 % einen Spezialisten wünschen.
Für die grafische Darstellung wählt Bert das Säulendiagramm in Abbildung 1.12, bei
dem die Höhe der Säule den Anteil darstellt.
Für kategoriale Variablen gibt es neben dem Säulendiagramm noch andere Möglichkei-
ten, die Daten aussagekräftig wiederzugeben. Häufig verwendet wird das Kreisdiagramm,
etwas anschaulicher auch Tortendiagramm genannt (Abbildung 1.13). Hier geben die
Flächen der Tortenstücke die Häufigkeit an. Früher musste der Anwender mithilfe des
1.3 Verteilung eines Merkmals 35
Winkelmessers die Größe der Tortenstücke selbst errechnen, heute nehmen ihm gängige
Programme wie beispielsweise eine Tabellenkalkulation diese Arbeit ab.
Abb. 1.12: Kundenzufriedenheit mit einer Sparkassenfiliale. Frage: „Durch wen wünschen
Sie bei der Vermögensanlage beraten zu werden?“
Egal, welcher
12%
Beide zusammen
13%
Kundenberater
45%
Spezialist
30%
Abb. 1.13: Kundenzufriedenheit mit einer Sparkassenfiliale. Frage: „Durch wen wünschen
Sie bei der Vermögensanlage beraten zu werden?“
Für ordinal skalierte Variable gelten obige Überlegungen gleichermaßen. Bert hat nun
noch die Zufriedenheit der Kunden mit den Beratungsleistungen abgefragt. Hier erhielt
er die Verteilungstabelle 1.25 mit den absoluten und prozentualen Häufigkeiten. Wir
bemerken, dass die Gesamtzahl der Antworten hier von den Antworten in Tabelle 1.24
36 1 Deskriptive Statistik
abweicht. Das liegt daran, dass nicht alle Befragten auf alle Fragen geantwortet haben.
Bert erhält hier das Säulendiagramm in Abbildung 1.14.
Kategorie Beratung durch Zahl der Kunden prozentualer Anteil der Kunden
j xj nj pj · 100 %
1 Kundenberater 403 44,6
2 Spezialist 275 30,5
3 beide zusammen 121 13,4
4 egal, welcher 104 11,5
Summe 903 100,0
Tab. 1.25: Kundenzufriedenheit mit einer Sparkassenfiliale. „Wie zufrieden sind Sie mit den
Beratungsleistungen?“
60
Prozent der Antworten
50
40
30
20
10
0
1 2 3 4 5 6
40
Zahl der Befragten
35
30
25
20
15
10
0
0 1 2 3 4 5
Zahl der leiblichen Kinder
Wir sehen, dass nur 97 der 100 Befragten geantwortet haben. Auffällig ist, dass jeweils
über ein Drittel der Befragten entweder ein Kind oder drei Kinder hatten. Erstaunlicher-
weise gab niemand Kinderlosigkeit an.
ja die Ausprägung nur genau die ganzzahligen Werte annehmen kann, und zum anderen,
dass sich ein Strich schneller zeichnet als eine Säule.
Mit dem oben genannten Mittelwert meinen wir in der Regel das arithmetische Mittel,
auch als Durchschnittswert bekannt. Es gibt nämlich noch andere Lagemaße, die gelegent-
lich auch als Mittelwert bezeichnet werden, denn die Definition von Mittelwert ist streng
genommen weiter gefasst. In diesem Buch soll aber mit Mittelwert das arithmetische
Mittel gemeint sein.
Wir addieren die einzelnen Datenwerte und teilen durch die Anzahl der Werte:
81 + 89 + · · · + 122 1166
arithmetisches Mittel = = = 106.
11 11
Als Symbol für den Mittelwert verwenden wir x (ausgesprochen: „x quer“). Aus der
obigen Berechnung können wir die Formel herleiten: die xi -Werte aufsummieren und
durch n teilen.
Arithmetisches Mittel
Für das Salutogenese-Beispiel 1.7 ergab sich das arithmetische Mittel als
50 + 55 + · · · + 120 + 125 8297
= = 82,97.
100 100
Bei einer Vielzahl von statistischen Methoden muss man von den Datenwerten xi (i =
1, 2, . . . , n) das arithmetische Mittel x subtrahieren. Das Ergebnis ci = xi − x so eines
Datenwertes nennen wir einen zentrierten Wert. Die Summe der ci und damit deren
arithmetisches Mittel c ist null. Mithilfe dieser Eigenschaft können wir schnell kontrollie-
ren, ob wir Datenwerte korrekt zentriert haben (falls wir es von Hand machen mussten).
1.4.2 Median
Das Lagemaß Median haben wir schon auf Seite 30 kennengelernt. Die Bezeichnung
Zentralwert weist auf die Rolle des Medians hin.
Zur Erinnerung: Aus dem Salutogenese-Beispiel 1.7 ergab sich auf Seite 31 z = 82. Wir
sehen, dass z hier eine ähnliche Größenordnung wie x hat.
Im Gegensatz zum arithmetischen Mittel kann der Median auch bei ordinal skalier-
ten Variablen verwendet werden.
1.4.3 Modus
Der Modus ist das einfachste und auch anspruchsloseste Lagemaß. Es gibt bei Daten, die
in Häufigkeitstabellen vorliegen, den x-Wert an, wo die Häufigkeit maximal wird, also in
einfachen Worten, wo die Säule am höchsten ist.
Sehen wir uns das Evaluationsbeispiel 1.3 an. Die Behauptung lautete: „Der vermittel-
te Vorlesungsstoff war gut verständlich.“ Wir konnten die Antworten in Abbildung 1.1
zusammenfassen. Die meisten Studierenden kreuzten 3, also „stimme eher nicht zu“ an.
Damit hat die Variable „Der vermittelte Vorlesungsstoff war gut verständlich“ den Modus
bei 3.
Im Histogramm in Abbildung 1.4 des Salutogenese-Beispiels 1.7 sehen wir, dass der Mo-
dus auf dem Intervall 80–90 liegt, also könnten wir sagen, der Modus ist etwa bei 85 kg.
40 1 Deskriptive Statistik
Modus
Der Modus gibt den Wert x an, der zur größten Häufigkeit von Beobachtungswerten
gehört. Da der Modus einfach gestrickt ist, kann er für alle Skalenniveaus verwendet
werden, auch für nominale.
1.4.4 Warum der Median, wenn man den Mittelwert haben kann?
Erfahrungsgemäß freuen sich die meisten Studierenden, wenn sie bei metrisch skalierten
Daten einen Durchschnitt errechnen, und sie fragen sich, wozu dann der Median eigentlich
gut sein soll. Abgesehen davon, dass Werte im Zentrum der Daten generell informativ
sein können, schauen wir uns folgendes kleines konstruiertes Beispiel an.
1 1 1 2 15
Das arithmetische Mittel als Zahl der verspeisten Riegel pro Person errechnet sich als
1 + 1 + 1 + 2 + 15 20
= = 4.
5 5
In der Dokumentation des Sitzungsverlaufs wird erwartungsgemäß berichtet, dass im
Durchschnitt jeder Patient vier Schokoriegel verzehrt hat. Vergleichen wir das mit den
Daten, sollte uns auffallen, dass der Durchschnitt die Gesamtheit verzerrt darstellt, denn
es wird suggeriert, dass die Patienten ziemlich viel genascht haben. Dabei waren alle
Patienten bis auf einen brav. Schuld an diesem zweifelhaften Ergebnis ist Patient 5, der
15 Schokoriegel verputzte und so den Durchschnitt „versaut“ hat. Der Wert 15 stellt hier
einen sogenannten Ausreißer in den Daten dar, also einen Datenwert, der sehr weit vom
Rest der Daten entfernt ist.
Dieses Beispiel zeigt, dass das arithmetische Mittel sehr stark auf Ausreißer in den Daten
reagiert. Wir können der obigen Formel entnehmen, dass der Wert 15 in der Summe
der Beobachtungswerte 75 % ausmacht. 75 % des Mittelwertes sind also diesem Wert 15
zuzuschreiben.
Was tun? Wir könnten alternativ den Median zur Beschreibung der Daten verwenden.
Er liegt hier auf dem 3. Wert und wäre also z = 1, was zwar auch nicht ideal ist, aber
immer noch besser als 4.
1.5 Streuungsmaße 41
Vorteil des Mittelwertes ist, dass jede Information in die Berechnung eingeht, der
Nachteil ist, dass er extrem ausreißersensibel ist.
Vorteil des Medians ist, dass er resistent gegenüber Ausreißern ist, dagegen geht hier
nur ein Wert in die Berechnung ein, was wiederum unbefriedigend ist.
Bei einer Analyse von Daten sollten immer beide Kennwerte ermittelt werden. Wei-
chen sie deutlich voneinander ab, gibt es möglicherweise Ausreißer in den Daten.
Es gibt allerdings noch etliche weitere resistente Lageparameter, beispielsweise das ge-
trimmte Mittel xα . Hier wird ein bestimmter Prozentsatz α der kleinsten wie auch größten
Beobachtungswerte gestrichen. In unserem kleinen Beispiel 1.14 ist das Agieren mit Pro-
zenten nicht sinnvoll – wir streichen einfach den kleinsten und größten Wert. Mit den
reduzierten Daten ergibt sich das getrimmte Mittel als
1+1+2 4
= = 1,33.
3 3
Dieser Wert ist ein guter Kompromiss zwischen Mittelwert und Median.
Nun wollen wir ein 5 %-getrimmtes Mittel aus den Salutogenese-Daten in Tabelle 1.8
errechnen, das heißt, wir entfernen jeweils die 5 % kleinsten und 5 % größten Werte und
berechnen mit den verbliebenen 90 % das arithmetische Mittel:
60 + 60 + · · · + 108 + 112
xα = x5 = = 82,48.
90
Dieser Wert unterscheidet sich nur unwesentlich von x = 82,97, was allerdings nicht
verwunderlich ist, denn die Daten hatten so gut wie keine Ausreißer.
Analysieren wir Daten, wollen wir Angaben über die Lage der Daten. Aber auch die
Variationsbreite interessiert uns. Liegen die Daten nahe am Mittelwert? Sind sie breit
gestreut? Enthalten sie möglicherweise Ausreißer? Wir nennen so einen Kennwert Streu-
ungsmaß oder Dispersionsmaß.
sich die Kriminalitätsraten in den Nordstaaten von denen der Südstaaten unterschei-
den. Sie berechnet den Durchschnitt pro Nordstaat als ca. 384 und pro Südstaat als ca.
512. Die Ergebnisse deuten für sie darauf hin, dass die Kriminalität in den Südstaaten
deutlich ausgeprägter ist als in den Nordstaaten. Nun ermittelt sie noch ein Maß für
die Streuung, die Standardabweichung. Für den Nordstaat erhält sie etwa 257 und für
den Südstaat etwa 177. Es stellt sich also jetzt für sie so dar, dass die Verbrechens-
zahlen in den Nordstaaten stärker schwanken als in den Südstaaten. Und in der Tat
liegen die Zahlen bei den Nordstaaten zwischen 78 und 1 608 und bei den Südstaaten
zwischen 258 und 794. Es treten also bei den Nordstaaten wesentlich höhere Zahlen
auf, die offenbar aufgrund der Durchschnittsbildung „unter den Tisch fallen“.
Die Varianz wird allgemein als klassisches Streuungsmaß angesehen und damit am häu-
figsten verwendet. Sie ist der durchschnittliche quadratische Abstand der einzelnen Be-
obachtungswerte vom Mittelwert. Um sie von der Varianz einer Grundgesamtheit zu
unterscheiden, nennen wir sie Stichprobenvarianz oder auch inferenzielle Varianz.
14 20 18 16 27 min.
Für den Vergleich mit den Zeiten anderer Gruppen braucht Berta die Varianz.
25 + 1 + 1 + 9 + 64 = 100.
1.5 Streuungsmaße 43
Nun bildet sie die mittlere Quadratsumme: Sie teilt aber nicht durch 5, sondern durch
4. Das muss sie machen, wenn sie mit der Varianz dieser Stichprobe die Varianz der
Grundgesamtheit schätzen will. Man nennt diese Schätzung erwartungstreu. Sie erhält
die sogenannte Stichprobenvarianz (Einheit: min2 !):
s2 = 100/4 = 25.
1
n
(x1 − x)2 + (x2 − x)2 + . . . + (xn − x)2
s2 = = (xi − x)2 . (1.5)
n−1 n−1
i=1
Bemerkung: Das Dividieren durch (n − 1) mag seltsam anmuten. Und es gibt in der Tat
auch eine Variante, bei der die Quadratsumme durch n geteilt wird:
1
n
s2deskriptiv = (xi − x)2 .
n
i=1
Man bezeichnet sie als deskriptive oder empirische Varianz. Sie kann verwendet werden,
wenn die Daten lediglich beschrieben werden sollen, aber keine Rückschlüsse auf die
Grundgesamtheit beabsichtigt sind. Wir wollen sie aber hier nicht weiter gebrauchen,
denn wir kommen auch ohne sie gut klar.
Kann man einem Mittelwert ohne Weiteres die enthaltene Information entnehmen, gelingt
das bei der Varianz nur Geübten. So kann Berta nicht sofort sagen, ob 25 eine hohe oder
niedrige Streuung bedeutet. Die Varianz kann nämlich beliebig groß werden. Zudem ist
die Einheit Quadratminuten, was eine Deutung noch weiter erschwert. Aber Berta kann
die Wurzel aus s2 ziehen. Sie erhält die Standardabweichung
√
s= 25 = 5.
Die Standardabweichung hat nun die Einheit Minuten, und man könnte – allerdings
mathematisch nicht ganz korrekt – sagen: „Die durchschnittliche Abweichung der Bear-
beitungszeiten von der mittleren Bearbeitungszeit beträgt etwa 5 Minuten.“ Oder auch:
„Im Intervall x ± s = 19 ± 5 liegen die meisten Beobachtungswerte.“
44 1 Deskriptive Statistik
i xi xi − x (xi − x)2
1 81 −25 625
2 89 −17 289
3 93 −13 169
4 104 −2 4
5 108 2 4
6 108 2 4
7 110 4 16
8 114 8 64
9 117 11 121
10 120 14 196
11 122 16 256
Summe 1 166 0 1 748
Wir erhalten schließlich als Quadratsumme der Abweichungen 1 748 und teilen wieder
durch 10 statt durch 11, sodass wir die Varianz erhalten
s2 = 1748/10 = 174,8.
Bisher rechnete sich die Varianz quasi von selbst, weil beim Zentrieren wunderbar glatte
Zahlen resultierten. Wenn jedoch schon der Mittelwert nicht ganzzahlig ist, kann die
händische Berechnung der Varianz ausgesprochen nervtötend wirken. Man kann aller-
dings mithilfe des sogenannten Verschiebungssatzes auch in solchen negativ anmutenden
Fällen die Varianz einigermaßen einfach berechnen.
1.5 Streuungsmaße 45
1
Die Varianzformel s2 (Formel 1.5) setzt sich aus den Komponenten n−1 und
n 2
i=1 (xi − x) zusammen. Letztere kann mathematisch mithilfe des Verschiebungssatzes
umgeformt werden. Es gilt nämlich
n n
(xi − x)2 = ( x2i ) − n · x2 . (1.6)
i=1 i=1
Diese Formel ist mathematisch äquivalent zu Formel 1.5. Es ist also gleichgültig, welche
Formel gewählt wird – beide führen zum selben Ergebnis.
14 20 18 16 27.
und berechnet
n
( x2i ) − n · x2 = 1905 − 5 · 192 = 100.
i=1
Sie teilt wieder durch 4 und erhält nun die Varianz wie oben als
100
s2 = = 25.
4
Die Varianz hat viele wahrscheinlichkeitstheoretische Vorzüge, sodass sie als klassischer
Streuungsparameter gilt.
In der praktischen Verwendung ist die Varianz beispielsweise ein Maß für das Risiko
in der Investitionsrechnung, insbesondere bei finanziellen Anlageformen. Hier wird die
Streubreite des Anlagegewinns als Risiko interpretiert. So wird die Streuung möglicher
Erträge bei Sparbüchern eher gering sein, also ist auch das Risiko eines Verlusts gering.
46 1 Deskriptive Statistik
Anders sieht es bei Erträgen von Aktien aus. Hier können große Gewinne, aber erhebliche
Verluste auftreten. Die Varianz der Erträge ist hier sehr groß, also auch das Risiko einer
solchen Anlage.
In der Informationstheorie ist die Varianz ein Maß für den Informationsgehalt einer ko-
dierten Botschaft. Auch in der Statistik wird die Varianz als Kennwert für die Menge an
Information verwendet, die in den Daten steckt.
Die Standardabweichung liefert Erkenntnisse über die Verteilung der Daten. Wir haben
bereits auf Seite 28 kurz die Normalverteilung kennengelernt. Entstammen Daten einer
Normalverteilung, liegen ca. 2/3 aller mittleren Beobachtungen in einem Intervall mit
der Breite zweier Standardabweichungen. Ca. 95 % aller mittleren Beobachtungen liegen
in einem Intervall der Breite von vier Standardabweichungen. Also liegen 5 % der Be-
obachtungen außerhalb dieses Intervalls. Ergibt sich in einer Stichprobe eine ähnliche
Konstellation, kann vermutet werden, dass die Daten einer normalverteilten Population
entstammen.
Ebenso wie der Mittelwert ist auch die Varianz extrem sensibel gegenüber Ausreißern
in den Daten. Durch das Quadrieren potenzieren sich die Abweichungen sogar noch.
Analog zum Mittelwert gibt es auch für den Streuungsparameter Kennwerte, die resistent
gegenüber Ausreißern sind.
Beispiel 1.20 Von fünf Patienten verzehrte Schokoriegel: Varianz bei Aus-
reißern
Wir wollen mit Beispiel 1.14 die Resistenz der Varianz untersuchen. Wir erinnern uns:
In einer therapeutischen Sitzung hatten drei Teilnehmer einen Schokoriegel genascht,
ein Teilnehmer deren zwei und einer hatte 15 Riegel verputzt. Es ergab sich pro Teil-
nehmer die durchschnittliche Zahl von vier Riegeln.
Wir summieren:
9 + 9 + 9 + 4 + 121 = 152.
Wir sehen jetzt schon, dass der letzte Wert ca. 80 % der gesamten Varianz ausmacht.
Wir erhalten schließlich eine Varianz von 152
4 = 38. Bei einer Standardabweichung von
ca. sechs Riegeln würden wir nun vermuten: Ein Patient naschte im Durchschnitt 4 ± 6
Riegel. Diese Aussage kann nur als völliger Unsinn bezeichnet werden.
1.6 Kennwerte bei Daten in Häufigkeitstabellen 47
1.5.2 Interquartilsabstand
Der Interquartilsabstand Q wird mithilfe der Quartile ermittelt, die wir bereits auf Seite
31 kennengelernt hatten als die x-Werte, welche die geordneten Datenwerte in Viertel
einteilen. Wir berechnen den Quartilsabstand als
Q = Q3 − Q1 . (1.8)
Der Interquartilsabstand, im Englischen interquartile range genannt, schließt die 50 %
mittleren Beobachtungswerte der geordneten Daten ein. Er dient im Allgemeinen als
Ersatz für die Standardabweichung. Vor allem sollten wir ihn verwenden, wenn die Daten
große Ausreißer enthalten.
Wir wollen nun den Interquartilsabstand für unsere Salutogenese-Daten in Beispiel 1.7
ermitteln. Wir verwenden die Rechenregeln auf Seite 32.
Das erste Quartil liegt zwischen dem 25. und 26. Beobachtungswert. Er beträgt Q1 =
76+76
2 = 76. Das dritte Quartil liegt zwischen dem 75. und 76. Beobachungswert, und wir
erhalten entsprechend Q3 = 88. Also ist hier der Interquartilsabstand
Q = 88 − 76 = 12.
Wir interpretieren diese Information folgendermaßen: Die 50 % mittleren Daten habe eine
Spannweite von 12 kg.
Die Standardabweichung betrug 13,94. Die beiden Werte liegen also gar nicht so weit
auseinander, obwohl sich ihre Berechnung völlig unterscheidet.
Da die Kinderzahl häufbar ist, fasst sie zuerst die Daten in der Häufigkeitstabelle 1.29
zusammen.
Cornelia möchte nun die Verteilungskennwerte ermitteln. Sie interessiert sich für den
Median z. Da sie n = 16 Beobachtungen hat, liegt der Median zwischen dem 8. und 9.
geordneten Beobachtungswert. Ein Blick auf die Spalte „Summenhäufigkeit“ in Häufig-
keitstabelle 1.29 zeigt Cornelia, dass in den ersten zwei Kategorien nur die sieben ersten
Werte liegen. Der 8. und 9. Wert fallen also in die dritte Kategorie mit der Kinderzahl
2. Man nennt diese Kategorie Einfallsklasse des Medians. Deshalb ist der Median
2+2
z= = 2.
2
Nun will Cornelia das arithmetische Mittel berechnen. Sie könnte so vorgehen:
1 1
x= · (0 + 0 + . . . + 3 + 3) = · 24 = 1,5.
16 16
Während des ein wenig ermüdenden Addierens fällt ihr auf, dass sie die Einzeldaten zu
Gruppen zusammenfassen kann,
0 00 0 111
2
2 22 2 2 3 3 3,
4-mal 3-mal 6-mal 3-mal
viel einfacher und angenehmer ist. Sie kann daher in der Häufigkeitstabelle 1.30 die
Zwischenwerte für die Berechnung festhalten. Sie trägt in jeder Kategorie j das Produkt
xj · nj (Spalte 3) ein und summiert dann die Produkte auf. Die Summe 24 muss sie noch
durch n = 16 teilen, also
24
x= = 1,5.
16
Das arithmetische Mittel bei einem häufbaren Merkmal berechnet man mit
1
m
x1 · n1 + x2 · n2 + . . . + xm · nm
x= = · xj · nj (1.9)
n n
j=1
oder auch
m
x = x1 · p1 + x2 · p2 + . . . + xm · pm = xj · pj , (1.10)
j=1
nj
wobei pj die relative Häufigkeit n in der Klasse j ist.
Ähnlich geht Cornelia bei der Varianz vor. Ausgehend von der Varianzformel
1
n
s2 = · (xi − x)2
n−1
i=1
würde sie
1
s2 = · ((0 − 1,5)2 + (0 − 1,5)2 + . . . + (3 − 1,5)2 + (3 − 1,5)2 ) = . . .
15
berechnen. Sie sieht, dass auch hier die Quadrate mehrfach auftreten und geht analog zu
oben vor.
50 1 Deskriptive Statistik
oder auch
n
n
Den Faktor n−1 in der letzten Formel brauchen wir in mathematischer Hinsicht.
Cornelia nützt wieder die Vorteile der Häufigkeitstabelle 1.30. In den Spalten (4) bis (6)
wird die Varianzformel schrittweise aufgebaut. Spalte 6 wird aufsummiert. Das Ergebnis
18 wird durch 15 geteilt, und Cornelia erhält
18
s2 = = 1,2.
15
√
Die Standardabweichung ergibt s = 1,2 ≈ 1,1.
2 Wahrscheinlichkeitstheorie
Wir erinnern uns: Statistik bedeutet Denken in Modellen. In Kapitel 1 war das noch nicht
unmittelbar ersichtlich, aber bei Überlegungen, dass man bei erhobenen Daten von einer
zugrunde liegenden Grundgesamtheit ausgeht (Seite 8), klang es schon an. Wir kommen
nun zum theoretischen Grundgerüst, das es uns ermöglicht, wissenschaftliche Aussagen
zu treffen und zu bestätigen.
Um wieder die Gold-Analogie zu strapazieren: Wenn wir Gold suchen wollen, sollten
wir wissen, wie Gold entsteht, um erfolgreich zu sein. Ebenso sind gewisse wahrschein-
lichkeitstheoretische Grundkenntnisse für das korrekte Anwenden statistischer Methoden
unerlässlich. Wir beginnen mit einem Beispiel.
Der Bewerber kennt die Bedeutung der Kästchen nicht. Der erste Buchstabe in ei-
nem Kästchen bezeichnet die Gesprächsführung und der zweite die Moderation der
Diskussionsrunde. „X“ bedeutet Erna und „Y“ Karl.
52 2 Wahrscheinlichkeitstheorie
Nach der Begrüßung aller Bewerber stellen sich die Mitarbeiter vor. Lukas ist unter
den Bewerbern. Er ist von Erna sehr angetan und hat das Gefühl, sie besonders be-
eindrucken zu können. Also erhofft er sich in beiden Auswahlverfahren die Zuteilung
zu Erna.
Wir kommen zum Punkt: Mit welcher Wahrscheinlichkeit wird Lukas in beiden Auswahl-
verfahren von Erna betreut? Und um es kurz zu machen: Die Antwort lautet 1/4.
Aber wieso eigentlich 1/4? Wir überlegen: Lukas hat vier Möglichkeiten, ein Kästchen
anzukreuzen. Da er die hinterlegte Information nicht kennt, trifft er seine Auswahl zu-
fällig. Er könnte also auch stattdessen aus einer Urne mit vier Kugeln, die jeweils mit
einem Kästchen beschriftet sind, eine Kugel zufällig ziehen. Stellen wir uns vor, unend-
lich viele Menschen würden aus so einer Urne zufällig eine Kugel ziehen. Jeder Mensch
bekäme eine bestimmte Realisation dieses zufälligen Ziehens. Dann erhielte ein Viertel
der Menschen eine Kugel mit der Aufschrift „XX“ als Realisation.
Das zufällige Ankreuzen eines Kästchens wird Zufallsvorgang, auch Experiment oder
Versuch genannt. Mithilfe des Beispiels können wir den Zufallsvorgang charakterisieren:
Ein bestimmtes Buchstabenpärchen ist ein Ergebnis des Zufallsvorgangs. Wir haben ins-
gesamt vier verschiedene Ergebnisse. Wir fassen sie in einer Menge Ω (= „groß-Omega“)
zusammen, der Ergebnismenge oder dem Ergebnisraum
Tritt bei einem Experiment ein bestimmtes Ergebnis ein, handelt es sich um ein Ereignis.
Lukas fragt sich, mit welcher Wahrscheinlichkeit er mindestens einmal Erna erhält. Es
gibt hier drei Möglichkeiten, mindestens einmal Erna zu erhalten, die in der Teilmenge
A von Ω zusammengestellt werden:
Ein Ereignis wird großbuchstabig bezeichnet. Das Ereignis ist immer eine Teilmen-
ge der Ergebnismenge. Es können daher auch alle Rechenregeln der Mengenlehre darauf
2.1 Ereignisse und Wahrscheinlichkeiten 53
angewendet werden. Die leere Menge ∅ ist übrigens immer Teilmenge einer Menge. Für
die grafische Darstellung von Ereignissen als Mengen eignen sich Venn-Diagramme, die
wir beispielsweise auf Seite 54 studieren können.
Das konkrete Auftreten eines bestimmten Ereignisses ist dessen Realisation. Da modell-
haft ein Zufallsvorgang unendlich oft stattfindet, treten auch für jedes Ereignis unendlich
viele Realisationen auf. Wir können allerdings Anteile des Auftretens angeben. So beträgt
etwa oben in 2.1 der Anteil der Realisationen mit „XX“ ein Viertel.
Da unser Ereignis A („mindestens einmal X“) aus mehreren Elementen besteht, heißt
A ein zusammengesetztes Ereignis. Dagegen ist beispielsweise das Ereignis B = {(YY)},
nämlich dass Lukas genau zweimal Karl erhält, ein Elementarereignis. Es ist nur ein
Element der Ergebnismenge betroffen.
Die Wahrscheinlichkeit eines Ereignisses A wird als P (A) notiert. Häufig wird in der
Literatur auch W (A) verwendet. Würden hier wieder wie oben unendlich viele Menschen
ein Kästchen zufällig ankreuzen, resultierte in drei von vier Fällen „mindestens einmal
Erna“. Wir können also die Wahrscheinlich dafür angeben als
Zahl der für das Ereignis A zutreffenden Ergebnisse 3
P (A) = = .
Zahl aller Ergebnisse 4
Übrigens findet man in der Literatur meistens statt „Zahl der für das Ereignis A zutref-
fenden Ergebnisse“ den Ausdruck „Zahl der für das Ereignis A günstigen Ergebnisse“,
was die historische Benenung ist.
Mit welcher Wahrscheinlichkeit würde es Lukas genau einmal mit Erna zu tun haben?
Wenn wir das Ereignis als B bezeichnen, ist
B = {(XY), (YX)}
und damit
Zahl der für das Ereignis B zutreffenden Ergebnisse 2 1
P (B) = = = .
Zahl aller Ergebnisse 4 2
54 2 Wahrscheinlichkeitstheorie
Oben hieß es: „Das Ereignis ist immer eine Teilmenge der Ergebnismenge. Es können da-
her auch alle Rechenregeln der Mengenlehre darauf angewendet werden.“ Für das Rech-
nen mit Mengen gibt es eigene Rechenregeln, die in der sogenannten Boole’schen Algebra
zusammengefasst sind. Übrigens ist auch die Schaltalgebra, die für das Programmieren
mit elektronischen Schaltkreisen verwendet wird, eine Boole’sche Algebra. Kennen wir
im Umgang mit reellen Zahlen die Operatoren +, −, ·, :, sind es in der Boole’schen
Algebra der Mengen die Operatoren ∩ (und), ∪ (oder), (nicht). Grafisch kann das
Zusammenspiel von Mengen anschaulich mit dem Venn-Diagramm gezeigt werden. Wir
sehen im Folgenden ein paar Beispiele hierzu.
Betrachten wir zwei beliebige Ereignisse A und B. Sie entstammen einer Ergebnismenge
Ω mit den Elementen ω.
1. A ∩ B („A und B“) ist die Menge aller Ergebnisse ω, die in A und zugleich in B sind.
Formal ausgedrückt:
A = {ω|ω ∈
/ A und ω ∈ Ω}.
Wir bezeichnen das als Komplement oder Gegenmenge von A. (Abbildung 2.3).
AÈB
W W
A AÇB B A B
Abb. 2.1: Schnittmenge von A und B. Abb. 2.2: Vereinigungsmenge von A und B.
2.1 Ereignisse und Wahrscheinlichkeiten 55
A A
1. A ∩ B: Die Elemente, die A und B gemeinsam haben, sind (XY) und (YX). Also ist
A ∩ B = {(XY), (YX)}.
2. A ∪ B: In A ∪ B werden A und B vereinigt. Diese Menge fasst alle in A und B
vorkommenden Elemente zusammen: Also ist A ∪ B = {(XX), (XY), (YX)}.
3. A: In dieser Menge sind alle Elemente von Ω, die nicht in A sind. Es bleibt nur eines
übrig. Also ist A = {(YY)}. Verbal ausgedrückt handelt es sich um das Ereignis, dass
Lukas nur Karl bekommt.
Kehren wir zu den Ergebnissen zurück. Analog zum Skalenniveau der deskriptiven Sta-
tistik in Abschnitt 1.2.3 unterscheiden wir zweckmäßigerweise auch hier unterschiedliche
Typen von Ergebnismengen:
endlich: Es gibt nur eine bestimmte Höchstzahl von Ergebnissen. Beispiele wären etwa
die Augenzahl bei einmaligem Würfeln, der Familienstand einer zufällig ausgesuchten
Person oder auch ein bestimmtes Kästchen aus Beispiel 2.1 des Assessment-Centers.
abzählbar unendlich: Wir können hier zwar die verschiedenen Ergebnisse immer noch
abzählen, aber es wird keine Obergrenze angesetzt. Beispiele wären die Zahl der Unfälle
auf einem Autobahnabschnitt während eines Jahres, die Zahl der wöchentlichen Rekla-
mationen eines großen Online-Händlers. Häufig kann man zwar eine Obergrenze angeben,
aber methodisch ist es zweckmäßiger, sie offenzulassen, etwa Alter einer Person, Kinder-
zahl usw.
überabzählbar: Die Ergebnismenge ist stetig. Sie kann die Menge der reellen Zahlen um-
fassen oder auch nur eine Teilmenge der reellen Zahlen. Ein Beispiel wäre das Gewicht
eines zufällig ausgewählten Hühnereies oder die Größe eines Blattes. Sie erfordert me-
thodisch eine gesonderte Behandlung, denn es kann theoretisch ein bestimmtes einzelnes
Ergebnis niemals eintreten. Man betrachtet hier vor allem als Ereignisse Intervalle der
Ergebnismenge, beispielsweise die Wahrscheinlichkeit, dass ein Hühnerei mindestens 50 g
wiegt oder dass ein Blatt zwischen 6 und 9 cm lang ist. Wir haben Entsprechendes in
der deskriptiven Statistik schon als metrisch skaliertes stetiges Merkmal kennengelernt
(Seite 13).
56 2 Wahrscheinlichkeitstheorie
Wir wollen nun die Wahrscheinlichkeit etwas näher beleuchten. Eigentlich weiß kein
Mensch, was eine Wahrscheinlichkeit ist. Man könnte sie am ehesten als Grad der
Überzeugtheit für das Eintreten eines bestimmten Ereignisses umschreiben. Betrach-
ten wir einen Sechser im Lotto. Schon hier unterscheiden sich die Grade der Über-
zeugtheit vehement von Lottospieler zu Lottospieler. Aber trotzdem hilft uns die Wahr-
scheinlichkeit, die Zukunft des realen Lebens etwas zu strukturieren. Konkret fassbar
ist die Wahrscheinlichkeit, wenn sie als mathematisch basiertes Modell aufgefasst wird.
Wir wissen ja: Modelle vereinfachen die komplexe Realität. Sie lassen Nebensächlich-
keiten weg und zeigen uns die Funktionsweise der relevanten Komponenten des Mo-
dells.
Das Berechnen von Wahrscheinlichkeiten ist seit der Mitte des 17. Jahrhunderts be-
kannt. Vor allem die Berechnung von Wahrscheinlichkeiten bei mehrfachem Wür-
feln war hier das Thema. Später folgten beispielsweise das Gesetz der großen
Zahl oder die Normalverteilung. Schließlich ist dem russischen Mathematiker An-
drei Nikolajewitsch Kolmogorow (1903–1987) der große Verdienst zugefallen, aus
der Wahrscheinlichkeitsrechnung eine echte Wahrscheinlichkeitstheorie zu machen.
Er legte 1933 als Gerüst drei grundlegende Forderungen an die Wahrscheinlichkei-
ten fest, die sogenannten Axiome der Wahrscheinlichkeit. Auf diesen Axiomen fußt
die heute bekannte Wahrscheinlichkeitstheorie. Axiome sind übrigens getroffene Vor-
aussetzungen für eine Theorie, die zwar nötig und sinnvoll, aber nicht beweisbar
sind.
1. P (A) ≥ 0.
2. P (Ω) = 1.
3. P (A ∪ B) = P (A) + P (B), falls A und B disjunkt sind.
Das dritte Axiom kann nur auf endlich viele Ereignisse angewendet werden. Für
unendlich viele Ereignisse Ai (i = 1, 2, . . . ) muss es entsprechend zu 3a erweitert
werden.
3a. Sind die Ereignisse Ai ⊂ Ω sämtlich paarweise disjunkt, ist bei ihrer Vereinigung
P (A1 ∪ A2 ∪ A3 . . . ) = P (A1 ) + P (A2 ) + P (A3 ) + . . .
Die Axiome sind erstaunlich sparsam. Aber sie genügen, um ein konsistentes Wahrschein-
lichkeitsmodell darauf zu errichten. Man kann nun mithilfe der Axiome weitere wichtige
Regeln der Wahrscheinlichkeitsrechnung herleiten.
2.1 Ereignisse und Wahrscheinlichkeiten 57
0 ≤ P (A) ≤ 1, (2.1)
P (∅) = 0. (2.3)
A und B sind im allgemeinen nicht disjunkt. Also ist die Wahrscheinlichkeit, dass
A oder B eintritt, nach dem Additionssatz für zwei Ereignisse:
und
Für drei Ereignisse A, B und C, alle Teilmengen von Ω, gilt speziell der Additi-
onssatz:
Trotz dieser interessanten Folgerungen haben wir kein eindeutiges Rezept für die Be-
rechnung einer Wahrscheinlichkeit erhalten. Und in der Tat gibt es verschiedene Ansätze
dazu, abhängig von der gegebenen Sachlage.
58 2 Wahrscheinlichkeitstheorie
Die senkrechten Striche von |A| bezeichnen die Zahl der Elemente, die in der Menge A
sind. Man nennt das die Mächtigkeit der Menge A. Beispiele sind die Wahrscheinlichkei-
ten, dass
eine Fünf gewürfelt wird,
aus zehn Versuchspersonen eine zufällig ausgewählt wird,
aus einer Lostrommel der Hauptgewinn gezogen wird.
Die Axiome von Kolmogoroff legen fest, dass die Wahrscheinlichkeiten zwischen 0 und 1
liegen. Es werden hin und wieder aber auch Spielarten für die Angabe von Wahrschein-
lichkeiten verwendet, etwa
die Angabe als Anteil, beispielsweise statt „Die Wahrscheinlichkeit, dass eine zufällig
ausgewählte Person schwarzhaarig ist, beträgt 0,2“ die Angabe „20 % aller Personen
sind schwarzhaarig“ oder auch „1/5 aller Personen ist schwarzhaarig“;
die Angabe als Wette, beispielsweise die Chancen für den Gewinn bei einem Rennen
liegt bei 1:4, was dasselbe bedeutet, dass die Gewinnwahrscheinlichkeit 1/5 und die
Verlustwahrscheinlichkeit 4/5 beträgt.
Colonia ist ein großes Spezialgeschäft für Kaffee und Schokolade, das seine Waren
durch Selbstbedienung anbietet. Colonia bewirbt derzeit die Einführung der neuen
Kaffeesorte African Star. Vor allem der attraktive Promo-Preis soll die Kunden in den
Laden locken. Als spezieller Lustfaktor werden noch mit African-Star-Creme gefüllte
Schoko-Trüffeln in einer Geschenkpackung für den Verkauf angeboten. Momentan sind
60 2 Wahrscheinlichkeitstheorie
Die Marketing-Managerin Leila wählt im Laden zufällig einen Kunden aus und bittet
ihn, ihr den Inhalt des Einkaufswagens zu zeigen. Mit welcher Wahrscheinlichkeit kauft
die Person African-Star-Kaffee?
Welches Ergebnis hat die Zufallsauswahl? Wir haben 50 Käufer. Ein Ergebnis ist also
einer von 50 Käufern. Der Ergebnisraum Ω enthält 50 Ergebnisse, das heißt |Ω| = 50. Of-
fensichtlich hat jeder Käufer dieselbe Chance, ausgewählt zu werden. Wir können folglich
das Symmetrieprinzip (Seite 58) anwenden.
A K
1 2 3
T
4 5 6
S
7 8 9
10
Gesucht ist also P (A). Wir überlegen: A umfasst 20 Kunden, Ω 50 Kunden. Also erhalten
wir nach dem Symmetrieprinzip
|T | 40 4
P (T ) = = = = 0,8,
|Ω| 50 5
|K| 10 1
P (K) = = = = 0,2,
|Ω| 50 5
|S| 20 2
P (S) = = = = 0,4.
|Ω| 50 5
Wir wollen ein paar ausgewählte Wahrscheinlichkeiten bestimmen, zum Beispiel die
Wahrscheinlichkeit, was der zufällig ausgewählte Kunde kauft.
|T ∩ S| 15 3
P (T ∩ S) = = = = 0,3.
|Ω| 50 10
|T | 50 − 40 10
P (T ) = = = = 0,2.
|Ω| 50 50
Es ist also P (T ) = 1 − P (T ).
Er kauft African-Star-Trüffeln oder andere Schokolade (alle Flächen bis auf 7):
Wir suchen P (T ∪ S). Intuitiv möchte man sagen: P (T ∪ S) = P (T ) + P (S). |T | + |S|
ergibt 40 + 20 = 60. Das sind aber mehr als 50! Wir haben nämlich übersehen, dass
ja sowohl T als auch S jeweils die Zahl der Kunden enthalten, die T und S zugleich
gekauft haben. Bei der bloßen Addition würden wir diese Schnittmenge doppelt zählen.
Also subtrahieren wir diesen Betrag und erhalten
P (T ∪ S) = P (T ) + P (S) − P (T ∩ S).
Hier ist die direkte Berechnung der Wahrscheinlichkeit analog zu oben ziemlich um-
ständlich. Wir können uns die Sache sehr vereinfachen mit der sogenannten De Mor-
gan’schen Regel, die hier lautet:
15 35
P (T ∪ S) = P (T ∩ S) = 1 − P (T ∩ S) = 1 − = = 0,7.
50 50
Eine lehrreiche Übung wäre, die Wahrscheinlichkeiten der Flächen in der Grafik auszu-
rechnen. Die Gesamtsumme muss eins sein.
Seit Jahren wurde schon seitens der gemeinnützigen Einrichtung das Verhalten von Paa-
ren in der Paartherapie erfasst, sodass verlässliche Daten über die Zahl der Beratungster-
mine eines Paares vorliegen. Die Erkenntnisse wurden in einer Wahrscheinlichkeitstabelle
(Tabelle 2.1) zusammengefasst. In der oberen Zeile sind die Ergebnisse ω angegeben.
Darunter die dazugehörigen Wahrscheinlichkeiten. Ganz rechts wurden die Ergebnisse zu
einer Gruppe „mehr als 5“ zusammengefasst, weil diese hohen Zahlen nur noch selten
vorkommen und nicht mehr einzeln analysiert werden sollen.
Tab. 2.1: Wahrscheinlichkeitstabelle der Zahl der Termine, die Klienten wahrnehmen.
0,35
0,3
Wahrscheinlichkeit
0,25
0,2
0,15
0,1
0,05
0
0 1 2 3 4 5 mehr
als 5
Zahl der wahrgenommen Termine
Wir wollen zuerst die Wahrscheinlichkeit für die obigen Ereignisse berechnen.
Ereignis A: Höchstens ein Termin bedeutet kein Termin oder ein Termin (Abbildung 2.6).
Da die beiden betroffenen Elementarereignisse disjunkt sind, ist die gesuchte Wahrschein-
lichkeit einfach die Summe der beiden Einzelwahrscheinlichkeiten, also
Abb. 2.6: A: höchstens ein Termin. Abb. 2.7: B: höchstens vier Termine.
0,3
0,2
0,1
0
0 1 2 3 4 5 6…
Abb. 2.8: C: mindestens zwei Termine. Abb. 2.9: D: mehr als zwei bis höchstens
fünf Termine.
B: Das Ereignis enthält alle Elemente von Ω ohne die Menge B, entspricht also der
Menge {5, mehr als 5}. Die Wahrscheinlichkeit ist 0,1 + 0,05 = 0,15.
C: Das Ereignis entspricht der Menge {0, 1}. Die Wahrscheinlichkeit ist 0,05 + 0,2 =
0,25.
F = B ∩ C: F = {2, 3, 4}; P (F ) = 0,3 + 0,2 + 0,1 = 0,6.
G = A ∩ B: G = {0, 1}; P (G) = P (A) = 0,25.
H = A ∩ C: H = ∅; P (H) = 0.
I = A ∩ E: I = {0}; P (I) = 0,05.
J = B ∪ D: J = {0, 1, 2, 3, 4, 5}; P (J) = 0,05 + 0,2 + 0,3 + 0,2 + 0,1 + 0,1 = 0,95.
Schneller geht es so: ; P (J) = 1 − 0,05 = 0,95.
K = A ∪ B: K = {0, 1, 2, 3, 4} = B; P (K) = 0,85.
L = B ∪ C: B ∪ C = Ω; P (Ω) = 1.
M = B ∪ D : P (B ∪ D) = 0, 95. Damit ist P (M ) = 0,05.
2.2 Gemeinsame Wahrscheinlichkeiten 65
Diese Art Tabelle mit absoluten oder relativen Häufigkeiten wird Kontingenztabelle
genannt. Wir wollen nun die Abhängigkeitsstruktur in diesen Daten etwas näher unter-
suchen.
66 2 Wahrscheinlichkeitstheorie
Wir gehen vom Zufallsvorgang aus: Eine Person wird zufällig ausgewählt. Wir definieren
die Ereignisse:
M: Eine zufällig ausgewählte Person ist männlich.
S: Eine zufällig ausgewählte Person hat einen Schulabschluss.
Es ist dann das Ereignis, eine weibliche Person zu erhalten, gleich M und das Ereignis,
eine Person ohne Schulabschluss zu erhalten, S.
Wie können wir die Wahrscheinlichkeiten ermitteln? Da jede Person mit der gleichen
Wahrscheinlichkeit gezogen werden kann, können wir das Symmetrieprinzip (Seite 58)
anwenden.
Wir wollen nun die Wahrscheinlichkeit angeben, dass eine zufällig ausgewählte Person
männlich ist. Wir haben insgesamt 23 000 Schüler und Schülerinnen, davon sind 11 270
männlich. Wir erhalten
|M | 11 270
P (M ) = = = 0,49.
|Ω| 23 000
Es ist also die Wahrscheinlichkeit, einen männlichen Schüler zu erhalten, 0,49. Etwas
anschaulicher könnten wir sagen: 49 % aller Schüler waren männlich. Das Ereignis, eine
Schülerin zu erhalten, wäre dann M mit der Wahrscheinlichkeit
|M | 11 730
P (M ) = = = 0,51
|Ω| 23 000
oder auch
P (M ) = 1 − P (M ).
und
Wir überlegen nun, mit welcher Wahrscheinlichkeit wir einen Mann oder eine Frau mit
Schulabschluss erhalten, was gleichbedeutend mit der Wahrscheinlichkeit ist, dass eine
Person einen Schulabschluss hat. Mit Symbolen geschrieben suchen wir
P ((S ∩ M ) ∪ (S ∩ M )) = P (S).
Wir erkennen sofort, dass die beiden Schnittmengen disjunkt sind, denn es kann (im
Allgemeinen) keine Person Mann und Frau zugleich sein. Abbildung 2.10 zeigt uns, wie
es geht. Also erhalten wir
M M
S MÇS MÇS
0,91 0,44 0,47
S MÇS MÇS
0,09 0,06 0,03
Gegeben sind ein Ereignis A und ein Ereignis B, beide eine Teilmenge von Ω. Das
Ereignis B schneidet A oder A. Da A und A disjunkt sind, ist
Dieser Satz wird uns bei der weiteren Betrachtung der gemeinsamen Wahrscheinlichkeiten
gute Dienste leisten. In den obigen Kontingenztabellen haben wir diesen Satz schon
angewandt.
Als Erweiterung der obigen Erkenntnisse wollen wir nun eine etwas komplexere Konstel-
lation betrachten.
GG BB RR LL
0,32
0,32 0,24
0,24 0,32
0,32 0,12
0,12
KÇL
0,03
K KÇG KÇ B KÇ R 0,03
0,67
0,24 0,12
0,12 0,28
0,24
0,28
KÇB K0,09
ÇL
0,12 0,09
K KÇG 0,12
0,33
0,33 0,08
0,08 K0,04
ÇR 0,04
Mit welcher Wahrscheinlichkeit traf sie auf ein braunes Regal und hat den Kaffee XY
gekauft?
Mit welcher Wahrscheinlichkeit hat sie anderen Kaffee gekauft?
Wir wollen nun die Wahrscheinlichkeit ermitteln, dass Lieschen Müller Kaffee XY gekauft
hat. Wir sehen anhand von Abbildung 2.11, dass die Ereignisse G bis L die Ergebnismenge
zerlegen, das heißt, sie sind disjunkt und füllen die Ergebnismenge aus. Sie sind eine
sogenannte Partition von Ω. Das Ereignis K muss also zwangsläufig mindestens eines
der obigen vier Ereignisse schneiden. Und analog zu oben in Formel 2.9 (Seite 68) gilt
auch hier wieder nach dem Satz der totalen Wahrscheinlichkeit
Also haben 67 % Prozent der Kunden Kaffee XY gekauft. Ebenso haben 33 % anderen
Kaffee gekauft (K).
Wir erhalten nun den Satz der totalen Wahrscheinlichkeit für m viele Ereignisse Ai .
m
P (B) = P (A1 ∩ B) + P (A2 ∩ B) + · · · + P (Am ∩ B) = P (Ai ∩ B). (2.10)
i=1
Die Wahrscheinlichkeit, dass sie mit einem braunen Regal zu tun hatte und Kaffee XY
kaufte, ist 0,1.
Die Wahrscheinlichkeit, dass sie, ohne Betrachtung eines Regals, anderen Kaffee kaufte,
ist 1 − P (K) = 0,33.
70 2 Wahrscheinlichkeitstheorie
Wir stellen nun die Wahrscheinlichkeiten in der Kontingenztabelle 2.4 zusammen und
ergänzen die fehlenden Werte.
G B R L Summe
K 0,24 0,12 0,28 0,03 0,67
K 0,08 0,12 0,04 0,09 0,33
Summe 0,32 0,24 0,32 0,12 1
M: Der Patient erhielt ein Medika- M: Der Patient erhielt ein Placebo.
ment.
S: Der Patient verspürte Schwin- S: Der Patient verspürte keine
delgefühle. Schwindelgefühle.
2.3 Bedingte Wahrscheinlichkeiten 71
Die Wahrscheinlichkeiten sind in Tabelle 2.6 aufgeführt. Wir sehen, dass immerhin 30 %
der Teilnehmer Schwindelgefühle hatten.
M M Summe
S 0,2 0,1 0,3
S 0,4 0,3 0,7
Summe 0,6 0,4 1
Nun analysieren wir weiter: Könnte das Auftreten von Schwindelgefühlen unabhängig
von der Tablettengabe sein? Oder begünstigt eine der beiden Gaben das Auftreten?
Insgesamt hatten 30 Personen das Medikament erhalten. Zehn Personen wurde schwind-
lig. Es wurde also einem Drittel oder ca. 33 % der Medikamentempfänger schwindlig.
Die Wahrscheinlichkeit, jetzt eine Versuchsperson mit Schwindelgefühl zu erhalten, ist
demnach 0,33. Wenn 33 % schwindlig wurde, dann wurde natürlich 67 % der Medika-
mentempfänger nicht schwindlig.
Wir haben soeben eine bedingte Wahrscheinlichkeit ermittelt, nämlich die Wahrschein-
lichkeit, dass wir eine Person mit Schwindelgefühl erhalten, unter der Bedingung, dass
sie ein Medikament erhalten hatte. Wir bezeichnen die bedingte Wahrscheinlichkeit mit
P (S|M ).
die Wahrscheinlichkeit, dass eine Person Schwindelgefühle bekam, wenn man weiß, dass
sie Medikamentempfänger ist,
die Wahrscheinlichkeit, dass ein Medikamentempfänger Schwindelgefühle hat,
der Anteil der Personen mit Schwindelgefühl an den Medikamentempfängern usw.
Nun können wir nicht immer Personen oder sonstige Objekte in einen Raum sperren.
Wir brauchen also eine Formel für die bedingte Wahrscheinlichkeit. Wir nehmen uns
Beispiel 2.6 und die Kontingenztabelle 2.5 noch einmal vor. Wir suchen den Anteil der
72 2 Wahrscheinlichkeitstheorie
Wir können auch die Wahrscheinlichkeitstabelle 2.6 verwenden. Da alle Werte lediglich
durch 50 geteilt wurden, bleiben die Verhältnisse zueinander erhalten. Analog zu oben
ergibt sich
P (S ∩ M ) 0,2 1
P (S|M ) = = = ≈ 0,33.
P (M ) 0,6 3
Bedingte Wahrscheinlichkeit
P (A ∩ B)
P (A|B) = , (2.11)
P (B)
Wie sieht es mit den Placeboempfängern aus? 20 Leute hatten Placebos erhalten, fünf
davon wurde schwindlig. Also beträgt der Anteil der Leute mit Schwindel an den Place-
boempfängern ein Viertel oder 25 %.
In Tabelle 2.7 sind die bedingten Wahrscheinlichkeiten noch einmal aufgeführt. Der Un-
terschied zur gemeinsamen Wahrscheinlichkeit ist, dass sich bei letzterer alle gemeinsa-
men Wahrscheinlichkeiten zu eins addieren. Die bedingten Wahrscheinlichkeiten bilden
zwei eigenständige „Universen“. Hier addieren sich die Wahrscheinlichkeiten unter Bedin-
gung M zu eins und die Wahrscheinlichkeiten der Placeboempfänger M ebenfalls. Denn
wir betrachten hier die Anteile von S an M usw.
Bedingung: M Bedingung: M
S 0,33 S 0,25
S 0,67 S 0,75
Summe 1 Summe 1
höher als bei den Placeboempfängern. Man kann vermuten, dass das Medikament
tatsächlich Schwindel auslöst.
Wir können auch eine andere Richtung der Analyse einschlagen. Die Ärztin Gülhan beauf-
sichtigt die Versuchsreihen zu dem Kopfschmerzmedikament. Ein Patient des aktuellen
Versuchs kommt in ihre Sprechstunde und klagt über heftige Übelkeit mit Schwindel.
Mit welcher Wahrscheinlichkeit hatte der Patient ein Placebo bekommen?
Welche Wahrscheinlichkeit ist gesucht? Wir wissen, dass dem Patienten schwindlig ist.
Und wir fragen uns: Wie groß ist der Anteil der Placeboempfänger an den Personen mit
Schwindelgefühl? Wir suchen also die Wahrscheinlichkeit, dass eine Person ein Placebo
erhalten hat, unter der Bedingung, dass sie Schwindelgefühle verspürt: P (M |S). Wir
erhalten nach Formel 2.11
P (M ∩ S) 0,1 1
P (M |S) = = = .
P (S) 0,3 3
Ein Drittel der Personen mit Schwindelgefühlen war Placeboempfänger. Entsprechend
waren dann zwei Drittel der Personen mit Schwindelgefühlen Medikamentempfänger.
Die bedingte Wahrscheinlichkeit ist häufig bei Studierenden unbeliebt mit der Begrün-
dung „Ich weiß nie, ob die gemeinsame oder die bedingte Wahrscheinlichkeit verlangt
ist“ oder „Ich weiß nie, was die Wahrscheinlichkeit und was die Bedingung ist“, was
synonym ist zu „Ich weiß nie, was links vom Strich und was rechts davon stehen muss“.
Dabei ist es kinderleicht, wenn man sich folgende (sehr schlampig formulierte) Beziehung
vergegenwärtigt:
Wir wissen, dass 49 % der Schulabgänger männlich sind. Für einen direkten Vergleich der
Geschlechter wäre der Anteil der Schulabbrecher an den Jungen oder Mädchen informativ.
Nehmen wir uns zuerst die Jungen vor. Wie bekommen wir den Anteil heraus? Sehen wir
uns Tabelle 2.2 an: Die Gesamtzahl der Jungen beträgt 11 270. Es gab 1380 Schulabbre-
74 2 Wahrscheinlichkeitstheorie
cher. Also ist der Anteil der männlichen Schulabbrecher an allen Jungen 1380/11 270 =
0,1224. Es gab hier also ca. 12 % Schulabbrecher.
Entsprechend waren es bei den Mädchen 690/11 730 = 0,0588, also nur ca. 6 %. Und nun
können wir sagen, dass die Abbrecherquote bei den Jungen etwa doppelt so hoch ist wie
bei den Mädchen. Wir erinnern uns, dass Anteile auch als Wahrscheinlichkeit interpretiert
werden können. 0,1224 von oben ist die bedingte Wahrscheinlichkeit P (S|M ), nämlich,
dass eine Person Schulabbrecher ist, unter der Bedingung, dass sie ein Junge ist.
Und auch hier können wir wieder statt der absoluten Werte die Wahrscheinlichkeiten
verwenden:
P (S ∩ M ) 0,06
P (S|M ) = = = 0,1224.
P (M ) 0,49
Die Patientin Nina hat einen Termin bei Professor Heike Fröhlich. Sie würde sich
freuen, es mit einer Frau zu tun zu haben. Mit welcher Wahrscheinlichkeit kann sie es
erwarten?
Nun fassen wir die gegebenen Wahrscheinlichkeiten in Tabelle 2.8 zusammen. Halten wir
fest, dass es sich bei den Einträgen der Tabelle nicht um gemeinsame Wahrscheinlichkei-
ten, sondern um bedingte Wahrscheinlichkeiten handelt.
F F
2/3 1/3
L|F 0,04 = 1/25 0,22 = 11/50 L|F
L|F 0,96 = 24/25 0,78 = 39/50 L|F
Summe 1 1
Wir wollen nun auf die Frage der Patientin Nina eingehen. Welche Wahrscheinlichkeit ist
gesucht?
Sie hat es bei Professor Fröhlich offensichtlich mit einem Psychologen in leitender Stellung
zu tun. Mit welcher Wahrscheinlichkeit handelt es sich dabei um eine Frau? Oder: Wie
groß ist der Anteil der Frauen an Psychologen in leitender Stellung? Also ist P (F |L)
gesucht. Die Formel dafür ist
P (L ∩ F )
P (F |L) = .
P (L)
Es sind allerdings weder P (L∩F ) noch P (L) bekannt. Können wir das herausbekommen?
Nehmen wir uns zuerst P (L ∩ F ) vor: Diese Wahrscheinlichkeit kommt nicht nur in
P (F |L), sondern auch in P (L|F ) vor:
P (L ∩ F )
P (L|F ) = .
P (F )
1 P (L ∩ F )
= ,
25 2/3
P (L ∩ F ) = P (L|F ) · P (F ).
76 2 Wahrscheinlichkeitstheorie
Nun folgt die Wahrscheinlichkeit P (L). Wir erinnern uns an den Satz der totalen Wahr-
scheinlichkeit in Gleichung 2.9 (Seite 68). Das wäre also hier
P (L) = P (L ∩ F ) + P (L ∩ F ).
Wir haben oben errechnet, dass P (L∩F ) = P (L|F )·P (F ) ist, ebenso ist dann P (L∩F ) =
P (L|F ) · P (F ). Wir haben nun alles ermittelt und berechnen
P (L ∩ F ) P (L|F ) · P (F )
P (L|F ) = =
P (F ) P (L|F ) · P (F ) + P (L|F ) · P (F )
1 2 2 2 4
· 4
= 25 3 = 75 = 75 = 150 = ≈ 0,2667.
1 2 11 1 2 11 15 15 15
· + · +
25 3 50 3 75 150 150 150
Die obige Erkenntnis bezeichnen wir als Bayes’sches Theorem.
Bayes’sches Theorem
Gegeben sind zwei Ereignisse A und B mit P (B) = 0. Es gilt dann das Bayes’sche
Theorem
P (A ∩ B) P (B|A) · P (A)
P (A|B) = = . (2.13)
P (B) P (B|A) · P (A) + P (B|A) · P (A)
Die grafische Umsetzung des Bayes’schen Theorems kennen viele schon aus der Schul-
zeit. Wir können hier einen sogenannten Wahrscheinlichkeitsbaum anlegen, dargestellt in
Abbildung 2.12. Ganz links sind die einfachen Wahrscheinlichkeiten, eine Frau oder ein
Mann zu sein. „Frau“ lässt sich aufteilen in 1/25 Frauen in leitender Stellung und 24/25
Frauen in nichtleitender Stellung. Das sind also L|F und L|F . Entsprechend können
wir auch den Ast F deuten. Wir können nun die gemeinsame Wahrscheinlichkeit schnell
ermitteln, indem wir einen Pfad von rechts nach links laufen und dabei multiplizieren,
beispielsweise
1 2
P (L ∩ F ) = P (L|F ) · P (F ) = · .
25 3
2.3 Bedingte Wahrscheinlichkeiten 77
L 1/25
F 2/3
L 24/25
L 11/50
F 1/3
L 39/50
Das Bayes’sche Theorem lässt sich auch auf mehr als zwei Ereignisse A und A anwenden.
Wir erinnern uns an Beispiel 2.5 mit den verschiedenfarbigen Kaffeeregalen. Hier wurde
die Ergebnismenge mit den Ereignissen der Farbe eines Regals zerlegt. Wir sehen uns
nun ein weiteres Beispiel an.
Da Manfred die Kunden nach eigenem Gutdünken klassifiziert, kann kein Kunde zwei
Gruppen angehören. Gruppen wie Väter oder Kinder fallen betriebswirtschaftlich für
Manfred nicht ins Gewicht und werden vernachlässigt.
Küche. Der Koch grummelt: „Wieder so ne alte Schachtel, die ja nur abends Zeit zum
Essen hat . . . “ Mit welcher Wahrscheinlichkeit hat tatsächlich ein Senior das Essen
bestellt? Welcher Gruppe gehört der Besteller am ehesten an?
Lösung:
1. Wir haben zunächst die Aufteilung nach Gruppen. Es sind P (B) = 0,2, P (M ) = 0,5
und P (S) = 0,3.
Der Anteil der Personen, die warme Gerichte bestellen, an den Berufstätigen ist 0,7,
also ist P (W |B) = 0,7. Dann bestellen 30 % der Berufstätigen kein warmes Gericht:
P (W |B) = 0,3.
Entsprechend sind P (W |M ) = 0,1 und P (W |M ) = 0,9; P (W |S) = 0,3 und P (W |S) =
0,7.
2. Diese Wahrscheinlichkeit ist nicht unmittelbar gegeben und muss erst ermittelt wer-
den. Wir gehen analog zu Beispiel 2.8 mit den Psychologie-Absolventen vor. Nach
dem Satz der totalen Wahrscheinlichkeit (Formel 2.10) gilt
P (W ) = P (W ∩ B) + P (W ∩ M ) + P (W ∩ S).
in Zahlen ausgedrückt
P (W ) = 0,7 · 0,2 + 0,1 · 0,5 + 0,3 · 0,3 = 0,14 + 0,05 + 0,09 = 0,28.
und
0,7 · 0,2 14
P (B|W ) = = = 0,5.
0,28 28
Am häufigsten bestellen also die Berufstätigen warme Gerichte, sodass wohl der Be-
steller am ehesten dieser Berufsgruppe angehört.
P (Ai |B) =
P (Ai ∩ B) · P (Ai )
P (A1 ∩ B) · P (A1 ) + P (A2 ∩ B) · P (A2 ) + . . . + P (Am ∩ B) · P (Am )
(2.14)
P (Ai ∩ B) · P (Ai )
= .
m
P (Aj ∩ B) · P (Aj )
j=1
Wir haben uns ausführlich mit Ereignissen befasst, die voneinander abhängig sind. Es war
beispielsweise das Auftreten von Schwindel abhängig von der Einteilung der Versuchs-
person. Und es war auch die Quote der Schulabbrecher abhängig vom Geschlecht. Es sind
aber auch Ereignisse vorstellbar, deren Zustandekommen nicht von anderen Ereignissen
abhängt. Beispiele wären etwa
eine Fünf zu würfeln, wenn vorher eine Sechs gewürfelt worden ist,
die Farbe einer bevorzugten Zahnpasta und der Wohnort,
die Marke des gefahrenen Autos und die Zahl von Erkältungen pro Jahr.
80 2 Wahrscheinlichkeitstheorie
Beispiel 2.10 Kann ein Fahrrad von den Tupfen einer Krawatte abhängen?
Der Student Harry fährt regelmäßig an die Uni. An 50 % der Tage benützt er sein
Fahrrad, an den restlichen 50 % das Auto. An 60 % der Tage trägt er eine getupfte
Krawatte, an den anderen 40 % eine gestreifte.
An 60 % von 50 % aller Tage kommt er also mit dem Rad und hat eine getupfte Krawatte
an. 60 % von 50 % ist 0,6 · 0,5 = 0,3. Wir erhalten dann
P (T ∩ F ) = 0,6 · 0,5 = 0,3 und entsprechend
P (T ∩ F ) = 0,6 · 0,5 = 0,3,
P (T ∩ F ) = 0,4 · 0,5 = 0,2,
P (T ∩ F ) = 0,4 · 0,5 = 0,2
und Tabelle 2.9 der gemeinsamen Wahrscheinlichkeiten.
Streifen T T ∩F T ∩F
0,4 · 0,5 = 0,2 0,4 · 0,5 = 0,2 0,4
Summe 0,5 0,5
Stochastische Unabhängigkeit
Gegeben sind zwei Ereignisse A und B, (A, B ⊂ Ω): Genau dann, wenn A und B
stochastisch unabhängig sind, ist
Es kann vorkommen, dass beispielsweise die Ereignisse paarweise unabhängig, aber insge-
samt abhängig sind. Es kann auch vorkommen, dass sie in ihrer Gesamtheit stochastisch
unabhängig, aber paarweise abhängig sind. Mehr als zwei Ereignisse können im Allge-
meinen nur dann als stochastisch unabhängig angesehen werden, wenn für alle möglichen
Teilmengen dieser Ereignisse die gemeinsame Wahrscheinlichkeit gleich dem Produkt der
Einzelwahrscheinlichkeiten ist, also für alle Paare, alle Tripel usw.
besteht. Erfreulicherweise gibt es aber Konstellationen, bei denen die Analyse der paar-
weisen Unabhängigkeiten ausreicht. Häufig ist die gemeinsame Wahrscheinlichkeit von
Ereignissen nicht bekannt und kann auch nicht ohne Weiteres ermittelt werden. Die
Welt ist nicht immer perfekt.
Tab. 2.10: Anteile von Zuschauern bei volkstümlicher Musik und populärwissenschaftlichen
Sendungen.
Wir wollen untersuchen, ob die Präferenzen für Volksmusik und die Häufigkeit des Schau-
ens von populärwissenschaftlichen Sendungen abhängig sind. Wir beginnen mit den Er-
eignissen V und G. Bei Unabhängigkeit müsste P (V ∩ G) = P (V ) · P (G) sein. Wir
haben
V und G sind stochastisch unabhängig! Dann sind, wie wir dem Kasten auf Seite 81
entnehmen, beispielsweise auch V und G stochastisch unabhängig. Ebenso gilt, wie wir
schnell nachprüfen, P (V ∩ H) = P (V ) · P (H), P (V ∩ R) = P (V ) · P (R) usw.
In Abschnitt 2.2 hatten wir uns eingehend mit Wahrscheinlichkeiten von zwei Ereignis-
sen befasst, die gleichzeitig auftreten. Was passiert aber, wenn mehr als zwei Ereignisse
auftreten, was, wenn sie gleichzeitig oder nacheinander passieren? In diesem Abschnitt
werden wir auch die ungeliebte Kombinatorik kennenlernen, die für die klinische For-
schung unerlässlich ist.
Beispielsweise werden für einen klinischen Versuch je sechs Versuchspersonen vier Grup-
pen zufällig zugeordnet. Dann werden diesen Gruppen vier verschiedene Behandlungen
zufällig zugeordnet. Von Interesse könnte die Wahrscheinlichkeit sein, dass Person mit
der Nummer zwölf die Behandlungsmethode drei erhält. In der Regel fragen wir nach den
gemeinsamen Wahrscheinlichkeiten für die Ergebnisse der verschiedenen Zufallsvorgänge.
Anwendungen sind etwa
Helga möchte Betriebspsychologin werden und hat ein Studium der Psychologie auf-
genommen. Über den Dozenten Cebel hat sie Schreckliches gehört und hofft, nicht
in seinen Kurs zu kommen. Mit welcher Wahrscheinlichkeit kommt sie in den drei
Semestern jedes Mal zu Cebel?
Wir würden dann das Ereignis, dass Helga beim ersten Mal zu Abel kommt, beim zweiten
Mal zu Bebel und beim dritten Mal zu Cebel, bezeichnen als A(1) ∩ B (2) ∩ C (3) .
Die in Klammern hochgestellte Zahl gibt den Zeitpunkt des Ereignisses an. Wenn keine
Missverständnisse entstehen können, lassen wir sie weg.
Wie können wir nun P (C (1) ∩ C (2) ∩ C (3) ) ermitteln? Wir nennen dieses aus drei Elemen-
tarereignissen kombinierte Ereignis W und werden zunächst einmal die Ergebnismenge
für die drei Versuche ermitteln. Für die einzelnen Ergebnisse eines Versuchs verwenden
wir eine Kurzschreibweise, um das Ganze übersichtlich zu halten. Die einzelnen Dozenten
werden in der Reihenfolge der Semester als Tripel aufgeführt. So bedeutet etwa ABC,
dass Helga im ersten Semester Abel, im zweiten Bebel und im dritten Cebel bekommt.
Mit welcher Wahrscheinlichkeit würde Helga nur im ersten Semester Cebel bekommen?
Zutreffende Ergebnisse sind hier CAA, CAB, CBA, CBB. Das sind insgesamt 4 von 27
Ergebnissen, und es ist dann
(2) 4 (3)
P (C (1) ∩ C ∩C = 0,1481.
)=
27
Mit welcher Wahrscheinlichkeit würde Helga mindestens zweimal Cebel bekommen? Wir
nennen dieses Ereignis M . Zutreffende Ergebnisse sind hier ACC, BCC, CAC, CBC,
CCA, CCB, CCC. Das sind insgesamt 7 von 27, und es ist dann
|M | 7
P (M ) = = = 0,2593.
|Ω| 27
Das Zusammenstellen aller kombinierten Ergebnisse in einer gemeinsamen Ergebnismen-
ge Ω hat sich hier als hilfreich, wenn auch etwas mühselig herausgestellt. Gibt es mögli-
cherweise ein einfachere Methode, die Wahrscheinlichkeiten zu ermitteln? Offensichtlich
sind die Zuweisungen der einzelnen Dozenten zu einer Vorlesung stochastisch unabhängig,
denn es wird an jedem Semesteranfang neu zugewiesen. Dann müsste doch beispielsweise
sein. Wie groß ist nun die Wahrscheinlichkeit, jedes Mal C zu erhalten? Wir haben drei
Dozenten. Die Wahrscheinlichkeit, für einen Kurs Cebel zu bekommen, ist P (C) ist 1/3.
Es ist also
1 1 1 1
P (W ) = P (C (1) ∩ C (2) ∩ C (3) ) = · · = ,
3 3 3 27
und das stimmt mit unserem oberen Ergebnis zusammen. Ebenso wäre beispielsweise
1 1 1 1
P (A(1) ∩ B (2) ∩ C (3) ) =
· · = .
3 3 3 27
Können wir auch die Wahrscheinlichkeiten für die beiden anderen Ereignisse, „nur im
ersten Semester C“ oder „mindestens zweimal C“ mithilfe stochastischer Unabhängigkeit
ermitteln?
Mit welcher Wahrscheinlichkeit würde Helga nur im ersten Semester Cebel bekommen?
Es ist
(2) (3) 1 2 2 4
P (C (1) ∩ C ∩ C ) = · · = .
3 3 3 27
Mit welcher Wahrscheinlichkeit würde Helga mindestens zweimal Cebel bekommen? Hier
müssen wir etwas nachdenken: Mindestens zweimal Cebel umfasst die Ereignisse CCC,
CCC, CCC und CCC. Wir erhalten die Wahrscheinlichkeit als Summe
1 1 1 1 1 2 1 2 1 2 1 1
P (CCC) + P (CCC) + P (CCC) + P (CCC) = · · + · · +· · · + · ·
3 3 3 3 3 3 3 3 3 3 3 3
1 1 1 2 1 2 7
= +3· · · = +3· = .
27 3 3 3 27 27 27
2.5 Mehrfache Zufallsvorgänge 85
Wenn wir die beiden ebenfalls in die Ergebnismenge mit aufnehmen, erhalten wir
5 · 5 · 5 = 125 Fünfertupel. Dies einzeln hinzuschreiben ist schon sehr aufwendig. Die
Wahrscheinlichkeit für Helga, in einem Kurs Cebel zu bekommen, ist nun 1/5. Und die
Wahrscheinlichkeit, nur den Kollegen Cebel zu bekommen, wäre jetzt
3
1 1
P (CCC) = = = 0,008.
5 125
Wie groß ist die Wahrscheinlichkeit, mindestens einmal Cebel zu bekommen? Das Ge-
genereignis ist, keinmal Cebel zu bekommen. Es ist
(1) (2) (3) 4 4 4 64
P (C (1) ∪ C (2) ∪ C (3) ) = 1 − P (C ∩C ∩C ) = 1− · · = 1− = 0,488.
5 5 5 125
Beispiel 2.12 mit dem gefürchteten Dozenten Cebel war schön einfach, vor allem hatte
die stochastische Unabhängigkeit die Arbeit immens erleichtert. Leider wollen die Ereig-
nisse nicht immer so, wie wir uns das vorstellen, und wir haben ja bereits gelernt, dass
Ereignisse im Allgemeinen als abhängig anzusehen sind.
Wir fragen uns, mit welcher Wahrscheinlichkeit erst Herbert und dann Olga gewählt
werden, in Kurzform: P (HO)?
Das zweite Ereignis ist vom ersten nicht mehr unabhängig, denn mit einer gezogenen
Person ändert sich der Inhalt der Gruppe.
Wie sieht die Ergebnismenge aus? Wir haben als mögliche Ergebnisse, in Kurzschreib-
weise,
Eine Person kann nicht zweimal ausgewählt werden. Jedes Ergebnis hat die gleiche Wahr-
scheinlichkeit, gewählt zu werden. Bei sechs verschiedenen Ergebnissen erhalten wir die
Wahrscheinlichkeit
1
P (HO) = .
6
Mit welcher Wahrscheinlichkeit erhalten wir zwei Frauen? Das betrifft die Ergebnisse OL
und LO. Die Wahrscheinlichkeit ist folglich 2/6 = 1/3.
Mit welcher Wahrscheinlichkeit erhalten wir erst eine Frau, dann einen Mann? Wir nen-
nen das die Wahrscheinlichkeit P (F (1) ∩ M (2) ). Das betrifft die Ergebnisse OH und LH,
und die Wahrscheinlichkeit ist
2 1
P (F (1) ∩ M (2) ) = = .
6 3
Wir konnten oben die Ergebnismenge einfach angeben und daraus die Wahrscheinlichkei-
ten ermitteln. Was aber, wenn wir es mit zehn oder gar 100 Personen zu tun haben? Dar-
aus Zweiergruppen zu bilden, ist zwar möglich, aber nur selten zielführend. Angenehm
wäre es, wenn wir analog zur stochastischen Unabhängigkeit die Wahrscheinlichkeiten
multiplikativ ermitteln könnten. Das geht in vielen Fällen tatsächlich, und wir erweitern
dazu Beispiel 2.14 mit dem klinischen Versuch.
Es ist nun eine Gruppe mit zehn Personen gegeben, davon vier Frauen. Es sollen zwei
Personen nacheinander ausgewählt werden. Mit welcher Wahrscheinlichkeit erhalten wir
zwei Frauen?
Wir definieren:
F: Eine Frau wird ausgewählt.
M (bzw. F ): Ein Mann wird ausgewählt.
Wir suchen die Wahrscheinlichkeit P (F (1) ∩F (2) ) und überlegen: Die Wahrscheinlichkeit,
dass beim ersten Mal F resultiert, ist natürlich 4/10. Beim zweiten Versuch vermindert
sich diese Wahrscheinlichkeit aber, denn es sind zwar noch sechs Männer, aber nur noch
drei Frauen übrig, also insgesamt neun Personen. Die Wahrscheinlichkeit ist jetzt 3/9
statt 4/10.
Wir wollen uns das Problem mithilfe des Wahrscheinlichkeitsbaumes in Abbildung 2.13
veranschaulichen. Wir erinnern uns, dass wir anhand des Wahrscheinlichkeitsbaumes in
Abbildung 2.12 gemeinsame Wahrscheinlichkeiten bestimmen konnten, indem wir den be-
treffenden Pfad des Baumes entlanggingen und die Wahrscheinlichkeiten multiplizierten.
Wir gehen von links nach rechts und erhalten
4 3 12 2
P (F (1) ∩ F (2) ) = · = = .
10 9 90 15
Zusammen mit der Formel schreiben wir das hin als
4 3
P (F (1) ∩ F (2) ) = P (F (1) ) · P (F (2) |F (1) ) = · ,
10 9
2.5 Mehrfache Zufallsvorgänge 87
F 3/9
F 4/10
M 6/9
F 4/9
M 6/10
M 5/9
1. Versuch 2. Versuch
Abb. 2.13: Wahrscheinlichkeitsbaum bei zweimaliger Auswahl von sechs Männern und vier
Frauen.
also als Wahrscheinlichkeit, dass beim ersten Mal Frau resultiert, mal der Wahrschein-
lichkeit, dass beim zweiten Mal Frau resultiert, wenn beim ersten Mal Frau aufgetreten
ist. Entsprechend ist
4 6
P (F (1) ∩ M (2) ) = P (F (1) ) · P (M (2) |F (1) ) = · ,
10 9
6 4
P (M (1) ∩ F (2) ) = P (M (1) ) · P (F (2) |M (1) ) = · ,
10 9
6 5
P (M (1) ∩ M (2) ) = P (M (1) ) · P (M (2) |M (1) ) = · .
10 9
Wir erweitern das Beispiel ein weiteres Mal: Es soll nun dreimal hintereinander eine
Person gezogen werden. Mit welcher Wahrscheinlichkeit erhalten wir dreimal eine Frau?
Wir können hier wieder Überlegungen wie oben machen:
Die Wahrscheinlichkeit, beim ersten Mal eine Frau zu erhalten, ist 4/10. Es sind nun noch
neun Personen vorhanden, davon drei Frauen. Die Wahrscheinlichkeit, beim zweiten Mal
eine Frau zu erhalten, wenn schon beim ersten Mal eine resultierte, ist 3/9. Es sind nun
noch acht Personen übrig, davon zwei Frauen. Die Wahrscheinlichkeit, noch einmal eine
Frau zu erhalten, ist 2/8.
Wir erhalten nun, indem wir von links nach rechts multiplizieren,
4 3 2 24 1
P (F F F ) = · · = = .
10 9 8 720 30
Und es ergäbe beispielsweise
4 6 5 120 1
P (F M M ) = · · = = .
10 9 8 720 6
Wir können also anstatt der Ergebnismenge den Multiplikationssatz der Wahrscheinlich-
keiten in Formel 2.12 verwenden, der auch für mehr als zwei Ereignisse gilt.
88 2 Wahrscheinlichkeitstheorie
F 2/8
F 3/9
M 6/8
F 3/8
F 4/10
M 6/9
M 5/8
F 3/8
F 4/9
M 6/10
M 5/8
F 4/8
M 5/9
M 4/8
1. Versuch 2. Versuch 3. Versuch
Abb. 2.14: Wahrscheinlichkeitsbaum bei dreimaliger Auswahl von sechs Männern und vier
Frauen.
2.5.3 Urnenmodelle
Bevor wir den Gang zu den Urnen beginnen, benötigen wir für kombinatorische Überle-
gungen ein paar kleine mathematische Vorkenntnisse, die allerdings nicht über die vier
Grundrechenarten hinausgehen.
Fakultät
Wir definieren das Produkt
n! = 1 · 2 · 3 · . . . · n (2.16)
und bezeichnen es als Fakultät von n. Dabei soll n eine natürliche Zahl inklusive der Null
sein. Man hat als sinnvoll festgelegt: 0! = 1.
Binomialkoeffizient
n
Der Ausdruck m ist ein Binomialkoeffizient und wird als „n über m“ bezeichnet. Er
berechnet sich als
n n!
= . (2.17)
m m!(n − m)!
2.5 Mehrfache Zufallsvorgänge 89
Dabei sind m und n Elemente der natürlichen Zahlen inklusive der Null, außerdem ist
n ≥ m. Es gelten die Rechenregeln
n n n n
= 1, = 1, = n, = n.
0 n 1 n−1
Urnenmodell mit Zurücklegen: Es wird n-mal eine Kugel gezogen und wieder zurück-
gelegt. Das Zurücklegen mutet den Laien sinnlos an. Es hat aber durchaus Sinn, denn
es simuliert stochastisch unabhängige Ereignisse. Beispielsweise können wir uns statt ei-
nes Würfels auch eine Urne mit sechs durchnummerierten Kugeln vorstellen. Wenn wir
dreimal hintereinander würfeln wollen, können wir stattdessen auch dreimal eine Kugel
ziehen und wieder in die Urne zurücklegen.
Urnenmodell ohne Zurücklegen: Es wird n-mal eine Kugel gezogen und nicht zurück-
gelegt. Damit simulieren wir stochastisch abhängige Ereignisse. Das obige Beispiel mit
den vier Frauen und sechs Männern wäre eine Anwendung.
In vielen Fällen können wir mit Erkenntnissen der Kombinatorik die Zahl der Ergebnis-
se eines wiederholten Versuchs angeben und dann mithilfe des Symmetrieprinzips eine
Wahrscheinlichkeit ermitteln.
Wir betrachten eine Urne mit N Kugeln. Es werden n viele Kugeln zufällig ausgewählt.
Als Grundmodelle legen wir fest:
1. Die Entnahme erfolgt mit Zurücklegen. Die Reihenfolge der Kugeln ist wichtig.
2. Die Entnahme erfolgt mit Zurücklegen. Die Reihenfolge der Kugeln ist unwichtig.
3. Die Entnahme erfolgt ohne Zurücklegen. Die Reihenfolge der Kugeln ist wichtig.
4. Die Entnahme erfolgt ohne Zurücklegen. Die Reihenfolge der Kugeln ist unwichtig.
1. Bei einem Modell mit Zurücklegen und unter Berücksichtigung der Reihenfolge der
Kugeln gibt es
Der Binomialkoeffitient m wurde zusammen mit der Fakultät n! bereits oben auf
Seite 88 kurz erklärt. Für Beispiel 2.15 erhalten wir folgende Ergebnisse:
AAA AAB AAC AAD ABB ABC ABD ACB ACC ACD ADD
BBB BBC BBD BCC BCD BDD
CCC CCD CDD
DDD
Das sind
4+3−1 6 6! 6! 1·2·3·4·5·6 720
= = = = = = 20 viele.
3 3 3!(6 − 3)! 3!3! 1·2·3·1·2·3 36
3. Bei einem Modell ohne Zurücklegen und mit Berücksichtigung der Reihenfolge der
Kugeln gibt es
N!
viele verschiedene Ergebnisse.
(N − n)!
4! 4!
Das sind = = 1 · 2 · 3 · 4 = 24 viele.
(4 − 3)! 1
Spezialfall eines Urnenmodells mit mehreren gleichen Kugeln: Wir haben eine Urne
mit zwei Sorten Kugeln vor uns. Die Zahl der Kugeln in der Urne ist unerheblich. Es
werden n Kugeln entnommen. Wie viele Möglichkeiten gibt es, bei n Entnahmen genau
m Kugeln erster Sorte und damit r = n − m Kugeln zweiter Sorte zu erhalten? Es sind
n n!
= viele verschiedene.
p m!(n − m)!
Da die Zahl der Kugeln in der Urne unbekannt ist, können wir von einem Modell mit
Zurücklegen ausgehen.
92 2 Wahrscheinlichkeitstheorie
Hierzu ein Beispiel: An einer Gruppentherapie nehmen zwei Männer und drei Frauen
teil. Der Gesprächsleiter macht sich vorab Gedanken, ob er die Sitzordnung der Patienten
vom Geschlecht abhängig machen soll. Wie viele verschiedene Möglichkeiten gibt es, zwei
Männer und drei Frauen anzuordnen? Definieren wir die Zahl der Frauen als m. Dann
erhalten wir
5 5! 5!
= = = 10 verschiedene Möglichkeiten.
3 3!(5 − 3)! 3!2!
In einem Versuch werden einem zweijährigen Kind sechs Gegenstände vorgelegt. Von
Interesse ist, welche drei Gegenstände von dem Kind genommen werden und in welcher
Reihenfolge. Mit welcher Wahrscheinlichkeit ergreift ein Kind zuerst den Teddy, dann
einen Ball und schließlich ein Holzauto? Wir haben als Modell eine Urne mit sechs
Kugeln. Es werden drei ohne Zurücklegen gezogen, die Reihenfolge der Kugeln ist von
Interesse. Wie viele Ergebnisse haben wir?
N! 6!
= = 456 = 120 Ergebnisse.
(N − n)! (6 − 3)!
Bei zufälliger Entnahme beträgt die Wahrscheinlichkeit für obige Konstellation 1/20.
Mit welcher Wahrscheinlichkeit sucht ein Kind insgesamt die drei obigen Gegenstände
aus – ohne Berücksichtigung der Reihenfolge? Hier gibt es bei zufälliger Auswahl
N 6!
= = 45 = 20 viele Ergebnisse.
n 3!3!
Die Wahrscheinlichkeit beträgt also 0,05. Der Test wurde insgesamt mit 100 Kindern
durchgeführt. Es stellte sich aber heraus, dass 25 % der Kinder drei Gegenstände er-
griffen. Es kann offensichtlich davon ausgegangen werden, dass hier keine Zufälligkeit
der Auswahl mehr vorliegt und dass die Kinder eindeutig eine Präferenz für diese
Gegenstände hatten.
3 Zufallsvariablen
Zufallsvariablen sind ein Spezialfall bestimmter Ereignisse, nämlich Ereignisse, die reelle
Zahlen als Ergebnis haben. Zufallsvariablen ermöglichen uns, für das Auftreten dieser
Ereignisse Durchschnittswerte und andere Kennzahlen zu errechnen. So können wir nicht
sagen, dass bei einmaligem Münzwurf im Durchschnitt „Kopf komma 5“ auftritt , aber
wenn wir einmal würfeln, können wir die Tatsache festhalten, dass hier die mittlere
Augenzahl 3,5 beträgt. Weitere Beispiele für Zufallsvariablen sind etwa die Kinderzahl
eines Paares oder die Lebensdauer von elektronischen Geräten.
Wir nennen die Werte, die eine Zufallsvariable annehmen kann, die Ausprägung. Die Aus-
prägungen zusammen mit ihren Wahrscheinlichkeiten beschreiben die sogenannte Ver-
teilung von X. Analog zur metrisch skalierten Variablen in der deskriptiven Statistik
(Seite 11) teilt man die Zufallsvariable in zwei Arten ein, die diskrete Zufallsvariable und
die stetige Zufallsvariable.
Zufallsvariable
Gegeben ist eine Variable X, die jeden Wert x der reellen Zahlen annehmen darf.
Ist dieser Wert das Ergebnis eines Zufallsvorgangs, wird X als Zufallsvariable be-
zeichnet. Die Werte x, die X annehmen kann, sind die Ausprägungen.
Die Aufträge werden den Studierenden zufällig zugeteilt, je nachdem, wer gerade im
Büro der Agentur vorbeischaut. Markus kommt zur Tür rein. Wir fragen: Mit welcher
Wahrscheinlichkeit verdient Markus 20 e? Mit welcher Wahrscheinlichkeit verdient er
10 e? Wie viel nimmt Markus pro Auftrag im Durchschnitt ein?
Die erste Frage ist schnell beantwortet: Es gibt nur eine Möglichkeit, 20 e zu verdienen,
nämlich, wenn Markus Fenster putzt. Also nimmt Markus mit einer Wahrscheinlichkeit
von 30 % 20 e ein. Wie sieht es mit 10 e aus? Hier gibt es zwei Möglichkeiten, nämlich
Rasenmähen und Wagenwaschen mit den Wahrscheinlichkeiten 0,3 und 0,1, insgesamt
also 0,4. Für die Beantwortung der dritten Frage müssen wir uns mit den Eigenschaften
einer Zufallsvariablen befassen.
Welche Beträge kann Markus einnehmen, bzw. welche Werte kann X annehmen? Es
sind 5, 10, 20 und 40. Mit welcher Wahrscheinlichkeit nimmt X den Wert 20 an? Das ist
wieder 0,3. Wir nennen X eine Zufallsvariable und konstruieren nun eine Wahrschein-
lichkeitstabelle für X (Tabelle 3.1).
Ausprägung x1 x2 x3 x4
xi 5 10 20 40
f (xi ) 0,2 0,4 0,3 0,1
Einkaufen Rasenmähen Fensterputzen Umzug
Fegen Wagenwaschen
0,1 + 0,1 0,3 + 0,1
Eine Zufallsvariable wird großbuchstabig bezeichnet. Die Ausprägung als Wert, den eine
Zufallsvariable annehmen kann, wird kleinbuchstabig notiert. Hier ist sie durchnumme-
riert: x1 = 5, x2 = 10, x3 = 20 und x4 = 40. Sie ist daher diskret. Die zu einer Ausprägung
3.1 Diskrete Zufallsvariablen 95
0,4
Wahrscheinlichkeit f(x)
0,3
0,2
0,1
0
0 5 10 15 20 25 30 35 40 45
Einnahme x
Diskrete Zufallsvariable
Gegeben ist ein Zufallsvorgang mit einer abzählbaren Ergebnismenge ω (siehe Seite
55). Jedem Ergebnis wird eine reelle Zahl xi (i = 1, 2, . . .) zugeordnet. Die Wahr-
scheinlichkeit des Ergebnisses ist f (x). Die Wahrscheinlichkeitsfunktion lautet
f (xi ) für x = xi ,
P (X = x) = f (x) = (3.1)
0 sonst.
P (b < X ≤ a) = P (X ≤ a) − P (X ≤ b),
Betrachten wir noch einmal P (X ≤ 10) = 0,6. Wir wollen das bezeichnen als
F (10) = 0,6. 0,6 ist der Wert der Verteilungsfunktion F von X an der Stelle 10.
Die Funktion F (x) ist eine Summe von f (xi )-Werten, deshalb bekommt sie ein großes F .
Welchen Sinn hat die Einführung von F ? Sie erleichtert uns beispielsweise das Hantieren
von Verteilungswerten in Formeln.
Es ist also analog zu den bereits oben berechneten Beispielen: F (12) = 0,6, F (2) = 0,
F (20) = 0,9, F (40) = 1, F (200) = 1 usw.
0,4 0,4
0,3 0,3
0,2 0,2
0,1 0,1
0 0
0 10 20 30 40 0 10 15 20 30 40
0,4 0,4
0,3 0,3
0,2 0,2
0,1 0,1
0 0
0 10 20 30 40 0 10 12 20 30 40
Abb. 3.4: P (X ≥ 20). Abb. 3.5: P (X ≥ 12).
0,4
0,3
0,2
0,1
0
0 10 20 30 40
1. Das haben wir beispielsweise bei P (X ≤ 15) = 0,6 oder F (200) = 1 gesehen. Es kann
für jeden Wert von x eine Wahrscheinlichkeit P (X ≤ x) angegeben werden.
2. F ist eine Wahrscheinlichkeit und kann deswegen nur in diesem Bereich liegen.
3. Bei steigendem x kann F nicht fallen, sonst müsste es negative Wahrscheinlichkeiten
geben.
4. Wir können von rechts beliebig nah an einen Wert x herangehen. Nähern wir uns von
rechts dem Wert 10 an: P (X ≤ 9) = 0,2, P (X ≤ 9,9) = 0,2, P (X ≤ 9,99999) = 0,2
usw. Aber es ist P (X ≤ 10) = 0,6. F hat also linksseitig Sprungstellen.
5. Das haben wir bereits in Beispiel 3.1 gesehen.
98 3 Zufallsvariablen
n
Bemerkung: Im oberen Kasten wird statt i=1 f (xi ) lediglich i f (xi ) angegeben. Die
Kurznotation wird häufig verwendet, wenn klar ist, dass über alle möglichen xi summiert
wird. Oft hat man gar keine Variable für eine Obergrenze – hier n – definiert, etwa wenn
die Anzahl der xi unendlich groß ist.
3.1 Diskrete Zufallsvariablen 99
Michael ist zurzeit Kassenwart und verwaltet die Einsätze. Um wenigstens ein bisschen
produktiv zu sein, möchte er die Wahrscheinlichkeit berechnen, dass er in einer Runde die
vollen Vier macht. Wir helfen. Zuerst überlegen wir, welche Ergebnisse der Zufallsvorgang
„viermal Würfeln“ hervorbringt. Das sind:
Tab. 3.2: Wahrscheinlichkeitstabelle von X: Anzahl von Kopf bei viermaligem Münzwurf.
xi 0 1 2 3 4
P (X = xi ) = f (xi ) 1/16 4/16 6/16 4/16 1/16
P (X ≤ xi ) = F (xi ) 1/16 5/16 11/16 15/16 16/16 = 1
6/16
Wahrscheinlichkeit f(x)
5/16
4/16
3/16
2/16
1/16
0
-1 0 1 2 3 4 5
Einnahme bei Münzwurfspiel x
mindestens 2 e einnimmt,
höchstens 3 e einnimmt,
P (X ≤ 3) = F (3) = 15/16,
mindestens 1 e einnimmt,
P (X ≥ 1) = 1 − P (X ≤ 0) = 1 − 1/16 = 15/16,
Das Modell der Zufallsvariablen ermöglicht uns, reelle Zahlen als Kennwerte der Vertei-
lung zu errechnen. Wir nennen sie Verteilungsparameter. Die wichtigsten Parameter sind
Erwartungswert, Median und Varianz. Wir werden im Folgenden Erwartungswert und
Varianz näher beleuchten.
3.1.1 Lageparameter
Wir hatten uns in Beispiel 3.1 für die durchschnittliche Einnahme von Markus pro Auf-
trag interessiert. Die Wahrscheinlichkeitstabelle von X war
3.1 Diskrete Zufallsvariablen 101
xi 5 10 20 40
f (xi ) 0,2 0,4 0,3 0,1
Man könnte für die Ermittlung des Durchschnitts einfach die Werte aufsummieren und
durch 4 teilen, also (5 + 10 + 20 + 40)/4. Allerdings würden wir hier weit am Durch-
schnittswert vorbeizielen, denn 10 kommt immerhin viermal so häufig vor wie 40. Also
müssen wir die Ausprägungen noch mit den Wahrscheinlichkeiten gewichten und erhalten
den Durchschnitt, der bei einer Zufallsvariablen Erwartungswert genannt wird, als
Markus nimmt also auf lange Sicht pro Aufrag im Mittel 15 e ein.
Der Wert, den alle möglichen (unendlich viele) Realisationen der Zufallsvariablen
X im Durchschnitt annehmen, ist der Erwartungswert. Er berechnet sich bei einer
diskreten Zufallsvariablen als
E(X) = x1 · f (x1 ) + x2 · f (x2 ) + ... = xi · f (xi ). (3.4)
i
Die durchschnittlichen Einnahmen aus dem Münzwurf in Beispiel 3.2 ergeben sich als
1 4 6 4 1 1
E(X) = 0 · +1· +2· +3· +4· = · (0 + 4 + 12 + 12 + 4) = 2.
16 16 16 16 16 16
Um von einem echten Gewinn zu sprechen, müsste noch ein Einsatz dazukommen, der
bei jeder Runde bezahlt werden muss. Um aber das Einführungsbeispiel nicht unnötig
zu verkomplizieren, wurde diese Ergänzung weggelassen.
3.1.2 Varianz
Der Erwartungswert als Lageparameter gibt uns die Größenordnung der Realisationen
an. Jedoch ist auch die Schwankungsbreite der Realisationen informativ.
Nehmen wir uns zuerst die Bügelleistung von Alma vor. Wir nennen die Zahl der Blusen,
die sie in einer Woche schafft, die Zufallsvariable X. Die Wahrscheinlichkeiten für X sind
uns in der Wahrscheinlichkeitstabelle 3.3 vorgegeben.
Wie viele Teile schafft Alma durchschnittlich pro Woche? Das verrät uns der Erwartungs-
wert
Sie schafft also im Durchschnitt pro Woche fünf Blusen. Entsprechend ist die Bügelleis-
tung von Zelda gegeben durch die Zufallsvariable Y in Tabelle 3.4
Auch Zelda schafft im Durchschnitt fünf Blusen pro Woche. Beide Büglerinnen haben
die gleiche Durchschnittsleistung. Wenn Paula sich für eine der beiden entscheiden sollte
– welche sollte sie wählen? Ein Blick auf die einzelnen Zahlen enthüllt, dass die Zahlen
der Blusen bei Zelda stärker schwanken als bei Alma. Almas Zahlen liegen zwischen drei
und acht, Zeldas dagegen zwischen null und zwölf.
Für den Vergleich werden wir einen Kennwert für die Streubreite der Daten, einen Streu-
ungsparameter, verwenden – die Varianz. Wir hatten schon in der deskriptiven Statistik
(Seite 42) eine nahe Verwandte kennengelernt, die Stichprobenvarianz. Hier dagegen be-
rechnen wir die Varianz einer Zufallsvariablen X. Wir nennen sie Varianz der Grundge-
samtheit und bezeichnen sie als V (X).
Wir wollen die Berechnung der Varianz schrittweise vorführen. Ausgehend von den
Ausprägungen xi ermitteln wir die Abstände der Einzelwerte vom Durchschnitt, also
xi − E(X).
Damit große Abweichungen stärker zu Buche schlagen als kleine, werden die Abstände
quadriert.
2
(xi − E(X))2 : (3 − 5) = 4; (4 − 5)2 = 1; (5 − 5)2 = 0;
(6 − 5)2 = 1; (8 − 5)2 = 9.
Da wieder manche Ausprägungen häufiger realisiert werden als andere, gewichten wir die
Quadrate mit der entsprechenden Häufigkeit f (xi ).
Fertig ist die Varianz. Allerdings hat auch sie wieder, wie ihr Äquivalent in der deskripti-
ven Statistik, eine quadratische Einheit, hier Zahl der Blusen zum Quadrat. Die Wurzel
√
aus der Varianz ergibt die Standardabweichung der Grundgesamtheit 1,8 ≈ 1,3416 mit
der Einheit Zahl der Blusen. Mit etwas mathematischer Großzügigkeit könnten wir sagen,
dass die durchschnittliche Abweichung der Blusenzahl vom Mittelwert ca. 1,34 beträgt,
oder „Meistens werden pro Woche 5 ± 1,34 Blusen gebügelt“.
Nun nehmen wir uns die Werte von Zelda vor. Da wir schon wissen, wie man eine Varianz
berechnet, führen wir das hier in Tabelle 3.5 vor.
Wir sehen, dass die Varianz V (Y ) von Zelda fast das Zehnfache der Varianz V (X) von
Alma beträgt. Die größeren Ausschläge der Bügelleistung von Zelda wurden also berück-
√
sichtigt. Die Standardabweichung ist nun 15,4 ≈ 3,9243. Übersetzen wir das analog
zu oben, hieße das: „In den meisten Wochen schafft Zelda ungefähr 5 ± 4 Blusen.“ Wir
kommen zum Vergleich von Alma und Zelda zurück. Für eine gleichmäßige Versorgung
der Garderobe von Paula wäre Alma wohl die bessere Wahl, denn Zelda liefert häufig zu
wenige Blusen, da hilft es auch nichts, dass sie dann wieder mehr bügelt.
104 3 Zufallsvariablen
Bei Anwendung des Verschiebungssatzes wird die Varianz berechnet mithilfe von
2
2 2 2 2
V (X) = x1 ·f (x1 )+x2 ·f (x2 )+. . .−(E(X)) = xi · f (xi ) −[E(X)] . (3.6)
i
In Beispiel 3.3 hatten wir schöne runde Erwartungswerte und das händische Berechnen
fiel uns leicht. Was aber, wenn wir so einen richtig fiesen Erwartungswert haben?
Als Erwartungswert erhalten wir hier 1,57, was gerne zur Übung nachgerechnet werden
darf. Mit diesem Wert die Ausdrücke (xi − E(X))2 · f (xi ) von Hand auszurechnen, ist
mühsam. Wie in der deskriptiven Statistik (Seite 45) kann man allerdings auch hier den
Verschiebungssatz (Formel 3.6) anwenden, der ein mathematisches Gesetz ist und daher
für viele „artverwandte“ Aufgabenstellungen brauchbar.
Was wir in diesem Abschnitt gelernt haben, ist im Wesentlichen alles, was man über
diskrete Zufallsvariablen wissen muss.
Wir gehen hier von einem Urnenmodell ohne Zurücklegen aus: In der Urne befinden sich
N viele Kugeln zweier Sorten. Wissenschaftlich korrekt nennt man zwei Sorten Kugeln
in der Urne übrigens dichotome Grundgesamtheit. Es sind M viele Kugeln erster Sorte in
der Urne und entsprechend N − M viele Kugeln zweiter Sorte. Es werden n viele Kugeln
ohne Zurücklegen aus der Urne gezogen. Wir definieren die Zufallsvariable X: Zahl der
Kugeln erster Sorte unter den n gezogenen Kugeln.
Beispiele für die Anwendung der hypergeometrischen Verteilung sind die Wahrscheinlich-
keiten,
aus einem Behälter mit 100 Losen, davon zehn Gewinnlosen, drei Gewinnlose zu ziehen,
bei einer Qualitätskontrolle aus einer Lieferung von 100 großen Dosen Tunfisch, bei
denen 10 % zu wenig gefüllt sind, fünf korrekt befüllte Dosen zu ziehen,
aus einer Gruppe von 50 Personen, von denen 25 eine Vorliebe für frisch Gekochtes
haben, für einen Geschmackstest unter zehn zufällig ausgewählten Personen drei ohne
diese Vorliebe zu erhalten.
Die Wahrscheinlichkeitsfunktion für X: Zahl der gezogenen Kugeln erster Sorte lau-
tet
⎧
⎪
⎪ M N −M
⎪
⎪
⎪
⎨ x n− x für x = 0, 1, . . . , n,
f (x) = h(x|n; M ; N ) = N (3.7)
⎪
⎪
⎪
⎪ n
⎪
⎩0 sonst.
Dabei ist
Da die hypergeometrische Verteilung prominent ist, bekommt sie statt f (x) eine eige-
ne Bezeichnung h. Die Werte n, M und N werden Parameter der hypergeometrischen
Verteilung genannt. Sie sind ihre Kennwerte und genügen als Information, um die Wahr-
scheinlichkeiten zu berechnen. Die Verteilungsfunktion H ist wieder wie oben die Summe
der betroffenen Wahrscheinlichkeiten. Analog zu f und F wird auch hier die Verteilungs-
funktion mit großem H notiert.
Für die Stelle haben sich elf Psychologen beworben. Davon bringen allerdings nur
sechs die geforderte soziale Kompetenz mit – eine Tatsache, die nur uns, aber nicht
GlobalPlay bekannt ist. Es werden schließlich vier Psychologen eingestellt.
Wir fragen uns: Mit welcher Wahrscheinlichkeit erhält GlobalPlay zwei Personen, die zu
wenig soziale Kompetenz zeigen, also für die Stelle ungeeignet sind?
3.2 Diskrete Verteilungen 107
Wir wollen uns zunächst überlegen, was an Informationen gegeben ist. Wir haben es
mit Bewerbern zu tun, die für den Job geeignet oder nicht geeignet sind. Wir könnten
also von einem Urnenmodell mit zwei Sorten Kugeln ausgehen. Da wir jede ausgewählte
Person nur einmal in der Auswahl haben möchten, handelt es sich hierbei um ein Mo-
dell ohne Zurücklegen. Wir nennen die Zahl der Personen, die ungeeignet sind, Kugeln
erster Sorte und definieren X: Zahl der ungeeigneten Personen unter den vier zufällig
ausgewählten.
Welche Werte haben die Modellparameter? Es liegen N = 11 Kugeln in der Urne, davon
M = 5 Kugeln erster Sorte. n = 4 Kugeln werden ohne Zurücklegen gezogen. Das ist ein
Zufallsvorgang, den wir auch als Stichprobe bezeichnen könnten.
Zurück zu unserer Frage: Mit welcher Wahrscheinlichkeit stellt GlobalPlay zwei unge-
eignete Personen ein? Unter Zuhilfenahme des Binomialkoeffizienten (Seite 88) und der
Formel 3.7 erhalten wir
5 6 5! 6!
2 2 · 30
P (X = 2) = h(2|n = 4; M = 5; N = 11) = = 2!3! 2!4! = ≈ 0,4545.
11 11! 66
4 4!7!
Es würden also in ca. 50 % aller Stichproben zwei ungeeignete Personen die Stelle erhal-
ten.
Wir wollen zuerst einmal eine komplette Wahrscheinlichkeitsfunktion für X erstellen. Sie
ist in Tabelle 3.7 zusammengefasst.
Mit welcher Wahrscheinlichkeit sind alle vier geeignet? Das ist äquivalent zur Wahr-
scheinlichkeit, dass keine Person ungeeignet ist, also
3
P (X = 0) = h(0|4; 5; 7) = ,
66
wie wir der Wahrscheinlichkeitstabelle 3.7 entnehmen.
Mit welcher Wahrscheinlichkeit sind höchstens zwei Personen ungeeignet? Die hyper-
geometrische Verteilung ist diskret, wir werden also hier wieder die Säulen addieren:
3 20 30 53
P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) = + + = ≈ 0,8030.
66 66 66 66
Mit welcher Wahrscheinlichkeit sind mindestens drei Personen ungeeignet? Es ist
12 1 13
P (X ≥ 3) = P (X = 3) + P (X = 4) = + = ≈ 0,1970.
66 66 66
108 3 Zufallsvariablen
x h(x|n;M;N)
56 5! 6! 1·2·3·4·5 1·2·3·4·5·6 5·6
0 0!5! · 4!2! 1·1·2·3·4·5 · 1·2·3·4·1·2
0 114 = 11!
= 1·2·3·4·5·6·7·8·9·10·11 = 2
8·9·10·11 = 1
22 = 3
66
4 4!7! 1·2·3·4·1·2·3·4·5·6·7 2·3·4
Mit welcher Wahrscheinlichkeit sind mindestens drei Personen geeignet? Das entspricht
der Wahrscheinlichkeit, dass höchstens eine Person ungeeignet ist, also
3 20 23
P (X ≤ 1) = P (X = 0) + P (X = 1) = + = ≈ 0,3485.
66 66 66
Die händische Berechnung der Wahrscheinlichkeiten ist zwar nicht schwierig, aber bei
wachsenden Fakultäten (Seite 88) können die Zwischenwerte sehr groß werden. Das kann
bei einfach strukturierten Taschenrechnern zu einem Überlauf des Rechenwerks führen.
Es gibt aber mittlerweile genügend hochwertige Software, die die hypergeometrischen
Wahrscheinlichkeiten korrekt berechnet. Wir werden außerdem weiter unten sehen, dass
man unter Umständen auch die Normalverteilung dazu verwenden kann.
Es bleiben noch die beiden Kennwerte der Verteilung: Erwartungswert und Varianz. Wir
können sie mit einer Formel ermitteln.
3.2 Diskrete Verteilungen 109
N −n
Der Quotient in der Varianz sorgt dafür, dass die Varianz mit fortschreitender
N −1
Entnahme einer Kugel immer kleiner wird. Er wird Korrekturfaktor genannt.
3.2.2 Binomialverteilung
Wir gehen jetzt von einem Urnenmodell mit Zurücklegen aus: In der Urne befinden sich
N viele Kugeln zweier Sorten. Es sind M viele Kugeln erster Sorte in der Urne. Ihr Anteil
an allen Kugeln beträgt
M
θ=
N
(θ ausgesprochen als „klein-theta“ oder kurz „teta“). Es werden n viele Kugeln mit
Zurücklegen aus der Urne gezogen. Wir definieren die Zufallsvariable X: Zahl der Kugeln
erster Sorte unter den n gezogenen Kugeln. X ist binomialverteilt.
Wir erinnern uns, dass das Modell mit Zurücklegen eine Folge unabhängiger Ereignisse
nachbildet (Seite 89). Beispiele für die Anwendung der Binomialverteilung sind,
Die Wahrscheinlichkeitsfunktion für X: Zahl der gezogenen Kugeln erster Sorte lau-
tet
⎧
⎪
⎨ n · θx · (1 − θ)n−x für x = 0,1, . . . n,
f (x) = b(x|n; θ) = x (3.10)
⎪
⎩0 sonst.
Dabei ist
θ Anteil der Kugeln erster Sorte in der Urne,
n die Zahl der mit Zurücklegen gezogenen Kugeln,
x die Zahl der Kugeln erster Sorte unter den n gezogenen.
Die Wahrscheinlichkeit der Binomialverteilung wird mit b bezeichnet. Die Parameter der
Binomialverteilung sind n und θ. Sie genügen als Information, um die Wahrscheinlich-
keiten zu berechnen. Wir sehen, dass N und M nicht explizit benötigt werden, sodass
die Zahl der Kugeln in der Urne nicht bekannt sein muss.
E(X) = n · θ (3.11)
V (X) = n · θ · (1 − θ) . (3.12)
Die Verteilungsfunktion B ist wieder wie oben die Summe der betroffenen Wahrschein-
lichkeiten. Analog zu f und F wird auch hier die Verteilungsfunktion mit großem B
notiert.
Wie ist X verteilt? Es liegt eine Stichprobenentnahme vor, was auf ein Urnenmodell
hindeutet. Die Grundgesamtheit ist dichotom: Wir teilen die Fahrzeuge in Lastwagen –
kein Lastwagen ein. Um welches Modell handelt es sich? Die Gesamtzahl der Fahrzeuge
ist nicht bekannt, zudem ist es möglich, dass ein Fahrzeug mehrmals erfasst wird. Also
gehen wir am besten von einem Modell mit Zurücklegen aus.
Ein Modell mit Zurücklegen bei dichotomer Grundgesamtheit bedeutet: X ist binomial-
verteilt, hier mit den Parametern n = 10 und θ = 0,2.
Mit welcher Wahrscheinlichkeit sind bei den zehn Fahrzeugen vier Lastwagen enthal-
ten? Gesucht ist hier P (X = 4). Wir berechnen also
10 10!
P (X = 4) = b(4|10; 0,2) = · 0,24 · 0,86 = · 0,24 · 0,86
4 4!(10 − 4)!
1 · 2 · 3 · 4 · 5 · 6 · 7 · 8 · 9 · 10
= · 0,0016 · 0,2621
1·2·3·4·1·2·3·4·5·6
7 · 8 · 9 · 10
= · 0,0016 · 0,2621 = 210 · 0,0016 · 0,2621 = 0,0881.
2·3·4
Mit welcher Wahrscheinlichkeit sind höchstens zwei LKWs dabei? Das ist
Es ist P (X = 0) = 0,1074, wie wir von oben wissen. Wir berechnen noch
10
P (X = 1) = · 0,21 · 0,89 = 10 · 0,2 · 0,1342 = 0,2684
1
und
10
P (X = 2) = · 0,22 · 0,88 = 45 · 0,22 · 0,88 = 45 · 0,04 · 0,1678 = 0,3020.
2
Es ist also
Mit welcher Wahrscheinlichkeit sind mindestens drei LKWs in der Stichprobe? Das
können wir als
P (X ≥ 3) = 1 − P (X ≤ 2) = 1 − 0,6778 = 0,3222
berechnen.
112 3 Zufallsvariablen
3.2.3 Poisson-Verteilung
Die Poisson-Verteilung als weitere diskrete Verteilung hat nichts mit Urnenmodellen zu
tun. Hier zählt die Zufallsvariable X die Zahl von Ereignissen innerhalb einer Einheit.
So kann X etwa die Zahl von alkoholisierten Jugendlichen sein, die an einem Samstag in
eine Klinik eingeliefert werden, oder die Zahl von Verkehrsunfällen, die innerhalb eines
Jahres auf einer Kreuzung passieren. Prominent ist das Hufschlagbeispiel. Hier wurde im
19. Jahrhundert in zehn Kavallerieregimentern des kaiserlich-preußischen Heeres über 20
Jahre hinweg die Zahl der durch Hufschlag getöteten Soldaten erfasst. Diese Zahlen sind
in der Tat näherungsweise Poisson-verteilt mit einem Erwartungswert von ca. 0,6 pro
Jahr und Regiment.
Der Erwartungswert der Poisson-Verteilung ist λ und auch ihre Varianz ist λ.
Als Besonderheit ist λ Erwartungwert und Varianz zugleich. Trotz der etwas einschüch-
ternden Wahrscheinlichkeitsfunktion ist die Poisson-Verteilung eine diskrete Verteilung
wie jede andere auch. Die Fakultät im Nenner kennen wir von Seite 88. e = 2, 718281 . . .,
Euler’sche Zahl genannt, ist nur eine Konstante und will auch so behandelt werden.
Wegen ihrer Bedeutung bekommt die Poisson-Verteilung statt f (x) eine eigene Bezeich-
nung p. Die Verteilungsfunktion P ist die Summe der betroffenen Wahrscheinlichkeiten.
Da für die Ausprägung von X keine sinnvolle Obergrenze angegeben werden kann, lässt
man aus pragmatischen Gründen die Obergrenze offen. Die Wahrscheinlichkeiten kon-
vergieren mit wachsendem x gegen Null, wie auch Abbildung 3.9 zeigt. Insgesamt ist die
Summe aller Wahrscheinlichkeiten aber eins.
Die Poisson-Verteilung wird gedächtnislos genannt, weil ein Ereignis x in einer Einheit
nicht von einem Ereignis in einer anderen Einheit abhängt.
Passanten überredet, sich in die Unterschriftenliste eines Vereins einzutragen, der sich
der Erhaltung der geschlechtlichen Abstinenz vor der Ehe verschrieben hat. Es stellt
sich heraus, dass die Zahl der Passanten, die in einer Stunde unterschrieben haben,
Poisson-verteilt ist mit dem Durchschnitt 5. Der Parameter ist also λ = 5. Die Wahr-
scheinlichkeiten p(x|5) sind in Abbildung 3.9 dargestellt.
e−5 · 5x
p(x|5) = .
x!
Wir wollen wieder einige ausgewähle Fragen beantworten.
P (X ≥ 4) = 1 − P (X ≤ 3) = 1 − (P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3)).
Die Summe
n
Y = X1 + X2 + . . . + Xn = Xi
i=1
n
λy = λi .
i=1
Y = X1 + X2 + X3 + X4 + X5 + X6 .
Die Poisson-Verteilung ist reproduktiv, und Y ist nun Poisson-verteilt mit λ = 30. Es ist
also
e−30 · 3040
P (Y = 40) = p(40|30) = .
40!
3.3 Stetige Zufallsvariablen 115
An dieser Stelle hören wir mit dem Rechnen auf, denn bei 40! geht mancher Taschen-
rechner in die Knie. Es sei verraten, dass das Ergebnis 0,0139 beträgt. In solchen Fällen
können wir die Wahrscheinlichkeiten der Poisson-Verteilung mithilfe der Normalvertei-
lung näherungsweise ermitteln.
Stetige Zufallsvariablen sind konzeptionell völlig verschieden von den diskreten, wie wir
im Folgenden erfahren werden.
Also ist die Wahrscheinlichkeit, dass der Fisch höchstens vier Tage lebt,
1
F (4) = 1 − = 0,8,
4+1
bzw. leben 80 % aller Jungfische höchstens vier Tage, was gleichbedeutend ist, dass nur
20 % der Fische die ersten vier Tage überleben.
In Abbildung 3.10 ist die Verteilungsfunktion grafisch dargestellt. Wir können an der
Stelle x = 4 den dazugehörigen Wert F (4) = 0, 8 der Verteilungsfunktion ablesen.
Wir könnten auch F (4,1) = 0,803921 oder F (4,01) = 0,800399 oder auch F (4,0001) =
0,800004 berechnen. Die Ausprägungen lassen sich also beliebig fein unterteilen, so fein,
dass sich für F (x) eben eine stetige Funktion ergibt. Deshalb wird X stetige Zufallsva-
riable genannt.
116 3 Zufallsvariablen
Abb. 3.10: Verteilungsfunktion der Überlebenszeit von Fischen.
Eine stetige Zufallsvariable unterscheidet sich stark von einer diskreten. Die Wahr-
scheinlichkeitsfunktion einer diskreten Zufallsvariablen kann mithilfe von Säulen gra-
fisch dargestellt werden. Zu jeder Säule gehört eine Ausprägung. Die Struktur der
Wahrscheinlichkeitsverteilung kann damit anschaulich verdeutlicht werden. Analog da-
zu erhalten wir bei der stetigen Zufallsvariablen die sogenannte Dichtefunktion, die
uns die Struktur der Verteilung angibt. Sie ist in Abbildung 3.11 wiedergegeben und
lautet hier
⎧
⎨ 1
für alle x ≥ 0,
f (x) = (x + 1)2
⎩
0 für x < 0.
Die Dichtefunktion ist keine Wahrscheinlichkeit. Es wird nämlich ausgehend vom Modell
der Stetigkeit angenommen, dass bei unendlich vielen Ausprägungen auch im kleinsten
Intervall ein bestimmter Wert so gut wie nie genau getroffen werden kann.
P (X = x) = 0. (3.14)
f(x)
1
0,9
0,8
0,7
0,6
P(X £ 4) = F(4)
0,5
0,4
0,3
0,2
0,1
0
0 1 2 3 4 5 6 7 8 9 10
Tage: x
Abb. 3.11: Dichtefunktion der Überlebenszeit von Fischen.
Wir können aber die Wahrscheinlichkeiten von Bereichen von X berechnen, zum Beispiel
P (X ≤ 3) oder P (X ≥ 1), auch für beliebig schmale Intervalle, zum Beispiel P (2 ≤ X ≤
3) oder P (2 ≤ X ≤ 2,01) usw.
Wir wollen nun die Wahrscheinlichkeit von X ≤ 4 betrachten: Sie ist die Fläche unter der
Dichtefunktion f (x). Dies ist gleichbedeutend mit dem Funktionswert der Verteilungs-
funktion F (x) an der Stelle x = 4. Wie erhalten wir F (4)? Wir müssen die Dichtefunktion
integrieren, also
4 4
1
F (x) = f (u)du = du. (3.16)
−∞ −∞ (u + 1)2
Wir verwenden für die Integration im Allgemeinen die Hilfsvariable u, weil in Formeln x
schon als Obergrenze der Integration verwendet wird.
Wegen der Stetigkeit der Dichtefunktion f (x) ist auch die Verteilungsfunktion F (x)
stetig.
118 3 Zufallsvariablen
Die erste Ableitung der Verteilungsfunktion F (x) ergibt wieder die Dichtefunktion
f (x). Ihre Grafik ermöglicht einen Eindruck vom Verhalten der Verteilung.
Da f (x) keine Wahrscheinlichkeit ist, können ihre Funktionswerte auch mal größer
als eins werden.
In Abbildung 3.12 ist die Dichtefunktion grafisch dargestellt. Wir sehen, dass die Dich-
tefunktion symmetrisch zur Achse in x = 15 ist.
Dichte f(x)
0,1
0,08
0,06
0,04
0,02
0
0 5 10 15 20 25 30
Minuten x
Die Studentin Marga will am Test teilnehmen. Mit welcher Wahrscheinlichkeit braucht
Marga höchstens zehn Minuten? Die gesuchte Wahrscheinlichkeit ist die Fläche unter
dem Graph der Dichtefunktion. Höchstens zehn Minuten heißt: Die Fläche von −∞ bis
3.3 Stetige Zufallsvariablen 119
10, wie in der Grafik 3.13. Da die Dichtefunktion für x < 5 ohnehin null ist, können wir
uns auf die Berechnung der Fläche zwischen 5 und 10 beschränken.
0,1
0,08
0,06
Höhe
0,04 a·b b
2
0,02
0
-10 -5 0 5 10 15 20 25 Grundlinie a
Abb. 3.13: Wahrscheinlichkeit, dass Helga höchs- Abb. 3.14: Berechnung einer Drei-
tens zehn Minuten braucht. ecksfläche.
Wir wenden das auf unser Matrizenbeispiel an: Die Basislänge a ist hier der Abstand
zwischen 5 und 10, also a = 10 − 5 = 5. Die Seitenhöhe b ist der Dichtefunktionswert
1 5
f (10), das heißt b = f (10) = · (10 − 5) = . Wir erhalten nun
100 100
1 5 25 1
F = ·5· = = = 0,125.
2 100 200 8
Marga braucht also mit einer Wahrscheinlichkeit von 0,125 höchstens 10 min, um die Tes-
taufgaben zu lösen. Man könnte auch sagen: 12,5 % der Studierenden brauchen höchstens
10 min für die Lösung der Testaufgaben.
Mit welcher Wahrscheinlichkeit braucht Marga mindestens 10 min? Gesucht ist hier
P (X ≥ 10), was P (X ≥ 10) = 1 − P (X < 10) = 1 − P (X ≤ 10) = 1 − F (10)
ergibt. Da wir es mit einer stetigen Zufallsvariablen zu tun haben, gilt bekannterweise
P (X < 10) = P (X ≤ 10) (Seite 116). Es ist also
1 7
P (X ≥ 10) = 1 − = = 0,875.
8 8
Mit welcher Wahrscheinlichkeit benötigt Marga mindestens 20 min? Anhand von Ab-
bildung 3.13 sehen wir sofort, dass diese Fläche gleich der Fläche F (10) ist, also ist
1
P (X ≥ 20) = P (X ≤ 10) = .
8
Die Symmetrieeigenschaft der Verteilung ist offenbar für unsere Berechnungen hilfreich.
120 3 Zufallsvariablen
Mit welcher Wahrscheinlichkeit benötigt Marga höchstens 15 min? Wir sehen unmit-
telbar in allen Grafiken, dass die Fläche die halbe Gesamtfläche der Dichtefunktion
darstellt, das heißt
1
P (X ≤ 15) = .
2
0,1 0,1
0,08 0,08
0,06 0,06
0,04 0,04
P(X £ 17)
0,02 P(X £ 17) 0,02 P(X £ 13) =P(X ³ 13)
0 0
5 10 15 20 25 5 10 15 20 25
Abb. 3.15: Wahrscheinlichkeit, dass Helga Abb. 3.16: Wahrscheinlichkeit, dass Helga
höchstens 17 min braucht. mindestens 13 min braucht.
Mit welcher Wahrscheinlichkeit benötigt Marga höchstens 17 min? Abbildung 3.15 ent-
nehmen wir, dass die gesuchte Wahrscheinlichkeit die gesamte linke Hälfte mit der
Wahrscheinlichkeit 1/2 und einen weiteren Teil der rechten Fläche überdeckt. Wir
könnten nun die rechte Fläche etwas umständlicher berechnen und 1/2 dazuaddieren.
Wir erkennen aber, dass P (X ≤ 17) die gleiche Fläche umfasst wie P (X ≥ 13), und
erhalten
3.3.2 Quantile
Wir beziehen uns wieder auf Beispiel 3.9. Nun verwenden wir eine neue Art der Fragestel-
lung: Gesucht sind die maximal aufgewendeten Minuten der 68 % schnellsten Studenten.
Oder: Welcher Wert x gehört zu F (x) = 0,68? Hier ist die Wahrscheinlichkeit F gegeben,
und der dazugehörige x-Wert ist gesucht, etwas locker ausgedrückt:
Unsere Überlegungen auf Seite 120 zeigen, dass der gesuchte x-Wert 17 beträgt, denn
Dieser Wert x = 17 wird 68 %-Quantil oder 0,68-Quantil genannt und schreibt sich
x(0,68). Wir haben es also mit der Umkehrfunktion von F (x) zu tun. Ebenso ist bei-
spielsweise x = 10 das (1/8)-Quantil oder auch 12,5 %-Quantil von X. Eine besondere
Stellung hat x(0,5) = 15. Dieses 50 %-Quantil ist der Median, vergleichbar mit dem
Median z in der deskriptiven Statistik (Seite 30). Er kann hier ohne Weiteres aus der
Dichtefunktionsgrafik (Abbildung 3.12) abgelesen werden.
In Beispiel 3.9 konnten wir Verteilungswerte mithilfe der Geometrie berechnen. Wie ge-
hen wir aber vor, wenn die Wahrscheinlichkeit nicht geometrisch ermittelt werden kann?
Hier können wir beispielsweise die Dichtefunktion integrieren. Es gibt allerdings auch
Dichtefunktionen, die nicht integrierbar sind. In diesem Fall werden die Verteilungswerte
numerisch ermittelt, mithilfe von Näherungen. Ebenso werden bei stetigen Zufallsva-
riablen Erwartungswert und Varianz durch Integration ermittelt. Nun wird aber der
normalsterbliche Bachelorabsolvent in seiner beruflichen Zukunft eher selten etwas inte-
grieren müssen, sodass wir hier auf die Berechnung verzichten. Näheres zu diesem Thema
kann beispielsweise bei Fahrmeir et al. (2004, Kapitel 6) nachgelesen werden.
In Beispiel 3.9 wurde die Verteilungsfunktion integriert. Wir erhalten nun den geschlos-
senen Formelausdruck
⎧
⎪
⎪ 0 für x < 5,
⎪
⎪
⎪
⎪ 1 2
⎪
⎪ · (x − 10x + 25) für 5 ≤ x ≤ 15,
⎨ 200
P (X ≤ x) = F (x) =
⎪
⎪
⎪
⎪ 1
⎪
⎪ · (50x − x2 − 425) für 15 < x ≤ 25,
⎪
⎪ 200
⎩
1 für x > 25.
122 3 Zufallsvariablen
F(x)
1
0,9
0,82
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0 5 10 15 20 25 30
19
Minuten x
Wir können F (x) in Abbildung 3.17 bewundern. So können wir beispielsweise ablesen,
dass F (19) = 0,82 beträgt usw. Der Erwartungswert ist übrigens 15, und die Varianz
beträgt 16,67, die Standardabweichung entsprechend 4,08.
Nachdem wir F (x) als Funktion vorliegen haben, wollen wir noch ein paar Übungen
damit machen.
1 64 8
= · (169 − 130 + 25) = = = 0,32.
200 200 25
Also ist
90 %-Quantil: Hier suchen wir den Wert x, der zur Wahrscheinlichkeit F = 0,9 gehört.
F = 0,90 gehört zum Intervall 15 < X ≤ 25, da F (15) schon 0,5 ist. Es gilt also
1
· (50x − x2 − 425) = 0,9.
200
Wir müssen nun diese Gleichung nach x auflösen, damit wir den zu 0,9 passenden x-
Wert erhalten. Es handelt sich im Wesentlichen um die Auflösung einer quadratischen
Gleichung, was allerdings nicht zum Themengebiet der Statistik gehört und daher nur
als Beispiel vorgerechnet wird. Wir beginnen mit
1
· (50x − x2 − 425) = 0,9.
200
Wir wollen erst die Gleichung so umformen, dass wir ganz links x2 stehen haben. Dazu
eliminieren wir zuerst den Faktor 1/200, indem wir die Gleichung mit 200 multiplizie-
ren, und nehmen die Gleichung dann mit −1 mal, um für x2 ein positives Vorzeichen
zu erhalten:
Nun müssen wir analog zu der allseits bekannten binomischen Formel (x − a)2 =
x2 −2ax+a2 für den Ausdruck x2 −2ax auf der linken Seite der Gleichung eine passende
Ergänzung a2 suchen, die auch quadratische Ergänzung genannt wird. a = 50/2 = 25
erfüllt diesen Wunsch, und wir erweitern jetzt die Gleichung links und rechts mit 252 .
Es ist also nun
bzw.
(x − 25)2 = 20.
Wir ziehen links und rechts die Wurzel und erhalten damit
√
x − 25 = ± 20,
124 3 Zufallsvariablen
√ √
was die Lösungen x1 = 25 − 20 ≈ 20,53 und x2 = 25 + 20 ≈ 29,47 ergibt.
29,47 gehört nicht ins Intervall 15 < X ≤ 25, daher ist das gesuchte 90 %-Quantil
x(0,9) = 20,53, was etwa 20 min und 32 s ausmacht. Wir können das so deuten, dass
90 % der Teilnehmer höchstens ca. 20 min und 30 s brauchten. Wir können das auch et-
was gemeiner so formulieren: Die 10 % langsamsten Teilnehmer brauchten mindestens
20 min und 30 s für die Lösung des Tests.
Bemerkung: Für die Lösung der quadratischen Gleichung können wir das Ergebnis auch
sofort mithilfe der sogenannten Mitternachtsformel errechnen, die man in jeder mathe-
matischen Formelsammlung findet. Hier wollen wir es mit dem Matrizentest gut sein
lassen und weiter vorwärts schreiten.
Eine sehr prominente stetige Verteilung, eigentlich die Königin aller Verteilungen, ist
die Normalverteilung, auch bekannt als Gauss’sche Verteilung. Ihre Bedeutung verdankt
sie mehreren theoretischen Vorzügen, von denen wir einige kennenlernen werden. Ihre
Dichtefunktion ist die wohlbekannte Glockenform.
Die Dichtefunktion ist in Abbildung 3.18 dargestellt. Wir sehen, dass die Verteilung
symmetrisch bezüglich des Erwartungswertes 20 ist. Bei den meisten Patienten beginnt
Calma zwischen 15 und 25 min zu wirken. Je weiter die Wirkgeschwindigkeit vom
Durchschnitt 20 min entfernt ist, desto weniger Patienten sind davon betroffen.
Man könnte die Normalverteilung als „natürliche Verteilung“ bezeichnen, denn viele Na-
turphänomene können damit beschrieben werden, etwa die Größe eines Blattes, das Ge-
wicht von Mäusen, die Herzschlagfrequenz von Menschen. So hängt beispielsweise das
Gewicht einer Maus von der Zusammensetzung des Futters ab, von der Umgebungswär-
me, von Stress usw., also von einer sehr großen Zahl von Faktoren. Aber wir können
nicht angeben, wie groß der Beitrag eines Faktors zum Gewicht der Maus ist. Eine An-
3.4 Normalverteilung 125
f(x)
0,07
0,06
0,05
0,04
0,03
0,02
0,01
0
0 5 10 15 20 25 30 35 40
Wirkgeschwindigkeit x
gabe „Wärme verursacht 20 % des Gewichts“ ist nicht möglich. Der gemeinsame Einfluss
aller Faktoren jedoch ergibt typischerweise eine Normalverteilung. Das ist das Ergebnis
des sogenannten zentralen Grenzwertsatzes, der in Abschnitt 3.4.3 thematisiert wird.
Die attraktive Glockenform in Abbildung 3.18 wird durch die weniger attraktive Dichte-
funktion
(x − μ)2
1 −
2
f (x) = ϕ(x|μ, σ ) = √ e 2 · σ2 (3.18)
σ· 2π
erzeugt. Aufgrund der Bedeutung der Normalverteilung bekommen die Dichte- und die
Verteilungsfunktion die Bezeichnung ϕ und Φ (gesprochen: „klein-phi“ und „groß-Phi“,
die griechischen Pendants zu f und F ).
Normalverteilung
Die Konstanten μ und σ 2 sind die Parameter einer Normalverteilung, wobei gilt:
Man sagt, X ist normalverteilt mit den Parametern μ und σ 2 , in kurzer Schreibweise
X ∼ N (μ; σ 2 ). Die Wahrscheinlichkeit P (X ≤ x) wird notiert als Φ(x|μ; σ 2 ).
Wie wir der Dichtefunktion ϕ(x|μ; σ 2 ) entnehmen können, gibt es für jeden Parameter μ
und σ 2 eine eigene Verteilungsfunktion. Die Wahrscheinlichkeit P (X ≤ x) (x ∈ R) ist wie
126 3 Zufallsvariablen
gewohnt die Fläche unter dem Graph der Dichtefunktion und kann angegeben werden
als das Integral
x
P (X ≤ x) = Φ(x|μ, σ 2 ) = f (u)du.
−∞
Allerdings kann die Dichtefunktion nicht als Funktion integriert werden. Die Werte der
Verteilungsfunktion Φ werden daher in der Praxis durch numerische Näherungsverfah-
ren ermittelt, die in verschiedenen DV-Anwendungen zur Verfügung stehen. Für den
Hausgebrauch gibt es mehr oder weniger ausführliche Tabellen mit ausgewählten Vertei-
lungswerten.
Wegen der Symmetrie ist der Erwartungswert der Normalverteilung gleich dem Medi-
an, also dem 50 %-Quantil x(0,5).
Die Wurzel aus der Varianz ist die Standardabweichung σ. Sie spielt bei der Normal-
verteilung eine besondere Rolle (Abbildung 3.19): In einem Intervall mit der Mitte μ
und der Breite von
zwei Standardabweichungen liegen ca. 2/3 aller Realisationen der Zufallsvariablen
X,
vier Standardabweichungen liegen ca. 95 % aller Realisationen der Zufallsvariablen
X,
sechs Standardabweichungen liegen ca. 99,5 % aller Realisationen der Zufallsvaria-
blen X.
0,67 0,95
m m
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
}
}
}
}
}
}
6 6 x 6 6 6 x
6
Abb. 3.19: Standardabweichung σ = 6 im Beispiel der Wirkgeschwindigkeit von Calma:
Breite von zwei und vier Standardabweichungen.
Ist die Normalverteilung die Königin aller Verteilungen, ist die Standardnormalverteilung
die Königin aller Normalverteilungen. Traditionsgemäß wird ihre Zufallsvariable Z ge-
nannt. Sie ergibt sich, indem wir eine normalverteilte Zufallsvariable X standardisieren.
3.4 Normalverteilung 127
Standardnormalverteilung
Die Verteilungsfunktion P (Z ≤ z) wird mit = Φz (z) notiert. Der Index z dient zur
Unterscheidung von der Zufallsvariablen X. Der Erwartungswert beträgt E(Z) =
μz = 0 und die Varianz V (Z) = σz2 = 1.
Die Funktionswerte Φz (z) der Verteilungsfunktion von Z sind meistens als Tabelle erhält-
lich. Im Anhang dieses Buches finden wir die Normalverteilungstabelle A.1. Wie benützen
wir sie? Der Tabellenkörper besteht aus den Wahrscheinlichkeiten, wobei hier „0,“ aus
Platzgründen weggelassen wurde. Der Wert z ist dreistellig mit zwei Stellen hinter dem
Komma. In der linken äußeren Spalte sind die ersten beiden Stellen aufgeführt. Die zwei-
te Stelle hinter dem Komma steht in der obersten Zeile. So setzt sich beispielsweise 0,52
zusammen aus 0,5 (links) und 0,02 (oben). Dort, wo sich die Zeile mit 0,5 und die Spalte
mit 0,02 kreuzen, können wir die gesuchte Wahrscheinlichkeit Φz (0,52) = 0,6985 ablesen.
In Tabelle 3.8 ist die Vorgehensweise noch einmal dargestellt.
Wir beachten, dass wegen der Stetigkeit von Z P (Z < 1,20) = P (Z ≤ 1,20) ist.
128 3 Zufallsvariablen
Tab. 3.8: Beispiel für die Benutzung der Tabelle der Standardnormalverteilung.
0,95
P(Z £ -1,2) P(Z ³ 1,2)
0,025
0,025
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
z -1,96 1,96 z
Abb. 3.20: Z höchstens 1,20. Abb. 3.21: Z zwischen −1,96 und 1,96.
Nun wollen wir auch Quantile berechnen. In Abschnitt 3.3.2 hatten wir gesehen, dass ein
p-Quantil der Wert der Zufallsvariablen X ist, der zu einer gegebenen Wahrscheinlichkeit
p passt. Das Quantil wurde x(p) genannt. Wir suchen:
z(0,975): Oben sahen wir, dass P (Z ≤ 1,96) = 0,975 ist. Also ist z(0,975) = 1,96.
z(0,67): Wir suchen die Wahrscheinlichkeit 0,67 und finden z = 0,44 (Abbildung 3.22).
z(0,33): Diese Wahrscheinlichkeit ist wieder nicht tabelliert, aber den Abbildungen 3.22
und 3.23 entnehmen wir, dass (unwissenschaftlich notiert) P (Z ≤?) = 0,33 spiegel-
3.4 Normalverteilung 129
bildlich zum 0,67-Quantil angeordnet ist. Also muss z(0,33) = −0,44 sein, was eine
Anwendung der Regel 3.21 ist.
z(0,7): Diese Wahrscheinlichkeit ist in Tabelle 3.8 nicht angegeben. Wir haben hier
zwei benachbarte Wahrscheinlichkeiten 0,6985 und 0,7019 gegeben, zwischen denen
0,7 liegt. Dazu gehören die Quantile als z-Werte 0,52 und 0,53. Da wir in diesem Buch
meistens Quantile für Schätzverfahren verwenden werden, genügt in so einem Fall die
einfache Regel, das Quantil zu wählen, dessen Absolutwert größer als der andere ist.
Also erhalten wir
z(0,7) ≈ 0,53.
0,33 0,33
0,67 0,67
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
z(0,67) z z(0,33) z
= 0,44 = -0,44
Abb. 3.22: 67%-Quantil der Standardnor- Abb. 3.23: 33%-Quantil der Standardnor-
malverteilung. malverteilung.
Nun kommen wir zum spannenden Teil: Wie berechnen wir den Wert Φ(x|μ; σ 2 ) der
Verteilungsfunktion einer Zufallsvariablen X?
Wir standardisieren die Ausprägung x zu z und schlagen die Verteilung in Tabelle 3.8
der Standardnormalverteilung nach.
Bei wieviel Prozent der Patienten wirkt das Medikament in höchstens 26 min? Wir
suchen also P (X ≤ 26) = Φ(26|20; 36) und standardisieren (Abbildung 3.24):
x−μ 26 − 20
z= = = 1.
σ 6
Es ist Φz (1) = 0,8413. Also wirkt die Tablette bei 84,13 % der Patienten in höchstens
26 min (Abbildung 3.25).
Entsprechend berechnen wir P (X > 30) = 1 − P (X ≤ 30) (Abbildung 3.26): Es ist
30 − 20
z= ≈ 1,67. Damit erhalten wir 1 − Φz (1,67) = 1 − 0,9525 = 0,0475. Bei ca.
6
6 % der Patienten wirkt das Mittel nach 30 oder mehr Minuten.
130 3 Zufallsvariablen
0,8413 0,8413
-3 -2 -1 0 1 2 3 0 5 10 15 20 25 30 35 40
z x
Abb. 3.24: z-Wert zu X ≤ 26. Abb. 3.25: Wahrscheinlichkeit für X ≤ 26.
Bei wie viel Prozent der Patienten wirkt das Mittel innerhalb von höchstens 15 min
und 30 s (Abbildung 3.27)? Wir suchen P (X ≤ 15,5). Das ist
15,5 − 20
Φ(15,5|20; 36) = = Φz (−0,75) = 1 − Φz (0,75) = 1 − 0,7734 = 0,2266,
6
0,2266
0,0578
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
x 15,5 x
Abb. 3.26: Wahrscheinlichkeit für X ≥ 30. Abb. 3.27: Wahrscheinlichkeit für X höchs-
tens 15,5.
Wie groß ist die Höchstdauer bei 67 % der Patienten, bei denen das Mittel am
schnellsten wirkte (Abbildung 3.28)? Wir suchen hier das 67 %-Quantil der Verteilung.
Wir müssen als Erstes die Verteilungstabelle A.1 konsultieren, weil wir die Ausprä-
gung suchen, die zur gegebenen Wahrscheinlichkeit 0,67 passt. Wir erhalten zuerst
z(0,67) = 0,44. Nun interessiert uns aber weniger z(0,67) als x(0,67). Wir müssen die
Standardisierung „umdrehen“, das heißt den Quotienten z nach x auflösen:
x−μ
z= ⇒ x − μ = σ · z ⇒ x = μ + z · σ.
σ
Wir erhalten also
Bei den 67 % Patienten, die am schnellsten auf das Mittel ansprechen, beträgt die
Wirkgeschwindigkeit höchstens 22,64 min, was ungefähr 22 min und 39 s entspricht.
3.4 Normalverteilung 131
0,67
0 5 10 15 20 25 30 35 40
x(0,67) = 22,64 x
Wie hoch ist die Mindestdauer bei den 2,5 % Patienten, bei denen das Mittel am
langsamsten wirkt? Die Mindestdauer der langsamsten Patienten ist dieselbe wie die
Höchstdauer der 0,975 schnellsten Patienten. Wie wir wissen, ist z(0,975) = 1,96. Wir
erhalten
Bei den 2,5 % Patienten mit der längsten Wirkgeschwindigkeit dauerte es mindestens
ca. 31 min und 45 s, bis Calma wirkte.
Welche Höchstgrenze hat aber die Wirkgeschwindigkeit bei den 2,5 % Patienten, die
am schnellsten ansprachen? Hier suchen wir das 0,025-Quantil. Ein Blick auf Abbil-
dung 3.21 verrät uns, dass das Pendant auf der rechten Seite der Kurve das 0,975-
Quantil ist. Es ist z(0,975) = 1,96. Dann ist z(0,025) = −1,96. Wir erhalten wieder
analog zu oben x = μ + z · σ = 20 − 1,96 · 6 = 20 − 11,76 = 8,24. Bei den 2,5 %
„schnellsten“ Patienten wurde das Medikament nach einem Zeitraum vom höchstens
8 min und 15 s wirksam.
In welchem symmetrisch um μ gelegenen Intervall der Wirkgeschwindigkeit befinden
sich 95 % der Realisierungen?
Wir hatten schon bei der standardnormalverteilten Verteilung auf Seite 128 gesehen,
dass P (−1,96 ≤ Z ≤ 1,96) = 0,95 ist. Das entspricht dem Intervall
Wir werden in den folgenden Abschnitten einige besondere Eigenschaften der Normal-
verteilung kennenlernen. Weitere Eigenschaften bezüglich linearer Funktionen finden sich
im Abschnitt 3.5.2.
132 3 Zufallsvariablen
Es ist nicht selbstverständlich, dass eine Summe von Zufallsvariablen eines bestimmten
Verteilungstyps wieder denselben Verteilungstyp hervorbringt, sondern eher eine seltene
Ausnahme. Reproduktiv ist beispielsweise auch die Poisson-Verteilung (Seite 114).
Eine der Eigenschaften, die die Normalverteilung krönen, ist der zentrale Grenzwertsatz.
Wir haben bereits auf Seite 125 erfahren, dass das Zusammenspiel von sehr vielen Fak-
toren häufig eine Normalverteilung hervorbringt. Das ist beispielsweise eine Folge des
zentralen Grenzwertsatzes. Wir wollen ihn nun etwas formaler darstellen.
Y1 = X1 ,
Y2 = X1 + X2 ,
Y3 = X1 + X2 + X3 ,
...
Yn = X1 + X2 + . . . + Xn .
Es lässt sich beweisen, dass sich mit wachsendem n die Verteilung der Zufallsvariablen
Yn immer mehr einer Normalverteilung annähert. Ab n = 30 kommt die Verteilung von
Yn einer Normalverteilung schon sehr nahe.
Ein Nutzen dieses Satzes ist, dass wir bei Zufallsvariablen mit unbekannter Verteilung
zumindest für die Summe dieser Zufallsvariablen eine Verteilung angeben können, was
beispielsweise für Stichprobenschätzungen sehr wertvoll ist. Auch können die Funktions-
werte vieler Verteilungen mithilfe dieses Satzes näherungsweise ermittelt werden, wie wir
in Abschnitt 3.4.4 sehen werden.
3.4 Normalverteilung 133
Die Königin der Verteilungen birgt noch weitere Überraschungen, die sich zum Teil durch
den zentralen Grenzwertsatz erklären lassen. Wir können mit ihrer Hilfe Verteilungswerte
diverser Zufallsvariablen näherungsweise ermitteln. Diese Näherung bezeichnen wir als
Approximation. Wir wollen Werte der Binomial- und Poisson-Verteilung mithilfe der Nor-
malverteilung approximativ berechnen. Dies ist nur eine kleine Auswahl, denn wir können
noch viele andere Verteilungsfunktionen mithilfe der Normalverteilung näherungsweise
bestimmen. Einige werden wir später kennenlernen.
Beispiel 3.11 Anteil der Menschen, die Harry Potter gelesen haben
Stellen wir uns vor, der Anteil der Menschen, die in Deutschland Harry Potter gelesen
haben, läge bei 70 %. Die Studentin Hermine schreibt ihre Bachelorarbeit über die
Verbreitung von Trivialliteratur. Sie kennt allerdings den Anteil der Harry-Potter-
Leser nicht. Deshalb macht sie eine Stichprobe. Sie wählt 100 Personen zufällig aus
und befragt sie. Mit welcher Wahrscheinlichkeit anworten höchstens 60 Leute mit „ja“?
Die Zahl der Leute, die mit „ja“ antworten, ist eine Zufallsvariable X. Sie entstammt
einer dichotomen Grundgesamtheit, bestehend aus Lesern und Nichtlesern. Da die
Zahl aller Leser unbekannt und außerdem der Stichprobenumfang ziemlich groß ist,
können wir ein Modell mit Zurücklegen annehmen. X ist also binomialverteilt mit den
Parametern n = 100 und θ = 0,7.
P (X = 0) + P (X = 1) + P (X = 2) + . . . + P (X = 60)
60
60
n 100
= · θx · (1 − θ)n−x = · 0,7x · (1 − 0,7)100−x ,
x x
x=0 x=0
100
was sich bestimmt als spaßig erweist, wenn wir beispielsweise 60 ausrechnen wollen.
Wir können allerdings möglicherweise die Normalverteilung zuhilfe nehmen. Der Stich-
probenumfang sollte hier groß genug sein, damit die Näherungswerte einigermaßen genau
sind. Es gibt verschiedene empfohlene Faustregeln für die Größe von n. Wir können die
Verteilungswerte der Binomialverteilung mithilfe der Normalverteilung approximativ er-
mitteln, wenn
9
n>
θ · (1 − θ)
134 3 Zufallsvariablen
ist. Je näher θ an 0,5 ist, desto „symmetrischer“ ist die Wahrscheinlichkeitsfunktion von
X, das heißt, desto besser passt sich die Normalverteilungskurve der Funktion b(x|n; θ)
an. Je weiter θ davon weg ist, desto größer muss n werden. Wir verwenden für die
Normalverteilungsparameter sinnvollerweise den Erwartungswert n · θ und die Varianz
n · θ · (1 − θ) von X.
Wenn
9
n> (3.22)
θ · (1 − θ)
Dabei bezeichnet der Zuschlag von 0,5 zur Ausprägung von X die Stetigkeitskorrek-
tur.
Die Stetigkeitskorrektur sorgt für einen reibungsfreien Übergang von der diskreten zur
stetigen Wahrscheinlichkeitsverteilung, denn, wie wir wissen, ticken diese beiden Ver-
teilungsarten völlig unterschiedlich. In Abbildung 3.29 sind beispielsweise für die Bino-
mialverteilung B(x|10; 0,4) und die Normalverteilung Φ(x|4; 2,4) die Verteilungsgraphen
dargestellt. Wir erkennen deutlich, dass etwa bei x = 3 die Normalverteilungsfunkti-
on erst bei etwa 3,5 die Höhe der dazugehörigen Treppenstufe erreicht. Ein mittlerer
Zuschlag von 0,5 liefert also weit bessere Approximationsergebnisse. Hier liegen die Nä-
herungswerte exakt auf den Sprungstellen der Binomialverteilung.
B, NV B, NV
1 1
0,9 0,9
0,8 0,8
0,7 0,7
0,6 0,6
0,5 0,5
0,4 0,4
0,3 0,3
0,2 0,2
0,1 0,1
0 0
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
x x
Abb. 3.29: Vergleich von Binomial- und Normalverteilung ohne und mit Stetigkeitskorrektur.
3.4 Normalverteilung 135
n ist größer als 43, und wir können die Normalverteilung verwenden. Nun benötigen wir
noch die Parameter der Normalverteilung. Es sind
μ = n · θ = 100 · 0,7 = 70
und
Mit welcher Wahrscheinlichkeit geben höchstens 60 Personen zu, Harry Potter gelesen
zu haben? Wir erhalten
60,5 − 70
P (X ≤ 60) = B(60|100; 0,7) ≈ Φ(60 + 0,5|70; 21) = Φz √
21
Mit welcher Wahrscheinlichkeit geben mehr als 75 Personen zu, Harry Potter gelesen
zu haben? Bei der binomialverteilten Zufallsvariablen ist das
75,5 − 70
P (X > 75)) = 1 − P (X ≤ 75) ≈ 1 − Φz √ = 1 − Φz (1,20)
21
= 1 − 0,8849 = 0,1151.
Mit welcher Wahrscheinlichkeit geben mindestens 75 Personen zu, Harry Potter gelesen
zu haben? Bei der binomialverteilten Zufallsvariablen ist das
74,5 − 70
P (X ≥ 75)) = 1 − P (X ≤ 74) ≈ 1 − Φz √
21
Mit welcher Wahrscheinlichkeit geben es genau 70 Personen zu? Wir erinnern uns
(Seite 116), dass P (X = 70) bei einer normalverteilten Zufallsvariablen 0 ergeben
würde. Aber wir können bei der binomialverteilten Zufallsvariablen
λ>9 (3.24)
Mit welcher Wahrscheinlichkeit schaut jemand höchstens 20-mal auf die Uhr?
20,5 − 16
P (X ≤ 20) = Px (20|16) ≈ Φ(20 + 0,5|16; 16) = Φz = Φz (1,13) = 0,8708.
4
Etwa 87 % der Personen sehen also pro Tag höchstens 20-mal auf die Uhr.
Mit welcher Wahrscheinlichkeit schaut jemand mindestens 30-mal auf die Uhr?
29,5 − 16
P (X ≥ 30) = P (X ≤ 29) ≈ 1 − Φ(29 + 0,5|16; 16) = 1 − Φz
4
Etwa 0,03 % der Personen schauen also pro Tag mindestens 30-mal auf die Uhr usw.
für das Mittagessen aufwendet. Beide Variablen haben als Einheit eine Viertelstunde.
Es ergab sich für die diskreten Zufallsvariablen die gemeinsame Wahrscheinlichkeits-
tabelle 3.9.
Tab. 3.9: Gemeinsame Wahrscheinlichkeiten von Zeit für Frühstück und für Mittagessen
(in Viertelstunden).
Y
y1 y2 y3 P (X = xi )
1 2 3
X x1 1 0,1 0,3 0,2 0,60
x2 2 0,04 0,2 0,16 0,40
P (Y = yj ) 0,14 0,5 0,36 1,00
Wir wollen anhand einiger Beispiele die Eigenschaften von gemeinsamen Wahrscheinlich-
keiten kennenlernen.
Es wird eine Führungsperson zufällig ausgewählt. Es ist zum Beispiel die Wahrschein-
lichkeit, dass sie sich für das Frühstück eine Viertelstunde und für das Mittagessen eine
halbe Stunde Zeit nimmt, gleich P (X = 1 und Y = 2) = fxy (1; 2) = 0,3. Hier bekommen
die Wahrscheinlichkeiten f Indizes, die angeben, welche Zufallsvariablen gemeint sind.
Wir sagen für fxy (1; 2): „f xy an der Stelle 1 und 2“.
Mit welcher Wahrscheinlichkeit nimmt sich eine Person für das Frühstück eine halbe
Stunde und für das Mittagessen höchstens eine halbe Stunde Zeit?
P (X = 2 und Y ≤ 2).
3.5 Gemeinsam verteilte Zufallsvariablen 139
Mit welcher Wahrscheinlichkeit isst eine Person eine halbe Stunde zu Mittag?
Wir sehen, dass sich die Wahrscheinlichkeit P (Y = 2) als Spaltensumme der gemeinsa-
men Wahrscheinlichkeiten unter y = 2 ergibt. In der untersten Zeile von Tabelle 3.10 sind
die Wahrscheinlichkeiten P (Y = yj ) = fy (yj ) von Y und ganz rechts P (X = xi ) = fx (xi )
von X angegeben. Sie werden Randwahrscheinlichkeiten oder Einzelwahrscheinlichkeiten
genannt.
xi 1 2
f (xi ) 0,6 0,4
So können wir die Verteilungsparameter von X und Y ermitteln, nämlich die Erwar-
tungswerte
und die Varianzen, die wir hier mit dem Verschiebungssatz berechnen als
Die Rand- oder Einzelwahrscheinlichkeiten von X bzw. Y werden berechnet mit der
Zeilensumme
n
P (X = xi ) = fxy (xi ; y1 ) + fxy (xi ; y2 ) + ... + fxy (xi ; yn ) = fxy (xi ; yj )
j=1
140 3 Zufallsvariablen
m
P (Y = yj ) = fxy (x1 ; yj ) + fxy (x2 ; yj ) + ... + fxy (xm ; yj ) = fxy (xi ; yj ).
i=1
Die Randwahrscheinlichkeiten sind eine Anwendung des Satzes der totalen Wahr-
scheinlichkeit (Formel 2.9, Seite 68).
Die grafische Darstellung der Verteilung von zwei diskreten Zufallsvariablen mit Säulen
wie in Abbildung 3.30 sieht zwar imposant aus, ist aber meistens schwer zu interpretieren.
Optisch leichter zu entziffern ist ein Gitternetz mit flächentreuen Symbolen wie Kreisen
oder Quadraten wie in Abbildung 3.31.
Die Wahrscheinlichkeiten von zwei stetigen Zufallsvariablen werden mithilfe von Dop-
pelintegralen ermittelt. Der Graph der gemeinsamen Dichtefunktion ist ein geometrisches
Gebilde im dreidimensionalen Raum. So wird etwa die zweidimensionale Gleichverteilung
räumlich als Quader dargestellt. Stetige Zufallsvariablen werden hier aber nicht weiter
vertieft.
Es können auch die gemeinsamen Wahrscheinlichkeiten von mehr als zwei Zufallsvariablen
verwendet werden. Man nennt gemeinsame verteilte Zufallsvariablen multivariat. Analog
zu oben bezeichnet man beispielsweise die gemeinsamen Wahrscheinlichkeiten der drei
Zufallsvariablen X, Y und Z
Da die formale Darstellung mit steigender Zahl der Variablen immer aufwendiger und
unübersichtlicher wird, geht man bei multivariat verteilten Zufallsvariablen in der Regel
auf Matrixnotation über, welche eine klare und knappe Notation ermöglicht. Mit steigen-
dem Komplexitätsgrad wird auch die Berechnung von multivariaten Verteilungswerten
meistens immer schwieriger bis unmöglich. Hier behilft man sich häufig, indem man die
Wahrscheinlichkeiten nach oben oder unten abschätzt oder gegebenenfalls stochastische
Unabhängigkeit der Variablen ausnützt.
In der Regel ist schon die grafische Darstellung von zwei Zufallsvariablen im dreidimen-
sionalen Raum nicht immer befriedigend darstellbar. Ab drei Variablen ist eine Grafik
der Verteilung nicht mehr möglich. Es gibt allerdings andere grafische Methoden wie
Chernow-Gesichter oder auch paarweise Streudiagramme, die zumindest in der deskrip-
tiven Statistik einen Verteilungseindruck ermöglichen.
Wenn wir die gemeinsame Verteilung von Zufallsvariablen analysieren, interessiert uns
auch die Struktur der gemeinsamen Verteilung. Sind die Zufallsvariablen unabhängig?
Wenn nicht, wie können wir die Abhängigkeit am besten erfassen?
Die einfachste Struktur ist immer die stochastische Unabhängigkeit, denn wie bei Ereig-
nissen von Zufallsvorgängen in Formel 2.15 gilt auch hier der Satz, dass bei stochastischer
Unabhängigkeit die gemeinsame Wahrscheinlichkeit gleich dem Produkt der Einzelwahr-
scheinlichkeiten ist.
Wir wollen erst die formale Bedingung für die stochastische Unabhängigkeit zweier Zu-
fallsvariablen festhalten.
142 3 Zufallsvariablen
P (X = xi und Y = yj ) = P (X = xi ) · P (Y = yj )
bzw.
ist für alle Paare (i; j). Wird für ein Paar diese Bedingung nicht erfüllt, gelten X
und Y schon als abhängig.
Wir wollen untersuchen, ob die Zufallsvariablen in Tabelle 3.9 unabhängig sind. Beginnen
wir in dieser Wahrscheinlichkeitstabelle oben links. Es sind
und
Wenn die Zufallsvariablen stochastisch unabhängig sind, mag das für praktische Folge-
rungen unangenehm sein, etwa wenn sich herausstellt, dass Ausgaben für die Werbung
eines Produkts stochastisch unabhängig von der verkauften Menge sind. Der Statistiker
allerdings findet stochastische Unabhängigkeit prima, denn beispielsweise kann er dann
die Wahrscheinlichkeiten einfach berechnen, und es gibt auch noch weitere methodische
Vorzüge, von denen wir einige kennenlernen werden.
Was können wir aber mit Zufallsvariablen anfangen, wenn sie abhängig sind? Aus der
Struktur der Abhängigkeit können häufig wertvolle Informationen gewonnen werden.
Betrachten wir einige Beispiele:
Fanni ist Kellnerin in einem Wirtshaus und sehr tüchtig, sodass sie immer gutes Trink-
geld bekommt. Am liebsten mag sie den Sonntagmittag, weil es da förmlich Trinkgeld
3.5 Gemeinsam verteilte Zufallsvariablen 143
hagelt. Warum dieses? Sonntagmittag ist das Lokal voll. Definieren wir die Zufalls-
variablen X: Zahl der Gäste im Wirtshaus, und Y : Trinkgeld, das Fanni erhält. Wir
können vermuten, dass das Trinkgeld umso höher ist, je mehr Leute im Wirtshaus
sitzen. Hier könnten X und Y proportional interagieren – mit steigendem X steigt Y .
Wenn wir den Fischbestand eines Meeres betrachten, können wir vermuten dass der
Bestand X mit steigender Befischung Y fällt. Hier hätten wir also einen umgekehrt
proportionalen Zusammenhang zwischen X und Y .
Es gibt also Abhängigkeitsstrukturen mit einer tendenziellen Proportionalität, die wir als
Linearität bezeichnen wollen. Es kann aber auch Strukturen geben, die zwar messbar vor-
handen sind, aber nicht beschrieben werden können, beispielsweise wenn bei steigendem
X die Zufallsvariable Y in unterschiedlichen Abständen mal steigt, mal fällt. Aktienkurse
weisen häufig im Lauf der Zeit chaotisches Verhalten auf.
Jetzt wollen wir uns Zufallsvariablen zuwenden, deren Abhängigkeit linear beeinflusst
ist. Wir messen das Stärke des linearen Zusammenhangs mit dem Korrelationskoeffi-
zienten ρ(XY ) (ausgesprochen als „rho xy“). Wenn selbstverständlich ist, welche Zu-
fallsvariablen involviert sind, kann das Argument XY weggelassen werden. In den Ab-
bildungen 3.32 bis 3.36 wurden jeweils von zwei Zufallsvariablen X und Y 100 gleich-
zeitig beobachtete Realisationen als Koordinatenwert (x, y) mit verschiedenen Korrela-
tionskoeffizienten abgetragen. Wir sehen, wie mit abnehmendem Korrelationskoeffizien-
ten die Linearität in der Punktewolke immer verwaschener wird. Ein positiver Korre-
lationskoeffizient deutet auf einen proportionalen Zusammenhang zwischen X und Y
hin, ein negativer auf einen umgekehrt proportionalen. Ein Korrelationskoeffizient 1
oder −1 bedeutet, dass eine Variable eine exakte lineare Funktion der anderen ist, also
Y = a + bX.
Wie berechnen wir einen Korrelationskoeffizienten? Dazu benötigen wir die Kovarianz.
Man könnte sagen, sie gibt an, wie viel Information X und Y gemeinsam haben. Wir
nennen die Kovarianz C(XY ).
Für zwei diskrete Zufallsvariablen X und Y wird die Kovarianz berechnet als
m
n
C(XY ) = (xi − E(X)) · (yj − E(Y )) · fxy (xi ; yj ). (3.28)
i=1 j=1
m
n
C(XY ) = xi · yj · fxy (xi ; yj ) − E(X) · E(Y ). (3.29)
i=1 j=1
144 3 Zufallsvariablen
Abb. 3.32: Streudiagramm von 100 Realisationen der Wertepaare X und Y mit ρ = 0,9.
Abb. 3.33: Streudiagramm von 100 Realisa- Abb. 3.34: Streudiagramm von 100 Reali-
tionen der Wertepaare X und Y mit ρ = 1. sationen der Wertepaare X und Y mit ρ =
0,6.
Abb. 3.35: Streudiagramm von 100 Reali- Abb. 3.36: Streudiagramm von 100 Realisa-
sationen der Wertepaare X und Y mit ρ = tionen der Wertepaare X und Y mit ρ = −1.
0,3.
3.5 Gemeinsam verteilte Zufallsvariablen 145
Es besteht kein Anlass, bei Anblick der Doppelsummen einen Asthmaanfall zu bekom-
men. Sie bedeuten lediglich, dass die ganze Tabelle gemeinsamer Wahrscheinlichkeiten
von links oben nach rechts unten abgearbeitet wird. Dabei ist es gleichgültig, ob wir die
Spalten zeilenweise oder spaltenweise durchgehen.
Korrelationskoeffizient
Wir definieren X: Zahl der Inserate in einer Zeitung, und Y : Zahl der Inserate, an die sich
ein Leser zu erinnern glaubte. Es ergab sich aus der Studie Tabelle 3.11 der gemeinsamen
Wahrscheinlichkeiten.
Sind X und Y korreliert? Wenn ja, wie groß ist der Korrelationskoeffizient?
Wir benötigen für die Berechnung von ρ die Erwartungswerte, die Varianzen und die
Kovarianz. Erwartungswerte und Varianz handeln wir schnell ab:
V (X) = (1 − 2)2 · 0,3 + (2 − 2)2 · 0,4 + (3 − 2)2 · 0,3 = 0,3 + 0 + 0,3 = 0,6.
146 3 Zufallsvariablen
arbeiten wir uns in der Wahrscheinlichkeitstabelle 3.11 von links oben nach rechts unten:
Nun wollen wir das Beispiel 3.13 anschauen, wo es um die Zeit für Mahlzeiten bei Füh-
rungskräften ging. Wir werden den Korrelationskoeffizienten zwischen Zeit für das Früh-
stück und für das Mittagessen ermitteln. Hier sind die Erwartungswerte E(X) und E(Y )
„krumm“, sodass sich für manuelles Berechnen der Verschiebungssatz eher eignet. Die
Formel mit dem Verschiebungssatz lautet
m
n
C(XY ) = xi · yj · fxy (xi ; yj ) − E(X) · E(Y ). (3.30)
i=1 j=1
Wir arbeiten wieder Tabelle 3.10 von links oben nach rechts unten ab und erhalten
Der Korrelationskoeffizient ist sehr klein. Es scheinen die aufgewendeten Zeiten für Früh-
stück nur ganz wenig denen für das Mittagessen zu entsprechen.
Was ist überhaupt eine lineare Funktion? Stellen wir uns eine Zufallsvariable Y vor, die
abhängig von mehreren unabhängigen Variablen X1 , X2 , . . . Xn ist. Wir können also
zunächst angeben: Y = f (X1 , X2 . . . , Xn ), was heißen soll: „Y ist eine Funktion der Xi
(i = 1, . . . n).“ So ist beispielsweise der Blutdruck abhängig von Alter, Gewicht, Stress
usw.
Eine lineare Funktion ist besonders einfach und hat viele wünschenswerte Eigenschaften.
Linear heißt, dass in der Funktion die Xi selbst nicht verändert werden, es dürfen lediglich
noch beliebige Konstanten mitwirken. Ein Beispiel für eine lineare Funktion ist
Gegeben ist eine beliebig verteilte Zufallsvariable X mit dem Erwartungswert E(X)
und der Varianz V (X). Die lineare Funktion
Y =a+b·X
mit a und b als beliebige Konstanten hat den Erwartungswert E(Y ) = a + b · E(X)
und die Varianz V (Y ) = b2 · V (X).
Die Studentin Hilde möchte gern ihre Finanzen ein wenig aufbessern und stellt sich als
Versuchsperson zur Verfügung. Mit welcher Wahrscheinlichkeit kostet sie das Institut
maximal 175 e?
Wir können zunächst feststellen, dass die Kosten Y von der Zahl der aufgewendeten
Stunden X abhängen, und zwar in der Form
Y = 10 + 15 · X.
und
Es ist dann
175 − 130
P (Y ≤ 175) = Φx (175|130; 506,25) = Φz √ = Φz (2) = 0,9772.
506,25
Wir betrachten nun eine lineare Funktion Z = a + bX + cY .
Gegeben sind die beliebig verteilten Zufallsvariablen X und Y , mit den Erwartungs-
werten E(X) bzw. E(Y ) und den Varianzen V (X) bzw. V (Y ). Außerdem sind X
und Y stochastisch unabhängig. Die lineare Funktion
Z = a + bX + cY,
Für die Aufnahme an die Hochschule zählt die erreichte Gesamtpunktzahl. Welche
Verteilungsparameter hat die Summe Z der Punkte?
und
Wir haben für ein erstes Verständnis oben zwei einfache lineare Funktionen exempla-
risch vorgestellt. Nun gehen wir zum mehr akademischen allgemeinen Fall einer linearen
Funktion über, nämlich Y = b0 + b1 · X1 + b2 · X2 + . . . + bn · Xn .
Sind die Zufallsvariablen Xi auch noch normalverteilt, ist die resultierende lineare
Funktion ebenfalls normalverteilt, und zwar mit den oben gegebenen Parametern.
Hier ein alltagstaugliches Beispiel zu finden, ist schwierig. Diese Formel wird vor allem
in der Schätztheorie angewendet.
X − E(X)
Z= .
V (X)
150 3 Zufallsvariablen
X − E(Z) X − μz
Z= =
V (Z) σz
1
n
1
X= · Xi = · (X1 + X2 + · · · + Xn )
n n
i=1
Wir haben nun die deskriptive Statistik kennengelernt, mit der wir real vorliegende Daten
beschreiben können, und die Wahrscheinlichkeitstheorie, die uns gewisse Gesetzmäßig-
keiten für das Zustandekommen von Daten liefert. Diese Gesetzmäßigkeiten helfen uns,
Folgerungen aus den Daten zu ziehen und relevante Entscheidungen zu treffen. Wir legen
also den Daten ein statistisches Modell zugrunde. Solche Modelle sind aber nicht, wie
etwa das Huftier, von Gott geschaffen und in die Welt gesetzt worden, um dem Men-
schen untertan zu sein. Es sind hypothetische Gebilde des Menschen, quasi Krücken, die
helfen, die komplizierte Vielfalt des realen Lebens zu vereinfachen, also eine Abbildung
der Realität auf das Wesentliche. Häufig können damit wertvolle Erkenntnisse geliefert
werden, manchmal sind die Rückschlüsse auch falsch. Das Leben ist halt nicht immer
fair.
Betrachten wir ein Beispiel aus der Welt der Wirtschaft. Ein großer Obst- und Gemü-
semarkt wird direkt vom Produzenten mit Orangen beliefert, das heißt, ein Lastwagen
mit Orangen rollt heran. Dem Markt liegt die Qualität der Produkte am Herzen, und
so wird bei Lieferung eine Qualitätskontrolle gemacht, um zu untersuchen, ob die Ware
einwandfrei ist. Da die Orangen reif geerntet werden, dürfen maximal 10 % der Früchte
unbrauchbar sein. Nun ist es aber unmöglich, jede Orange auf dem Laster zu untersu-
chen. Also wird eine Stichprobe gemacht. Es werden der Lieferung zufällig 100 Orangen
entnommen und überprüft. Die Stichprobe ergibt nun fünf schlechte Orangen. Es sind
also nur 5 % der Orangen in der Stichprobe schlecht und die Lieferung wird angenom-
men. Können wir nun daraus schließen, dass die gesamte Lieferung nur 5 % schlechte
Orangen enthält? Mit welcher Wahrscheinlichkeit wird die Lieferung fälschlicherweise
angenommen, wenn in Wahrheit 12 % schlechte Orangen in der Lieferung sind? Können
wir ein Intervall angeben, in dem der wahre Anteil der schlechten Orangen mit einer
Wahrscheinlichkeit von 90 % liegt?
Ursprünglich ging man in der Statistik bei den Verfahren, die zum Schätzen und Tes-
ten mithilfe normalverteilter Stichprobendaten entwickelt wurden, davon aus, dass die
152 4 Parameterschätzungen
Allerdings wollen wir auf die Wiedergabe der Dichtefunktionen dieser Verteilungen ver-
zichten, denn sie sind für Anfänger schwer verständlich. Außerdem können wir diese
Funktionen nicht unmittelbar zur Berechnung der Verteilungen verwenden. Genaueres
kann beispielsweise bei Hartung et. al (1995, S. 152 ff.) nachgelesen werden.
Wir gehen für die folgenden Abschnitte beispielhaft von neun normalverteilten und paar-
weise stochastisch unabhängigen Zufallsvariablen Xi (i = 1, . . . , 9) aus. Jede Zufallsvaria-
ble Xi hat einen Erwartungswert μi und eine Varianz σi2 . Durch Standardisieren erhalten
wir die standardnormalverteilten unabhängigen Zufallsvariablen Zi als
X1 − μ1 X2 − μ2 X3 − μ3 X9 − μ9
Z1 = , Z2 = , Z3 = , . . . , Z9 = .
σ1 σ2 σ3 σ9
4.1.1 χ2 -Verteilung
χ2 -Verteilung
n
Y = Zi2 = Z12 + Z22 + . . . + Zn2 . (4.1)
i=1
Das p-Quantil der χ2 -Verteilung mit n Freiheitsgraden wird hier als χ2 (p; n) be-
zeichnet.
In Abbildung 4.1 ist der typische Verlauf der Dichtefunktion angegeben, hier einer χ2 -
Verteilung mit sechs Freiheitsgraden.
0,14
Dichtefunktion
0,12
0,1
0,08
0,06
0,04
0,02
0
0 5 10 15 20
Ausprägung y
Bemerkung: Y ist zentral χ2 -verteilt, denn die Zufallsvariablen Zi sind bezüglich ihrer
Erwartungswerte zentriert. Normalverteilte Zufallsvariablen, die nicht zentriert sind, er-
geben eine sogenannte nichtzentrale χ2 -Verteilung mit einem Nichtzentralitätsparameter
λ. Dieser besteht aus der Summe der quadrierten Erwartungswerte der beteiligten nor-
malverteilten Zufallsvariablen Xi . Das soll aber hier nicht weiter vertieft werden.
Bei jedem Freiheitsgrad ergibt sich eine eigene Tabelle der χ2 -Verteilung. In der Regel
werden wir jedoch nur bestimmte Quantile benötigen. Es sind daher in Tabelle A.2 im
Anhang die Quantile für ausgewählte Wahrscheinlichkeiten tabelliert.
154 4 Parameterschätzungen
Nach dem zentralen Grenzwertsatz – wir haben es hier mit einer Summe von quadrierten
standardnormalverteilten Zufallsvariablen zu tun – können wir die Verteilungsfunktion
näherungsweise mithilfe der Normalverteilung ermitteln. Allerdings verwenden wir für
√ √
n > 30 statt Y lieber die Funktion Z = 2Y − 2n − 1. Z ist dann standardnormal-
verteilt. Diese Näherung ist besser als Y beizubehalten. Die χ2 -Verteilung ist nämlich
stark schief, und durch das Wurzelziehen wird sie schon in eine eher symmetrische Form
gebracht.
Beispiele
P (Y ≤ 11,07) = 0,95,
P (Y ≥ 9,24) = 1 − 0,90 = 0,1,
χ2 (0,025; 5) = 0,83,
χ2 (0,99; 5) = 15,09.
ermitteln.
P (Y ≤ 50): Es ist
√ √
Z = 2 · 50 − 2 · 41 − 1 = 10 − 9 = 1.
Also ist
4.1.2 F -Verteilung
Wir bedienen uns für eine erste Beschreibung wieder unserer standardnormalverteilten
Zufallsvariablen aus Abschnitt 4.1.
Wir haben eine mit m = 4 Freiheitsgraden χ2 -verteilte Zufallsvariable Y1 , die wie oben
definiert ist, und eine zweite χ2 -verteilte Zufallsvariable
mit n = 3 Freiheitsgraden.
Der Quotient
F -Verteilung
Die Ausprägungen von F sind mindestens null. Der Erwartungswert von F existiert
erst ab n = 3 Freiheitsgraden und lautet
n
E(F ) = . (4.3)
n−2
156 4 Parameterschätzungen
2n2 (m + n − 2)
V (F ) = . (4.4)
m(n − 2)2 (n − 4)
Das p-Quantil der F -Verteilung mit m und n Freiheitsgraden wird hier f (p; m; n)
1
genannt. Es besteht die Beziehung f (p; m; n) = .
f (1 − p; n; m)
In Abbildung 4.2 ist der Verlauf des Dichtefunktionsgraphs einer F -Verteilung mit vier
und acht Freiheitsgraden wiedergegeben. Auffällig ist die starke Rechtsschiefe.
0,8
Dichtefunktion
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0 1 2 3 4 5 6 7 8
Ausprägung von f
Abb. 4.2: F -Verteilung mit vier und acht Freiheitsgraden.
Die Verteilungsfunktion der F -Verteilung lässt sich nicht so einfach näherungsweise er-
mitteln wie beispielsweise die der χ2 -Verteilung.
Ein Beispiel soll den Abschnitt abrunden. Gegeben ist eine F -verteilte Zufallsvariable F
mit fünf und sechs Freiheitsgraden. Wir wollen mithilfe der Verteilungstabelle A.3a zwei
Quantile ermitteln:
1 1
f (0,025; 5; 6) = = = 0,1433.
f (0,975; 6; 5) 6,98
4.1 Schätzverteilungen 157
4.1.3 t-Verteilung
3
3
t-verteilt mit drei Freiheitsgraden. Abbildung 4.3 zeigt den typischen Verlauf einer t-
Verteilung, hier mit sechs Freiheitsgraden.
Dichtefunktion
-4 -3 -2 -1 0 1 2 3 4
t
Abb. 4.3: t-Verteilung mit sechs Freiheitsgraden.
t-Verteilung
E(T ) = 0 (4.6)
Der Graph der t-Verteilungsdichte sieht ähnlich aus wie der der Standardnormalvertei-
lung, denn die Dichtefunktion verteilt sich symmetrisch um t = 0. Die t-Verteilung hat
damit Rechenregeln vergleichbar zu denen der Standardnormalverteilung. Allerdings ist
die Dichtefunktion von T in der Mitte etwas schmäler und an den Seiten etwas höher.
Die Quantile der Zufallsvariablen T sind in Tabelle A.4 für ausgewählte Wahrschein-
lichkeiten p und für Freiheitsgrade n von 1 bis 30 vertafelt. Für n > 30 können wir
die Verteilungswerte der t-Verteilung bzw. deren Quantile näherungsweise mithilfe der
Standardnormalverteilung ermitteln.
Bemerkungen:
Das Quadrat einer t-verteilten Zufallsvariablen mit n Freiheitsgraden ist F -verteilt mit
einem und n Freiheitsgraden:
⎛ ⎞2
Z2
⎜ Z ⎟
T2 = ⎜ ⎟ 1
⎝Y ⎠ = Y .
n n
Uns liegt hier eine zentrale t-Verteilung vor, weil der Zähler Z den Erwartungswert
E(Z) = 0 hat. Wenn die normalverteilte Zufallsvariable einen Erwartungswert μ = 0
hat, erhalten wir eine nichtzentrale t-Verteilung mit dem Nichtzentralitätsparameter μ.
Beispiele
P (T ≤ 1,440) = 0,9,
P (T ≤ −3,143) = 1 − P (T ≤ 3,143) = 1 − 0,99 = 0,01,
das 0,95-Quantil t(0,95; 6) = 1,943,
das 0,1-Quantil t(0,1; 6) = −1,440.
Gegeben ist eine t-verteilte Zufallsvariable T mit 50 Freiheitsgraden. Hier können die
t-Verteilungswerte mit der Standardnormalverteilung approximiert werden. Es ist etwa
P (T ≤ 2) ≈ Φz (2) = 0,9772,
das 0,95-Quantil t(0,95; 50) ≈ z(0,95) = 1,65.
4.2 Schätzfunktionen 159
Wir haben nun im Wesentlichen alles über Zufallsvariablen gelernt. Das befähigt uns zu
einem weiteren großen Schritt: dem Schätzen. Warum müssen wir schätzen?
Wir können die Menge aller Kunden als Grundgesamtheit betrachten. Die 1000 aus-
gewählten Kunden sind eine Stichprobe aus dieser Grundgesamtheit. Und wir hoffen,
dass die Stichprobe den Anteil der zufriedenen Kunden in der Grundgesamtheit eini-
germaßen trifft.
Betrachten wir ein weiteres ausführliches Beispiel und leiten wir anhand dessen im fol-
genden Abschnitt das Grundprinzip einer Schätzfunktion ab.
als ausreichend erachtet. Sie kann also diese Personen testen und dann die durch-
schnittliche Wirkzeit berechnen – und hoffen, dass die Stichprobe den Sachverhalt aus
der Grundgesamtheit aller betroffenen Patienten einigermaßen genau widerspiegelt.
Cindy definiert eine Zufallsvariable X: Wirkzeit von Felixa. Sie vermutet zu Recht, dass
X normalverteilt ist. Für ihre Studie braucht sie Informationen über die Verteilungspa-
rameter von X, aber sie kennt Erwartungswert und Varianz der Zufallsvariablen nicht –
woher auch? Sie muss also diese Parameter schätzen.
Nun wollen wir den Komplex Schätzungen von der anderen Seite angehen. Wir sehen die
Grundgesamtheit aller Patienten als Normalverteilung mit den Verteilungsparametern μ
und σ 2 vor uns ausgebreitet.
1. Wir wählen aus dieser Grundgesamtheit einen Patienten zufällig aus und definieren
die Zufallsvariable X1 : Wirkzeit von Felixa (in Tagen). X1 ist normalverteilt mit μ
und σ 2 .
2. Wir wählen einen weiteren Patienten zufällig aus und definieren die Zufallsvariable
X2 : Wirkzeit von Felixa (in Tagen). X2 ist normalverteilt mit μ und σ 2 .
...
5. Wir verfahren so weiter bis zur Zufallsvariablen X5 .
Es hat also jeder Patient seine eigene Zufallsvariable mit der Wirkzeit. Die Zufallsvaria-
blen Xi (i = 1, . . . , 5) sind identisch verteilt, denn sie entstammen derselben Grundge-
samtheit. Die fünf Realisationen der fünf Zufallsvariablen Xi , die wir konkret erhalten,
nennen wir Stichprobe. Damit wollen wir nun den unbekannten Parameter μ der Grund-
gesamtheit schätzen. Wir können aber mit fünf Werten als solchen nichts anfangen, son-
dern müssen sie zu einem Wert zusammenfassen. Da μ die durchschnittliche Wirkzeit
von allen Patienten in der Grundgesamtheit ist, müsste doch der Durchschnitt über die
fünf Zufallsvariablen in der Stichprobe am besten als Schätzung für μ geeignet sein.
Nun wollen wir etwas konkreter werden. Uns, aber nicht Cindy, ist bekannt, dass die
Wirkzeit eines Patienten normalverteilt ist mit dem Erwartungswert μ = 10 und der
Varianz σ 2 = 12, 8. Lassen wir Cindy eine Stichprobe mit ihren fünf Patienten erheben.
4.2 Schätzfunktionen 161
normalverteilte Grundgesamtheit
unbekannter Parameter
m
Stichprobe
Schätzung
X1 X2 X3 X4 X5
X
Abb. 4.4: Stichprobenentnahme zur Schätzung unbekannter Parameter.
Sie erhält
x1 x2 x3 x4 x5
15,68 7,11 14,43 10,45 17,01
Könnten wir μ auch anders schätzen? Wir könnten beispielsweise den Median z ver-
wenden, denn bei der Normalverteilung sind μ und der Median gleich. Das wäre in der
obigen Stichprobe der drittkleinste Wert, also 14,43. Welche Schätzung ist besser? Bei
jeder Stichprobe können x und z anders ausfallen, weil ihre Werte immer von den Realisa-
tionen der Xi abhängen. Stichprobenmittel und -median sind also selbst Zufallsvariablen
X bzw. Z. Sie sind eine Funktion der Stichprobenvariablen X1 , X2 , . . . , X5 .
Stellen wir uns vor, dass es weitere Forschungsvorhaben und Institute gibt, bei denen
Felixa untersucht wird, jeweils mit fünf Patienten. Es liegen insgesamt 20 Stichproben
mit n = 5 vor. Die Ergebnisse wurden in Tabelle 4.1 zusammengefasst.
Wir sehen, dass die einzelnen Werte stark schwanken und damit auch die Stichproben-
mittel und -mediane unterschiedlich ausfallen. X und Z sind eine Funktion der Stichpro-
benvariablen Xi . Da mit diesen Funktionen ein Parameter geschätzt wird, nennt man sie
Schätzfunktion, häufig auch Schätzstatistik oder kurz Schätzer.
Welche Schätzfunktion ist sinnvoll und welche nicht? Welche Anforderungen stellen wir
an eine Schätzfunktion?
Die Schätzfunktion für einen Parameter sollte im Durchschnitt den wahren Parameter
ergeben, also in unserem Fall E(P ) = μ. Man nennt so eine Schätzfunktion erwartungs-
treu. Liegt der Erwartungswert der Schätzfunktion systematisch neben dem Parameter,
nennen wir die Schätzfunktion verzerrt. In Abbildung 4.5 wird der Unterschied zwischen
Erwartungstreue und Verzerrtheit gezeigt.
Die Varianz der Schätzfunktion sollte möglichst klein sein, damit die resultierenden P -
Werte nicht so weit vom Erwartungswert abweichen. Es wird so vermieden, dass häufig
Schätzungen auftreten, die weit vom wahren Parameter weg liegen. In Abbildung 4.5
wird der Unterschied zwischen kleiner und großer Varianz gezeigt.
4.2 Schätzfunktionen 163
4 5 6 7 8 9 10 11 12 13 14 4 5 6 7 8 9 10 11 12 13 14
m m
erwartungstreuer Schätzer: verzerrter Schätzer:
Werte streuen gleichmäßig um m. Werte liegen zu weit links von m.
Stichprobe
Stichprobe
0 2 4 6 8 10 12 14 16 18 20 22 24 0 2 4 6 8 10 12 14 16 18 20 22 24
m m
Ebenso erhalten wir das arithmetische Mittel der 20 z-Werte und deren Varianz. In
Tabelle 4.2 sind die Werte noch einmal zusammengefasst. Wir sehen, dass für X und Z
der Durchschnitt schon sehr nahe bei 10 liegt. Allerdings ist die Varianz 2,76 der x-Werte
deutlich kleiner als 3,84. Also können wir schon hier ahnen, dass die Zufallsvariable P1
eine kleinere Varianz hat als P2 . P1 = X ist der beste Schätzer für einen Erwartungswert.
164 4 Parameterschätzungen
X Z
Durchschnitt der 20 Werte 10,04 9,97
Varianz der 20 Werte 2,76 3,84
Bester Schätzer
Man nennt eine erwartungstreue Schätzfunktion mit kleinster Varianz unter allen
anderen erwartungstreuen Schätzfunktionen wirksamst oder effizient oder einen bes-
ten Schätzer.
Neben dem Erwartungswert einer Zufallsvariablen ist vor allem auch deren Varianz von
Interesse. Wenn wir die Varianz einer Zufallsvariablen schätzen wollen, verwenden wir als
erwartungstreue Schätzfunktion die Stichprobenvarianz, die wir aus dem ersten Kapitel
(Seite 43) kennen:
1
n
S2 = · (Xi − X)2 . (4.8)
n−1
i=1
Für die erste Stichprobe in Tabelle 4.1 mit dem Beruhigungsmittel Felixa ergibt sich
dann
1
s2 = · (15,68 − 12,94)2 + (7,11 − 12,94)2 + (14,43 − 12,94)2 + (10,45 − 12,94)2
5−1
Bemerkung: Intuitiv möchte man für die mittlere Abweichung durch n statt n − 1 teilen.
Ein Nenner n in der obigen Formel ergäbe einen verzerrten Schätzer, hier würde die
Varianz unterschätzt. Der Beweis dafür kann beispielsweise bei Schira (2003, S. 248 ff.)
nachgelesen werden. Wir können uns das aber auch intuitiv erklären:
4.2 Schätzfunktionen 165
Wäre μ bekannt, hätten wir bei einer konkreten Schätzung statt der Quadratsumme
n 2
n 2
i=1 (xi − x) in Formel 4.8 die Summe i=1 (xi − μ) . Hier würden wir die Varianz als
mittlere quadratische Abweichung der xi vom Mittelwert schätzen als
1
n
s2μ bekannt = · (xi − μ)2 , (4.9)
n
i=1
also durch n teilen. Wenn wir aber μ mit x schätzen, erhalten wir die Quadratsumme
n 2
Q = i=1 (xi − x) . Da in x immer ein kleines Stückchen xi steckt, subtrahieren wir
bei jedem xi − x dieses Stückchen, sodass wir am Schluss im Mittel ein ganzes x we-
niger übrig haben. Weil uns faktisch n − 1 Beobachtungswerte übrig bleiben, teilen wir
durch n − 1. Diese Argumentation ist natürlich höchst unwissenschaftlich, was aber dem
Wissenschaftsbetrieb manchmal guttut.
Wie ist die zu s2 gehörende Schätzfunktion S 2 verteilt? Wir haben es bei einem nor-
malverteilten Merkmal mit einer Quadratsumme von normalverteilten Zufallsvariablen
zu tun. Also wird wohl die χ2 -Verteilung der richtige Adressat sein. Für S 2 selbst kann
unmittelbar keine Verteilung angegeben werden, aber eine kleine Umformung beschert
uns eine bekannte Verteilung für die Stichprobenvarianz:
1
n
S2 = (Xi − X)2 . (4.10)
n−1
i=1
Der Quotient
(n − 1)Sn2
(4.11)
σ2
ist χ2 -verteilt mit n − 1 Freiheitsgraden. Dabei ist n der Stichprobenumfang.
Bisher hatten wir ein normalverteiltes Merkmal mit bekannter Varianz betrachtet und
die Verteilung der Schätzfunktion X ermittelt. Wenn wir die Zufallsvariable X standar-
disieren, erhalten wir die Zufallsvariable
X −μ
Z= σ , (4.12)
√
n
166 4 Parameterschätzungen
die normalverteilt ist mit μz = 0 und σz2 = 1. Seien wir ehrlich: Eigentlich glaubt doch
kein Mensch, dass in der Realität der Erwartungswert unbekannt, aber die Varianz be-
kannt ist. Wir hatten gesehen, dass die Varianz von X gleich σ 2 /n ist. Wenn wir sie nicht
kennen, müssen wir die Varianz der Zufallsvariablen X schätzen. Wir ersetzen also σ 2
durch die erwartungstreue Schätzung
1
n
s2 = (xi − x)2 . (4.13)
n−1
i=1
Wir können jetzt wieder standardisieren. Aber der zu Formel 4.12 analoge Quotient
X −μ
T =
S
n
ist nicht mehr normalverteilt. Wir haben nämlich jetzt im Nenner die Wurzel aus ei-
ner Quadratsumme von normalverteilten Zufallsvariablen stehen. Deshalb ist T keine
lineare Funktion der Xi . T hat nun eine t-Verteilung mit n − 1 Freiheitsgraden wie in
Abschnitt 4.1.3.
Wenn neben der Varianz die Verteilung des Merkmals ebenfalls nicht bekannt ist, können
wir die Verteilung von X nicht angeben. Als Faustregel gilt: Ab n > 30 kann nach dem
zentralen Grenzwertsatz (Abschnitt 3.4.3) auch hier wieder die Verteilung näherungsweise
mithilfe der Normalverteilung ermittelt werden. Wenn wir den Stichprobendurchschnitt
standardisieren, erhalten wir also
X − EX
Z= ,
S
√
n
was für n > 30 annähernd standardnormalverteilt ist. Gelegentlich finden wir in der
Literatur auch die Empfehlung von n > 50. Man vergleiche beispielsweise Schaich et al.
(1982, S. 99).
Nebenbei soll bemerkt werden, dass zwar S 2 ein erwartungstreuer Schätzer für σ 2 ist,
aber mitnichten ist S erwartungstreu für σ. Über diesen Umstand wird in der Feld-Wald-
und-Wiesenstatistik allerdings meistens gnädig hinweggesehen.
Bei kleineren, endlichen Grundgesamtheiten müssen wir von einem Modell ohne Zurück-
legen ausgehen, denn mit jeder zufälligen Auswahl eines Elements ändert sich die Grund-
gesamtheit. Jetzt ist die Varianz des Merkmals X bei normalverteilter Grundgesamtheit
4.2 Schätzfunktionen 167
−n
σ2 · N
N −1 . Wir kennen den Bruch schon von der hypergeometrischen Verteilung her. Es ist
der Korrekturfaktor, der dafür sorgt, dass die Varianz mit jeder Entnahme eines Elements
sinkt (Seite 109).
σ2 N −n
Hier ist das arithmetische Mittel X normalverteilt mit den Parametern μ und n · N −1
bzw. die Standardisierung
X −μ
Z=
σ N −n
√ ·
n N −1
standardnormalverteilt.
Die Berücksichtigung des Korrekturfaktors wird häufig als lästig empfunden. Wir sehen,
dass sich mit sehr großem N und sehr kleinem n der Korrekturfaktor der Eins nähert.
n
Es gilt hier als Faustregel: Ist N ≤ 0,05, dürfen wir den Korrekturfaktor vernachlässigen.
Mit anderen Worten, wir ersetzen das Modell ohne Zurücklegen durch das Modell mit
Zurücklegen.
4.2.5 Schätzfunktion für den Anteil der Kugeln erster Sorte einer
binomialverteilten Zufallsvariablen
Wir gehen nun von einer dichotomen Grundgesamt aus, also von einem Urnenmodell
mit zwei Sorten Kugeln. Wir interessieren uns für den Anteilswert der Kugeln erster
Sorte – kurz gesagt, wir suchen eine Schätzfunktion für den Parameter θ (Seite 109). Der
Anteilswert θ wird mit der Schätzfunktion
X
P = (4.14)
n
geschätzt, wobei X die Zahl der Kugeln erster Sorte unter n gezogenen bedeutet. Die
konkrete Berechnung der Verteilung von P ist allerdings knifflig. Ein Grund dafür ist, dass
es sich nicht um die ganzzahlige binomialverteilte Zufallsvariable X handelt, sondern um
den Anteil X n , der für die Anwendung der Binomialverteilung unbrauchbar ist. Meistens
9
wird von der Faustregel ausgegangen, dass für n > θ·(1−θ) (Seite 133) die Verteilung
des Merkmals in der Grundgesamtheit näherungsweise mithilfe der Normalverteilung
ermittelt werden kann. Wir begnügen uns hier mit der Faustregel:
9 X
Wenn n > p·(1−p) ist, können wir die Verteilung von P = n als annähernd normalverteilt
2 θ·(1−θ)
ansehen mit den Parametern μ = θ und σ = n . Es ist dann
P −θ
Z= (4.15)
θ·(1−θ)
n
standardnormalverteilt.
168 4 Parameterschätzungen
Allerdings ist bei einer konkreten Schätzung p der Parameter θ nicht bekannt, den wir
aber für die Schätzung der Normalverteilungsvarianz bräuchten. Wir müssen θ mit p
schätzen, sodass wir auch hier nur suboptimale Schätzungen erhalten.
Speziell bei klinischen Analysen haben wir häufig mit kleinen Fallzahlen zu tun. Hier kön-
nen wir die F -Verteilung für die Berechnung der Wahrscheinlichkeiten ermitteln. Konkret
werden wir das auf Seite 178 sehen.
Erika und Gerd sollen im Rahmen einer Projektarbeit das Leseverhalten der Entenhau-
sener Bürger untersuchen. Beide befragen je zehn zufällig ausgewählte Personen. Erika
erhält eine durchschnittliche Leseleistung von 24 Minuten, also 0,4 Stunden, Gerd da-
gegen einen Durchschnitt von 48 Minuten, also 0,8 Stunden. Wer hat nun recht? Wir
können das leicht erklären: Die Durchschnittswerte hängen von den jeweilig erhobenen
Daten ab. Sie können mal groß und mal klein ausfallen – sie sind Zufallsvariablen.
Können wir eigentlich überhaupt mit so einem Mittelwert etwas anfangen?
Wir interessieren uns für die Zeitungslesezeit und definieren die Zufallsvariable X: Zeit,
die ein Bürger täglich auf das Lesen einer Zeitung verwendet (in h). Um das Beispiel
einfach zu halten, setzen wir wieder voraus, dass X normalverteilt ist, und zwar mit der
Varianz σ 2 = 10 2
49 h . Das ist auch Erika und Gerd bekannt. Was die beiden allerdings nicht
kennen, wir aber schon, ist der Erwartungswert der Lesezeit, μ = 12 h (Erwartungswert
und Varianz sind übrigens von der Autorin frei erfunden).
Die Aufgabe von Erika und Gerd ist, diesen Erwartungswert zu schätzen. Wie wir oben
gelernt haben, bietet sich die Schätzfunktion X an, denn ebenso wie der Erwartungswert
ist sie ein Durchschnitt und von daher wohl am besten für eine Schätzung geeignet. Erika
hatte eine Stichprobe im Umfang von n = 10 genommen und 0,4 erhalten. Wenn die
Stichprobe nicht zu extrem ausfällt, müsste eigentlich in aller Regel das resultierende x
4.3 Konfidenzintervalle 169
in der Nähe von μ liegen. Es kann allerdings auch mal vorkommen, dass x weit weg von μ
ist. In Abbildung 4.6 ist die Konstellation beispielhaft zusammengefasst. Wie zuverlässig
ist die Schätzung von Erika? Um ein wenig vorzugreifen: Der Schätzwert 0,4 sagt uns,
dass der wahre Parameter μ mit einer hohen Wahrscheinlichkeit im Intervall [0,12; 0,68]
liegen muss.
m unbekannt
Wir wollen nun das „nahe bei“ und „weit weg“ quantifizieren: Wir wissen von Seite 150,
2
dass X normalverteilt ist wie N (μ; σn ). In unserem Beispiel berechnet sich die Vari-
anz von X als V (X) = 10/49 10
1
= 49 , sodass der Stichprobendurchschnitt die Verteilung
1 1
N ( 2 ; 49 ) hat. Das dazugehörige Z ist
X −μ
Z= .
√σ
n
Wie kommen wir auf das obige Intervall? Wir überlegen, auch unter Zuhilfenahme der
Beispiele auf Seite 131, dass gelten muss
X −μ
P (−1,96 ≤ Z ≤ 1,96) = P −1,96 ≤ σ ≤ 1,96 = 0,95.
√
n
Wenn wir die doppelte Ungleichung umstellen, erhalten wir, ausführlich hergeleitet,
X −μ σ σ
P −1,96 ≤ ≤ 1,96 = P −1,96 · √ ≤ X − μ ≤ 1,96 · √
√σ n n
n
σ σ
=P X − 1,96 · √ ≤ μ ≤ X + 1,96 · √ = 0,95.
n n
170 4 Parameterschätzungen
Was haben wir eigentlich berechnet? Wir können theoretisch ein Intervall um X angeben,
in das der wahre, aber unbekannte Parameter mit einer Wahrscheinlichkeit von 95 % fällt.
Solange wir X als Zufallsvariable behandeln, nennen wir das Intervall Zufallsintervall.
Die Wahrscheinlichkeit 0,95 ist der Konfidenzkoeffizient. Die Gegenwahrscheinlichkeit
α = 1 − 0,95 = 0,05 wird Signifikanzniveau genannt. Es ist dann umgekehrt 1 − α der
Konfidenzkoeffizient.
Mit der konkreten Realisation eines Mittelwertes x ergibt sich das sogenannte Konfidenz-
intervall, auch Vertrauensintervall genannt.
Wie findet Erika das? Sie wird vermutlich finden, dass dieses Intervall doch recht breit ist
und keine befriedigende Aussage über die Größenordnung des Erwartungswertes liefert.
Warum ist das so? Ist ein Konfidenzintervall immer so nichtssagend? Das werden wir
nun im Folgenden erfahren. Auf jeden Fall liegt hier der wahre Erwartungswert mit 1/2
tatsächlich im Intervall.
Nun können wir das Konfidenzintervall als Formel herleiten. μ, σ 2 und n sind schon be-
kannt. Aber der z-Wert, hier speziell 1,96, muss noch allgemein angegeben werden. Geben
wir beispielsweise α = 0,05 vor, haben wir einen Konfidenzkoeffizienten von 1 − α = 0,95.
Der verwendete z-Wert war 1,96. Welchem Quantil entspricht 1,96? Wenn wir in der Nor-
malverteilungstabelle A.1 nachsehen, ist es das 0,975-Quantil der Standardnormalvertei-
lung. Mithilfe von α ausgedrückt ist es das (1−α/2)-Quantil, wie wir schnell nachrechnen
können, denn α = 0,05, α/2 = 0,025 und 1 − α/2 = 0,975.
1,96·s/Ön 1,96·s/Ön
{
{
0
[
0,1
0,12
0,2 0,3 0,4 0,5 0,6
[ 0,7
0,68
0,8 0,9 1
Wie wir anhand von Abbildung 4.7 sehen können, war es bei Erika
σ
2 · 1,96 · √ = 2 · 0,28 = 0,56.
n
Verständlicherweise wäre Erika ein schmaleres Intervall lieber, dann hätte sie eine ge-
nauere Schätzung. Schauen wir uns Formel 4.16 an. Wie bekommt Erika das Intervall
schmaler? An der Standardabweichung σ kann sie nicht schrauben, sie ist konstant. Aber
sie kann das Signifikanzniveau ändern. Wenn z(1 − α/2) kleiner wird, verschmälert sich
das Intervall. Das entspricht einer Vergrößerung von α. Oder sie kann den Stichproben-
umfang n vergrößern, das heißt, sie muss mehr Leute befragen. Es klingt auch logisch,
dass die Schätzung umso besser ist, je mehr Daten zur Verfügung stehen.
Wir erhöhen α auf 0,1. Dann ist z(1 − α/2) = z(0,95). Wir suchen in der Normalver-
teilungstabelle A.1 die Wahrscheinlichkeit 0,95. Die fällt zwischen die Werte 0,9495 und
0,9505 mit den Quantilen 1,64 und 1,65. Wir erinnern uns (Seite 129), dass wir immer
das Quantil mit dem größten Betrag wählen, also hier 1,65. Wir erhalten für Beispiel 4.3
das Konfidenzintervall
σ σ 1 1
x − z(0,95) · √ ; x + z(0,95) · √ = x − 1,65 · ; x + 1,65 ·
n n 7 7
Die Breite des Intervalls beträgt nun 0,48. Ehrlich gesagt ist das Ergebnis immer noch
nicht berauschend. Da α die Wahrscheinlichkeit repräsentiert, dass der wahre Erwar-
tungswert nicht in diesem Intervall liegt, ist es vermutlich wenig zielführend, α beliebig
aufzupusten.
Erika befragt nun 40 Personen und errechnet – hier aus didaktischen Gründen – wieder
einen Durchschnitt von 0,4. Sie erhält bei einem α = 0,05 das 95 %-Konfidenzintervall
σ σ 10/49 10/49
x − z(0,975) · √ ; x + z(0,975) · √ = x − 1,96 · ; x + 1,96 ·
n n 40 40
1 1
≈ x − 1,96 · ; x + 1,96 · = [0,4 − 0,14; 0,4 + 0,14] = [0,26; 0,54].
14 14
Die Breite des Konfidenzintervalls ist 2 · 0,14 = 0,28. Das ist schon besser.
Schön präzise wäre beispielsweise eine Breite von höchstens 0,1. Wie groß müsste da n
mindestens sein?
σ
2 · z(1 − α/2) · √ ≤ 0,1.
n
was bedeutet, dass sie mindestens 64 Personen befragen müsste, um ein 95%iges Konfi-
denzintervall der Breite von höchstens 0,1 zu erhalten.
Übrigens erhält Gerd für sein Ergebnis von 0,8 h das Konfidenzintervall
σ σ 1 1
x − 1,96 · √ ; x + 1,96 · √ = 0,8 − 1,96 · ; 0,8 + 1,96 ·
10 10 7 7
Gerd entnimmt dieser Information, dass die mittlere Lesezeit in der Grundgesamtheit
mit 95 %iger Wahrscheinlichkeit zwischen 0,52 h und 1,08 h liegt. Da die wahre mittlere
Leseleistung 0,5 h beträgt, hat Gerd mit seinem Konfidenzintervall „daneben getroffen“.
Der Erwartungswert ist nicht im Intervall eingeschlossen. Dieses untypische Intervall
gehört zu den α = 0,05 Intervallen, die μ nicht enthalten. Es könnte allerdings auch sein,
dass Gerd zu bequem war, seine zehn Leute zufällig auszuwählen, und stattdessen auf
die Schnelle zehn Studienkollegen befragt hat. Und das rächt sich nun.
Aus Abschnitt 4.2.3 wissen wir, dass bei unbekannter Varianz die standardisierte Zufalls-
variable
X −μ
T = s
n
!
t-verteilt ist mit n−1 Freiheitgraden. Außerdem "
werden wir bei der t-Verteilung die Sym-
metrieeigenschaften ausnützen. Analog zu x − z(1 − α/2) · √σn ; x + z(1 − α/2) · √σn in
Formel 4.16 erhalten wir:
Ist n > 30, können die Quantile t(1 − α/2; n − 1) durch die Quantile der Standard-
normalverteilung z(1 − α/2) ersetzt werden.
Wir helfen Mia bei dieser Aufgabe und definieren die Zufallsvariable X: Alter eines Tou-
risten (in Jahren). Die Varianz von X ist unbekannt. Wir schätzen μ mit X und verwen-
den das Konfidenzintervall 4.18. Dafür benötigen wir zuerst den Stichprobendurchschnitt
1 522
x= · (48 + 32 + . . . + 70) = = 58.
9 9
Damit schätzen wir die Varianz als
1
n
1
1 2128
= · (100 + 676 + . . . + 144) = = 266.
8 8
√
Somit ist die Standardabweichung 266 ≈ 16,31. Wir benötigen nun noch das t-Quantil.
Es ist t(1 − α/2; n − 1) = t(0,975; 8) = 2,306. Mia erhält nun das 95 %-Konfidenzintervall
16,31 16,31
58 − 2,306 · √ ; 58 + 2,306 · √ = [58 − 4,18; 58 + 4,18] = [53,82; 62,18] .
9 9
Wir haben gesehen, dass uns die Normalverteilung mit ihren schönen Eigenschaften
der Reproduktivität und des zentralen Grenzwertsatzes gefällige Konfidenzintervalle be-
schert. Gerade bei kleinen Stichproben sollte aber die betreffende Zufallsvariable dann
auch annähernd normalverteilt sein, weil sonst beispielsweise Ausreißer in den Daten un-
sere Ergebnisse verfälschen. Um einigermaßen sicher zu sein, ob die Daten einer Normal-
verteilung entstammen könnten, sollte durch einen Verteilungstest die Normalverteilungs-
voraussetzung untermauert werden. Wie gehen wir bei unbekannter Verteilung des Merk-
mals vor, was wohl eher die Regel als die Ausnahme ist? Für den Hausgebrauch genügt:
Falls n > 30 ist, kann das (1 − α)-Konfidenzintervall für den Erwartungswert eines
Merkmals mit unbekannter Verteilung und unbekannter Varianz näherungsweise
angegeben werden mit
s s
x − z(1 − α/2) · √ ; x + z(1 − α/2) · √ . (4.19)
n n
4.3 Konfidenzintervalle 175
Allerdings sollten wir bedenken, dass wir schon für die unbekannte Verteilung mehr als 30
Beobachtungen brauchen. Wenn nun noch die Varianz geschätzt werden muss, kommt ein
weiterer Unsicherheitsfaktor dazu. Daher wird gelegentlich für obiges Konfidenzintervall
ein Stichprobenumfang von n > 50 gefordert (Schaich et al., 1982, S. 99).
In Abschnitt 4.2.4 hatten wir gesehen, dass wir bei einem Modell ohne Zurücklegen den
N −n
Korrekturfaktor benötigen. Aus der standardisierten Zufallsvariablen
N −1
X −μ
Z=
√σ N −n
n N −1
n
Ist N < 0,05, kann der Korrekturfaktor weggelassen werden.
n
Gelegentlich wird noch als ergänzende Voraussetzung N < 0,5 verlangt, denn n sollte
ausreichend groß, aber N nicht zu klein sein, damit noch eine zufällige Auswahl möglich
ist (z. B. Schaich et al., 1982, S. 103)
176 4 Parameterschätzungen
Ist die Varianz unbekannt, verwenden wir die Schätzung s2 . Die erwartungstreue Schätz-
S2 # n$
funktion für die Varianz von X ist nun 1− . Dann ist der Quotient
n N
X −μ
T = #
S n$
√ 1−
n N
Analog zu Formel 4.19 können wir wieder ein näherungsweise normalverteiltes Zufallsin-
tervall angeben.:
Falls n > 30 ist, kann das (1 − α)-Konfidenzintervall für den Erwartungswert eines
unbekannt verteilten Merkmals mit unbekannter Varianz bei einer Auswahl ohne
Zurücklegen näherungsweise angegeben werden als
# #
s n$ s n$
x − z(1 − α/2) · √ 1− ; x + z(1 − α/2) · √ 1− . (4.21)
n N n N
n
Ist N < 0,05, kann der Korrekturfaktor weggelassen werden.
Analog zu Abschnitt 4.3.3 findet man in der Literatur auch die strengere Regel n > 50
n
und N < 0,5 als Voraussetzung für obiges Konfidenzintervall.
Wir interpretieren X: Zahl der Monate, die ein therapierter Alkoholkranker trocken
bleibt, als Zufallsvariable. Über die Verteilung von X ist nichts bekannt, ebenso über
die Varianz. Wir müssen die Varianz also mit s2 schätzen. Das Studium der Daten verrät
uns, dass wir s2 mithilfe des Verschiebungssatzes berechnen können als
n
1
s2 = x2i − n · x2 ,
n−1
i=1
Können wir ein Konfidenzintervall angeben? Es ist n > 30, wir können näherungsweise
n
die Normalverteilung verwenden. Da aber N > 0,05 ist, sollte der Korrekturfaktor bei-
behalten werden. Wir können also mit z(1 − α/2) = z(1 − 0,95) = 1,65 näherungsweise
das Konfidenzintervall aus Formel 4.21 als
178 4 Parameterschätzungen
% %
54 64 54 64
52 − 1,65 · √ 1− ; 52 + 1,65 · √ 1−
64 625 64 625
angeben. Welche Information ziehen wir daraus? Die durchschnittliche Zeit bis zu einem
Rückfall liegt bei therapierten Alkoholkranken mit 90 %iger Wahrscheinlichkeit zwischen
ca. dreieinhalb Jahren und gut fünf Jahren.
Wir gehen von einer binomialverteilten Zufallsvariablen aus und wollen ein Konfidenz-
intervall für den wahren Anteilswert θ der Kugeln erster Sorte ermitteln. Wie in Ab-
schnitt 4.2.5 angegeben, schätzen wir θ mit p = nx . Für das Konfidenzintervall finden wir
in der Literatur eine Fülle von Empfehlungen. Ein „mittelschwerer“ Vorschlag ist:
Bei einer sehr kleinen Stichprobe können wir das Konfidenzintervall exakt angeben als
x
;
(n − x + 1) · f (1 − α2 ; 2n − 2x + 2; 2x) + x
(x + 1) · f (1 − α2 ; 2x + 2; 2n − 2x)
, (4.23)
(x + 1) · f (1 − α2 ; 2x + 2; 2n − 2x) + n − x
wobei f (1 − α
2 ; k1 ; k2 ) das (1 − α/2)-Quantil der F -Verteilung mit k1 und k2 Freiheits-
graden ist.
4.3 Konfidenzintervalle 179
Hier kann nicht so ohne Weiteres ein exaktes Konfidenzintervall wie in Formel 4.23 an-
gegeben werden. Wir können aber festhalten:
Wir kommen nun zu einem sehr wichtigen Thema für angehende Psychologen, den Hy-
pothesentests. In der Forschung wird ein großer Teil der Tätigkeit darin bestehen, über
einen Sachverhalt eine Vermutung anzustellen, die sogenannte Hypothese. Für die nähere
Untersuchung wird Zahlenmaterial erhoben und verarbeitet. Mit Hypothesentests soll die
Vermutung dann untermauert oder ausgeschlossen werden. Es gibt unzählige verschiede-
ne Tests. Sie unterscheiden sich vor allem durch den Parameter, der getestet werden soll,
die Verteilung des Merkmals in der Grundgesamtheit, den Stichprobenumfang. Häufig ist
die Verteilung des Merkmals unbekannt. Wenn man hier Glück hat, das heißt, wenn die
Stichprobe groß genug ist, kann man den Test mithilfe der Normalverteilung näherungs-
weise durchführen. Wenn nicht, können manchmal „primitivere“ Methoden zum Erfolg
führen.
Wir können schon ahnen, dass Hypothesentests eng verwandt mit Konfidenzintervallen
sind. Und wir können in der Tat bei manchen Tests ersatzweise ein Konfidenzintervall
verwenden.
5.1.1 Punkthypothese
Für den Einstieg wollen wir ausnahmsweise ein Beispiel aus der Essenssparte betrachten,
denn beim Essen kann jeder mitreden.
Das durchschnittliche Füllgewicht wird errechnet. Wenn dieses nahe beim geforderten
Durchschnitt 110 liegt, gibt es keinen Anlass, die Abfüllanlage neu zu justieren. Wenn
allerdings der Stichprobenwert weit weg von 110 liegt, sollte eingegriffen werden. Wir
können das in Abbildung 5.1 nachschauen.
m unbekannt
Falls m = 110 ist:
Abb. 5.1: Wenn μ tatsächlich 110 ist, sollte sich das in der Stichprobe wiederfinden.
Und es stellt sich wieder die Frage: Wie nahe ist „nahe bei“, und wie weit weg ist „weit
weg“? Unsere Aufgabe ist im Wesentlichen, ein Intervall um μ = 110 zu legen. Wenn
der Mittelwert der Stichprobendaten in dieses Intervall fällt, kann davon ausgegangen
werden, dass die Anlage noch einwandfrei arbeitet.
Dazu müssen wir ein stochastisches Modell bemühen: Wir definieren die Zufallsvariable
X: Abfüllmenge in Gramm. Um das Beispiel einfach zu halten, setzen wir als bekannt
voraus, dass die Abfüllmenge normalverteilt ist mit der Varianz σ 2 = 64. μ ist unbekannt
und wird mit dem Stichprobenmittel X geschätzt. Wir erinnern uns (Seite 150), dass X
2
ebenfalls normalverteilt ist, und zwar wie N (μ; σn ) = N (μ; 64
16 ) = N (μ; 4).
Wir wollen nun ein Intervall erstellen, in das X mit einer 95%igen Wahrscheinlichkeit
fällt, wenn X tatsächlich einen Erwartungswert μ = 110 hat. Wir bezeichnen die Grenzen
des Intervalls mit xu für die untere Grenze und und xo für die obere Grenze.
H0 : μ = μ0 = 110.
Wir gehen im Folgenden bei allen Schritten von der Voraussetzung aus, dass 110 der
wahre Erwartungswert von X ist. Diese Voraussetzung ist die Nullhypothese H0 .
5.1 Einführung in den Hypothesentest 183
Die komplementäre Hypothese, die vom Gegenteil der Behauptung ausgeht, wäre dann
die Alternativhypothese H1 : μ = 110.
2. Die Spielregeln festlegen: Es wird eine Stichprobe mit n = 16 Elementen erhoben. Die
Wahrscheinlichkeit, dass die Stichprobenstatistik bei Gültigkeit von H0 in den Bereich
[ xu ; xo ] fällt, soll zum Beispiel 0,95 betragen.
3. Die Verteilung von X ermitteln: Für die Berechnung der Intervallgrenzen benötigen
wir die Verteilung von X. Unter H0 ist X normalverteilt mit dem Erwartungswert
μ0 = 110 und der Varianz σ 2 /n = 4.
4. Die Intervallgrenzen herleiten:
Es soll sein
P (xu ≤ X ≤ xo ) = 0,95.
Fällt die Stichprobe x in dieses Intervall, lehnen wir die Hypothese H0 : μ = 110 nicht
ab. Deshalb nennen wir das Intervall den Nichtablehnungsbereich für x. Entsprechend
ist der Bereich außerhalb des Intervalls der Ablehnungsbereich (Abbildung 5.2).
95 %
Ablehnungsbereich xu m0 x
xo Ablehnungsbereich
110
Wir bezeichnen 0,95 wie bei den Konfidenzintervallen wieder mit 1−α. α = 0,05 ist das
Signifikanzniveau. Das ist also die Wahrscheinlichkeit, dass x in den Ablehnungsbe-
reich fällt, obwohl tatsächlich μ = 110 ist. In so einem Fall würde man unnötigerweise
die Anlage überprüfen. Die Produktionsleitung hätte eine falsche Entscheidung ge-
troffen. α ist also die Wahrscheinlichkeit, dass H0 abgelehnt wird, obwohl H0 wahr
ist. Wir würden hier einen Fehler machen, nämlich einen α-Fehler oder Fehler erster
Art. In 5 % aller Stichproben passiert das (Abbildung 5.3).
Um die Eckpunkte des Intervalls konkret zu berechnen, schalten wir wieder auf die
standardnormalverteilte Zufallsvariable Z um. Es gilt nun
P (zu ≤ Z ≤ zo ) = 0,95.
184 5 Hypothesentests
Wie wir wissen (Seite 169), kann dieses Intervall um Z geschrieben werden als
X − μ0
P (−1,96 ≤ ≤ 1,96) = 0,95,
√σ
n
also
X − 110
P (−1,96 ≤ 8 ≤ 1,96) = 0,95
4
bzw.
X − 110
P (−1,96 ≤ ≤ 1,96) = 0,95.
2
Wir lösen die doppelte Ungleichung nach X auf und erhalten
allgemein ausgedrückt
#
α$ σ # α$ σ
P μ0 − z 1 − · √ ≤ X ≤ μ0 + z 1 − ·√ = 1 − α.
2 n 2 n
Bei uns ist das nun
H0: m £ m0 = 0,25
1–a a
95 % 0,05 %
Wenn also der Stichprobenwert x in das Intervall [106,08; 113,92] fiele, könnten wir H0
nicht ablehnen und würden vermuten, dass kein Anlass zur Überprüfung der Anlage
gegeben ist (Abbildung 5.4).
5. Den Stichprobenwert errechnen:
Wir haben im laufenden Produktionsprozess 16 Gläser zufällig ausgewählt und erhal-
ten die Urliste
115 114 108 104 112 96 116 116 111 92 108 102 110 112 104 108.
5.1.2 Bereichshypothese
die durchschnittliche Zahl der Zuschauer von Power to the Bauer eine Million beträgt.
Hier wäre eine Punkthypothese zur Überprüfung weniger geeignet, denn dann dürfte
ja die Zuschauerzahl auch nach oben nicht abweichen. Also wird hier eine sogenannte
Bereichshypothese sinnvoller sein.
Aus einem sehr großen Pool verfügbarer Versuchspersonen sollen zehn Personen zufällig
ausgewählt werden. Sie bekommen eine bestimmte Menge alkoholischer Getränke vorge-
setzt. Nach deren Konsum wird alle Stunde der Blutalkoholpegel gemessen.
Um sich der Sache ganz sicher zu sein, testet Menno die gegenteilige Aussage, nämlich,
dass der durchschnittliche Alkoholabbau höchstens 0,25 ausmacht. Wenn diese Hypothese
abgelehnt wird, kann das Unternehmen sicher sein, dass das Mittel wirkt.
Es soll der Einfachheit halber wieder bekannt sein, dass das Merkmal X: Alkoholabbau
in einer Stunde ( mg 1 mg 1 2
g · h ) normalverteilt ist mit der Varianz 0,00225 [( g · h ) ].
Menno legt ein Signifikanzniveau α = 0,05 fest und prüft die Nullhypothese
H0 : μ ≤ 0,25.
Der Alkoholabbau beträgt höchstens 0,25 Promille pro Stunde. Das ist eine Bereichshypo-
these, genauer eine Höchsthypothese. Die Alternativhypothese ist H1 : μ > 0,25. Darüber
werden wir weiter unten noch mehr erfahren.
Die Prüfgröße X ist normalverteilt mit unbekanntem Erwartungswert und der Varianz
2
V (X) = σn = 0,00225
10 = 0,000225.
Wenn H0 : μ ≤ 0,25 getestet wird, würde ein sehr kleines x die Hypothese bestärken.
Nur ein zu großes x führt zur Ablehnung. Also wird nun das gesamte α auf die rechte
Seite der Normalverteilung gepackt, das heißt, wenn x größer wird als das 0,95-Quantil
der Normalverteilung, würde H0 abgelehnt werden.
5.1 Einführung in den Hypothesentest 187
Menno standardisiert für die konkrete Ermittlung des Ablehnungsbereichs zuerst wieder
die Prüfgröße als
a‘=0,0495
1,64 1,65
Abb. 5.5: Konservatives Testen: Immer das absolut größere Quantil wählen.
Konservatives Testen
Hat man bei einem Hypothesentest die Wahl zwischen zwei benachbarten Quan-
tilen, wählt man das Quantil, das eine Verkleinerung des α-Fehlers bewirkt. Diese
Vorgehensweise wird konservatives Testen genannt.
Bei Quantilen der Standardnormalverteilung wird aus zwei Quantilen der Wert z
gewählt, dessen Absolutwert größer ist.
Ist die Stichprobe x größer als xo , wird H0 abgelehnt. Menno erhält also den Ableh-
nungsbereich für x als (0,27475; ∞).
Bei Bereichshypothesen nennt man den Trennwert zwischen Nichtablehnungs- und Ab-
lehnungsbereich auch kritischen Wert.
Menno hat jetzt alle Rahmenbedingungen festgezurrt und bittet nun zehn zufällig aus-
gewählte Personen, sich dem Test zu unterziehen. Er erhält die Einzelwerte
0,12 0,24 0,09 0,03 0,24 0,09 0,21 0,18 0,15 0,15.
Was wäre, wenn Menno einen Durchschnitt von 0,26 erhalten hätte? Das ist ja mehr als
0,25. H0 wird aber erst beim kritischen Wert von 0,27475 abgelehnt. Man würde also
davon ausgehen, dass der Stichprobenwert deutlich höher als 0,25 sein muss, damit die
Hypothese abgelehnt wird, das heißt, damit Dr. Dodo sein Medikament an den Mann
bringt.
Warum ist α eigentlich ein Fehler? Und welche Arten von Fehlern gibt es bei einem
Hypothesentest?
α-Fehler oder Fehler erster Art: α ist die Wahrscheinlichkeit, dass der Stichprobenwert
in den Ablehnungsbereich fällt, obwohl H0 wahr ist. Wir würden hier irrtümlicherweise
die Hypothese ablehnen. Das kommt in α · 100 % aller Stichproben vor. Diese Ablehnung
5.1 Einführung in den Hypothesentest 189
kann durchaus schwerwiegende Konsequenzen haben, etwa wenn eine Investition nicht
getätigt wird, weil der Hypothesentest eine dauerhafte Zahlungsunfähigkeit des Unter-
nehmens voraussagt, oder wenn ein Medikament nicht auf den Markt gebracht wird, weil
der Test dem Medikament Wirkungslosigkeit bescheinigt.
β-Fehler oder Fehler zweiter Art: β ist die Wahrscheinlichkeit, dass der Stichproben-
wert in den Nichtablehnungsbereich fällt, obwohl die Hypothese falsch ist. Wir wollen
uns den β-Fehler genauer ansehen.
Bemerkung: Körnlein könnte auch testen, dass höchstens eine Million Zuschauer die Sen-
dung gucken und bei Ablehnung dieser Hypothese das Sponsoring fortsetzen. Das würde
allerdings SatLight unangemessen benachteiligen, da hier ein sehr hoher Durchschnitts-
wert in der Stichprobe verlangt würde.
Es soll bekannt sein, dass die Zuschauerzahl X (in Mio.) normalverteilt ist mit einem
unbekannten Erwartungswert und mit der Varianz 0,2916 (Mio. Personen)2 . Zu prüfen
ist also die Nullhypothese: H0 : μ ≥ μ0 = 1 (α = 0,05).
Da wir es mit einer Mindesthypothese zu tun haben, packen wir α nach links und erhalten
zunächst als kritischen Wert für z = x−μ
√σ
0
das 0,05-Quantil z(α) = −z(1 − α) = −1,65,
n
wie wir oben schon gesehen haben. Der dazu gehörige kritische Wert für X ist dann
σ
xα = μ0 − z(1 − α) · √ = 1 − 1,65 · 0,0324 = 1 − 1,65 · 0,18 = 0,703.
n
Ist x < 0,703, wird H0 abgelehnt, und der Sponsor Körnlein kann ausschließen, dass die
garantierte durchschnittliche Zuschauerzahl über einer Million liegt.
Die Stichprobe ergab für die durchschnittliche Zuschauerzahl den Wert x = 0,9. Die
Hypothese würde hier nicht abgelehnt werden, und der Futtermittelhersteller würde wei-
terhin Werbeerträge einbringen.
190 5 Hypothesentests
Wir gehen also bei der Nullhypothese hilfsweise davon aus, dass der wahre Erwartungs-
wert μ0 = 1 beträgt, und legen mit dieser Information den Ablehnungsbereich, hier
(−∞; 0,703), fest. Wenn tatsächlich μ = 1 ist, würde in 5 % aller Stichproben H0 fälsch-
licherweise abgelehnt, das heißt, Körnlein würde das Sponsoring irrtümlicherweise ein-
stellen. Das wäre natürlich für SatLight ärgerlich, für Körnlein aber auch, denn er könnte
durch Power to the Bauer möglicherweise neue Kunden gewinnen.
m1 = 0,8 m0 = 1
0,705
a= 0,95
0,05
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6
xa=0,703 Zuschauerzahl in Mio. x
Wie sieht aber die Situation aus, wenn in Wahrheit die wahre durchschnittliche Zuschau-
erzahl nur μ1 = 0,8 beträgt? Körnlein hofft, dass dann folgerichtig die Nullhypothese
abgelehnt wird. In Abbildung 5.6 sehen wir die vermutete Verteilung mit μ0 = 1. Wenn
x größer als 0,703 ist, wird H0 nicht abgelehnt. Links davon ist die wahre Verteilung mit
der durchschnittlichen Zuschauerzahl μ1 = 0,8. Wie groß ist die Wahrscheinlichkeit, dass
die falsche Nullhypothese nicht abgelehnt wird? Wir suchen also die Wahrscheinlichkeit,
dass x > 0,703 bei einem E(X) = 0,8 ist. Der Einfachheit halber soll die Varianz unver-
ändert sein. Jetzt ist X in Wahrheit normalverteilt wie N (0,8; 0,0324), und wir erhalten
die Wahrscheinlichkeit
0,703 − 0,8
P (X ≥ 703) = 1 − P (X ≤ 0,703) = 1 − Φ
0,18
Es würden also bei einer tatsächlich existierenden mittleren Zuschauerzahl von 0,8 Millio-
nen ca. 70 % aller x-Werte größer als 0,703 werden, das heißt, die Nullhypothese würde in
70 % aller Stichproben nicht abgelehnt werden. Die Wahrscheinlichkeit einer irrtümlichen
Fortsetzung des Sponsorentums ist hier sehr hoch.
5.1 Einführung in den Hypothesentest 191
Wir nennen diese Wahrscheinlichkeit, nämlich dass H0 nicht abgelehnt wird, obwohl H0
falsch ist, einen β-Fehler oder Fehler zweiter Art. Im Gegensatz zu α, das unverrückbar
fest ist, ergibt sich natürlich für jeden denkbaren Wert μ1 ein eigener β-Fehler. Des-
halb geben wir beim β-Fehler zweckmäßigerweise den dazugehörigen Parameter an, also
beispielsweise
β(0,8) = 0,705.
Wir können uns überlegen, dass β umso größer ist, je näher μ1 an μ0 ist. Wir wollen
aber auch hier den Fehler klein halten. Wie groß ist denn β, wenn tatsächlich μ1 = 0,6
ist, wenn also im Durchschnitt nur 600 000 Zuschauer Power to the Bauer gucken? Wir
erhalten hier
0,703 − 0,6
β(0,6) = P (X ≥ 0,703|μ1 = 0,6) = 1 − P (X ≤ 0,703) = 1 − Φ
0,18
≈ 1 − Φ(0,57) = 0,2836.
Wenn 0,6 der wahre Parameter ist, würde H0 immer noch fälschlicherweise in ca. 30 %
aller Stichproben nicht abgelehnt werden.
Nun können wir eine Funktion β(μ1 ) grafisch darstellen, mit den verschiedenen μ1 -Werten
auf der x-Achse und dem resultierenden β-Fehler auf der y-Achse. Diese Funktion ist die
sogenannte Operationscharakteristik und ist in Abbildung 5.7 wiedergegeben.
b(m1)
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
m1
Wir können hier unsere bereits berechneten β-Fehler erkennen. Wir sehen außerdem,
dass β für μ = 1 gleich 0,95 ist. Es ist nämlich die Wahrscheinlichkeit, dass H0 nicht
192 5 Hypothesentests
abgelehnt wird, gleich 1 − α. Die Funktion ist hier streng monton steigend, das heißt, mit
steigendem μ1 steigt auch β.
Bei einer Höchsthypothese erhielten wir eine fallende Operationscharakteristik, bei einer
Punkthypothese eine U-förmige Funktion.
In unserer Operationscharakteristik (Abbildung 5.7) ist vor allem der Bereich der μ1 -
Werte von Interesse, für den β einen bestimmten Höchstwert hat, beispielsweise ein β-
Fehler von höchstens 0,15. Dies entspräche einem μ1 ≈ 0,52. Dieser Wert ist allerdings
sehr klein, denn es sollte eigentlich schon bei einem wesentlich höheren μ1 die Null-
hypothese abgelehnt werden. Das Problem ist offensichtlich, dass sich die alternativen
Normalverteilungen stark durchmischen. Idealerweise sollte der Nichtablehnungsbereich
weiter weg von den μ1 -Verteilungen sein, damit die Ablehnung möglichst früh erfolgt.
Wie bekommen wir den Nichtablehnungsbereich „kleiner“? Er lautet in unserem Fall
σ
μ0 − z(1 − α) · √ ; ∞ .
n
Wir beabsichtigen, den kritischen Wert nach rechts zu verschieben. Wie können wir das
erreichen? Ein Blick auf die obige Formel zeigt es uns: Der Ausdruck z(1 − α) · √σn muss
kleiner werden. Wir könnten
Der β-Fehler hat sich von 0,7 auf 0,42 verkleinert – was aber immer noch sehr groß ist.
Abbildung 5.8 zeigt, dass durch die Erhöhung von n die Varianzen der Normalvertei-
lungen kleiner geworden sind. Die Verteilungen durchmischen sich nicht mehr so stark,
5.1 Einführung in den Hypothesentest 193
0,42
0,95
0,05
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6
xa=0,8218 Zuschauerzahl in Mio. x
die β-Fehler sind deutlich kleiner geworden. Man nennt einen Test mit kleinem β-Fehler
daher trennscharf .
Angenommen, wir wünschen für μ1 = 0,8 einen β-Fehler von 0,1. Wie groß muss hier der
Stichprobenumfang sein? Der kritische Wert für den Test ist
σ
xu = μ0 − z(1 − α) · √ .
n
Wir erhalten nun die Wahrscheinlichkeit, dass H0 nocht abgelehnt wird, obwohl μ1 = 0,8
wahr ist, als
bzw.
xu − μ1
Φ = 0,9.
√σ
n
Wenn wir für 0,9 das ensprechende Quantil der Standardnormalverteilung verwenden,
erhalten wir
xu − μ1
= 2,19.
√σ
n
194 5 Hypothesentests
√
Das lösen wir nun zunächst nach n auf:
σ
xu − μ1 = 1,65 · √ .
n
Mit xu = μ0 − 2,19 · √σn gibt das
σ σ
μ0 − 2,19 · √ − μ1 = 2,19 · √ ,
n n
in Zahlen
σ σ
1 − 2,19 · √ − 0,8 = 2,19 · √ ,
n n
was zusammengefasst und umgestellt mit σ 2 = 0,2916
σ √ 2
2 · 2,19 √ = 0,2 ⇒ n = · 2,19 · 0,2916 ≈ 6,97
n 0,2
ergibt.
√
Es ist ( n)2 = 48,53. Da wir nur ganzzahlige Werte von n brauchen können, runden
wir auf 49 auf. Wir brauchen also einen Stichprobenumfang von 49, um bei einem wah-
ren μ1 = 0,8 einen β-Fehler von 0,1 zu erhalten. Soll dieser Fehler noch kleiner werden,
müssen wir entsprechend n noch weiter erhöhen. So muss beispielsweise bei einem ge-
wünschten β-Fehler von 0,05 der Stichprobenumfang 80 betragen.
Wir hatten oben schon die Einteilung des Hypothesenbereichs in Nullhypothese und Al-
ternativhypothese gesehen. Fassen wir die Hypothese als Menge auf, muss die Alternativ-
hypothese das Komplement der Nullhypothese sein. Was hat es damit auf sich? Da wir
erst den Test auf μ kennen, wollen wir mit μ weiter argumentieren.
Fällt der Prüfwert in den Ablehnungsbereich, wird die Nullhypothese abgelehnt. Fällt er
dagegen in den Nichtablehnungsbereich, gilt es in der Statistik als extrem unfein zu sagen,
dass die Hypothese angenommen wird – auch wenn man das gelegentlich in Fachbüchern
liest.
Der β-Fehler ist also die Wahrscheinlichkeit, dass die Nullhypothese nicht abgelehnt wird,
obwohl in Wahrheit die Alternativhypothese wahr ist, das heißt, obwohl in Wahrheit μ1
vorliegt. β kann nicht eindeutig quantifiziert werden. Das haben wir schon auf Seite
191 gesehen. Es gibt nämlich für eine Nullhypothese beliebig viele β-Fehler, je nach
alternativem Parameter μ1 . Und schlimmer noch – ein β-Fehler kann sehr groß werden.
So erscheint es wenig zielführend, eine Nullhypothese anzunehmen. Im Gegensatz dazu
ist der α-Fehler eindeutig festgelegt, er beträgt immer α und ist die Wahrscheinlichkeit,
dass wir die Nullhypothese fälschlicherweise ablehnen.
5.1 Einführung in den Hypothesentest 195
Wollen wir uns einer Aussage also sicher sein, sollte sie abgelehnt werden. Das bedeutet:
Haben wir eine These, die verifiziert werden soll, formulieren wir in der Nullhypothese
die gegenteilige Aussage. Die Alternativhypothese beinhaltet somit unsere These. Wird
dann die Nullhypothese abgelehnt, können wir zu (1 − α) · 100 % sicher sein, dass die
Alternativhypothese gilt. Wir nennen so einen Test einen Signifikanztest. Denn hier wird
unsere These durch eine signifikante Abweichung des Prüfwertes x vom hypothetischen
Parameterwert μ0 bestätigt.
Wir haben das in Beispiel 5.2 gesehen: Es sollte untersucht werden, ob der durchschnitt-
liche Alkoholabbau pro Stunde tatsächlich mindestens 0,25 Promille beträgt. Die Alter-
nativhypothese ist H1 : μ > 0,25. Wir testen die gegenteilige Aussage als H0 : μ ≤ 0,25.
Da die Wahrscheinlichkeit einer irrtümlichen Ablehnung von H0 nur klein ist, können
wir die Ablehnung als deutliches Signal für die Falschheit der Nullhypothese deuten. Wir
würden also in diesem Fall die Alternativhypothese als zutreffend ansehen.
Allerdings ist eine konsequente Befolgung obiger Empfehlung nicht durchgängig möglich.
Was machen wir beispielsweise, wenn wir als These auf einen bestimmten Wert von μ
abzielen? Hier müssten wir die Alternativhypothese als Punkthypothese und die Nullhy-
pothese als H0 : μ = μ0 testen. Wie sollen wir so eine Hypothese testen? Hier behilft man
sich mit der Begründung, dass man von einem bekannten Parameter μ0 ausgeht. Die
These ist nun, dass sich dieser Parameter geändert hat. Also ist nun unsere Alternativ-
hypothese H1 : μ = μ0 und die korrespondierende Nullhypothese H0 : μ = μ0 . Fällt dann
der Prüfwert in den Nichtablehnungsbereich, würden wir korrekt sagen, dass aufgrund
des Testergebnisses die Nullhypothese nicht abgelehnt werden kann.
Betrachten wir dazu Beispiel 5.1. Wir würden folgendermaßen argumentieren: Wir gehen
von einem bekannten durchschnittlichen Abfüllgewicht μ = 110 aus. Wir überprüfen die
These, dass sich das Abfüllgewicht geändert hat, und stellen die gegenteilige Nullhypo-
these H0 : μ = 110 auf. Fällt der Prüfwert in den Nichtablehnungsbereich, können wir
sagen, es spricht nichts dafür, dass sich die durchschnittliche Abfüllmenge geändert hat.
In der gängigen Literatur steht dann häufig als Entscheidungsregel: „H0 beibehalten.“
Natürlich entspricht das verbal dem verpönten „H0 annehmen“, aber wir wollen dann
zumindest nicht vergessen, dass wir hier das massive Problem des β-Fehlers haben.
Ein weiteres Problem sind Tests, die das Vorhandensein von bestimmten Eigenschaften
der Verteilung testen sollen, etwa ein Test auf Normalverteilung. Wir testen so etwas
natürlich nur, wenn wir Daten haben, für die methodisch eine Normalverteilung gefordert
wird. Das heißt, wird der Test abgelehnt, sind wir zwar auf der sicheren Seite, aber wir
haben eigentlich nichts von dieser Erkenntnis. So eine Art Test wird konfirmatorischer
Test genannt, weil wir eine These durch die Nullhypothese bestärken wollen. Nachdem
wir hier die Nullhypothese quasi annehmen, wird empfohlen, dann wenigstens den α-
Fehler einigermaßen groß zu wählen. Damit fällt der Prüfwert relativ schnell in den
Ablehnungsbereich und beugt so einem hohen β-Fehler vor.
196 5 Hypothesentests
Eine brauchbare Regel wäre, die vermutete oder gewünschte These zur Alternativhy-
pothese zu erklären, wenn von der Gültigkeit der These sehr viel abhängt. Beispiele
wären die Wirksamkeit eines Medikaments oder einer Behandlung oder die zukünftige
Zahlungsfähigkeit eines Unternehmens. Hier sind hohe Anforderungen an den Test ge-
stellt. So muss beispielsweise bei einem Test H0 : μ ≤ μ0 der Prüfwert weit höher als der
kritische Wert xo sein, damit die Nullhypothese abgelehnt wird.
Es gibt aber auch viele Analysen, bei denen so eine strenge Auslegung unangebracht
ist. Überlegen wir: Ein Lieferant versichert, dass in seiner Lieferung höchstens 10 %
defekte Teile sind. Wenn wir seine Behauptung „Der wahre Anteil der defekten Tei-
le ist höchstens 10 %“ als Alternativhypothese nähmen, also H0 : „Der wahre An-
teil der defekten Teile ist mindestens 10 %“, dürfte in einer Stichprobe der Anteil
beispielsweise höchstens 9 % sein, damit die Nullhypothese abgelehnt und die Liefe-
rung angenommen wird. Also müsste der Lieferant das Soll immer stark übererfül-
len, was ihn unangemessen benachteiligen würde. Daher würden wir hier testen H0 :
„Der wahre Anteil der defekten Teile ist höchstens 10 %“ und die Lieferung annehmen,
wenn die Stichprobe etwa höchstens 11 % defekte Teile enthält. Ein Beispiel für die-
se Vorgehensweise ist der Fall mit den Einschaltquoten von Power to the Bauer (Bei-
spiel 5.3).
Diesen Fall haben wir in der Einführung in Abschnitt 5.1.1 schon ausführlich gezeigt. Er
soll allerdings zur Vervollständigung der Liste hier noch einmal kurz aufgeführt werden.
5.2 Test eines Erwartungswertes 197
Der Fall, dass der Erwartungswert zwar unbekannt, aber die Varianz bekannt ist, ist
wohl eher untypisch. In der Tat dient dieses etwas weltfremde Beispiel vor allem der ein-
führenden Erläuterung des Testverfahrens. Wir werden jetzt den Fall betrachten, dass X
normalverteilt ist, wir aber die Varianz des Merkmals nicht kennen. Um eine Prüfgröße
analog zu Abschnitt 5.2.1 aufstellen zu können, müssen wir die Varianz σ 2 der Grundge-
samtheit mit der Stichprobenvarianz s2 schätzen. Die Stichprobenvarianz ist selbst eine
Zufallsvariable S 2 , wie wir aus Abschnitt 4.2.2 wissen. Die resultierende Prüfgröße
X − μ0
T =
√S
n
ist nicht mehr normalverteilt, sondern t-verteilt mit n − 1 Freiheitsgraden. Die Eigen-
schaften der t-Verteilung sind in Abschnitt 4.1.3 aufgeführt. Da die t-Verteilung in einigen
Punkten ähnlich der Normalverteilung ist, können wir als Anleitung für den Test des Er-
wartungswertes folgendes Vorgehen angeben:
Hier kann auch die Verteilung der Prüfgröße nicht mehr unmittelbar angegeben werden.
Als Faustregel können wir verwenden:
X − μ0
Z=
√S
n
näherungsweise standardnormalverteilt.
verwendet.
H0 : E(X) = μ0 wird abgelehnt, falls z < −z(1 − α2 ) oder z > z(1 − α2 ) ist.
H0 : E(X) ≤ μ0 wird abgelehnt, falls z > z(1 − α) ist.
H0 : E(X) ≥ μ0 wird abgelehnt, falls z < −z(1 − α) ist.
5.2 Test eines Erwartungswertes 199
Uns fällt auf, dass hier statt μ die Bezeichnung E(X) verwendet wird. μ ist für eine
normalverteilte Zufallsvariable reserviert. Lediglich der Hypothesenwert wird als μ0 be-
zeichnet, weil hier „E(X)“ mit einer Null zu sperrig wird.
Bemerkungen:
Häufig wird für die Mindestzahl der Beobachtungen n > 50 verlangt. Die Mindestzahl
hängt natürlich von der gewünschten Genauigkeit des Tests ab.
Liegen zu wenige Beobachtungen für diesen Test vor, gibt es unter bestimmten Vor-
aussetzungen Tests, die auf eine Verteilung des Merkmals verzichten. Wir nennen sie
verteilungsfreie Tests. Allerdings sind diese Testverfahren sehr grob und wenig trenn-
scharf.
X −μ
Z= 0
√S
n
1− N
n
verwenden.
Falls n > 30 erfüllt ist, wird die Realisation der Prüfgröße Z verwendet:
x−μ
z= # 0 $ .
s n
√ 1−
n N
200 5 Hypothesentests
H0 : E(X) = μ0 wird abgelehnt, falls z < −z(1 − α2 ) oder z > z(1 − α2 ) ist.
H0 : E(X) ≤ μ0 wird abgelehnt, falls z > z(1 − α) ist.
H0 : E(X) ≥ μ0 wird abgelehnt, falls z < −z(1 − α) ist.
Ist außerdem Nn
< 0,05, kann der Korrekturfaktor 1 − N n
weggelassen werden, das
heißt, wir erhalten näherungweise ein Modell mit Zurücklegen.
Analog zu Abschnitt 4.3.3 findet man in der Literatur auch die strengere Regel n > 50
n
und N < 0,5 als Voraussetzung für obigen Test.
Wir gehen jetzt von einem Urnenmodell mit zwei Sorten Kugeln aus. Wir wünschen In-
formationen über den unbekannten Anteil θ der Kugeln erster Sorte in der Urne. Wir
bezeichnen X als Zahl der Kugeln erster Sorte bei n gezogenen Kugeln. Wenn die Zahl
der Kugeln in der Urne sehr groß oder gar unbekannt ist, gehen wir von einem Mo-
dell mit Zurücklegen aus. X ist dann binomialverteilt. Hier können wir den Anteil der
Grundgesamtheit mit dem Anteil der Kugeln erster Sorte in der Stichprobe schätzen. Die
Schätzfunktion ist der Anteil P = X
n . Wir können das in Abschnitt 4.2.5 nachlesen.
Wir könnten eine Prüfgröße für P angeben, einfacher ist aber, X zu verwenden. Ist der
Stichprobenumfang groß genug, ist die Prüfgröße näherungsweise standardnormalverteilt.
x − n · θ0
z= .
n · θ0 · (1 − θ0 )
Wenn n zu klein für eine Approximation ist (Abschnitt 3.4.4), müssen wir die exakte
Binomialverteilung für den Test verwenden. Da heutzutage die Verteilungswerte schnell
mit Tabellenkalkulationsprogrammen ermittelt werden können, ist dieses Vorgehen nicht
mehr so aufwendig wie noch vor einigen Jahren. Wir können für die Festlegung des Ableh-
nungsbereichs die F -Verteilung oder die Binomialverteilung verwenden. Wir wollen hier
die Binomialverteilung nehmen und für das Verständnis zuerst ein Beispiel verwenden.
Analysieren wir die Problemstellung: Wir haben eine dichotome Grundgesamtheit vor
uns, nämlich Patienten, die rückfällig oder nicht rückfällig wurden. Da die Gesamtzahl
aller infrage kommenden Patienten nicht gegeben ist, können wir ein Entnahmemodell mit
Zurücklegen annehmen. Wir definieren nun die Zufallsvariable X: Zahl der rückfälligen
Patienten unter n = 15. X ist binomialverteilt mit den Parametern n = 15 und einem
unbekannten Anteilswert θ von rückfälligen Patienten. Wir formulieren die Nullhypothese
„umgekehrt“ zu dem erhofften Ergebnis und stellen die Nullhypothese auf:
H0 : θ ≥ θ0 = 0,3.
H1 : θ < 0,3.
9
Die Verwendung einer näherungsweise normalverteilten Prüfgröße ist wegen 0,3·0,7 > 15
nicht sinnvoll. Also überlegen wir uns: X ist binomialverteilt. Ist der Stichprobenwert
x groß, unterstützt er die Nullhypothese. Wird dagegen x klein, muss der Anteil der
Rückfälligen eher klein als groß sein. Also werden wir den Ablehnungsbereich „links“
platzieren und einen kritischen Wert xα bestimmen, der zur Ablehnung von H0 führt.
Bei der Binomialverteilung haben wir es mit einer diskreten Zufallsvariablen zu tun.
Der Glücksfall, dass α genau einem errechneten F (xi ) gleicht, wird daher eher selten
auftreten. α fällt also meistens zwischen zwei Verteilungswerte. In Tabelle 5.1 ist eine
Wahrscheinlichkeitstabelle für X angegeben.
202 5 Hypothesentests
x P (X = x) P (X ≤ x) P (X ≥ x)
0 0,0047 0,0047 1,0000
1 0,0305 0,0353 0,9953
2 0,0916 0,1268 0,9647
3 0,17 0,2969 0,8732
4 0,2186 0,5155 0,7031
5 0,2061 0,7216 0,4845
6 0,1472 0,8689 0,2784
7 0,0811 0,95 0,1311
8 0,0348 0,9848 0,0500
9 0,0116 0,9963 0,0152
10 0,003 0,9993 0,0037
11 0,0006 0,9999 0,0007
12 0,0001 1 0,0001
13 0 1 0,0000
14 0 1 0,0000
15 0 1 0,0000
Die Analyse der 15 Patienten ergab nun, dass drei von ihnen rückfällig geworden waren,
was einem Stichprobenanteil von 20 % entspricht. Das liegt deutlich unter 30 %. Die
Nullhypothese würde aber trotzdem nicht abgelehnt werden.
Zu Übungszwecken testen wir nun noch die Hypothese, dass die Rückfallquote höchstens
30 % beträgt, hier mit einem α = 0,1, also
H0 : θ ≤ θ0 = 0,3.
5.3 Test des Anteilswertes einer dichotomen Grundgesamtheit 203
Jetzt wird der α-Fehler rechts platziert. Wir müssen also die Wahrscheinlichkeiten
b(x|15; θ0 ) ab 15 absteigend x addieren, um auf den kritischen Wert xα zu kommen.
In Tabelle 5.1 sind in der Spalte P (X ≥ x) die kumulierten Wahrscheinlichkeiten aufge-
führt. Abbildung 5.9 zeigt das Vorgehen noch einmal. Wir sehen, dass P (X ≥ 8) noch
0,05 ergibt und P (X ≥ 7) schon 0,1311. Um den α-Fehler nicht mutwillig zu vergrö-
ßern, wählen wir als kritischen Wert für die Ablehnung xα den x-Wert 8. Ergibt also die
Stichprobe einen x-Wert von mindestens 8, lehnen wir die Nullhypothese ab. Wenn wir
übrigens ein Signifikanzniveau von α = 0,05 vorgegeben hätten, wäre auch hier 8 der
kritische Wert für die Ablehnung von H0 . In diesem Fall würde der tätsachliche α-Fehler
genau 0,05 betragen.
0,2186
0,2500
0,2061
a=0,01
0,1700
0,2000
0,1472
0,1311
0,1500
{{ {
0,0916
0,0811
0,1000
0,0500
0,0348
0,0305
0,0500
0,0116
0,0047
0,0030
0,0006
0,0001
0,0000
0,0000
0,0000
0,0000
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Ablehnungsbereich
Abb. 5.9: Ablehnungsbereich der Hypothese H0: θ ≤ 0,3 durch konservatives Testen.
Wir gehen von einem Urnenmodell mit Zurücklegen aus. Die Prüfgröße X: Zahl der
Kugeln erster Sorte in der Stichprobe ist binomialverteilt mit den Parametern θ0
und dem Stichprobenumfang n.
204 5 Hypothesentests
Bemerkung: Wenn uns die Verrenkungen mit 1 − B(r − 1|n; θ0 ) ≤ α zu verwirrend sind,
addieren wir einfach die Wahrscheinlichkeiten von oben auf, wie in Abbildung 5.9 gezeigt.
Modellhaft betrachten wir ein Urne mit insgesamt N vielen Kugeln und M vielen Ku-
geln erster Sorte. Von Interesse ist der Anteilswert θ = M
N . Analog zu Abschnitt 5.3.1
verwenden wir für genügend großes n eine standardnormalverteilte Prüfgröße Z.
x − n · θ0
z= . (5.1)
−n
n · θ0 · (1 − θ0 ) · NN −1
Auch hier kann bei sehr kleinen Fallzahlen anhand der hypergeometrischen Verteilung
ein exakter Ablehnungsbereich ermittelt werden. Mithilfe eines Tabellenkalkulationspro-
gramms ist das kein Problem.
Wir schicken voraus, dass Helga nur von einer Katze pro Haushalt ausgeht, um das Bei-
spiel für uns nicht unnötig zu verkomplizieren. Sie definiert eine Zufallsvariable X: Zahl
der sozialisierten Katzen unter den 60 erhobenen. Die Grundgesamtheit umfasst nur 200
Elemente, hier Katzen. Helga muss jetzt von einem Entnahmemodell ohne Zurücklegen
ausgehen, denn jede ausgewählte Katze verkleinert die Grundgesamtheit um ein Element.
Die Grundgesamt ist bezüglich X dichotom. Die Schlagworte Modell ohne Zurücklegen
und dichotome Grundgesamtheit sagen uns, dass X hypergeometrisch verteilt ist mit den
Parametern N = 200, n = 60 und einer unbekannten Zahl von sozialisierten Katzen M .
Der Anteilswert der Kugeln erster Sorte ist θ = MN.
Helga könnte analog zu Beispiel 5.4 den Ablehnungsbereich für den Test mithilfe der
hypergeometrischen Verteilung exakt festlegen. Obwohl das heutzutage für den Besitzer
einer Tabellenkalkulation kein Problem mehr ist, zieht Helga eine Approximation mithilfe
der Normalverteilung vor. Kann sie approximieren? Es ist
9 n 60
n> ≈ 45 und = = 0,3 < 0,5,
0,7 · 0,3 N 200
und Helga kann die Prüfgröße von Formel 5.1 verwenden. Darf sie den Korrekturfaktor
weglassen? Es ist
n
= 0,3 > 0,05.
N
Also sollte Helga nicht vom Modell ohne Zurücklegen abrücken.
Wie legt sie bei einer Nullhypothese H0 : θ ≤ θ0 = 0,7 den Ablehnungsbereich fest? Ein
kleiner x-Wert entspricht einem kleinen θ und unterstützt die Nullhypothese. Ein sehr
großer x-Wert entspricht einem großen θ und führt zur Ablehnung. Also siedelt man den
206 5 Hypothesentests
Ablehnungsbereich im oberen Teil der Verteilung an. Die Nullhypothese wird abgelehnt,
wenn die Realisation der Prüfgröße
x − n · θ0
z= > z(1 − α) = 1,65
N −n
n · θ0 · (1 − θ0 ) ·
N −1
ergibt. Es hatten 48 Tierfreunde berichtet, dass die Katzen sozialisiert worden waren.
Das entspricht einem Stichprobenwert von
48 − 60 · 0,7
z= ≈ 2,02.
200 − 60
60 · 0,7 · 0,3 ·
199
Die Nullhypothese wird also abgelehnt, und Helga kann davon ausgehen, dass der Anteil
der sozialisierten Katzen tatsächlich mindestens 70 % beträgt.
Die Varianz ist ein Indikator für die Streubreite eines Merkmals. Sie kann auch als Maß
für den Informationsgehalt von Daten interpretiert werden.
1
n
s2 = · (xi − x)2 .
n−1
i=1
1
n
S2 = · (Xi − X)2 . (5.2)
n−1
i=1
5.4 Test der Varianz 207
Gehen wir von einer normalverteilten Grundgesamtheit aus, besteht die Varianz im We-
sentlichen aus einer Summe von quadrierten normalverteilten Zufallsvariablen. Wir kön-
nen für S 2 keine unmittelbare Verteilung angeben, aber die lineare Transformation
S2
Y = (n − 1) · (5.3)
σ02
ist χ2 -verteilt mit n − 1 Freiheitsgraden. In Abschnitt 4.1.1 sind die Eigenschaften der
χ2 -Verteilung beschrieben.
Wir verwenden für den Varianztest unter H0 die obige Prüfgröße in Gleichung 5.3. Auf-
grund der Asymmetrie der Verteilung müssen wir das untere Quantil und das obere
Quantil getrennt voneinander ermitteln. Wir bezeichnen mit χ2 (p; n − 1) das p-Quantil
der χ2 -Verteilung mit n − 1 Freiheitsgraden.
s2
y = (n − 1) · . (5.4)
σ02
122 124 118 123 135 117 143 158 131 148 132 132 118 136 134
132 117 123 131 136 120.
208 5 Hypothesentests
Verona testet bei einem Signifikanzniveau von 0,01, dass die Varianz des IQ von Personen
höherer Intelligenz gleich der bekannten Varianz 225 ist:
H0 : σ 2 = 225.
Verona berechnet nun den Mittelwert x = 130 und die Stichprobenvarianz s2 = 116,4
(bitte nachrechnen!). Die Prüfgröße erhält den Wert
s2 116,4
y = (n − 1) · = 20 · ≈ 10,35.
σ02 225
Was wäre, wenn Verona bei α = 0,1 testen würde: H0 : σ 2 ≥ 225? H0 wird abgelehnt,
falls y < χ2 (α; n − 1) = χ2 (0,1; 20) = 12,44 ist. Die Hypothese würde mit y = 10,35
abgelehnt werden.
Wir bezeichnen mit X1 die Zahl der Zigaretten, die ein Raucher mit Medikament täglich
raucht, und mit X2 die Zahl der Zigaretten, die ein Placeboempfänger täglich raucht.
Die beiden Zufallsvariablen sind normalverteilt.
Wir interessieren uns dafür, ob die durchschnittliche Zahl der gerauchten Zigaretten von
medikamentierten Versuchspersonen gleich der von Placeboempfängern ist. Wir testen
also
H0 : μ1 = μ2 .
Nun benötigen wir noch eine geeignete Prüfgröße, denn mit der obigen Hypothesenstel-
lung können wir wenig anfangen. H0 lässt sich umformen zu
H0 : μ1 − μ2 = 0.
Wie schätzen wir das? Wir verwenden die arithmetischen Durchschnitte x1 und x2 , den
durchschnittlichen Zigarettenkonsum eines Rauchers. Wir konstruieren also eine Zufalls-
variable D = X 1 − X 2 (D wie Differenz). Ihren Erwartungswert E(D) = μ1 − μ2 be-
zeichnen wir als δ (= „delta“, die griechische Entsprechung zu d). Außerdem hat D die
– vorläufig nur angedeutete – Varianz V (D). Wir standardisieren D wie gewohnt als
D − E(D) (X 1 − X 2 ) − (μ1 − μ2 ) D−δ
= = .
V (D) V (D) V (D)
Wäre die Varianz von D bekannt, hätten wir aufgrund der Reproduktivität der Nor-
malverteilung eine normalverteilte Prüfgröße. Da wir die Varianz von D aber schätzen
müssen, erhalten wir eine t-verteilte Prüfgröße. Nun ist die t-Verteilung nicht repro-
duktiv, was heißen soll, dass wir bei der Ermittlung der Verteilung von D Probleme
bekommen. Schuld sind die geschätzten Varianzen. Es gibt zwei Möglichkeiten für einen
befriedigenden Ansatz:
Die Varianzen sind gleich. In diesem Fall können wir so tun, als ob wir nur eine Varianz
vorliegen haben, und die Ermittlung der Verteilung ist kein Problem.
Die Varianzen sind ungleich. Hier können wir keine exakte Verteilung angeben. Wir
haben eine t-Verteilung mit einer unbekannten Zahl von Freiheitsgraden, die nähe-
rungsweise bestimmt werden.
H0 : δ = 0 bzw. H0 : μ1 − μ2 = 0 bzw. H0 : μ1 = μ2 ,
H0 : δ ≥ 0 bzw. H0 : μ1 − μ2 ≥ 0 bzw. H0 : μ1 ≥ μ2 ,
H0 : δ ≤ 0 bzw. H0 : μ1 − μ2 ≤ 0 bzw. H0 : μ1 ≤ μ2 .
H0 : δ = δ0 oder H0 : δ ≤ δ0 oder H0 : δ ≥ δ0
Sind die Varianzen gleich, kommt folgerichtig nur eine Varianz in den Nenner der Prüfgrö-
ße. Wir berechnen also aus allen Daten die gemeinsame Stichprobenvarianz s2 , die auch
gepoolte Varianz genannt wird. Wir bezeichnen die Daten aus der ersten Grundgesamt-
heit mit x1i (i = 1, . . . , n1 ) und die der zweiten Grundgesamtheit mit x2i (i = 1, . . . , n2 ).
Die Gesamtzahl aller Beobachtungen ist dann n = n1 + n2 . Die gepoolte Varianz wird
ermittelt als
(n1 − 1) · s21 + (n2 − 1) · s22
s2 = (5.5)
n1 + n2 − 2
mit den Einzelvarianzen pro Grundgesamtheit als
1
n1
s21 = (x1i − x1 )2 ,
n1 − 1
i=1
s22 entsprechend. Allerdings fragen wir uns zu Recht: Woher weiß ich, dass die Varianzen
gleich sind, wenn ich sie gar nicht kenne? Das müssen wir testen, nämlich mit einem Test
auf Vergleich der Varianzen zweier Merkmale wie in Abschnitt 5.5.3. Wurde dieser Test
nicht abgelehnt, gehen wir von der Gleichheit aus und erhalten die Prüfgröße
X 1 − X 2 − δ0
T = , (5.6)
S · n11 + n12
die wegen δ0 = 0 zu
X1 − X2
T = (5.7)
S · n11 + n12
√
1 1
reduziert wird. Der geheimnisvolle Zusatz n1 + n2 im Nenner entspricht dem n, das
wir von √S bei den bekannten Prüfgrößen kennen.
n
Jetzt setzen wir Beispiel 5.7 mit den Rauchern fort. Wir testen also bei α = 0,05.
H0 : μ1 − μ2 = 0
Nach der obigen Vorschrift lehnen wir H0 ab, wenn t < −t(1 − α2 ; n1 + n2 − 2) oder
t > t(1− α2 ; n1 +n2 −2) ist. Das (1−α/2)-Quantil der t-Verteilung ist t(0,975; 11+9−2 =
18) = 2,10. Wir lehnen also H0 ab, wenn t < −2,10 oder t > 2,10 ist.
Bei der Auswertung der erhaltenen Daten stellte sich Folgendes heraus: Die n1 = 11
therapierten Raucher rauchten jeweils pro Tag
x1i 25 28 35 30 18 27 26 21 27 30 30
x2i 30 18 24 26 27 23 18 24 26.
Wir erhalten die Kennwerte x1 = 27, x2 = 24, s21 = 21,4 und s22 = 15,75, wobei wir das
zur Übung nachrechnen! Der Test auf Gleichheit der Varianzen, der auf Seite 217 für
dieses Beispiel vorgerechnet wird, ergibt, dass die Varianzen nicht als ungleich anzusehen
sind. So können wir die gepoolte Varianz ermitteln als
10 · 21,4 + 8 · 15,75
s2 = ≈ 18,89
18
bzw.
s ≈ 4,35.
Die Nullhypothese kann nicht abgelehnt werden. Das Medikament zur Verringerung der
Nikotinsucht überzeugt nicht.
212 5 Hypothesentests
Für die Nullhypothesen wie oben verwenden wir nun die Prüfgröße
X1 − X2
T = 2 , (5.9)
S1 S22
n1 + n2
Die Freiheitsgrade k können nur näherungsweise ermittelt werden mit der Formel
2
s21 s2
+ 2
n1 n2
k = 2 2 2 . (5.11)
2
s1 s2
n1 n2
+
n1 − 1 n2 − 1
Wir wollen hier nur ein kleines numerisches Beispiel betrachten, mit dem wir allerdings
gleich zwei Fliegen erschlagen.
H0 bedeutet, μ2 ist größer als μ1 . Hielten wir uns an die Prüfgröße der Formel 5.9 mit
dem Zähler X 1 − X 2 , müssten wir die Hypothese umformen zu H0 : μ1 − μ2 ≤ 0. Das
Hantieren mit Ungleichungen bereitet Anfängern häufig Schwierigkeiten. Wir können es
aber auch in der Hypothese bei H0 : μ2 − μ1 ≥ 0 belassen und in die Prüfgröße statt
des Zählers X 1 − X 2 die Differenz X 2 − X 1 schreiben, was uns die Umdrehung der
Ungleichung erspart. Ansonsten hat das keine Auswirkungen, denn die Ausdrücke mit
den Varianzen bleiben gleich.
Es ergaben sich die Kennwerte x1 = 50, x2 = 45, s21 = 64 und s22 = 225. Der Test auf
Varianzgleichheit wurde abgelehnt. Die Zahl k der Freiheitsgrade ist dann
2
64 225
+
16 25 169
2 2 = 16 81 ≈ 39 (aufgerundet).
64 225 +
16 25 15 24
+
15 24
Da wir eine Mindesthypothese haben, packen wir den Ablehnungsbereich ans untere Ende
der Verteilung und entscheiden so: Wenn der Wert der Prüfgröße t < −t(1 − α; 39) ist,
wird H0 abgelehnt.
In unserem Beispiel haben wir es allerdings bei k mit mehr als 30 Freiheitsgraden zu tun.
Deshalb können wir die Prüfgröße als näherungsweise normalverteilt ansehen. Und wir
lehnen nun ab, wenn t < −z(1 − α) = −z(0,9) = −1,29 ist. Für t erhalten wir
45 − 50 −5
t= = √ = −1,39.
64
+ 225 4+9
16 25
Da −1,39 < −1,29 ist, wird die Hypothese abgelehnt. μ2 ist vermutlich kleiner als μ1 .
Dieser Absatz soll die Vergleichspalette der Erwartungswerte abrunden. Wir können hier
wieder bei genügend großem Stichprobenumfang eine standardnormalverteilte Prüfgröße
verwenden.
Gilt n1 > 30 und n2 > 30 oder gilt k > 30, ist die Prüfgröße näherungsweise
normalverteilt. Ihre Realisation ist
x1 − x2
z= 2 . (5.12)
s1 s22
n1 + n2
H0 : E(X1 ) − E(X2 ) = 0 wird abgelehnt, falls z < −z(1 − α2 ) oder z > z(1 − α
2)
ist.
H0 : E(X1 ) − E(X2 ) ≤ 0 wird abgelehnt, falls z > z(1 − α) ist.
H0 : E(X1 ) − E(X2 ) ≥ 0 wird abgelehnt, falls z < −z(1 − α) ist.
Wir gehen von zwei binomialverteilten Zufallsvariablen X1 und X2 aus. Von Interesse
ist hier, ob die Parameter θ1 und θ2 verschieden sind. Wir testen also die Anteilswerte
auf Gleichheit: H0 : θ1 = θ2 bzw. H0 : θ1 − θ2 = 0. Die gruppenspezifischen Anteilswerte
θ1 bzw. θ2 werden mit dem Stichprobenanteil p1 = nx11 , p2 entsprechend, geschätzt. Bei
genügend großem Stichprobenumfang ist die Differenz D = P1 − P2 näherungsweise
normalverteilt.
∗ Urnenmodell: zwei Urnen mit je zwei Sorten Kugeln, Auswahl von n1 und n2
Kugeln mit Zurücklegen,
∗ Verteilung von X1 und X2 : Binomialverteilung,
∗ zu testender Kennwert: Unterschied der Anteilswerte θ1 und θ2 .
9 9
Wenn n1 > und n2 > sind, ist die resultierende Prüfgröße
p1 (1 − p1 ) p2 (1 − p2 )
näherungsweise standardnormalverteilt. Man verwendet die Realisation
p1 − p2
z= # $. (5.13)
p(1 − p) · n11 + 1
n2
Da unter H0 die Anteilswerte gleich sind, kann für die Ermittlung der Varianz der
Normalverteilung der gepoolte Anteilswert
n 1 · p1 + n 2 · p 2
p= (5.14)
n1 + n 2
verwendet werden.
5.5 Vergleich zweier Parameter 215
Bemerkung: Grundsätzlich können wie beim Vergleich von Erwartungswerten auch be-
stimmte Unterschiede quantifiziert werden. Es sollen hier aber lediglich die Tests auf
Gleichheit betrachtet werden.
Wir testen
H0 : θ1 ≥ θ2 bzw. H0 : θ1 − θ2 ≥ 0
49 22
und schätzen θ1 mit p1 = = 0,175 und θ2 mit p2 = = 0,2. Können wir für den
280 110
Test die Normalverteilung verwenden? Es sind
9
≈ 62 < n1 = 280
0,175 · (1 − 0,175)
und
9
≈ 56 < n2 = 110.
0,2 · (1 − 0,2)
Wir können also mit der Normalverteilung approximieren und lehnen die Hypothese ab,
wenn z < −z(1 − α), also z < −1,65 ist.
Bemerkung: Die Daten beruhen auf einer realen Erhebung. In Wirklichkeit übersteigt
aber die Zahl männlicher Mitarbeiter in Wikipedia immer noch deutlich die Zahl der der
weiblichen. In diesem Fall war die Datenlage untypisch.
216 5 Hypothesentests
Was sollen wir mit so einem Test? Wann brauchen wir einen Vergleich von Varianzen?
Zielt unser Wunsch auf Gleichheit der Varianzen, spricht man von Varianzhomogenität.
Methodisch gehen wir von zwei normalverteilten Grundgesamtheiten mit den dazugehö-
rigen Zufallsvariablen X1 und X2 aus. Wir wollen wissen, ob die Varianzen ungleich sind,
und testen
σ12
H0 : σ12 = σ22 , was auch umgeformt werden kann zu H0 : = 1.
σ22
S12
F = , (5.15)
S22
die F -verteilt ist mit n1 − 1 und n2 − 1 Freiheitgraden. Für die kritischen Werte der
Punkthypothese müssen wir wieder beachten, dass die F -Verteilung nicht symmetrisch,
sondern rechtsschief ist. Wir berechnen also f ( α2 ; n1 −1; n2 −1) und f (1− α2 ; n1 −1; n2 −1),
die jeweiligen Quantile der F -Verteilung, getrennt voneinander. In Tabelle A.3a sind für
ausgewählte Freiheitsgrade m und n die 97,5 %-Quantile der F-Verteilung aufgeführt. Für
1
2 machen wir uns die Rechenregel zunutze, dass f ( 2 ; n1 − 1; n2 − 1) = f (1− α
α α
2 ;n2 −1;n1 −1)
ist.
s21
f= . (5.16)
s22
5.6 χ2 -Tests 217
f 1 − α2 ; n1 − 1; n2 − 1 ist.
Wie schon auf Seite 195 erwähnt, sollten wir bei einem konfirmatorischen Test (also wenn
wir die Varianzhomogenität bestätigt haben wollen) α nicht zu klein wählen.
Wir können wie bei H0 : μ1 = μ2 auch die Varianten H0 : σ12 ≤ σ22 oder H0 : σ12 ≥ σ22
testen. Das führt aber hier zu weit und kann beispielsweise bei Schwarze (1988, S. 234)
nachgelesen werden.
Wir wollen hier den Varianztest für Beispiel 5.7 aufgreifen. Wir hatten die Stichpro-
benvarianzen s21 = 21,4 und s22 = 15,75 erhalten. Wir wählen ein vergleichsweise hohes
Signifikanzniveau von α = 0,2 und testen die Nullhypothese H0 : σ12 = σ22 .
5.6 χ2 -Tests
5.6.1 Verteilungstest
Beispielsweise wird in einem Supermarkt die Zahl der Kunden erfasst, die in einer
Minute an eine bestimmte Kasse kommen. Könnte die Zahl der Kunden Poisson-
verteilt sein?
218 5 Hypothesentests
Für den Test eines Erwartungswertes wird die Normalverteilung des interessierenden
Merkmals gefordert. Könnten die Daten normalverteilt sein?
Ganz allgemein ausgedrückt lautet unsere Nullhypothese bezüglich der Verteilung eines
Merkmals
H0 : F = F0 . (5.17)
Wie schon der Begriff χ2 -Test andeutet, ist die Prüfgröße des Verteilungstests χ2 -verteilt.
Beispiel 5.10 Tatsächliche Verteilung der Zahl von Autos in einem Haus-
halt
Ein großer Autobauer gibt eine Studie über Lebensgewohnheiten und Autos in einem
EU-Land in Auftrag. Man ging bisher davon aus, dass 20 % der Haushalte dieses Lan-
des kein Auto besitzen, 50 % sollen ein Auto und 30 % zwei Autos haben. Kann von
dieser Verteilung der Autos weiterhin ausgegangen werden? Man hat hierzu 50 zufällig
ausgewählte Haushalte befragt.
Wenn diese prozentuale Aufteilung immer noch gültig ist, müssten beispielsweise in der
Stichprobe auch ca. 20 % der Befragten kein Auto haben. Das sind ca. 0,2 · 50 = 10 Per-
sonen. Wir nennen das die erwartete Häufigkeit. Entsprechend müssten in der Stichprobe
ca. 25 Haushalte ein Auto und ca. 15 Haushalte zwei Autos besitzen.
Für die methodische Vorgehensweise definieren wir eine diskrete Zufallsvariable X: Zahl
der Autos in einem Haushalt. X hat die drei Ausprägungen xj (j = 1, . . . , m), nämlich
x1 = 0, x2 = 1 und x3 = 2. Damit erhalten wir drei Kategorien j, die in Tabelle 5.2
zusammen mit weiteren Ergebnissen aufgeführt sind. Die unter H0 behaupteten Wahr-
scheinlichkeiten der Ausprägungen sind P (X = xj ). Wir nennen sie ganz schnörkellos Pj ,
die Wahrscheinlichkeit in der Kategorie j. Diese Bezeichnungsweise ist die einfachste für
die verschiedenen Arten der Verteilungen, die wir testen wollen. Die Pj (j = 1, 2, . . . , m)
summieren sich zu eins:
P1 + P2 + . . . + Pm = 1.
Die erwarteten Häufigkeiten, wie sie idealerweise in der Stichprobe auftreten sollten,
ergeben sich dann als Ej = n · Pj („E“ wie „erwartet“).
Tab. 5.2: Erwartete und beobachtete Häufigkeiten der Haushalte mit Autos.
Für die Stichprobe befragen wir die Haushalte. Die Zahl der Haushalte, die in eine Kate-
gorie j fallen, sind wie gewohnt die absoluten Häufigkeiten nj . Wir nennen sie beobachtete
Häufigkeiten. Es hatten in der Stichprobe n1 = 13 Haushalte kein Auto, n2 = 19 Haus-
halte ein und n3 = 18 Haushalte zwei Autos.
Wie könnten wir bei der Prüfung vorgehen? Wenn die Abstände zwischen den beob-
achteten Häufigkeiten nj und den erwarteten Häufigkeiten Ej klein sind, würde das H0
unterstützen. Zur Ablehnung würden große Abweichungen der beobachteten Häufigkeiten
von den erwarteten führen. Für diese Differenzen lässt sich der Prüfwert
m
(nj − Ej )
2
y= (5.18)
Ej
j=1
Nun berechnen wir den Prüfwert. Der Ablauf findet sich in Tabelle 5.3. Es werden erst
die Differenzen nj − Ej ermittelt, die dann quadriert werden. Schließlich wird noch durch
die erwarteten Häufigkeiten geteilt. Die Summe über die letzte Spalte ergibt dann den
gesuchten Wert 2,94.
1 0 0,2 10 13 3 9 0,9
2 1 0,5 25 19 −6 36 1,44
3 2 0,3 15 18 3 9 0,6
Summe 1 50 50 2,94
Wie sieht es mit der Entscheidung aus? Der Stichprobenwert 2,94 ist kleiner als 5,99. H0
wird also nicht abgelehnt.
220 5 Hypothesentests
Wir können den gezeigten Test für häufbare Merkmale aller Skalenniveaus analog an-
wenden, also für nominal skalierte, ordinal skalierte oder metrische diskrete Merkmale.
In Abschnitt 1.2.2 können wir die Begrifflichkeiten noch einmal nachlesen.
Häufig sind uns die Verteilungsparameter nicht bekannt. Diese müssen wir schätzen. Es
geht uns pro geschätztem Parameter ein Freiheitsgrad verloren, sodass die Prüfgröße Y
dann χ2 -verteilt ist mit m − k − 1 Freiheitsgraden, wobei k die Zahl der geschätzten
Parameter angibt.
Damit die Prüfgröße Y näherungsweise als χ2 -verteilt angenommen werden kann, dürfen
die Häufigkeiten nicht zu klein werden. Eine Faustregel besagt, dass keine erwartete
Häufigkeit Ej kleiner als 1 und höchstens 1/5 aller erwarteten Häufigkeiten kleiner als
5 sein soll. Kann diese Bedingung mit der vorliegenden Klasseneinteilung nicht erfüllt
werden, sollten andere Klassen gebildet werden, oder es werden mehrere benachbarte
Klassen zu einer zusammengefasst, damit die erwartete Häufigkeit groß genug ist.
Mit dem χ2 -Test können auch Verteilungstests für stetige Verteilungen durchgeführt
werden.
Die Beobachtungen werden in m Klassen eingeteilt, die hier analog zu oben Kategorien
genannt werden. Die absoluten Häufigkeiten nj (j = 1, . . . , m), die wir aus der deskrip-
tiven Statistik (Seite 18) kennen, sind die beobachteten Häufigkeiten.
Sodann wird die Wahrscheinlichkeit ermittelt, dass die Zufallsvariable X in das entspre-
chende Klassenintervall [ xuj ; xoj ] fällt. Es ergibt sich
wobei F (x) die Verteilungsfunktion der stetigen Zufallsvariablen X ist. Die erwartete
Häufigkeit wird wieder als Ej = n · Pj berechnet.
14,8 16,7 16,9 17,1 18,2 18,7 19,0 19,4 19,6 20,3 24,3
21,1 21,2 21,5 21,6 21,7 21,8 21,9 22,0 22,3 22,4 33,2
22,5 22,9 23,2 23,5 23,5 23,7 24,3 24,4 24,7 25,0 27,4
25,6 25,8 26,1 26,1 26,2 26,6 27,4 27,4 27,7 28,7 23,2
29,5 29,8 31,4 31,4 32,7 33,2 39,1
versuchsweise und prüfen, ob das Merkmal X normalverteilt ist. Da wir keine Ahnung
haben, welche Verteilungsparameter wir nehmen sollen, verwenden wir der Einfachheit
halber die entsprechenden Schätzungen. Wie uns Abbildung 5.10 verrät, sind x = 24,08
und s = 4,75.
nj
16 Mittelwert 24,08
Standardabweichung 4,75
14 n = 51
12
10
0
12 15 18 21 24 27 30 33 36 39 42
Bildung x
Abb. 5.10: Histogramm der Akademikerquote (%) von über 25jährigen in US-Bundesstaaten.
Die Daten wurden nun in die Klassen eingeteilt, wie sie im Histogramm ersichtlich sind.
Da zwischen 33,2 und 39,1 eine Kategorienlücke ist, wurde der einzelne Wert 39,1 zur
letzten Klasse dazugeschlagen. Wenn wir die erwarteten Häufigkeiten berechnen wollen,
müssen wir die äußeren Randklassen offenlassen, denn die Normalverteilung ist ja für
−∞ < x < ∞ definiert. Die erforderlichen Schritte können in Tabelle 5.5 mitverfolgt
werden.
Zuerst bestimmen wir die Normalverteilungswerte. Wir berechnen für die erste Klasse
bzw. Kategorie: P (X ≤ 0,15). Wir müssen nämlich die Normalverteilung für x-Werte ab
−∞ beginnen lassen. Es ist
15 − 24,08
P (X ≤ 15) = Φ = 0,0280.
4,75
222 5 Hypothesentests
Es müssten also ca. 3 % aller Staaten eine Akademikerquote von höchstens 15 haben. In
der zweiten Kategorie müssen wir die Wahrscheinlichkeit ermitteln, dass ein Staat eine
Akademikerquote zwischen 0,15 und 0,18 hat, also
18 − 24, 08 15 − 24, 08
P (15 ≤ X ≤ 18) = Φ −Φ = 0, 1003 − 0, 0280 = 0, 0723.
4, 75 4, 75
In der dritten Kategorie müssen wir die Wahrscheinlichkeit ermitteln, dass ein Staat eine
Akademikerquote zwischen 0,18 und 0,21 hat, also
21 − 24,08 18 − 24,08
P (18 ≤ X ≤ 21) = Φ −Φ = 0,2584 − 0,1003 = 0,1581.
4,75 4,75
usw. Für die letzte, also achte Kategorie, werden wir wieder die ganze Fläche unter dem
Dichtefunktionsgraph ab 0,33 bis ∞ berechnen mit
33 − 24,08
P (X ≥ 33) = 1 − P (X ≤ 33) = 1 − Φ = 1 − 0,9698 = 0,0302.
4,75
In Abbildung 5.11 sind die erwarteten Wahrscheinlichkeiten für die gewählten Klassen
dargestellt.
Für die erwartete Häufigkeit müssen wir die Wahrscheinlichkeiten mit n multiplizieren.
Die Ergebnisse sind in Spalte (h) der Tabelle 5.5 aufgeführt. Wir sehen, dass vier Ka-
tegorien eine erwartete Häufigkeit von unter 5 haben. Das sind zu viele! Wie wir auf
Seite 220 nachlesen können, darf bei acht Kategorien höchstens eine fünf unterschreiten.
Also werden wir die beiden ersten und die beiden letzten Kategorien verschmelzen. Wir
erhalten nun in Tabelle 5.6 sechs Kategorien. Abbildung 5.12 zeigt die neue Aufteilung
der Klassen und ihre Wahrscheinlichkeiten Pj .
5.6 χ2 -Tests 223
74
49
0,23
0,23
81
30
0,15
0,16
23
61
80
0,07
02
0,07
0,02
0,03
8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40
Tab. 5.6: Endgültige Kategorieneinteilung der Akademikerquoten und Berechnung des Prüf-
werts.
0,23
0,23
81
30
0,15
0,16
03
63
0,10
0,10
8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40
Wir berechnen wieder wie oben die hypothetischen Wahrscheinlichkeiten mit ihren er-
warteten Häufigkeiten. Dann bilden wir die Differenzen zwischen beobachteter und er-
warteter Häufigkeit, quadrieren die Differenz und teilen durch die erwartete Häufigkeit.
Die Summe ergibt 2,8.
Wollen wir durch die Nichtablehnung der Nullhypothese bestätigt wissen, dass die Daten
normalverteilt sind, sollten wir den Ablehnungsbereich größer wählen, zum Beispiel α =
0,2. Wir würden hier den kritischen Wert χ2 (0,8; 3) = 4,64 erhalten. Damit würde H0
ebenfalls nicht abgelehnt werden, und wir könnten die Daten als normalverteilt vermuten.
Weiteres Testverfahren:
Die erwartete Häufigkeit ist Ej = n · Pj . Für den Test wird der Prüfwert
m
(nj − Ej )
2
y= (5.19)
Ej
j=1
Die Nulhypothese wird abgelehnt, wenn y > χ2 (1−α; m−k−1) ist. Dabei bezeichnet
y > χ2 (1 − α; m − k − 1) das (1 − α)-Quantil der χ2 -Verteilung mit m − k − 1
Freiheitsgraden. k ist die Zahl der Parameter, die geschätzt worden sind.
5.6 χ2 -Tests 225
Stichprobengröße:
Außerdem gilt die Faustregel: Keine erwartete Häufigkeit Ej darf kleiner als 1 und
höchstens 1/5 aller erwarteten Häufigkeiten dürfen kleiner als 5 sein. Mit der Ver-
einigung benachbarter Kategorien kann man größere Ej -Werte erreichen.
5.6.2 Unabhängigkeitstest
Beispiel 5.12 Ist der Blutdruck abhängig von der Händigkeit eines Men-
schen?
Professor Eso hat durch Pendeln herausgefunden, dass Linkshänder eher zu erhöhtem
Blutdruck neigen.
P (L ∩ B) = P (L) · P (B).
Sind also L und B unabhängig, müsste im Idealfall in der Stichprobe der Anteil der
Personen, die Linkshänder sind und erhöhten Blutdruck haben, bei PLB = 0,3·0,1 = 0,03
liegen. PLB ist der erwartete Anteil, falls B und L stochastisch unabhängig sind. Wir
vergleichen den beobachteten Anteil der Linkshänder mit erhöhtem Blutdruck mit dem
226 5 Hypothesentests
hypothetischen PLB , und ebenso die restlichen Ereignisse. Sind die Differenzen zu groß,
lehnen wir die Hypothese ab.
Um eine χ2 -verteilte Prüfgröße zu erhalten, müssen wir wieder die Anteile mit n multipli-
zieren. Wir wollen nun zuerst eine Kontingenztabelle mit den beobachteten Häufigkeiten
konstruieren. Rechnen wir die Anteile hoch, hatten 0,3 · 2000 = 600 Personen erhöhten
Blutdruck und 0,1 · 2000 = 200 Personen waren Linkshänder. In Tabelle 5.7 sind die
beobachteten Häufigkeiten zusammengefasst.
Tab. 5.7: Beobachtete Häufigkeiten von Linkshändern und Personen mit erhöhtem Blutdruck.
Dem hypothetischen Anteil PLB = 0,3 · 0,1 = 0,03 jedoch entspricht eine erwartete abso-
lute Häufigkeit
n L · nB 200 · 600
ELB = = = 120 .
n 2000
Wir müssen nämlich das Produkt der Häufigkeiten noch durch n teilen, weil sonst die Ver-
gleichbarbeit mit nLB nicht möglich ist. Diese und die restlichen erwarteten Häufigkeiten
finden wir in Tabelle 5.8.
Tab. 5.8: Erwartete Häufigkeiten von Linkshändern und Personen mit erhöhtem Blutdruck.
Wir bilden nun wieder quadrierte Differenzen zwischen beobachteter und erwarteter Häu-
figkeit und teilen die Quadrate noch durch die erwarteten Häufigkeiten. Wir erhalten
damit den Stichprobenwert
Der kritische Wert für die Ablehnung ist das (1 − α)-Quantil der χ2 -Verteilung mit
(m − 1) · (r − 1) Freiheitsgraden, wobei m die Zahl der Zeilen und r die Zahl der Spalten
der Kontingenztabelle darstellt. Das wäre in unserem Fall χ2 (0,8; (2 − 1) · (2 − 1)) =
χ2 (0,8; 1) = 1,64. Hier würde die Hypothese abgelehnt werden, dass B und L stochastisch
unabhängig sind. Eso würde triumphieren, und wir würden uns ärgern. Das Leben ist
eben manchmal gemein.
m
r
(njk − Ejk )2
y= (5.21)
Ejk
j=1 k=1
Dieser Test kann für Daten aller Skalenniveaus verwendet werden. Bei einem stetigen
Merkmal müssen wieder analog zum Verteilungstest Klassen gebildet werden, deren Häu-
figkeiten in die Tabelle eingehen. Für die Mindestwerte der erwarteten Häufigkeiten ver-
wenden wir die Faustregel des Verteilungstests auf Seite 220.
228 5 Hypothesentests
Bei verteilungsfreien Tests, auch parameterfreie Tests genannt, muss die Verteilung der
Prüfgröße nicht bekannt sein. Diese Tests sind vor allem bei kleinen Datenmengen re-
levant, deren Verteilung in der Grundgesamtheit unbekannt ist. Hier kann im Allge-
meinen wegen des kleinen Stichprobenumfangs die Normalverteilung nicht verwendet
werden. Allerdings sind diese Tests gröber und weniger trennscharf als die verteilungs-
gebundenen. Typischerweise werden die Daten der Größe nach geordnet, oder man ka-
tegorisiert sie, etwa durch Dichotomisieren. Die Ablehnungsbereiche werden dann mit-
hilfe der Kombinatorik oder ähnlich ermittelt. Es gibt gerade für den klinischen Be-
reich unzählige verteilungsfreie Tests, von denen aber hier nur die bekanntesten darge-
stellt werden. Eine umfangreiche Darstellung solcher Methoden finden wir beispielsweise
bei Bortz et al. 2008.
5.7.1 Vorzeichentest
Mit dem Vorzeichentest prüfen wir, ob eine Grundgesamtheit einen bestimmten Median
hat. Wir können beispielsweise testen:
H0 : x(0,5) = x0 (0,5).
Wie immer gehen wir davon aus, dass die Stichprobenentnahme zufällig erfolgt ist. Au-
ßerdem sollte das Merkmal in der Grundgesamtheit stetig verteilt sein. Wir wissen, dass
gerade bei stetigen Zufallsvariablen der Median die Fläche unter der Dichtefunktion hal-
biert. Wir könnten also die 50 % der Werte in der Grundgesamtheit, die unterhalb des
Medians liegen, mit einem Minus (−) und die Werte, die oberhalb des Medians liegen,
mit einem Plus (+) etikettieren. So haben wir eine Urne mit zwei Sorten Kugeln kon-
struiert, das heißt, wir haben die Grundgesamheit dichotomisiert. Wenn wir die Werte
mit Minus als Kugeln erster Sorte bezeichnen, ist der Anteilswert der Kugeln erster
Sorte θ = 0,5.
Nun wollen wir auch analog zur Grundgesamtheit die Stichprobe dichotomisieren. Unter
H0 bekommen die Werte der Stichprobe, die kleiner als x0 (0,5) sind, ein Minus. Wir
definieren die Zufallsvariable Y : Zahl der Minus bei einer Stichprobe von n. Y ist dann
unter H0 binomialverteilt mit den Parametern θ = 0,5 und dem Stichprobenumfang n.
Ist übrigens ein Datenwert genau gleich x0 (0,5), lassen wir ihn weg und reduzieren n um
Eins, denn wir betrachten nur Plus und Minus.
Wir überlegen, dass bei Gültigkeit von H0 der Anteil der Minus ungefähr bei 0,5 liegen
müsste. Wir können nun den aus Abschnitt 5.3.1 bekannten Test auf Anteilswert einer
dichotomen Grundgesamtheit verwenden. Die Binomialverteilung mit θ = 0,5 ist übrigens
5.7 Verteilungsfreie Tests 229
Wie gehen wir beispielsweise bei einer Hypothese H0 : x(0,5) ≤ x0 (0,5) mit α = 0,05 vor?
Nehmen wir etwa an, wir vermuten, dass der Median einer Zufallsverteilung x0 (0,5) = 20
ist. Falls in Wahrheit der Median 30 ist, müssten tendenziell mehr x-Werte, die größer als
20 sind, in der Stichprobe vorliegen, also ist die Zahl der Minus dann unter H0 klein. Eine
kleine Zahl von Minus führt demnach zur Ablehnung. Wir siedeln den Ablehnungsbereich
links an und geben den Ablehnungsbereich an als die Menge der y-Werte, für die P (Y ≤
y) = B(y|n; 0,5) ≤ 0,05 ist.
Beispiel 5.13
Die Tierärztin Christine befürchtet, dass mehr als die Hälfte der Hauskatzen in
Deutschland übergewichtig sind. Sie möchte einen Signifikanztest durchführen. Als
Maß für Übergewicht verwenden die Veterinäre den FBMI (Feline Body Mass Index),
der – grob vereinfacht ausgedrückt – das Verhältnis von Brustumfang und Beinlänge
misst. Ein FBMI von mehr als 30 zeigt Übergewichtigkeit der Katze an. Leider kennt
Christine die Verteilung des FBMI nicht. Also wendet sie den Vorzeichentest an. Sie
testet die Hypothese
H0 : x(0,5) ≤ 30.
Nun definiert sie die Zufallsvariable Y : Zahl der Katzen, die einen FBMI von weniger als
30 haben, in einer Stichprobe von n = 20. Y ist unter H0 binomialverteilt mit θ = 0,5
und n = 20.
Der Ablehnungsbereich liegt im linken Teil der y-Werte. Sie errechnet mithilfe von Excel:
P (Y ≤ 5) = 0,0207 und P (Y ≤ 6) = 0,0577. Da sie konservativ testet, wählt sie als
kritischen Wert 5. Der Ablehnungsbereich für y ist die Menge {0, 1, 2, 3, 4, 5}, das heißt,
die Nullhypothese wird abgelehnt, wenn die Zahl der Minus höchstens 5 beträgt.
Christine hat bei 20 Katzen in ihrer Praxis die Messwerte für den FBMI erhoben und
die folgenden Daten erhalten:
26 32 24 26 33 25 25 19 12 36 15 22 31 32 17 10 22 21 18 40
Sie weist nun allen Katzen mit einem FBMI von höchstens 30 ein Minus und dem Rest
ein Plus zu:
26 32 24 26 33 25 25 19 12 36 15 22 31 32 17 10 22 21 18 40
− + − − + − − − − + − − + + − − − − − +
230 5 Hypothesentests
Es ergeben sich y = 14 Minus. Die Nullhypothese wird nicht abgelehnt, denn y liegt nicht
im Ablehnungsbereich. Christine kann also nicht widerlegen, dass höchstens die Hälfte
der Katzen ein geringes bis normales Gewicht hat.
Die Datenwerte werden bezüglich x0 (0, 5) dichotomisiert. Allen xi < x0 (0,5) wird
ein Minus zugeordnet. Für den Test wird die Zahl y der Minus verwendet.
Die Ablehnungsbereiche ergeben sich wie beim Test des Anteilswertes einer binomi-
alverteilten Zufallsvariablen (Seite 201 ff.):
Bei einer Mindesthypothese H0 : x(0,5) ≥ x0 (0,5) ist der Ablehnungsbereich die
Menge aller y-Werte, für die 1 − B(y − 1|n; 0,5) ≤ α ist.
Bei einer Höchsthypothese H0 : (0,5) ≤ x0 (0,5) ist der Ablehnungsbereich die
Menge aller y-Werte, für die unter H0 die Wahrscheinlichkeit P (Y ≤ y) =
B(y|n; 0,5) ≤ α ist.
Bei einer Punkthypothese H0 : x(0,5) = x0 (0,5) ist der Ablehnungsbereich die
Menge aller y-Werte, für die B(y|n; 0,5) ≤ α2 oder für die 1 − B(y − 1|n; 0,5) ≤ α2
ist.
Es ist auch möglich, neben dem Median andere Quantile x(p) zu testen. Für die Zuwei-
sung der Minus wird analog zu oben die Differenz xi − x0 (p) ermittelt. Es wird hier die
Binomialverteilung mit θ = p als Stichprobenverteilung verwendet. Die Entscheidung ge-
staltet sich analog zum Mediantest. Näheres können wir beispielsweise bei Schira (2003,
S. 551 f.) nachlesen.
Bemerkungen:
Der Vorzeichentest wird neben dem Test eines Quantils auch als Test für den Vergleich
der Verteilungen zweier verbundener Stichproben verwendet. Was bedeutet das? Laienhaft
dargestellt sind zwei Stichproben verbunden, wenn sie als n Wertepaare (xi , yi ) erhoben
werden. Ist die Verteilung des Merkmals X und des Merkmals Y in der Grundgesamtheit
gleich, werden die Datenpaare nicht genau gleich sein, aber mal wird x > y und mal
y > x sein. Es müsste also in der Regel etwa die Hälfte der xi < yi sein. X und Y sind
stetig verteilt Die Entnahme hat für jedes Paar unabhängig stattgefunden.
5.7 Verteilungsfreie Tests 231
H0 : Die Verteilung der Kriminalitätsrate des Jahres 2003 ist die gleiche wie
die des Jahres 2006.
In Tabelle 5.9 sind für die 51 Bundesstaaten die Raten für die beiden Jahre 2003 (Variable
x) und 2006 (Variable y) aufgeführt. Es folgen die Differenzen di und die Vorzeichen von
di . Bei vier Staaten ist die Differenz null; diese Werte werden nicht berücksichtigt. n
reduziert sich um vier auf 47. Es sind 24 Plus gezählt worden.
Die Prüfgröße D ist unter H0 binomialverteilt mit den Parametern n = 47 und θ = 0,5.
Die Nullhypothese wird dann abgelehnt, wenn die Realisation d sehr groß oder sehr klein
wird. Es ist bei α/2 = 0,025 P (D ≤ 16) = 0,0200 und P (D ≤ 17) = 0,0395. Ebenso ist
P (D ≥ 30) = 0,0395 und P (D ≥ 31) = 0,0200. Wir nehmen also die beiden Werte, die
außen liegen und legen fest: Die Nullhypothese wird abgelehnt, wenn d ≤ 16 oder d ≥ 31
ist.
Summe d = 24
Es liegen n Wertepaare (xi , yi ) vor. Ist die Differenz di = xi − yi kleiner als null,
bekommt di ein Minus zugewiesen, ist di > 0, ein Plus. Die Zufallsvariable D als
Zahl der Plus ist unter H0 binomialverteilt mit dem Anteilswert θ = 0,5.
234 5 Hypothesentests
Der Ablehnungsbereich für H0 : „Die Verteilungen von X und Y sind gleich“ ist die
Menge aller d-Werte, für die B(d|n; 0,5) ≤ α2 oder für die 1 − B(d − 1|n; 0,5) ≤ α2
ist. Dieser Ablehnungsbereich entspricht dem Test des Anteilswerts einer binomial-
verteilten Zufallsvariablen (Abschnitt 5.3.1).
5.7.2 Wilcoxon-Mann-Whitney-Test
Bei zwei unabhängigen Stichproben testen wir die Hypothese, dass die den Grundgesamt-
heiten zugrunde liegenden Verteilungen gleich sind. Wir gehen also von zwei Zufallsva-
riablen X und Y aus, die stetig verteilt sein sollen. Wir testen die Hypothese:
H0 : F (x) = F (y).
Es liegt für X eine Stichprobe im Umfang n1 und für Y eine Stichprobe im Umfang n2
vor. Wir definieren n = n1 + n2 .
Die Konzeption des Tests ist, dass zunächst beide Stichproben zu einer zusammengefasst
werden. Sodann werden den Daten Ränge zugeordnet. Sind nun beide Verteilungen gleich,
müssten die Ränge gleichmäßig auf beide Stichproben verteilt sein. Es sollten also in
beiden Stichproben sowohl kleine als auch große Ränge vorhanden sein. Addiert man die
Ränge pro Stichprobe, sollte unter H0 im Mittel die Summe der Ränge n1 2· n2 betragen.
Bemerkung: Die methodische Idee ist, jeden x-Wert mit jedem y-Wert zu vergleichen
und die Zahl U aller positiven Unterschiede x − y > 0 zu zählen. Unter H0 sollte im
Mittel die Zahl aller positiven Unterschiede n1 2· n2 betragen. Die Verteilung von U unter
H0 wird mithilfe der Kombinatorik ermittelt. Der Ablehnungsbereich ergibt sich dann
nach dem Prinzip des konservativen Testens. Dem Statistikgott sei gedankt, dass sich U
auch erheblich einfacher ermitteln lässt, nämlich mithilfe von Rangzahlen der Beobach-
tungswerte.
5.7 Verteilungsfreie Tests 235
Medikament xi 450 273 363 393 404 348 268 360 389 380 420
Placebo yj 525 448 272 402 394 320 408 451 445
Nun wollen wir beide Stichproben zu einer zusammenfassen und den Werten Rangzahlen
zuordnen. In Tabelle 5.10 enthält die linke Spalte die x- und y-Werte zusammengefasst.
In der zweiten Spalte stehen die Ränge. Sie wurden aufsteigend geordnet, das heißt, 268
ist der kleinste Wert und bekommt Rang 1, 272 ist der zweitkleinste Wert und bekommt
den Rang 2 usw.
Wir summieren nun die Rangzahlen der ersten Stichprobe auf und nennen die Summe
R1 . Ensprechend verfahren wir mit den Rangzahlen der zweiten Stichprobe. Aus den
beiden Rangsummen R1 = 95 und R2 = 115 ermitteln wir die Größen
n1 · (n1 + 1)
U1 = n1 · n2 + − R1
2
und
n2 · (n2 + 1)
U2 = n1 · n2 + − R2 ,
2
wobei wir uns die Rechnerei vereinfachen können, weil gilt
U2 = n1 · n2 − U1 .
U2 = 11 · 9 − 70 = 29.
236 5 Hypothesentests
Wir wählen aus U1 und U2 als Testwert den kleineren Wert U = 29.
Wie ist die zu U gehörende Zufallsvariable verteilt? Im Prinzip kann die Verteilung der
Rangsummen mithilfe der Kombinatorik ermittelt werden. Da die Berechnung umständ-
lich ist, liegen die kritischen Werte für die Ablehnung tabelliert vor, meistens für ausge-
wählte n1 und n2 bis 20. Auf Seite 324 sind die kritischen Werte vertafelt. Für sehr kleine
Stichprobenumfänge ist der Ablehnungsbereich für ein bestimmtes α teilweise sehr grob
oder gar nicht vorhanden. Allerdings kann hier die exakte Wahrscheinlichkeitsfunktion
von U angegeben werden. Eine Tabelle dafür findet sich beispielsweise bei Bortz (2005,
S. 826).
Tabelle A.5 ist symmetrisch bezüglich n1 und n2 , daher genügt die Angabe des oberen
5.7 Verteilungsfreie Tests 237
Dreiecks der Tabelle. Ist U kleiner oder gleich dem angegebenen kritischen Wert, wird
die Nullhypothese abgelehnt.
Nun suchen wir in Tabelle A.5 den kritischen Wert. Da unter H0 die Verteilung von
U symmetrisch ist, ist der kritische Wert für n1 = 11 und n2 = 9 der gleiche wie für
n1 = 9 und n2 = 11. Wir lesen hier den Wert 23 ab. Es ist U = 9 > 23, und wir
können daraus schließen, dass der Zigarettenkonsum zwischen den Therapierten und den
Placeboempfängern sich nicht unterscheidet.
n1 · (n1 + 1)
U1 = n1 · n2 + − R1 (5.22)
2
und
n2 · (n2 + 1)
U2 = n1 · n2 + − R2 (5.23)
2
berechnet, wobei gilt:
und
U2 = n1 n2 − U1 (5.25)
7. Für n1 , n2 ≤ 20 und α = 0,05 sind die kritischen Werte Uα für U in Tabelle A.5
vertafelt. Dabei ist so vorzugehen:
Ist U ≤ Uα , wird die Hypothese Fx = Fy beim Signifikanzniveau α = 0,05
abgelehnt.
Es ist Uα von (n1 ; n2 ) das gleiche wie von (n2 ; n1 ).
8. Sind n1 oder n2 > 10, kann die Verteilung von U näherungsweise mithilfe der
Normalverteilung berechnet werden. Unter H0 ist
n1 · n2
E(U ) = (5.26)
2
und
n1 · n2 · (n1 + n2 + 1)
V (U ) = . (5.27)
12
Es ergibt sich die standardnormalverteilte Prüfgröße
U − E(U ) U − n12n2
Z= = . (5.28)
V (X) n1 n2 (n1 +n2 +1)
12
Fällt z in das Intervall [−1,96; 1,96], wird die Nullhypothese bei α = 0,05 nicht
abgelehnt.
Bemerkung: Weisen bekannterweise die Verteilungen von x und y den gleichen Vertei-
lungstyp auf, kann mithilfe des U -Tests auch geprüft werden, ob beide Merkmale den
gleichen Lageparameter besitzen.
Wir wollen nun ein Beispiel mit Bindungen in den Daten betrachten. Das heißt, es können
mehrfach gleiche Werte auftreten.
H0 : F (x) = F (y).
5.7 Verteilungsfreie Tests 239
Tab. 5.11: Einstiegsgehälter von Männern und Frauen und ihre Rangzahlen.
Tab. 5.11: Einstiegsgehälter von Männern und Frauen und ihre Rangzahlen.
Als Erstes wollen wir beide Stichproben zu einer zusammenfassen und den Werten Rang-
zahlen zuordnen. Wir bemerken sofort, dass viele Werte mehrfach auftreten. Man nennt
so etwas eine Bindung. Was machen wir da? Wir vergeben auf gleiche Werte mittlere
Ränge. Das werden wir nun anhand von Tabelle 5.12 praktisch üben. Zuerst sind alle
Daten der Größe nach aufgeführt. Jetzt nummerieren wir die Daten hilfsweise durch, das
heißt, wir vergeben erst einmal Hilfsränge von 1 bis 43. Aus diesen Hilfsrängen ermitteln
wir dann den mittleren Rang. Wir beginnen bei 2000. 2000 hat die Hilfsränge 4 und 5.
Der mittlere Rang ist also 4+5
2 = 4,5. Alle Werte mit 2000 erhalten den mittleren Rang
4,5. Springen wir zu den Werten 2500. 2500 kommt fünfmal vor. Der mittlere Rang ist
13+14+15+16+17
5 = 15 usw.
Befinden sich die Bindungen nur in einer der beiden Stichproben, können in numerischer
Hinsicht auch die fortlaufenden Hilfsränge verwendet werden. Verteilen sie sich aber auf
beide Stichproben, muss der mittlere Rang genommen werden.
In Tabelle 5.11 sind den Daten die Rangzahlen zugeordnet worden. Wir summieren nun
als R1 die Rangzahlen der ersten Stichprobe und als R2 die Rangzahlen der zweiten
Stichprobe. Es ergibt sich R1 = 379 und R2 = 567. Analog zu oben können wir ausrechnen
n1 · (n1 + 1) 18 · 19
U1 = n1 · n2 + − R1 = 18 · 25 + − 379 = 242 (5.29)
2 2
und
U2 = n1 n2 − U1 = 208. (5.30)
Die Prüfgröße U ist der kleinere der Werte U1 und U2 , also 208.
5.7 Verteilungsfreie Tests 241
Da unsere Stichprobe groß genug ist, können wir die Prüfgröße als näherungsweise nor-
malverteilt ansehen. Wir erhalten mit α = 0,1 den Nichtablehnungsbereich
Mit der Analyse nur eines Merkmals werden wir in der Datenanalyse nicht sehr weit
kommen. Die Betrachtung mehrerer gemeinsamer Variablen oder Ereignisse kann uns
viele nützliche Informationen liefern. Wir hatten bisher schon einige Beispiele, etwa die
Absolventen und Abbrecher einer schulischen Ausbildung nach Geschlecht oder die Fern-
sehgewohnheiten von Zuschauern, die volkstümliche Musik mögen oder nicht mögen.
Die Auswertung solcher Daten kann einen hohen Erkenntnisgewinn über die zugrunde
liegende Struktur der Daten liefern.
Ein typisches Beispiel für solche Daten sind Fragebögen. Wir haben hier einen Merk-
malsträger – in der Regel eine Person – und mehrere Variablen, die wir an dieser Person
beobachten können. Erinnern wir uns an die BMI-Tabelle 1.1. Wir erhalten also für jede
Person einen Datensatz der verschiedenen Variablen. Wir nennen diese Variablen mehr-
dimensional oder multidimensional oder multivariat verteilt. Im Rahmen dieses Buches
werden wir uns vorwiegend mit zwei Variablen befassen, was für den Hausgebrauch einer
Statistikeinführung genügt.
Die Daten des Fragebogens der Reha sind so strukturiert: Es liegen n Datensätze mit
der Nummer i vor (i = 1, . . . , n). So gibt es n viele Beobachtungen xi der Variablen x
und n viele Beobachtungen yi der Variablen y usw.
Die Aufbereitung mehrdimensionaler Daten hängt wieder vor allem von ihrem Skalenni-
veau ab, was in Abschnitt 1.2.3 beschrieben ist. Wir wollen die Daten grob in häufbar
und stetig einteilen. Wir erinnern uns, dass eine Variable häufbar ist, wenn wir ihre Be-
obachtungswerte in Häufigkeitstabellen zusammenfassen können. Dazu zählen nominal-,
ordinal- und diskrete metrisch skalierte Variablen.
244 6 Analyse mehrerer Merkmale
Zwei häufbare Variablen können wir in einer zweidimensionalen Tabelle, einer sogenann-
ten Kontingenztabelle, zusammenfassen. Wir wollen hierzu ein kleines Beispiel anschauen.
Tab. 6.1: Sprachkenntnisse ausländischer Studierender (1: sehr schlecht, bis 5: sehr gut).
Für mehr als zwei Variablen erhalten wir dann eine Tabelle mit zum Beispiel drei- oder
vierfachem Eingang. Solche Tabellen sind allerdings nicht mehr so leicht lesbar.
6.1 Deskriptive Analyse 245
Englisch y
1 2 3 4 5 Summe
Deutsch x 1 0 0 1 1 1 3
2 0 0 1 5 1 7
3 1 2 0 5 0 8
4 0 2 4 0 2 8
5 0 0 1 2 1 4
Summe 1 4 7 13 5 30
Wie setzen wir nun eine Kontingenztabelle grafisch um? Hier gibt es verschiedene Mög-
lichkeiten. Ein kleines Beispiel soll uns helfen.
Eine einfache zweidimensionale Darstellung erlaubt das Blasendiagramm, bei dem quasi
in den Zellen der Kontingenztabelle Kreise abgebildet werden, deren Fläche proportional
zu den Häufkeiten ist. Auf Seite 140 haben wir das schon kennengelernt. Allerdings bieten
weder die Statistikprogramme Minitab noch SPSS dieses Feature an. Auch bei Excel ist
die Funktion unbefriedigend ausgestaltet.
246 6 Analyse mehrerer Merkmale
Leider kranken die meisten Diagramme daran, dass sie nicht auf den ersten Blick als Mus-
ter erfasst werden können, sondern stattdessen einen gewissen Studieraufwand erfordern.
Raffiniert kommt dagegen der weniger bekannte Jittered Scatterplot daher, was man in
etwa als „verwackeltes Streudiagramm“ bezeichnen könnte. Hier werden die Punkte, die
sich ja bei häufbaren Mermalen überlagern, etwas auseinandergezogen, sodass wir eine
visuelle Vorstellung von der Verteilung der Punkte erhalten. Er ist beispielsweise bei
Chambers et al. (2008, S. 106) beschrieben. In Abbildung 6.2 sind die Evaluationsdaten
des Beispiels 6.2 aufgeführt.
Häufig werden auch sogenannte Profile verwendet. Auf der x-Achse werden die fortlaufen-
den Nummern der Merkmalsträger aufgeführt. Auf der y-Achse werden die dazugehörigen
Beobachtungen der Variablen eingetragen. Es ergibt sich eine Folge von Punkten, die wie
bei einer Fieberkurve geradlinig verbunden werden. Man kann in so ein Diagramm auch
mehrere Variablen einfügen, sodass wir hier einen Ersatz für die grafische Abbildung einer
Kontingenztabelle haben. Wir beachten, dass für Profile nicht zu viele Beobachtungen
vorliegen dürfen, da sie einzeln nebeneinander aufgeführt werden. Abbildung 6.3 zeigt
für Beispiel 6.1 Profile der Selbsteinschätzungen. Die runden Punkte bezeichnen Anga-
ben zu den Englischkenntnissen, die rautenförmigen Angaben zu den Deutschkenntnisse.
Wir können der Abbildung nun entnehmen, dass sich tendenziell mehr Studierende in
Englisch besser als in Deutsch eingruppieren.
!
Bei Profilen sollten die Werte auf der y-Achse mindestens rangskaliert sein. Wir könnten
allerdings bei einer nominalskalierten Variablen die Ausprägungen als natürliche Zahlen
kodieren, beispielsweise beim Familienstand 1 für ledig, 2 für verheiratet usw. und damit
das Profil erstellen.
Für eine Zusammenfassung der stetigen Daten ist die Kontingenztabelle weniger geeignet,
weil die Wertepaare (x; y) zu verschieden sind. Ein einfach zu handhabendes und sehr
aufschlussreiches grafisches Mittel ist das Streudiagramm (scatterplot). Hier werden alle
248 6 Analyse mehrerer Merkmale
Auch bei gemischen Skalennivaus von Variablen können wir sinnvolle Auswertungen ma-
chen. Wenn etwa y als stetig und x als häufbar vorliegen, kann ein Streudiagramm noch
wertvolle Informationen liefern. So sind in Abbildung 6.5 die Bundesstaaten noch nach
Regionen aufgeteilt. Wir sehen deutlich, dass in den Regionen 3 (Süden) und 4 (Westen)
die Kriminalitätsrate insgesamt höher liegt als in den Regionen 1 (Nordosten) und 2
(Mittlerer Westen).
6.1 Deskriptive Analyse 249
Es kann auch hilfreich sein, das stetige Merkmal in Klassen einzuteilen und es dann wie
ein häufbares zu behandeln. Hier können dann Kontingenztabellen und Grafiken, wie
in Abschnitt 6.1.2 vorgestellt, verwendet werden. Mit einer Klassierung geht allerdings
in der Regel ein starker Informationsverlust einher. Wir kennen diese Vorgehensweise
aus Abschnitt 5.6.1, wo wir mithilfe von klassierten stetigen Daten einen Verteilungstest
machten.
Eine weitere Möglichkeit ist, im Streudiagramm die Symbole für die Ausprägung des
kategorialen Merkmals unterschiedlich zu wählen. Diese Grafik ist für alle Skalenniveaus
der kategorialen Variablen brauchbar. In Abbildung 6.5 können wir diese Anordnung
betrachten. Deutlich zu erkennen sind Gruppen von gleichartigen Bundesstaaten.
6.1.5 Abhängigkeitsstrukturen
Bei der Analyse mehrerer Variablen wird uns meistens interessieren, ob die Variablen
abhängig sind oder nicht. Falls ja, wäre die Struktur der Abhängigkeit hilfreich. So haben
wir oben in Beispiel 6.3 gesehen, dass beispielsweise Bachelor und Einkommen positiv
korreliert und Bachelor und Armut negativ korreliert sind. Wir sprechen hier von linearen
250 6 Analyse mehrerer Merkmale
700
600
500
400
300
200
100
0,06 0,08 0,1 0,12 0,14 0,16 0,18 0,2
Armut
Abb. 6.5: Streudiagramm von Armut und Crime, nach Regionen unterschieden.
Zusammenhängen, weil wir eine Gerade in die Punktwolke legen können. Dagegen weisen
Afro und Bachelor keinen erkennbaren Zusammenhang auf.
In Beispiel 6.3 haben wir gesehen, dass die Variablen unterschiedlich stark voneinander
abhängen. In diesem Abschnitt wollen wir untersuchen, wie wir die Stärke eines Zu-
sammenhangs zwischen zwei Variablen erfassen und ob wir sogar eine lineare Tendenz
feststellen können. Fangen wir mit Letzterem an, der linearen Tendenz.
6.2 Zusammenhangsmaße 251
110 0,035
1/y
Index des SO2 -Ausstoßes
100
0,03
90
80 0,025
70
60 0,02
50
0,015
40
30 0,01
1990 1995 2000 2005 2010 1990 1995 2000 2005 2010
Jahr Jahr
Nichtlineare Abhängigkeit Linearisierung durch Kehrwert
Wir wollen uns dazu wieder Streudiagramme des Beispiels 6.3 mit verschiedenen Varia-
blen der Kriminalitätsdaten ansehen. Wo der Staat DC Ausreißerwerte liefert, wurde das
entsprechende Wertepaar entfernt, da Ausreißer die Auswertungen beeinträchtigen. Das
ist vor allem bei der Variablen Crime der Fall.
Uns liegt in Abbildung 6.4 ein Streudiagramm der Variablen Einkommen und Bachelor
vor. Hier ist eindeutig zu erkennen, dass mit steigender Anzahl der Bachelorabschlüsse
auch das Pro-Kopf-Einkommen steigt. Wenn wir ein Streudiagramm von HighSc (Anteil
der erwachsenen Highschool-Absolventen) und Bachelor machen (Abbildung 6.7), kön-
nen wir auch eine lineare Tendenz ausmachen, aber sie ist viel verschwommener als im
vorherigen Diagramm. Beim Streudiagramm Bachelor und Armut (Abbildung 6.4) ist
die Punktwolke bei steigendem Bachelor-Wert fallend. Der Armutsindikator fällt hier
tendenziell mit steigendem Anteil von Bachelorabsolventen. Wenig Linearität finden wir
im Streudiagramm Armut vs. Crime (Abbildung 6.5). Wir greifen etwas vor und geben
schon einige die Korrelationskoeffizienten an:
Auch wenn die Funktionsweise des Korrelationskoeffizienten noch nicht bekannt ist, ver-
mitteln die Streudiagramme nebst Korrelationskoeffizienten schon gewissen Eindruck
von der Bedeutung des Korrelationskoeffizienten. Nun werden wir diesen etwas genauer
betrachten.
Pearson’scher Korrelationskoeffizient
Gegeben sind zwei metrisch skalierte Variablen x und y, die idealerweise normalver-
teilt sein sollten. In der Regel genügt es, wenn die Daten keine Ausreißer enthalten.
Es liegen für die Variablen n viele Wertepaare (xi ; yi ) (i = 1, . . . , n) vor.
Der Pearson’sche Korrelationskoeffizient wird als rxy bezeichnet und errechnet mit
der Formel
n
(xi − x) · (yi − y)
rxy = n i=1
n . (6.1)
(xi − x)2 · (yi − y)2
i=1 i=1
Der Zähler des Quotienten ist hier die Stichprobenkovarianz zwischen x und y. Auch sie
misst den Grad der Linearität zwischen den Variablen. Sie hat allerdings – ebenso wie
die Stichprobenvarianz – den Nachteil, dass wir der Kovarianz nicht ansehen können, ob
6.2 Zusammenhangsmaße 253
sie groß oder klein ist. Erst die Division durch die Standardabweichungen von x und y
normiert den Ausdruck, sodass r zwischen −1 und 1 liegt. Wenn wir nun noch durch
1
n−1 kürzen, enthalten wir Formel 6.1. Wie auch bei der Stichprobenvarianz (Seite 45)
können wir bei ungeeigneten Daten, das heißt, wenn wir „krumme“ Mittelwerte erhalten,
den Verschiebungssatz anwenden. Die Formel lautet wie folgt:
Beispiel 6.4 Steigt die Zahl Diskobesuche von Jugendlichen mit dem Ta-
schengeld?
Eine Befragung zum Thema Taschengeld von Jugendlichen ergab bei sechs Befragten
die Werte in Tabelle 6.4.
Person i 1 2 3 4 5 6
Taschengeld (e) pro Monat x 25 35 55 100 35 50
ungefähre monatliche Ausgaben für Diskothek (e) y 15 10 25 35 15 20
Wir wollen das mit dem Pearson’schen Korrelationskoeffizienten messen. Dazu verwen-
den wir die Arbeitstabelle 6.5. Wir benötigen zunächst die Mittelwerte x und y. Wir
summieren also xi und yi auf und teilen die Summen jeweils durch 6.
6
300
x= xi = = 50.
6
i=1
Entsprechend erhalten wir y = 120 6 = 20. Da die Mittelwerte „glatt“ sind, können wir
sehr gut Formel 6.1 verwenden. Wir müssen erst die Datenwerte zentrieren mit xi − x
und yi − y. Die zentrierten Werte stehen in Spalte 4 und 5. Nun müssen für den Zähler
die zentrierten Werte zeilenweise multipliziert werden als (xi − x) · (yi − y) (Spalte 6). Die
Summe ist dann 1125. Wir brauchen noch die Quadratsummen der zentrierten Werte.
Wir quadrieren sie in Spalte 7 und 8 und erhalten die Summen 3600 und 400.
254 6 Analyse mehrerer Merkmale
Nun haben wir alle erforderlichen Summen berechnet und erhalten den Korrelationsko-
effizienten
1125
√ √ = 0,9375.
3600 · 400
Diese Korrelation ist sehr hoch; wir können also annehmen, dass mit steigendem Ta-
schengeld auch die Diskobesuche entsprechend stark steigen.
Der Korrelationskoeffizient misst lediglich die Linearität. Er kann keine Aussage über
die Ursache-Wirkungs-Struktur machen. Daher ist es dem Korrelationskoeffizienten auch
egal, welche Variable wir als x und welche als y bezeichnen.
Es ist
Es ist
−1 ≤ rxy ≤ 1. (6.4)
Je näher r dem Wert −1 oder 1 ist, desto ausgeprägter ist die lineare Tendenz.
Wenn rxy = 1 ist, liegt eine perfekte lineare Transformation der Art einer steigenden
Geraden y = a + b · x (b > 0) vor.
Wenn rxy = −1 ist, liegt eine perfekte lineare Transformation der Art einer fallenden
Geraden y = a − b · x (b > 0) vor.
Wenn rxy = 0 ist, sind x und y unkorreliert, das heißt, es besteht keine lineare Ten-
denz zwischen den Variablen. Trotz bestehendem rxy = 0 können x und y funktional
abhängig sein, denn r kann nur Linearität diagnostizieren.
6.2 Zusammenhangsmaße 255
Wenn x und y linear transformiert werden, wenn also statt der Variablen x eine Variable
x∗ = a + bx oder entsprechend statt y eine Variable y∗ = c + dy verwendet wird (a,
b, c, d Konstanten, b und d haben dasselbe Vorzeichen), ist der Korrelationskoeffizient
rx∗y∗ = rxy .
i 1 2 3 4 5 6
xi 0 1 2 3 4 5
yi 0 1 4 9 16 25
Wir sehen sofort, dass y = x2 ist, was allerdings keinen Anspruch auf Sinnhaftigkeit
erhebt und nur der Tatsache geschuldet ist, dass wir uns nicht mit einem umständlichen
Beispiel aufhalten wollen. Wie oben basteln wir uns eine Arbeitstabelle (Tabelle 6.6).
Der Verschiebungssatz lautet
n
( i=1 xi · yi ) − n · x · y
rxy = .
( i=1 x2i ) − n · x2 · ( i=1 yi2 ) − n · y 2
n n
i xi yi xi · yi xi2 yi2
1 0 0 0 0 0
2 1 1 1 1 1
3 2 4 8 4 16
4 3 9 27 9 81
5 4 16 64 16 256
6 5 25 125 25 625
Summe 15 55 225 55 979
Wir brauchen also wieder zunächst die Mittelwerte. Es sind x = 15 6 = 2,5 und
y = 556 = 9,17 (gerundet). Hier sind die Mittelwerte nicht so gefällig wie oben. Der
Verschiebungssatz ist angenehmer für die Berechnung von r. Wir erhalten
225 − 6 · 2,5 · 9,17 87,5
rxy = = √ = 0,9599.
2
55 − 6 · 2,5 · 979 − 6 · 9,17 2 17,5 · 474,83
Studierende, die es genauer wissen wollen, sollten den Korrelationskoeffizienten mit den
Werten
256 6 Analyse mehrerer Merkmale
x −3 −2 −1 0 1 2 3
y 9 4 1 0 1 4 9
Bemerkung zum Verschiebungssatz: Der Verschiebungssatz sollte in der Regel nur bei
manueller Berechnung des Korrelationskoeffizienten angewendet werden, da die errech-
neten Produkte, zu denen auch die Quadrate zählen, riesig werden können. Hier ist die
Gefahr von Rundungsfehlern groß. Wenn wir für die Berechnung den Computer verwen-
den, nehmen wir die Formel mit den zentrierten Werten. Denn dem Computer ist es
gleichgültig, wie die Werte vorliegen. Er macht stumpfsinnig seine Arbeit.
Die Autorin wird von ihren lieben Studierenden oft gefragt, welche Formel sie denn
nun in der Klausur nehmen sollten. Die Antwort ist: Genommen wird, was gefällt, denn
mathematisch sind beide Formeln äquivalent.
Wie sieht diese Wunderwaffe aus? Das Prinzip ist denkbar einfach: Wir ordnen zuerst die
xi - und auch die yi -Werte. Wir weisen ihnen Rangzahlen rg(xi ) und rg(yi ) zu. Sodann
6.2 Zusammenhangsmaße 257
berechnen wir aus diesen Rangzahlen einen Korrelationskoeffizienten nach Pearson. Die
Formel ist also
n
(rg(xi ) − rg(x)) · (rg(yi ) − rg(y))
rs xy = i=1
n . (6.5)
n
2
2
(rg(xi ) − rg(x)) · (rg(yi ) − rg(y))
i=1 i=1
BMI 21,3 27,1 26,8 29,1 30,9 34 26,2 30,8 31,6 27,8
Blutdruck 107 134 119 139 162 132 131 143 125 154
Es stellte sich bei der Analyse der Grundgesamtheit heraus, dass der Blutdruck zu Ausrei-
ßern nach oben neigt. Aus diesem Grund soll der Rangkorrelationskoeffizient rs verwendet
werden.
Wir brauchen wieder unsere bewährte Arbeitstabelle (Tabelle 6.8). Wir weisen also den
Daten zuerst ihre Ränge zu. 21,3 ist der kleinste x-Wert, er bekommt den Rang 1. 26,2
ist der zweitkleinste x-Wert, er bekommt den Rang 2 usw. (Spalte 4). Entsprechend
verfahren wir mit den y-Werten: 107 ist der kleinste y-Wert, er bekommt den Rang 1. 109
ist der zweitkleinste y-Wert, er bekommt den Rang 2 usw. (Spalte 5). Mit diesen Rängen
berechnen wir nun den Korrelationskoeffizienten rs . Zuerst bilden wir die Mittelwerte
55 55
rg(x) = = 5,5 und rg(y) = = 5,5
10 10
und zentrieren damit die Ränge (Spalte 6 und 7). Sodann multiplizieren wir paarweise
die Elemente von Spalte 6 und Spalte 7, aufgeführt in Spalte 8. Wir bilden aus Spalte
6 beziehungsweise Spalte 7 die Quadratsummen, aufgeführt in Spalte 9 bzw. Spalte 10.
Nun können wir den Rangkorrelationskoeffizienten ausrechnen:
36,5
rs xy = √ √ = 0,4424.
82,5 · 82,5
Wir sehen, dass x und y zwar korreliert sind, aber nicht sehr stark. Wir können dem Er-
gebnis entnehmen, dass das Gewicht eines Offiziers deutlich den Blutdruck beeinflusst,
258 6 Analyse mehrerer Merkmale
dass aber offensichtlich noch viele andere Faktoren zum Blutdruck beitragen, zum Bei-
spiel Stress.
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
i x y r g(x) r g(y )
1 21,3 107 1 1 −4,5 −4,5 20,25 20,25 20,25
2 27,1 134 4 6 −1,5 0,5 −0,75 2,25 0,25
3 26,8 119 3 2 −2,5 −3,5 8,75 6,25 12,25
4 29,1 139 6 7 0,5 1,5 0,75 0,25 2,25
5 30,9 162 8 10 2,5 4,5 11,25 6,25 20,25
6 34 132 10 5 4,5 −0,5 −2,25 20,25 0,25
7 26,2 131 2 4 −3,5 −1,5 5,25 12,25 2,25
8 30,8 143 7 8 1,5 2,5 3,75 2,25 6,25
9 31,6 125 9 3 3,5 −2,5 −8,75 12,25 6,25
10 27,8 154 5 9 −0,5 3,5 −1,75 0,25 12,25
Summe 55 55 0 0 36,5 82,5 82,5
mit den Spalten
(6): r g(xi ) − r g(x); (7): r g(yi ) − r g(y ); (8): (r g(xi ) − r g(x) · (r g(yi ) − r g(y )); (9): (r g(xi ) − r g(x))2 ;
(10): (r g(yi ) − r g(y ))2 ;
Wir wollen uns nun die speziellen Eigenschaften des Rangkorrelationskoeffizienten anse-
hen: Durch die Umwandlung der Datenwerte in Ränge geht viel Information verloren.
Steigt etwa mit wachsendem x auch immer y (mathematisch: y ist eine streng monoton
steigende Funktion von x), erhalten wir einen Spearman’schen Korrelationskoeffizienten
von 1. Das können wir unmittelbar einsehen, denn in diesem Fall ist rg(yi ) = rg(xi ).
rg(yi ) ist also eine exakte lineare Funktion von rg(xi ), und damit ist der Pearson’sche
Korrelationskoeffizient gleich eins. Generell hat der Rangkorrelationskoeffizient alle Ei-
genschaften des Pearson’schen Korrelationskoeffizienten.
Eine lehrreiche Übung ist das Ausrechnen von rs für die Zahlen von oben,
xi 0 1 2 3 4 5
yi 0 1 4 9 16 25
Bei der Berechnung von rs fällt auf, dass zwar die Formeln wüst erscheinen, dass aber die
resultierenden Summen simpel sind und auch mehrfach gleich ausfallen. Das liegt natür-
6.2 Zusammenhangsmaße 259
lich daran, dass rg(x) und rg(y) jeweils alle natürlichen Zahlen von 1 bis n annehmen.
So gelten beispielsweise die Rechenregeln
n(n + 1) n · (n + 1) · (2n + 1)
1 + 2 + ... + n = und 12 + 22 + . . . + n2 = .
2 6
Vereinfachen wir die gesamte Formel für rs unter Ausnutzung aller Vereinfachungsregeln,
erhalten wir schließlich
n
6· (rg(xi ) − rg(yi ))2
i=1
rs = 1 − . (6.6)
n · (n2 − 1)
Diese Vereinfachung ist in mathematischer Hinsicht nur dann korrekt, wenn die Ränge für
jede Variable tatsächlich alle unterschiedlich sind. Treten aber Bindungen auf – wir haben
sie auf Seite 240 kennengelernt –, gilt die mathematische Gleichheit nicht mehr. Allerdings
sind die resultierenden Unterschiede meistens so klein, dass wir sie gnädig übersehen
und beim händischen Ausrechnen diese „Quick-and-Dirty“-Methode verwenden. Bei der
Benutzung eines Computers kann ohnehin Formel 6.5 verwendet werden, denn wie immer
ist dieser aufgeschlossen gegenüber lästigen Rechnungen.
Wir werden jetzt rs mit der vereinfachten Formel berechnen. Die Zwischenwerte stehen
in Tabelle 6.9. Wir bilden also die Differenzen zwischen den Rängen von x und y, wir
quadrieren die Differenzen und summieren sie auf. Wir erhalten die Summe 92. Unser
Korrelationskoeffizient ist
6 · 92 552
rs = 1 − =1− = 0,4424.
10 · (100 − 1) 990
Wir sehen, dass wir tatsächlich denselben Korrelationskoeffizienten erhalten. Das soll
uns freuen, denn schließlich ist die vereinfachte Formel mathematisch äquivalent zu For-
mel 6.5, zumindest bei fehlenden Bindungen.
Jetzt wollen wir zur Übung noch Daten mit Bindungen verwenden, also mit mehrfach
auftretenden gleichen Werten von x oder y. Wir wollen hier ein Beispiel auswählen, dessen
Bindungen so heftig ausfallen, dass sich der tatsächliche Koeffizient erheblich von dem
mit der vereinfachten Form unterscheidet.
Kunde Nr. 1 2 3 4 5 6 7 8 9
Sterne des Hotels x 1 3 2 2 3 2 2 4 1
Note des Kunden y 3 2 2 4 1 1 3 1 4
Wir wollen also die Korrelation zwischen x und y feststellen. Nun sind aber x und y beide
rangskaliert, deshalb werden wir den Rangkorrelationskoeffizienten verwenden. Zuerst
müssen wir die Ränge von x und y bestimmen. Wir gehen vor wie auf Seite 240. In
Tabelle 6.11 kann die Vorgehensweise nachvollzogen werden. Die konkrete Berechnung
für den Rangkorrelationskoeffizienten finden wir in Tabelle 6.12. Wir erhalten dann
6 · 188,5 1131
rs = 1 − =1− = −0,5708.
9 · (81 − 1) 720
Der Korrelationskoeffizient ist negativ. Was soll das wieder bedeuten? Es folgt ja, dass
mit steigender Zahl der Sterne die Zufriedenheitsnote sinkt. Eine kleine Note steht aber
für große Zufriedenheit, eine große Note für Unzufriedenheit. Wenn es wirklich stimmt,
dass Hotels mit mehr Sternen die Kunden eher zufrieden stimmen, muss also mit steigen-
der Sternezahl die Note sinken. Deshalb ist der Korrelationskoeffizient negativ. Der Rang-
korrelationskoeffizient, der mit Formel 6.5 berechnet wurde, beträgt übrigens −0,7061.
Hier ist der Unterschied zu −0,5708 schon beträchtlich. Das liegt aber an den wenigen
Beobachtungen und den vielen Bindungen. In der Realität wird der Unterschied meis-
tens nicht so sehr groß sein. Ob nun −0,5708 oder −0,7061 – wir können feststellen, dass
Zufriedenheit zu einem großen Teil von der Zahl der Sterne abhängt.
6.2 Zusammenhangsmaße 261
Berechnung der mittleren Ränge für x Berechnung der mittleren Ränge für y
Hilfsrang Daten mittlerer Rang Hilfsrang Daten mittlerer Rang
1 1 (1+2)/2= 1,5 1 1 2
2 1 1,5 2 1 (1+2+3)/3= 2
3 2 4,5 3 1 2
4 2 (3+4+5+6)/4= 4,5 4 2 (4+5)/2= 4,5
5 2 4,5 5 2 4,5
6 2 4,5 6 3 (6+7)/2= 6,5
7 3 (7+8)/2= 7,5 7 3 6,5
8 3 7,5 8 4 (8+9)/2= 8,5
9 4 9 9 4 8,5
6.2.3 Kontingenzkoeffizient
Wir haben nun gesehen, wie wir den linearen Zusammenhang bei metrisch- und rangska-
lierten Merkmalen bestimmen können. Können wir Vergleichbares auch mit nominalska-
262 6 Analyse mehrerer Merkmale
lierten Merkmalen anstellen? Für derlei Daten gibt es den Kontingenzkoeffizienten. Der
Kontingenzkoeffizient ermöglicht es uns, die Stärke des Zusammenhangs zwischen zwei
nominalskalierten Variablen anzugeben. Allerdings gibt es hier keine sinnvolle Aussage
bezüglich einer Linearität. Wir können lediglich statuieren, dass zwei Variablen stark
oder schwach abhängig sind.
Wir haben schon eine Größe kennengelernt, die das Ausmaß von Abhängigkeit wieder-
gibt, und zwar beim Unabhängigkeitstest in Abschnitt 5.6.2. Wir hatten es hier in der
Stichprobe mit zwei nominalskalierten Variablen zu tun, deren Häufigkeiten in einer Kon-
tingenztabelle (Tabelle 5.7) zusammengefasst worden waren. Es wurde die Nullhypothese
getestet, dass in der Grundgesamtheit die Ereignisse, welche die Spalten der Tabelle be-
legen, von den Ereignissen in den Zeilen der Tabelle stochastisch unabhängig sind. Der
Mechanismus des Tests ist, dass die Differenzen der beobachteten Häufigkeiten und der
bei Unabhängigkeit zu erwartenden Häufigkeit erfasst werden. Wenn die Differenzen ins-
gesamt groß sind, kann die Nullhypothese nicht wahr sein, und H0 wird abgelehnt. Wir
können also folgern: Je größer die Differenzen sind, desto stärker ausgeprägt ist die Ab-
hängigkeit zwischen den Variablen. Also scheinen sie eigentlich ideal für unser Vorhaben
zu sein. Wir leihen einige Festlegungen des χ2 -Tests aus:
m
r
(njk − Ejk )2
y= (6.8)
Ejk
j=1 k=1
Es ist 0 ≤ C < 1. Wünschenswert wäre allerdings, dass C genau den Wert 1 annimmt,
wenn „perfekte Abhängigkeit vorliegt“, das heißt, wenn jede Ausprägung j mit genau
einer Ausprägung k einhergeht. Besser interpretierbare Ergebnisse liefert hier der korri-
gierte Kontingenzkoeffizient
∗ χ2 q
C = 2
· , (6.10)
χ +n q−1
wobei q lediglich der kleinere der beiden Werte m und r ist, also q = min(m; r). Hier gilt
0 ≤ C ∗ ≤ 1.
Tab. 6.13: Kontingenztabelle über die Nutzung von Wikipedia nach Geschlecht.
y : Geschlecht Summe
x: Wie arbeitest du mit Wikipedia? 1 weiblich 2 männlich
1 Ich lese nur 235 90 325
2 Ich ändere Kleinigkeiten 22 11 33
3 Ich mache auch große Bearbeitungen 27 10 37
Summe 284 111 395
Wir werden nun den χ2 -Koeffizienten berechnen. Zuerst brauchen wir die erwarteten
n ·n
Häufigkeiten Ejk = jn k . Wir berechnen zum Beispiel
325 · 284
E11 = = 233,67,
395
325 · 111
E12 = = 91,33
395
usw.
(njk − Ejk )2
Daraus ermitteln wir , zum Beispiel
Ejk
Tab. 6.14: Erwartete Häufigkeiten über die Nutzung von Wikipedia nach Geschlecht
n ·n
Ejk = j n k .
1 2 Summe
1 233,67 91,33 325
2 23,73 9,27 33
3 26,6 10,4 37
Summe 284 111 395
(njk −Ejk )2
Tab. 6.15: Differenzen der beobachteten und erwarteten Häufigkeiten Ejk .
1 2
1 0,01 0,02
2 0,13 0,32
3 0,01 0,02
Wie auch in der Korrelationsanalyse befassen wir uns in der Regressionsanalyse mit der
Linearität zwischen zwei Variablen. Der Korrelationskoeffizient verrät uns, wie stark der
Zusammenhang ist. Die Regressionsanalyse ist mit der Korrelationsanalyse eng verwandt,
aber die Fragestellung ist eine andere.
6.3 Regressionsanalyse 265
Sehen wir uns das Streudiagramm beider Variablen an (Abbildung 6.8). Es scheint durch-
aus eine Art Linearität zwischen x und y zu bestehen: Je mehr Blumen ein Kunde kauft,
desto mehr Dekoartikel nimmt er mit. Wir könnten das momentan ganz unverbindlich
so ausdrücken:
y ≈ a + bx.
Abb. 6.8: Streudiagramm der Ausgaben für Pflanzen und Dekoartikel.
Wir wollen nun eine Gerade möglichst passgenau in die Punktwolke legen, um die Re-
gressionskoeffizienten a und b konkret zu ermitteln. Wie machen wir das am besten? Das
Verfahren, in die Punktwolke eine Gerade – man nennt sie übrigens Ausgleichsgerade – zu
legen, nennen wir Regressionsverfahren und die resultierende Gerade Regressionsgerade.
Wir befassen uns hier mit der linearen Einfachregression; linear, weil wir eine Gerade
wollen, und einfach, weil wir nur eine Variable x verwenden, denn wir könnten auch
266 6 Analyse mehrerer Merkmale
mehrere Variablen verwenden, wie wir in Abschnitt 6.3.4 sehen werden. Es gibt verschie-
dene Möglichkeiten, die Ausgleichsgerade zu bestimmen. Wir könnten sogar einen Faden
geradlinig in die Punktwolke legen und anhand zweier Wertepaare (x1 ; y1 ) und (x2 ; y2 )
mithilfe der sogenannten Zwei-Punkte-Form eine Gerade basteln. Bei einer deutlich ge-
streckten Punktwolke mit vielen Beobachtungen kann dieses Verfahren mindestens so
gut sein wie jedes andere. Ist die Punktwolke allerdings eher bauchig, ist der Ermessens-
spielraum für das Platzieren der Gerade sehr groß, und die Ergebnisse sind in der Regel
weniger zufriedenstellend. Wir werden uns eine bewährte Methode ansehen.
Aber zuerst müssen wir wieder ein bisschen wissenschaftlich argumentieren und gehen
von folgendem statistischen Modell aus: Wir betrachten eine unabhängige Variable x und
eine abhängige Zufallsvariable Y , die unserer Vermutung nach ungefähr in einem linearen
Zusammenhang
Y ≈ α + βx
stehen. x ist fest vorgegeben und wird daher nicht als Zufallsvariable aufgefasst. Man
nennt x unabhängige, erklärende oder exogene Variable oder auch Regressor und Y Ziel-
variable, abhängige, endogene Variable oder Regressand. Die Daten beider Variablen soll-
ten in unserem Modell metrisch skaliert sein.
E(Y ) = α + β · x.
Allerdings können die wahren Parameter der Grundgesamtheit nicht beobachtet werden,
da die Gerade α+βx von einer Störgröße ε („epsilon“) überlagert wird, die nichterfassba-
re Einflüsse auf Y wie menschliches Verhalten, Messungenauigkeiten usw. mit einschließt.
Die Zufallsvariable Y setzt sich also zusammen aus dem Erwartungswert und einer Stör-
größe
Y = E(Y ) + ε = α + β · x + ε. (6.11)
Da ε nur rein zufällig streut – mal ist es positiv, mal negativ –, ist sein Erwartungswert
gleich null. Die Varianz von ε ist gleich für alle Werte von x. Es gibt also entlang der
Geraden α + β · x unendlich viele ε, die alle identisch verteilt sind.
Unser Ziel ist, die unbekannten Parameter α und β zu schätzen. Wir erheben also im
Rahmen einer Stichprobe n Wertepaare von x und Y , das heißt, wir haben es mit n
unabhängigen Zufallsvariablen Yi zu tun. Wir erhalten nun das Modell
6.3 Regressionsanalyse 267
Y1 = α + βx1 + ε1 ,
Y2 = α + βxi + ε2 ,
...
(6.12)
Yi = α + βxi + εi ,
...
Yn = α + βxn + εn ,
Wir befassen uns in diesem Buch mit dem sogenannten klassischen linearen Regressions-
modell. Dieser Ausdruck lässt uns ahnen, dass die Regressionsanalyse zu den Dinosauriern
der Statistik, aber auch zu den Klassikern der Analysen gehört. Um im Rahmen dieses
klassischen linearen Regressionsmodells schätztheoretisch korrekt vorgehen zu können,
wurde ein Annahmensystem formuliert, welches im folgenden Kasten präzisiert ist:
Wir wollen nun die Parameter α und β durch zwei Konstanten a und b schätzen, und
zwar so, dass sich für Yi = α + βxi + εi die Schätzung
yi = a + bxi + di
ergibt. di bezeichnet das Residuum (Mehrzahl Residuen), die Abweichung des beobach-
teten yi -Wertes vom geschätzten a + b · xi . Das Residuum di ist die Entsprechung von
εi . Wir können hier allerdings nicht von einer Schätzung sprechen, denn Zufallsvariablen
können nicht geschätzt werden, nur ihre Parameter.
In Abbildung 6.9 wurde der fiktive Verlauf einer wahren Geraden α + βx durch eine
Punktwolke angegeben. Die senkrechten Abweichungen der Punkte von dieser Geraden
sind Realisationen der Störgröße ε. Zugleich sehen wir hier die Schätzung der wahren
Geraden durch die Regressionsgerade a + bx. Die senkrechten Abweichungen der Punkte
von dieser Geraden sind die Residuen di = yi − (a + bxi ). Uns fällt auf, dass in unserem
Beispiel die Regressionsgerade sehr stark von der wahren Geraden abweicht. Hier ist
die Stichprobe etwas untypisch ausgefallen. Die Steigung der geschätzten Geraden ist
268 6 Analyse mehrerer Merkmale
gegenläufig. Aber in der Regel sollte die Steigung der Regressionsgeraden ungefähr gleich
der Steigung der wahren Geraden sein. Natürlich ist das Beispiel nur erfunden, hat aber
den Vorteil, dass für die Beschriftung innerhalb der Grafik genügend Platz ist.
y
45
geschätzt
40 a+bx
35
di
30 ei
di
25 di
ei
20 ei
di
15 a+bx
10 wahr, aber
unbekannt
5
0
0 10 20 30 40 50 60 70
x
Abb. 6.9: Wahre und geschätzte Gerade nebst Störgröße und Residuum.
Nun wollen wir die Regressionsgerade für Beispiel 6.8 berechnen. Das am häufigsten
verwendete Verfahren ist die Methode der kleinsten Quadrate, auch Minimum-Quadrat-
Methode genannt. Die Idee ist folgende: Wir legen eine Gerade so durch den Punkte-
schwarm, dass die Summe der quadrierten Residuen, also der senkrechten Abweichungen
di der Punkte von dieser Ausgleichsgeraden, minimiert wird. Die konkrete Aufgabe ist:
Suche die Werte von a und b, für welche die Quadratsumme der Residuen
n
n
d2i = (yi − (a + bxi ))2 (6.13)
i=1 i=1
minimiert wird. Die Herleitung ist nicht sehr anspruchsvoll, aber eine mühselige Tour
durch die Welt der Summen, sodass wir uns diese sparen. Das Ergebnis des Minimierens
sind die Normalgleichungen
n
n
na + b xi = yi , (6.14)
i=1 i=1
n
n
n
a xi + b x2i = xi yi . (6.15)
i=1 i=1 i=1
Die Formeln für die Regressionskoeffizienten der Geraden ŷ = a + bx können direkt
daraus ermittelt werden:
6.3 Regressionsanalyse 269
a = y − b · x. (6.17)
Wir berechnen also die Regressionskoeffizienten rekursiv (rekursiv bedeutet, dass man
für eine Berechnung das Ergebnis eines vorhergegangenen Schrittes verwendet), nämlich
erst b, dann damit a.
i x y x −x y −y (x − x)(y − y ) (x − x)2 (y − y )2
1 20 15 −20 −10 200 400 100
2 50 35 10 10 100 100 100
3 30 15 −10 −10 100 100 100
4 50 25 10 0 0 100 0
5 40 15 0 −10 0 0 100
6 40 25 0 0 0 0 0
7 40 35 0 10 0 0 100
8 50 35 10 10 100 100 100
9 20 15 −20 −10 200 400 100
10 60 35 20 10 200 400 100
400 250 0 0 900 1600 800
Nun wollen wir es nicht so spannend machen und endlich für Beispiel 6.8 die Regres-
sionsgerade berechnen. Was ist unsere Aufgabe? Wir müssen die Datenwerte xi und yi
zentrieren mit den Mittelwerten
400 250
x= = 40 und y = = 25.
10 10
Dann berechnen wir alle (xi − x)(yi − y) und (xi − x)2 . Wir summieren die Produkte
auf und erhalten zunächst den Steigungskoeffizienten b. Die Berechnung können wir in
Tabelle 6.16 nachvollziehen. Wir erhalten nun mit den oben errechneten Summen
900
b= = 0,5625
1600
270 6 Analyse mehrerer Merkmale
und
a = y − b · x = 25 − 0,5625 · 40 = 2,5.
ŷ = 2,5 + 0,5625 · x.
ŷ wird „y-Dach“ ausgesprochen. Das Dach ist ein geläufiges Symbol für eine Schätzung.
So würde man beispielsweise statt b auch β̂ schreiben können, denn b ist eine Schätzung
für β. Was möchte uns diese Gerade mitteilen? Dass die Steigung b = 0,5625 ist. Ma-
thematisch ist die Steigung b die erste Ableitung der Funktion y = a + bx. Sie bedeutet
inhaltlich:
In unserem Fall würde das heißen: Mit jedem Euro, den ein Kunde für Blumen mehr
ausgibt, steigt die Ausgabe für Dekoartikel im Durchschnitt um 0,5625 e. Letztere steigt
natürlich nicht bei jedem Kunden genau um 0,5625 e. Es kann mal mehr, mal weniger
sein. Deshalb der Zusatz „im Durchschnitt“.
Wie interpretieren wir a = 2,5? Setzen wir beispielsweise für x den Wert null ein, erhalten
wir ŷ = 2,5 + 0,5625 · 0 = 2,5. In mathematischer Hinsicht gibt also das Absolutglied
6.3 Regressionsanalyse 271
a den Wert von y an, der sich für x = 0 ergibt. Grafisch würde das auf der y-Achse
den Punkt bedeuten, durch den die Gerade geht. Deshalb nennt man das Absolutglied
auch den Achsenabschnitt. Interpretieren könnten wir a so: Auch wenn jemand keine
Blumen kauft, gibt er (im Durchschnitt) 2,5 e für Dekoartikel aus. Sinnvoll ist allerdings
die Verwendung von a nur, wenn x = 0 nicht zu weit von den beobachteten x-Werten
entfernt ist. In unserem Fall ist der kleinste Wert x = 20. Daher ist eine Interpretation
wie oben („Auch wenn jemand keine Blumen kauft, gibt er (im Durchschnitt) 2,5 e für
Dekoartikel aus“) wenig sinnvoll. Warum das so ist, erfahren wir auf Seite 286.
Wir können nun für jeden Wert von xi den Erwartungwert der Zufallsvariablen Y schät-
zen mit
ŷi = a + b · xi . (6.18)
Zum Beispiel sind ŷ1 = 2,5 + 0,5625 · 20 = 13,75 und ŷ2 = 2,5 + 0,5625 · 50 = 30,625. ŷi
wird Prognose genannt. Die komplette Liste der ŷi finden wir in Tabelle 6.17. Die Resi-
duen di können wir dann als Abweichung der geschätzten Werte ŷi von den beobachteten
yi berechnen, also
di = yi − ŷi = yi − (a + b · xi ). (6.19)
i x y ŷ d
1 20 15 13,75 1,25
2 50 35 30,625 4,375
3 30 15 19,375 −4,375
4 50 25 30,625 −5,625
5 40 15 25 −10
6 40 25 25 0
7 40 35 25 10
8 50 35 30,625 4,375
9 20 15 13,75 1,25
10 60 35 36,25 −1,25
Summe 400 250 250 0
Bei genauerem Studium der Tabelle 6.17 sollte uns auffallen, dass die Summe 250 der ŷi
gleich der Summe der yi ist. Das ist kein Zufall, sondern ergibt sich mathematisch und
lässt sich auch einfach beweisen. Näheres finden wir beispielsweise bei Johnston (1984,
272 6 Analyse mehrerer Merkmale
S. 18 ff.). Dass auch die Summe der Residuen gleich null ist, ergibt sich mathematisch
und ist sogar erwünscht, denn die Störgröße streut ebenfalls um den Nullpunkt.
Wie beim Korrelationskoeffizienten können bei den Daten Mittelwerte auftreten, die ein
Zentrieren per Hand erschweren. Und wie beim Korrelationskoeffizienten können wir auch
hier den Verschiebungssatz bei der Berechnung von b anwenden.
In Tabelle 6.18 sind die benötigten Zwischenwerte dargestellt. Wir verwenden die Sum-
men und erhalten
10 900 − 10 · 40 · 25 900
b= 2
= = 0,5625.
17 600 − 10 · 40 1600
a kann dann wieder mit der gewohnten Formel 6.17 ausgerechnet werden.
i x y xy x2
1 20 15 300 400
2 50 35 1750 2500
3 30 15 450 900
4 50 25 1250 2500
5 40 15 600 1600
6 40 25 1000 1600
7 40 35 1400 1600
8 50 35 1750 2500
9 20 15 300 400
10 60 35 2100 3600
Summe 400 250 10900 17600
6.3 Regressionsanalyse 273
n n
An Formel b = i=1 (xi − x)(yi − y)/ i=1 (xi − x)2 fällt sofort die Verwandschaft mit
dem Stichproben-Korrelationskoeffizienten rxy (Seite 252) auf. Und in der Tat ist auch
die Regressionsrechnung ein Verfahren, das auf der Linearität der Variablen x und y
basiert. Nicht ohne Grund resultiert eine Gerade. Die Methode der kleinsten Quadrate
ist also auch nur für Daten geeignet, die schon von vornherein Linearität versprechen.
Was passiert, wenn man diese Forderung nicht beachtet, können wir an dem SO2 -Beispiel
(Abbildung 6.6) sehen. Wir greifen in Abbildung 6.11 das Streudiagramm des Schwefel-
dioxidausstoßes von 1990 bis 2007 auf. Es wurde hier noch eine Regressionsgerade in
die Punktwolke gelegt. Wir erkennen, dass eine Prognose des Schwefeldioxidausstoßes in
die Zukunft mithilfe der Geraden nicht hilfreich ist, denn die Punkte wandern ab 2003
systematisch über die Gerade hinweg. Wir würden also bei einer Zukunftsschätzung ŷ
immer unterschätzen. Das Gleiche würde uns bei einer Schätzung für sehr frühe Jahre
passieren, denn auch hier driften die Punkte nach oben. Die Residuen streuen hier nicht
mehr zufällig um die Gerade herum, sondern sie liegen links sämtlich über der Geraden,
in der Mitte sämtlich unter der Geraden und rechts wieder oberhalb der Geraden. Die
Residuen enthalten also noch zusätzliche Informationen. Wir könnten aber versuchen,
statt y den reziproken Wert 1/y zu verwenden. Wir konnten anhand von Abbildung 6.6
lernen, dass der reziproke Wert yi∗ = 1/yi eine zufriedenstellende Gerade produziert.
Wir haben gelernt, dass für eine methodisch einwandfreie Regressionsanalyse die Stör-
größe εi der Zufallsvariablen Yi für alle i den Erwartungswert null haben soll. Außerdem
haben alle εi die gleiche Varianz und sind untereinander unkorreliert. Praktisch heißt das
für unser Regressionsmodell:
274 6 Analyse mehrerer Merkmale
Die einfachste Methode zur Überprüfung dieser Annahmen ist ein Streudiagramm, even-
tuell mit einer eingepassten Regressionsgeraden. Besonders nichtlineare Abhängigkeiten
werden hier deutlich sichtbar. Häufig hilft für die Linearisierung, x oder y durch eine
nichtlineare Funktion wie Logarithmieren, Wurzelziehen oder Quadrieren zu transfor-
mieren. Wir können verschiedene Transformationen ausprobieren und anhand des resul-
tierenden Streudiagramms den Erfolg überprüfen. In Abbildung 6.12 ist links ein Streu-
diagramm, bei dem die y-Werte exponentiell wachsen. Hier hilft das Logarithmieren:
Es wurde statt y als Zielvariable ln(y) verwendet. Mithilfe des natürlichen Logarith-
mus konnte eine lineare Abhängigkeitsstruktur erreicht werden. Wir würden also in der
praktischen Anwendung für die Berechnung der Regressionsgeraden statt y die trans-
formierten Werte y ∗ = ln(y) verwenden. Wenn wir an einem konkreten Prognosewert
für ein bestimmtes x interessiert sind, können wir ŷ ∗ delogarithmieren, das heißt, wir
∗
berechnen dann ŷ = eŷ und erhalten damit einen Schätzwert, der den ursprünglichen
Daten entspricht.
y lny
x x
Abb. 6.12: Exponentielle Funktion und Linearisieren durch den natürlichen Logarithmus.
Ermahnung: Falls ein Hypothesentest bezüglich der Regression gemacht werden soll, muss
beachtet werden, dass bei einer transformierten Zielvariablen y ∗ die Zufallsvariable Y ∗
normalverteilt sein muss und nicht etwa Y .
Es gibt auch Ansätze der nichtlinearen Regression, bei der ein multiplikativer Ansatz,
etwa y = a · xb · d mittels Logarithmierung in einen additiven Ansatz ln(y) = ln(a) +
b · ln(x) + ln(d) umgewandelt wird. Diese Ansätze genießen methodisch mehr Ansehen
als das Transformieren einer Variablen, aber Letzteres genügt für den Hausgebrauch.
Näheres kann bei Johnston (1984, S. 61) nachgelesen werden.
lich, dass hier die Residuen nicht mehr zufällig streuen. Es scheint neben dem linearen
Trend noch eine zyklische Schwankung die Zielvariable zu beeinflussen. Wir könnten hier
eine weitere unabhängige Variable einführen, die die Schwankungen abdeckt, sodass wir
beispielsweise ein Regressionsmodell ŷ = a + bx1 + c sin x1 aufstellen würden. Wir werden
in Abschnitt 6.3.4 einen kurzen Blick auf die Regression mit mehreren unabhängigen
Variablen werfen.
Alle diese Beispiele deuten auf Verletzungen des Annahmensystems der linearen Regres-
sion hin. Mit anderen Worten bedeutet das Annahmensystem nichts weiter, als dass die
Residuen zufällig streuen sollen und keine systematische Funktion mehr enthalten dürfen.
Die Interpretation so eines Streudiagramms ist nun Ermessenssache. Fein wäre ein Gü-
temaß für unser Regressionsmodell, das etwas mehr Objektivität verspricht. Für diese
Zwecke können wir das Bestimmtheitsmaß, auch Determinationskoeffizient genannt, ver-
wenden.
Wir wollen zuerst die Konzeption des Bestimmtheitsmaßes betrachten. In Abschnitt 1.5.1
wurde erwähnt, dass die Stichprobenvarianz als Maß für den Informationsgehalt in Daten
fungiert. Hier kann die gesamte Varianz s2y der y-Daten zerlegt werden in die Varianz s2ŷ ,
die aufgrund der Regression resultiert, und die Restvarianz s2d der Residuen,
bzw.
n
n
n
(yi − y)2 (ŷi − ŷ)2 (di − d)2
i=1 i=1 i=1
= + . (6.22)
n−1 n−1 n−1
Es setzt sich also die gesamte Information, die in y steckt, zusammen aus der Information,
die mithilfe von x erklärt werden kann, und der restlichen Information, deren Herkunft
anderweitig ist und nicht erklärt werden kann.
276 6 Analyse mehrerer Merkmale
Da der Nenner der Summanden immer gleich ist, kann darauf verzichtet werden, und wir
erhalten die sogenannte Streuungszerlegung
n
n
n
(yi − y)2 = (ŷi − ŷ)2 + (di − d)2 . (6.23)
i=1 i=1 i=1
Wir haben es nun mit Quadratsummen zu tun. Eine Quadratsumme wird in der Literatur
häufig mit SS (für sum of squares) benannt. Da SS schön kurz und prägnant ist, wollen
wir das gerne aufgreifen. Für Formel 6.23 können wir nun schreiben
wobei T in SST für die totale Streuung, E in SSE für die durch x erklärte Streuung
und R in SSR für die Streuung der Residuen steht.
Das Bestimmtheitsmaß wird r2 genannt. Es ist der Anteil der erklärten Streuung an der
Gesamtstreuung von y, also
SSE
r2 = . (6.25)
SST
Da die Quadratsummen nicht negativ werden können, gilt wegen der Streuungszerlegung
die Beziehung
0 ≤ r2 ≤ 1. (6.26)
Je größer der Anteil von SSE an SST , desto besser ist unser Regressionsmodell. Das
heißt, ein Bestimmtheitsmaß nahe bei eins zeigt eine eher gute Anpassung der Gerade
an die Daten an, eines nahe null eine eher schlechte.
Die Berechnung von r2 mithilfe von SST und SSE ist allerdings lusttötend, denn wir
müssen erst die Regressionskoeffizienten, daraus ŷ, die Differenzen y − ŷ und schließlich
die Quadratsummen ermitteln. Man kann jedoch leicht beweisen, dass für r2 auch gilt:
n
( (xi − x) · (yi − y))2
2 i=1
r = .
n
n
(xi − x)2 · (yi − y)2
i=1 i=1
Ein Blick auf Formel 6.1 verrät uns, dass unser Bestimmtheitsmaß das Quadrat des
Korrelationskoeffizienten darstellt. Und deshalb heißt das Gebilde auch r2 . So ist das
Bestimmheitsmaß ebenfalls ein Gradmesser für die Linearität zwischen x und y. Natürlich
können wir auch bei r2 den Verschiebungssatz anwenden, der sich analog zu Formel 6.2
ergibt.
6.3 Regressionsanalyse 277
Wir wollen nun für unser Beispiel das Bestimmtheitsmaß ausrechnen. Wir haben bis auf
n 2
i=1 (yi − y) schon oben alles für die Berechnung von b verwendet. Diese Summe hatten
wir vorsorglich in Tabelle 6.16 gleich mit angegeben. Sie lautet 800. Wir erhalten nun
9002
r2 = = 0,6328.
1600 · 800
Das Regressionsmodell stellt uns einigermaßen zufrieden. Das Bestimmheitsmaß ent-
√
spricht einem Korrelationskoeffizienten von 0,6328 ≈ 0,8.
Es gibt den Anteil der durch das Modell erklärten Streuung SSE von y an sei-
ner Gesamtstreuung SST an. Je weiter weg r2 von null ist, desto besser ist die
Anpassung.
6.3.3 Prognose
Neben der strukturellen Abhängigkeit von x und y interessiert uns bei der Regressions-
analyse auch, welchen Wert ŷ für einen frei vorgegebenen Wert x0 annimmt. Wir haben
oben (Seite 271) schon die Prognosewerte ŷi kennengelernt. Der Schätzwert ŷ0 für ein
beliebig vorgegebenes x0 wird ebenfalls als Prognose bezeichnet und berechnet sich als
ŷ0 = a + b · x0 . (6.29)
278 6 Analyse mehrerer Merkmale
ŷ0 ist folglich ein Punkt auf der Regressionsgeraden an der Stelle x0 . Wie viel würde
ein Käufer im Durchschnitt für Dekoartikel ausgeben, wenn er Blumen im Wert von
x0 = 25 e kaufte? Das wäre dann
Solche Prognosen sollten nicht zu weit vom Beobachtungsraum weg liegen, weil mit wach-
sendem Abstand der x0 zu x die Breite der Konfidenzintervalle für die Prognose quadra-
tisch ansteigt, also die Zuverlässigkeit schnell sinkt.
Häufig begnügen wir uns in Regressionsmodellen mit nur einem Regressor, also einer
unabhängigen Variablen x. Wir haben aber die Möglichkeit, auch kompliziertere Re-
gressionsmodelle mit mehreren Regressoren zu verwenden, was ein sogenanntes multiples
Regressionsmodell ergibt. Wir gehen dann von einem Regressionsmodell mit p vielen
fest vorgegebenen unabhängigen Variablen xj (j = 1, . . . , p) aus, für die jeweils n viele
Beobachtungen vorliegen, und erhalten für die Zufallsvariable Y die Gleichung
Y = β0 + β1 x1 + β2 x2 + · · · + βp xp + , (6.30)
wobei wieder die Störgröße repräsentiert. Statt des Absolutglieds α verwenden wir hier
die Bezeichnung β0 , weil dann die gemeinsame Betrachtung der Regressionskoeffizien-
ten einfacher handzuhaben ist. Es liegen analog zu oben für die xj und Y je n viele
Beobachtungen vor, sodass sich das Gleichungssystem aus n Gleichungen
zusammensetzt. Für die konkrete Analyse der Daten verwendet man Matrizenrechnung,
denn diese ermöglicht eine einfach strukturierte Darstellung der Formeln. Das Ausrechnen
muss hier ohnehin ein Computer vornehmen. So etwas können wir nicht mehr auf die
Schnelle mit Papier und Bleistift erledigen. Allerdings führt in diesem Buch eine genauere
Darstellung zu weit.
6.4 Schätzen und Testen im Zusammenhang mit mehreren Merkmalen 279
Meistens interessiert uns bei einer Analyse zweier Zufallsvariablen X und Y , ob die
beiden korreliert sind oder nicht. Wollen wir den Pearson’schen Korrelationskoeffizienten
testen, müssen X und Y normalverteilt sein. Wir machen dann einen Signifikanztest und
prüfen die Nullhypothese, dass der Korrelationskoeffizient ρxy in der Grundgesamtheit
(Abschnitt 3.5.1) gleich null ist,
H0 : ρ = 0. (6.32)
Wir lehnen die Punkthypothese H0 : ρ = 0 ab, wenn t < −t(1 − α/2; n − 2) oder wenn t >
t(1 − α/2; n − 2) ist. Dann können wir annehmen, dass X und Y deutlich korreliert sind.
Ist n−2 > 30, können wir die Quantile der t-Verteilung durch die entsprechenden Quantile
der Standardnormalverteilung ersetzen.
Greifen wir unser Taschengeldbeispiel (Beispiel 6.4) wieder auf. Wir wollen den Korrela-
tionskoeffizienten r = 0, 9375 auf Signifikanz testen, das heißt, wir prüfen die Nullhypo-
these H0 : ρ = 0. Das Signifikanzniveau soll 0,05 betragen. Der Nichtablehnungsbereich
für die Punkthypothese ist
5,39 liegt im Ablehnungsbereich. Wir lehnen also H0 ab und gehen davon aus, dass x
und y korreliert sind.
Bemerkung: Die oben angegebene Prüfgröße gilt nur unter der Punkthypothese H0 : ρ =
0. Für anderweitige Tests wie Bereichshypothesen oder H0 : ρ = ρ0 = 0 ergibt sich eine
sogenannte nichtzentrale t-Verteilung der Prüfgröße. Diese kann nicht mehr ohne Weiteres
angegeben werden. Mithilfe der Fisher’schen Transformation können wir näherungsweise
einen Ablehnungsbereich errechnen. Wir wollen das aber in diesem Rahmen nicht weiter
vertiefen.
Analog zu oben beschränken wir uns auch hier auf den Signifikanztest mit der Nullhy-
pothese
H0 : ρ = 0. (6.34)
Die tatsächliche Verteilung der zu rs gehörenden Zufallsvariablen Rs ergibt sich aus dem
Symmetrieprinzip. Rs ist eine diskrete Zufallsvariable, deren Ausprägungen von den mög-
lichen Rangkombinationen bestimmt werden. Man spricht hier von einer Rangstatistik.
Bis n = 10 sind daher die kritischen Werte für rs tabelliert. Wir finden sie in Tabel-
le A.6. Für n > 10 können wir den Prüfwert t der Formel 6.33 verwenden. Wir lehnen
dann wieder H0 : ρ = 0 ab, wenn t < −t(1−α/2; n−2) oder wenn t > t(1−α/2; n−2) ist.
6.4 Schätzen und Testen im Zusammenhang mit mehreren Merkmalen 281
Unser Beispiel 6.5 (Seite 257) für den Spearman’schen Korrelationskoeffizienten war der
Zusammenhang zwischen BMI und dem Blutdruck. Es ergab sich rs = 0,4424. Hier ist
n nicht größer als 10, und wir müssen auf die Tabelle A.6 mit den kritischen Werten
verweisen. Wir würden H0 ablehnen, wenn rs ≥ 0, 65 ist. Das ist hier nicht der Fall und
wir können nicht davon ausgehen, dass BMI und Blutdruck korreliert sind.
1 n
s2 = · (1 − r2 ) · (yi − ȳ)2 . (6.37)
n−2
i=1
Wir werden hier die beiden Parameter durch Hypothesentests prüfen. Da aber gerade
im klinischen Bereich häufig nur wenige Beobachtungen für eine Regressionsanalyse zur
Verfügung stehen, spielen auch Konfidenzintervalle eine große Rolle, um zu untersuchen,
wie zuverlässig unsere Schätzung der Regressionskoeffizienten ist.
Als Erstes benötigen wir die Schätzfunktionen der unbekannten Parameter α und β.
Wir schätzen sie mit konkreten Werten a und b. Wir wollen die zu a und b gehörenden
Schätzfunktionen als α̂ und β̂ bezeichnen. α̂ und β̂ sind beide lineare Funktionen von Y .
Bei normalverteiltem Y sind daher
Es sind dann
α̂ − E(α̂) α̂ − α
Z= = & (6.38)
V (α̂) '
n
' x2i
'
' i=1
σ·'
(
n
n· (xi − x)2
i=1
und
β̂ − E(β̂) β̂ − β
Z= = σ (6.39)
V (β̂) n
(xi − x)2
i=1
6.4 Schätzen und Testen im Zusammenhang mit mehreren Merkmalen 283
standardnormalverteilt. Wir verwenden nun für σ 2 die Schätzung s2 und erhalten dann
die standardisierten Schätzwerte
a−α
t= & (6.40)
'
n
' x2i
'
' i=1
s'
(
n
n· (xi − x)2
i=1
und
b−β
t= s . (6.41)
n
(xi − x)2
i=1
Dabei bedeuten
Wir benötigen die Stichprobenvarianz s2 als Schätzung für die Varianz der Störgröße. Es
ist
1
n
1
s2 = (1 − r2 ) · (yi − ȳ)2 = (1 − 0,6328) · 800 = 36,71875.
n−2 8
i=1
t(0,975; 8) = 2,306.
Wir sehen, dass die Konfidenzintervalle für die Regressionskoeffizienten sehr groß sind,
was darauf zurückzuführen ist, dass zehn Beobachtungen sehr wenig sind.
Wenn wir b = 0,5625 so interpretieren, dass pro 1 e für Pflanzen 56,25 Cents für Dekoar-
tikel ausgegeben werden, teilt uns das Konfidenzintervall mit, dass in Wahrheit die antei-
ligen Ausgaben für Dekoartikel mit einer 95%igen Wahrscheinlichkeit zwischen 21,32 und
91,18 Cents liegen. Für die Marketingabteilung ist diese Schätzung nicht sehr hilfreich,
wenn mithilfe von b das Warenangebot konkret geplant werden soll. Das Konfidenzinter-
vall für α überdeckt sogar die Null, sodass hier möglicherweise α in Wahrheit null ist.
Wir haben oben gelernt, dass eine Prognose der Wert ŷ0 = a + b · x0 für einen gegebe-
nen Wert x0 ist. ŷ0 liegt auf der Regressionsgeraden. Wir haben weiter erfahren, dass
x0 nicht zu weit von den Daten entfernt sein soll, genauer gesagt, nicht zu weit weg
vom Mittelwert x. Wird die Entfernung zu groß, sinkt die Verlässlichkeit der Prognose,
das heißt, ihr Konfidenzintervall wird schnell breiter. Wir können uns das anschaulich
an einem einfachen Beispiel erklären: Betrachten wir ein Regressionsmodell y = a + bx,
wobei x das Jahr und y die Arbeitslosenquote in dem Jahr x ist. Wir können mit der ge-
fundenen Regressionsgeraden möglicherweise die Arbeitslosenquote des nächsten Jahres
6.4 Schätzen und Testen im Zusammenhang mit mehreren Merkmalen 285
Vom Modell her fassen wir die Prognose als Erwartungswert der Zufallsvariablen Y für
einen gegebenen Wert x0 auf. Ohne weiter auf die Herleitung einzugehen, erhalten wir:
Dabei bezeichnen
Speziell aus dieser Form des Konfidenzintervalls erkennt man sofort, dass das Konfidenz-
intervall breiter wird, wenn im Ausdruck (x0 − x̄)2 des Zählers unter der Wurzel x0 weiter
von x entfernt ist.
= [13,742; 25,008]
und
1 (100 − 40)2
58,75 − 2,306 · 6,06 · + ;
10 1600
1 (100 − 40)2
58 + 2,306 · 6,06 · +
10 1600
= [37,329 ; 80,171] .
Auch diese Konfidenzintervalle beruhen auf zehn Beobachtungen und sind deshalb relativ
breit. Das erste beispielsweise besagt, dass ein Kunde, der 30 e für Pflanzen ausgibt,
mit einer Wahrscheinlichkeit von 95 % im Durchschnitt für Dekoartikel zwischen 13,742
und 25,008 e ausgibt. Die Breite des Konfindenzintervalls beträgt 25,008 − 13,742 =
11,266. Wir bemerken, dass das zweite Konfidenzintervall für x0 = 100 wesentlich breiter
ist als das erste, nämlich 80,171 − 37,329 = 42,842. Es ist fast viermal so groß wie
das erste.
Die Breite des Konfidenzintervalls steigt mit dem Quadrat von x0 − x̄.
Das ist der Grund, warum Prognosen nicht zu weit vom Zentrum x der Daten entfernt
sein sollten, um einigermaßen zuverlässig zu sein.
Das vorwiegende Interesse haben wir an dem Steigungskoeffizienten β, den wir mit b
schätzen. Ausgehend von der standardisierten Variablen in Formel 6.41 verwenden wir
für einen Hypothesentest den Prüfwert
b − β0
t= . (6.45)
s
n
(xi −x)2
i=1
Meistens genügt uns ein Signifikanztest H0 : β = 0, weil wir wissen wollen, ob über-
haupt zwischen x und y ein linearer Zusammenhang besteht. Hier gehen wir mit einem
reduzierten Prüfwert so vor:
Als eher weniger bedeutend wird häufig der Hypothesentest bezüglich des Absolutglieds
α angesehen. Dabei gibt es durchaus relevante Fragestellungen für ein bestimmtes α, wie
wir in Beispiel 6.11 sehen werden. Die Schätzung für α ist a. Wir verwenden für einen
Hypothesentest ausgehend von der standardisierten Variablen in Formel 6.40 den zur
Prüfgröße gehörenden Prüfwert
a − α0
t= & . (6.47)
'
n
' x2i
'
' i=1
s·'
(
n
n· (xi − x)2
i=1
288 6 Analyse mehrerer Merkmale
Meistens genügt uns ein Signifikanztest H0 : α = 0. Wir gehen mit einer vereinfachten
Prüfgröße folgendermaßen vor:
Bemerkung: Verwenden wir eine statistische Software wie beispielsweise SPSS oder Mi-
nitab, erhalten wir bei der Ausgabe einer Regressionsrechnung auch die Testergebnisse
für H0 : α = 0 und H0 : β = 0. So können wir schnell nachprüfen, ob die Regressoren einen
signifikanten Beitrag zur Erklärung der Zielvariablen liefern können. Außerdem liefern
die Auswertungsprogramme eine Streuungszerlegung, wie wir sie in der Varianzanalyse
kennengelernt haben. Damit können wir zum einen das Bestimmtheitsmaß bestimmen
und zum anderen einen Test auf die Güte des gesamten Regressionsmodells errechnen.
[−2,306; 2,306].
t liegt nun im Nichtablehnungsbereich. a ist insignifikant, ein Absolutglied ist nicht ge-
sichert. Es könnte also auch ein Regressionsmodell der Art y = bx zur Erklärung von x
genügen.
Bevor man die einzelnen Regressionskoeffizienten testet, kann es sinnvoll sein, zuerst
zu prüfen, ob das Regressionsmodell insgesamt tauglich ist. Wir erinnern uns, dass das
Bestimmtheitsmaß r2 ein Gütemaß für die Anpassung der Regressionsgeraden an die
Daten ist. Es stellt den Anteil der durch x erklärten Streuung an der Gesamtstreuung
von y dar, also
SSE
r2 = .
SST
Hergeleitet wurde das von der Streuungszerlegung SST = SSE + SSR. SST setzt sich
zusammen aus SSE und der nicht erklärbaren Reststreuung SSR. Wir prüfen die Null-
hypothese
Wenn diese Hypothese abgelehnt wird, können wir davon ausgehen, dass unser Regres-
sionsmodell ŷ = a + bx die Daten y ausreichend mithilfe von x erklärt. Wir führen also
einen Signifikanztest durch.
Wann führt der erhaltene Prüfwert zur Ablehnung? Wenn SSE in Verhältnis zur SSR
groß ist: Es sollen bei einem guten Regressionsmodell SSE möglichst groß und SSR mög-
lichst klein sein. Wir könnten also einen Quotienten SSE
SSR verwenden. Allerdings können
wir für diesen Quotienten keine Verteilung angeben. Aber wir haben es mit Quadratsum-
men zu tun. Wenn wir diese nun noch durch die Zahl ihrer Freiheitsgrade teilen, erhalten
wir eine Prüfgröße
SSE
F = 1 . (6.49)
SSR
n−2
F ist F -verteilt mit einem und n − 2 Freiheitsgraden.
Wir sehen Tabelle 6.19 aufgeteilt nach Quelle der Streuung, Zahl der jeweiligen Frei-
heitsgrade, mittlere Quadratsumme als Quadratsumme durch die Freiheitsgrade geteilt
und schließlich den Prüfwert f , die Realisation der Prüfgröße F (Formel 6.49). Das Tei-
len durch 1 bei SSE mutet seltsam an. Allerdings hat man bei Regressionsmodellen
mit mehr Regressoren auch eine größere Zahl von Freiheitsgraden. In unserem speziellen
Regressionsmodell könnten wir die Eins auch weglassen.
Dabei sind
Der Test mithilfe der ANOVA-Tabelle ist eher für den Einsatz von Computern ge-
dacht. Diese Darstellung erleichtert uns aber die Erläuterung der Varianzanalyse in Ab-
schnitt 6.5. Weiter unten lernen wir noch, wie man den Test manuell durchführt.
Wir wollen nun auf unser Beispiel 6.8 zurückgreifen. Es soll bei einem Signifikanzniveau
von α = 0,025 die Hypothese getestet werden:
Die ANOVA-Tabelle (Tabelle 6.21) soll erstellt werden. Für die Berechnung der Qua-
dratsummen müssen wir aber erst eine Arbeitstabelle aufmachen (Tabelle 6.20). Wie wir
Tabelle 6.20 beispielsweise entnehmen können, sind die Summen und damit die arithme-
tischen Mittel von ŷ und y immer gleich. Außerdem ist d = 0 und damit (di − d)2 = d2i .
Das erleichtert die Berechnung der Tabellenwerte.
SSE ist die Summe der (ŷi − y)2 und SSR ist die Summe der d2i . Wir erhalten also
SSE = 506,25 und SSR = 293,75. SST ist die Summe SSE + SSR = 800. Ein Vergleich
mit Tabelle 6.16 zeigt, dass tatsächlich SST = 800 ist. Jetzt können wir Tabelle 6.21 mit
Leben füllen.
ist laut Tabelle 6.21 gleich 13,79. Dieser Wert ist größer als 7,57. Wir lehnen H0 al-
so ab, was bedeutet, dass unser Bestimmheitsmaß ausreichend groß ist. Das gewählte
Regressionsmodell kann als geeignet angesehen werden.
Für die manuelle Durchführung des Tests ist die ANOVA-Tabelle weniger geeignet, da
die Ermittlung der Quadratsummen aufwendig ist. Wir können aber den Test auch in
eine Form bringen, die mathematisch das Gleiche ist, jedoch einfacher zu rechnen.
Hier wollen wir das Bestimmheitsmaß r2 explizit für den Test auf die Güte des gesamten
Regressionsmodells verwenden. Wir können nämlich f = (SSE)/( SSR n−2 ) umformen zu
r2
f= .
1 − r2
n−2
Die zu f gehörende Schätzfunktion F ist F -verteilt mit einem und n − 2 Freiheitsgraden.
6.5 Varianzanalyse 293
r2
f= . (6.51)
1 − r2
n−2
Die Hypothese H0 : Das Bestimmheitsmaß ist null wird abgelehnt, wenn f > f (1 −
α; 1; n − 2) ist.
Dabei ist
r2 das Bestimmheitsmaß,
f (1 − α; 1; n − 2) das (1 − α)-Quantil der F -Verteilung mit einem und n − 2
Freiheitsgraden.
Wir besorgen uns auf Seite 277 den Wert r2 = 0,6328 und berechnen für Beispiel 6.8 den
Prüfwert
r2 0,6328
f= = ≈ 13,79.
1 − r2 1 − 0,6328
n−2 8
Wir sehen, es ergibt sich derselbe Prüfwert. Da auch der Ablehnungsbereich gleich ge-
blieben ist, wird hier ebenfalls H0 abgelehnt.
Betrachten wir zunächst ein Beispiel, um das Prinzip der Varianzanalyse zu illustrieren.
hatte kein Telefon im Auto, in der zweiten Gruppe wurde mit Handy am Steuer te-
lefoniert und in der dritten Gruppe mit Freisprechanlage. In den Gruppen 1 und 2
befanden sich je zehn Personen, in der Gruppe 3 zwölf. Bei jeder Person wurden die
Fahrfehler gezählt, wobei nicht zwischen schweren Fehlern und kleineren Fehlleistungen
unterschieden wurde. In Tabelle 6.22 wurden die Ergebnisse zusammengefasst.
Tab. 6.22: Zahl der Fahrfehler beim Fahren ohne Telefonieren, mit Telefonieren mit Handy
oder mit Freisprechanlage.
Wir sehen sofort, dass die meisten Fehler beim Telefonieren mit Handy gemacht wurden,
dass aber auch das Telefonieren mit Freisprechanlage die Fahrer abgelenkt hatte. Wir
berechnen für jede Gruppe das arithmetische Mittel, also
30
y1 = = 3,
10
entsprechend y 2 = 9 und y 3 = 6. Auch an den Mittelwerten erkennen wir Unterschiede
in den drei Gruppen.
Nun wollen wir das Modell abstrahieren. Die Zahl der Fahrfehler ist eine metrisch skalier-
te Variable y, die Zielvariable oder abhängige Variable genannt wird. Wir bezeichnen die
Art des Telefonierens als einen Faktor, der sich auf die Fahrfehler auswirkt. Der Faktor
teilt sich in drei Stufen 1, 2 und 3 auf. Für jede Stufe j liegen nj viele Beobachtungen i
(i = 1, . . . , nj ) vor. Ein Beobachtungswert wird somit als yij eindeutig bezeichnet.
Bemerkung: Häufig wird in der Literatur der Stufenindex j zuerst genannt, weil die
Stufenzugehörigkeit als wichtiger als die Nummer der Beobachtung angesehen wird.
6.5 Varianzanalyse 295
Beobachtung Faktorstufe
i 1 2 3
1 y11 y12 y13
2 y21 y22 y23
3 y31 y32 y33
4 y41 y42 y43
5 y51 y52 y53
6 y61 y62 y63
7 y71 y72 y73
8 y81 y82 y83
9 y91 y92 y93
10 y101 y102 y103
11 y113
12 y123
Summe y1 y2 y3
Die Auswertung geschieht mithilfe verschiedener Summen. Für die Summe über eine
Stufe j schauen wir uns Stufe 1 an: Für die erste Stufe erhalten wir
y1 = 2 + 4 + 4 + . . . + 3 = 30,
also
n1
y1 = y11 + y21 + y31 + . . . + y10 1 = yi1
i=1
nj
yj = y1j + y2j + y3j + . . . + ynj j = yij . (6.52)
i=1
3
3
nj
y1 + y2 + y3 = yj = yij . (6.53)
j=1 j=1 i=1
296 6 Analyse mehrerer Merkmale
Gegeben ist eine metrisch skalierte Variable y. Auf diese Variable wirkt ein Faktor
ein. Der Faktor teilt sich in p Stufen j (j = 1, 2, . . . , p) auf. Für jede Stufe j liegen
nj viele Beobachtungen i (i = 1, . . . , nj ) als yij vor. Eine Stufe wird auch Gruppe
genannt.
nj
yj = yij
i=1
p
yj
j=1
y= .
n
Bei diesem Modell haben wir es mit der einfaktoriellen Varianzanalyse zu tun, weil ein
Faktor auf die Beobachtungswerte einwirkt. Wir nennen es kurz ANOVA-Modell. Wir
kennen diese Bezeichnung schon von der Regressionsanalyse (Seite 290) her, denn die
Aufteilung der Streuung ist vergleichbar.
Nun überlegen wir uns, was wir statistisch mit den Daten anfangen können. Uns in-
teressiert bei unserem Beispiel vor allem, ob die Stufen des Faktors „Art des Telefonie-
rens“ die abhängige Variable „Fahrfehler“ unterschiedlich beeinflussen. Wir wollen also
einen Test machen. Dazu müssen wir uns nun mit den stochastischen Eigenschaften des
Varianzanalyse-Modells befassen.
Eine einfache Möglichkeit besteht darin, sich den stochastischen Ansatz der Regressi-
onsanalyse auszuleihen. Und man kann in der Tat das Varianzanalyse-Modell auch als
multiples Regressionsmodell auffassen. Aber die Ausführung als multiples Regressions-
modell führt hier zu weit.
E(Y ) = α + β · x.
Das heißt, wir schätzen eigentlich den Erwartungswert von Y für jeden Wert von x.
Für die Schätzung der Regressionskoeffizienten liegen n viele Wertepaare (xi ; yi ) (i =
1, . . . , n) vor. Damit werden die Parameter geschätzt.
Die gesamte Streuung SST der beobachteten y-Werte lässt sich zerlegen in die Streu-
ung SSE, die mithilfe von x erklärt wird, und die Reststreuung SSR der Residuen.
Wir können das Wort Streuung durch Information ersetzen.
Nun variieren wir dieses Modell, um es an die Varianzanalyse anzupassen. Als Referenz-
modell lehnen wir uns an Beispiel 6.12 an.
Wir haben drei Grundgesamtheiten j vorliegen. Die erste (j = 1) besteht aus allen
auftretenden Zahlen von Fahrfehlern beim Fahren ohne Telefonieren, die zweite (j = 2)
aus den Zahlen der Fahrfehler mit Handytelefonaten und die dritte (j = 3) aus den Zahlen
der Fahrfehler bei Verwenden der Freisprechanlage. So eine Grundgesamtheit nennen wir
auch Gruppe. Sie entspricht der Stufe j des Faktors. Jeder Grundgesamtheit j entstammt
eine Zufallsvariable Yj .
Der Erwartungswert einer Zufallsvariablen Yj ist E(Yj ) = μj . Der Wert μj ist also
der durchschnittliche Beitrag von Fahrfehlern in einer Stufe. Dieser Beitrag kann nicht
beobachtet werden, denn er wird durch eine Störgröße ε überlagert. Es lässt sich also
jedes Yj schreiben als
Y1 = μ1 + ε,
Y2 = μ2 + ε,
Y3 = μ3 + ε.
Mit jeder Realisation einer Zufallsvariablen Yj ist auch eine Realisation von ε verbunden.
In Abbildung 6.14 wird das veranschaulicht. Wir haben die Grundgesamtheiten der drei
Gruppen nebeneinander aufgeführt. Jede Gruppe besitzt einen unbekannten Parameter
μj . In diesen Gruppen können Zufallsvariablen Y beobachtet werden. Deren Erwartungs-
wert ist jeweils μj . Jede Zufallsvariable Y geht mit der Störgröße ε einher. Einige Y wur-
den zusammen mit ε exemplarisch hervorgehoben. Mal ist ε größer als null, mal kleiner,
sodass die Realisationen der Y mal das Niveau μj überragen, mal darunterbleiben.
298 6 Analyse mehrerer Merkmale
Wie schätzen wir das mittlere Niveau μj einer Stufe? Wir erheben für jede Gruppe j
nj viele Beobachtungen yij , wie oben schon gezeigt. Es bietet sich an, dass man das
durchschnittliche Niveau μj mit dem Stichprobendurchschnitt y j schätzt.
Yj = μj + εj
zerlegt werden in den Gruppenmittelwert y j und den verbleibenden Rest eij , das Resi-
duum,
Mit y j schätzen wir μj . Das Residuum eij entspricht der Störgröße ij . Wie wir aber
aus Abschnitt 6.3.1 der Regressionsanalyse wissen, kann man das Residuum nicht als
Schätzung bezeichnen, denn eine Zufallsvariable kann man eigentlich nicht schätzen.
Um etwa einen Test auf Gleichheit der μj durchführen zu können, müssen wir wieder wie
bei der Regressionsanalyse bestimmte Verteilungsvoraussetzungen verlangen:
Mit anderen Worten: Wie im Regressionsmodell soll die Störgröße keine systematische
Information mehr enthalten und nur noch zufällig streuen.
Wir benötigen außerdem noch eine Zusatzannahme für Schätz- und Testverfahren: Die ε
müssen normalverteilt sein.
Ebenso können wir analog zur Regressionsanalyse für jeden Beobachtungswert yij einen
Schätzwert ŷij angeben. Der ist allerdings einfacher gestrickt und wird berechnet als
ŷij = y j . (6.55)
Wir wollen unsere Folgerungen nun für Beispiel 6.12 anwenden. Die Schätzwerte ŷij
werden zusammen mit den Residuen eij in einer Arbeitstabelle (Tabelle 6.23) aufgeführt.
Wir kommen nun zur Streuungszerlegung von y, das heißt hier, der yij : Die gesamte
Streuung SST der beobachteten yij -Werte lässt sich zerlegen in die Streuung SSE, die
mithilfe der Gruppenmittelwerte erklärt wird, und die Reststreuung SSR der Residuen:
Für unsere Varianzanalyse bedeutet das, ganz allgemein ausgedrückt, zunächst das For-
melgrauen:
p nj
p nj
p nj
2 2
(yij − y) = (ŷij − ŷ) + (eij − e)2 . (6.57)
j=1 i=1 j=1 i=1 j=1 i=1
Wir haben jetzt aber schon so viele Erfahrungen gesammelt, dass wir uns von diesen
Monstern nicht mehr einschüchtern lassen. Zäumen wir das Monster von der Seite des
Beispiels her auf.
10
10
12
= (yi1 − y)2 + (yi2 − y)2 + (yi3 − y)2
i=1 i=1 i=1
300 6 Analyse mehrerer Merkmale
n1
n2
n3
= (yi1 − y)2 + (yi2 − y)2 + (yi3 − y)2 .
i=1 i=1 i=1
Nun müssen wir nur noch die Stufen j in die Summation einbeziehen und erhalten somit
3
nj
SST = (yij − y)2 ,
j=1 i=1
Wir betrachten nun SSE. Wir berechnen es mithilfe der Schätzwerte als
(jedes ŷ − Mittelwert aller ŷ)2 .
ŷ = y,
192
was wie oben 32 = 6 ist. Außerdem wissen wir, dass der Schätzwert in jeder Stufe j
ŷ = y j
ist. Wenn wir das mit der Stufenaufteilung vereinen, erhalten wir
SSE = (jedes ŷ der Stufe 1 − y)2 + (jedes ŷ der Stufe 2 − y)2
+ (jedes ŷ der Stufe 3 − y)2
10
10
12
= (y 1 − y)2 + (y 2 − y)2 + (y 3 − y)2 .
i=1 i=1 i=1
Ein Blick auf Tabelle 6.23 zeigt, dass beispielsweise die Summe
10
(y 1 − y)2 = 10 · (y 1 − y)2
i=1
ist, weil in der ersten Stufe y 1 zehnmal vorkommt. Wir erhalten also für die drei Stufen
2 1 10 9 1 9 1 16
2 2 10 9 1 9 1 16
2 3 9 9 0 9 0 9
2 4 12 9 3 9 9 36
2 5 7 9 −2 9 4 1
2 6 9 9 0 9 0 9
2 7 10 9 1 9 1 16
2 8 10 9 1 9 1 16
2 9 7 9 −2 9 4 1
2 10 6 9 −3 9 9 0
3 1 3 6 −3 0 9 9
3 2 6 6 0 0 0 0
3 3 5 6 −1 0 1 1
3 4 6 6 0 0 0 0
3 5 6 6 0 0 0 0
3 6 8 6 2 0 4 4
3 7 7 6 1 0 1 1
3 8 9 6 3 0 9 9
3 9 6 6 0 0 0 0
3 10 7 6 1 0 1 1
3 11 5 6 −1 0 1 1
3 12 4 6 −2 0 4 4
Summe 192 192 0 180 68 248
SSE SSR SST
302 6 Analyse mehrerer Merkmale
bzw.
SSR = (jedes Residuum e der Stufe 1−e)2 + (jedes Residuum e der Stufe 2−e)2
+ (jedes Residuum e der Stufe 3 − e)2 .
Wie können wir das möglichst schnell berechnen? Es ist zunächst e = 0. Außerdem gilt
eij = yij − ŷij = yij − y j . Wir erhalten nun
10
10
12
SSR = (yi1 − y 1 )2 + (yi2 − y 2 )2 + (yi3 − y 3 )2 ,
i=1 i=1 i=1
allgemeiner
n1
n2
n3
SSR = (yi1 − y 1 )2 + (yi2 − y 2 )2 + (yi3 − y 3 )2 .
i=1 i=1 i=1
Beziehen wir die Stufen in die Summation ein, können wir nun angeben
3
nj
SSR = (yij − y j )2 ,
j=1 i=1
allgemeiner
p nj
SSR = (yij − y j )2 .
j=1 i=1
also
p nj
p
p nj
(yij − y)2 = nj · (y j − y)2 + (yij − y j )2 . (6.58)
j=1 i=1 j=1 j=1 i=1
Dabei ist
Bemerkung: Häufig wird SSE als SSB und SSR als SSW bezeichnet. B bedeutet bet-
ween; es handelt sich also bei SSB um die Streuung zwischen den Mittelwerten der
Gruppen. W bedeutet within; es handelt sich also bei SSW um die Streuung innerhalb
der Gruppen. Um die Quadratsummen etwas übersichtlicher zu gestalten, fassen wir sie
wieder (wie in Tabelle 6.19) in einer ANOVA-Tabelle (Tabelle 6.24) zusammen.
Wir kommen nun zum Testverfahren. Wir wollen wissen, ob deutliche Unterschiede in den
mittleren Beiträgen der Stufen zur Variablen y existieren. Um sicher zu sein, testen wir
wieder die entgegengesetzte Hypothese – wir machen einen Signifikanztest. Wir prüfen
für das Beispiel also die Nullhypothese
H0 : μ1 = μ2 = μ3 .
Die Alternativhypothese lautet: Mindestens ein Paar der μj sind ungleich. Wird H0 abge-
lehnt, können wir davon ausgehen, dass die durchschnittlichen Beiträge von mindestens
zwei Stufen unterschiedlich sind.
Wie auch in der Regressionsanalye ist SSE ein Maß für die Güte des Varianzanalyse-
Modells. Je weiter die Gruppenmittelwerte y j voneinander entfernt sind, desto größer
wird SSE. Und desto kleiner wird aufgrund der Streuungszerlegung SSR. Wir verwen-
den also wie in der Regressionsanalyse für die Prüfgröße den Quotienten der mittleren
Quadratsummen
SSE/(p − 1)
f= .
SSR/(n − p)
Die zu f gehörende Zufallsvariable F ist wieder F -verteilt mit p − 1 und n − p Freiheits-
graden. Wird der Quotient groß, führt das zur Ablehnung der Nullhypothese.
Gegeben ist eine metrisch skalierte abhängige Variable y, auf die ein Faktor einwirkt,
der in p Stufen, auch Gruppen genannt, aufgeteilt ist. Zu jeder Stufe j liegen nj
Beobachtungen von y vor.
304 6 Analyse mehrerer Merkmale
H0 : μ1 = μ2 = . . . = μp
SSE/(p − 1)
f= . (6.59)
SSR/(n − p)
Wir wollen nun für Beispiel 6.12 den Signifikanztest durchführen. Wir wählen ein Signi-
fikanzniveau α = 0, 025. Der kritische Wert für die Ablehnung von H0 ist f (1 − α; p −
1; n − p) = f (0, 975; 2; 29) ≈ 4, 2.
Wir berechnen
p
SSE = nj · (y j − y)2
j=1
Reparametrisierung
Wir wollen nun das Varianzanalyse-Modell aus einem weiteren Blickwinkel betrachten.
Wir können das Modell Yij = μj + ij auch etwas anders strukturieren, indem wir die
Abweichung αj = μj − μ einführen. Es folgt dann
μ enthält den allgemeinen Mittelwert der Grundgesamtheit. αj gibt den speziellen Ein-
fluss an, den die Stufe j auf die Zielvariable Y ausübt. Wir nennen αj einen Effekt.
Die Darstellung mit Effekten wird als Reparametrisierung der Gleichung Yji = μj + ji
bezeichnet. Es gilt übrigens
p
α1 + α2 + · · · = αj = 0. (6.61)
j=1
Positive und negative Effekte saldieren sich also. In der Stichprobe schätzen wir αj mit
aj = y j − y. (6.62)
p
a1 + a2 + · · · = aj = 0. (6.63)
j=1
H0 : α1 = α2 = . . . αp = 0. (6.64)
Sie ist äquivalent zum Test der Gleichheit der μj und verwendet die gleiche Vorgehens-
weise.
Das einfache ANOVA-Modell von oben lässt sich beliebig erweitern. Die Varianzanalyse
erlaubt derartig viele Spielarten, dass darüber eigene Bücher geschrieben wurden. Ge-
meinsam ist diesen Modellen aber immer die Zerlegung der gesamten Streuung in die
jeweils benötigten Teilstreuungen.
Wir wollen eine weitere häufig verwendete Variante des Varianzanalyse-Modells betrach-
ten: die zweifaktorielle Varianzanalyse.
Es existieren zwei Faktoren A und B, die auf eine Zielvariable y einwirken. Faktor A hat
die Stufen j (j = 1, . . . , p), und Faktor B hat die Stufen k (k = 1, . . . , r). In jeder von
einer Stufe j und k gebildeten Gruppe liegen die gemeinsamen Beobachtungen i einer
Zielvariablen yijk vor.
306 6 Analyse mehrerer Merkmale
Aus methodischen Gründen sollten wir hier für jedes Stufenpaar (jk) die gleiche Zahl
von Beobachtungen njk = m festlegen. Es ist dann die Gesamtzahl der Beobachtungen
n = p · r · m. Wir haben also die Haupteffekte für die Stufen der Faktoren A und B, aber
auch Effekte von (AB-)Gruppen, sogenannte Interaktionen oder Wechselwirkungen. Wir
werden damit beispielsweise analysieren, ob zwei Faktorstufen sich verstärken oder ob
ihre Effekte möglicherweise unabhängig sind.
In Tabelle 6.25 sind für die Faktoren Jahrgangsstufe und Geschlecht die beobachteten
Werte des Wohlfühlindex y aufgeführt. In den Zellen der Tabelle sind die beobachteten
Werte aufgeführt, rechts und unten stehen die Summen über Zeilen und Spalten.
Tab. 6.25: Wohlfühlindex von je zehn Schülern nach Jahrgangsstufe und Geschlecht.
Jahrgangstufe Faktor B
mit den Stufen
Faktor A 5. Jahrgangs- 7. Jahrgangs- 9. Jahrgangs- Summe
in den stufe stufe stufe
Stufen 1 2 3
männlich 1 48 81 69 69 50 37 62 67 43 50 52 71 43 48 71 1740
74 64 67 69 69 52 57 40 45 57 55 43 71 40 76
weiblich 2 33 67 48 48 62 62 40 74 43 48 42 62 62 69 57 1710
64 83 71 71 83 57 45 60 56 55 43 50 55 48 52
Summe 1290 1050 1110 3450
Wir benötigen analog zur einfaktoriellen Varianzanalyse vor allem Summen. Wir sum-
mieren also die Werte in den Zellen der Datentabelle 6.25 auf. Wir finden die Summen in
Tabelle 6.26. In den Zellen der Tabelle stehen die Summen für die Interaktionen. So ist
beispielsweise die Summe der Daten für die Jahrgangsstufe 9 und Schülerinnen y23 = 540.
Am Rand der Tabelle sind die Gesamtsummen für die Faktorstufen aufgeführt. So ist
zum Beispiel die Summe der Daten für die männlichen Schüler y1A = 1740. Bei kon-
kreten Daten müssen wir noch den Buchstaben des Faktors hinzufügen, damit klar ist,
6.5 Varianzanalyse 307
um welchen Faktor es sich handelt. In der Formel genügt die Angabe j oder k für eine
eindeutige Kennzeichnung des Faktors.
Tab. 6.26: Wohlfühlindex von je zehn Schülern nach Jahrgangsstufe und Geschlecht:
Mittelwerte.
Faktor B Summe
Faktor A 1 2 3
1 y11 = 660 y12 = 510 y13 = 570 y1A = 1740
2 y21 = 630 y22 = 540 y23 = 540 y2A = 1710
Summe y1B = 1290 y2B = 1050 y3B = 1110 y = 3450
Nun wollen wir die benötigten Mittelwerte berechnen. Wir können Mittelwerte erhalten
über die Stufen der Faktoren und auch für jede Stufenkombination der Faktoren A und
B, die Interaktionen. Die Mittelwerte berechnen sich wieder als Summe der beteiligten
Beobachtungen, geteilt durch ihre Anzahl. So ist beispielsweise
630
y 21 = = 63
10
und
1740
y 1A = = 58.
3 · 10
Der gesamte Mittelwert ist
3450
y= = 57,5.
6 · 10
Wir können also als Formel der Mittelwerte angeben
1
p
m
yk = · yijk (denn wir summieren über p Zeilen),
p·m
j=1 i=1
1
p
r
m
y= · yijk .
p·r·m
j=1 k=1 i=1
308 6 Analyse mehrerer Merkmale
Wir wollen uns aber von diesen Formeln nicht einschüchtern lassen und merken uns ein-
fach, dass ein arithmetisches Mittel immer die Zahl der entsprechenden Beobachtungen
geteilt durch ihre Anzahl ist. In Tabelle 6.27 sind die arithmetischen Mittel zusammenge-
fasst. Ein erster Blick verrät, dass ein sichtbarer Unterschied der Mittelwerte der ersten
Stufe von B zu den anderen Mittelwerten besteht. Die restlichen Mittelwerte unterschei-
den sich auf den ersten Blick nicht wesentlich. Ob bedeutsame Unterschiede vorliegen,
werden wir später sehen.
Tab. 6.27: Wohlfühlindex von je zehn Schülern nach Jahrgangsstufe und Geschlecht:
Mittelwerte.
Faktor B
Faktor A 1 2 3
1 y 11 = 66 y 12 = 51 y 13 = 57 y 1A = 58
2 y 21 = 63 y 22 = 54 y 23 = 54 y 2A = 57
y 1B = 64,5 y 2B = 52,5 y 3B = 55,5 y = 57,5
Gegeben ist eine metrisch skalierte abhängige Variable y, auf die zwei Faktoren A
und B einwirken. Der Faktor A hat die Stufen j (j = 1, . . . , p), und der Faktor
B hat die Stufen k (k = 1, . . . , r). Für jedes Paar zweier Stufen j und k, das wir
Gruppe nennen, liegen m Beobachtungen von y vor.
Der Mittelwert in einer Gruppe ist die Summe der Beobachtungen in dieser Grup-
pe geteilt durch m. Er heißt y jk .
Der Mittelwert in einer Stufe ist die Summe der Beobachtungen in dieser Gruppe
geteilt durch ihre Gesamtzahl. Er heißt je nach Faktor y jA oder y kB .
Der gesamte Mittelwert ist die Summe aller Beobachtungen geteilt durch die
Anzahl n aller Beobachtungen. Er heißt y.
Nun wollen wir das zweifaktorielle Varianzanalyse-Modell von der stochastischen Seite
angehen.
nicht beobachtet werden, denn er wird durch eine Störgröße ε überlagert. Betrachten wir
Beispiel 6.13. Es lässt sich jedes Yjk schreiben als
Y11 = μ11 + ε,
Y12 = μ12 + ε,
..
.
Y23 = μ23 + ε.
Mit jeder Realisation einer Zufallsvariablen Yjk ist auch eine Realisation von ε verbunden.
Aus methodischen Gründen gelten für die zu Yijk gehörende Störgröße εijk folgende
Annahmen:
Wie schätzen wir das mittlere Niveau μjk einer Stufenkombination jk? Wir erheben für
jede Gruppe jk m viele Beobachtungen yijk , wie oben schon gezeigt. Es bietet sich an,
dass man das durchschnittliche Niveau μjk mit dem Stichprobendurchschnitt y jk schätzt.
Neben den gruppenspezifischen Erwartungswerten μjk , die den gemeinsamen Einfluss der
beiden Stufen auf Y messen, betrachten wir noch stufenspezifische Erwartungswerte μj ,
die nur den durchschnittlichen Beitrag der Stufe j von Faktor A auf Y erfassen, entspre-
chend μk für den Faktor B. Außerdem definieren wir noch den allgemeinen Erwartungs-
wert μ, der das mittlere Niveau der Zufallsvariablen Y über die totale Grundgesamtheit
angibt.
Nun werden wir das Varianzanalyse-Modell reparametrisieren, denn das erleichtert die
Analyse: Wir haben den allgemeinen Erwartungswert μ, die faktorspezifischen Erwar-
tungswerte μj und μk und die gruppenspezifischen Erwartungswerte μjk .
αj = μj − μ (6.65)
βk = μk − μ. (6.66)
Allen Zufallsvariablen gemeinsam ist der gesamte Mittelwert μ. Der Effekt ist der über
μ hinausgehende spezielle durchschnittliche Beitrag einer Stufe zur Zielvariablen.
310 6 Analyse mehrerer Merkmale
Die Interaktionseffekte (αβ)jk sind das, was von den Erwartungswerten in einer Gruppe
übrig bleibt, wenn das allgemeine Mittel und die Stufeneffekte entfernt werden, also
Es setzt sich jede Stichprobenvariable Yijk also zusammen aus den Erwartungswerten
und der zufällig schwankenden Störgröße ,
Was wollen wir nun hier testen? Wir möchten Folgendes wissen:
H0 : α1 = α2 = . . . = αp = 0
H0 : β1 = β2 = . . . = βr = 0
Wir gehen wir praktisch vor? Wir brauchen für unsere Streuungszerlegung zunächst die
Schätzungen für die verschiedenen Erwartungswerte:
1
p
r
m
y= · yijk , (6.69)
p·r·m
j=1 k=1 i=1
1
r
m
aj = y j − y = · yijk − y, (6.70)
r·m
k=1 i=1
1
p
m
bk = y k − y = · yijk − y, (6.71)
p·m
j=1 i=1
6.5 Varianzanalyse 311
für (αβ)jk das Mittel der Beobachtungen der Wechselwirkung jk als Schätzung
1
m
(ab)jk = · yijk − aj − bk − y. (6.72)
m
i=1
Der Effekt einer Stufe ist der spezielle Einfluss, den diese Stufe auf die Zielvariable
ausübt. Die Stufeneffekte werden berechnet mit
aj = y j − y
bk = y k − y
(k = 1, . . . , r) für die Stufen des Faktors B. Der Interaktionseffekt ist der spezi-
elle Einfluss, den eine Gruppe jk auf die Zielvariable ausübt. Dieser Effekt wird
berechnet mit
(ab)jk = y jk − aj − bk − y.
für αj
p
SSA = r · m · a2j , (6.73)
j=1
für βk
r
SSB = p · m · b2k , (6.74)
k=1
für (αβ)jk
p
r
SS(AB) = m · (ab)2jk . (6.75)
j=1 k=1
Analog zur einfaktoriellen Varianzanalyse setzt sich auch in der zweifaktoriellen die ge-
samte Streuung der Daten aus dem Part zusammen, der sich durch die unterschiedlichen
Effekte erklären lässt, und der Reststreuung SSR, die nicht weiter durch das Modell be-
schrieben werden kann. Erstere sind die oben genannten Quadratsummen. Wir können
also die gesamte Streuung SST zerlegen in
Die gesamte Streuung SST ergibt sich aus der Varianz aller Daten yijk bezüglich y als
m
p
r
SST = (yijk − y)2 . (6.77)
i=1 j=1 k=1
Streuungen
SSA ist die Summe der quadrierten Stufeneffekte aj des Faktors A, multipliziert
mit r · m.
SSB ist die Summe der quadrierten Stufeneffekte bk des Faktors B, multipliziert
mit p · m.
SS(AB) ist die Summe der quadrierten Interaktionseffekte (ab)jk zwischen den
Faktoren A und B, multipliziert mit m.
SST ist die Quadratsumme der Abweichungen aller Beobachtungswerte yijk vom
Gesamtmittel y.
SSR ist der Rest: SSR = SST − SSA − SSB − SS(AB).
Für die Durchführung der Tests nehmen wir wieder die Varianzanalyse-Tabelle, unsere
bekannte ANOVA-Tabelle, zuhilfe. Wir tragen in die Tabelle die einzelnen Streuungen
ein, ihre Freiheitsgrade und die mittleren Quadratsummen als Streuung/Freiheitsgrade.
Schließlich folgt die Prüfgröße, die sich analog zur Prüfgröße des einfaktoriellen Modells
berechnet. Tabelle 6.28 gibt das Schema der Varianzanalyse-Tabelle wieder.
MSA
A SSA p−1 MSA f (1 − α; p − 1;
MSR
pr (m − 1))
MSB
B SSB r −1 MSB f (1 − α; r − 1;
MSR
pr (m − 1))
MS(AB)
(AB) SS(AB) (p − 1)(r − 1) MS(AB) f (1 − α;
MSR
(p − 1)(r − 1);
pr (m − 1))
Kehren wir wieder zu Beispiel 6.13 zurück. Wir wollen bei einem Signifikanzniveau α =
0,05 die Hypothesen testen, die im obigen Kasten aufgeführt sind. Dazu brauchen wir
zunächst die Mittelwerte von Tabelle 6.27, um die Effekte schätzen zu können. Wir
erhalten
314 6 Analyse mehrerer Merkmale
a1 = y 1A − y = 58 − 57,5 = 0,5,
a2 = y 2A − y = 57 − 57,5 = −0,5,
a1 = y 1B − y = 64,5 − 57,5 = 7,
a2 = y 2B − y = 52,5 − 57,5 = −5,
a3 = y 3B − y = 55,5 − 57,5 = −2,
Bemerkung: Wir können anhand der Berechnungen schön sehen, dass die Summe der
Effekte eines Faktors immer null ergibt. Das ist eine mathematische Folge der Repara-
metrisierung. Wir kennen das als die Rechenregel, dass die Summe von zentrierten Daten
null ergibt.
Nun ermitteln wir die Streuungen für die Prüfgrößen. Wir erhalten
p
für SSA nach der Formel SSA = r · m · a2j die Streuung
j=1
p
für SSB nach der Formel SSB = p · m · b2k die Streuung
k=1
p
r
für SS(AB) nach der Formel SS(AB) = m · (ab)2jk die Streuung der Interakti-
j=1 k=1
onseffekte
Die Gesamtstreuung SST ist die Summe der quadrierten Differenzen aller y-Werte vom
p r m
Gesamtmittel y. Daher erhalten wir wegen SST = (yijk − y)2
j=1 k=1 i=1
Tabelle 6.29 zeigt, dass ein sehr großer Anteil der gesamten Information, die in den Daten
steckt, nicht mithilfe des Varianzanalyse-Modells erklärt werden kann. Die Reststreuung
SSR hat einen Anteil an der Gesamtstreuung von 7446 9141 ≈ 80 %. Nur 20 % der Information
in den Daten kann mithilfe der Varianzanalyse erklärt werden. Die Güte dieses Modells
ist daher eher zweifelhaft. Die Prüfwerte der Tests bezüglich der Gleichheit der Faktor-
stufen von A und der Interaktionen fallen in den Nichtablehnungsbereich. Unser Bachelor
Franz kann nicht davon ausgehen, dass Mädchen deutlich mehr oder deutlich weniger mit
der Schule zufrieden sind als Jungs. Auch scheint es keine Interaktionen zwischen den
Faktoren zu geben; die Zufriedenheit von Jungen und Mädchen teilt sich gleichmäßig auf
die Jahrgänge auf. Allerdings wird der Test auf Gleichheit der Stufen von B abgelehnt.
Der Zufriedenheitsindex ist nach Jahrgängen deutlich unterschiedlich.
A Verteilungstabellen
A.1 Standardnormalverteilung
Tabelle A.1 enthält für die Ausprägungen z die Verteilungswerte Φ(z) der Standard-
normalverteilung. Eine Ausprägung von Z setzt sich zusammen aus dem Wert am linken
Rand plus dem Wert in der obersten Zeile. Wo sich die betreffende Zeile und Spalte kreu-
zen, steht der Wert der dazugehörigen Verteilungsfunktion. Die vierstelligen Ziffern in
der Tabelle selbst stellen die zu z gehörigen Verteilungswerte dar, wobei „0,“ weggelassen
wurde. Da die Standardnormalverteilung symmetrisch bezüglich ihres Erwartungswertes
0 ist, genügt die Angabe für die positiven Werte von z. Beispielsweise ist
A.2 χ2 -Verteilung
A.3 F -Verteilung
Tabelle A.3a+b enthält für die Wahrscheinlichkeiten 0,975 die dazugehörigen 97,5 %-
Quantile f (0,975; m; n) der F -Verteilung mit m (Zähler) und n (Nenner) Freiheitsgraden.
Es ist beispielsweise bei m = 5 und n = 6 Freiheitsgraden P (F ≤ 5,99) = 0,975 bzw. ist
1
f (0,975; 5; 6) = 5,99. Es gilt außerdem f (0,025; m; n) = f (0,975;n;m) .
318 A Verteilungstabellen
z 0,0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 5000 5040 5080 5120 5160 5199 5239 5279 5319 5359
0,1 5398 5438 5478 5517 5557 5596 5636 5675 5714 5753
0,2 5793 5832 5871 5910 5948 5987 6026 6064 6103 6141
0,3 6179 6217 6255 6293 6331 6368 6406 6443 6480 6517
0,4 6554 6591 6628 6664 6700 6736 6772 6808 6844 6879
0,5 6915 6950 6985 7019 7054 7088 7123 7157 7190 7224
0,6 7257 7291 7324 7357 7389 7422 7454 7486 7517 7549
0,7 7580 7611 7642 7673 7704 7734 7764 7794 7823 7852
0,8 7881 7910 7939 7967 7995 8023 8051 8078 8106 8133
0,9 8159 8186 8212 8238 8264 8289 8315 8340 8365 8389
1,0 8413 8438 8461 8485 8508 8531 8554 8577 8599 8621
1,1 8643 8665 8686 8708 8729 8749 8770 8790 8810 8830
1,2 8849 8869 8888 8907 8925 8944 8962 8980 8997 9015
1,3 9032 9049 9066 9082 9099 9115 9131 9147 9162 9177
1,4 9192 9207 9222 9236 9251 9265 9279 9292 9306 9319
1,5 9332 9345 9357 9370 9382 9394 9406 9418 9429 9441
1,6 9452 9463 9474 9484 9495 9505 9515 9525 9535 9545
1,7 9554 9564 9573 9582 9591 9599 9608 9616 9625 9633
1,8 9641 9649 9656 9664 9671 9678 9686 9693 9699 9706
1,9 9713 9719 9726 9732 9738 9744 9750 9756 9761 9767
2,0 9772 9778 9783 9788 9793 9798 9803 9808 9812 9817
2,1 9821 9826 9830 9834 9838 9842 9846 9850 9854 9857
2,2 9861 9864 9868 9871 9875 9878 9881 9884 9887 9890
2,3 9893 9896 9898 9901 9904 9906 9909 9911 9913 9916
2,4 9918 9920 9922 9925 9927 9929 9931 9932 9934 9936
2,5 9938 9940 9941 9943 9945 9946 9948 9949 9951 9952
2,6 9953 9955 9956 9957 9959 9960 9961 9962 9963 9964
2,7 9965 9966 9967 9968 9969 9970 9971 9972 9973 9974
2,8 9974 9975 9976 9977 9977 9978 9979 9979 9980 9981
2,9 9981 9982 9982 9983 9984 9984 9985 9985 9986 9986
3,0 9987 9987 9987 9988 9988 9989 9989 9989 9990 9990
3,1 9990 9991 9991 9991 9992 9992 9992 9992 9993 9993
3,2 9993 9993 9994 9994 9994 9994 9994 9995 9995 9995
3,3 9995 9995 9995 9996 9996 9996 9996 9996 9996 9997
3,4 9997 9997 9997 9997 9997 9997 9997 9997 9997 9998
A Verteilungstabellen 319
1 647,79 38,51 17,44 12,22 10,01 8,81 8,07 7,57 7,21 6,94 6,72 6,55 6,41
2 799,50 39,00 16,04 10,65 8,43 7,26 6,54 6,06 5,71 5,46 5,26 5,10 4,97
3 864,16 39,17 15,44 9,98 7,76 6,60 5,89 5,42 5,08 4,83 4,63 4,47 4,35
4 899,58 39,25 15,10 9,60 7,39 6,23 5,52 5,05 4,72 4,47 4,28 4,12 4,00
5 921,85 39,30 14,88 9,36 7,15 5,99 5,29 4,82 4,48 4,24 4,04 3,89 3,77
6 937,11 39,33 14,73 9,20 6,98 5,82 5,12 4,65 4,32 4,07 3,88 3,73 3,60
7 948,22 39,36 14,62 9,07 6,85 5,70 4,99 4,53 4,20 3,95 3,76 3,61 3,48
8 956,66 39,37 14,54 8,98 6,76 5,60 4,90 4,43 4,10 3,85 3,66 3,51 3,39
9 963,28 39,39 14,47 8,90 6,68 5,52 4,82 4,36 4,03 3,78 3,59 3,44 3,31
10 968,63 39,40 14,42 8,84 6,62 5,46 4,76 4,30 3,96 3,72 3,53 3,37 3,25
11 973,03 39,41 14,37 8,79 6,57 5,41 4,71 4,24 3,91 3,66 3,47 3,32 3,20
12 976,71 39,41 14,34 8,75 6,52 5,37 4,67 4,20 3,87 3,62 3,43 3,28 3,15
13 979,84 39,42 14,30 8,71 6,49 5,33 4,63 4,16 3,83 3,58 3,39 3,24 3,12
14 982,53 39,43 14,28 8,68 6,46 5,30 4,60 4,13 3,80 3,55 3,36 3,21 3,08
15 984,87 39,43 14,25 8,66 6,43 5,27 4,57 4,10 3,77 3,52 3,33 3,18 3,05
16 986,92 39,44 14,23 8,63 6,40 5,24 4,54 4,08 3,74 3,50 3,30 3,15 3,03
17 988,73 39,44 14,21 8,61 6,38 5,22 4,52 4,05 3,72 3,47 3,28 3,13 3,00
18 990,35 39,44 14,20 8,59 6,36 5,20 4,50 4,03 3,70 3,45 3,26 3,11 2,98
19 991,80 39,45 14,18 8,58 6,34 5,18 4,48 4,02 3,68 3,44 3,24 3,09 2,96
20 993,10 39,45 14,17 8,56 6,33 5,17 4,47 4,00 3,67 3,42 3,23 3,07 2,95
21 994,29 39,45 14,16 8,55 6,31 5,15 4,45 3,98 3,65 3,40 3,21 3,06 2,93
22 995,36 39,45 14,14 8,53 6,30 5,14 4,44 3,97 3,64 3,39 3,20 3,04 2,92
23 996,35 39,45 14,13 8,52 6,29 5,13 4,43 3,96 3,63 3,38 3,18 3,03 2,91
24 997,25 39,46 14,12 8,51 6,28 5,12 4,41 3,95 3,61 3,37 3,17 3,02 2,89
25 998,08 39,46 14,12 8,50 6,27 5,11 4,40 3,94 3,60 3,35 3,16 3,01 2,88
26 998,85 39,46 14,11 8,49 6,26 5,10 4,39 3,93 3,59 3,34 3,15 3,00 2,87
27 999,56 39,46 14,10 8,48 6,25 5,09 4,39 3,92 3,58 3,34 3,14 2,99 2,86
28 1000,22 39,46 14,09 8,48 6,24 5,08 4,38 3,91 3,58 3,33 3,13 2,98 2,85
29 1000,84 39,46 14,09 8,47 6,23 5,07 4,37 3,90 3,57 3,32 3,13 2,97 2,85
30 1001,41 39,46 14,08 8,46 6,23 5,07 4,36 3,89 3,56 3,31 3,12 2,96 2,84
40 1005,60 39,47 14,04 8,41 6,18 5,01 4,31 3,84 3,51 3,26 3,06 2,91 2,78
50 1008,12 39,48 14,01 8,38 6,14 4,98 4,28 3,81 3,47 3,22 3,03 2,87 2,74
100 1013,17 39,49 13,96 8,32 6,08 4,92 4,21 3,74 3,40 3,15 2,96 2,80 2,67
500 1017,24 39,50 13,91 8,27 6,03 4,86 4,16 3,68 3,35 3,09 2,90 2,74 2,61
A Verteilungstabellen 321
1 6,30 6,20 6,12 6,04 5,98 5,92 5,87 5,57 5,42 5,34 5,18 5,05
2 4,86 4,77 4,69 4,62 4,56 4,51 4,46 4,18 4,05 3,97 3,83 3,72
3 4,24 4,15 4,08 4,01 3,95 3,90 3,86 3,59 3,46 3,39 3,25 3,14
4 3,89 3,80 3,73 3,66 3,61 3,56 3,51 3,25 3,13 3,05 2,92 2,81
5 3,66 3,58 3,50 3,44 3,38 3,33 3,29 3,03 2,90 2,83 2,70 2,59
6 3,50 3,41 3,34 3,28 3,22 3,17 3,13 2,87 2,74 2,67 2,54 2,43
7 3,38 3,29 3,22 3,16 3,10 3,05 3,01 2,75 2,62 2,55 2,42 2,31
8 3,29 3,20 3,12 3,06 3,01 2,96 2,91 2,65 2,53 2,46 2,32 2,22
9 3,21 3,12 3,05 2,98 2,93 2,88 2,84 2,57 2,45 2,38 2,24 2,14
10 3,15 3,06 2,99 2,92 2,87 2,82 2,77 2,51 2,39 2,32 2,18 2,07
11 3,09 3,01 2,93 2,87 2,81 2,76 2,72 2,46 2,33 2,26 2,12 2,02
12 3,05 2,96 2,89 2,82 2,77 2,72 2,68 2,41 2,29 2,22 2,08 1,97
13 3,01 2,92 2,85 2,79 2,73 2,68 2,64 2,37 2,25 2,18 2,04 1,93
14 2,98 2,89 2,82 2,75 2,70 2,65 2,60 2,34 2,21 2,14 2,00 1,89
15 2,95 2,86 2,79 2,72 2,67 2,62 2,57 2,31 2,18 2,11 1,97 1,86
16 2,92 2,84 2,76 2,70 2,64 2,59 2,55 2,28 2,15 2,08 1,94 1,83
17 2,90 2,81 2,74 2,67 2,62 2,57 2,52 2,26 2,13 2,06 1,91 1,80
18 2,88 2,79 2,72 2,65 2,60 2,55 2,50 2,23 2,11 2,03 1,89 1,78
19 2,86 2,77 2,70 2,63 2,58 2,53 2,48 2,21 2,09 2,01 1,87 1,76
20 2,84 2,76 2,68 2,62 2,56 2,51 2,46 2,20 2,07 1,99 1,85 1,74
21 2,83 2,74 2,67 2,60 2,54 2,49 2,45 2,18 2,05 1,98 1,83 1,72
22 2,81 2,73 2,65 2,59 2,53 2,48 2,43 2,16 2,03 1,96 1,81 1,70
23 2,80 2,71 2,64 2,57 2,52 2,46 2,42 2,15 2,02 1,95 1,80 1,68
24 2,79 2,70 2,63 2,56 2,50 2,45 2,41 2,14 2,01 1,93 1,78 1,67
25 2,78 2,69 2,61 2,55 2,49 2,44 2,40 2,12 1,99 1,92 1,77 1,65
26 2,77 2,68 2,60 2,54 2,48 2,43 2,39 2,11 1,98 1,91 1,76 1,64
27 2,76 2,67 2,59 2,53 2,47 2,42 2,38 2,10 1,97 1,90 1,75 1,63
28 2,75 2,66 2,58 2,52 2,46 2,41 2,37 2,09 1,96 1,89 1,74 1,62
29 2,74 2,65 2,58 2,51 2,45 2,40 2,36 2,08 1,95 1,88 1,72 1,61
30 2,73 2,64 2,57 2,50 2,44 2,39 2,35 2,07 1,94 1,87 1,71 1,60
40 2,67 2,59 2,51 2,44 2,38 2,33 2,29 2,01 1,88 1,80 1,64 1,52
50 2,64 2,55 2,47 2,41 2,35 2,30 2,25 1,97 1,83 1,75 1,59 1,46
100 2,56 2,47 2,40 2,33 2,27 2,22 2,17 1,88 1,74 1,66 1,48 1,34
500 2,50 2,41 2,33 2,26 2,20 2,15 2,10 1,81 1,66 1,57 1,38 1,19
322 A Verteilungstabellen
A.4 t-Verteilung
Tabelle A.5 enthält für ausgewählte Stichprobenumfänge n1 und n2 die kritischen Werte
Uα für den U -Test bei α = 0,05. Die Hypothese auf Gleichheit zweier Verteilungen wird
abgelehnt, wenn U kleiner oder gleich dem tabellierten Wert ist. Es ist Uα von (n1 ; n2 )
derselbe wie von (n2 ; n1 ).
Wenn
|rsp | ≥ rα
n1
n2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
1 - - - - - - - - - - - - - - - - - - - -
2 - - - - - - 0 0 0 0 1 1 1 1 1 2 2 2 2
3 - - 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8
4 0 1 2 3 4 4 5 6 7 8 9 10 11 11 12 13 14
5 2 3 5 6 7 8 9 11 12 13 14 15 17 18 19 20
6 5 6 8 10 11 13 14 16 17 19 21 22 24 25 27
7 8 10 12 14 16 18 20 22 24 26 28 30 32 34
8 13 15 17 19 22 24 26 29 31 34 36 38 41
9 17 20 23 26 28 31 34 37 39 42 45 48
10 23 26 29 33 36 39 42 45 48 52 55
11 30 33 37 40 44 47 51 55 58 62
12 37 41 45 49 53 57 61 65 69
13 45 50 54 59 63 67 72 76
14 55 59 64 69 74 78 83
15 64 70 75 80 85 90
16 75 81 86 92 98
17 87 93 99 105
18 99 106 112
19 113 119
20 127
n 5 6 7 8 9 10 12 14 16 18 20 30
rα 1 0,89 0,79 0,74 0,68 0,65 0,59 0,54 0,51 0,48 0,45 0,36
B Glossar
Ausreißer: Datenwert, der weit entfernt von der Masse der Daten ist. Ausreißer beein-
trächtigen die Qualität von statistischen Auswertungen.
bedingte Wahrscheinlichkeit: P (A|B) ist die Wahrscheinlichkeit von A unter der Be-
dingung B. Sie kann als Anteil der Realisationen von A an B interpretiert werden.
Binomialverteilung: Ausgehend von einem Urnenmodell mit Zurücklegen und mit zwei
Sorten Kugeln ist die Zahl der Kugeln erster Sorte bei n Entnahmen binomial verteilt.
deskriptive Statistik: Auswertung von real vorliegenden Daten, die auch Beobachtungs-
werte genannt werden.
Ereignis: Umfasst eines oder mehrere Ergebnisse eines Zufallsvorgangs und ist eine Teil-
menge der Ergebnismenge.
Ergebnis: Resultat eines Zufallsvorgangs. Alle möglichen Ergebnisse werden in der Er-
gebnismenge (auch Ergebnisraum) zusammengefasst.
häufbares Merkmal: Die Ausprägungen des statistischen Merkmals treten mehrfach auf
und können in Häufigkeitstabellen zusammengefasst werden. Häufbar sind nominalska-
lierte, ordinalskalierte und metrisch diskrete Variablen.
Häufigkeit: In der deskriptiven Statistik gibt die absolute Häufigkeit die Zahl der Be-
obachtungen mit dem gleichen Wert an. Die relative Häufigkeit ist der Anteil dieser
Beobachtungen an allen Werten. In der Wahrscheinlichkeitstheorie ist letztere für eine
diskrete Zufallsvariable der Anteil der Realisationen einer Ausprägung an allen Realisa-
tionen. Das ist gleichbedeutend mit einer Wahrscheinlichkeit.
Hypothesentest: Damit wird die Hypothese über die Eigenschaft von Ereignissen über-
prüft. Meist handelt es sich dabei um Zufallsvariablen. Das Ergebnis der Prüfung hängt
von dem konkreten Stichprobenwert ab. Gegenstand des Hypothesentests sind häufig
Kennwerte von Verteilungen.
Interquartilsabstand: Distanz zwischen dem ersten und dritten Quartil einer Urliste. Er
wird als ausreißerresistenter Ersatz für die Standardabweichung verwendet.
Korrelationskoeffizient: Maß für die Linearität zwischen zwei Variablen und liegt zwi-
schen −1 und 1. Grundlage für die Berechnung ist die Kovarianz, die ebenfalls diese
Linearität misst. Je weiter weg der Korrelationskoeffizient von null ist, desto ausgepräg-
ter ist die Linearität.
Lagemaß: Gibt das mittlere Niveau von Merkmalswerten einer statistischen Variablen
an. Beispiele sind arithmetisches Mittel, Median oder Modus.
Median: Er ist als 50 %-Quantil x(0,5) der Wert x, der die geordneten Realisationen
in zwei gleiche Anteile aufteilt. Der Median einer Zufallsvariablen ist die Ausprägung,
die zum Verteilungswert 0,5 gehört. Der Median z einer statistischen Variablen teilt die
geordneten Beobachtungswerte in zwei gleiche Hälften.
Metrische Skala: Die Ausprägungen eines metrischen Merkmals können geordnet wer-
den. Die Abstände der Ausprägungen sind interpretierbar.
Nominalskala: Die Ausprägungen eines nominal skalierten Merkmals können nicht ge-
ordnet werden.
Normalverteilung: Stetige Verteilung mit einer Glockenform, die viele methodische Vor-
züge hat.
Parameter: Konstante, die eine gewisse Bedeutung hat, zum Beispiel der Verteilungspa-
rameter.
Possion-Verteilung: Die Zahl von bestimmten Ereignissen innerhalb einer Einheit ist
Poisson-verteilt.
Quantil: Ein Quantil q = x(p) ist der Wert q, der zu einem bestimmten Verteilungswert
F (q) = p gehört. Es wird auch p ∗ 100 %-Quantil genannt.
Quartile: Die Quartile Q1 = x(0,25), Q2 = x(0,5) und Q3 = x(0,75) teilen die Menge
der geordneten Realisationen in vier gleiche Anteile.
Reproduktivität: Eine Verteilung ist reproduktiv, wenn die Summe von Zufallsvariablen
dieses Verteilungstyps wieder den gleichen Typ ergibt. Beispielsweise sind Normalvertei-
lung und Poisson-Verteilung reproduktiv.
Schätzen: Bezeichnet den Rückschluss auf den unbekannten Parameter einer Grundge-
samtheit mithilfe einer Stichprobe. Beispielsweise wird der Erwartungswert E(X) mit-
hilfe von x geschätzt. Die Schätzung ist selbst die Realisation einer Zufallsvariablen, die
Schätzfunktion heißt.
Signifikanzniveau (auch α-Fehler oder Fehler erster Art genannt): Das ist bei der Hy-
pothesenprüfung die Wahrscheinlichkeit, dass die Hypothese abgelehnt wird, obwohl sie
328 B Glossar
wahr ist. Dagegen gibt der β-Fehler oder Fehler zweiter Art die Wahrscheinlichkeit an,
dass die Hypothese beibehalten wird, obwohl sie falsch ist.
stetig: Eine Variable ist stetig oder kontinuierlich, wenn sich in jedem Intervall der Aus-
prägungen unendlich viele Ausprägungen befinden.
Streuungsmaß: Misst die Variabilität von Variablen. Häufig verwendet werden Varianz
und Interquartilsabstand.
Urliste: Liste von Beobachtungswerten eines statistischen Merkmals, die in der Reihen-
folge der Erhebung aufgeführt sind.
Varianz: Mittlere Summe der quadrierten Abstände zwischen Realisation und arithme-
tischem Mittel. Man unterscheidet zwischen Varianz der Grundgesamtheit und Stichpro-
benvarianz. Die Wurzel aus der Varianz ist die Standardabweichung.
Varianzanalyse: Damit wird untersucht, ob bestimmte Werte eines Faktors einen deut-
lichen Einfluss auf eine stetige Variable haben. Die zweifaktorielle Varianzanalyse unter-
sucht, ob die Werte zweier Faktoren eine stetige Variable beeinflussen. Hier ist auch von
Interesse, ob sich die Faktoren in ihrem Einfluss gegenseitig verstärken.
Verteilung: Gibt an, wie sich Realisationen oder Beobachtungswerte einer Variablen
bezüglich der Ausprägungen aufteilen. Im engeren Sinn gibt die Verteilung den Anteil
F (a) der Realisationen an, die höchstens einen bestimmten Wert a annehmen.
verteilungsfreier Test: Hypothesentest, bei dem die Verteilung des Merkmals in der
Grundgesamtheit nicht bekannt ist.
zentraler Grenzwertsatz: Die Summe von Zufallsvariablen, die alle die gleiche Verteilung
haben, nähert sich mit wachsender Zahl der Summanden einer Normalverteilung.
Zufallsvariable: Besteht aus Ereignissen, die reelle Zahlen sind. Deren Wahrscheinlich-
keiten bilden die Verteilung einer Zufallsvariablen.
Bortz J., Lienert G. und Boehnke, K. (2008) Verteilungsfreie Methoden in der Biosta-
tistik. Springer, Heidelberg.
Chambers J., Cleveland W., Kleiner B. und Tukey P. (1983) Graphical Methods for
Data Analysis. Chapman & Hall, New York.
Fahrmeir L., Künstler R., Pigeot I. und Tutz G. (2004) Statistik. Springer, Heidelberg.
Hartung J., Elpelt B.und Klösener K-H. (1995) Statistik. Oldenbourg, München.
Schaich E., Köhle D., Schweitzer W. und Wegner F. (1982) Statistik II. Vahlen, Mün-
chen.
Schira J. (2003) Statistische Methoden der VWL und BWL. Pearson Studium, Mün-
chen.
A Binomialkoeffizient, 88
abhängige Variable Binomialverteilung, 109, 133, 167, 178,
Regression, 266 201, 214, 228, 230
Varianzanalyse, 294 Boole’sche Algebra, 54
Abszisse, 33
abzählbar, 12, 55 C
Additionssatz, 57 χ2 -Koeffizient, 262
Annahmen des Regressionsmodells, χ2 -Test, 217, 220, 225
siehe Regression Freiheitsgrad, 220
ANOVA-Modell, 296 χ2 -Verteilung, 152, 206, 220, 225, 317
ANOVA-Tabelle
Regression, 290 D
Varianzanalyse, 303, 312 De Morgan’sche Regel, 57, 62, 65
Anteilswert, 167, 178, 179, 200, 201, Determinationskoeffizient, siehe
204, 214, 228 Regression
gepoolt, 214 dichotome Grundgesamtheit, 105, 111,
Approximation, 133 167, 200, 201, 204, 214, 228
t-Verteilung, 158 Dichtefunktion, 116, 125
Poisson-Verteilung, 136 disjunkt, 54, 57, 61
χ2 -Verteilung, 154 Dispersionsmaß, siehe Streuungsmaß
Binomialverteilung, 133 Dotplot, siehe Punktediagramm
arithmetisches Mittel, 38, 48, 150, 269
Varianzanalyse, 296 E
Ausgleichsgerade, siehe Einfallsklasse, 48
Regressionsgerade Einzelwahrscheinlichkeit, 139
Ausprägung elementfremd, siehe disjunkt
Merkmal, 10 endogene Variable, siehe abhängige
Zufallsvariable, 93 Variable
Ausreißer, 40, 46, 251, 256 Ereignis, 52, 56, 57
Elementarereignis, 53
B zusammengesetztes, 53
Bayes’sches Theorem, 76, 79 Ergebnis, 52, 99
Beobachtungswert, 10 Ergebnismenge, 52, 94
bester Schätzer, 164 diskrete, 55
Bias, siehe Verzerrtheit stetige, 55
334 Index
Bestimmtheitsmaß, 276 W
Korrelationskoeffizient der Wahrscheinlichkeit, 53
Grundgesamtheit, 143 Axiome, 56
Korrelationskoeffizient der bedingte, 71, 72
Stichprobe, 253 gemeinsam, 65, 137
Steigung, 272 Rechenregeln, 57
Stichprobenvarianz, 45 Satz der totalen, 68, 69
Varianz der Grundgesamtheit, 104 Wahrscheinlichkeitsauffassung
Versuch, siehe Zufallsvorgang klassische, 58
Versuche statistische, 58
abhängige, 85 subjektivistische, 58
unabhängige, 83 Wahrscheinlichkeitsfunktion, 95
Verteilung, 217, 230 Wahrscheinlichkeitsraum, 53
Wahrscheinlichkeitstabelle, 62, 94
einer Zufallsvariablen, 93
eines statistischen Merkmals, 14
Z
linkssschief, 16
zentraler Grenzwertsatz, 125, 132, 154
multimodal, 17
Zentralwert, siehe Median
Parameter, 100
Zentrieren, 39, 42, 269, 314
rechtsschief, 16
Zielvariable, siehe abhängige Variable
symmetrisch, 16, 99, 124, 126 Zufallsintervall, 170
theoretisch, 105 Zufallsvariable, 93, 94
Verteilungsfunktion, 96, 117 diskret, 93, 218, 280
Vertrauensintervall, siehe stetig, 115, 220
Konfidenzintervall Zufallsvorgang, 52
Verzerrtheit, 162 zwei Sorten Kugeln, siehe dichotome
Grundgesamtheit