Sie sind auf Seite 1von 345

Daten und Statistik

Gabriele Hornsteiner

Daten und Statistik


Eine praktische Einführung für den Bachelor
in Psychologie und Sozialwissenschaften
Gabriele Hornsteiner
Hochschule Hof
gabriele.hornsteiner@fh-hof.de

ISBN 978-3-8274-2390-0 ISBN 978-3-8274-2391-7 (eBook)


DOI 10.1007/978-3-8274-2391-7

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie;


detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

Springer VS
© Springer-Verlag Berlin Heidelberg 2012
Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht
ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags.
Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und
die Einspeicherung und Verarbeitung in elektronischen Systemen.

Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk


berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne
der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von
jedermann benutzt werden dürften.

Planung und Lektorat: Katharina Neuser-von Oettingen, Marion Krämer, Sabine Bartels
Redaktion: Regine Zimmerschied
Einbandabbildung: © 1997 PhotoAlto-Fabriqué en France par MPO
Einbandentwurf: wsp design Werbeagentur GmbH, Heidelberg

Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier

Springer VS ist eine Marke von Springer DE. Springer DE ist Teil der Fachverlagsgruppe Springer
Science+Business Media.
www.springer-vs.de
Vorwort

Statistik – warum brauchen wir sie? Psychologe, Soziologe, Politologe ... wer das werden
möchte, hat meistens mit Statistik wenig am Hut. Aber sie kann nicht weggewünscht
werden. Wir brauchen sie, um unsere Theorien, Analysen und Untersuchungen wissen-
schaftlich korrekt zu untermauern.

Die Statistik wird von vielen Studierenden gehasst und gefürchtet. Sie gilt als „Killerfach“.
Damit tut man der Statistik unrecht. Gut, sie ist eine spröde Dame. Und so hat es wenig
Sinn, Statistik zu lernen, sie will verstanden sein. Dann aber lässt sie uns in ihre Welt
eintreten. So nimmt die Autorin des Buches den Studienanfänger an die Hand und führt
ihn durch die Landschaften der Statistik. Unterwegs werden wir die Art des Herangehens
an statistische Fragestellungen lernen. Am Ende dieser Wanderung sollte die oder der
Studierende die Statistik-Klausur überleben können.

Dieses Buch versetzt den Studierenden in die Lage, die richtigen Methoden anzuwenden.
Und auch die Grenzen der Statistik zu erkennen. Für jede statistische Methode gibt es
spezielle Regeln. Diese Regeln müssen beachtet werden. Die Herausforderung besteht also
darin herauszufinden, welches Verfahren anzuwenden ist. Dann können wir die entspre-
chenden Regeln benützen. Ebenso dient das Buch dem Praktiker mit wenig Erfahrung
in statistischen Dingen als methodische Grundlage, seine Auswertungen methodisch ein-
wandfrei und unangreifbar durchzuführen.

Mathematische Vorkenntnisse sind für das Niveau dieses Buches nicht erforderlich – es
genügen im Wesentlichen die vier Grundrechenarten. Die meisten Studierenden mögen
Beweise nicht. Es wurde darauf verzichtet. Es gibt genügend statistische Lehrbücher, die
auch Beweise aufführen.

Im ersten Kapitel wird die deskriptive oder auch beschreibende Statistik gezeigt. Es geht
dabei im Wesentlichen darum, vorliegende Daten in geeigneter Weise zusammenzufassen.
Verteilung, Kennwerte der Lage und der Streuung beschreiben die Daten. Grafiken wie
Balkendiagramm, Histogramm, Stamm-Blätter-Diagramm und Punktdiagramm sind hier
unverzichtbare Instrumente.

Das zweite Kapitel liefert einen kurzen Abriss der Wahrscheinlichkeitstheorie. Hier stehen
Wahrscheinlichkeiten von Ereignissen und ihre Rechenregeln in Vordergrund. Abhängige
und unabhängige Ereignisse werden thematisiert, ebenso die Abfolge mehrerer Experi-
mente.

Im dritten Kapitel werden Zufallsvariablen vorgestellt, ihre Verteilungen und Verteilungs-


parameter wie Erwartungswert und Varianz. Als ausgewählte Verteilungen werden hyper-
geometrische Verteilung, Binomialverteilung, Poisson-Verteilung und Normalverteilung
vi Vorwort

näher beschrieben. Von Interesse sind die speziellen Eigenschaften der Normalverteilung,
die vor allem auf dem zentralen Grenzwertsatz fußen.

Die Schätzung von Eigenschaften einer Zufallsvariablen ist das Thema des vierten Ka-
pitels. Schätzfunktionen von Verteilungsparametern und ihre Konfidenzintervalle werden
systematisch durchgearbeitet.

Aufbauend auf die Erkenntnisse des vierten Kapitels fasst das fünfte Kapitel die wich-
tigsten Hypothesentests zusammen. Ein ausführliches Beispiel führt in die Thematik ein.
Besonders werden auch Fehler erster und zweiter Art genauer erläutert.

Das sechste Kapitel widmet sich der simultanen Analyse mehrerer Variablen. Ein kurzer
Abschnitt über deskriptive Verfahren zeigt die wichtigsten Instrumente zur Gewinnung
von Informationen. Schlagworte sind hier Kontingenztabelle und Streudiagramm. Von
Interesse sind vor allem Art und Stärke des Zusammenhangs zwischen zwei Variablen,
die durch verschiedene Koeffizienten gemessen werden. Als spezielle Verfahren werden
Regressionsanalyse und Varianzanalyse näher erläutert. Spezielle Konfidenzintervalle und
Hypothesentests runden dieses letzte Kapitel ab.

Im Anhang erleichtern einige ausgewählte Verteilungstabellen die Berechnung von Wahr-


scheinlichkeiten. Das anschließende Glossar bietet eine knappe Erklärung zentraler Be-
griffe.

Zum Schluss möchte ich noch Danksagungen aussprechen. Zum einen will ich vor al-
lem meinem Mann Norbert Hornsteiner danken. Mit dem Blick des Laien legte er den
Finger erbarmungslos in jede Wunde, wo die Ausführungen zu wissenschaftlich abstrakt
abhoben. Als studierter Deutschlehrer korrigierte und verbesserte er gründlich den ge-
samten Text. Als Ehemann ertrug er geduldig die Zeit, in der die Autorin sich von der
Alltagswelt verabschiedete, um das Buch zu vollenden. Mein Dank gebührt auch den
Mitarbeiterinnen von Spektrum Akademischer Verlag, Katharina Neuser-von Oettingen,
Sabine Bartels und Marion Krämer. Mit viel Einsatz und Streicheleinheiten sorgten sie
dafür, dass aus dem Projekt ein Buch wurde.

Hof, am 10. Oktober 2011


Gabriele Hornsteiner
Inhaltsverzeichnis
Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
1 Deskriptive Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Einführung in die deskriptive Statistik – Statistik zum Anfassen . . . . . . . . . . 2
1.2 Begrifflichkeiten – Möchte ich einen Familienstand von 2,5? . . . . . . . . . . . . . . . 7
1.2.1 Grundgesamtheit und Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.2 Begriffsdefinitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.3 Skalierung eines Merkmals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Verteilung eines Merkmals – Wie bändigt man die Datenflut? . . . . . . . . . . . . . 14
1.3.1 Klassierte Häufigkeitstabelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.2 Genauere Informationen mithilfe der Urliste . . . . . . . . . . . . . . . . . . . . . . 23
1.3.3 Kleiner Exkurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.3.4 Verteilung eines Merkmals, dessen Daten in Häufigkeitstabellen ein-
geteilt werden können . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.4 Lagemaße – Die Lage der Daten ist selten hoffnungslos . . . . . . . . . . . . . . . . . . . 38
1.4.1 Arithmetisches Mittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.4.2 Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.4.3 Modus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.4.4 Warum der Median, wenn man den Mittelwert haben kann? . . . . . . . . 40
1.5 Streuungsmaße – Mit Schrot trifft man immer . . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.5.1 Varianz und Standardabweichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.5.2 Interquartilsabstand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.6 Kennwerte bei Daten in Häufigkeitstabellen – Was in aller Welt ist eine
Einfallsklasse? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2 Wahrscheinlichkeitstheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.1 Ereignisse und Wahrscheinlichkeiten – Gibt es überhaupt Wahrscheinlich-
keiten? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.2 Gemeinsame Wahrscheinlichkeiten – Gemeinsame Wahrscheinlichkeiten
sind ungemein gemein! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.3 Bedingte Wahrscheinlichkeiten – Warum können Placebos schwere Neben-
wirkungen haben? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.3.1 Bedeutung der bedingten Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . 70
2.3.2 Bayes’sches Theorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
2.4 Stochastische Unabhängigkeit – Kann ein Fahrrad von den Tupfen einer
Krawatte abhängen? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
2.5 Mehrfache Zufallsvorgänge – Ab in die Urne! . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
2.5.1 Unabhängige Versuche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
2.5.2 Abhängige Versuche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
2.5.3 Urnenmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
viii Inhaltsverzeichnis

3 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.1 Diskrete Zufallsvariablen – Warum ist die Serviceagentur so diskret? . . . . . . . 93
3.1.1 Lageparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
3.1.2 Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
3.2 Diskrete Verteilungen – Ist Dichotomie eine Urnenkrankheit? . . . . . . . . . . . . . 105
3.2.1 Hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
3.2.2 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
3.2.3 Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
3.3 Stetige Zufallsvariablen – Warum kann ein Fisch nicht genau zehn Tage
lang leben? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
3.3.1 Geometrische Ermittlung der Verteilungsfunktion . . . . . . . . . . . . . . . . . 118
3.3.2 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
3.3.3 Integrieren bei Verteilungsfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
3.4 Normalverteilung – die Königin der Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 124
3.4.1 Eigenschaften der Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
3.4.2 Reproduktivität der Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
3.4.3 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
3.4.4 Approximation von Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
3.5 Gemeinsam verteilte Zufallsvariablen – Steigt immer die Zahl der Kinder
mit der Zahl der Störche? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
3.5.1 Kovarianz und Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
3.5.2 Lineare Funktionen von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . 147
4 Parameterschätzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
4.1 Schätzverteilungen – Könnte man sie Designerverteilungen nennen? . . . . . . . 151
4.1.1 χ2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
4.1.2 F -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
4.1.3 t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
4.2 Schätzfunktionen – Ist der beste Schätzer auch der beste Schätzer? . . . . . . . . 159
4.2.1 Schätzfunktion für den Erwartungswert eines normalverteilten Merk-
mals mit bekannter Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
4.2.2 Schätzfunktion für die Varianz eines normalverteilten Merkmals . . . . . 164
4.2.3 Schätzfunktion für den Erwartungswert eines normalverteilten Merk-
mals mit unbekannter Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
4.2.4 Schätzfunktion für den Erwartungswert eines normalverteilten Merk-
mals bei einer Auswahl ohne Zurücklegen . . . . . . . . . . . . . . . . . . . . . . . . 166
4.2.5 Schätzfunktion für den Anteil der Kugeln erster Sorte einer binomi-
alverteilten Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
4.3 Konfidenzintervalle – Wie weit geht das Vertrauen in den Schätzer? . . . . . . . 168
4.3.1 Konfidenzintervall für den Erwartungswert eines normalverteilten
Merkmals mit bekannter Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
Inhaltsverzeichnis ix

4.3.2 Konfidenzintervall für den Erwartungswert eines normalverteilten


Merkmals mit unbekannter Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
4.3.3 Konfidenzintervall für den Erwartungswert eines unbekannt verteil-
ten Merkmals mit unbekannter Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . 174
4.3.4 Konfidenzintervall für den Erwartungswert eines normalverteilten
Merkmals mit bekannter Varianz bei einer Auswahl ohne Zurück-
legen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
4.3.5 Konfidenzintervall für den Erwartungswert eines normalverteilten
Merkmals mit unbekannter Varianz bei einer Auswahl ohne Zurück-
legen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
4.3.6 Konfidenzintervall für den Erwartungswert eines unbekannt verteil-
ten Merkmals mit unbekannter Varianz bei einer Auswahl ohne Zu-
rücklegen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
4.3.7 Konfidenzintervall für den Anteilswert eines dichotomen Merkmals
bei einer Auswahl mit Zurücklegen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
4.3.8 Konfidenzintervall für den Anteilswert eines dichotomen Merkmals
bei einer Auswahl ohne Zurücklegen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
5 Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
5.1 Einführung in den Hypothesentest – Wie tickt der? . . . . . . . . . . . . . . . . . . . . . . 181
5.1.1 Punkthypothese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
5.1.2 Bereichshypothese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
5.1.3 α- und β-Fehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
5.1.4 Bemerkungen zur Nullhypothese und Alternativhypothese . . . . . . . . . . 194
5.2 Test eines Erwartungswertes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
5.2.1 Test des Erwartungswertes eines normalverteilten Merkmals bei be-
kannter Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
5.2.2 Test des Erwartungswertes eines normalverteilten Merkmals bei un-
bekannter Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
5.2.3 Test des Erwartungswertes eines Merkmals mit unbekannter Vertei-
lung und unbekannter Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
5.2.4 Test des Erwartungswertes eines Merkmals bei einer Stichproben-
entnahme ohne Zurücklegen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
5.3 Test des Anteilswertes einer dichotomen Grundgesamtheit . . . . . . . . . . . . . . . . 200
5.3.1 Test des Anteilswertes einer dichotomen Grundgesamtheit bei
großem Stichprobenumfang n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
5.3.2 Test des Anteilswertes einer dichotomen Grundgesamtheit bei klei-
nem Stichprobenumfang n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
5.3.3 Test des Anteilswertes einer dichotomen Grundgesamtheit bei einem
Entnahmemodell ohne Zurücklegen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
5.4 Test der Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
x Inhaltsverzeichnis

5.5 Vergleich zweier Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208


5.5.1 Vergleich zweier Erwartungswerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
5.5.2 Vergleich der Anteilswerte zweier dichotomer Grundgesamtheiten . . . . 214
5.5.3 Vergleich der Varianzen zweier Grundgesamtheiten . . . . . . . . . . . . . . . . 216
5.6 χ2 -Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
5.6.1 Verteilungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
5.6.2 Unabhängigkeitstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
5.7 Verteilungsfreie Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
5.7.1 Vorzeichentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
5.7.2 Wilcoxon-Mann-Whitney-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
6 Analyse mehrerer Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
6.1 Deskriptive Analyse – Das gute alte Streudiagramm . . . . . . . . . . . . . . . . . . . . . 243
6.1.1 Zusammenfassung mehrdimensionaler Daten . . . . . . . . . . . . . . . . . . . . . . 243
6.1.2 Häufbare Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
6.1.3 Stetige Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
6.1.4 Gemischte Skalenniveaus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
6.1.5 Abhängigkeitsstrukturen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
6.2 Zusammenhangsmaße – Können wir Linearität messen? . . . . . . . . . . . . . . . . . . 250
6.2.1 Korrelationskoeffizient nach Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
6.2.2 Rangkorrelationskoeffizient nach Spearman . . . . . . . . . . . . . . . . . . . . . . . 256
6.2.3 Kontingenzkoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
6.3 Regressionsanalyse – Wie finden wir eine Gerade? . . . . . . . . . . . . . . . . . . . . . . . 264
6.3.1 Einfaches lineares Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
6.3.2 Güte der Anpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
6.3.3 Prognose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
6.3.4 Multiple Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278
6.4 Schätzen und Testen im Zusammenhang mit mehreren Merkmalen – Wann
ist ein linearer Zusammenhang wirklich linear? . . . . . . . . . . . . . . . . . . . . . . . . . . 279
6.4.1 Test des Pearson’schen Korrelationskoeffizienten . . . . . . . . . . . . . . . . . . 279
6.4.2 Test des Spearman’schen Rangkorrelationskoeffizienten . . . . . . . . . . . . . 280
6.4.3 Schätzen im einfachen linearen Regressionsmodell . . . . . . . . . . . . . . . . . 281
6.4.4 Testen im einfachen linearen Regressionsmodell . . . . . . . . . . . . . . . . . . . 286
6.5 Varianzanalyse – Varianz heißt Information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
6.5.1 Einfaktorielle Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
6.5.2 Zweifaktorielle Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
A Verteilungstabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
A.1 Standardnormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
A.2 χ2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
A.3 F -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
A.4 t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
Inhaltsverzeichnis xi

A.5 Kritische Werte für den U -Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322


A.6 Kritische Werte für den Spearman’schen Rangkorrelationskoeffizienten . . . . . 322
B Glossar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325
C Literaturverzeichnis und Quellenangaben . . . . . . . . . . . . . . . . . . . . . . . . . 331
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
1 Deskriptive Statistik

In Daten schlummert Gold.

Verkaufte Telefonkundendaten, Payback-Karten, telefonische Kundenbefragungen – mit


steigendem Komplexitätsgrad von Wissenschaft und Gesellschaft steigt der Hunger nach
Daten. In einer Studie wird untersucht, ob bestimmte demografische Bedingungen Kri-
minalität fördern. Die Marktforschungsabteilung eines Konzerns untersucht, wie lange
ein Werbeplakat betrachtet wird. Eine Pharmafirma will in medizinischen Experimenten
feststellen, welche Wirkung Beruhigungsmittel haben. Alle diese Untersuchungen benö-
tigen Informationen für ein zufriedenstellendes Ergebnis. Die Informationen beruhen auf
Daten. Informationen bedeuten letztlich bares Geld. Und die Daten enthalten das Gold,
mit dem wir das Geld erwirtschaften. Dieses Gold liegt nun leider nicht in gediegener
Form auf der Straße. Wie das Gold sich etwa in den Sanden von Flüssen und Bächen
findet und dort mit viel Mühen gewonnen werden muss, liefern auch Daten unmittelbar
keine Information, sondern die Kolonnen von Zahlen und Zeichen müssen erst in geeigne-
ter Weise zusammengefasst und konzentriert werden, damit aus der Wüste der einzelnen
Daten das Gold verwertbarer Informationen gewonnen werden kann.

Die Werkzeugkiste für die geeignete Aufbereitung von Daten ist die Statistik. Die eher
lakonische Definition der Statistik zeigt das:

Statistik ist die Gesamtheit der Methoden, die für die Untersuchung von Massen-
daten angewendet werden können.

Massendaten – damit haben wir es zu tun: Fragebögen, Unternehmensdatenbanken, Sa-


tellitendaten, Messergebnisse usw. Ziel der angewandten Statistik ist es also, aus vorlie-
genden Daten verwertbare Informationen zu gewinnen. Die Daten sollen in geeigneter
Weise zusammengefasst, geordnet, grafisch dargestellt usw. werden: Aus Sand wird Gold
gewonnen.

Bei dem Wort Statistik werden einige Leser erbleichen und heftige Unlustgefühle verspü-
ren. Leider werden sich Ausflüge in die wissenschaftliche Welt von Formeln und Theorien
nicht ganz vermeiden lassen.
2 1 Deskriptive Statistik

1.1 Einführung in die deskriptive Statistik –


Statistik zum Anfassen

Wenn wir für das Verstehen und Lernen etwas zum Anfassen brauchen – hier haben wir
es: reale Daten, die wir bearbeiten sollen, Statistik zum Anfassen. Wir wollen also das
Gold in den Daten anreichern und gewinnen.

Um mit der Materie vertraut zu werden, schauen wir uns zunächst einmal verschiedene
Daten an, die irgendwann erhoben worden sind.

Beispiel 1.1 Neun Kardiologie-Patienten: Body-Mass-Index (BMI) und


Geschlecht
Norbert, Assistenzarzt in der kardiologischen Abteilung eines Krankenhauses, braucht
für seine Doktorarbeit die Body-Mass-Indices, die anlässlich kardiologischer Behand-
lungen bei der Patientenanamnese mit abgefragt worden sind. Auch das Geschlecht des
Patienten ist für ihn relevant. Norbert verwendet für seine Studie die Daten von zu-
fällig ausgewählten neun Patienten, deren Geschlechtszugehörigkeit ebenfalls erhoben
wurde. Er erhielt die in Tabelle 1.1 angegebenen Werte.

Tab. 1.1: Neun Kardiologie-Patienten: BMI und Geschlecht (1 m, 2 w).

Geschlecht 1 2 1 1 1 2 1 2 2
BMI 30,39 32,88 26,14 26,37 24,39 20,55 22,68 28,48 36,79

Mit der Liste der Werte kann Norbert nicht sehr viel anfangen. Er könnte jetzt etwa den
durchschnittlichen BMI für alle Patienten ermitteln. Der Durchschnitt errechnet sich
wie wir es beispielsweise von der Durchschnittsnote gewohnt sind, das heißt die Werte
aufsummieren und dann durch die Zahl der Werte teilen:

Durchschnitt = (30,39 + 32,88 + 26,37 + . . . + 36,79)/9 = 27,63.

Könnte vielleicht zwischen dem durchschnittlichen BMI der Männer und dem der Frauen
ein deutlicher Unterschied vorliegen? Norbert berechnet und vergleicht:

Durchschnitt bei Männern = (30,39 + 26,14 + 26,37 + 24,39 + 22,68)/5 = 25,994,

Durchschnitt bei Frauen = (32,88 + 20,55 + 28,48 + 36,79)/4 = 29,675.

Der mittlere BMI der Frauen ist höher als der der Männer, was auf den ersten Blick über-
rascht. Kann es sein, dass im Krankenhaus vor allem Frauen mit Übergewicht vorgespro-
chen haben? Liegen möglicherweise zu wenige Beobachtungen vor, um Rückschlüsse auf
die Gesamtheit der Patienten zu ziehen? Das kann aber mit unseren jetzigen Kenntnissen
der Materie noch nicht beantwortet werden.
1.1 Einführung in die deskriptive Statistik 3

Beispiel 1.2 Plätze in der Jugendpsychiatrie


Paul König ist Landtagsabgeordneter in Nordrhein-Westfalen. Am politischen Ascher-
mittwoch stellt er in seiner Heimatgemeinde die Erfolge der Landesregierung vor. So
kann das Land beispielsweise mit den bundesweit meisten Plätzen in der Jugend-
psychiatrie aufwarten, wie die Daten des Deutschen Statistischen Bundesamtes bewei-
sen (Tabelle 1.2).

Tab. 1.2: Zahl der Plätze in der Jugendpsychiatrie je Bundesland (Quelle: Statistisches
Bundesamt, 2001).

Land Plätze in der Jugendliche


Jugendpsychiatrie unter 18
Schleswig-Holstein 216 501 667
Hamburg 110 271 754
Niedersachsen 586 1 436 394
Bremen 45 102 043
Nordrhein-Westfalen 1 066 3 168 943
Hessen 440 1 039 619
Rheinland-Pfalz 170 699 957
Baden-Württemberg 494 1 938 662
Bayern 475 2 208 108
Saarland 46 161 603
Berlin 160 491 235
Brandenburg 211 333 216
Mecklenburg-Vorpom. 185 214 828
Sachsen 378 533 800
Sachsen-Anhalt 311 295 078
Thüringen 253 286 650

Was fällt uns auf, wenn wir die Daten näher studieren? Würden wir die Aussage des
Abgeordneten König einfach durchwinken? Hätten wir einen alternativen Vorschlag?

Antwortvorschläge: Schon beim Studieren der Tabelle fällt auf, dass kleine Länder
wenige und große Länder viele Plätze haben, was nicht verwunderlich ist, weil die Zahl der
Plätze vor allem von der Zahl der jugendlichen Einwohner abhängt. Wir entwickeln eine
neue Tabelle (Tabelle 1.3). Informativ wäre etwa die durchschnittliche Zahl der Plätze
pro jugendlicher Person (Spalte 4). Nun stören aber die vielen Nullen hinter dem Komma,
was die Information schwer lesbar und vergleichbar macht. Deshalb multiplizieren wir die
Kommazahlen mit 1 Million und erhalten nun „Zahl der Plätze pro 1 Mio. Personen“, was
uns wunderbare Zahlen beschert (Spalte 5). Was können wir diesen Zahlen entnehmen?
4 1 Deskriptive Statistik

Erstens liegt nun Nordrhein-Westfalen mit seinem Angebot an Therapieplätzen eher im


Mittelfeld. Zweitens weisen vor allem die neuen Bundesländer eine tendenziell bessere
Versorgung der jugendlichen Bevölkerung mit Therapieplätzen auf.

Möchte man noch etwas Ordnung in die Kennzahlen bringen, könnte man den Kennzahlen
Ränge zuordnen (Spalte 6). Hier sind die Ränge absteigend, das heißt, die größte Zahl
bekommt den Rang 1, die zweitgrößte den Rang 2 usw. Wir sehen jetzt, dass Nordrhein-
Westfalen mit den angebotenen Plätzen an elfter Stelle der 16 Bundesländer liegt.

Tab. 1.3: Plätze in der Jugendpsychiatrie: Kennwerte.

Land Plätze in Jugendliche Plätze pro Plätze pro Rangfolge


der Jugend- bis unter 18 Person 1 Mio. (1 = bes-
psychiatrie Personen ter usw.)
(1) (2) (3) (4) (5) (6)

Schleswig- 216 501 667 0,000431 431 7


Holstein
Hamburg 110 271 754 0,000405 405 10
Niedersachsen 586 1 436 394 0,000408 408 9
Bremen 45 102 043 0,000441 441 6
Nordrhein- 1 066 3 168 943 0,000336 336 11
Westfalen
Hessen 440 1 039 619 0,000423 423 8
Rheinland-Pfalz 170 699 957 0,000243 243 15
Baden- 494 1 938 662 0,000255 255 14
Württemberg
Bayern 475 2 208 108 0,000215 215 16
Saarland 46 161 603 0,000285 285 13
Berlin 160 491 235 0,000326 326 12
Brandenburg 211 333 216 0,000633 633 5
Mecklenburg- 185 214 828 0,000861 861 3
Vorpommern
Sachsen 378 533 800 0,000708 708 4
Sachsen-Anhalt 311 295 078 0,001054 1 054 1
Thüringen 253 286 650 0,000883 883 2

Beispiel 1.3 Studentische Evaluation einer Statistikvorlesung


Zum Abschluss einer Statistikvorlesung wurden die 54 Studierenden aufgefordert, diese
Vorlesung zu beurteilen. Eine Aussage war: „Der vermittelte Vorlesungsstoff war gut
verständlich.“ Die Beurteilung erfolgte in einer vierteiligen Skala mit den möglichen
Anworten:
1.1 Einführung in die deskriptive Statistik 5

1: stimme sehr zu; 2: stimme eher zu;


3: stimme weniger zu; 4: stimme gar nicht zu.

In Tabelle 1.4 wurden die Beurteilungen zusammengefasst. Wie könnten wir Ordnung
in diesen Zahlenbrei bringen? Könnten wir grafisch etwas bewirken?

Tab. 1.4: Studentische Evaluation einer Statistikvorlesung: Verständlichkeit der Vorlesung.

3 4 3 3 4 3 3 2 2 2 2 2 4 3 3 2 4 3
2 2 2 3 3 3 3 3 4 3 3 3 3 3 2 3 3 2
3 4 2 2 4 3 3 2 2 4 2 3 2 4 3 1 4 3

Da viele gleiche Werte auftreten, ist es bestimmt nicht ungeschickt, sie zu zählen. Dann
fassen wir die Ergebnisse als „Zahl der Studierenden“ in einer sogenannten Häufigkeits-
tabelle (Tabelle 1.5) zusammen. Wir interessieren uns vor allem für die Aufteilung der
einzelnen Noten. Die prozentuale Aufteilung, hier „Anteil der Studierenden (%)“, ist für
einen Außenstehenden informativer als die absoluten Zahlen.

Tab. 1.5: Verständlichkeit der Vorlesung: Prozentuale Häufigkeiten.

Zustimmung zur Aussage Zahl der Anteil der


Studierenden Studierenden (%)
stimme sehr zu 1 1 1,9
stimme eher zu 2 17 31,5
stimme eher nicht zu 3 26 48,1
stimme nicht zu 4 10 18,5
Summe 54 100,0

Für eine grafische Veranschaulichung ist beispielsweise ein sogenanntes Säulendiagramm


(Abbildung 1.1), auf Neudeutsch Bar Chart, hilfreich. Die Höhe einer Säule stellt den
prozentualen Anteil der gegebenen Noten dar.

Beispiel 1.4 Kindersterblichkeit in 194 Staaten


Ein Wohlstandsindikator ist die Gesundheit der Bevölkerung eines Staates, so etwa
die Kindersterblichkeit, die definiert ist als Zahl der gestorbenen Kinder unter fünf
Jahren auf 1000 Einwohner. In Tabelle 1.6 wird die Kindersterblichkeit von 194 Staaten
aufgeführt (Quelle: Unicef, 2009).

Der Zahlenbrei (Tabelle 1.6) stellt gegenüber dem vorhergegangenen Evaluationsbeispiel


1.3 noch eine Steigerung dar. Wir haben gut dreimal so viele Werte vorliegen, und sie
schwanken wild – man kann sie kaum bändigen. Wo liegt hier das Gold verborgen? Wie
könnten wir die Werte strukturieren? Gibt es überhaupt eine vernünftige Lösung für
Grafiken?
6 1 Deskriptive Statistik

Der vermittelte Vorlesungsstoff war gut


verständlich
50
Prozent der Studierenden

40

30

20

10

0
stimme stimme stimme stimme gar
sehr zu eher zu weniger zu nicht zu

Abb. 1.1: Säulendiagramm der Evaluationsnoten.

Tab. 1.6: Kindersterblichkeit (Zahl der gestorbenen Kinder unter 5 Jahre auf 1000 Einwoh-
ner) in 194 Staaten.

257 15 37 3 158 11 16 24 6 4 39 13 10 61
12 13 5 25 123 84 57 14 40 22 9 12 191 180
91 148 6 32 172 209 9 22 20 66 125 18 11 127
6 7 5 4 55 161 4 127 11 38 22 36 24 206
70 6 119 18 4 4 91 109 30 4 115 4 19 39
150 198 60 76 24 7 3 72 31 33 44 4 5 4
31 4 24 32 121 63 11 38 70 9 29 84 133 18
3 8 3 112 111 11 30 196 5 54 119 15 35 40
18 4 43 10 34 168 103 68 30 55 5 6 35 176
189 4 27 12 90 10 23 65 29 20 28 7 4 15
5 15 15 181 18 18 19 27 4 99 25 114 8 13
262 3 8 4 70 142 59 4 21 109 29 91 3 5
17 67 7 17 97 100 23 35 21 23 50 37 130 24
8 6 116 8 14 41 34 19 15 73 170 90

Es bietet sich an, die Beobachtungen in Intervalle, sogenannte Klassen, einzuteilen. Die
Zahl der Werte in jeder Klasse werden dann gezählt. Das Ergebnis sehen wir in Tabel-
le 1.7.

Typisch für eine Grafik bei klassierten Häufigkeiten ist das Histogramm. Hier wird über
jedem Intervall eine Säule errichtet, deren Fläche die Häufigkeit darstellt. Wir sehen in
Abbildung 1.2 sofort, dass die meisten Staaten, es sind ca. 2/3, eine kleine Sterblichkeit bis
1.2 Begrifflichkeiten 7

40 aufweisen. Das Drittel der Staaten mit einer höheren Kindersterblichkeit weist im We-
sentlichen eine gleichförmige Aufteilung aller Sterblichkeitsziffern von 40 bis ca. 270 auf.

Tab. 1.7: Häufigkeitstabelle der Kindersterblichkeit von 194 Ländern.

Intervall der Häufigkeit der prozentuale Häufigkeit


Kindersterblichkeit Beobachtungen im der Beobachtungen im
Intervall Intervall
0 bis unter 20 80 41
20 bis unter 40 43 22
40 bis unter 80 24 12
80 bis unter 120 20 10
120 bis unter 180 16 8
180 bis unter 265 10 5
Summe 194 100

0 50 100 150 200 250 300


Zahl der gestorbenen Kinder auf 1000 Einwohner

Abb. 1.2: Histogramm der Kindersterblichkeit von 194 Ländern.

1.2 Begrifflichkeiten – Möchte ich einen


Familienstand von 2,5?

Wir haben soeben eine kurze Führung durch eine Datengoldmine bekommen, mit inter-
essanten Highlights, und wir ahnen nun, dass mehr Wissen dazugehört, um selbst Gold
aus den Daten zu gewinnen. Als Erstes müssen wir die korrekte Terminologie lernen.
8 1 Deskriptive Statistik

1.2.1 Grundgesamtheit und Stichprobe

Beispiel 1.5 Qualitätsmanagement der Hochschule Entenhausen


Unsere Hochschule Entenhausen möchte ihr Qualitätsmanagement verbessern. Dazu
soll die Zufriedenheit der Studierenden ermittelt werden. Wir haben Projektmittel
erhalten und sollen unter anderem die Studierenden befragen. Da die Befragung hoch-
schulweit sein soll und üppig finanziert wird, weckt das Begehrlichkeiten bei verschie-
denen Hochschulangehörigen. Es kommen verschiedene Menschen auf uns zu und er-
kundigen sich, ob man im Zuge der Befragung beispielsweise auch Hobbys, verfügbares
Einkommen und Freizeitverhalten miterheben könnte. Hier müssen wir stark sein und
unterscheiden, ob die Ergänzungswünsche unsere Zielsetzung voranbringen oder ob wir
Trittbrettfahrer abwehren müssen.

Wir müssen uns zuerst folgende Fragen beantworten:

Was möchte ich wissen? Hier: Wie zufrieden sind die Studierenden? Was ist damit
gemeint? Fühlen sie sich geborgen? Erhoffen sie sich Karrierechancen? Ist ein gewisser
„Fun-Faktor“ entscheidend?
Mit welchen Fragen kann ich das herausbekommen? Ich muss mir darüber im Kla-
ren sein, wie ich Zufriedenheit messen will. Ich werde etwa verschiedene Fragen zu
einzelnen Aspekten stellen (Zufriedenheit mit der Lehre, mit der Bibliothek, mit der
IT-Ausstattung etc.). Die Antworten sollen in Notenstufen von 1 bis 5 gegeben wer-
den. Ich kann auch sogenannte offene Fragen zulassen, in denen die Befragten eigene
Eindrücke wiedergeben können. So etwas wird von Unerfahrenen gerne gemacht, weil
man auf diese Weise den Informationsgehalt maximieren kann. Spätestens bei der Aus-
wertung bereut man das bitter, vor allem wenn die Zahl der Befragten groß ist.
Wen muss ich fragen? Will ich alle Studierenden befragen? Die Gesamtheit aller Studie-
renden nennen wir Grundgesamtheit. Das können alle Studierenden eines bestimmten
Jahrgangs, aber auch alle Studierenden in einem bestimmten Jahr sein. Oder alle Stu-
dierenden, das heißt, auch Absolventen und zukünftige Studierende. Die Grundgesamt-
heit muss also sauber abgegrenzt werden. Die Erhebung von Daten einer Grundgesamt-
heit kann sehr aufwendig, häufig – wie im Fall aller Studierenden – auch unmöglich
sein.
Ist mir die Erfassung der Grundgesamtheit zu aufwendig? In diesem Fall kann ich eine
Stichprobe machen. Bei einer Stichprobe wählt man aus der Grundgesamtheit nach
dem Zufallsprinzip eine bestimmte Zahl n von Studierenden aus und hofft, dass die
erhobenen Daten die Grundgesamtheit einigermaßen zutreffend widerspiegeln.

Bezeichnen wir eine Person unseres Interesses als Objekt. Wenn wir die Zusammenfassung
der Objekte als Mengen auffassen, können wir definieren:
1.2 Begrifflichkeiten 9

Grundgesamtheit – Stichprobe

Die Grundgesamtheit ist die Menge aller Objekte. Sie muss vor der Analyse festge-
legt werden.

Die Stichprobe ist eine Teilmenge der Grundgesamtheit. Ihre Elemente werden mit-
hilfe einer Vorschrift zufällig erhoben.

Die Stichprobe soll auf jeden Fall die Grundgesamtheit möglichst genau widerspiegeln,
wobei „möglichst genau“ einen gewissen Interpretationsspielraum beinhaltet. Das Schlag-
wort ist hier die Repräsentativität. Eine typische Frage von Statistiklaien lautet: „Ist
meine Stichprobe repräsentativ?“ Und die typische Antwort des Statistikfachmanns wird
sein: „Die Repräsentativität gibt es nicht.“

In der Regel werden erhobene Daten durch bestimmte Eigenschaften des Objekts beein-
flusst. Wir überlegen uns im Zufriedenheitsbeispiel, ob bestimmte Eigenschaften einer
Person einen merkbaren Einfluss auf die Antwort haben könnten. In Beispiel 1.5 wären
das etwa die Semesterzahl und das Geschlecht. Wir werden also versuchen, in unserer
Stichprobe eine Aufteilung nach Geschlecht und Semesterzahl wie in der Grundgesamt-
heit zu erreichen, sodass dann die Stichprobe die Grundgesamtheit repräsentiert. Um eine
repräsentative Aufteilung zu erhalten, gibt es verschiedene Verfahren. Schwarze (1988,
S. 142 ff.), liefert darüber einen knappen, informativen Überblick. Es gibt aber auch die
banale Erkenntnis, dass über die Aufteilung der Eigenschaften in der Grundgesamtheit
nichts bekannt ist.

Die Größe der Stichprobe, genannt Stichprobenumfang, spielt für eine „wahrheitsgetreue“
Wiedergabe der Grundgesamtheit ebenfalls eine wichtige Rolle. Man kann beispielsweise
die Mindestgröße der Stichprobe so festlegen, dass ein Fehler in der Stichprobe nur einen
bestimmten maximalen Wert annehmen kann. Grundsätzlich gilt hier: Viel hilft viel.

1.2.2 Begriffsdefinitionen

In aller Regel werden wir es bei der Datenanalyse mit einer Stichprobe zu tun haben.
Dazu müssen zunächst Begriffe definiert werden, damit wir alle auch dasselbe meinen,
wenn wir dasselbe sagen.

Beispiel 1.6 Daten übergewichtiger Reha-Patienten


Lene schreibt ihre Bachelorarbeit über das Thema Schlankheitswahn. Dazu befragt
sie in einer Reha-Klinik stark übergewichtige Patienten. In Abbildung 1.3 liegt ein
Teilausschnitt der erhobenen Daten vor.
10 1 Deskriptive Statistik

Merkmal,
Variable

An wie viel Ausprägungen


Tagen in Ich lege viel 0-3
der Woche Wert auf
treiben Sie gutes
Name Alter BMI Sport? Aussehen Familienstand
1 = ja, 0 = ledig,
2 = eher ja, 1 = verh.,
3 = eher nein, 2 = gesch.,
4 = nein 3 = verw.
x y z u v
Bruno 25 39,18 0 4 1
Angela 18 34,89 1 2 0
Kevin 15 37,98 1 1 0
Helmut 32 40,76 3 3 2
Paula 27 36,33 1 1 1
Berta 51 35,38 0 2 3
Heini 32 35,43 4 1 1
Natalie 24 35,51 2 3 1

Merkmalsträger Beobachtungswert
Objekt Realisation
Merkmalswert

Abb. 1.3: Begriffsdefinitionen für Daten.

Die Spalten bestehen aus Eigenschaften, die an den Personen beobachtet werden können.
Man bezeichnet sie als (statistische) Merkmale oder (statistische) Variablen. Variablen
werden meist kleinbuchstabig bezeichnet. So hat das Merkmal Alter das Symbol x.

Die verschiedenen möglichen Werte, die eine Variable annehmen kann, sind die Ausprä-
gungen. Die Variable u hat die Ausprägungen 1, 2, 3, 4, dagegen hat z die Ausprägungen
0, 1, 2, 3, 4, 5, 6, 7. Bei der Variablen x kann man den Bereich nicht von vornherein
eingrenzen. Man wird hier die Menge der ganzen positiven Zahlen 0, 1, 2, . . . nennen. y
hat als Ausprägungen dagegen die Menge der positiven reellen Zahlen.

Eine Person ist ein Objekt, eine Untersuchungseinheit oder Merkmalsträger, denn man
kann an ihr die Merkmale erfassen. Natalie ist also ein Merkmalsträger. Im psycholo-
gischen Bereich bezeichnet man so ein Element auch als Versuchsperson. Ein einzelner
Datenwert ist ein Merkmalswert, ein Beobachtungswert oder eine Realisation. So ist etwa
der BMI-Wert 37,98 ein Merkmalswert von y.
1.2 Begrifflichkeiten 11

Wir können die Beobachtungen in der Reihenfolge der Erhebung mit einem Index i (i =
1, 2, . . . , n) durchnummerieren: x1 = 25, x2 = 18 usw. Eine Liste von Beobachtungen,
die in dieser Reihenfolge aufgeführt sind, nennen wir Urliste.

1.2.3 Skalierung eines Merkmals

Wir nehmen uns wieder das Reha-Beispiel (Beispiel 1.6) vor. Lene soll heute in einem
Bachelorseminar erste Ergebnisse ihrer Arbeit vortragen. Zunächst möchte sie ein paar
Durchschnittswerte präsentieren:

Durchschnittliches Alter = (25 + 18 + 15 + 32 + 27 + 51 + 32 + 24)/8 = 224/8 = 28.


Die Teilnehmer der Studie waren im Mittel 28 Jahre alt.
Durchschnittlicher Familienstand = (1 + 0 + 0 + 2 + 1 + 3 + 1 + 1)/8 = 1,125.
Der mittlere Familienstand betrug also 1,125 . . . hm, naja . . .

Wir wollen die Tragödie der Präsentation nicht weiterverfolgen. Es dürfte jedem klar
sein, dass der Wert 1,125 blanker Unfug ist. Aber wieso eigentlich? Wieso ist die Mittel-
wertbildung im ersten Fall sinnvoll und im zweiten nicht? Es liegt daran, dass die beiden
Variablen unterschiedlich bearbeitet werden müssen. Man sagt, sie haben unterschiedliche
Messvorschriften. Sie sind unterschiedlich skaliert.

Welche Skalenniveaus gibt es überhaupt?

Nominalskala: Die Zahlen der Variablen v (Familienstand) in Beispiel 1.6 sind eigentlich
keine gemessenen Größen, sondern sie stellen lediglich eine Kodierung der Familienstände
dar. Wir können die Ausprägungen von v nicht ordnen, denn man kann nicht sagen,
dass beispielsweise ledig weniger ist als verheiratet oder dass geschieden schöner ist als
verwitwet.
Merkmale wie
Familienstand,
Augenfarbe: braun, blau, . . .
Organspender: ja/nein,
Blume: Aster, Nelke, Tulpe, . . .
sind nominalskaliert.
Die Ausprägungen des nominalskalierten Merkmals können nicht geordnet werden, man
kann sie nur vergleichen und abzählen. Es handelt sich um qualitative Merkmale. Werden
den Ausprägungen Ziffern zugeordnet, besteht lediglich eine Verschlüsselung (Kodierung).
Beispielsweise können wir den Familienstand kodieren mit 0 = ledig, 1 = verheiratet, 2
= geschieden, 3 = verwitwet.
12 1 Deskriptive Statistik

Ordinalskala oder Rangskala: Wie sieht es mit dem Merkmal u, des Zustimmungsgrades
einer Aussage in Beispiel 1.6, aus? Auch hier liegt ja offensichtlich eine Kodierung vor.
Jedoch kann man hier sagen, dass 1 ein höherer Zustimmungsgrad ist als 2. Man kann
offensichtlich die Ausprägungen von u ordnen. Allerdings kann ein Wert 1,5 nicht sinnvoll
interpretiert werden. Man kann auch nicht angeben, ob der Abstand zwischen 1 und 2
größer oder kleiner ist als der Abstand zwischen 2 und 3.
Zwischen den Ausprägungen des ordinalskalierten (rangskalierten) Merkmals existiert
eine Beziehung der Form mehr oder weniger, < oder >, besser oder schlechter usw., also
eine Art natürlicher Reihenfolge. Beispiele sind:
Zustimmungsgrad,
Sterne eines Campingplatzes: *, **, ***, . . . ,
Kleidergröße: XS, S, M, . . . ,
Noten: 1, 2, 3, 4, 5.
Für die Ausprägungen lässt sich also eine Rangordnung feststellen, aber die Abstände
zwischen den Rängen sind nicht interpretierbar. Da der Abstand nicht interpretierbar ist,
können auch Bruchteile eines Abstands nicht interpretiert werden. Eine Durchschnitts-
note von 2,5 ist im Grunde eine sinnlose Aussage. Trotzdem werden beispielsweise im
Bildungssystem Durchschnittsnoten errechnet, denn der Durchschnitt suggeriert eine Ge-
nauigkeit, um zwischen Leistungen zu differenzieren.

Metrische Skala: Nun betrachten wir die Variable y, den BMI in Abbildung 1.3. Wir
können sagen, dass ein BMI von 30 höher ist als 20. Und wir können auch Zwischenwerte
sinnvoll interpretieren. Wir können analog zu oben einen mittleren BMI von 32,035 er-
mitteln, was uns sagt, dass die Teilnehmer der Befragung im Mittel einen BMI von etwas
mehr als 32 hatten.
Die Abstände zwischen den Ausprägungen des metrisch skalierten (quantitativen) Merk-
mals können gemessen werden. Es handelt sich bei den Ausprägungen um (reelle) Zahlen.
Beispiele: Kinderzahl, Einkommen, Temperatur, . . .
Die metrischen Variablen werden noch in diskret und stetig unterschieden.
Ein Merkmal ist diskret (= unterschieden), wenn man die Ausprägungen abzählen –
sinngemäß dasselbe wie „durchnummerieren“ – kann.
Beispiele sind:
Zahl der Kraftfahrzeuge in einem Haushalt: 0, 1, 2, . . . ,
Zahl der Unfälle auf einem Autobahnabschnitt innerhalb eines Jahres: 0, 1, 2, . . . ,
Füllmenge von Katzenfutterdosen: 100 g, 200 g, 400 g, 800 g.
Durchnummeriert sehen die Füllmengen der Katzenfutterdosen so aus:

Nummer der Ausprägung 1 2 3 4


Ausprägung 100 200 400 800

In unserem Beispiel 1.6 ist die Variable z, Zahl der Sporttage in der Woche, diskret,
denn wir können die Ausprägungen durchnummerieren.
1.2 Begrifflichkeiten 13

Ein Merkmal x ist stetig (kontinuierlich), wenn sich in jedem noch so kleinen Intervall
der Werte, die x annehmen kann, unendlich viele Ausprägungen (überabzählbar viele)
befinden, beispielsweise:
Länge eines Regenwurms,
Gewicht einer Haselmaus,
Dauer bis zur Wirkung eines Medikaments,
Alkoholkonzentration im Blut.
In Beispiel 1.6 ist die Variable y (BMI) stetig. Eine Person kann einen BMI von 30,
30,01, 30,000001, 30,99999 usw. haben. Im Intervall zwischen 30 und 31 liegen also
unendlich viele Ausprägungen, man kann sie nicht mehr durchnummerieren. Deshalb
nennt man sie überabzählbar. Wir kennen Vergleichbares von stetigen Funktionen.

Bemerkung: Gelegentlich hat man es mit diskreten Variablen zu tun, die sehr viele un-
terschiedliche Ausprägungen aufweisen. Hier erweist es sich meistens als zweckmäßig, die
Variable als stetig zu betrachten, was die Handhabbarkeit in der Datenanalyse verein-
facht. Man spricht hier von Quasistetigkeit der Variablen. So würden wir in Beispiel 1.4
(5) die Kindersterblichkeit als quasistetig definieren.

Häufig werden metrisch skalierte Daten noch in intervallskaliert und verhältnisskaliert


unterschieden. Die Verhältnisskala ist dabei das höchste Niveau. Man kann zwei Werte
dieser Skalierung ins Verhältnis setzen.

Dazu wollen wir uns zwei Aussagen ansehen:

a: Eine 40-jährige Frau ist doppelt so alt wie eine 20-jährige.


b: Heute ist es mit 30 Grad doppelt so warm wie gestern.

Aussage a akzeptieren wir ohne Weiteres, aber Aussage b wirkt befremdlich. Der Grund
dafür ist, dass die Variable Temperatur (Grad Celsius) keinen natürlichen Nullpunkt
hat – Null bedeutet nicht „keine Temperatur“. Ähnlich ist das bei historischen Daten:
Das Jahr 2000 n. Chr. ist nicht doppelt so jung wie das Jahr 1000 – auch vor Christi
Geburt gab es schon Zeit. Allerdings kann man beispielsweise sagen, dass zwischen 2000
und 2010 zehn Jahre vergangen sind. Wir können also Abstände zwischen historischen
Daten betrachten, aber diese Daten nicht ins Verhältnis setzen. Deshalb nennt man derlei
Variablen intervallskaliert. Variablen, deren Beobachtungen ins Verhältnis gesetzt werden
können, sind verhältnisskaliert. So ist die Variable Alter verhältnisskaliert. In den meisten
Fällen einer Analyse genügt aber die Festlegung als metrisch skaliert.

Bemerkung: Bei psychologischen Anwendungen werden häufig Einschätzungen von Ver-


suchspersonen abgefragt, die typischerweise rangskaliert sind, etwa Grad der Zufrieden-
heit, Grad der Zustimmung zu einer Aussage usw. Da dieses Skalenniveau aber für eine
weitere Auswertung eher unbefriedigend ist, tendiert man gelegentlich dazu, diese Daten
in metrisch „umzuloben“. Häufig behilft man sich, indem man eine Versuchsperson in ei-
14 1 Deskriptive Statistik

nem Intervall von 0 bis 10 die Position ankreuzen lässt, was aber gelegentlich abfällig als
pseudogenau diffamiert wird. Oder man formt die Frage um, etwa: In wie vielen von fünf
Fällen geben Sie nach, wenn Ihr Kind Süßigkeiten will? Zur Problematik rangskaliert vs.
metrisch skaliert gibt es in der Literatur verschiedene Betrachtungen (z. B. Bortz 2005,
S. 15 ff.).

1.3 Verteilung eines Merkmals – Wie bändigt


man die Datenflut?

Wir haben Daten erhoben und diese in ein Tabellenkalkulationsprogramm eingegeben.


Was könnten wir als Nächstes damit machen? Vielleicht wäre ja informativ, ob es eher
viele kleine oder eher viele große Werte gibt. Gibt es „Klumpen“ von Daten? Oder vertei-
len sich die Werte gleichmäßig? Hier ist schon der Begriff gefallen: die Verteilung. Sie sagt
uns also, wie sich die einzelnen Beobachtungen im möglichen Zahlenbereich verteilen.

1.3.1 Klassierte Häufigkeitstabelle

Beispiel 1.7 Salutogenese: Gewicht von 100 Führungskräften


Paula schreibt an ihrer Doktorarbeit über die Gesunderhaltung von Führungskräften.
Momentan arbeitet sie einen Vortrag dazu aus. Sie möchte erste Ergebnisse vor aus-
gewähltem Publikum präsentieren. Sie hat für eine Studie 100 Personen in leitender
Stellung befragt. Neben anderen Variablen hat sie das Gewicht der Personen erhoben
und die in Tabelle 1.8 aufgeführten Beobachtungen erhalten.

Tab. 1.8: Gewicht (in kg) von 100 ausgewählten Personen in Führungspositionen: Urliste der
Variable x.

83 71 77 86 76 68 82 82 70 82
68 78 83 92 78 87 73 60 82 88
80 82 55 76 100 86 92 76 107 75
74 74 72 97 85 83 85 80 90 119
94 113 77 85 80 82 57 112 58 60
83 62 79 77 84 97 80 86 98 88
100 82 67 108 91 79 85 93 92 83
95 85 93 72 74 80 69 83 87 85
78 82 90 85 78 78 74 58 73 79
83 83 120 64 50 88 119 86 125 95
1.3 Verteilung eines Merkmals 15

Bezeichnen wir das Gewicht als Variable x. Wir sehen, dass die Werte als Urliste vor-
liegen. Welches Skalenniveau haben diese Daten? Sie sind metrisch skaliert, und zwar
verhältnisskaliert, denn beispielsweise sind 100 kg doppelt so viel wie 50 kg. Da viele
verschiedene Werte vorliegen, legen wir sie aus praktischen Gründen als stetig fest.

Was könnte Paula nun mit diesen Daten anfangen? Sie fragt sich, ob Personen in lei-
tender Stellung auf ihr Gewicht achten oder ob sie so gestresst sind, dass sie keine Zeit
mehr für ihren Körper haben. Für einen ersten Überblick teilt Paula die Personen in
Gewichtsintervalle ein. Ihr fällt auf, dass keine Person unter 50 kg und keine über 130 kg
wiegt. Also bildet sie Zehnerintervalle von 50 bis 130. Natürlich soll verhindert werden,
dass eine Person in zwei Intervalle fällt. Um das zu vermeiden, bildet sie die Gruppen 50
bis unter 60, 60 bis unter 70, . . . , 110 bis unter 120. Dann ordnet sie die Personen den
Gruppen zu und zählt, wie viele Personen in einer Klasse sind. Wir haben zur Veran-
schaulichung die Werte der Größe nach sortiert und die Klasseneinteilung in Tabelle 1.9
eingetragen. Paula erhält die Häufigkeitstabelle 1.10.

Tab. 1.9: Gewicht (in kg) von 100 ausgewählten Personen in Führungspositionen: Sortierte
Werte der Variablen x.

50 55 57 58 58 |60 60 62 64 67
68 68 69 |70 71 72 72 73 73 74
74 74 74 75 76 76 76 77 77 77
78 78 78 78 78 79 79 79 |80 80
80 80 80 82 82 82 82 82 82 82
82 83 83 83 83 83 83 83 83 84
85 85 85 85 85 85 85 86 86 86
86 87 87 88 88 88 |90 90 91 92
92 92 93 93 94 95 95 97 97 98
|100 100 107 108 |112 113 119 119 |120 125

Jetzt kann Paula auch eine schicke Grafik erstellen. Sie trägt in einem Koordinatensystem
auf der x-Achse die Intervalle ein und errichtet über jedem Intervall eine Säule, deren
Fläche die Häufigkeit darstellt. Wir kennen die Grafik schon als Histogramm. Da wir
gleiche Klassenbreiten haben, kann die Häufigkeit direkt aus der Höhe der Säule abgelesen
werden.

Wir können in Abbildung 1.4 als erste Information festhalten, dass es sehr schlanke und
auch sehr korpulente Führungskräfte gibt. Die meisten Personen wiegen unter 90 kg.

Von Interesse ist vor allem die Form der Verteilung. Betrachten wir verschiedene Histo-
gramme in den Beispielen 1 bis 4 der Abbildung 1.5.
16 1 Deskriptive Statistik

Tab. 1.10: Gewicht (in kg) von 100 ausgewählten Personen in Führungspositionen:
Häufigkeitstabelle der Variablen x.

Klassenintervall Zahl der Personen:


Häufigkeit
50 bis unter 60 5
60 bis unter 70 8
70 bis unter 80 25
80 bis unter 90 38
90 bis unter 100 14
100 bis unter 110 4
110 bis unter 120 4
120 bis unter 130 2

40
Häufigkeit: Zahl der Personen

35
30
25
20
15
10
5
0
45 55 65 75 85 95 105 115 125 135

Gewicht x

Abb. 1.4: Gewicht (in kg) von 100 ausgewählten Personen in Führungspositionen: Histo-
gramm der Gewichte.

Symmetrische Verteilung (Beispiel 1): In einem landesweiten Test sollten 300 Schüler
der dritten Klasse eine Mathematikaufgabe lösen. Die Variable x bezeichnet die Zeit in
Minuten, die ein Schüler für die Lösung der Aufgabe benötigt. Die meisten Kinder brauch-
ten um die 20 ± 5 Minuten, einige waren deutlich schneller, einige deutlich langsamer.
Die Verteilung hat eine annähernd symmetrische Pyramidenform.

Rechtsschiefe Verteilung (Beispiel 2): Von ca. 200 börsennotierten Unternehmen wurde
der Umsatz (in Milliarden Euro) des letzten Jahres erfasst. Man sieht, dass die meisten
Unternehmen bis zu 15 Milliarden Euro umsetzten, einige wenige nahmen deutlich mehr
ein. Das ergibt eine rechtsschiefe (oder auch linkssteile) Verteilung. Die sehr großen Um-
sätze können vermutlich als Ausreißer in den Daten angesehen werden.

Linkssschiefe Verteilung (Beispiel 3): Die wichtigsten Daten von Artillerieschiffen zu


1.3 Verteilung eines Merkmals 17
Zahl der Schüler

Häufigkeit
60 160
140
50
120
40 100
30 80
60
20
40
10
20
0 0
10 15 20 25 0 25 50 75 100
Minuten Umsatz (Milliarden €
Beispiel 1: symmetrisch Beispiel 2: rechtsschief

35 25
Häufigkeit
Häufigkeit

30
20
25
20 15

15 10
10
5
5
0 0
10 14 18 22 26 30 34 38 0 1 2 3 4 5 6 7 8 9 10 11 12
Knoten/h Tiefgang
Beispiel 3: linksschief Beispiel 4: multimodal

Abb. 1.5: Beispiele verschiedener Verteilungsformen von Daten.

Beginn des Zweiten Weltkrieges wurden erhoben. Es handelte sich um die Schiffsklassen
Schlachtschiff, Kreuzer und Zerstörer. Schlachtschiffe sind groß und schwerfällig, Zerstörer
relativ klein und sehr schnell und wendig. Kreuzer sind erheblich größer als Zerstörer und
erheblich langsamer. Das Merkmal x ist die Höchstgeschwindigkeit (Knoten/h) eines
Schiffes. Da es nur wenige Schlachtschiffe gibt, aber viele Kreuzer und Zerstörer, sind die
meisten Schiffe relativ schnell. Wir erhalten eine linksschiefe Verteilung.

Multimodale Verteilung (Beispiel 4): Es wird der Sachverhalt von Beispiel 3 verwendet.
Das Histogramm zeigt die Verteilung des Tiefgangs der Schiffe. Man sieht deutlich, dass
hier mehrere Verteilungen vermischt worden sind, denn die gesamte Verteilung weist drei
Maxima auf. Man nennt eine Verteilung mit mehreren Häufigkeitsspitzen multimodal.
Speziell Merkmale, in denen verschiedenartige Gruppen zusammengefasst sind, weisen
Multimodalität auf. Hier ist etwa die Verteilung des Beispiels 2 unimodal. Die beiden
Beispiele 1 und 3 sind ebenfalls multimodal. Während in Beispiel 3 auch wieder die ver-
schiedenen Schiffsklassen die Ursache sein können, haben in Beispiel 1 wohl eher zufällige
Schwankungen der erhobenen Daten die zweite Spitze auf der rechten Seite der Pyramide
verursacht.
18 1 Deskriptive Statistik

Wie ist eine Häufigkeitsverteilung aufgebaut?

Die Intervalle, in die wir die Daten einteilen, werden meistens Klassen, aber auch Gruppen
genannt. Die Klassen bekommen eine Nummer j (j = 1, 2, . . . , m). Der schematische
Aufbau einer klassierten Häufigkeitsverteilung steht in Tabelle 1.11. Jede Klasse hat
eine Unter- und Obergrenze. Wir wollen die Untergrenze der j-ten Klasse xuj und ihre
Obergrenze xoj nennen. Die Obergrenze einer Klasse ist zugleich die Untergrenze der
nächstfolgenden (was oft in der Formelsammlung als xuj = xo,j−1 oder ähnlich steht).

Wir beziehen uns weiter auf die Salutogenese-Daten in Tabelle 1.10. Hier hat die Klasse
2 die Obergrenze 70 und Klasse 3 hat die Untergrenze 70 und nicht etwa 71. Man geht
ja davon aus, dass x stetig ist, und daher können die Werte in einem Intervall beliebig
nahe an die Grenze des benachbarten Intervalls reichen.

Jeder Beobachtungswert kann nur einem einzigen Intervall zugeordnet werden. Der Ma-
thematiker spricht hier von einer Partition der Datenmenge. Deshalb vermeiden wir
Zuordnungen wie „50 − 60; 60 − 70; . . . “ und sagen stattdessen „50 bis unter 60; 60
bis unter 70; . . . “. Wir können die Werte auch in „über 50 bis 60, über 60 bis 70 usw.“
einteilen.

Die Breite einer Klasse entspricht dann der Breite des Intervalls. Nennen wir sie dj , wie
Distanz oder Differenz. Berechnet wird sie als Klassenobergrenze – Klassenuntergrenze,
das heißt dj = xoj − xuj . Wir brauchen sie gelegentlich für das Erstellen von Histogram-
men.

Häufig verwendet wird die Klassenmitte xj  . Sie stellt den Mittelpunkt eines Intervalls dar
x +x
und berechnet sich als xj  = uj 2 oj . xj  wird stellvertretend für die Datenwerte in einer
Klasse verwendet, Vielfach sind die Originaldaten der klassierten Variablen nicht mehr
verfügbar. Für die Berechnung von Verteilungskennwerten wird dann stellvertretend xj 
genommen.

Die Zahl der Beobachtungswerte in einer Klasse ist die absolute Häufigkeit. Wir wol-
len sie nj nennen, analog zur Gesamtzahl n der Beobachtungen. Die Summe über die
Häufigkeiten ist natürlich n, also

n1 + n2 + · · · + nm = n.

Da im Allgemeinen Prozentwerte schneller erfasst werden können als absolute Werte,


kann man die relativen Häufigkeiten pj angeben als Anteil der nj an n:
nj nj
pj = bzw. den prozentualen Anteil pj = · 100 %.
n n
In Tabelle 1.12 stehen nun die konkreten Kennwerte aus der schematischen Tabelle 1.11.
1.3 Verteilung eines Merkmals 19

Tab. 1.11: Schematischer Aufbau einer Häufigkeitstabelle nebst Kennwerten.

Nummer Klassen- Klassen- Häufig- Klassen- Klassen-


der Klasse untergrenze obergrenze keit breite mitte
j xuj xoj nj dj xj
1 xu1 bis unter xo1 n1 d1 x1
2 xu2 bis unter xo2 n2 d2 x2
3 xu3 bis unter xo3 n3 d3 x3
... ... ... ... ... ... ...
j xuj bis unter xoj n5 d5 xj
... ... ... ... ... ... ...

m xum bis unter xom nm dm xm
Summe n

Klassenbildung

Besteht die Urliste aus vielen verschiedenen Datenwerten, teilen wir zweckmäßiger-
weise die Werte in Klassen ein. Dazu werden Intervalle gebildet. Die Klassen werden
mit j nummeriert.

Es gibt insgesamt m viele Klassen.


Eine Klasse hat eine Untergrenze xu und eine Obergrenze xo .
Ein Wert darf nur einer Klasse zugeordnet werden.
Die Anzahl der Werte, die in einem Intervall j liegen, wird als absolute Häufigkeit
n
nj bezeichnet. Ihr Anteil an allen Werten ist die relative Häufigkeit pj = nj .
Die Differenz d = xo − xu einer Klasse ist die Klassenbreite.
Für die grafische Veranschaulichung verwenden wir das Histogramm. Hier wird
auf jedem Klassenintervall ein Rechteck errichtet, dessen Fläche die Häufigkeit
darstellt.

In den meisten Lehrbüchern liest man die Empfehlung, alle Klassen gleich breit zu ma-
chen, was verschiedene Vorteile hat. Zudem geben die meisten Computerprogramme nur
gleiche Breiten aus. Manchmal ist es von der Struktur der Daten her aber günstiger, die
Klassen verschieden breit zu machen. Hier erhalten wir ein Histogramm wie beispielsweise
Abbildung 1.2.

Die wichtigste Frage wird wohl die Zahl der Klassen sein. Zu wenige Klassen bieten zu
wenig Information, zu viele Klassen dagegen zerstören möglicherweise eine erkennbare
Verteilungsstruktur der Daten und erfordern einen erhöhten Leseaufwand. Eine einfache
Faustregel ist, dass die optimale Zahl m der Klassen ungefähr die Wurzel aus n ist.
20 1 Deskriptive Statistik

Tab. 1.12: Gewicht (in kg) von 100 ausgewählten Personen in Führungspositionen: Konkreter
Aufbau der Häufigkeitstabelle nebst Kennwerten.

Nummer Klassen- Klassen- Häufig- Klassen- Klassen-


der Klasse untergrenze obergrenze keit breite mitte
j xuj xoj nj dj xj
1 50 bis unter 60 5 10 55
2 60 bis unter 70 8 10 65
3 70 bis unter 80 25 10 75
4 80 bis unter 90 38 10 85
5 90 bis unter 100 14 10 95
6 100 bis unter 110 4 10 105
7 110 bis unter 120 4 10 115
8 120 bis unter 130 2 10 125
Summe 100

In unserem Beispiel 1.7 bzw. Tabelle 1.10 waren das bei n = 100 Beobachtungen etwa m =
10 Klassen. Acht Klassen waren genau richtig, denn so ergaben sich als Klassengrenzen
nicht zu „krumme“ Werte.

Theoretisch gesehen sollen die Beobachtungswerte in einer Klasse möglichst gleichmäßig


verteilt sein, und es sollen vor allem an den Klassenrändern keine ungleichgewichtigen
Häufungen auftreten. Dann kann man die Klassenmitte xj als mittleren Wert der Daten
in dieser Klasse auffassen.

Summenhäufigkeit und Summenkurve

Paula möchte für die Präsentation der Forschungsergebnisse noch die relativen Häufigkei-
ten angeben (Tabelle 1.13). Sie kann nun einige Verteilungsaussagen machen: Ein Viertel
der Personen wog zwischen 70 und 80 kg. 10 % der Personen (0,04 + 0,04 + 0,02) wogen
mindestens 100 kg usw. Paula findet es praktisch, die relativen Häufigkeiten laufend auf-
zusummieren, also zu kumulieren. Sie erhält die relativen Summenhäufigkeiten Sj∗ . Wir
sehen nun sofort, dass zum Beispiel 90 % aller Probanden weniger als 100 kg wogen. 13 %
wogen lediglich weniger als 70 kg usw.

Summenhäufigkeit

Die Summe der Häufigkeiten

Sj = n1 + n2 + ... + nj (1.1)
1.3 Verteilung eines Merkmals 21

wird absolute Summenhäufigkeit oder kumulierte Häufigkeit genannt. Der Anteil


Sj
Sj∗ = (1.2)
n
ist die relative Summenhäufigkeit.

Tab. 1.13: Gewicht (in kg) von 100 ausgewählten Personen in Führungspositionen: Relative
Häufigkeiten.

Klasse Klassenintervall relative relative kumu-


Häufigkeit lierte Häufigkeit
j pj Sj∗
1 50 bis unter 60 0,05 0,05
2 60 bis unter 70 0,08 0,13
2 70 bis unter 80 0,25 0,38
4 80 bis unter 90 0,38 0,76
5 90 bis unter 100 0,14 0,90
6 100 bis unter 110 0,04 0,94
7 110 bis unter 120 0,04 0,98
8 120 bis unter 130 0,02 1,00
Summe 1,00

Zusätzlich zum Histogramm will Paula auch die Summenhäufigkeit grafisch darstellen:
eine Summenkurve. Sie erstellt ein Koordinatensystem mit den Intervallen auf der x-
Achse und den relativen Summenhäufigkeiten Sj∗ auf der y-Achse. Dann setzt sie Punkte
mit den Koordinaten Klassenobergrenze und Summenhäufigkeit (xoj und Sj∗ ) in das Dia-
gramm. Sie setzt noch einen Punkt mit der ersten Klassenuntergrenze und der Häufigkeit
0, also (xu1 und 0). Dann verbindet sie alle Punkte geradlinig. Schließlich fügt sie links
von der kleinsten Intervalluntergrenze und rechts von der obersten Intervallgrenze einen
horizontalen Strich dazu. Fertig ist Abbildung 1.6 der Summenkurve.

Nun kann Paula auch noch weitere Verteilungsaussagen grafisch ermitteln. So wogen bei-
spielsweise ca. 10 % der Personen höchstens 65 kg. Wenn wir anhand von Abbildung 1.6
Verteilungsaussagen machen, können wir vereinfachend die Obergrenze auch statt „we-
niger als“ mit „höchstens“ angeben. Denn der Grafik sind die Unterscheidungen nicht
mehr zu entnehmen.

Ebenso kann auch die absolute Summenhäufigkeit Sj ermittelt werden. Hier werden für
die Erstellung statt der relativen die absoluten kumulierten Häufigkeiten verwendet. Alle
weiteren Verwendungen ergeben sich analog.
22 1 Deskriptive Statistik
Relative Summenhäufigkeit Sj

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

0,1

0
30 40 50 60 70 80 90 100 110 120 130 140 150

Gewicht x

Abb. 1.6: Gewicht (kg) von 100 ausgewählten Personen in Führungspositionen. Relative
Summenkurve mit den (xoj ; Sj )-Koordinaten.

Summenkurve

Die Summenkurve ist eine Grafik. Sie gibt bei einem klassierten Merkmal nähe-
rungsweise die Häufigkeit der Werte an, die kleiner oder gleich einer bestimmten
Zahl a sind.

Bei Verwendung der absoluten Häufigkeiten werden die Wertepaare (Obergren-


ze der Klasse j; Summenhäufigkeit Sj ) sowie das Paar (Untergrenze der ersten
Klasse; 0) geradlinig verbunden.
Bei Verwendung der relativen Häufigkeiten werden die Wertepaare (Obergren-
ze der Klasse j; Summenhäufigkeit Sj∗ ) sowie das Paar (Untergrenze der ersten
Klasse; 0) geradlinig verbunden.

Links von der ersten Untergrenze und rechts von der letzten Obergrenze verläuft
die Funktion horizontal. Die Häufigkeiten werden grafisch abgelesen.
1.3 Verteilung eines Merkmals 23

1.3.2 Genauere Informationen mithilfe der Urliste

Paula hat sich mithilfe der klassierten Häufigkeiten einen Überblick verschafft. Sie möch-
te die Daten eingehend untersuchen. Da die Klassierung immer einen Informationsverlust
bewirkt, will sie nun die Einzelwerte analysieren. Vor allem möchte sie die Verteilung gra-
fisch etwas genauer dargestellt haben. Sie wählt das sogenannte Punktediagramm (Abbil-
dung 1.7) oder, in der englischen Bezeichnungsweise, dotplot. Hier werden gleiche Werte
als Punkte gestapelt. Wir sehen beispielsweise, dass genau zwei Personen 60 kg wogen,
drei Personen wogen 92 kg. Diese Grafik bietet mehr Information als das Histogramm,
ist also vor allem für die Analyse der Daten geeignet. Das Histogramm dagegen wirkt
eleganter und wird meistens für Präsentationen verwendet.

40 50 60 70 80 90 100 110 120 130


Gewicht x

Abb. 1.7: Gewicht (in kg) von 100 ausgewählten Personen in Führungspositionen: Punkte-
diagramm.

Paula kennt noch eine weitere Methode, Daten aus einer Urliste grafisch aufzuberei-
ten. Sie ist sehr einfach. Paula kann damit sogar händisch Datenwerte in relativ kurzer
Zeit sortieren und grafisch aufbereiten. Wir helfen ihr und basteln ein Stamm-Blätter-
Diagramm (stem-and-leaf plot). Die Idee ist, die Daten als Baum aufzufassen: Der Stamm
baut sich aus den Zehnern auf. Von jedem Zehner geht ein Ast aus, an dem die Einer
hängen.

Bemerkung: Das Stamm-Blätter-Diagramm ist eine Methode der sogenannten explorati-


ven Datenanalyse. Diese wurde in den 1980er Jahren entwickelt. Es handelt sich dabei
um eine Sammlung von Verfahren, die sich durch Einfachheit in der Anwendung und Re-
sistenz auszeichnen. Resistenz bedeutet, dass unerwünschte Verteilungen von Daten die
Ergebnisse dieser Verfahren höchstens leicht beeinflussen. Als Folge der ungebrochenen
Anglophilie werden im wissenschaftlichen Kontext meistens die englischen Bezeichnun-
gen der Methoden übernommen. Im Deutschen haben sich noch keine allgemein gültigen
24 1 Deskriptive Statistik

Bezeichnungsweisen durchgesetzt. So finden sich für das Stamm-Blätter-Diagramm auch


die Namen Stamm-Blatt-Diagramm, Stengel-Blatt-Diagramm (natürlich auch in der Va-
riante „Stängel“) usw.

Beispiel 1.8 Intelligenzquotient von elf Kindern einer fünften Klasse


Für eine erste Demonstration verwenden wir ein kleines Beispiel. Die örtliche Schulbe-
hörde lässt untersuchen, inwieweit im Rahmen einer Gesamtschule Kinder des Gymna-
siums und der Hauptschule in einer fünften Klasse zusammengefasst werden können.
Dazu müssen die Kinder bestimmte Testaufgaben bearbeiten. Die erzielten Punkte
werden nun so umgerechnet, dass sie als eine Art Intelligenzquotient verwendet wer-
den können. Es ergaben sich für n = 11 Kinder die Werte

117 108 110 108 81 120 114 122 89 104 93.

Diese Werte wollen wir nun in das Stamm-Blätter-Diagramm eintragen. In Tabelle 1.14
sind die ersten Schritte erläutert. Wir schauen erst, welche Größenordnung die Zahlen
haben. Sie reichen von ca. 80 bis unter 130. Wir stapeln die Zehner 8 bis 12 auf und
erhalten den Stamm, von dem die Äste abgehen. Nun hängen wir die Blätter an die
Äste. Der erste Wert ist 117: Wir hängen das Blatt 7 an den Ast 11 des Baumstammes.
Der zweite Wert ist 108: Wir hängen das Blatt 8 an den Ast 10. Der dritte Wert ist 110:
Wir hängen das Blatt 0 an den Ast 11 usw.

Tab. 1.14: Erste Schritte zu einem Stamm-Blätter-Diagramm.


Stamm Ast 1. Wert: 117 2. Wert: 108
8 Ast mit Blättern 8 8
9 Ast mit Blättern 9 9
10 Ast mit Blättern 10 10 8
11 Ast mit Blättern 11 7 11 7
12 Ast mit Blättern 12 12

3. Wert: 110 4. Wert: 108 usw. . . . alle Werte


8 8 8 19
9 9 9 3
10 8 10 88 10 884
11 70 11 70 11 704
12 12 12 02

Nun wird das Stamm-Blätter-Diagramm vervollständigt. Wir ordnen die Blätter der
Größe nach. Schließlich fügen wir noch Angaben über die Zahl der Werte und die Einheit
der Blätter hinzu, und fertig ist das Stamm-Blätter-Diagramm (Tabelle 1.15). Nun tragen
1.3 Verteilung eines Merkmals 25

wir zusätzlich links vom Ast die Zahl der Blätter ein. Dann müssen wir sie nicht immer
zählen.

Wir sehen, dass wir in sehr kurzer Zeit diese elf Werte der Größe nach sortiert haben. Was
entnehmen wir der Grafik an Information? Kippt man sie um 90° im Gegenuhrzeigersinn,
sieht sie wie ein Balkendiagramm aus. Wir sehen, dass die meisten Kinder einen IQ von
mindestens 100 aufweisen.

Zurück zu Paula und zu Beispiel 1.7: Da hier viel mehr Werte vorliegen als im Beispiel mit
den IQ-Werten, lässt sie das Stamm-Blätter-Diagramm mithilfe von Minitab erstellen,
einem Softwarepaket zur Analyse von Daten. Sie erhält den (für unsere Zwecke etwas
geänderten) Output in Tabelle 1.16.

Tab. 1.15: Intelligenzquotient: Vollständiges Stamm-Blätter-Diagramm.


n = 11; Blatt-Einheit = 1
Zahl der Blätter Stamm Blätter
2 8 19
1 9 3
3 10 488
3 11 047
2 12 02

Tab. 1.16: Stamm-Blätter-Diagramm von Gewicht.


n = 100; Blatt-Einheit = 1
5 5 05788
8 6 00247889
25 7 0122334444566677788888999
38 8 00000222222223333333345555555666677888
14 9 00122233455778
4 10 0078
4 11 2399
2 12 05

Allerdings sind hier die Zeilen sehr lang und die Struktur der Daten wird nicht so recht
deutlich. Deshalb teilt sie den Stamm feiner auf. Ein Ast enthält die Blätter von 0 bis 4,
ein folgender die von 5 bis 9, wie wir Tabelle 1.17 entnehmen können. Paula erkennt nun,
dass die meisten Personen zwischen 70 und 90 kg wiegen. Sie findet, dass die Verteilung
etwas rechtsschief ist.
26 1 Deskriptive Statistik

Tab. 1.17: Stamm-Blätter-Diagramm von Gewicht mit Teilung des Stammes.


n = 100; Blatt-Einheit = 1
1 5 0
4 5 5788
4 6 0024
4 6 7889
10 7 0122334444
15 7 566677788888999
22 8 0000022222222333333334
16 8 5555555666677888
9 9 001222334
5 9 55778
2 10 00
2 10 78
2 11 23
2 11 99
1 12 0

Die Einteilung von Daten in Klassen ist nur sinnvoll, wenn auch genügend Datenmate-
rial zur Verfügung steht. Bei psychologischen Anwendungen hat man es aber häufig mit
wenigen Beobachtungen zu tun, denn das Menschenmaterial ist nicht beliebig vermehr-
bar. Auch hier wollen wir Verteilungsaussagen machen wie oben, aber wir verwenden die
Urliste.

Zuerst beginnen wir mit dem kleinen IQ-Beispiel 1.8. Für unsere Zwecke müssen die
Daten nach Größe sortiert werden:

81 89 93 104 108 108 110 114 117 120 122

Wir fragen nun: „Wie viele Kinder hatten einen IQ von höchstens a?“, wobei a eine belie-
bige Konstante ist. Wir beantworten diese Frage mit der sogenannten Summenfunktion
S(a), die die empirische Verteilung beschreibt. Beispiele wären etwa:

Wie viele Kinder hatten einen IQ von höchstens 104? 4 Kinder → S(104) = 4.
(Bitte anhand der Daten abzählen!)
Wie viele Kinder hatten einen IQ von höchstens 110? 7 Kinder → S(110) = 7.
Wie viele Kinder hatten einen IQ von höchstens 108? 6 Kinder → S(108) = 6.
Wie viele Kinder hatten einen IQ von höchstens 70? 0 Kinder → S(70) = 0.
Ebenso ist S(−10) = 0, S(80) = 0, S(80,99999) = 0 usw.
Es ist also S(a) = 0 für alle Werte von a < 81.
Wie viele Kinder hatten einen IQ von höchstens 81? 1 Kind → S(81) = 1.
1.3 Verteilung eines Merkmals 27

Ebenso ist S(82) = 1, S(88) = 1, S(88,99) = 1 usw.


Das heißt, S(a) = 1 für alle Werte von 81 ≤ a < 89.

Die Summenfunktion S(a) gibt folglich wieder, wie viele der Größe nach geordnete Werte
xi kleiner oder gleich a sind. Wir können diese Werte in einem Koordinatenssystem abtra-
gen (Abbildung 1.8). Die letzten beiden Summenfunktionswerte S(a) = 0 und S(a) = 1
verraten uns, dass wir es bei der Summenfunktion mit einer Treppenfunktion zu tun ha-
ben. Die Knötchen auf den Sprungstellen der Funktion bedeuten, dass der genaue x-Wert
an dieser Stelle zu der oberen Linie gehört. So ist etwa S(114) = 7 und nicht 6. Beachten
wir, dass bei 108 die Summenfunktion um 2 steigt, weil der Wert zweimal vorkommt.

12
Summenfunktion S(a)

11
Zahl der Kinder

10
9
8
7
6
5
4
3
2
1
0
60 70 80 90 100 110 120 130 140

IQ
Abb. 1.8: IQ von elf Schulkindern: Summenfunktion S(a).

Jetzt können wir anhand der Grafik bestimmte Verteilungsaussagen machen. Zum Bei-
spiel können wir die Antwort auf die Frage: „Wie viele Kinder hatten einen IQ von
höchstens 96?“ der Abbildung 1.8 entnehmen: S(96) = 3. Es hatten also drei Kinder
einen IQ von höchstens 96.

Summenfunktion der Urliste

Die absolute Summenfunktion S(a) gibt an, wie viele Objekte xi einer Urliste einen
Merkmalswert von höchstens a aufweisen.

Die relative Summenfunktion S ∗ (a) = S(a)


n zeigt den Anteil der Objekte.

Dabei ist a eine beliebige Konstante.


28 1 Deskriptive Statistik

Wir führen unser Beispiel 1.7 mit den Salutogenese-Daten fort. Paula möchte jetzt die
Summenfunktion der Werte grafisch darstellen. Sie verwendet das Statistikprogramm
Minitab und erhält Abbildung 1.9.
A nteil der P ersonen (% )

100

80

60

40

20

50 60 70 80 90 100 110 120 130


Gewicht x

Abb. 1.9: Relative Summenfunktion für Salutogenese.

Paula hat hier statt der absoluten Werte die prozentualen Anteile verwendet, weil sie
vermutet, dass diese interessanter für den „Konsumenten“ sind als die absoluten Zahlen.
Wir bezeichnen das als relative Summenfunktion S ∗ (a) = S(a)
n .

Hier ist bei n = 100 die Summenfunktion viel kleinteiliger als in Beispiel 1.8 und ähnelt
einer S-förmigen Kurve. Paula vermutet, dass die Verteilungsfunktion des Gewichts in
der Grundgesamtheit durch eine mathematische Funktion beschrieben werden kann.

1.3.3 Kleiner Exkurs

Normalverteilung Welche mathematische Funktion bzw. welche Verteilungsfunktion


könnte eine S-Kurve wie oben erzeugen? Die anerkannt prominenteste Verteilung, die
in einer Grundgesamtheit auftreten kann, ist die Normalverteilung, auch Gauß’sche Glo-
ckenkurve oder Gauß’sche Verteilung genannt.

Würden wir alle (unendlichen vielen) x-Werte, die in der Normalverteilung vorhan-
den sind, in feine Klassen einteilen, ergäbe sich in etwa ein Histogramm wie in Ab-
bildung 1.10 a. Die Verteilungsfunktion in Abbildung 1.10 b hat die typische S-Kurve.
Auffällig ist, dass die Form der „Glocke“ symmetrisch ist. Dies ist nur eine vieler wün-
schenswerter Eigenschaften, die die Normalverteilung besitzt, sodass sich der Statistiker
freut, wenn seine Daten normalverteilt sind.
1.3 Verteilung eines Merkmals 29

1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
a) b)

Abb. 1.10: Feines Histogramm und feine Summenfunktion von sehr vielen Werten einer
Normalverteilung.

Paula hat in ihre empirische Verteilungsfunktion eine Normalverteilungskurve gelegt (Ab-


bildung 1.11). Offensichtlich ist die empirische Funktion etwas stärker ausgebeult als die
Normalverteilung, was Paula aber nicht weiter beunruhigt, weil Stichprobenwerte meis-
tens etwas von der idealen Verteilung abweichen.
Anteil der Personen (%)

100

80

60

40

20

50 60 70 80 90 100 110 120 130


Gewicht x

Abb. 1.11: Summenfunktion von Gewicht mit eingepasster Normalverteilung.

Quantile: Bisher hatten wir bei einer Häufigkeitsverteilung gefragt, wie viel Prozent
der Daten höchstens gleich einem Wert x waren. So lag in Beispiel 1.7 der Anteil der
Personen mit höchstens 84 kg Körpergewicht bei 60 %, also S(84) = 0,6, wie man anhand
der sortierten Werte schnell nachprüft. Wir hatten also die Summenfunktion verwendet.
Nun interessieren wir uns beispielsweise aber auch für die Fragestellung: Welches Höchst-
gewicht hatten die 25 % leichtesten Personen, oder welches war das unterste Gewicht der
30 1 Deskriptive Statistik

10 % schwersten Personen? In diesem Fall ist der Anteil vorgegeben, der dazugehörige
x-Wert wird gesucht. Man nennt so einen Wert ein Quantil. Wenn wir den Anteil p nen-
nen, ist der dazugehörige x-Wert das p-Quantil: x(p). Analog zu oben wäre x(0,6) = 84,
das heißt, die 60 % leichtesten Personen wogen höchstens 84 kg.

Auch wenn aus didaktischen Gründen im Folgenden eher Beispiele für kleines n gezeigt
werden, beweisen die Quantile ihren Nutzen erst richtig bei großen Datenmengen, die
nicht mehr auf den ersten Blick erfassbar sind.

Median: Um das Prinzip des Quantils zu verstehen, wollen wir erst mit dem einfachsten
Quantil, dem Median, beginnen. Der Median wird auch Zentralwert genannt, deshalb
bezeichnen wir ihn als z. Sind die Beobachtungswerte der Größe nach geordnet, wie in
der Fortführung des IQ-Beispiels 1.8, liegt der Median im Zentrum der Daten. Der Median
teilt also die Daten in zwei gleichgroße Hälften. Er ist das 50 %-Quantil: z = x(0,5).

Im IQ-Beispiel 1.8 ist der Median der 6. Wert (Tabelle 1.18). Wir können also sagen: Die
50 % kleinsten Werte betragen höchstens 108. Ebenso betragen die 50 % größten Werte
mindestens 108.

Tab. 1.18: Median der IQ-Daten.

i 1 2 3 4 5 6 7 8 9 10 11
xi (geordnet) 81 89 93 104 108 108 110 114 117 120 122

z

Im IQ-Beispiel 1.8 ist n ungeradzahlig, und der Median liegt genau auf einem Wert. Wie
gehen wir aber nun vor, wenn n geradzahlig ist? Nehmen wir uns die Daten von Lenes
Bachelorarbeit im Beispiel 1.6 vor. Sie hatte bei acht übergewichtigen Patienten in einer
Reha-Klinik den Body-Mass-Index (BMI) erfragt. In Tabelle 1.19 sind die geordneten
Daten aufgeführt. Hier fällt der Median in die Lücke zwischen zwei Werten. Wir nehmen
einfach den Durchschnitt der beiden Werte in der Mitte, also
35,51 + 36,33
z= = 35,92.
2
Analog zu oben können wir wieder sagen: Die 50 % kleinsten Werte betragen höchstens
35,92. Ebenso betragen die 50 % größten Werte mindestens 35,92.

Tab. 1.19: Median der BMI-Werte.

i 1 2 3 4 5 6 7 8
xi (geordnet) 34,89 35,38 35,43 35,51 z 36,33 37,98 39,18 40,76
1.3 Verteilung eines Merkmals 31

Median z

Die Beobachtungswerte xi liegen der Größe nach geordnet vor.


n+1
Wenn n ungerade ist, liegt der Median genau auf dem 2 ten x-Wert:

n+1
z= ter Wert.
2

Wenn n gerade ist, liegt der Median zwischen dem n2 ten Wert und dem ( n2 + 1) ten
Wert. Wir nehmen einfach die Mitte zwischen den beiden x-Werten:
n
2 ter Wert + ( n2 + 1) ter Wert
z= .
2

11+1
In Beispiel 1.8 liegt also der Median auf dem n+1
2 ten = 2 ten = 6. Wert. In Beispiel 1.6
n n
liegt der Median zwischen dem 2 ten und ( 2 + 1) ten, also zwischen dem 4. und 5. Wert.

Nun wollen wir die Salutogenese-Daten des Beispiels 1.7 untersuchen. Für die Ermittlung
des Medians müssen die Gewichte der Größe nach geordnet sein, was Paula schon in
Tabelle 1.9 erledigt hat. Der Median liegt hier (n = 100) zwischen dem 50. und 51. Wert,
also
(82 + 82)
z= = 82.
2

Quartile: Neben dem Median kommt den Quartilen die größte Bedeutung zur Beschrei-
bung der Verteilung zu. Schon der Name Quartil deutet auf Viertel hin: Teilt nämlich
der Median die geordneten Daten in zwei gleiche Teile, zerlegen die Quartile die Daten
in vier gleiche Teile (Tabelle 1.20). Daher gibt es drei Quartile – das erste Quartil Q1 ,
das zweite Q2 und das dritte Q3 . Das zweite ist natürlich der Median.

Das erste und dritte Quartil begrenzen die 50 % der geordneten Werte, die in der Mitte
der Daten liegen. Diese Information kann wertvoll für die Beurteilung der Streubreite
von Datenwerten sein.

Für die Ermittlung von Quartilen findet man in der Literatur ein Fülle von Vorschriften,
je nach gewünschtem Genauigkeitsgrad. Einigermaßen einfach ist unsere Vorgehensweise.

Tab. 1.20: Lage der Quartile auf den Daten.


50% der Daten z 50% der Daten
25% 25% 25% 25%
der Daten Q1 der Daten Q2 der Daten Q3 der Daten
32 1 Deskriptive Statistik

Rechenregeln für die Ermittlung der Quartile

Erstes Quartil Q1 : Bei n geordneten Beobachtungswerten endet das erste Viertel


auf dem n4 ten Wert. Wir gehen so vor:
Ist n4 eine ganze Zahl G, liegt das erste Quartil zwischen dem G ten und (G +
1) ten Beobachtungswert. Wir nehmen also das arithmetische Mittel zwischen
diesen beiden Werten.
Ist n4 eine Bruchzahl, wird der Bruch auf die nächste ganze Zahl G aufgerundet.
Das Quartil liegt dann auf dem G ten Beobachtungswert.
Zweites Quartil Q2 : Das ist unser Median z.
Drittes Quartil Q3 : Bei n geordneten Beobachtungswerten endet das dritte Viertel
auf dem 34 n · ten Wert. Wir gehen so vor:
Ist 34 · n eine ganze Zahl G, liegt das erste Quartil zwischen dem G ten und (G +
1) ten Beobachtungswert. Wir nehmen also das arithmetische Mittel zwischen
diesen beiden Werten.
Ist 34 · n eine Bruchzahl, wird der Bruch auf die nächste ganze Zahl G aufge-
rundet. Das Quartil liegt dann auf dem G ten Beobachtungswert.

Beispiel 1.9 n = 12 Beobachtungswerte.


Uns liegen in Tabelle 1.21 zwölf Datenwerte vor.

Tab. 1.21: Quartile bei n = 12.

i 1 2 3 4 5 6 7 8 9 10 11 12
xi 11,8 12,3 13,6 13,7 15 16,5 17,1 17,2 17,4 17,6 17,7 18,8

Wir berechnen die Quartile folgendermaßen:


n 12
1. Quartil: 4 = 4 = 3, also G = 3. Q1 liegt zwischen dem 3. und 4. Wert:

13,6 + 13,7
Q1 = = 13,65.
2

2. Quartil: Median z = 16,5 +2


17,1
= 16,8.
3
3. Quartil: 4 · n = 9, also G = 9. Q3 liegt zwischen dem 9. und 10. Wert:

17,4 + 17,6
Q3 = = 17,5.
2

Beispiel 1.10 n = 13 Beobachtungswerte.


Uns liegen in Tabelle 1.22 13 Datenwerte vor.
1.3 Verteilung eines Merkmals 33

Tab. 1.22: Quartile bei n = 13.

i 1 2 3 4 5 6 7 8 9 10 11 12 13
xi 11,8 12,3 13,6 13,7 15 16,5 17,1 17,2 17,4 17,6 17,7 18,8 19,1

Wir berechnen die Quartile folgendermaßen:


n 13
1. Quartil: 4 = 4 = 3,25, also G = 4. Q1 liegt auf dem G-ten = 4. Wert:

Q1 = 13,7.

2. Quartil: Median z = 17,1.


3. Quartil: 34 · n = 9,75, also G = 10. Q3 liegt auf dem G-ten = 10. Wert:

Q3 = 17,6.

Wir sehen, dass mit dieser Vorgehensweise die Aufteilung immer gleichmäßig ist.

Weitere Quantile: Spezielle Quantile neben Median und Quartilen sind Quintile, die
die Daten in fünf gleich große Teile zerlegen, Dezentile, die die Daten in zehn gleich große
Teile zerlegen, und Perzentile, die die Daten in 100 gleich große Teile zerlegen. Da diese
Quantile seltener verwendet werden als die drei Quartile, sehen wir von einer genaueren
Erläuterung ab. Ihre Ermittlung funktioniert im Prinzip genauso wie bei den Quartilen.

Liegen die Daten nur in klassierter Form vor, können wir die Quantile auch näherungs-
weise anhand der relativen Summenkurve ermitteln. Hier suchen wir auf der y-Achse
(auch Ordinate genannt) den Anteil p. Der entsprechende Wert auf der x-Achse (auch
Abszisse genannt) der Summenkurve gibt das Quantil an.

1.3.4 Verteilung eines Merkmals, dessen Daten in


Häufigkeitstabellen eingeteilt werden können

Die etwas linkische Überschrift heißt statistisch-formal: Verteilung eines Merkmals mit
wenigen unterschiedlichen Ausprägungen. Man nennt so eine Variable häufbar. Oben
hatten wir mit Daten zu tun, die sehr unterschiedlich waren. Vor allem die grafische Dar-
stellung ihrer Verteilung war nicht so recht begeisternd, Punktediagramm und Stamm-
Blätter-Diagramm waren das einzige Angebot. Erst die Einteilung der Daten in Klassen
erlaubte die Darstellung als Histogramm. Wir haben also schon oben Daten in Häu-
figkeitstabellen eingeteilt. Häufbare Variablen können nominal-, ordinal- und metrisch
diskret skaliert sein. In Abschnitt 1.2.3 finden wir die Definition der Skalenniveaus.
34 1 Deskriptive Statistik

Bemerkung: Die häufbaren Merkmale mit ihren besonderen Eigenschaften werden in der
Literatur, insbesondere der englischsprachigen, oftmals als kategorial – im Gegensatz zu
numerisch – eingeteilt. Diese Einteilung ist unglücklich, denn es gibt auch numerische,
also metrische Variablen, die häufbar sind.

Beispiel 1.11 Kundenzufriedenheit mit einer Sparkassenfiliale


Bert ist beauftragt worden, in einer Stadt die Zufriedenheit von Kunden mit der ört-
lichen Sparkasse zu erheben. Unter anderem wurde gefragt, ob sich ein Kunde für
Anlageberatung den Kundenberater oder einen Spezialisten wünscht. Dabei waren kei-
ne Mehrfachnennungen vorgesehen. Es ergaben sich die in Tabelle 1.23 dargestellten
Ergebnisse.

Tab. 1.23: Kundenzufriedenheit mit einer Sparkassenfiliale: Beratung bei Vermögensfragen


(absolute Häufigkeiten). „Durch wen wünschen Sie bei der Vermögensanlage beraten zu
werden?“

Beratung durch Zahl der Kunden


Kundenberater 403
Spezialist 275
beide zusammen 121
egal, welcher 104
Summe 903

Die Variable x, die die Antwort auf „Durch wen wünschen Sie bei der Vermögensanlage
beraten zu werden?“ enthält, ist nominalskaliert, denn die möglichen Antwortkategorien
können nicht geordnet werden. Wir nummerieren die Kategorien mit j durch. Wie oben
bei den klassierten Häufigkeiten nennen wir die Häufigkeiten dann wieder nj . Bert findet,
dass Prozente besser verständlich sind, und fügt in Tabelle 1.24 noch die Anteile als die
relativen Häufigkeiten pj bei:
nj
pj = . (1.3)
n
Damit das Ganze besser lesbar ist, wandelt Bert die Anteile in Prozent um mit pj · 100 %.
Bert erkennt nun sofort, dass fast die Hälfte der Kunden mit dem Kundenberater zufrie-
den ist und dass nur etwa 30 % einen Spezialisten wünschen.

Für die grafische Darstellung wählt Bert das Säulendiagramm in Abbildung 1.12, bei
dem die Höhe der Säule den Anteil darstellt.

Für kategoriale Variablen gibt es neben dem Säulendiagramm noch andere Möglichkei-
ten, die Daten aussagekräftig wiederzugeben. Häufig verwendet wird das Kreisdiagramm,
etwas anschaulicher auch Tortendiagramm genannt (Abbildung 1.13). Hier geben die
Flächen der Tortenstücke die Häufigkeit an. Früher musste der Anwender mithilfe des
1.3 Verteilung eines Merkmals 35

Winkelmessers die Größe der Tortenstücke selbst errechnen, heute nehmen ihm gängige
Programme wie beispielsweise eine Tabellenkalkulation diese Arbeit ab.









  












     
 

Abb. 1.12: Kundenzufriedenheit mit einer Sparkassenfiliale. Frage: „Durch wen wünschen
Sie bei der Vermögensanlage beraten zu werden?“

Egal, welcher
12%

Beide zusammen
13%

Kundenberater
45%

Spezialist
30%

Abb. 1.13: Kundenzufriedenheit mit einer Sparkassenfiliale. Frage: „Durch wen wünschen
Sie bei der Vermögensanlage beraten zu werden?“

Für ordinal skalierte Variable gelten obige Überlegungen gleichermaßen. Bert hat nun
noch die Zufriedenheit der Kunden mit den Beratungsleistungen abgefragt. Hier erhielt
er die Verteilungstabelle 1.25 mit den absoluten und prozentualen Häufigkeiten. Wir
bemerken, dass die Gesamtzahl der Antworten hier von den Antworten in Tabelle 1.24
36 1 Deskriptive Statistik

abweicht. Das liegt daran, dass nicht alle Befragten auf alle Fragen geantwortet haben.
Bert erhält hier das Säulendiagramm in Abbildung 1.14.

Tab. 1.24: Kundenzufriedenheit mit einer Sparkassenfiliale: Beratung bei Vermögensfragen


(absolute und relative Häufigkeiten (in %)). „Durch wen wünschen Sie bei der Vermögens-
anlage beraten zu werden?“

Kategorie Beratung durch Zahl der Kunden prozentualer Anteil der Kunden
j xj nj pj · 100 %
1 Kundenberater 403 44,6
2 Spezialist 275 30,5
3 beide zusammen 121 13,4
4 egal, welcher 104 11,5
Summe 903 100,0

Tab. 1.25: Kundenzufriedenheit mit einer Sparkassenfiliale. „Wie zufrieden sind Sie mit den
Beratungsleistungen?“

Schulnote Zahl der Kunden prozentualer Anteil


1 291 22,1
2 651 49,4
3 270 20,5
4 68 5,2
5 30 2,3
6 9 0,7
Summe 1319 100,0

60
Prozent der Antworten

50

40

30

20

10

0
1 2 3 4 5 6

Schulnote für Zufriedenheit


Abb. 1.14: Wie zufrieden sind Sie mit den Beratungsleistungen?
1.3 Verteilung eines Merkmals 37

Beispiel 1.12 Salutogenese: Zahl der Kinder


Wir beziehen uns wieder auf die Salutogenese-Untersuchung in Beispiel 1.7. Für die
Analyse der familiären Situation hat Paula bei den Führungskräften die Zahl der leib-
lichen Kinder abgefragt. Dabei haben wir es mit einem metrisch skalierten häufbaren
Merkmal zu tun. Paula erhielt die Ergebnisse in Tabelle 1.26. Sie verwendet für ei-
ne grafische Veranschaulichung in Abbildung 1.15 ebenfalls das Säulendiagramm. Die
Säulen sind mittig über den Ausprägungen der Variable Kinderzahl angeordnet.

Tab. 1.26: Salutogenese: Kinderzahl von 100 ausgewählten Personen in Führungspositionen.

Zahl der leib- Zahl der prozentualer Anteil


lichen Kinder Befragten der Befragten
1 36 37,1
2 15 15,5
3 34 35,1
4 10 10,3
5 2 2,1
Summe 97 100,0

40
Zahl der Befragten

35

30

25

20

15

10

0
0 1 2 3 4 5
Zahl der leiblichen Kinder

Abb. 1.15: Salutogenese: Kinderzahl von 100 ausgewählten Personen in Führungspositionen.

Wir sehen, dass nur 97 der 100 Befragten geantwortet haben. Auffällig ist, dass jeweils
über ein Drittel der Befragten entweder ein Kind oder drei Kinder hatten. Erstaunlicher-
weise gab niemand Kinderlosigkeit an.

Bemerkung: Im wissenschaftlichen Bereich gebraucht man häufig das Stabdiagramm, bei


dem statt der Säule ein senkrechter Strich verwendet wird. Gründe sind zum einen, dass
38 1 Deskriptive Statistik

ja die Ausprägung nur genau die ganzzahligen Werte annehmen kann, und zum anderen,
dass sich ein Strich schneller zeichnet als eine Säule.

1.4 Lagemaße – Die Lage der Daten ist selten


hoffnungslos
Fragt man Studierende, wie sie vorliegende Daten auswerten würden, antworten sie:
„Ersma den Mittelwert.“ Was uns also am meisten interessiert, ist die Größenordung der
Daten, ihr Zentrum. Wir brauchen eine Maßzahl für die „Mitte“ der Daten. So einen
Wert nennen wir Lagemaß oder Maß der zentralen Tendenz.

Mit dem oben genannten Mittelwert meinen wir in der Regel das arithmetische Mittel,
auch als Durchschnittswert bekannt. Es gibt nämlich noch andere Lagemaße, die gelegent-
lich auch als Mittelwert bezeichnet werden, denn die Definition von Mittelwert ist streng
genommen weiter gefasst. In diesem Buch soll aber mit Mittelwert das arithmetische
Mittel gemeint sein.

1.4.1 Arithmetisches Mittel

Beispiel 1.13 IQ-Werte von elf Schulkindern: Arithmetisches Mittel


Wir nehmen als Beispiel die IQ-Daten aus Beispiel 1.8, also die Testergebnisse der
Viertklässler. Wie sieht es mit dem durchschnittlichen Testergebnis aus? Wie berech-
nen wir den arithmetischen Durchschnitt? So etwas kann jeder, auch jemand mit
Statistikphobie.

Wir addieren die einzelnen Datenwerte und teilen durch die Anzahl der Werte:
81 + 89 + · · · + 122 1166
arithmetisches Mittel = = = 106.
11 11
Als Symbol für den Mittelwert verwenden wir x (ausgesprochen: „x quer“). Aus der
obigen Berechnung können wir die Formel herleiten: die xi -Werte aufsummieren und
durch n teilen.

Arithmetisches Mittel

Das arithmetische Mittel wird berechnet als


1
n
x1 + x2 + · · · + xn
x= = xi . (1.4)
n n
i=1
Es sollte nur bei metrisch skalierten Daten verwendet werden.
1.4 Lagemaße 39

Für das Salutogenese-Beispiel 1.7 ergab sich das arithmetische Mittel als
50 + 55 + · · · + 120 + 125 8297
= = 82,97.
100 100
Bei einer Vielzahl von statistischen Methoden muss man von den Datenwerten xi (i =
1, 2, . . . , n) das arithmetische Mittel x subtrahieren. Das Ergebnis ci = xi − x so eines
Datenwertes nennen wir einen zentrierten Wert. Die Summe der ci und damit deren
arithmetisches Mittel c ist null. Mithilfe dieser Eigenschaft können wir schnell kontrollie-
ren, ob wir Datenwerte korrekt zentriert haben (falls wir es von Hand machen mussten).

1.4.2 Median

Das Lagemaß Median haben wir schon auf Seite 30 kennengelernt. Die Bezeichnung
Zentralwert weist auf die Rolle des Medians hin.

Zur Erinnerung: Aus dem Salutogenese-Beispiel 1.7 ergab sich auf Seite 31 z = 82. Wir
sehen, dass z hier eine ähnliche Größenordnung wie x hat.

Im Gegensatz zum arithmetischen Mittel kann der Median auch bei ordinal skalier-
ten Variablen verwendet werden.

1.4.3 Modus

Der Modus ist das einfachste und auch anspruchsloseste Lagemaß. Es gibt bei Daten, die
in Häufigkeitstabellen vorliegen, den x-Wert an, wo die Häufigkeit maximal wird, also in
einfachen Worten, wo die Säule am höchsten ist.

Sehen wir uns das Evaluationsbeispiel 1.3 an. Die Behauptung lautete: „Der vermittel-
te Vorlesungsstoff war gut verständlich.“ Wir konnten die Antworten in Abbildung 1.1
zusammenfassen. Die meisten Studierenden kreuzten 3, also „stimme eher nicht zu“ an.
Damit hat die Variable „Der vermittelte Vorlesungsstoff war gut verständlich“ den Modus
bei 3.

Im Histogramm in Abbildung 1.4 des Salutogenese-Beispiels 1.7 sehen wir, dass der Mo-
dus auf dem Intervall 80–90 liegt, also könnten wir sagen, der Modus ist etwa bei 85 kg.
40 1 Deskriptive Statistik

Modus

Der Modus gibt den Wert x an, der zur größten Häufigkeit von Beobachtungswerten
gehört. Da der Modus einfach gestrickt ist, kann er für alle Skalenniveaus verwendet
werden, auch für nominale.

1.4.4 Warum der Median, wenn man den Mittelwert haben kann?

Erfahrungsgemäß freuen sich die meisten Studierenden, wenn sie bei metrisch skalierten
Daten einen Durchschnitt errechnen, und sie fragen sich, wozu dann der Median eigentlich
gut sein soll. Abgesehen davon, dass Werte im Zentrum der Daten generell informativ
sein können, schauen wir uns folgendes kleines konstruiertes Beispiel an.

Beispiel 1.14 Von fünf Patienten verzehrte Schokoriegel


Im Rahmen einer Suchttherapie nahmen fünf Patienten an einer Sitzung teil, wo auch
ein Teller mit Schokoriegeln auf dem Tisch stand. Die einzelnen Teilnehmer verzehrten
folgende Riegel:

1 1 1 2 15

Das arithmetische Mittel als Zahl der verspeisten Riegel pro Person errechnet sich als
1 + 1 + 1 + 2 + 15 20
= = 4.
5 5
In der Dokumentation des Sitzungsverlaufs wird erwartungsgemäß berichtet, dass im
Durchschnitt jeder Patient vier Schokoriegel verzehrt hat. Vergleichen wir das mit den
Daten, sollte uns auffallen, dass der Durchschnitt die Gesamtheit verzerrt darstellt, denn
es wird suggeriert, dass die Patienten ziemlich viel genascht haben. Dabei waren alle
Patienten bis auf einen brav. Schuld an diesem zweifelhaften Ergebnis ist Patient 5, der
15 Schokoriegel verputzte und so den Durchschnitt „versaut“ hat. Der Wert 15 stellt hier
einen sogenannten Ausreißer in den Daten dar, also einen Datenwert, der sehr weit vom
Rest der Daten entfernt ist.

Dieses Beispiel zeigt, dass das arithmetische Mittel sehr stark auf Ausreißer in den Daten
reagiert. Wir können der obigen Formel entnehmen, dass der Wert 15 in der Summe
der Beobachtungswerte 75 % ausmacht. 75 % des Mittelwertes sind also diesem Wert 15
zuzuschreiben.

Was tun? Wir könnten alternativ den Median zur Beschreibung der Daten verwenden.
Er liegt hier auf dem 3. Wert und wäre also z = 1, was zwar auch nicht ideal ist, aber
immer noch besser als 4.
1.5 Streuungsmaße 41

Warum der Median, wenn man den Mittelwert haben kann?

Vorteil des Mittelwertes ist, dass jede Information in die Berechnung eingeht, der
Nachteil ist, dass er extrem ausreißersensibel ist.

Vorteil des Medians ist, dass er resistent gegenüber Ausreißern ist, dagegen geht hier
nur ein Wert in die Berechnung ein, was wiederum unbefriedigend ist.

Bei einer Analyse von Daten sollten immer beide Kennwerte ermittelt werden. Wei-
chen sie deutlich voneinander ab, gibt es möglicherweise Ausreißer in den Daten.

Es gibt allerdings noch etliche weitere resistente Lageparameter, beispielsweise das ge-
trimmte Mittel xα . Hier wird ein bestimmter Prozentsatz α der kleinsten wie auch größten
Beobachtungswerte gestrichen. In unserem kleinen Beispiel 1.14 ist das Agieren mit Pro-
zenten nicht sinnvoll – wir streichen einfach den kleinsten und größten Wert. Mit den
reduzierten Daten ergibt sich das getrimmte Mittel als
1+1+2 4
= = 1,33.
3 3
Dieser Wert ist ein guter Kompromiss zwischen Mittelwert und Median.

Nun wollen wir ein 5 %-getrimmtes Mittel aus den Salutogenese-Daten in Tabelle 1.8
errechnen, das heißt, wir entfernen jeweils die 5 % kleinsten und 5 % größten Werte und
berechnen mit den verbliebenen 90 % das arithmetische Mittel:
60 + 60 + · · · + 108 + 112
xα = x5 = = 82,48.
90
Dieser Wert unterscheidet sich nur unwesentlich von x = 82,97, was allerdings nicht
verwunderlich ist, denn die Daten hatten so gut wie keine Ausreißer.

1.5 Streuungsmaße – Mit Schrot trifft man immer

Analysieren wir Daten, wollen wir Angaben über die Lage der Daten. Aber auch die
Variationsbreite interessiert uns. Liegen die Daten nahe am Mittelwert? Sind sie breit
gestreut? Enthalten sie möglicherweise Ausreißer? Wir nennen so einen Kennwert Streu-
ungsmaß oder Dispersionsmaß.

Beispiel 1.15 Kriminalität in US-Bundesstaaten


Karin fasst für eine Seminararbeit Kriminalitätsdaten des Jahres 2003 von US-Bun-
desstaaten zusammen. Sie ermittelt für jeden Bundesstaat eine Kriminalitätsrate als
Zahl der Gewaltverbrechen auf 100 000 Einwohner. Zunächst ermittelt sie die durch-
schnittliche Verbrechensrate pro Bundesstaat als 424. Sie möchte nun ermitteln, ob
42 1 Deskriptive Statistik

sich die Kriminalitätsraten in den Nordstaaten von denen der Südstaaten unterschei-
den. Sie berechnet den Durchschnitt pro Nordstaat als ca. 384 und pro Südstaat als ca.
512. Die Ergebnisse deuten für sie darauf hin, dass die Kriminalität in den Südstaaten
deutlich ausgeprägter ist als in den Nordstaaten. Nun ermittelt sie noch ein Maß für
die Streuung, die Standardabweichung. Für den Nordstaat erhält sie etwa 257 und für
den Südstaat etwa 177. Es stellt sich also jetzt für sie so dar, dass die Verbrechens-
zahlen in den Nordstaaten stärker schwanken als in den Südstaaten. Und in der Tat
liegen die Zahlen bei den Nordstaaten zwischen 78 und 1 608 und bei den Südstaaten
zwischen 258 und 794. Es treten also bei den Nordstaaten wesentlich höhere Zahlen
auf, die offenbar aufgrund der Durchschnittsbildung „unter den Tisch fallen“.

1.5.1 Varianz und Standardabweichung

Die Varianz wird allgemein als klassisches Streuungsmaß angesehen und damit am häu-
figsten verwendet. Sie ist der durchschnittliche quadratische Abstand der einzelnen Be-
obachtungswerte vom Mittelwert. Um sie von der Varianz einer Grundgesamtheit zu
unterscheiden, nennen wir sie Stichprobenvarianz oder auch inferenzielle Varianz.

Beispiel 1.16 Matrizentest


Berta schreibt ihre Masterarbeit. Es geht darin um die Problemlösungsfähigkeit von
Zwölfjährigen. Berta legt fünf Kindern Matrizentests zur Lösung vor. Die Bearbei-
tungszeit der Kinder beträgt

14 20 18 16 27 min.

Für den Vergleich mit den Zeiten anderer Gruppen braucht Berta die Varianz.

Berta ermittelt zuerst den Mittelwert:


14 + 20 + 18 + 16 + 27 95
x= = = 19.
5 5
Nun zentriert sie die Datenwerte (siehe Seite 39): Sie bildet die Abstände der Beoba-
chungswerte vom Mittelwert:

14 − 19 = −5; 20 − 19 = 1; 18 − 19 = −1; 16 − 19 = −3; 27 − 19 = 8.

Sie quadriert die Abstände

−52 = 25; 12 = 1; −12 = 1; −32 = 9; 82 = 64,

und summiert auf:

25 + 1 + 1 + 9 + 64 = 100.
1.5 Streuungsmaße 43

Nun bildet sie die mittlere Quadratsumme: Sie teilt aber nicht durch 5, sondern durch
4. Das muss sie machen, wenn sie mit der Varianz dieser Stichprobe die Varianz der
Grundgesamtheit schätzen will. Man nennt diese Schätzung erwartungstreu. Sie erhält
die sogenannte Stichprobenvarianz (Einheit: min2 !):

s2 = 100/4 = 25.

Varianz der Stichprobe

Die Stichprobenvarianz ist die mittlere quadratische Abweichung der Einzelwerte


vom arithmetischen Mittel x. Ihre Formel ist

1 
n
(x1 − x)2 + (x2 − x)2 + . . . + (xn − x)2
s2 = = (xi − x)2 . (1.5)
n−1 n−1
i=1

Die Wurzel aus der Varianz ist die Standardabweichung s.

Bemerkung: Das Dividieren durch (n − 1) mag seltsam anmuten. Und es gibt in der Tat
auch eine Variante, bei der die Quadratsumme durch n geteilt wird:

1
n
s2deskriptiv = (xi − x)2 .
n
i=1

Man bezeichnet sie als deskriptive oder empirische Varianz. Sie kann verwendet werden,
wenn die Daten lediglich beschrieben werden sollen, aber keine Rückschlüsse auf die
Grundgesamtheit beabsichtigt sind. Wir wollen sie aber hier nicht weiter gebrauchen,
denn wir kommen auch ohne sie gut klar.

Kann man einem Mittelwert ohne Weiteres die enthaltene Information entnehmen, gelingt
das bei der Varianz nur Geübten. So kann Berta nicht sofort sagen, ob 25 eine hohe oder
niedrige Streuung bedeutet. Die Varianz kann nämlich beliebig groß werden. Zudem ist
die Einheit Quadratminuten, was eine Deutung noch weiter erschwert. Aber Berta kann
die Wurzel aus s2 ziehen. Sie erhält die Standardabweichung

s= 25 = 5.

Die Standardabweichung hat nun die Einheit Minuten, und man könnte – allerdings
mathematisch nicht ganz korrekt – sagen: „Die durchschnittliche Abweichung der Bear-
beitungszeiten von der mittleren Bearbeitungszeit beträgt etwa 5 Minuten.“ Oder auch:
„Im Intervall x ± s = 19 ± 5 liegen die meisten Beobachtungswerte.“
44 1 Deskriptive Statistik

Beispiel 1.17 Intelligenzquotient von elf Kindern einer vierten Klasse:


Varianz der IQ-Werte
Wir wollen nun die Varianz der IQ-Werte aus Beispiel 1.8 ermitteln. Für die händi-
sche Berechnung verwenden wir am besten Tabelle 1.27. Wir erinnern uns, dass das
arithmetische Mittel x = 1166
11 = 106 war.

Tab. 1.27: IQ-Daten: Varianztabelle.

i xi xi − x (xi − x)2
1 81 −25 625
2 89 −17 289
3 93 −13 169
4 104 −2 4
5 108 2 4
6 108 2 4
7 110 4 16
8 114 8 64
9 117 11 121
10 120 14 196
11 122 16 256
Summe 1 166 0 1 748

Wir erhalten schließlich als Quadratsumme der Abweichungen 1 748 und teilen wieder
durch 10 statt durch 11, sodass wir die Varianz erhalten

s2 = 1748/10 = 174,8.

Die Standardabweichung ist dann



s = 174,8 = 13,22.

Beispiel 1.18 Salutogenese: Varianz des Gewichts


Wir betrachten nun unser Salutogenese-Beispiel 1.7: Bei einem arithmetischen Mittel
von 82,97 ergaben sich die Varianz s2 = 194,27 und die Standardabweichung s = 13,94.
Die durchschnittliche Abweichung der einzelnen Gewichte vom Durchschnitt beläuft
sich also auf ca. 14 kg.

Bisher rechnete sich die Varianz quasi von selbst, weil beim Zentrieren wunderbar glatte
Zahlen resultierten. Wenn jedoch schon der Mittelwert nicht ganzzahlig ist, kann die
händische Berechnung der Varianz ausgesprochen nervtötend wirken. Man kann aller-
dings mithilfe des sogenannten Verschiebungssatzes auch in solchen negativ anmutenden
Fällen die Varianz einigermaßen einfach berechnen.
1.5 Streuungsmaße 45

1
Die Varianzformel s2 (Formel 1.5) setzt sich aus den Komponenten n−1 und
n 2
i=1 (xi − x) zusammen. Letztere kann mathematisch mithilfe des Verschiebungssatzes
umgeformt werden. Es gilt nämlich

n n
(xi − x)2 = ( x2i ) − n · x2 . (1.6)
i=1 i=1

Formel für die Varianz mit dem Verschiebungssatz

Mit dem Verschiebungssatz erhalten wir die Varianz als



n
2 ( x2i ) − n · x2
2 x21 + x22 + ... + x2n −n·x i=1
s = = . (1.7)
n−1 n−1

Diese Formel ist mathematisch äquivalent zu Formel 1.5. Es ist also gleichgültig, welche
Formel gewählt wird – beide führen zum selben Ergebnis.

Beispiel 1.19 Matrizentest


Berta rechnet uns nun zu Übungszwecken die Varianz für Beispiel 1.16 mithilfe des
Verschiebungssatzes vor. Die Daten waren

14 20 18 16 27.

Sie summiert die Quadrate der Einzelwerte:



n
x2i = 142 + 202 + 182 + 162 + 272 = 196 + 200 + 324 + 256 + 729 = 1905
i=1

und berechnet
n
( x2i ) − n · x2 = 1905 − 5 · 192 = 100.
i=1

Sie teilt wieder durch 4 und erhält nun die Varianz wie oben als
100
s2 = = 25.
4
Die Varianz hat viele wahrscheinlichkeitstheoretische Vorzüge, sodass sie als klassischer
Streuungsparameter gilt.

In der praktischen Verwendung ist die Varianz beispielsweise ein Maß für das Risiko
in der Investitionsrechnung, insbesondere bei finanziellen Anlageformen. Hier wird die
Streubreite des Anlagegewinns als Risiko interpretiert. So wird die Streuung möglicher
Erträge bei Sparbüchern eher gering sein, also ist auch das Risiko eines Verlusts gering.
46 1 Deskriptive Statistik

Anders sieht es bei Erträgen von Aktien aus. Hier können große Gewinne, aber erhebliche
Verluste auftreten. Die Varianz der Erträge ist hier sehr groß, also auch das Risiko einer
solchen Anlage.

In der Informationstheorie ist die Varianz ein Maß für den Informationsgehalt einer ko-
dierten Botschaft. Auch in der Statistik wird die Varianz als Kennwert für die Menge an
Information verwendet, die in den Daten steckt.

Die Standardabweichung liefert Erkenntnisse über die Verteilung der Daten. Wir haben
bereits auf Seite 28 kurz die Normalverteilung kennengelernt. Entstammen Daten einer
Normalverteilung, liegen ca. 2/3 aller mittleren Beobachtungen in einem Intervall mit
der Breite zweier Standardabweichungen. Ca. 95 % aller mittleren Beobachtungen liegen
in einem Intervall der Breite von vier Standardabweichungen. Also liegen 5 % der Be-
obachtungen außerhalb dieses Intervalls. Ergibt sich in einer Stichprobe eine ähnliche
Konstellation, kann vermutet werden, dass die Daten einer normalverteilten Population
entstammen.

Ebenso wie der Mittelwert ist auch die Varianz extrem sensibel gegenüber Ausreißern
in den Daten. Durch das Quadrieren potenzieren sich die Abweichungen sogar noch.
Analog zum Mittelwert gibt es auch für den Streuungsparameter Kennwerte, die resistent
gegenüber Ausreißern sind.

Beispiel 1.20 Von fünf Patienten verzehrte Schokoriegel: Varianz bei Aus-
reißern
Wir wollen mit Beispiel 1.14 die Resistenz der Varianz untersuchen. Wir erinnern uns:
In einer therapeutischen Sitzung hatten drei Teilnehmer einen Schokoriegel genascht,
ein Teilnehmer deren zwei und einer hatte 15 Riegel verputzt. Es ergab sich pro Teil-
nehmer die durchschnittliche Zahl von vier Riegeln.

Wir ermitteln die Varianz. Zuerst zentrieren wir die Datenwerte:

1 − 4 = −3; 1 − 4 = −3; 1 − 4 = −3; 2 − 4 = −2; 15 − 4 = 11;

Wir quadrieren die Abstände:

−32 = 9; −32 = 9; −32 = 9; −22 = 4; 112 = 121.

Wir summieren:

9 + 9 + 9 + 4 + 121 = 152.

Wir sehen jetzt schon, dass der letzte Wert ca. 80 % der gesamten Varianz ausmacht.
Wir erhalten schließlich eine Varianz von 152
4 = 38. Bei einer Standardabweichung von
ca. sechs Riegeln würden wir nun vermuten: Ein Patient naschte im Durchschnitt 4 ± 6
Riegel. Diese Aussage kann nur als völliger Unsinn bezeichnet werden.
1.6 Kennwerte bei Daten in Häufigkeitstabellen 47

1.5.2 Interquartilsabstand

Der Interquartilsabstand Q wird mithilfe der Quartile ermittelt, die wir bereits auf Seite
31 kennengelernt hatten als die x-Werte, welche die geordneten Datenwerte in Viertel
einteilen. Wir berechnen den Quartilsabstand als
Q = Q3 − Q1 . (1.8)
Der Interquartilsabstand, im Englischen interquartile range genannt, schließt die 50 %
mittleren Beobachtungswerte der geordneten Daten ein. Er dient im Allgemeinen als
Ersatz für die Standardabweichung. Vor allem sollten wir ihn verwenden, wenn die Daten
große Ausreißer enthalten.

Wir wollen nun den Interquartilsabstand für unsere Salutogenese-Daten in Beispiel 1.7
ermitteln. Wir verwenden die Rechenregeln auf Seite 32.

Das erste Quartil liegt zwischen dem 25. und 26. Beobachtungswert. Er beträgt Q1 =
76+76
2 = 76. Das dritte Quartil liegt zwischen dem 75. und 76. Beobachungswert, und wir
erhalten entsprechend Q3 = 88. Also ist hier der Interquartilsabstand
Q = 88 − 76 = 12.
Wir interpretieren diese Information folgendermaßen: Die 50 % mittleren Daten habe eine
Spannweite von 12 kg.

Die Standardabweichung betrug 13,94. Die beiden Werte liegen also gar nicht so weit
auseinander, obwohl sich ihre Berechnung völlig unterscheidet.

1.6 Kennwerte bei Daten in Häufigkeitstabellen –


Was in aller Welt ist eine Einfallsklasse?

Häufbare Merkmale, also Variablen mit wenig verschiedenen Ausprägungen, können in


Häufigkeitstabellen zusammengefasst werden. Wir haben in Abschnitt 1.3.4 gesehen, dass
diese Variablen viele Vorzüge besitzen. Ihre Verteilung ist einfach zu erfassen, und sie er-
lauben auch informative Grafiken. Ein weiterer Vorteil ist, dass ihre Verteilungskennwerte
schnell und einfach mithilfe der Häufigkeitstabelle ermittelt werden können.

Beispiel 1.21 Konsumentenbefragung in einem Einkaufszentrum bezüglich


der Kinderzahl
Die Studentin Cornelia beteiligt sich an einem Projekt in einem Marktforschungssemi-
nar. In einem Einkaufszentrum fragt sie n = 16 Passanten nach der Zahl ihrer Kinder.
Sie erhält die bereits geordneten Daten in Tabelle 1.28.
48 1 Deskriptive Statistik

Tab. 1.28: Befragung von Konsumenten: Geordnete Daten der Kinderzahl x.

Nummer der Person i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16


Zahl der Kinder xi 0 0 0 0 1 1 1 2 2 2 2 2 2 3 3 3

Da die Kinderzahl häufbar ist, fasst sie zuerst die Daten in der Häufigkeitstabelle 1.29
zusammen.

Tab. 1.29: Befragung von Konsumenten: Häufigkeitstabelle der Kinderzahl x.

Nummer der Kinderzahl absolute relative Summen-


Kategorie Häufigkeit Häufigkeit (%) häufigkeit
j xj nj pj Sj
1 0 4 25,00 4
2 1 3 18,75 7
3 2 6 37,50 13
4 3 3 18,75 16
Summe 16 100,00

Cornelia möchte nun die Verteilungskennwerte ermitteln. Sie interessiert sich für den
Median z. Da sie n = 16 Beobachtungen hat, liegt der Median zwischen dem 8. und 9.
geordneten Beobachtungswert. Ein Blick auf die Spalte „Summenhäufigkeit“ in Häufig-
keitstabelle 1.29 zeigt Cornelia, dass in den ersten zwei Kategorien nur die sieben ersten
Werte liegen. Der 8. und 9. Wert fallen also in die dritte Kategorie mit der Kinderzahl
2. Man nennt diese Kategorie Einfallsklasse des Medians. Deshalb ist der Median
2+2
z= = 2.
2
Nun will Cornelia das arithmetische Mittel berechnen. Sie könnte so vorgehen:
1 1
x= · (0 + 0 + . . . + 3 + 3) = · 24 = 1,5.
16 16
Während des ein wenig ermüdenden Addierens fällt ihr auf, dass sie die Einzeldaten zu
Gruppen zusammenfassen kann,

0 00 0 111
 2
 2 22 2 2 3 3 3,

4-mal 3-mal 6-mal 3-mal

und dass die Berechnung


1 1 1
x= · (0 · 4 + 1 · 3 + 2 · 6 + 3 · 3+) = · (0 + 3 + 12 + 9) = · 24 = 1,5,
16 16 16
allgemeiner
1
x= · (x1 · n1 + x2 · n2 + x3 · n3 + x4 · n4 ),
n
1.6 Kennwerte bei Daten in Häufigkeitstabellen 49

viel einfacher und angenehmer ist. Sie kann daher in der Häufigkeitstabelle 1.30 die
Zwischenwerte für die Berechnung festhalten. Sie trägt in jeder Kategorie j das Produkt
xj · nj (Spalte 3) ein und summiert dann die Produkte auf. Die Summe 24 muss sie noch
durch n = 16 teilen, also
24
x= = 1,5.
16

Tab. 1.30: Befragung von Konsumenten: Häufigkeitstabelle der Kinderzahl x.

j xj nj xj · nj xj − x (xj − x)2 (xj − x)2 · nj


(1) (2) (3) (4) (5) (6)
1 0 4 0 −1,5 2,25 9,00
2 1 3 3 −0,5 0,25 0,75
3 2 6 12 0,5 0,25 1,50
4 3 3 9 1,5 2,25 6,75
Summe 16 24 18,00

Wir können nun die Formel für den Mittelwert angeben.

Arithmetisches Mittel einer häufbaren Variablen

Das arithmetische Mittel bei einem häufbaren Merkmal berechnet man mit

1 
m
x1 · n1 + x2 · n2 + . . . + xm · nm
x= = · xj · nj (1.9)
n n
j=1

oder auch

m
x = x1 · p1 + x2 · p2 + . . . + xm · pm = xj · pj , (1.10)
j=1

nj
wobei pj die relative Häufigkeit n in der Klasse j ist.

Ähnlich geht Cornelia bei der Varianz vor. Ausgehend von der Varianzformel

1 
n
s2 = · (xi − x)2
n−1
i=1

würde sie
1
s2 = · ((0 − 1,5)2 + (0 − 1,5)2 + . . . + (3 − 1,5)2 + (3 − 1,5)2 ) = . . .
15
berechnen. Sie sieht, dass auch hier die Quadrate mehrfach auftreten und geht analog zu
oben vor.
50 1 Deskriptive Statistik

Stichprobenvarianz einer häufbaren Variablen

Die Stichprobenvarianz bei einem häufbaren Merkmal berechnet man mit

(x1 − x)2 · n1 + (x2 − x)2 · n2 + . . . + (xm − x)2 · nm


s2 = (1.11)
n−1
1 
m
= · (xj − x)2 · nj
n−1
j=1

oder auch
n

s2 = · (x1 − x)2 · p1 + (x2 − x)2 · p2 + . . . + (xm − x)2 · pm (1.12)


n−1
n m
= · (xj − x)2 · pj .
n−1
j=1

n
Den Faktor n−1 in der letzten Formel brauchen wir in mathematischer Hinsicht.

Cornelia nützt wieder die Vorteile der Häufigkeitstabelle 1.30. In den Spalten (4) bis (6)
wird die Varianzformel schrittweise aufgebaut. Spalte 6 wird aufsummiert. Das Ergebnis
18 wird durch 15 geteilt, und Cornelia erhält
18
s2 = = 1,2.
15

Die Standardabweichung ergibt s = 1,2 ≈ 1,1.
2 Wahrscheinlichkeitstheorie

Wir erinnern uns: Statistik bedeutet Denken in Modellen. In Kapitel 1 war das noch nicht
unmittelbar ersichtlich, aber bei Überlegungen, dass man bei erhobenen Daten von einer
zugrunde liegenden Grundgesamtheit ausgeht (Seite 8), klang es schon an. Wir kommen
nun zum theoretischen Grundgerüst, das es uns ermöglicht, wissenschaftliche Aussagen
zu treffen und zu bestätigen.

2.1 Ereignisse und Wahrscheinlichkeiten – Gibt es


überhaupt Wahrscheinlichkeiten?

Um wieder die Gold-Analogie zu strapazieren: Wenn wir Gold suchen wollen, sollten
wir wissen, wie Gold entsteht, um erfolgreich zu sein. Ebenso sind gewisse wahrschein-
lichkeitstheoretische Grundkenntnisse für das korrekte Anwenden statistischer Methoden
unerlässlich. Wir beginnen mit einem Beispiel.

Beispiel 2.1 Assessment-Center


Das bekannte Unternehmen MyFuture hat wieder einmal diverse Stellen im unteren
Management ausgeschrieben. Da erfahrungsgemäß viele Bewerber auf die Anzeige ant-
worten, werden vorerst in einem Assessment-Center potenzielle Kandidaten herausge-
filtert. Hierzu werden zuerst kurze persönliche Gespräche geführt. Dann werden klei-
nere Diskussionsgruppen gebildet, in denen die Kandidaten sich weiter präsentieren
können. Die beiden jungen Mitarbeiter Karl und Erna werden mit den Vorauswahlen
betraut. Da es in der Vergangenheit schon Versuche gab, das Unternehmen wegen Un-
gleichbehandlung der Bewerber zu belangen, erfolgt die Zuordnung der Kandidaten zu
den Mitarbeitern zufällig, und zwar für Gespräch und Diskussion getrennt. Am Emp-
fangstisch wird dem Bewerber ein Zettel mit vier Kästchen vorgelegt, von denen eins
angekreuzt werden muss:

o X|X o X|Y o Y|X o Y|Y

Der Bewerber kennt die Bedeutung der Kästchen nicht. Der erste Buchstabe in ei-
nem Kästchen bezeichnet die Gesprächsführung und der zweite die Moderation der
Diskussionsrunde. „X“ bedeutet Erna und „Y“ Karl.
52 2 Wahrscheinlichkeitstheorie

Nach der Begrüßung aller Bewerber stellen sich die Mitarbeiter vor. Lukas ist unter
den Bewerbern. Er ist von Erna sehr angetan und hat das Gefühl, sie besonders be-
eindrucken zu können. Also erhofft er sich in beiden Auswahlverfahren die Zuteilung
zu Erna.

Wir kommen zum Punkt: Mit welcher Wahrscheinlichkeit wird Lukas in beiden Auswahl-
verfahren von Erna betreut? Und um es kurz zu machen: Die Antwort lautet 1/4.

Aber wieso eigentlich 1/4? Wir überlegen: Lukas hat vier Möglichkeiten, ein Kästchen
anzukreuzen. Da er die hinterlegte Information nicht kennt, trifft er seine Auswahl zu-
fällig. Er könnte also auch stattdessen aus einer Urne mit vier Kugeln, die jeweils mit
einem Kästchen beschriftet sind, eine Kugel zufällig ziehen. Stellen wir uns vor, unend-
lich viele Menschen würden aus so einer Urne zufällig eine Kugel ziehen. Jeder Mensch
bekäme eine bestimmte Realisation dieses zufälligen Ziehens. Dann erhielte ein Viertel
der Menschen eine Kugel mit der Aufschrift „XX“ als Realisation.

Das zufällige Ankreuzen eines Kästchens wird Zufallsvorgang, auch Experiment oder
Versuch genannt. Mithilfe des Beispiels können wir den Zufallsvorgang charakterisieren:

Der Zufallsvorgang kann unendlich oft durchgeführt werden.


Die Rahmenbedingungen bleiben stets gleich.
Der Ausgang des Zufallsvorgangs ist unbekannt.

Die unendliche Wiederholbarkeit mit immer gleichen Rahmenbedingungen, auch Bedin-


gungskomplex genannt, ist natürlich unrealistisch. Aber sie ist als Modell zu verstehen,
als eine Art Ideal. Und die Wahrscheinlichkeit ist ebenso eine idealistische Modellvorstel-
lung. Das alles soll eine weitere Möglichkeit eröffnen, die sehr komplizierte Welt erklärbar
zu machen.

Ein bestimmtes Buchstabenpärchen ist ein Ergebnis des Zufallsvorgangs. Wir haben ins-
gesamt vier verschiedene Ergebnisse. Wir fassen sie in einer Menge Ω (= „groß-Omega“)
zusammen, der Ergebnismenge oder dem Ergebnisraum

Ω = {(XX), (XY), (YX), (YY)}.

Ein Element der Menge Ω bezeichnen wir einfach mit ω (= „klein-Omega“).

Tritt bei einem Experiment ein bestimmtes Ergebnis ein, handelt es sich um ein Ereignis.
Lukas fragt sich, mit welcher Wahrscheinlichkeit er mindestens einmal Erna erhält. Es
gibt hier drei Möglichkeiten, mindestens einmal Erna zu erhalten, die in der Teilmenge
A von Ω zusammengestellt werden:

A = {(XX), (XY), (YX)}.

Ein Ereignis wird großbuchstabig bezeichnet. Das Ereignis ist immer eine Teilmen-
ge der Ergebnismenge. Es können daher auch alle Rechenregeln der Mengenlehre darauf
2.1 Ereignisse und Wahrscheinlichkeiten 53

angewendet werden. Die leere Menge ∅ ist übrigens immer Teilmenge einer Menge. Für
die grafische Darstellung von Ereignissen als Mengen eignen sich Venn-Diagramme, die
wir beispielsweise auf Seite 54 studieren können.

Auch Ereignisse werden in einer Menge zusammengefasst, die meistens Wahrscheinlich-


keitsraum genannt wird. Das können ausgewählte Ereignisse sein oder auch alle Teilmen-
gen der Ergebnismenge. Letztere nennt man die Potenzmenge von Ω. Allerdings kommen
wir im Rahmen dieses Buchs auch ohne Wahrscheinlichkeitsraum aus. Der Begriff Er-
eignisraum wird übrigens häufig synonym für Ergebnismenge verwendet. Um potenzielle
Verwirrungen zu vermeiden, wollen wir diesen Betriff nicht weiter verwenden.

Das konkrete Auftreten eines bestimmten Ereignisses ist dessen Realisation. Da modell-
haft ein Zufallsvorgang unendlich oft stattfindet, treten auch für jedes Ereignis unendlich
viele Realisationen auf. Wir können allerdings Anteile des Auftretens angeben. So beträgt
etwa oben in 2.1 der Anteil der Realisationen mit „XX“ ein Viertel.

Da unser Ereignis A („mindestens einmal X“) aus mehreren Elementen besteht, heißt
A ein zusammengesetztes Ereignis. Dagegen ist beispielsweise das Ereignis B = {(YY)},
nämlich dass Lukas genau zweimal Karl erhält, ein Elementarereignis. Es ist nur ein
Element der Ergebnismenge betroffen.

Bemerkung: Häufig werden in der Literatur Ergebnis und Elementarereignis synonym


verwendet. Das Ergebnis ist aber ein Element der Ergebnismenge, und das Elementarer-
eignis ist eine Teilmenge davon. Letztlich erschwert die Vermischung das Verständnis für
die Strukturen Ergebnis und Ereignis.

Die Wahrscheinlichkeit eines Ereignisses A wird als P (A) notiert. Häufig wird in der
Literatur auch W (A) verwendet. Würden hier wieder wie oben unendlich viele Menschen
ein Kästchen zufällig ankreuzen, resultierte in drei von vier Fällen „mindestens einmal
Erna“. Wir können also die Wahrscheinlich dafür angeben als
Zahl der für das Ereignis A zutreffenden Ergebnisse 3
P (A) = = .
Zahl aller Ergebnisse 4

Übrigens findet man in der Literatur meistens statt „Zahl der für das Ereignis A zutref-
fenden Ergebnisse“ den Ausdruck „Zahl der für das Ereignis A günstigen Ergebnisse“,
was die historische Benenung ist.

Mit welcher Wahrscheinlichkeit würde es Lukas genau einmal mit Erna zu tun haben?
Wenn wir das Ereignis als B bezeichnen, ist

B = {(XY), (YX)}

und damit
Zahl der für das Ereignis B zutreffenden Ergebnisse 2 1
P (B) = = = .
Zahl aller Ergebnisse 4 2
54 2 Wahrscheinlichkeitstheorie

Oben hieß es: „Das Ereignis ist immer eine Teilmenge der Ergebnismenge. Es können da-
her auch alle Rechenregeln der Mengenlehre darauf angewendet werden.“ Für das Rech-
nen mit Mengen gibt es eigene Rechenregeln, die in der sogenannten Boole’schen Algebra
zusammengefasst sind. Übrigens ist auch die Schaltalgebra, die für das Programmieren
mit elektronischen Schaltkreisen verwendet wird, eine Boole’sche Algebra. Kennen wir
im Umgang mit reellen Zahlen die Operatoren +, −, ·, :, sind es in der Boole’schen
Algebra der Mengen die Operatoren ∩ (und), ∪ (oder), (nicht). Grafisch kann das
Zusammenspiel von Mengen anschaulich mit dem Venn-Diagramm gezeigt werden. Wir
sehen im Folgenden ein paar Beispiele hierzu.

Betrachten wir zwei beliebige Ereignisse A und B. Sie entstammen einer Ergebnismenge
Ω mit den Elementen ω.

1. A ∩ B („A und B“) ist die Menge aller Ergebnisse ω, die in A und zugleich in B sind.
Formal ausgedrückt:

A ∩ B = {ω|ω ∈ A und ω ∈ B}.

Wir bezeichnen das als Schnittmenge von A und B (Abbildung 2.1).


Haben A und B keine gemeinsamen Elemente, sind A und B disjunkt oder element-
fremd. Hier ist dann die Schnittmenge die leere Menge ∅.
2. A ∪ B („A oder B“) ist die Menge aller Ergebnisse ω, die in A oder in B oder in
beiden gleichzeitig sind. Formal ausgedrückt:

A ∪ B = {ω|ω ∈A oder ω ∈B}.

Wir bezeichnen das als Vereinigungsmenge von A und B (Abbildung 2.2).


3. A („nicht A“) ist die Menge aller Ergebnisse ω, die in Ω, aber nicht in A sind. Formal
ausgedrückt:

A = {ω|ω ∈
/ A und ω ∈ Ω}.

Wir bezeichnen das als Komplement oder Gegenmenge von A. (Abbildung 2.3).

AÈB
W W

A AÇB B A B

Abb. 2.1: Schnittmenge von A und B. Abb. 2.2: Vereinigungsmenge von A und B.
2.1 Ereignisse und Wahrscheinlichkeiten 55

A A

Abb. 2.3: Ā als Komplement von A.

Wir betrachten wieder Beispiel 2.1 und finden heraus:

1. A ∩ B: Die Elemente, die A und B gemeinsam haben, sind (XY) und (YX). Also ist
A ∩ B = {(XY), (YX)}.
2. A ∪ B: In A ∪ B werden A und B vereinigt. Diese Menge fasst alle in A und B
vorkommenden Elemente zusammen: Also ist A ∪ B = {(XX), (XY), (YX)}.
3. A: In dieser Menge sind alle Elemente von Ω, die nicht in A sind. Es bleibt nur eines
übrig. Also ist A = {(YY)}. Verbal ausgedrückt handelt es sich um das Ereignis, dass
Lukas nur Karl bekommt.

Kehren wir zu den Ergebnissen zurück. Analog zum Skalenniveau der deskriptiven Sta-
tistik in Abschnitt 1.2.3 unterscheiden wir zweckmäßigerweise auch hier unterschiedliche
Typen von Ergebnismengen:

endlich: Es gibt nur eine bestimmte Höchstzahl von Ergebnissen. Beispiele wären etwa
die Augenzahl bei einmaligem Würfeln, der Familienstand einer zufällig ausgesuchten
Person oder auch ein bestimmtes Kästchen aus Beispiel 2.1 des Assessment-Centers.

abzählbar unendlich: Wir können hier zwar die verschiedenen Ergebnisse immer noch
abzählen, aber es wird keine Obergrenze angesetzt. Beispiele wären die Zahl der Unfälle
auf einem Autobahnabschnitt während eines Jahres, die Zahl der wöchentlichen Rekla-
mationen eines großen Online-Händlers. Häufig kann man zwar eine Obergrenze angeben,
aber methodisch ist es zweckmäßiger, sie offenzulassen, etwa Alter einer Person, Kinder-
zahl usw.

überabzählbar: Die Ergebnismenge ist stetig. Sie kann die Menge der reellen Zahlen um-
fassen oder auch nur eine Teilmenge der reellen Zahlen. Ein Beispiel wäre das Gewicht
eines zufällig ausgewählten Hühnereies oder die Größe eines Blattes. Sie erfordert me-
thodisch eine gesonderte Behandlung, denn es kann theoretisch ein bestimmtes einzelnes
Ergebnis niemals eintreten. Man betrachtet hier vor allem als Ereignisse Intervalle der
Ergebnismenge, beispielsweise die Wahrscheinlichkeit, dass ein Hühnerei mindestens 50 g
wiegt oder dass ein Blatt zwischen 6 und 9 cm lang ist. Wir haben Entsprechendes in
der deskriptiven Statistik schon als metrisch skaliertes stetiges Merkmal kennengelernt
(Seite 13).
56 2 Wahrscheinlichkeitstheorie

Wir wollen nun die Wahrscheinlichkeit etwas näher beleuchten. Eigentlich weiß kein
Mensch, was eine Wahrscheinlichkeit ist. Man könnte sie am ehesten als Grad der
Überzeugtheit für das Eintreten eines bestimmten Ereignisses umschreiben. Betrach-
ten wir einen Sechser im Lotto. Schon hier unterscheiden sich die Grade der Über-
zeugtheit vehement von Lottospieler zu Lottospieler. Aber trotzdem hilft uns die Wahr-
scheinlichkeit, die Zukunft des realen Lebens etwas zu strukturieren. Konkret fassbar
ist die Wahrscheinlichkeit, wenn sie als mathematisch basiertes Modell aufgefasst wird.
Wir wissen ja: Modelle vereinfachen die komplexe Realität. Sie lassen Nebensächlich-
keiten weg und zeigen uns die Funktionsweise der relevanten Komponenten des Mo-
dells.

Das Berechnen von Wahrscheinlichkeiten ist seit der Mitte des 17. Jahrhunderts be-
kannt. Vor allem die Berechnung von Wahrscheinlichkeiten bei mehrfachem Wür-
feln war hier das Thema. Später folgten beispielsweise das Gesetz der großen
Zahl oder die Normalverteilung. Schließlich ist dem russischen Mathematiker An-
drei Nikolajewitsch Kolmogorow (1903–1987) der große Verdienst zugefallen, aus
der Wahrscheinlichkeitsrechnung eine echte Wahrscheinlichkeitstheorie zu machen.
Er legte 1933 als Gerüst drei grundlegende Forderungen an die Wahrscheinlichkei-
ten fest, die sogenannten Axiome der Wahrscheinlichkeit. Auf diesen Axiomen fußt
die heute bekannte Wahrscheinlichkeitstheorie. Axiome sind übrigens getroffene Vor-
aussetzungen für eine Theorie, die zwar nötig und sinnvoll, aber nicht beweisbar
sind.

Axiome der Wahrscheinlichkeiten

Gegeben sind zwei Ereignisse A, B ⊂ Ω.

1. P (A) ≥ 0.
2. P (Ω) = 1.
3. P (A ∪ B) = P (A) + P (B), falls A und B disjunkt sind.

Das dritte Axiom kann nur auf endlich viele Ereignisse angewendet werden. Für
unendlich viele Ereignisse Ai (i = 1, 2, . . . ) muss es entsprechend zu 3a erweitert
werden.

3a. Sind die Ereignisse Ai ⊂ Ω sämtlich paarweise disjunkt, ist bei ihrer Vereinigung
P (A1 ∪ A2 ∪ A3 . . . ) = P (A1 ) + P (A2 ) + P (A3 ) + . . .

Die Axiome sind erstaunlich sparsam. Aber sie genügen, um ein konsistentes Wahrschein-
lichkeitsmodell darauf zu errichten. Man kann nun mithilfe der Axiome weitere wichtige
Regeln der Wahrscheinlichkeitsrechnung herleiten.
2.1 Ereignisse und Wahrscheinlichkeiten 57

Rechenregeln mit Wahrscheinlichkeiten

Für ein Ereignis A ⊂ Ω gilt:

0 ≤ P (A) ≤ 1, (2.1)

P (Ā) = 1 − P (A), (2.2)

P (∅) = 0. (2.3)

Für zwei Ereignisse A und B (A, B ⊂ Ω) gilt:

A und B sind im allgemeinen nicht disjunkt. Also ist die Wahrscheinlichkeit, dass
A oder B eintritt, nach dem Additionssatz für zwei Ereignisse:

P (A ∪ B) = P (A) + P (B) − P (A ∩ B). (2.4)

Falls A und B disjunkt sind, ist P (A ∪ B) = P (A) + P (B).

Es gelten noch speziell die De Morgan’schen Regeln:

P (Ā ∪ B̄) = P (A ∩ B) (2.5)

und

P (Ā ∩ B̄) = P (A ∪ B). (2.6)

Für drei Ereignisse A, B und C, alle Teilmengen von Ω, gilt speziell der Additi-
onssatz:

P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B)


(2.7)
−P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C).

Für mehrere Ereignisse Ai (i = 1, 2, . . . ) gilt der Additionssatz:

Sind die Ereignisse Ai sämtlich paarweise disjunkt, beträgt die Wahrscheinlichkeit


der Vereinigungmenge

P (A1 ∪ A2 ∪ A3 ...) = P (A1 ) + P (A2 ) + P (A3 ) + . . . (2.8)

Trotz dieser interessanten Folgerungen haben wir kein eindeutiges Rezept für die Be-
rechnung einer Wahrscheinlichkeit erhalten. Und in der Tat gibt es verschiedene Ansätze
dazu, abhängig von der gegebenen Sachlage.
58 2 Wahrscheinlichkeitstheorie

Klassische Wahrscheinlichkeitsauffassung (auch Laplace-Wahrscheinlichkeit oder Sym-


metrieprinzip): Betrachten wir wieder das Assessment-Beispiel 2.1: Die oben errechneten
Wahrscheinlichkeiten ergeben sich „von selbst“, wenn man die Zufälligkeit der Auswahl
fordert. Charakteristisch ist hier:
1. Die Zahl aller Ergebnisse ist endlich.
2. Jedes Elementarereignis hat die gleiche Wahrscheinlichkeit des Eintretens.
Für ein Ereignis A erhalten wir die Wahrscheinlichkeit

Zahl der für das Ereignis A zutreffenden Ergebnisse |A|


P (A) = = .
Zahl aller Ergebnisse |Ω|

Die senkrechten Striche von |A| bezeichnen die Zahl der Elemente, die in der Menge A
sind. Man nennt das die Mächtigkeit der Menge A. Beispiele sind die Wahrscheinlichkei-
ten, dass
eine Fünf gewürfelt wird,
aus zehn Versuchspersonen eine zufällig ausgewählt wird,
aus einer Lostrommel der Hauptgewinn gezogen wird.

Statistische Wahrscheinlichkeitsauffassung (auch frequentistischer Wahrscheinlich-


keitsbegriff): Im Kaufhaus Deluxe beobachtet der Hausdetektiv einen Kunden mit Ruck-
sack an der Kasse. Nachdem der Kunde die Kasse passiert hat, fordert der Hausdetektiv
ihn auf, den Rucksack zu öffnen, um zu sehen, ob sich gestohlene Ware darin befindet.
Mit welcher Wahrscheinlichkeit handelt es sich bei dem Kunden um einen Ladendieb?
Wir haben hier zwei mögliche Ergebnisse des Zufallsvorgangs, einen Kunden festzuhal-
ten, nämlich „Ladendieb“ und „kein Ladendieb“. Nach dem Symmetrieprinzip ergäbe
sich für die gesuchte Wahrscheinlichkeit 1/2, mit anderen Worten, 50 % aller Kunden
sind Ladendiebe. Jeder sieht ein, dass hier das Symmetrieprinzip versagt. Wir könnten
aber mithilfe ausführlicher Beobachtungen eine Wahrscheinlichkeit ermitteln. So hat die
Geschäftsleitung durch jahrelanges Erfassen der Diebstähle festgestellt, dass etwa jeder
200. Kunde ein Ladendieb ist. Also ist die gesuchte Wahrscheinlichkeit 1/200.
Die obige Wahrscheinlichkeit ist ein Produkt der statistischen Wahrscheinlichkeitsauffas-
sung: Wir beobachten sehr oft einen Zufallsvorgang. Mit steigender Zahl der Versuche
nähert sich der Anteil der Versuche, die das Ereignis A hervorgebracht haben, immer
mehr der Wahrscheinlichkeit P (A). Diese Eigenschaft wird als Gesetz der großen Zahl
bezeichnet. Es liefert die theoretische Grundlage, damit wir eine Wahrscheinlichkeit durch
Beobachtungen schätzen können. Und auch hier gilt wieder: Viel hilft viel!
Anwendungen wären etwa: Die Wahrscheinlichkeit, dass
ein Kunde eines Onlineanbieters zufrieden ist,
es morgen regnet,
die Aktienkurse steigen,
ein Atomkraftwerk versagt.
2.1 Ereignisse und Wahrscheinlichkeiten 59

Subjektivistische Wahrscheinlichkeitsauffassung (auch Bayes’scher Wahrscheinlich-


keitsbegriff): Es kann vorkommen, dass Ereignisse so selten auftreten, dass für eine
stabile Wahrscheinlichkeitsschätzung viel zu wenig Beobachtungen gemacht werden kön-
nen bzw. dass zumindest keine brauchbaren Erkenntnisse vorliegen.
Stellen wir uns ein Land vor, das von einem sehr dämlichen König regiert wird. Weil ihm
der Nachbarkönig nicht freiwillig einen ertragreichen Weinberg abtreten will, beschließt
er kurzerhand, diesen mit Krieg zu überziehen. Sein oberster General überlegt nun, ob er
den Angriff durchstehen oder lieber gleich desertieren soll. Er muss also die Wahrschein-
lichkeit des Gewinns einschätzen. Leider liegen zu wenige Erfahrungen mit Kriegen vor,
um die Wahrscheinlichkeit ermitteln zu können. Als erfahrener General kann er aber Ex-
pertenwissen einbringen: Der gegnerische General hat dieselbe harte Ausbildung wie er
selbst, das Volk des Nachbarkönigs ist seinem Herrn sehr ergeben, was man vom Volk des
dämlichen Königs nicht behaupten kann; die Krieger des Nachbarkönigs sind besser er-
nährt, und ihre Waffen sind neu und gut gepflegt. Er schätzt die Wahrscheinlichkeit eines
Sieges auf 1 : 5 und flieht. Er hat also trotz fehlender Informationen aufgrund plausibler
Überlegungen eine gewisse Einschätzung der Gewinnwahrscheinlichkeit geschafft.
Hier wird gewissermaßen die Entscheidung für eine Wahrscheinlichkeit aus dem Bauch
heraus getroffen, wobei Expertenwissen die Basis dafür sein sollte.
Anwendungen wären etwa die Wahrscheinlichkeit, dass
die Einführung eines neuen Wellnessprodukts ein Erfolg wird,
ein entlassener Schwerverbrecher nicht rückfällig wird,
der Sturz einer Regierung fehlschlägt.

Die Axiome von Kolmogoroff legen fest, dass die Wahrscheinlichkeiten zwischen 0 und 1
liegen. Es werden hin und wieder aber auch Spielarten für die Angabe von Wahrschein-
lichkeiten verwendet, etwa

die Angabe als Anteil, beispielsweise statt „Die Wahrscheinlichkeit, dass eine zufällig
ausgewählte Person schwarzhaarig ist, beträgt 0,2“ die Angabe „20 % aller Personen
sind schwarzhaarig“ oder auch „1/5 aller Personen ist schwarzhaarig“;
die Angabe als Wette, beispielsweise die Chancen für den Gewinn bei einem Rennen
liegt bei 1:4, was dasselbe bedeutet, dass die Gewinnwahrscheinlichkeit 1/5 und die
Verlustwahrscheinlichkeit 4/5 beträgt.

Beispiel 2.2 Kaffeeladen Colonia


Wir wollen in diesem Beispiel einige Rechenregeln für Wahrscheinlichkeit kennenlernen.

Colonia ist ein großes Spezialgeschäft für Kaffee und Schokolade, das seine Waren
durch Selbstbedienung anbietet. Colonia bewirbt derzeit die Einführung der neuen
Kaffeesorte African Star. Vor allem der attraktive Promo-Preis soll die Kunden in den
Laden locken. Als spezieller Lustfaktor werden noch mit African-Star-Creme gefüllte
Schoko-Trüffeln in einer Geschenkpackung für den Verkauf angeboten. Momentan sind
60 2 Wahrscheinlichkeitstheorie

50 Käufer im Laden unterwegs. 20 Kunden kaufen den angebotenen African-Star-


Kaffee, und zehn Kunden suchen andere Kaffeesorten aus. Keiner kauft African-Star-
Kaffee und eine weitere Sorte zusammen. 40 Kunden haben die African-Star-Trüffeln
in den Warenkorb gelegt, 20 Kunden andere Schokolade. 15 Kunden kaufen sowohl
die Trüffeln als auch andere Schokolade. Einige Kunden wollen weder irgendwelchen
Kaffee noch irgendwelche Schokolade.

Die Marketing-Managerin Leila wählt im Laden zufällig einen Kunden aus und bittet
ihn, ihr den Inhalt des Einkaufswagens zu zeigen. Mit welcher Wahrscheinlichkeit kauft
die Person African-Star-Kaffee?

Welches Ergebnis hat die Zufallsauswahl? Wir haben 50 Käufer. Ein Ergebnis ist also
einer von 50 Käufern. Der Ergebnisraum Ω enthält 50 Ergebnisse, das heißt |Ω| = 50. Of-
fensichtlich hat jeder Käufer dieselbe Chance, ausgewählt zu werden. Wir können folglich
das Symmetrieprinzip (Seite 58) anwenden.

Wir müssen nun für die folgenden Wahrscheinlichkeitsberechnungen Ereignisse definieren:


A: Ein Kunde kauft African-Star-Kaffee.
T: Ein Kunde kauft African-Star-Trüffeln.
K: Ein Kunde kauft anderen Kaffee.
S: Ein Kunde kauft andere Schokolade.
In Abbildung 2.4 ist ein Venn-Diagramm dieser Konstellation dargestellt. Die Zahlen
sind lediglich die Nummern der Teilflächen, die wir für die optische Indentifizierung der
Ereignisse brauchen.

A K

1 2 3
T
4 5 6
S
7 8 9
10

Abb. 2.4: Venn-Diagramm der Ereignisse.


2.1 Ereignisse und Wahrscheinlichkeiten 61

Gesucht ist also P (A). Wir überlegen: A umfasst 20 Kunden, Ω 50 Kunden. Also erhalten
wir nach dem Symmetrieprinzip

Zahl der Kunden in A |A| 20 2


P (A) = = = = = 0,4 .
Zahl aller Kunden |Ω| 50 5

In der Grafik sind das die Flächen 1, 4, 7, 8. Ebenso erhalten wir

|T | 40 4
P (T ) = = = = 0,8,
|Ω| 50 5

|K| 10 1
P (K) = = = = 0,2,
|Ω| 50 5
|S| 20 2
P (S) = = = = 0,4.
|Ω| 50 5
Wir wollen ein paar ausgewählte Wahrscheinlichkeiten bestimmen, zum Beispiel die
Wahrscheinlichkeit, was der zufällig ausgewählte Kunde kauft.

Er kauft African-Star-Trüffeln und andere Schokolade (Flächen 4, 5, 6):


Das Ereignis T ∩ S hat 15 Ergebnisse. Also ist

|T ∩ S| 15 3
P (T ∩ S) = = = = 0,3.
|Ω| 50 10

Er kauft keine African-Star-Trüffeln (Flächen 7, 8, 9, 10):


Es kaufen 50 bis 40 Kunden keine Trüffeln. Wir nennen dieses Ereignis T und erhalten

|T | 50 − 40 10
P (T ) = = = = 0,2.
|Ω| 50 50

Es ist also P (T ) = 1 − P (T ).
Er kauft African-Star-Trüffeln oder andere Schokolade (alle Flächen bis auf 7):
Wir suchen P (T ∪ S). Intuitiv möchte man sagen: P (T ∪ S) = P (T ) + P (S). |T | + |S|
ergibt 40 + 20 = 60. Das sind aber mehr als 50! Wir haben nämlich übersehen, dass
ja sowohl T als auch S jeweils die Zahl der Kunden enthalten, die T und S zugleich
gekauft haben. Bei der bloßen Addition würden wir diese Schnittmenge doppelt zählen.
Also subtrahieren wir diesen Betrag und erhalten

P (T ∪ S) = P (T ) + P (S) − P (T ∩ S) = 0,8 + 0,4 − 0,3 = 0,9.

Er kauft African-Star-Kaffee und anderen Kaffee (keine Fläche):


Wir suchen P (A∩K). In der Angabe steht, dass kein Kunde beide Sorten Kaffee kauft.
A und K sind disjunkt. Ihre Schnittmenge ist A ∩K = ∅ und daher |A∩K| = 0. Damit
haben wir
0
P (A ∩ K) = = 0.
50
62 2 Wahrscheinlichkeitstheorie

Er kauft African-Star-Kaffee oder anderen Kaffee (Flächen 1, 4, 7, 8, 2, 5, 9),


was hier dasselbe ist wie die Wahrscheinlichkeit, dass ein Kunde Kaffee kauft. Wir
haben also

P (A ∪ K) = P (A) + P (K) − P (A ∩ K) = 0,4 + 0,2 − 0 = 0,6.

Er kauft keine Trüffeln oder keine andere Schokolade (Flächen 1, 2, 3, 7, 8, 9, 10):

P (T ∪ S) = P (T ) + P (S) − P (T ∩ S).

Hier ist die direkte Berechnung der Wahrscheinlichkeit analog zu oben ziemlich um-
ständlich. Wir können uns die Sache sehr vereinfachen mit der sogenannten De Mor-
gan’schen Regel, die hier lautet:
15 35
P (T ∪ S) = P (T ∩ S) = 1 − P (T ∩ S) = 1 − = = 0,7.
50 50
Eine lehrreiche Übung wäre, die Wahrscheinlichkeiten der Flächen in der Grafik auszu-
rechnen. Die Gesamtsumme muss eins sein.

Beispiel 2.3 Partnerberatung


Martha ist psychotherapeutische Mitarbeiterin einer gemeinnützigen Einrichtung. Sie
betreut vor allem Personen mit Problemen in der partnerschaftlichen Beziehung. Einige
melden sich an, kommen dann aber nicht. Manche Paare sieht sie nur einmal, manche
kommen häufiger. Es gibt sogar welche, die zu einer Art Stammgast geworden sind.
Heute soll ein neues Pärchen in ihre Sprechstunde kommen. Martha fragt sich, mit
welcher Wahrscheinlichkeit das Paar wohl nur dieses eine Mal kommen wird.

Seit Jahren wurde schon seitens der gemeinnützigen Einrichtung das Verhalten von Paa-
ren in der Paartherapie erfasst, sodass verlässliche Daten über die Zahl der Beratungster-
mine eines Paares vorliegen. Die Erkenntnisse wurden in einer Wahrscheinlichkeitstabelle
(Tabelle 2.1) zusammengefasst. In der oberen Zeile sind die Ergebnisse ω angegeben.
Darunter die dazugehörigen Wahrscheinlichkeiten. Ganz rechts wurden die Ergebnisse zu
einer Gruppe „mehr als 5“ zusammengefasst, weil diese hohen Zahlen nur noch selten
vorkommen und nicht mehr einzeln analysiert werden sollen.

Tab. 2.1: Wahrscheinlichkeitstabelle der Zahl der Termine, die Klienten wahrnehmen.

Zahl der Termine ω 0 1 2 3 4 5 mehr als 5


Wahrscheinlichkeit 0,05 0,2 0,3 0,2 0,1 0,1 0,05

In Abbildung 2.5 sind die Wahrscheinlichkeiten als Stabdiagramm zusammengefasst.


2.1 Ereignisse und Wahrscheinlichkeiten 63

0,35

0,3
Wahrscheinlichkeit

0,25

0,2

0,15

0,1

0,05

0
0 1 2 3 4 5 mehr
als 5
Zahl der wahrgenommen Termine

Abb. 2.5: Stabdiagramm der Wahrscheinlichkeiten von wahrgenommenen Terminen.

Wir wollen nun ein paar Ereignisse definieren:


A: Ein Paar nimmt höchstens einen Termin wahr.
B: Ein Paar nimmt höchstens vier Termine wahr.
C: Ein Paar nimmt mindestens zwei Termine wahr.
D: Ein Paar nimmt mehr als zwei, aber höchstens fünf Termine wahr.
E: Ein Paar kommt gar nicht zu dem abgemachten Termin.
Welche Ergebnisse enthalten die Ereignisse? Das sind

A = {0, 1}; B = {0, 1, 2, 3, 4}; C = {2, 3, 4, 5, mehr als 5};


D = {3, 4, 5}; E = {0}.

Wir wollen zuerst die Wahrscheinlichkeit für die obigen Ereignisse berechnen.

Ereignis A: Höchstens ein Termin bedeutet kein Termin oder ein Termin (Abbildung 2.6).
Da die beiden betroffenen Elementarereignisse disjunkt sind, ist die gesuchte Wahrschein-
lichkeit einfach die Summe der beiden Einzelwahrscheinlichkeiten, also

P (A) = 0,05 + 0,2 = 0,25.

Entsprechend erhalten wir

P (B) = 0,05 + 0,2 + 0,3 + 0,2 + 0,1 = 0,85 (Abbildung 2.7),


P (C) = 0,3 + 0,2 + 0,1 + 0,1 = 0,7 (Abbildung 2.8),
P (D) = 0,2 + 0,1 + 0,1 = 0,4 (Abbildung 2.9),
P (E) = 0,05.
64 2 Wahrscheinlichkeitstheorie

 

 

 

 
     
     

Abb. 2.6: A: höchstens ein Termin. Abb. 2.7: B: höchstens vier Termine.


0,3


0,2


0,1


0
     

0 1 2 3 4 5 6…

Abb. 2.8: C: mindestens zwei Termine. Abb. 2.9: D: mehr als zwei bis höchstens
fünf Termine.

Wir ermitteln nun die folgenden Wahrscheinlichkeiten:

B: Das Ereignis enthält alle Elemente von Ω ohne die Menge B, entspricht also der
Menge {5, mehr als 5}. Die Wahrscheinlichkeit ist 0,1 + 0,05 = 0,15.
C: Das Ereignis entspricht der Menge {0, 1}. Die Wahrscheinlichkeit ist 0,05 + 0,2 =
0,25.
F = B ∩ C: F = {2, 3, 4}; P (F ) = 0,3 + 0,2 + 0,1 = 0,6.
G = A ∩ B: G = {0, 1}; P (G) = P (A) = 0,25.
H = A ∩ C: H = ∅; P (H) = 0.
I = A ∩ E: I = {0}; P (I) = 0,05.
J = B ∪ D: J = {0, 1, 2, 3, 4, 5}; P (J) = 0,05 + 0,2 + 0,3 + 0,2 + 0,1 + 0,1 = 0,95.
Schneller geht es so: ; P (J) = 1 − 0,05 = 0,95.
K = A ∪ B: K = {0, 1, 2, 3, 4} = B; P (K) = 0,85.
L = B ∪ C: B ∪ C = Ω; P (Ω) = 1.
M = B ∪ D : P (B ∪ D) = 0, 95. Damit ist P (M ) = 0,05.
2.2 Gemeinsame Wahrscheinlichkeiten 65

N = B ∪ C. Nach der De Morgan’schen Regel gilt B ∪ C = B ∩ C. Es ist B ∩ C = F .


Damit ist P (N ) = 1 − P (F ) = 1 − 0,6 = 0,4.
Mit welcher Wahrscheinlichkeit kommt ein Paar mindestens viermal in die Beratung?
Das ist 0,1 + 0,1 + 0,05 = 0,25.
Wie viel Prozent der Paare kommen mindestens zweimal, aber höchstens viermal in
die Beratung? Das ist 0,3 + 0,2 + 0,1 = 0,6, also 60 %.

2.2 Gemeinsame Wahrscheinlichkeiten –


Gemeinsame Wahrscheinlichkeiten sind
ungemein gemein!

Wenn wir gemeinsame Wahrscheinlichkeiten von zwei Ereignissen A und B betrachten,


interessiert uns in der Regel auch die Art der Gemeinsamkeit. Hängt das Zustandekom-
men von B vom Eintreten des Ereignisses A ab? Sind die Häufigkeiten von A und B
unabhängig voneinander? Dazu wollen wir zuerst die gemeinsamen Wahrscheinlichkei-
ten näher beleuchten. Wir hatten schon gesehen, dass bei disjunkten Ereignissen die
gemeinsame Wahrscheinlichkeit gleich null ist.

Beispiel 2.4 Schulabbrecher


In die Diskussion über die sich verändernde Bildungsstruktur in Deutschland kommen
auch immer wieder die Abgänger ohne Schulabschluss zur Sprache. So ergaben sich in
einem strukturschwachen Bundesland die leicht gerundeten Werte wie in Tabelle 2.2.
Von Interesse könnte die Frage sein, ob die Wahrscheinlichkeit, einen Schulabbrecher
zu erhalten, abhängig vom Geschlecht ist oder eher unabhängig davon?

Tab. 2.2: Zahl von Absolventen und Schulabbrechern eines Bundeslandes.

männlich weiblich Summe


Absolventen einer Schulart 10 120 10 810 20 930
Abgänger ohne Hauptschulabschluss 1 380 690 2 070
Summe 11 270 11 730 23 000

Diese Art Tabelle mit absoluten oder relativen Häufigkeiten wird Kontingenztabelle
genannt. Wir wollen nun die Abhängigkeitsstruktur in diesen Daten etwas näher unter-
suchen.
66 2 Wahrscheinlichkeitstheorie

Wir gehen vom Zufallsvorgang aus: Eine Person wird zufällig ausgewählt. Wir definieren
die Ereignisse:
M: Eine zufällig ausgewählte Person ist männlich.
S: Eine zufällig ausgewählte Person hat einen Schulabschluss.

Es ist dann das Ereignis, eine weibliche Person zu erhalten, gleich M und das Ereignis,
eine Person ohne Schulabschluss zu erhalten, S.

Wie können wir die Wahrscheinlichkeiten ermitteln? Da jede Person mit der gleichen
Wahrscheinlichkeit gezogen werden kann, können wir das Symmetrieprinzip (Seite 58)
anwenden.

Wir wollen nun die Wahrscheinlichkeit angeben, dass eine zufällig ausgewählte Person
männlich ist. Wir haben insgesamt 23 000 Schüler und Schülerinnen, davon sind 11 270
männlich. Wir erhalten
|M | 11 270
P (M ) = = = 0,49.
|Ω| 23 000

Es ist also die Wahrscheinlichkeit, einen männlichen Schüler zu erhalten, 0,49. Etwas
anschaulicher könnten wir sagen: 49 % aller Schüler waren männlich. Das Ereignis, eine
Schülerin zu erhalten, wäre dann M mit der Wahrscheinlichkeit

|M | 11 730
P (M ) = = = 0,51
|Ω| 23 000

oder auch

P (M ) = 1 − P (M ).

Ebenso erhalten wir


|S| 20 930
P (S) = = = 0,91
|Ω| 23 000

und

P (S) = 1 − P (S) = 0,09.

Entsprechend können wir auch die Wahrscheinlichkeiten der Schnittmengen ermitteln:

P (M ∩ S) = |M ∩ S|/|Ω| = 10120/23000 = 0,44,


P (M ∩ S) = |M ∩ S|/|Ω| = 1 380/23 000 = 0,06,
P (M ∩ S) = |M ∩ S|/|Ω| = 10 810/23 000 = 0,47,
P (M ∩ S) = |M ∩ S|/|Ω| = 690/23 000 = 0,03.
2.2 Gemeinsame Wahrscheinlichkeiten 67

In Tabelle 2.3 sind die gemeinsamen Wahrscheinlichkeiten zusammengefasst.


Tab. 2.3: Wahrscheinlichkeitstabelle von Schulabgängern mit und ohne Abschluss.

männlich weiblich Summe


M M
Absolventen einer Schulart S S∩M S∩M
0,44 0,47 0,91

ohne Schulabschluss S S∩M S∩M


0,06 0,03 0,09
Summe 0,49 0,51 1

Wir überlegen nun, mit welcher Wahrscheinlichkeit wir einen Mann oder eine Frau mit
Schulabschluss erhalten, was gleichbedeutend mit der Wahrscheinlichkeit ist, dass eine
Person einen Schulabschluss hat. Mit Symbolen geschrieben suchen wir

P ((S ∩ M ) ∪ (S ∩ M )) = P (S).

Wir erkennen sofort, dass die beiden Schnittmengen disjunkt sind, denn es kann (im
Allgemeinen) keine Person Mann und Frau zugleich sein. Abbildung 2.10 zeigt uns, wie
es geht. Also erhalten wir

P (S) = P (S ∩ M ) + P (S ∩ M ) = 0,44 + 0,47 = 0,91.

M M

S MÇS MÇS
0,91 0,44 0,47

S MÇS MÇS
0,09 0,06 0,03

Abb. 2.10: Satz der totalen Wahrscheinlichkeit.


68 2 Wahrscheinlichkeitstheorie

Satz der totalen Wahrscheinlichkeit

Gegeben sind ein Ereignis A und ein Ereignis B, beide eine Teilmenge von Ω. Das
Ereignis B schneidet A oder A. Da A und A disjunkt sind, ist

P (B) = P (A ∩ B) + P (A ∩ B). (2.9)

Dieser Satz wird uns bei der weiteren Betrachtung der gemeinsamen Wahrscheinlichkeiten
gute Dienste leisten. In den obigen Kontingenztabellen haben wir diesen Satz schon
angewandt.

Als Erweiterung der obigen Erkenntnisse wollen wir nun eine etwas komplexere Konstel-
lation betrachten.

Beispiel 2.5 Farbe von Regalen mit Kaffee


Ein Marktforschungsinstitut untersucht, inwieweit die Farbe von Regalen den Absatz
von Kaffee fördert. Es wurden bei umfangreichen Testverkäufen einer neuen Kaffeesorte
XY Regale in den Farben Gelb, Braun, Rot und Blau aufgestellt, dabei wurden 32 %
der Läden mit gelben Regalen, 24 % mit braunen Regalen, 32 % mit roten Regalen
und 12 % mit lila Regalen ausgestattet. Durch das elektronische Erfassungssystem an
der Kasse wurden die Kunden erhoben, die Kaffee gekauft hatten. Kein Kunde hatte
mehr als eine Packung Kaffee gekauft. Die Wahrscheinlichkeiten sind in Abbildung 2.11
zusammengefasst.

GG BB RR LL
0,32
0,32 0,24
0,24 0,32
0,32 0,12
0,12

KÇL
0,03
K KÇG KÇ B KÇ R 0,03
0,67
0,24 0,12
0,12 0,28
0,24

0,28

KÇB K0,09
ÇL

0,12 0,09
K KÇG 0,12
0,33
0,33 0,08
0,08 K0,04
ÇR 0,04

Abb. 2.11: Gemeinsame Wahrscheinlichkeiten von Regalfarbe und Kaffeewahl.


2.2 Gemeinsame Wahrscheinlichkeiten 69

Lieschen Müller ist unter den Kunden.

Mit welcher Wahrscheinlichkeit traf sie auf ein braunes Regal und hat den Kaffee XY
gekauft?
Mit welcher Wahrscheinlichkeit hat sie anderen Kaffee gekauft?

Wir definieren die Ereignisse:


G: Der Kunde war in einem Laden mit gelbem Regal, B, R und L entspre-
chend in Läden mit Regalen in weiteren Farben.
K: Der Kunde kaufte Kaffee XY, der im Regal angeboten wurde.
K: Der Kunde kaufte anderen Kaffee.
Es sind vorgegeben: P (K ∩G) = 0,24, P (K ∩B) = 0,12, P (K ∩R) = 0,28 und P (K ∩L) =
0,03.

Wir wollen nun die Wahrscheinlichkeit ermitteln, dass Lieschen Müller Kaffee XY gekauft
hat. Wir sehen anhand von Abbildung 2.11, dass die Ereignisse G bis L die Ergebnismenge
zerlegen, das heißt, sie sind disjunkt und füllen die Ergebnismenge aus. Sie sind eine
sogenannte Partition von Ω. Das Ereignis K muss also zwangsläufig mindestens eines
der obigen vier Ereignisse schneiden. Und analog zu oben in Formel 2.9 (Seite 68) gilt
auch hier wieder nach dem Satz der totalen Wahrscheinlichkeit

P (K) = P (K ∩G)+P (K ∩B)+P (K ∩R)+P (K ∩L) = 0,24+0,12+0,28+0,03 = 0,67.

Also haben 67 % Prozent der Kunden Kaffee XY gekauft. Ebenso haben 33 % anderen
Kaffee gekauft (K).

Wir erhalten nun den Satz der totalen Wahrscheinlichkeit für m viele Ereignisse Ai .

Satz der totalen Wahrscheinlichkeit für beliebig viele Ereignisse

Gegeben sind m viele Ereignisse Ai (i = 1, . . . , m), die die Ergebnismenge zerlegen.


Ein Ereignis B schneidet mindestens eines der Ereignisse Ai . Dann gilt der Satz der
totalen Wahrscheinlichkeit für beliebig viele Ereignisse Ai :


m
P (B) = P (A1 ∩ B) + P (A2 ∩ B) + · · · + P (Am ∩ B) = P (Ai ∩ B). (2.10)
i=1

Um die Fragen bezüglich Lieschen Müller zu beantworten:

Die Wahrscheinlichkeit, dass sie mit einem braunen Regal zu tun hatte und Kaffee XY
kaufte, ist 0,1.
Die Wahrscheinlichkeit, dass sie, ohne Betrachtung eines Regals, anderen Kaffee kaufte,
ist 1 − P (K) = 0,33.
70 2 Wahrscheinlichkeitstheorie

Wir stellen nun die Wahrscheinlichkeiten in der Kontingenztabelle 2.4 zusammen und
ergänzen die fehlenden Werte.

Tab. 2.4: Wahrscheinlichkeitstabelle von Regalfarbe und Kaffeewahl.

G B R L Summe
K 0,24 0,12 0,28 0,03 0,67
K 0,08 0,12 0,04 0,09 0,33
Summe 0,32 0,24 0,32 0,12 1

2.3 Bedingte Wahrscheinlichkeiten – Warum können


Placebos schwere Nebenwirkungen haben?

2.3.1 Bedeutung der bedingten Wahrscheinlichkeit

Beispiel 2.6 Beipackzettel


In einem medizinischen Institut wird die Auswirkung von Medikamenten-Beipackzetteln
auf Patienten untersucht. Getestet wird ein Mittel gegen chronischen Kopfschmerz.
Auf dem Beipackzettel ist als mögliche, aber seltene Nebenwirkung Schwindelgefühl
angegeben. An der Analyse nehmen insgesamt 50 Versuchspersonen teil. 30 Personen
haben das Medikament erhalten, 20 nur ein Placebo. Von den Personen, die das Me-
dikament erhalten hatten, gaben zehn an, Schwindelgefühle zu verspüren. Von den
Personen mit dem Placebo hatten fünf Personen Schwindelgefühle bemerkt.

Wir erhalten die Kontingenztabelle 2.5 und definieren die Ereignisse:

Tab. 2.5: Kontingenztabelle von Nebenwirkungen eines Medikaments und Placebos.

Medikament Placebo Summe


Schwindel ja 10 5 15
nein 20 15 35
Summe 30 20 50

M: Der Patient erhielt ein Medika- M: Der Patient erhielt ein Placebo.
ment.
S: Der Patient verspürte Schwin- S: Der Patient verspürte keine
delgefühle. Schwindelgefühle.
2.3 Bedingte Wahrscheinlichkeiten 71

Die Wahrscheinlichkeiten sind in Tabelle 2.6 aufgeführt. Wir sehen, dass immerhin 30 %
der Teilnehmer Schwindelgefühle hatten.

Tab. 2.6: Gemeinsame Wahrscheinlichkeiten von Schwindel bei Medikamenten-


oder Placebogabe.

M M Summe
S 0,2 0,1 0,3
S 0,4 0,3 0,7
Summe 0,6 0,4 1

Nun analysieren wir weiter: Könnte das Auftreten von Schwindelgefühlen unabhängig
von der Tablettengabe sein? Oder begünstigt eine der beiden Gaben das Auftreten?

Wir wollen herausfinden, wie viel Prozent der Medikamentempfänger Schwindelgefühle


hatten. Wir übertreiben unsere Sorgfalt etwas und schicken alle Medikamentempfänger
in einen Raum. Nun wählen wir aus den Personen im Raum eine zufällig aus. Mit welcher
Wahrscheinlichkeit erhalten wir eine Person mit Schwindelgefühl?

Insgesamt hatten 30 Personen das Medikament erhalten. Zehn Personen wurde schwind-
lig. Es wurde also einem Drittel oder ca. 33 % der Medikamentempfänger schwindlig.
Die Wahrscheinlichkeit, jetzt eine Versuchsperson mit Schwindelgefühl zu erhalten, ist
demnach 0,33. Wenn 33 % schwindlig wurde, dann wurde natürlich 67 % der Medika-
mentempfänger nicht schwindlig.

Wir haben soeben eine bedingte Wahrscheinlichkeit ermittelt, nämlich die Wahrschein-
lichkeit, dass wir eine Person mit Schwindelgefühl erhalten, unter der Bedingung, dass
sie ein Medikament erhalten hatte. Wir bezeichnen die bedingte Wahrscheinlichkeit mit
P (S|M ).

Wir könnten auch sagen,

die Wahrscheinlichkeit, dass eine Person Schwindelgefühle bekam, wenn man weiß, dass
sie Medikamentempfänger ist,
die Wahrscheinlichkeit, dass ein Medikamentempfänger Schwindelgefühle hat,
der Anteil der Personen mit Schwindelgefühl an den Medikamentempfängern usw.

Medikamentempfänger ist die Bedingung. Die Wahrscheinlichkeit kam zustande, indem


nur Medikamentempfänger betrachtet wurden. Die Placeboempfänger waren uninter-
essant.

Nun können wir nicht immer Personen oder sonstige Objekte in einen Raum sperren.
Wir brauchen also eine Formel für die bedingte Wahrscheinlichkeit. Wir nehmen uns
Beispiel 2.6 und die Kontingenztabelle 2.5 noch einmal vor. Wir suchen den Anteil der
72 2 Wahrscheinlichkeitstheorie

Personen mit Schwindelgefühl an den Medikamentempfängern. Es waren 30 Medikament-


empfänger vorhanden, davon spürten zehn Schwindelgefühle. Also beträgt der Anteil
wieder 10/30 = 0,33.

Wir können auch die Wahrscheinlichkeitstabelle 2.6 verwenden. Da alle Werte lediglich
durch 50 geteilt wurden, bleiben die Verhältnisse zueinander erhalten. Analog zu oben
ergibt sich

P (S ∩ M ) 0,2 1
P (S|M ) = = = ≈ 0,33.
P (M ) 0,6 3

Bedingte Wahrscheinlichkeit

Die Wahrscheinlichkeit von A unter der Bedingung B ist

P (A ∩ B)
P (A|B) = , (2.11)
P (B)

wobei (P (B) = 0) sein muss.

Wie sieht es mit den Placeboempfängern aus? 20 Leute hatten Placebos erhalten, fünf
davon wurde schwindlig. Also beträgt der Anteil der Leute mit Schwindel an den Place-
boempfängern ein Viertel oder 25 %.

In Tabelle 2.7 sind die bedingten Wahrscheinlichkeiten noch einmal aufgeführt. Der Un-
terschied zur gemeinsamen Wahrscheinlichkeit ist, dass sich bei letzterer alle gemeinsa-
men Wahrscheinlichkeiten zu eins addieren. Die bedingten Wahrscheinlichkeiten bilden
zwei eigenständige „Universen“. Hier addieren sich die Wahrscheinlichkeiten unter Bedin-
gung M zu eins und die Wahrscheinlichkeiten der Placeboempfänger M ebenfalls. Denn
wir betrachten hier die Anteile von S an M usw.

Tab. 2.7: Bedingte Wahrscheinlichkeiten von Schwindel bei Medikamenten-


oder Placebogabe.

Bedingung: M Bedingung: M
S 0,33 S 0,25
S 0,67 S 0,75
Summe 1 Summe 1

Was können wir den Ergebnissen entnehmen?

Es ist möglich, dass man sich Nebenwirkungen einbilden kann.


Bei den Konsumenten des Medikaments ist der Anteil der Personen mit Schwindel
2.3 Bedingte Wahrscheinlichkeiten 73

höher als bei den Placeboempfängern. Man kann vermuten, dass das Medikament
tatsächlich Schwindel auslöst.

Wir können auch eine andere Richtung der Analyse einschlagen. Die Ärztin Gülhan beauf-
sichtigt die Versuchsreihen zu dem Kopfschmerzmedikament. Ein Patient des aktuellen
Versuchs kommt in ihre Sprechstunde und klagt über heftige Übelkeit mit Schwindel.
Mit welcher Wahrscheinlichkeit hatte der Patient ein Placebo bekommen?

Welche Wahrscheinlichkeit ist gesucht? Wir wissen, dass dem Patienten schwindlig ist.
Und wir fragen uns: Wie groß ist der Anteil der Placeboempfänger an den Personen mit
Schwindelgefühl? Wir suchen also die Wahrscheinlichkeit, dass eine Person ein Placebo
erhalten hat, unter der Bedingung, dass sie Schwindelgefühle verspürt: P (M |S). Wir
erhalten nach Formel 2.11
P (M ∩ S) 0,1 1
P (M |S) = = = .
P (S) 0,3 3
Ein Drittel der Personen mit Schwindelgefühlen war Placeboempfänger. Entsprechend
waren dann zwei Drittel der Personen mit Schwindelgefühlen Medikamentempfänger.

Die bedingte Wahrscheinlichkeit ist häufig bei Studierenden unbeliebt mit der Begrün-
dung „Ich weiß nie, ob die gemeinsame oder die bedingte Wahrscheinlichkeit verlangt
ist“ oder „Ich weiß nie, was die Wahrscheinlichkeit und was die Bedingung ist“, was
synonym ist zu „Ich weiß nie, was links vom Strich und was rechts davon stehen muss“.
Dabei ist es kinderleicht, wenn man sich folgende (sehr schlampig formulierte) Beziehung
vergegenwärtigt:

P (A|B) bedeutet immer: Der Anteil „von A an B“.

Das kann als Wahrscheinlichkeit oder auch prozentual ausgedrückt werden.

Beispiel 2.7 Schulabbrecher


Nun betrachten wir wieder das Beispiel 2.4 mit den Schulabschlüssen, die in der Kon-
tingenztabelle 2.2 aufgeführt sind. Stefan arbeitet im Kultusministerium. Er soll un-
tersuchen, ob das Abbrecherverhalten von Jungen und Mädchen unterschiedlich ist.
Dazu interviewt er einige zufällig ausgewählte Personen, die zur Gruppe der momen-
tanen Schulabgänger gehören. Als Erstes lädt er einen Jungen ein. Er weiß noch nicht,
ob der Junge einen Schulabschluss hat oder nicht. Mit welcher Wahrscheinlichkeit hat
dieser Junge einen Schulabschluss?

Wir wissen, dass 49 % der Schulabgänger männlich sind. Für einen direkten Vergleich der
Geschlechter wäre der Anteil der Schulabbrecher an den Jungen oder Mädchen informativ.

Nehmen wir uns zuerst die Jungen vor. Wie bekommen wir den Anteil heraus? Sehen wir
uns Tabelle 2.2 an: Die Gesamtzahl der Jungen beträgt 11 270. Es gab 1380 Schulabbre-
74 2 Wahrscheinlichkeitstheorie

cher. Also ist der Anteil der männlichen Schulabbrecher an allen Jungen 1380/11 270 =
0,1224. Es gab hier also ca. 12 % Schulabbrecher.

Entsprechend waren es bei den Mädchen 690/11 730 = 0,0588, also nur ca. 6 %. Und nun
können wir sagen, dass die Abbrecherquote bei den Jungen etwa doppelt so hoch ist wie
bei den Mädchen. Wir erinnern uns, dass Anteile auch als Wahrscheinlichkeit interpretiert
werden können. 0,1224 von oben ist die bedingte Wahrscheinlichkeit P (S|M ), nämlich,
dass eine Person Schulabbrecher ist, unter der Bedingung, dass sie ein Junge ist.

Und auch hier können wir wieder statt der absoluten Werte die Wahrscheinlichkeiten
verwenden:
P (S ∩ M ) 0,06
P (S|M ) = = = 0,1224.
P (M ) 0,49

Jedenfalls scheinen Mädchen tendenziell zielorientierter zu handeln.

2.3.2 Bayes’sches Theorem

Beispiel 2.8 Psychologinnen in Führungspositionen


Einer Untersuchung der 1990er Jahre (Quelle Charité) zufolge betrug im Diplomstu-
diengang Psychologie der Anteil der Frauen an der Zahl der Absolventen 2/3. Dagegen
gelangten lediglich 4 % der Psychologinnen in leitende Positionen in Kliniken. Von den
männlichen Psychologen erlangten 22 % eine Position in leitender Stellung.

Die Patientin Nina hat einen Termin bei Professor Heike Fröhlich. Sie würde sich
freuen, es mit einer Frau zu tun zu haben. Mit welcher Wahrscheinlichkeit kann sie es
erwarten?

Wir definieren die Ereignisse:


F: Der Psychologe ist eine Frau.
F: Der Psychologe ist ein Mann.
L: Der Psychologe ist in leitender Stellung.

Wir können als Erstes die Wahrscheinlichkeiten von F und F angeben:


2 1
P (F ) = und P (F ) = .
3 3
Mit welcher Wahrscheinlichkeit haben wir es aber bei dem oben genannten Wert 4 % zu
tun? Das ist der Anteil der Personen in leitender Stellung an den Psychologinnen, also
P (L|F ).
2.3 Bedingte Wahrscheinlichkeiten 75

Nun fassen wir die gegebenen Wahrscheinlichkeiten in Tabelle 2.8 zusammen. Halten wir
fest, dass es sich bei den Einträgen der Tabelle nicht um gemeinsame Wahrscheinlichkei-
ten, sondern um bedingte Wahrscheinlichkeiten handelt.

Tab. 2.8: Wahrscheinlichkeitstabelle von Psychologen bezüglich Geschlecht und Stellung.

F F
2/3 1/3
L|F 0,04 = 1/25 0,22 = 11/50 L|F
L|F 0,96 = 24/25 0,78 = 39/50 L|F
Summe 1 1

Wir wollen nun auf die Frage der Patientin Nina eingehen. Welche Wahrscheinlichkeit ist
gesucht?

Sie hat es bei Professor Fröhlich offensichtlich mit einem Psychologen in leitender Stellung
zu tun. Mit welcher Wahrscheinlichkeit handelt es sich dabei um eine Frau? Oder: Wie
groß ist der Anteil der Frauen an Psychologen in leitender Stellung? Also ist P (F |L)
gesucht. Die Formel dafür ist

P (L ∩ F )
P (F |L) = .
P (L)

Es sind allerdings weder P (L∩F ) noch P (L) bekannt. Können wir das herausbekommen?

Nehmen wir uns zuerst P (L ∩ F ) vor: Diese Wahrscheinlichkeit kommt nicht nur in
P (F |L), sondern auch in P (L|F ) vor:

P (L ∩ F )
P (L|F ) = .
P (F )

Wenn wir oben die bekannten Werte einsetzen, erhalten wir

1 P (L ∩ F )
= ,
25 2/3

was, nach P (L ∩ F ) aufgelöst, die gesuchte gemeinsame Wahrscheinlichkeit


1 2 2
P (L ∩ F ) = · =
25 3 75
ergibt, als Formel

P (L ∩ F ) = P (L|F ) · P (F ).
76 2 Wahrscheinlichkeitstheorie

Diese schöne Eigenschaft wird Multiplikationssatz der Wahrscheinlichkeiten genannt.

Multiplikationssatz der Wahrscheinlichkeiten

Gegeben sind zwei Ereignisse A und B. Ihre gemeinsame Wahrscheinlichkeit lässt


sich berechnen mithilfe des Multiplikationssatzes der Wahrscheinlichkeiten als

P (A ∩ B) = P (A|B) · P (B). (2.12)

Nun folgt die Wahrscheinlichkeit P (L). Wir erinnern uns an den Satz der totalen Wahr-
scheinlichkeit in Gleichung 2.9 (Seite 68). Das wäre also hier

P (L) = P (L ∩ F ) + P (L ∩ F ).

Wir haben oben errechnet, dass P (L∩F ) = P (L|F )·P (F ) ist, ebenso ist dann P (L∩F ) =
P (L|F ) · P (F ). Wir haben nun alles ermittelt und berechnen

P (L ∩ F ) P (L|F ) · P (F )
P (L|F ) = =
P (F ) P (L|F ) · P (F ) + P (L|F ) · P (F )
1 2 2 2 4
· 4
= 25 3 = 75 = 75 = 150 = ≈ 0,2667.
1 2 11 1 2 11 15 15 15
· + · +
25 3 50 3 75 150 150 150
Die obige Erkenntnis bezeichnen wir als Bayes’sches Theorem.

Bayes’sches Theorem

Gegeben sind zwei Ereignisse A und B mit P (B) = 0. Es gilt dann das Bayes’sche
Theorem
P (A ∩ B) P (B|A) · P (A)
P (A|B) = = . (2.13)
P (B) P (B|A) · P (A) + P (B|A) · P (A)

Die grafische Umsetzung des Bayes’schen Theorems kennen viele schon aus der Schul-
zeit. Wir können hier einen sogenannten Wahrscheinlichkeitsbaum anlegen, dargestellt in
Abbildung 2.12. Ganz links sind die einfachen Wahrscheinlichkeiten, eine Frau oder ein
Mann zu sein. „Frau“ lässt sich aufteilen in 1/25 Frauen in leitender Stellung und 24/25
Frauen in nichtleitender Stellung. Das sind also L|F und L|F . Entsprechend können
wir auch den Ast F deuten. Wir können nun die gemeinsame Wahrscheinlichkeit schnell
ermitteln, indem wir einen Pfad von rechts nach links laufen und dabei multiplizieren,
beispielsweise
1 2
P (L ∩ F ) = P (L|F ) · P (F ) = · .
25 3
2.3 Bedingte Wahrscheinlichkeiten 77

L 1/25

F 2/3
L 24/25

L 11/50

F 1/3

L 39/50

Abb. 2.12: Wahrscheinlichkeitsbaum von Psychologen nach Geschlecht und Stellung.

Das Bayes’sche Theorem lässt sich auch auf mehr als zwei Ereignisse A und A anwenden.
Wir erinnern uns an Beispiel 2.5 mit den verschiedenfarbigen Kaffeeregalen. Hier wurde
die Ergebnismenge mit den Ereignissen der Farbe eines Regals zerlegt. Wir sehen uns
nun ein weiteres Beispiel an.

Beispiel 2.9 Café in der Innenstadt


Manfred betreibt ein gut besuchtes Café in der Innenstadt. Er hat festgestellt, dass
sich die Kundschaft – vorwiegend weiblich – im Wesentlichen in drei Kategorien ein-
teilen lässt: 1. berufstätig und erfolgsorientiert, 2. Mütter, meist mit anderen Müttern
und Kindern vergesellschaftet, 3. ältere Herrschaften im Rentenalter. Von den Kunden,
die im Laufe des Tages kommen, sind 20 % berufstätig, 50 % Mütter und 30 % Senio-
ren. Manfred hat die Erfahrung gemacht, dass 70 % der Berufstätigen warme Gerichte
bestellen, ebenso 10 % der Mütter und 30 % der Senioren.

Da Manfred die Kunden nach eigenem Gutdünken klassifiziert, kann kein Kunde zwei
Gruppen angehören. Gruppen wie Väter oder Kinder fallen betriebswirtschaftlich für
Manfred nicht ins Gewicht und werden vernachlässigt.

Es werden die Ereignisse definiert:


B: Ein Kunde ist berufstätig.
M: Ein Kunde ist Mutter.
S: Ein Kunde ist Senior.
W: Ein Kunde bestellt ein warmes Gericht.
Unsere Aufgabenstellung:

1. Wie lauten die obigen Zahlen als formaler Ausdruck?


2. Wie viel Prozent der Kunden bestellen warme Gerichte?
3. Es ist 17.30 Uhr. In der Küche wird klar Schiff gemacht. Eine Bestellung kommt in die
78 2 Wahrscheinlichkeitstheorie

Küche. Der Koch grummelt: „Wieder so ne alte Schachtel, die ja nur abends Zeit zum
Essen hat . . . “ Mit welcher Wahrscheinlichkeit hat tatsächlich ein Senior das Essen
bestellt? Welcher Gruppe gehört der Besteller am ehesten an?

Lösung:

1. Wir haben zunächst die Aufteilung nach Gruppen. Es sind P (B) = 0,2, P (M ) = 0,5
und P (S) = 0,3.
Der Anteil der Personen, die warme Gerichte bestellen, an den Berufstätigen ist 0,7,
also ist P (W |B) = 0,7. Dann bestellen 30 % der Berufstätigen kein warmes Gericht:
P (W |B) = 0,3.
Entsprechend sind P (W |M ) = 0,1 und P (W |M ) = 0,9; P (W |S) = 0,3 und P (W |S) =
0,7.
2. Diese Wahrscheinlichkeit ist nicht unmittelbar gegeben und muss erst ermittelt wer-
den. Wir gehen analog zu Beispiel 2.8 mit den Psychologie-Absolventen vor. Nach
dem Satz der totalen Wahrscheinlichkeit (Formel 2.10) gilt

P (W ) = P (W ∩ B) + P (W ∩ M ) + P (W ∩ S).

Die gemeinsamen Wahrscheinlichkeiten erhalten wir mit dem Multiplikationssatz der


Wahrscheinlichkeiten (Formel 2.12), etwa P (W ∩ B) = P (W |B) · P (B), sodass sich
ergibt

P (W ) = P (W |B) · P (B) + P (W |M ) · P (M ) + P (W |S) · P (S),

in Zahlen ausgedrückt

P (W ) = 0,7 · 0,2 + 0,1 · 0,5 + 0,3 · 0,3 = 0,14 + 0,05 + 0,09 = 0,28.

Ein knappes Drittel der Kunden bestellt warme Gerichte.


3. Ein Kunde hat warmes Essen bestellt. Wie groß ist der Anteil der Senioren an den
Kunden, die warmes Essen bestellen? Gesucht ist P (S|W ). Es gilt
P (W ∩ S)
P (S|W ) = .
P (W )
Wir haben Zähler und Nenner oben schon ermittelt und erhalten mit P (W ∩ S) =
0,3 · 0,3 und P (S) = 0,28
P (W |S) · P (S)
P (S|W ) = =
P (W |B) · P (B) + P (W |M ) · P (M ) + P (W |S) · P (S)
0,3 · 0,3 9
= ≈ 0,3214.
0,28 28
Wir sehen, dass der Koch mit einer Wahrscheinlichkeit von einem Drittel Recht hat.
Wir ermitteln nun noch die anderen bedingten Wahrscheinlichkeiten:
0,1 · 0,5 5
P (M |W ) = = = 0, 1786
0,28 28
2.4 Stochastische Unabhängigkeit 79

und
0,7 · 0,2 14
P (B|W ) = = = 0,5.
0,28 28
Am häufigsten bestellen also die Berufstätigen warme Gerichte, sodass wohl der Be-
steller am ehesten dieser Berufsgruppe angehört.

Wir können jetzt die Erweiterung des Bayes’schen Theorems angeben.

Bayes’sches Theorem für mehr als zwei Ereignisse Ai

Gegeben sind m viele Ereignisse Ai (i = 1, . . . , m), die die Ergebnismenge zerlegen.


Ein Ereignis B mit P (B) = 0 schneidet mindestens eines der Ereignisse Ai . Dann
gilt für beliebig großes m das Bayes’sche Theorem

P (Ai |B) =
P (Ai ∩ B) · P (Ai )
P (A1 ∩ B) · P (A1 ) + P (A2 ∩ B) · P (A2 ) + . . . + P (Am ∩ B) · P (Am )
(2.14)
P (Ai ∩ B) · P (Ai )
= .

m
P (Aj ∩ B) · P (Aj )
j=1

2.4 Stochastische Unabhängigkeit – Kann ein


Fahrrad von den Tupfen einer Krawatte
abhängen?

Wir haben uns ausführlich mit Ereignissen befasst, die voneinander abhängig sind. Es war
beispielsweise das Auftreten von Schwindel abhängig von der Einteilung der Versuchs-
person. Und es war auch die Quote der Schulabbrecher abhängig vom Geschlecht. Es sind
aber auch Ereignisse vorstellbar, deren Zustandekommen nicht von anderen Ereignissen
abhängt. Beispiele wären etwa

eine Fünf zu würfeln, wenn vorher eine Sechs gewürfelt worden ist,
die Farbe einer bevorzugten Zahnpasta und der Wohnort,
die Marke des gefahrenen Autos und die Zahl von Erkältungen pro Jahr.
80 2 Wahrscheinlichkeitstheorie

Beispiel 2.10 Kann ein Fahrrad von den Tupfen einer Krawatte abhängen?
Der Student Harry fährt regelmäßig an die Uni. An 50 % der Tage benützt er sein
Fahrrad, an den restlichen 50 % das Auto. An 60 % der Tage trägt er eine getupfte
Krawatte, an den anderen 40 % eine gestreifte.

Wir definieren folgende Ereignisse:


F: Harry fährt mit dem Fahrrad.
F: Harry fährt mit dem Auto.
T: Harry trägt die getupfte Krawatte.
T: Harry trägt die gestreifte Krawatte.
Ist F abhängig von T ? Hängt die Wahl der Fortbewegung vom Muster der Krawatte
ab? Wir vermuten, eher nein. Es müsste sich dann folglich die Wahrscheinlichkeit des
Krawattenmusters gleichmäßig auf die Art der Fortbewegung aufteilen: Wenn er mit
dem Rad fährt, hat er an 60 % der betroffenen Tage die getupfte Krawatte an, und
wenn er mit dem Auto fährt, hat er ebenfalls an 60 % der Tage die getupfte Krawatte
an.

An 60 % von 50 % aller Tage kommt er also mit dem Rad und hat eine getupfte Krawatte
an. 60 % von 50 % ist 0,6 · 0,5 = 0,3. Wir erhalten dann
P (T ∩ F ) = 0,6 · 0,5 = 0,3 und entsprechend
P (T ∩ F ) = 0,6 · 0,5 = 0,3,
P (T ∩ F ) = 0,4 · 0,5 = 0,2,
P (T ∩ F ) = 0,4 · 0,5 = 0,2
und Tabelle 2.9 der gemeinsamen Wahrscheinlichkeiten.

Tab. 2.9: Fahrzeug und Krawatte: Gemeinsame Wahrscheinlichkeiten.

Fahrrad Auto Summe


F F
Tupfen T T ∩F T ∩F
0,6 · 0,5 = 0,3 0,6 · 0,5 = 0,3 0,6

Streifen T T ∩F T ∩F
0,4 · 0,5 = 0,2 0,4 · 0,5 = 0,2 0,4
Summe 0,5 0,5

Wir haben in dieser Kontingenztabelle alle gemeinsamen Wahrscheinlichkeiten als Pro-


dukt der entsprechenden Einzelwahrscheinlichkeiten erhalten. Wir nennen die Ereignisse
T und F und die entsprechenden anderen Ereignisse stochastisch unabhängig. Stochastik
2.4 Stochastische Unabhängigkeit 81

bedeutet Wahrscheinlichkeitstheorie, also ist die Unabhängigkeit in stochastischer Hin-


sicht gemeint.

Stochastische Unabhängigkeit

Gegeben sind zwei Ereignisse A und B, (A, B ⊂ Ω): Genau dann, wenn A und B
stochastisch unabhängig sind, ist

P (A ∩ B) = P (A) · P (B). (2.15)

Entsprechendes gilt dann auch für A ∩ B, A ∩ B, A ∩ B.

Im Allgemeinen sind zwei Ereignisse als stochastisch abhängig anzusehen. Ob sie


unabhängig sind, muss erst bewiesen werden.

Es kann vorkommen, dass beispielsweise die Ereignisse paarweise unabhängig, aber insge-
samt abhängig sind. Es kann auch vorkommen, dass sie in ihrer Gesamtheit stochastisch
unabhängig, aber paarweise abhängig sind. Mehr als zwei Ereignisse können im Allge-
meinen nur dann als stochastisch unabhängig angesehen werden, wenn für alle möglichen
Teilmengen dieser Ereignisse die gemeinsame Wahrscheinlichkeit gleich dem Produkt der
Einzelwahrscheinlichkeiten ist, also für alle Paare, alle Tripel usw.

Sind beispielsweise vier Ereignisse A, B, C und D gegeben, muss untersucht werden, ob


die stochastische Unabhängigkeit für die

Paare AB, AC, AD, BC, BD, CD,


Tripel ABC, ABD, ACD, BCD,
Quadrupel ABCD

besteht. Erfreulicherweise gibt es aber Konstellationen, bei denen die Analyse der paar-
weisen Unabhängigkeiten ausreicht. Häufig ist die gemeinsame Wahrscheinlichkeit von
Ereignissen nicht bekannt und kann auch nicht ohne Weiteres ermittelt werden. Die
Welt ist nicht immer perfekt.

Beispiel 2.11 Präferenz für volkstümliche Musik


In einem Medienforschungsinstitut wird die Akzeptanz von Sendungen volkstümlicher
Musik untersucht. Unter anderem werden auch andere bevorzugte Sendungen in diesem
Zusammenhang beleuchtet. Für die Sehgewohnheiten von populärwissenschaftlichen
Sendungen im Zusammenhang mit Mögen oder Nichtmögen von volkstümlicher Musik
ergab sich Tabelle 2.10. V bezeichnet das Ereignis, dass ein Zuschauer volkstümliche
Musik mag. Entsprechend bedeutet G, dass der Zuschauer gelegentlich populärwis-
senschaftliche Sendungen ansieht, H, dass er sie häufig ansieht, und R, dass er sie
regelmäßig ansieht.
82 2 Wahrscheinlichkeitstheorie

Tab. 2.10: Anteile von Zuschauern bei volkstümlicher Musik und populärwissenschaftlichen
Sendungen.

Zuschauer sieht populärwissenschaftliche Sendungen Summe


gelegentlich häufig regelmäßig
G H R
Zuschauer mag
volkstümliche Musik V 0,2 0,12 0,08 0,4
keine volkstümliche Musik V 0,3 0,18 0,12 0,6
Summe 0,5 0,3 0,2 1

Wir wollen untersuchen, ob die Präferenzen für Volksmusik und die Häufigkeit des Schau-
ens von populärwissenschaftlichen Sendungen abhängig sind. Wir beginnen mit den Er-
eignissen V und G. Bei Unabhängigkeit müsste P (V ∩ G) = P (V ) · P (G) sein. Wir
haben

P (V ∩ G) = 0,2 und P (V ) · P (G) = 0,5 · 0,4 = 0,2.

V und G sind stochastisch unabhängig! Dann sind, wie wir dem Kasten auf Seite 81
entnehmen, beispielsweise auch V und G stochastisch unabhängig. Ebenso gilt, wie wir
schnell nachprüfen, P (V ∩ H) = P (V ) · P (H), P (V ∩ R) = P (V ) · P (R) usw.

2.5 Mehrfache Zufallsvorgänge – Ab in die Urne!

In Abschnitt 2.2 hatten wir uns eingehend mit Wahrscheinlichkeiten von zwei Ereignis-
sen befasst, die gleichzeitig auftreten. Was passiert aber, wenn mehr als zwei Ereignisse
auftreten, was, wenn sie gleichzeitig oder nacheinander passieren? In diesem Abschnitt
werden wir auch die ungeliebte Kombinatorik kennenlernen, die für die klinische For-
schung unerlässlich ist.

Beispielsweise werden für einen klinischen Versuch je sechs Versuchspersonen vier Grup-
pen zufällig zugeordnet. Dann werden diesen Gruppen vier verschiedene Behandlungen
zufällig zugeordnet. Von Interesse könnte die Wahrscheinlichkeit sein, dass Person mit
der Nummer zwölf die Behandlungsmethode drei erhält. In der Regel fragen wir nach den
gemeinsamen Wahrscheinlichkeiten für die Ergebnisse der verschiedenen Zufallsvorgänge.
Anwendungen sind etwa

dreimal eine Münze werfen,


in der Lotterie ohne Zurücklegen sechs Kugeln ziehen,
für die Fußballweltmeisterschaft die Mannschaften einander zuordnen.
2.5 Mehrfache Zufallsvorgänge 83

2.5.1 Unabhängige Versuche

Beispiel 2.12 Drei Dozenten im Studiengang Psychologie


Die Uni Entenhausen verzeichnet von Jahr zu Jahr steigende Studierendenzahlen, spe-
ziell der Bachelor-Studiengang Psychologie ist stark nachgefragt. Im Grundlagenbe-
reich werden im ersten Semester Mathematik, im zweiten Statistik I und im dritten
Statistik II gelehrt. Aufgrund der hohen Anfängerzahlen werden die Kurse dreigeteilt.
Die Dozenten Abel, Bebel und Cebel übernehmen pro Semester je einen Parallel-Kurs.
Bei Semesterbeginn wird ein Student zufällig einem Kurs zugeordnet.

Helga möchte Betriebspsychologin werden und hat ein Studium der Psychologie auf-
genommen. Über den Dozenten Cebel hat sie Schreckliches gehört und hofft, nicht
in seinen Kurs zu kommen. Mit welcher Wahrscheinlichkeit kommt sie in den drei
Semestern jedes Mal zu Cebel?

Wir definieren die Ereignisse:

A: Helga kommt zu Abel, entsprechend B und C.

Wir würden dann das Ereignis, dass Helga beim ersten Mal zu Abel kommt, beim zweiten
Mal zu Bebel und beim dritten Mal zu Cebel, bezeichnen als A(1) ∩ B (2) ∩ C (3) .

Die in Klammern hochgestellte Zahl gibt den Zeitpunkt des Ereignisses an. Wenn keine
Missverständnisse entstehen können, lassen wir sie weg.

Wie können wir nun P (C (1) ∩ C (2) ∩ C (3) ) ermitteln? Wir nennen dieses aus drei Elemen-
tarereignissen kombinierte Ereignis W und werden zunächst einmal die Ergebnismenge
für die drei Versuche ermitteln. Für die einzelnen Ergebnisse eines Versuchs verwenden
wir eine Kurzschreibweise, um das Ganze übersichtlich zu halten. Die einzelnen Dozenten
werden in der Reihenfolge der Semester als Tripel aufgeführt. So bedeutet etwa ABC,
dass Helga im ersten Semester Abel, im zweiten Bebel und im dritten Cebel bekommt.

Ω= { AAA AAB AAC ABA ABB ABC ACA ACB ACC


BAA BAB BAC BBA BBB BBC BCA BCB BCC
CAA CAB CAC CBA CBB CBC CCA CCB CCC }.

Die Ergebnismenge besteht also aus 3 · 3 · 3 = 27 verschiedenen Tripeln. Welche Wahr-


scheinlichkeit hat hier ein Ergebnis? Wir überlegen, dass die Auswahl zufällig erfolgt und
dass daher jedes Tripel dieselbe Wahrscheinlichkeit hat, zustande zu kommen. Wir kön-
nen also das Symmetrieprinzip anwenden. Das Ereignis W = CCC kommt nur einmal
vor, und es ist P (W ) = 1/27 ≈ 0,04. Diese Wahrscheinlichkeit ist sehr gering, sodass
Helga sich wohl keine Sorgen machen muss.
84 2 Wahrscheinlichkeitstheorie

Mit welcher Wahrscheinlichkeit würde Helga nur im ersten Semester Cebel bekommen?
Zutreffende Ergebnisse sind hier CAA, CAB, CBA, CBB. Das sind insgesamt 4 von 27
Ergebnissen, und es ist dann
(2) 4 (3)
P (C (1) ∩ C ∩C = 0,1481.
)=
27
Mit welcher Wahrscheinlichkeit würde Helga mindestens zweimal Cebel bekommen? Wir
nennen dieses Ereignis M . Zutreffende Ergebnisse sind hier ACC, BCC, CAC, CBC,
CCA, CCB, CCC. Das sind insgesamt 7 von 27, und es ist dann
|M | 7
P (M ) = = = 0,2593.
|Ω| 27
Das Zusammenstellen aller kombinierten Ergebnisse in einer gemeinsamen Ergebnismen-
ge Ω hat sich hier als hilfreich, wenn auch etwas mühselig herausgestellt. Gibt es mögli-
cherweise ein einfachere Methode, die Wahrscheinlichkeiten zu ermitteln? Offensichtlich
sind die Zuweisungen der einzelnen Dozenten zu einer Vorlesung stochastisch unabhängig,
denn es wird an jedem Semesteranfang neu zugewiesen. Dann müsste doch beispielsweise

P (C (1) ∩ C (2) ∩ C (3) ) = P (C (1) ) · P (C (2) ) · P (C (3) )

sein. Wie groß ist nun die Wahrscheinlichkeit, jedes Mal C zu erhalten? Wir haben drei
Dozenten. Die Wahrscheinlichkeit, für einen Kurs Cebel zu bekommen, ist P (C) ist 1/3.
Es ist also
1 1 1 1
P (W ) = P (C (1) ∩ C (2) ∩ C (3) ) = · · = ,
3 3 3 27
und das stimmt mit unserem oberen Ergebnis zusammen. Ebenso wäre beispielsweise
1 1 1 1
P (A(1) ∩ B (2) ∩ C (3) ) =
· · = .
3 3 3 27
Können wir auch die Wahrscheinlichkeiten für die beiden anderen Ereignisse, „nur im
ersten Semester C“ oder „mindestens zweimal C“ mithilfe stochastischer Unabhängigkeit
ermitteln?

Mit welcher Wahrscheinlichkeit würde Helga nur im ersten Semester Cebel bekommen?
Es ist
(2) (3) 1 2 2 4
P (C (1) ∩ C ∩ C ) = · · = .
3 3 3 27
Mit welcher Wahrscheinlichkeit würde Helga mindestens zweimal Cebel bekommen? Hier
müssen wir etwas nachdenken: Mindestens zweimal Cebel umfasst die Ereignisse CCC,
CCC, CCC und CCC. Wir erhalten die Wahrscheinlichkeit als Summe
1 1 1 1 1 2 1 2 1 2 1 1
P (CCC) + P (CCC) + P (CCC) + P (CCC) = · · + · · +· · · + · ·
3 3 3 3 3 3 3 3 3 3 3 3

1 1 1 2 1 2 7
= +3· · · = +3· = .
27 3 3 3 27 27 27
2.5 Mehrfache Zufallsvorgänge 85

Beispiel 2.13 Fünf Dozenten im Studiengang Psychologie


Wir erweitern das Beispiel 2.12: Es kommen noch die Kollegen Debel und Ebel dazu.

Wenn wir die beiden ebenfalls in die Ergebnismenge mit aufnehmen, erhalten wir
5 · 5 · 5 = 125 Fünfertupel. Dies einzeln hinzuschreiben ist schon sehr aufwendig. Die
Wahrscheinlichkeit für Helga, in einem Kurs Cebel zu bekommen, ist nun 1/5. Und die
Wahrscheinlichkeit, nur den Kollegen Cebel zu bekommen, wäre jetzt
3
1 1
P (CCC) = = = 0,008.
5 125

Wie groß ist die Wahrscheinlichkeit, mindestens einmal Cebel zu bekommen? Das Ge-
genereignis ist, keinmal Cebel zu bekommen. Es ist
(1) (2) (3) 4 4 4 64
P (C (1) ∪ C (2) ∪ C (3) ) = 1 − P (C ∩C ∩C ) = 1− · · = 1− = 0,488.
5 5 5 125

2.5.2 Abhängige Versuche

Beispiel 2.12 mit dem gefürchteten Dozenten Cebel war schön einfach, vor allem hatte
die stochastische Unabhängigkeit die Arbeit immens erleichtert. Leider wollen die Ereig-
nisse nicht immer so, wie wir uns das vorstellen, und wir haben ja bereits gelernt, dass
Ereignisse im Allgemeinen als abhängig anzusehen sind.

Beispiel 2.14 Zufällige Auswahl von Männern und Frauen


In der neurologischen Abteilung der Uniklinik Entenhausen wird ein Versuch durch-
geführt. Es sollen aus einer Gruppe zwei Personen zufällig ausgewählt werden. Die
Gruppe besteht aus Herbert, Olga und Lena.

Wir definieren die Ereignisse:

H: Herbert wird gewählt, entsprechend O und L.

Wir fragen uns, mit welcher Wahrscheinlichkeit erst Herbert und dann Olga gewählt
werden, in Kurzform: P (HO)?

Das zweite Ereignis ist vom ersten nicht mehr unabhängig, denn mit einer gezogenen
Person ändert sich der Inhalt der Gruppe.

Wie sieht die Ergebnismenge aus? Wir haben als mögliche Ergebnisse, in Kurzschreib-
weise,

Ω = {HO, HL, OH, OL, LH, LO}.


86 2 Wahrscheinlichkeitstheorie

Eine Person kann nicht zweimal ausgewählt werden. Jedes Ergebnis hat die gleiche Wahr-
scheinlichkeit, gewählt zu werden. Bei sechs verschiedenen Ergebnissen erhalten wir die
Wahrscheinlichkeit
1
P (HO) = .
6
Mit welcher Wahrscheinlichkeit erhalten wir zwei Frauen? Das betrifft die Ergebnisse OL
und LO. Die Wahrscheinlichkeit ist folglich 2/6 = 1/3.

Mit welcher Wahrscheinlichkeit erhalten wir erst eine Frau, dann einen Mann? Wir nen-
nen das die Wahrscheinlichkeit P (F (1) ∩ M (2) ). Das betrifft die Ergebnisse OH und LH,
und die Wahrscheinlichkeit ist
2 1
P (F (1) ∩ M (2) ) = = .
6 3
Wir konnten oben die Ergebnismenge einfach angeben und daraus die Wahrscheinlichkei-
ten ermitteln. Was aber, wenn wir es mit zehn oder gar 100 Personen zu tun haben? Dar-
aus Zweiergruppen zu bilden, ist zwar möglich, aber nur selten zielführend. Angenehm
wäre es, wenn wir analog zur stochastischen Unabhängigkeit die Wahrscheinlichkeiten
multiplikativ ermitteln könnten. Das geht in vielen Fällen tatsächlich, und wir erweitern
dazu Beispiel 2.14 mit dem klinischen Versuch.

Es ist nun eine Gruppe mit zehn Personen gegeben, davon vier Frauen. Es sollen zwei
Personen nacheinander ausgewählt werden. Mit welcher Wahrscheinlichkeit erhalten wir
zwei Frauen?

Wir definieren:
F: Eine Frau wird ausgewählt.
M (bzw. F ): Ein Mann wird ausgewählt.

Wir suchen die Wahrscheinlichkeit P (F (1) ∩F (2) ) und überlegen: Die Wahrscheinlichkeit,
dass beim ersten Mal F resultiert, ist natürlich 4/10. Beim zweiten Versuch vermindert
sich diese Wahrscheinlichkeit aber, denn es sind zwar noch sechs Männer, aber nur noch
drei Frauen übrig, also insgesamt neun Personen. Die Wahrscheinlichkeit ist jetzt 3/9
statt 4/10.

Wir wollen uns das Problem mithilfe des Wahrscheinlichkeitsbaumes in Abbildung 2.13
veranschaulichen. Wir erinnern uns, dass wir anhand des Wahrscheinlichkeitsbaumes in
Abbildung 2.12 gemeinsame Wahrscheinlichkeiten bestimmen konnten, indem wir den be-
treffenden Pfad des Baumes entlanggingen und die Wahrscheinlichkeiten multiplizierten.
Wir gehen von links nach rechts und erhalten
4 3 12 2
P (F (1) ∩ F (2) ) = · = = .
10 9 90 15
Zusammen mit der Formel schreiben wir das hin als
4 3
P (F (1) ∩ F (2) ) = P (F (1) ) · P (F (2) |F (1) ) = · ,
10 9
2.5 Mehrfache Zufallsvorgänge 87

F 3/9

F 4/10

M 6/9

F 4/9

M 6/10
M 5/9

1. Versuch 2. Versuch

Abb. 2.13: Wahrscheinlichkeitsbaum bei zweimaliger Auswahl von sechs Männern und vier
Frauen.

also als Wahrscheinlichkeit, dass beim ersten Mal Frau resultiert, mal der Wahrschein-
lichkeit, dass beim zweiten Mal Frau resultiert, wenn beim ersten Mal Frau aufgetreten
ist. Entsprechend ist
4 6
P (F (1) ∩ M (2) ) = P (F (1) ) · P (M (2) |F (1) ) = · ,
10 9
6 4
P (M (1) ∩ F (2) ) = P (M (1) ) · P (F (2) |M (1) ) = · ,
10 9
6 5
P (M (1) ∩ M (2) ) = P (M (1) ) · P (M (2) |M (1) ) = · .
10 9

Wir erweitern das Beispiel ein weiteres Mal: Es soll nun dreimal hintereinander eine
Person gezogen werden. Mit welcher Wahrscheinlichkeit erhalten wir dreimal eine Frau?
Wir können hier wieder Überlegungen wie oben machen:

Die Wahrscheinlichkeit, beim ersten Mal eine Frau zu erhalten, ist 4/10. Es sind nun noch
neun Personen vorhanden, davon drei Frauen. Die Wahrscheinlichkeit, beim zweiten Mal
eine Frau zu erhalten, wenn schon beim ersten Mal eine resultierte, ist 3/9. Es sind nun
noch acht Personen übrig, davon zwei Frauen. Die Wahrscheinlichkeit, noch einmal eine
Frau zu erhalten, ist 2/8.

Die Konstellation für drei Versuche ist in Abbildung 2.14 wiedergegeben.

Wir erhalten nun, indem wir von links nach rechts multiplizieren,
4 3 2 24 1
P (F F F ) = · · = = .
10 9 8 720 30
Und es ergäbe beispielsweise
4 6 5 120 1
P (F M M ) = · · = = .
10 9 8 720 6
Wir können also anstatt der Ergebnismenge den Multiplikationssatz der Wahrscheinlich-
keiten in Formel 2.12 verwenden, der auch für mehr als zwei Ereignisse gilt.
88 2 Wahrscheinlichkeitstheorie

F 2/8

F 3/9
M 6/8

F 3/8
F 4/10
M 6/9
M 5/8

F 3/8
F 4/9
M 6/10
M 5/8

F 4/8
M 5/9

M 4/8
1. Versuch 2. Versuch 3. Versuch

Abb. 2.14: Wahrscheinlichkeitsbaum bei dreimaliger Auswahl von sechs Männern und vier
Frauen.

2.5.3 Urnenmodelle

Bevor wir den Gang zu den Urnen beginnen, benötigen wir für kombinatorische Überle-
gungen ein paar kleine mathematische Vorkenntnisse, die allerdings nicht über die vier
Grundrechenarten hinausgehen.

Fakultät
Wir definieren das Produkt

n! = 1 · 2 · 3 · . . . · n (2.16)

und bezeichnen es als Fakultät von n. Dabei soll n eine natürliche Zahl inklusive der Null
sein. Man hat als sinnvoll festgelegt: 0! = 1.

Binomialkoeffizient
n

Der Ausdruck m ist ein Binomialkoeffizient und wird als „n über m“ bezeichnet. Er
berechnet sich als

n n!
= . (2.17)
m m!(n − m)!
2.5 Mehrfache Zufallsvorgänge 89

Dabei sind m und n Elemente der natürlichen Zahlen inklusive der Null, außerdem ist
n ≥ m. Es gelten die Rechenregeln

n n n n
= 1, = 1, = n, = n.
0 n 1 n−1

Wahrscheinlichkeiten des Urnenmodells


Wiederholte Versuche lassen sich in der Regel als Urnenmodell veranschaulichen. Man
betrachtet eine Urne, in der sich N viele unterschiedliche Kugeln befinden. Es wird n-mal
eine Kugel gezogen, und man ermittelt die Wahrscheinlichkeit für ein bestimmtes Ereig-
nis. Es gibt über Eigenschaften von Urnenmodellen allgemein anerkannte Erkenntnisse,
die dann auch auf spezielle Aufgabenstellungen von wiederholten Versuchen angewendet
werden können. Wir unterscheiden folgende Modelle

Urnenmodell mit Zurücklegen: Es wird n-mal eine Kugel gezogen und wieder zurück-
gelegt. Das Zurücklegen mutet den Laien sinnlos an. Es hat aber durchaus Sinn, denn
es simuliert stochastisch unabhängige Ereignisse. Beispielsweise können wir uns statt ei-
nes Würfels auch eine Urne mit sechs durchnummerierten Kugeln vorstellen. Wenn wir
dreimal hintereinander würfeln wollen, können wir stattdessen auch dreimal eine Kugel
ziehen und wieder in die Urne zurücklegen.

Urnenmodell ohne Zurücklegen: Es wird n-mal eine Kugel gezogen und nicht zurück-
gelegt. Damit simulieren wir stochastisch abhängige Ereignisse. Das obige Beispiel mit
den vier Frauen und sechs Männern wäre eine Anwendung.

In vielen Fällen können wir mit Erkenntnissen der Kombinatorik die Zahl der Ergebnis-
se eines wiederholten Versuchs angeben und dann mithilfe des Symmetrieprinzips eine
Wahrscheinlichkeit ermitteln.

Wir betrachten eine Urne mit N Kugeln. Es werden n viele Kugeln zufällig ausgewählt.
Als Grundmodelle legen wir fest:

1. Die Entnahme erfolgt mit Zurücklegen. Die Reihenfolge der Kugeln ist wichtig.
2. Die Entnahme erfolgt mit Zurücklegen. Die Reihenfolge der Kugeln ist unwichtig.
3. Die Entnahme erfolgt ohne Zurücklegen. Die Reihenfolge der Kugeln ist wichtig.
4. Die Entnahme erfolgt ohne Zurücklegen. Die Reihenfolge der Kugeln ist unwichtig.

Beispiel 2.15 Urnenmodelle


Für die Berechnung der Gesamtzahl von Ergebnissen nehmen wir als Beispiel eine
Urne mit den Kugeln A, B, C und D, das heißt N = 4. Es werden drei Kugeln zufällig
ausgewählt, das heißt n = 3.
90 2 Wahrscheinlichkeitstheorie

1. Bei einem Modell mit Zurücklegen und unter Berücksichtigung der Reihenfolge der
Kugeln gibt es

N n verschiedene Ergebnisse. (2.18)

Für Beispiel 2.15 erhalten wir als mögliche Ergebnisse:

AAA AAB AAC AAD ABA ABB ABC ABD


ACA ACB ACC ACD ADA ADB ADC ADD
BAA BAB BAC BAD BBA BBB BBC BBD
BCA BCB BCC BCD BDA BDB BDC BDD
CAA CAB CAC CAD CBA CBB CBC CBD
CCA CCB CCC CCD CDA CDB CDC CDD
DAA DAB DAC DAD DBA DBB DBC DBD
DCA DCB DCC DCD DDA DDB DDC DDD

Das sind N n = 43 = 64 viele.


Beispielsweise ist die Wahrscheinlichkeit, erst B, dann B und schließlich D zu erhalten:
1
P (BBD) = .
64
2. Bei einem Modell mit Zurücklegen und ohne Berücksichtigung der Reihenfolge der
Kugeln gibt es

N +n−1
verschiedene Ergebnisse.
n
n

Der Binomialkoeffitient m wurde zusammen mit der Fakultät n! bereits oben auf
Seite 88 kurz erklärt. Für Beispiel 2.15 erhalten wir folgende Ergebnisse:

AAA AAB AAC AAD ABB ABC ABD ACB ACC ACD ADD
BBB BBC BBD BCC BCD BDD
CCC CCD CDD
DDD

Das sind

4+3−1 6 6! 6! 1·2·3·4·5·6 720
= = = = = = 20 viele.
3 3 3!(6 − 3)! 3!3! 1·2·3·1·2·3 36

Beispielsweise ist die Wahrscheinlichkeit P (BBD) = 1/20.


2.5 Mehrfache Zufallsvorgänge 91

3. Bei einem Modell ohne Zurücklegen und mit Berücksichtigung der Reihenfolge der
Kugeln gibt es
N!
viele verschiedene Ergebnisse.
(N − n)!

Für Beispiel 2.15 erhalten wir die Ergebnisse:

ABC ABD ACB ACD ADB ADC


BAC BAD BCA BCD BDA BDC
CAB CAD CBA CBD CDA CDB
DAB DAC DBA DBC DCA DCB

4! 4!
Das sind = = 1 · 2 · 3 · 4 = 24 viele.
(4 − 3)! 1

Beispielsweise ist die Wahrscheinlichkeit P (ACD) = 1/24.


4. Bei einem Modell ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge der
Kugeln gibt es

N
viele verschiedene Ergebnisse.
n

Für Beispiel 2.15 erhalten wir folgende Ergebnisse:

ABC ABD ACD


BCD

4 1·2·3·4
Das sind = = 4 viele.
3 1·2·3

Beispielsweise ist die Wahrscheinlichkeit, P (ABC) = 1/4.

Spezialfall eines Urnenmodells mit mehreren gleichen Kugeln: Wir haben eine Urne
mit zwei Sorten Kugeln vor uns. Die Zahl der Kugeln in der Urne ist unerheblich. Es
werden n Kugeln entnommen. Wie viele Möglichkeiten gibt es, bei n Entnahmen genau
m Kugeln erster Sorte und damit r = n − m Kugeln zweiter Sorte zu erhalten? Es sind

n n!
= viele verschiedene.
p m!(n − m)!

Da die Zahl der Kugeln in der Urne unbekannt ist, können wir von einem Modell mit
Zurücklegen ausgehen.
92 2 Wahrscheinlichkeitstheorie

Hierzu ein Beispiel: An einer Gruppentherapie nehmen zwei Männer und drei Frauen
teil. Der Gesprächsleiter macht sich vorab Gedanken, ob er die Sitzordnung der Patienten
vom Geschlecht abhängig machen soll. Wie viele verschiedene Möglichkeiten gibt es, zwei
Männer und drei Frauen anzuordnen? Definieren wir die Zahl der Frauen als m. Dann
erhalten wir

5 5! 5!
= = = 10 verschiedene Möglichkeiten.
3 3!(5 − 3)! 3!2!

Anwendungsbeispiele für kombinatorische Rechenregeln

In einem Versuch werden einem zweijährigen Kind sechs Gegenstände vorgelegt. Von
Interesse ist, welche drei Gegenstände von dem Kind genommen werden und in welcher
Reihenfolge. Mit welcher Wahrscheinlichkeit ergreift ein Kind zuerst den Teddy, dann
einen Ball und schließlich ein Holzauto? Wir haben als Modell eine Urne mit sechs
Kugeln. Es werden drei ohne Zurücklegen gezogen, die Reihenfolge der Kugeln ist von
Interesse. Wie viele Ergebnisse haben wir?
N! 6!
= = 456 = 120 Ergebnisse.
(N − n)! (6 − 3)!

Bei zufälliger Entnahme beträgt die Wahrscheinlichkeit für obige Konstellation 1/20.
Mit welcher Wahrscheinlichkeit sucht ein Kind insgesamt die drei obigen Gegenstände
aus – ohne Berücksichtigung der Reihenfolge? Hier gibt es bei zufälliger Auswahl

N 6!
= = 45 = 20 viele Ergebnisse.
n 3!3!

Die Wahrscheinlichkeit beträgt also 0,05. Der Test wurde insgesamt mit 100 Kindern
durchgeführt. Es stellte sich aber heraus, dass 25 % der Kinder drei Gegenstände er-
griffen. Es kann offensichtlich davon ausgegangen werden, dass hier keine Zufälligkeit
der Auswahl mehr vorliegt und dass die Kinder eindeutig eine Präferenz für diese
Gegenstände hatten.
3 Zufallsvariablen

Zufallsvariablen sind ein Spezialfall bestimmter Ereignisse, nämlich Ereignisse, die reelle
Zahlen als Ergebnis haben. Zufallsvariablen ermöglichen uns, für das Auftreten dieser
Ereignisse Durchschnittswerte und andere Kennzahlen zu errechnen. So können wir nicht
sagen, dass bei einmaligem Münzwurf im Durchschnitt „Kopf komma 5“ auftritt , aber
wenn wir einmal würfeln, können wir die Tatsache festhalten, dass hier die mittlere
Augenzahl 3,5 beträgt. Weitere Beispiele für Zufallsvariablen sind etwa die Kinderzahl
eines Paares oder die Lebensdauer von elektronischen Geräten.

Wir nennen die Werte, die eine Zufallsvariable annehmen kann, die Ausprägung. Die Aus-
prägungen zusammen mit ihren Wahrscheinlichkeiten beschreiben die sogenannte Ver-
teilung von X. Analog zur metrisch skalierten Variablen in der deskriptiven Statistik
(Seite 11) teilt man die Zufallsvariable in zwei Arten ein, die diskrete Zufallsvariable und
die stetige Zufallsvariable.

Zufallsvariable

Gegeben ist eine Variable X, die jeden Wert x der reellen Zahlen annehmen darf.
Ist dieser Wert das Ergebnis eines Zufallsvorgangs, wird X als Zufallsvariable be-
zeichnet. Die Werte x, die X annehmen kann, sind die Ausprägungen.

3.1 Diskrete Zufallsvariablen – Warum ist die


Serviceagentur so diskret?

Beispiel 3.1 Studentische Serviceagentur


Wir wollen anstatt vieler Worte ein Beispiel verwenden: Eine studentische Service-
agentur bietet Haushalten verschiedene Dienstleistungen an. Sie vermittelt gegen ein
geringes Entgeld Aufträge an Studierende, die sich ein Zubrot verdienen wollen. Vor
allem in den Sommersemesterferien ist die Agentur gut im Geschäft. Sie bietet: Rasen-
mähen für 10 e, Wagenwaschen für 10 e, Fensterputzen für 20 e, Einkaufen für 5 e,
Gehwegfegen 5 e, Helfen beim Umzug 40 e.
94 3 Zufallsvariablen

Erfahrungsgemäß setzen sich die Aufträge zusammen aus 30 % Rasenmähen, 10 % Wa-


genwaschen, 30 % Fensterputzen, 10 % Gehwegfegen, 10 % Einkaufen und 10 % Helfen
beim Umzug.

Die Aufträge werden den Studierenden zufällig zugeteilt, je nachdem, wer gerade im
Büro der Agentur vorbeischaut. Markus kommt zur Tür rein. Wir fragen: Mit welcher
Wahrscheinlichkeit verdient Markus 20 e? Mit welcher Wahrscheinlichkeit verdient er
10 e? Wie viel nimmt Markus pro Auftrag im Durchschnitt ein?

Die erste Frage ist schnell beantwortet: Es gibt nur eine Möglichkeit, 20 e zu verdienen,
nämlich, wenn Markus Fenster putzt. Also nimmt Markus mit einer Wahrscheinlichkeit
von 30 % 20 e ein. Wie sieht es mit 10 e aus? Hier gibt es zwei Möglichkeiten, nämlich
Rasenmähen und Wagenwaschen mit den Wahrscheinlichkeiten 0,3 und 0,1, insgesamt
also 0,4. Für die Beantwortung der dritten Frage müssen wir uns mit den Eigenschaften
einer Zufallsvariablen befassen.

Wir werden als Erstes jeder Dienstleistung eine Einnahme zuordnen:

Einkaufen Fegen Mähen Wagenwaschen Fensterputzen Umzug


↓ ↓ ↓ ↓ ↓ ↓
5 5 10 10 20 40
Wir nennen das eine Abbildung der Ergebnismenge in die Menge der reellen Zahlen und
haben damit eine Zufallsvariable konstruiert. Betrachten wir nun den Zufallsvorgang:
Der Student Markus erhält einen Auftrag. Wir definieren eine Variable X: Betrag, den
Markus einnimmt.

Welche Beträge kann Markus einnehmen, bzw. welche Werte kann X annehmen? Es
sind 5, 10, 20 und 40. Mit welcher Wahrscheinlichkeit nimmt X den Wert 20 an? Das ist
wieder 0,3. Wir nennen X eine Zufallsvariable und konstruieren nun eine Wahrschein-
lichkeitstabelle für X (Tabelle 3.1).

Tab. 3.1: Wahrscheinlichkeitstabelle für die Einnahmen in der Serviceagentur.

Ausprägung x1 x2 x3 x4
xi 5 10 20 40
f (xi ) 0,2 0,4 0,3 0,1
Einkaufen Rasenmähen Fensterputzen Umzug
Fegen Wagenwaschen
0,1 + 0,1 0,3 + 0,1

Eine Zufallsvariable wird großbuchstabig bezeichnet. Die Ausprägung als Wert, den eine
Zufallsvariable annehmen kann, wird kleinbuchstabig notiert. Hier ist sie durchnumme-
riert: x1 = 5, x2 = 10, x3 = 20 und x4 = 40. Sie ist daher diskret. Die zu einer Ausprägung
3.1 Diskrete Zufallsvariablen 95

xi gehörende Wahrscheinlichkeit ist f (xi ). Abbildung 3.1 fasst die Wahrscheinlichkeiten


zusammen. Die Summe der Wahrscheinlichkeiten f (xi ) ist natürlich eins.

0,4
Wahrscheinlichkeit f(x)

0,3

0,2

0,1

0
0 5 10 15 20 25 30 35 40 45
Einnahme x

Abb. 3.1: Stabdiagramm der Wahrscheinlichkeiten von X.

Diskrete Zufallsvariable

Gegeben ist ein Zufallsvorgang mit einer abzählbaren Ergebnismenge ω (siehe Seite
55). Jedem Ergebnis wird eine reelle Zahl xi (i = 1, 2, . . .) zugeordnet. Die Wahr-
scheinlichkeit des Ergebnisses ist f (x). Die Wahrscheinlichkeitsfunktion lautet

f (xi ) für x = xi ,
P (X = x) = f (x) = (3.1)
0 sonst.

f (x) ist also für alle x ∈ R definiert.

Die etwas holprige Definition der Wahrscheinlichkeitsfunktion bedeutet nichts anderes


als das, was wir schon in den Grafiken der Agentur gesehen haben: Für eine Ausprä-
gung xi gibt es eine positve Wahrscheinlichkeit. Für die Werte zwischen den xi ist die
Wahrscheinlichkeit gleich null.

Wir wollen nun einige Fragen beantworten:

Mit welcher Wahrscheinlichkeit bekommt Markus genau 20 e?


P (X = 20) = f (20) = 0,3.
Mit welcher Wahrscheinlichkeit bekommt Markus genau 30 e?
P (X = 30) = f (30) = 0.
Mit welcher Wahrscheinlichkeit bekommt Markus höchstens 10 e?
P (X ≤ 10) = P (X = 5)+P (X = 10) = f (5)+f (10) = 0,2+0,4 = 0,6 (Abbildung 3.2).
96 3 Zufallsvariablen

Mit welcher Wahrscheinlichkeit bekommt Markus höchstens 15 e?


P (X ≤ 15) = P (X = 5) + P (X = 10) = 0,2 + 0,4 = 0,6 (Abbildung 3.3).
Mit welcher Wahrscheinlichkeit bekommt Markus weniger als 10 e?
P (X < 10) = P (X = 5) = 0,2.
Mit welcher Wahrscheinlichkeit bekommt Markus mindestens 20 e?
P (X ≥ 20) = P (X = 20) + P (X = 40) = f (20) + f (40) = 0,3 + 0,1 = 0,4 (Abbil-
dung 3.4).
Mit welcher Wahrscheinlichkeit bekommt Markus mehr als 10 e?
P (X > 10) = P (X ≥ 20) = 0,4.
Mit welcher Wahrscheinlichkeit bekommt Markus mindestens 12 e? Das ist wieder
P (X ≥ 12) = P (X ≥ 20) = P (X = 20) + P (X = 40) = f (20) + f (40) = 0,3 + 0,1 = 0,4
(Abbildung 3.5).
Mit welcher Wahrscheinlichkeit bekommt Markus mindestens 10 e und höchstens 20 e?
P (10 ≤ X ≤ 20) = P (X = 10) + P (X = 20) = f (10) + f (20) = 0,4 + 0,3 = 0,7
(Abbildung 3.6).
Mit welcher Wahrscheinlichkeit bekommt Markus mehr als 5 e, aber höchstens 20 e?
Hier verwenden wir eine Rechenregel für Zufallsvariablen: Es ist

P (b < X ≤ a) = P (X ≤ a) − P (X ≤ b),

hier P (5 < X ≤ 20) = P (X ≤ 20) − P (X ≤ 5) = 0, 9 − 0, 2 = 0, 7.

Betrachten wir noch einmal P (X ≤ 10) = 0,6. Wir wollen das bezeichnen als
F (10) = 0,6. 0,6 ist der Wert der Verteilungsfunktion F von X an der Stelle 10.

Die Funktion F (x) ist eine Summe von f (xi )-Werten, deshalb bekommt sie ein großes F .
Welchen Sinn hat die Einführung von F ? Sie erleichtert uns beispielsweise das Hantieren
von Verteilungswerten in Formeln.

Es ist also analog zu den bereits oben berechneten Beispielen: F (12) = 0,6, F (2) = 0,
F (20) = 0,9, F (40) = 1, F (200) = 1 usw.

Abbildung 3.7 zeigt die Verteilungsfunktion F (x).

Eigenschaften der Verteilungsfunktion

Es gilt für alle Zufallsvariablen:

1. F (x) ist für alle x ∈ R definiert.


2. 0 ≤ F (x) ≤ 1.
3. F (x) ist nicht fallend, ist für alle x also konstant oder steigend (genannt monoton
steigend).
4. F (x) ist rechtsseitig stetig.
5. P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a).
3.1 Diskrete Zufallsvariablen 97

0,4 0,4
0,3 0,3
0,2 0,2
0,1 0,1
0 0
0 10 20 30 40 0 10 15 20 30 40

Abb. 3.2: P (X ≤ 10). Abb. 3.3: P (X ≤ 15).

0,4 0,4
0,3 0,3
0,2 0,2
0,1 0,1
0 0
0 10 20 30 40 0 10 12 20 30 40
Abb. 3.4: P (X ≥ 20). Abb. 3.5: P (X ≥ 12).

0,4
0,3
0,2
0,1
0
0 10 20 30 40

Abb. 3.6: P (10 ≤ X ≤ 20).

Erläuterung der Eigenschaften:

1. Das haben wir beispielsweise bei P (X ≤ 15) = 0,6 oder F (200) = 1 gesehen. Es kann
für jeden Wert von x eine Wahrscheinlichkeit P (X ≤ x) angegeben werden.
2. F ist eine Wahrscheinlichkeit und kann deswegen nur in diesem Bereich liegen.
3. Bei steigendem x kann F nicht fallen, sonst müsste es negative Wahrscheinlichkeiten
geben.
4. Wir können von rechts beliebig nah an einen Wert x herangehen. Nähern wir uns von
rechts dem Wert 10 an: P (X ≤ 9) = 0,2, P (X ≤ 9,9) = 0,2, P (X ≤ 9,99999) = 0,2
usw. Aber es ist P (X ≤ 10) = 0,6. F hat also linksseitig Sprungstellen.
5. Das haben wir bereits in Beispiel 3.1 gesehen.
98 3 Zufallsvariablen

n 
Bemerkung: Im oberen Kasten wird statt i=1 f (xi ) lediglich i f (xi ) angegeben. Die
Kurznotation wird häufig verwendet, wenn klar ist, dass über alle möglichen xi summiert
wird. Oft hat man gar keine Variable für eine Obergrenze – hier n – definiert, etwa wenn
die Anzahl der xi unendlich groß ist.
3.1 Diskrete Zufallsvariablen 99

Beispiel 3.2 Viermal eine Münze werfen


In längeren Pausen zwischen zwei Vorlesungen sollte Michael eigentlich die Zeit effizi-
ent in der Bibliothek verbringen. Stattdessen spielt er lieber mit seinen Freunden ein
Münzwurfspiel. Jeder zahlt pro Runde einen bestimmten Einsatz. Er wirft dann in der
Runde viermal hintereinander eine Münze. Für jeden geworfenen Kopf bekommt der
Spieler 1 e.

Michael ist zurzeit Kassenwart und verwaltet die Einsätze. Um wenigstens ein bisschen
produktiv zu sein, möchte er die Wahrscheinlichkeit berechnen, dass er in einer Runde die
vollen Vier macht. Wir helfen. Zuerst überlegen wir, welche Ergebnisse der Zufallsvorgang
„viermal Würfeln“ hervorbringt. Das sind:

KKKK KKKZ KKZK KKZZ


KZKK KZKZ KZZK KZZZ
ZKKK ZKKZ ZKZK ZKZZ
ZZKK ZZKZ ZZZK ZZZZ
Es sind insgesamt 16 verschiedene Ergebnisse möglich. Jedes Ergebnis hat die gleiche
Wahrscheinlichkeit. Wir interessieren uns für die Anzahl von Kopf und ordnen zunächst
zu:
KKKK KKKZ KKZK KKZZ KZKK KZKZ KZZK KZZZ
4 3 3 2 3 2 2 1
ZKKK ZKKZ ZKZK ZKZZ ZZKK ZZKZ ZZZK ZZZZ
3 2 2 1 2 1 1 0
Wir definieren nun die Einnahme von Michael als Zufallsvariable X, nämlich X = „An-
zahl von Kopf“. Welche Ausprägungen kann X annehmen? Wir wollen eine Wahrschein-
lichkeitstabelle (Tabelle 3.2) erstellen. Dazu überlegen wir: 0 kommt einmal vor, also ist
P (X = 0) = 1/16, 1 kommt viermal vor, also ist P (X = 1) = 4/16 usw.

Tab. 3.2: Wahrscheinlichkeitstabelle von X: Anzahl von Kopf bei viermaligem Münzwurf.

xi 0 1 2 3 4
P (X = xi ) = f (xi ) 1/16 4/16 6/16 4/16 1/16
P (X ≤ xi ) = F (xi ) 1/16 5/16 11/16 15/16 16/16 = 1

X hat eine sogenannte symmetrische Verteilung: Die Wahrscheinlichkeiten f (xi ) sind


bezüglich der Achse x = 2 gespiegelt, wie man anhand von Abbildung 3.8 leicht erkennt.
100 3 Zufallsvariablen

6/16
Wahrscheinlichkeit f(x)

5/16

4/16

3/16

2/16

1/16

0
-1 0 1 2 3 4 5
Einnahme bei Münzwurfspiel x

Abb. 3.8: Wahrscheinlichkeit für das Auftreten von Kopf.

Es ist also beispielsweise die Wahrscheinlichkeit, dass Michael

mindestens 2 e einnimmt,

P (X ≥ 2) = P (X = 2) + P (X = 3) + P (X = 4) = 6/16 + 4/16 + 1/16 = 11/16,

höchstens 3 e einnimmt,

P (X ≤ 3) = F (3) = 15/16,

mindestens 1 e einnimmt,

P (X ≥ 1) = 1 − P (X ≤ 0) = 1 − 1/16 = 15/16,

mehr als 1, aber höchstens 3 e einnimmt,

P (1 < X ≤ 3) = P (X ≤ 3) − P (X ≤ 1) = F (3) − F (1) = 15/16 − 5/16 = 10/16.

Das Modell der Zufallsvariablen ermöglicht uns, reelle Zahlen als Kennwerte der Vertei-
lung zu errechnen. Wir nennen sie Verteilungsparameter. Die wichtigsten Parameter sind
Erwartungswert, Median und Varianz. Wir werden im Folgenden Erwartungswert und
Varianz näher beleuchten.

3.1.1 Lageparameter

Wir hatten uns in Beispiel 3.1 für die durchschnittliche Einnahme von Markus pro Auf-
trag interessiert. Die Wahrscheinlichkeitstabelle von X war
3.1 Diskrete Zufallsvariablen 101

xi 5 10 20 40
f (xi ) 0,2 0,4 0,3 0,1

Man könnte für die Ermittlung des Durchschnitts einfach die Werte aufsummieren und
durch 4 teilen, also (5 + 10 + 20 + 40)/4. Allerdings würden wir hier weit am Durch-
schnittswert vorbeizielen, denn 10 kommt immerhin viermal so häufig vor wie 40. Also
müssen wir die Ausprägungen noch mit den Wahrscheinlichkeiten gewichten und erhalten
den Durchschnitt, der bei einer Zufallsvariablen Erwartungswert genannt wird, als

E(X) = 5 e · 0,2 + 10 e · 0,4 + 20 e · 0,3 + 40 e · 0,1 = 1 e + 4 e + 6 e + 4 e = 15 e.

Markus nimmt also auf lange Sicht pro Aufrag im Mittel 15 e ein.

Erwartungswert der diskreten Zufallsvariablen

Der Wert, den alle möglichen (unendlich viele) Realisationen der Zufallsvariablen
X im Durchschnitt annehmen, ist der Erwartungswert. Er berechnet sich bei einer
diskreten Zufallsvariablen als

E(X) = x1 · f (x1 ) + x2 · f (x2 ) + ... = xi · f (xi ). (3.4)
i

Die durchschnittlichen Einnahmen aus dem Münzwurf in Beispiel 3.2 ergeben sich als
1 4 6 4 1 1
E(X) = 0 · +1· +2· +3· +4· = · (0 + 4 + 12 + 12 + 4) = 2.
16 16 16 16 16 16
Um von einem echten Gewinn zu sprechen, müsste noch ein Einsatz dazukommen, der
bei jeder Runde bezahlt werden muss. Um aber das Einführungsbeispiel nicht unnötig
zu verkomplizieren, wurde diese Ergänzung weggelassen.

3.1.2 Varianz

Der Erwartungswert als Lageparameter gibt uns die Größenordnung der Realisationen
an. Jedoch ist auch die Schwankungsbreite der Realisationen informativ.

Beispiel 3.3 Bügelleistungen von Alma und Zelda


Wir wollen uns ein spezielles Beispiel zu diesem Punkt überlegen. Die Managerin Paula
hat einen großen Bedarf an frisch gebügelten Blusen. Da sie selbst keine Zeit für diese
Arbeiten hat, gibt sie die Blusen an die Hausfrauen Alma und Zelda, die diese für ein
geringes Entgeld stärken und bügeln. Die Zahl der Teile, die Alma und Zelda schaffen,
schwankt von Woche zu Woche.
102 3 Zufallsvariablen

Nehmen wir uns zuerst die Bügelleistung von Alma vor. Wir nennen die Zahl der Blusen,
die sie in einer Woche schafft, die Zufallsvariable X. Die Wahrscheinlichkeiten für X sind
uns in der Wahrscheinlichkeitstabelle 3.3 vorgegeben.

Tab. 3.3: Wahrscheinlichkeitstabelle für Almas Bügelleistung.

Zahl der gebügelten Blusen xi 3 4 5 6 8


Wahrscheinlichkeit f (xi ) 0,1 0,3 0,3 0,2 0,1

Wie viele Teile schafft Alma durchschnittlich pro Woche? Das verrät uns der Erwartungs-
wert

E(X) = 3 · 0,1 + 4 · 0,3 + 5 · 0,3 + 6 · 0,2 + 8 · 0,1 = 5.

Sie schafft also im Durchschnitt pro Woche fünf Blusen. Entsprechend ist die Bügelleis-
tung von Zelda gegeben durch die Zufallsvariable Y in Tabelle 3.4

Tab. 3.4: Wahrscheinlichkeitstabelle für Zeldas Bügelleistung.

Zahl der gebügelten Blusen yi 0 2 4 10 12


Wahrscheinlichkeit f (yi ) 0,1 0,3 0,3 0,2 0,1

Die mittlere Leistung berechnet sich als

E(Y ) = 0 · 0,1 + 2 · 0,3 + 4 · 0,3 + 10 · 0,2 + 12 · 0,1 = 5.

Auch Zelda schafft im Durchschnitt fünf Blusen pro Woche. Beide Büglerinnen haben
die gleiche Durchschnittsleistung. Wenn Paula sich für eine der beiden entscheiden sollte
– welche sollte sie wählen? Ein Blick auf die einzelnen Zahlen enthüllt, dass die Zahlen
der Blusen bei Zelda stärker schwanken als bei Alma. Almas Zahlen liegen zwischen drei
und acht, Zeldas dagegen zwischen null und zwölf.

Für den Vergleich werden wir einen Kennwert für die Streubreite der Daten, einen Streu-
ungsparameter, verwenden – die Varianz. Wir hatten schon in der deskriptiven Statistik
(Seite 42) eine nahe Verwandte kennengelernt, die Stichprobenvarianz. Hier dagegen be-
rechnen wir die Varianz einer Zufallsvariablen X. Wir nennen sie Varianz der Grundge-
samtheit und bezeichnen sie als V (X).

Wir wollen die Berechnung der Varianz schrittweise vorführen. Ausgehend von den
Ausprägungen xi ermitteln wir die Abstände der Einzelwerte vom Durchschnitt, also
xi − E(X).

xi − E(X) : 3 − 5 = −2; 4 − 5 = −1; 5 − 5 = 0; 6 − 5 = 1; 8 − 5 = 3.


3.1 Diskrete Zufallsvariablen 103

Damit große Abweichungen stärker zu Buche schlagen als kleine, werden die Abstände
quadriert.
2
(xi − E(X))2 : (3 − 5) = 4; (4 − 5)2 = 1; (5 − 5)2 = 0;
(6 − 5)2 = 1; (8 − 5)2 = 9.

Da wieder manche Ausprägungen häufiger realisiert werden als andere, gewichten wir die
Quadrate mit der entsprechenden Häufigkeit f (xi ).

(xi − E(X))2 · f (xi ) : 4 · 0,1 = 0,4; 1 · 0,3 = 0,3; 0 · 0,3 = 0;


1 · 0,2 = 0,2; 9 · 0,1 = 0,9.

Wir summieren nun auf und erhalten

V (X) = 0,4 + 0,3 + 0 + 0,2 + 0,9 = 1,8.

Fertig ist die Varianz. Allerdings hat auch sie wieder, wie ihr Äquivalent in der deskripti-
ven Statistik, eine quadratische Einheit, hier Zahl der Blusen zum Quadrat. Die Wurzel

aus der Varianz ergibt die Standardabweichung der Grundgesamtheit 1,8 ≈ 1,3416 mit
der Einheit Zahl der Blusen. Mit etwas mathematischer Großzügigkeit könnten wir sagen,
dass die durchschnittliche Abweichung der Blusenzahl vom Mittelwert ca. 1,34 beträgt,
oder „Meistens werden pro Woche 5 ± 1,34 Blusen gebügelt“.

Nun nehmen wir uns die Werte von Zelda vor. Da wir schon wissen, wie man eine Varianz
berechnet, führen wir das hier in Tabelle 3.5 vor.

Tab. 3.5: Berechnung der Varianz von Zeldas Bügelleistung.

i yi f (yi ) yi − E(Y ) (yi − E(Y ))2 (yi − E(Y ))2 · f (yi )


1 0 0,1 −5 25 2,5
2 2 0,3 −3 9 2,7
3 4 0,3 −1 1 0,3
4 10 0,2 5 25 5
5 12 0,1 7 49 4,9
Summe 1 15,4

Wir sehen, dass die Varianz V (Y ) von Zelda fast das Zehnfache der Varianz V (X) von
Alma beträgt. Die größeren Ausschläge der Bügelleistung von Zelda wurden also berück-

sichtigt. Die Standardabweichung ist nun 15,4 ≈ 3,9243. Übersetzen wir das analog
zu oben, hieße das: „In den meisten Wochen schafft Zelda ungefähr 5 ± 4 Blusen.“ Wir
kommen zum Vergleich von Alma und Zelda zurück. Für eine gleichmäßige Versorgung
der Garderobe von Paula wäre Alma wohl die bessere Wahl, denn Zelda liefert häufig zu
wenige Blusen, da hilft es auch nichts, dass sie dann wieder mehr bügelt.
104 3 Zufallsvariablen

Varianz einer diskreten Zufallsvariablen

Die Varianz einer diskreten Zufallsvariablen X wird berechnet als



V (X) = (x1 −E(X))2 ·f (x1 )+(x2 −E(X))2 ·f (x2 )+. . . = (xi − E(X))2 · f (xi ).
i
(3.5)

Bei Anwendung des Verschiebungssatzes wird die Varianz berechnet mithilfe von
 
 2
2 2 2 2
V (X) = x1 ·f (x1 )+x2 ·f (x2 )+. . .−(E(X)) = xi · f (xi ) −[E(X)] . (3.6)
i

Beide Berechnungsarten sind mathematisch äquivalent!

In Beispiel 3.3 hatten wir schöne runde Erwartungswerte und das händische Berechnen
fiel uns leicht. Was aber, wenn wir so einen richtig fiesen Erwartungswert haben?

Beispiel 3.4 Kopfrechen bei einem Auswahltest für Lehrlinge


Ein großes Unternehmen lädt alljährlich viele Lehrlinge zu einen Auswahltest ein. Unter
anderem müssen sie im Kopf einfache Rechenaufgaben lösen und die richtige Lösung
auf einem Blatt Papier ankreuzen. Wir bezeichnen die Zahl der Fehler einer Person als
Zufallsvariable X. Von Interesse ist neben der durchschnittlichen Leistung auch ihre
Zusammensetzung: Sind alle Lehrlinge in etwa gleich gut, oder gibt es viele sehr gute
und entsprechend auch sehr schlechte Leistungen? Es stellte sich die in Tabelle 3.6
aufgeführte Verteilung von X heraus.

Tab. 3.6: Wahrscheinlichkeitstabelle im Beispiel für den Verschiebungssatz.

Zahl der Fehler xi 0 1 2 3 4


Wahrscheinlichkeit f (xi ) 0,26 0,25 0,22 0,20 0,07

Als Erwartungswert erhalten wir hier 1,57, was gerne zur Übung nachgerechnet werden
darf. Mit diesem Wert die Ausdrücke (xi − E(X))2 · f (xi ) von Hand auszurechnen, ist
mühsam. Wie in der deskriptiven Statistik (Seite 45) kann man allerdings auch hier den
Verschiebungssatz (Formel 3.6) anwenden, der ein mathematisches Gesetz ist und daher
für viele „artverwandte“ Aufgabenstellungen brauchbar.

In Beispiel 3.4 erhalten wir

V (X) = 02 · 0,26 + 12 · 0,25 + 22 · 0,22 + 32 · 0,2 + 42 · 0,07 − 1,572


= 0 + 0,25 + 0,88 + 1,8 + 1,12 − 1,572 = 4,05 − 2,4649 = 1,5851.
3.2 Diskrete Verteilungen 105

Was wir in diesem Abschnitt gelernt haben, ist im Wesentlichen alles, was man über
diskrete Zufallsvariablen wissen muss.

3.2 Diskrete Verteilungen – Ist Dichotomie eine


Urnenkrankheit?

Bisher hatten wir „selbstgebastelte“ diskrete Verteilungen kennengelernt. Es gibt aller-


dings einige diskrete Verteilungen, die allgemein bekannt sind, deren Eigenschaften al-
so hinlänglich erforscht sind und die häufig verwendet werden. Man nennt sie theore-
tische Verteilungen. Sie haben aber alle Eigenschaften einer diskreten Zufallsvariablen,
wie wir sie oben kennengelernt haben. Wir wollen insbesondere drei Verteilungen un-
tersuchen, nämlich die hypergeometrische Verteilung, die Binomialverteilung und die
Poisson-Verteilung. Die ersten zwei basieren auf dem Urnenmodell.

3.2.1 Hypergeometrische Verteilung

Wir gehen hier von einem Urnenmodell ohne Zurücklegen aus: In der Urne befinden sich
N viele Kugeln zweier Sorten. Wissenschaftlich korrekt nennt man zwei Sorten Kugeln
in der Urne übrigens dichotome Grundgesamtheit. Es sind M viele Kugeln erster Sorte in
der Urne und entsprechend N − M viele Kugeln zweiter Sorte. Es werden n viele Kugeln
ohne Zurücklegen aus der Urne gezogen. Wir definieren die Zufallsvariable X: Zahl der
Kugeln erster Sorte unter den n gezogenen Kugeln.

Beispiele für die Anwendung der hypergeometrischen Verteilung sind die Wahrscheinlich-
keiten,

aus einem Behälter mit 100 Losen, davon zehn Gewinnlosen, drei Gewinnlose zu ziehen,
bei einer Qualitätskontrolle aus einer Lieferung von 100 großen Dosen Tunfisch, bei
denen 10 % zu wenig gefüllt sind, fünf korrekt befüllte Dosen zu ziehen,
aus einer Gruppe von 50 Personen, von denen 25 eine Vorliebe für frisch Gekochtes
haben, für einen Geschmackstest unter zehn zufällig ausgewählten Personen drei ohne
diese Vorliebe zu erhalten.

Die Wahrscheinlichkeitsfunktion der hypergeometrischen Verteilung sieht etwas schröck-


lich aus. Wir haben aber auf Seite 88 schon den Binomialkoeffizienten kennengelernt.
Warum sich die Wahrscheinlichkeitsfunktion aus drei Binomialkoeffizienten zusammen-
setzt, muss uns nicht weiter interessieren. Wir akzeptieren die Formel und wenden sie an.
106 3 Zufallsvariablen

Wahrscheinlichkeit einer hypergeometrisch verteilten Zufallsvariablen

Die Zufallsvariable X entstammt einer dichotomen Grundgesamtheit (zwei Sorten


Kugeln).

Die Wahrscheinlichkeitsfunktion für X: Zahl der gezogenen Kugeln erster Sorte lau-
tet


⎪ M N −M



⎨ x n − x für x = 0, 1, . . . , n,
f (x) = h(x|n; M ; N ) = N (3.7)



⎪ n

⎩0 sonst.

Dabei ist

N die Zahl der Kugeln in der Urne,


M die Zahl der Kugeln erster Sorte in der Urne,
n die Zahl der ohne Zurücklegen gezogenen Kugeln,
x die Zahl der Kugeln erster Sorte unter den n gezogenen.

Da die hypergeometrische Verteilung prominent ist, bekommt sie statt f (x) eine eige-
ne Bezeichnung h. Die Werte n, M und N werden Parameter der hypergeometrischen
Verteilung genannt. Sie sind ihre Kennwerte und genügen als Information, um die Wahr-
scheinlichkeiten zu berechnen. Die Verteilungsfunktion H ist wieder wie oben die Summe
der betroffenen Wahrscheinlichkeiten. Analog zu f und F wird auch hier die Verteilungs-
funktion mit großem H notiert.

Nun wollen wir ein Beispiel betrachten.

Beispiel 3.5 Auswahlverfahren für Betriebspsychologen


Im bekannten großen Unternehmen GlobalPlay sollen vier Betriebspsychologen ein-
gestellt werden, die nicht nur den Mitarbeitern beratend zur Seite stehen, sondern
beispielsweise auch die persönliche Eignung von Bewerbern beurteilen oder in Work-
shops die Mitarbeitermotivation erhalten sollen. Mit die wichtigste Eigenschaft des
zukünftigen Psychologen bei GlobalPlay ist eine ausgeprägte soziale Kompetenz.

Für die Stelle haben sich elf Psychologen beworben. Davon bringen allerdings nur
sechs die geforderte soziale Kompetenz mit – eine Tatsache, die nur uns, aber nicht
GlobalPlay bekannt ist. Es werden schließlich vier Psychologen eingestellt.

Wir fragen uns: Mit welcher Wahrscheinlichkeit erhält GlobalPlay zwei Personen, die zu
wenig soziale Kompetenz zeigen, also für die Stelle ungeeignet sind?
3.2 Diskrete Verteilungen 107

Wir wollen uns zunächst überlegen, was an Informationen gegeben ist. Wir haben es
mit Bewerbern zu tun, die für den Job geeignet oder nicht geeignet sind. Wir könnten
also von einem Urnenmodell mit zwei Sorten Kugeln ausgehen. Da wir jede ausgewählte
Person nur einmal in der Auswahl haben möchten, handelt es sich hierbei um ein Mo-
dell ohne Zurücklegen. Wir nennen die Zahl der Personen, die ungeeignet sind, Kugeln
erster Sorte und definieren X: Zahl der ungeeigneten Personen unter den vier zufällig
ausgewählten.

Welche Werte haben die Modellparameter? Es liegen N = 11 Kugeln in der Urne, davon
M = 5 Kugeln erster Sorte. n = 4 Kugeln werden ohne Zurücklegen gezogen. Das ist ein
Zufallsvorgang, den wir auch als Stichprobe bezeichnen könnten.

Zurück zu unserer Frage: Mit welcher Wahrscheinlichkeit stellt GlobalPlay zwei unge-
eignete Personen ein? Unter Zuhilfenahme des Binomialkoeffizienten (Seite 88) und der
Formel 3.7 erhalten wir

5 6 5! 6!
2 2 · 30
P (X = 2) = h(2|n = 4; M = 5; N = 11) = = 2!3! 2!4! = ≈ 0,4545.
11 11! 66
4 4!7!

Es würden also in ca. 50 % aller Stichproben zwei ungeeignete Personen die Stelle erhal-
ten.

Wir wollen zuerst einmal eine komplette Wahrscheinlichkeitsfunktion für X erstellen. Sie
ist in Tabelle 3.7 zusammengefasst.

Wir berechnen nun einige ausgewählte Wahrscheinlichkeiten.

Mit welcher Wahrscheinlichkeit sind alle vier geeignet? Das ist äquivalent zur Wahr-
scheinlichkeit, dass keine Person ungeeignet ist, also
3
P (X = 0) = h(0|4; 5; 7) = ,
66
wie wir der Wahrscheinlichkeitstabelle 3.7 entnehmen.
Mit welcher Wahrscheinlichkeit sind höchstens zwei Personen ungeeignet? Die hyper-
geometrische Verteilung ist diskret, wir werden also hier wieder die Säulen addieren:
3 20 30 53
P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) = + + = ≈ 0,8030.
66 66 66 66
Mit welcher Wahrscheinlichkeit sind mindestens drei Personen ungeeignet? Es ist
12 1 13
P (X ≥ 3) = P (X = 3) + P (X = 4) = + = ≈ 0,1970.
66 66 66
108 3 Zufallsvariablen

Tab. 3.7: Beispiel 3.5 (Betriebspsychologen): Wahrscheinlichkeiten der hypergeometrisch


verteilten Zufallsvariablen.

x h(x|n;M;N)
56 5! 6! 1·2·3·4·5 1·2·3·4·5·6 5·6
0 0!5! · 4!2! 1·1·2·3·4·5 · 1·2·3·4·1·2
0 114 = 11!
= 1·2·3·4·5·6·7·8·9·10·11 = 2
8·9·10·11 = 1
22 = 3
66
4 4!7! 1·2·3·4·1·2·3·4·5·6·7 2·3·4

56 5! 6! 1·2·3·4·5 1·2·3·4·5·6 5·4·5·6


1 1!4! · 3!3! 1·1·2·3·4 · 1·2·3·1·2·3
1 113 = 11!
= 1·2·3·4·5·6·7·8·9·10·11 = 2·3
8·9·10·11 = 10
33 = 20
66
4 4!7! 1·2·3·4·1·2·3·4·5·6·7 2·3·4

56 5! 6! 1·2·3·4·5 1·2·3·4·5·6 4·5·5·6


2 2 2!3! · 2!4! 1·2·1·2·3 · 1·2·1·2·3·4 2·2 5 30
2 11 = 11!
= 1·2·3·4·5·6·7·8·9·10·11 = 8·9·10·11 = 11 = 66
4 4!7! 1·2·3·4·1·2·3·4·5·6·7 2·3·4

56 5! 6! 1·2·3·4·5 1·2·3·4·5·6 4·5·6


3 3!2! · 1!5! 1·2·3·1·2 · 1·1·2·3·4·5
3 111 = 11!
= 1·2·3·4·5·6·7·8·9·10·11 = 2
8·9·10·11 = 2
11 = 12
66
4 4!7! 1·2·3·4·1·2·3·4·5·6·7 2·3·4

56 5! 6! 1·2·3·4·5 1·2·3·4·5·6 5


4 4!1! · 0!6! 1·2·3·4·1 · 1·1·2·3·4·5·6
4 110 = 11!
= 1·2·3·4·5·6·7·8·9·10·11 = 1
8·9·10·11 = 1
66
4 4!7! 1·2·3·4·1·2·3·4·5·6·7 2·3·4

Mit welcher Wahrscheinlichkeit sind mindestens drei Personen geeignet? Das entspricht
der Wahrscheinlichkeit, dass höchstens eine Person ungeeignet ist, also
3 20 23
P (X ≤ 1) = P (X = 0) + P (X = 1) = + = ≈ 0,3485.
66 66 66
Die händische Berechnung der Wahrscheinlichkeiten ist zwar nicht schwierig, aber bei
wachsenden Fakultäten (Seite 88) können die Zwischenwerte sehr groß werden. Das kann
bei einfach strukturierten Taschenrechnern zu einem Überlauf des Rechenwerks führen.
Es gibt aber mittlerweile genügend hochwertige Software, die die hypergeometrischen
Wahrscheinlichkeiten korrekt berechnet. Wir werden außerdem weiter unten sehen, dass
man unter Umständen auch die Normalverteilung dazu verwenden kann.

Es bleiben noch die beiden Kennwerte der Verteilung: Erwartungswert und Varianz. Wir
können sie mit einer Formel ermitteln.
3.2 Diskrete Verteilungen 109

Verteilungsparameter der hypergeometrischen Verteilung

Der Erwartungswert der hypergeometrisch verteilten Zufallsvariablen X berechnet


sich als
M
E(X) = n · (3.8)
N
und ihre Varianz als

M M N −n
V (X) = n · · 1− · . (3.9)
N N N −1

N −n
Der Quotient in der Varianz sorgt dafür, dass die Varianz mit fortschreitender
N −1
Entnahme einer Kugel immer kleiner wird. Er wird Korrekturfaktor genannt.

Für Beispiel 3.5 erhalten wir


M 5
E(X) = n · =4· = 1, 818
N 11
und

M M N −n 5 5 11 − 4
V (X) = n · · 1− · =4· · 1− · = 0, 694.
N N N −1 11 11 11 − 1

3.2.2 Binomialverteilung

Wir gehen jetzt von einem Urnenmodell mit Zurücklegen aus: In der Urne befinden sich
N viele Kugeln zweier Sorten. Es sind M viele Kugeln erster Sorte in der Urne. Ihr Anteil
an allen Kugeln beträgt
M
θ=
N
(θ ausgesprochen als „klein-theta“ oder kurz „teta“). Es werden n viele Kugeln mit
Zurücklegen aus der Urne gezogen. Wir definieren die Zufallsvariable X: Zahl der Kugeln
erster Sorte unter den n gezogenen Kugeln. X ist binomialverteilt.

Wir erinnern uns, dass das Modell mit Zurücklegen eine Folge unabhängiger Ereignisse
nachbildet (Seite 89). Beispiele für die Anwendung der Binomialverteilung sind,

im Rahmen einer Verkehrszählung bei 20 Fahrzeugen drei LKWs zu erhalten,


bei zehnmaligem Würfeln mindestens dreimal eine Sechs zu erzielen,
aus einer Gruppe von Personen mit 50%igem Frauenanteil an zehn Tagen hintereinan-
der insgesamt genau acht Frauen zufällig auszuwählen.
110 3 Zufallsvariablen

Wahrscheinlichkeit einer binomialverteilten Zufallsvariablen

Die Zufallsvariable X entstammt einer dichotomen Grundgesamtheit (zwei Sorten


Kugeln).

Die Wahrscheinlichkeitsfunktion für X: Zahl der gezogenen Kugeln erster Sorte lau-
tet


⎨ n · θx · (1 − θ)n−x für x = 0,1, . . . n,
f (x) = b(x|n; θ) = x (3.10)

⎩0 sonst.

Dabei ist
θ Anteil der Kugeln erster Sorte in der Urne,
n die Zahl der mit Zurücklegen gezogenen Kugeln,
x die Zahl der Kugeln erster Sorte unter den n gezogenen.

Die Wahrscheinlichkeit der Binomialverteilung wird mit b bezeichnet. Die Parameter der
Binomialverteilung sind n und θ. Sie genügen als Information, um die Wahrscheinlich-
keiten zu berechnen. Wir sehen, dass N und M nicht explizit benötigt werden, sodass
die Zahl der Kugeln in der Urne nicht bekannt sein muss.

Verteilungsparameter der binomialverteilten Zufallsvariablen

Der Erwartungswert der binomialverteilten Zufallsvariablen X berechnet sich als

E(X) = n · θ (3.11)

und ihre Varianz berechnet sich als

V (X) = n · θ · (1 − θ) . (3.12)

Die Verteilungsfunktion B ist wieder wie oben die Summe der betroffenen Wahrschein-
lichkeiten. Analog zu f und F wird auch hier die Verteilungsfunktion mit großem B
notiert.

Beispiel 3.6 Verkehrszählung in Entenhausen


In Entenhausen soll nach dem Willen der Privatpersonen, aber gegen den Willen der
Geschäftsleute eine Umgehungsstraße um die Innenstadt gebaut werden. Um den Be-
darf für diese Straße zu untersuchen, wird eine Verkehrszählung angeordnet. Hier ist
nicht nur die Zahl aller Fahrzeuge informativ, sondern auch der Anteil der Lastwagen.
Erfahrungsgemäß beträgt der Anteil der Lastwagen an allen Kraftfahrzeugen 20 %. Es
wurden um zehn Uhr vormittags die ersten zehn Fahrzeuge stichprobenartig erfasst.
Wir definieren als Zufallsvariable X: Zahl der LKW unter den n = 10 Fahrzeugen.
3.2 Diskrete Verteilungen 111

Wie ist X verteilt? Es liegt eine Stichprobenentnahme vor, was auf ein Urnenmodell
hindeutet. Die Grundgesamtheit ist dichotom: Wir teilen die Fahrzeuge in Lastwagen –
kein Lastwagen ein. Um welches Modell handelt es sich? Die Gesamtzahl der Fahrzeuge
ist nicht bekannt, zudem ist es möglich, dass ein Fahrzeug mehrmals erfasst wird. Also
gehen wir am besten von einem Modell mit Zurücklegen aus.

Ein Modell mit Zurücklegen bei dichotomer Grundgesamtheit bedeutet: X ist binomial-
verteilt, hier mit den Parametern n = 10 und θ = 0,2.

Mit welcher Wahrscheinlichkeit sind bei den zehn Fahrzeugen vier Lastwagen enthal-
ten? Gesucht ist hier P (X = 4). Wir berechnen also

10 10!
P (X = 4) = b(4|10; 0,2) = · 0,24 · 0,86 = · 0,24 · 0,86
4 4!(10 − 4)!
1 · 2 · 3 · 4 · 5 · 6 · 7 · 8 · 9 · 10
= · 0,0016 · 0,2621
1·2·3·4·1·2·3·4·5·6
7 · 8 · 9 · 10
= · 0,0016 · 0,2621 = 210 · 0,0016 · 0,2621 = 0,0881.
2·3·4

Mit welcher Wahrscheinlichkeit ist kein LKW dabei?



10
P (X = 4) = b(4|10; 0,2) = · 0,20 · 0,810 = 1 · 1 · 0,810 = 0,1074.
0

Mit welcher Wahrscheinlichkeit sind höchstens zwei LKWs dabei? Das ist

P (X ≤ 2) = B(2|10; 0,2) = P (X = 0) + P (X = 1) + P (X = 2).

Es ist P (X = 0) = 0,1074, wie wir von oben wissen. Wir berechnen noch

10
P (X = 1) = · 0,21 · 0,89 = 10 · 0,2 · 0,1342 = 0,2684
1

und

10
P (X = 2) = · 0,22 · 0,88 = 45 · 0,22 · 0,88 = 45 · 0,04 · 0,1678 = 0,3020.
2

Es ist also

P (X ≤ 2) = 0,1074 + 0,2684 + 0,3020 = 0,6778.

Mit welcher Wahrscheinlichkeit sind mindestens drei LKWs in der Stichprobe? Das
können wir als

P (X ≥ 3) = 1 − P (X ≤ 2) = 1 − 0,6778 = 0,3222

berechnen.
112 3 Zufallsvariablen

3.2.3 Poisson-Verteilung

Die Poisson-Verteilung als weitere diskrete Verteilung hat nichts mit Urnenmodellen zu
tun. Hier zählt die Zufallsvariable X die Zahl von Ereignissen innerhalb einer Einheit.
So kann X etwa die Zahl von alkoholisierten Jugendlichen sein, die an einem Samstag in
eine Klinik eingeliefert werden, oder die Zahl von Verkehrsunfällen, die innerhalb eines
Jahres auf einer Kreuzung passieren. Prominent ist das Hufschlagbeispiel. Hier wurde im
19. Jahrhundert in zehn Kavallerieregimentern des kaiserlich-preußischen Heeres über 20
Jahre hinweg die Zahl der durch Hufschlag getöteten Soldaten erfasst. Diese Zahlen sind
in der Tat näherungsweise Poisson-verteilt mit einem Erwartungswert von ca. 0,6 pro
Jahr und Regiment.

Wahrscheinlichkeit einer Poisson-verteilten Zufallsvariablen

Die Wahrscheinlichkeitsfunktion einer Poisson-verteilten Zufallsvariablen X lautet


⎧ −λ x
⎨e · λ für x = 0, 1, 2, . . . ,
f (x) = p(x|λ) = x! (3.13)
⎩0 sonst.

λ (ausgesprochen: „klein-lambda“) ist der Parameter der Poisson-Verteilung.

Der Erwartungswert der Poisson-Verteilung ist λ und auch ihre Varianz ist λ.

Als Besonderheit ist λ Erwartungwert und Varianz zugleich. Trotz der etwas einschüch-
ternden Wahrscheinlichkeitsfunktion ist die Poisson-Verteilung eine diskrete Verteilung
wie jede andere auch. Die Fakultät im Nenner kennen wir von Seite 88. e = 2, 718281 . . .,
Euler’sche Zahl genannt, ist nur eine Konstante und will auch so behandelt werden.

Wegen ihrer Bedeutung bekommt die Poisson-Verteilung statt f (x) eine eigene Bezeich-
nung p. Die Verteilungsfunktion P ist die Summe der betroffenen Wahrscheinlichkeiten.
Da für die Ausprägung von X keine sinnvolle Obergrenze angegeben werden kann, lässt
man aus pragmatischen Gründen die Obergrenze offen. Die Wahrscheinlichkeiten kon-
vergieren mit wachsendem x gegen Null, wie auch Abbildung 3.9 zeigt. Insgesamt ist die
Summe aller Wahrscheinlichkeiten aber eins.

Die Poisson-Verteilung wird gedächtnislos genannt, weil ein Ereignis x in einer Einheit
nicht von einem Ereignis in einer anderen Einheit abhängt.

Beispiel 3.7 Versuch für Drückerwerbung


In einem Psychologie-Seminar der Uni Entenhausen soll in einem Projekt das Nicht-
nein-sagen-Können von Menschen untersucht werden. An verschiedenen Stellen der
Fußgängerzone Entenhausens betreuen je zwei Studierende einen Stand. Hier werden
3.2 Diskrete Verteilungen 113

Passanten überredet, sich in die Unterschriftenliste eines Vereins einzutragen, der sich
der Erhaltung der geschlechtlichen Abstinenz vor der Ehe verschrieben hat. Es stellt
sich heraus, dass die Zahl der Passanten, die in einer Stunde unterschrieben haben,
Poisson-verteilt ist mit dem Durchschnitt 5. Der Parameter ist also λ = 5. Die Wahr-
scheinlichkeiten p(x|5) sind in Abbildung 3.9 dargestellt.

 










             




 

 
 


Abb. 3.9: Stabdiagramm der Unterschriftensammlung.

Die Wahrscheinlichkeiten für positive ganzzahlige Werte x sind jetzt

e−5 · 5x
p(x|5) = .
x!
Wir wollen wieder einige ausgewähle Fragen beantworten.

Mit welcher Wahrscheinlichkeit unterschreibt kein Passant in der nächsten Stunde?


e−5 · 50 e−5 · 1
P (X = 0) = p(0|5) = = = 0,0067.
0! 1
Mit welcher Wahrscheinlichkeit unterschreiben zwei Passanten in der nächsten Stunde?
e−5 · 52 e−5 · 25
P (X = 2) = p(2|5) = = = 0,0842.
2! 2
In wie viel Prozent der Stunden unterschreiben höchstens zwei Passanten?
e−5 · 51
P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) = 0,0067 + + 0,0842
1!
= 0,0067 + 0,0337 + 0,0842 = 0,1247,

also in ca. 12,5 % aller Stunden.


114 3 Zufallsvariablen

In wie viel Prozent aller Stunden unterschreiben mindestens vier Passanten?

P (X ≥ 4) = 1 − P (X ≤ 3) = 1 − (P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3)).

Wir brauchen noch


e−5 · 53 e−5 · 125
P (X = 3) = = = 0,1404
3! 6
und erhalten

P (X ≥ 4) = 1 − (0,0067 + 0,0337 + 0,0842 + 0,1404) = 1 − 0,2650 = 0,7350.

Also unterschreiben in ca. 75 % der Stunden mindestens vier Personen.

Die Poisson-Verteilung hat noch eine bedeutende Eigenschaft:

Reproduktivität der Poisson-Verteilung

Die Summe

n
Y = X1 + X2 + . . . + Xn = Xi
i=1

n vieler stochastisch unabhängiger Poisson-verteilter Zufallsvariablen, die jeweils


einen Parameter λi haben, ist wiederum Poisson-verteilt mit dem Parameter


n
λy = λi .
i=1

Wir nennen diese Eigenschaft Reproduktivität. Reproduktivität bedeutet, dass die


Summe von Zufallsvariablen eines Verteilungstyps wieder den gleichen Verteilungs-
typ hervorbringt.

Mit welcher Wahrscheinlichkeit unterschreiben genau 40 Passanten innerhalb von sechs


Stunden, wenn die Zahlen der Passanten pro Stunde stochastisch unabhängig sind? Wir
überlegen uns: Wenn in einer Stunde durchschnittlich fünf Passanten unterschreiben,
sind das in sechs Stunden 6 · 5 = 30 Passanten. Wir haben in jeder Stunde eine eigene
Zufallsvariable X, und wir definieren nun: X1 ist die Zahl der Unterschreiber in der ersten
Stunde, X2 ist die Zahl der Unterschreiber in der zweiten Stunde usw. Wir erhalten damit
eine neue Zufallsvariable

Y = X1 + X2 + X3 + X4 + X5 + X6 .

Die Poisson-Verteilung ist reproduktiv, und Y ist nun Poisson-verteilt mit λ = 30. Es ist
also
e−30 · 3040
P (Y = 40) = p(40|30) = .
40!
3.3 Stetige Zufallsvariablen 115

An dieser Stelle hören wir mit dem Rechnen auf, denn bei 40! geht mancher Taschen-
rechner in die Knie. Es sei verraten, dass das Ergebnis 0,0139 beträgt. In solchen Fällen
können wir die Wahrscheinlichkeiten der Poisson-Verteilung mithilfe der Normalvertei-
lung näherungsweise ermitteln.

3.3 Stetige Zufallsvariablen – Warum kann ein Fisch


nicht genau zehn Tage lang leben?

Stetige Zufallsvariablen sind konzeptionell völlig verschieden von den diskreten, wie wir
im Folgenden erfahren werden.

Beispiel 3.8 Lebensdauer von Fischen


Bei einer Fischart, die in einem Korallenriff lebt, schlüpfen die Jungtiere gleichzeitig aus
den Eiern. Ein Schwarm dieser Fische hat etwa eine Million Jungtiere hervorgebracht.
Ein Forscherteam untersucht die Lebensdauer eines solchen Fisches und hat festgestellt,
dass sich die Lebensdauer eines Fisches annähernd mithilfe einer Funktion beschreiben
lässt.

Wir definieren eine Zufallsvariable X: Lebensdauer eines Jungfisches in Tagen. Ein


Fisch wird zufällig ausgewählt. Mit welcher Wahrscheinlichkeit lebt er höchstens vier
Tage?

Die Forscher haben die folgende Verteilungsfunktion beobachtet:



⎨1 − 1 für alle x ≥ 0,
P (X ≤ x) = F (x) = x+1
⎩0 für x < 0.

Also ist die Wahrscheinlichkeit, dass der Fisch höchstens vier Tage lebt,
1
F (4) = 1 − = 0,8,
4+1
bzw. leben 80 % aller Jungfische höchstens vier Tage, was gleichbedeutend ist, dass nur
20 % der Fische die ersten vier Tage überleben.

In Abbildung 3.10 ist die Verteilungsfunktion grafisch dargestellt. Wir können an der
Stelle x = 4 den dazugehörigen Wert F (4) = 0, 8 der Verteilungsfunktion ablesen.

Wir könnten auch F (4,1) = 0,803921 oder F (4,01) = 0,800399 oder auch F (4,0001) =
0,800004 berechnen. Die Ausprägungen lassen sich also beliebig fein unterteilen, so fein,
dass sich für F (x) eben eine stetige Funktion ergibt. Deshalb wird X stetige Zufallsva-
riable genannt.
116 3 Zufallsvariablen




 










    



Abb. 3.10: Verteilungsfunktion der Überlebenszeit von Fischen.

Eine stetige Zufallsvariable unterscheidet sich stark von einer diskreten. Die Wahr-
scheinlichkeitsfunktion einer diskreten Zufallsvariablen kann mithilfe von Säulen gra-
fisch dargestellt werden. Zu jeder Säule gehört eine Ausprägung. Die Struktur der
Wahrscheinlichkeitsverteilung kann damit anschaulich verdeutlicht werden. Analog da-
zu erhalten wir bei der stetigen Zufallsvariablen die sogenannte Dichtefunktion, die
uns die Struktur der Verteilung angibt. Sie ist in Abbildung 3.11 wiedergegeben und
lautet hier

⎨ 1
für alle x ≥ 0,
f (x) = (x + 1)2

0 für x < 0.

Die Dichtefunktion ist keine Wahrscheinlichkeit. Es wird nämlich ausgehend vom Modell
der Stetigkeit angenommen, dass bei unendlich vielen Ausprägungen auch im kleinsten
Intervall ein bestimmter Wert so gut wie nie genau getroffen werden kann.

Für die Wahrscheinlichkeit einer stetigen Zufallsvariablen ist festgelegt

P (X = x) = 0. (3.14)

Es gilt daher auch

P (X ≤ x) = P (X < x). (3.15)


3.3 Stetige Zufallsvariablen 117

f(x)
1
0,9
0,8
0,7
0,6
P(X £ 4) = F(4)
0,5
0,4
0,3
0,2
0,1
0
0 1 2 3 4 5 6 7 8 9 10
Tage: x
Abb. 3.11: Dichtefunktion der Überlebenszeit von Fischen.

Wir können aber die Wahrscheinlichkeiten von Bereichen von X berechnen, zum Beispiel
P (X ≤ 3) oder P (X ≥ 1), auch für beliebig schmale Intervalle, zum Beispiel P (2 ≤ X ≤
3) oder P (2 ≤ X ≤ 2,01) usw.

Wegen P (X = x) = 0 ist dann auch P (X ≤ a) = P (X < a) bzw. P (X ≥ b) = P (X > b),


(a, b ∈ R), was die Arbeit mit stetigen Zufallsvariablen sehr angenehm macht.

Wir wollen nun die Wahrscheinlichkeit von X ≤ 4 betrachten: Sie ist die Fläche unter der
Dichtefunktion f (x). Dies ist gleichbedeutend mit dem Funktionswert der Verteilungs-
funktion F (x) an der Stelle x = 4. Wie erhalten wir F (4)? Wir müssen die Dichtefunktion
integrieren, also
 4  4
1
F (x) = f (u)du = du. (3.16)
−∞ −∞ (u + 1)2

Wir verwenden für die Integration im Allgemeinen die Hilfsvariable u, weil in Formeln x
schon als Obergrenze der Integration verwendet wird.

Verteilung einer stetigen Zufallsvariablen

Eine stetige Zufallsvariable X kann in jedem beliebig kleinen Intervall unendlich


viele verschiedene Werte x ∈ R annehmen.

Ihre Verteilungsfunktion P (X ≤ x) = F (x) ist das Integral der Dichtefunktion, also


 x
F (x) = f (u)du. (3.17)
−∞

Wegen der Stetigkeit der Dichtefunktion f (x) ist auch die Verteilungsfunktion F (x)
stetig.
118 3 Zufallsvariablen

Die erste Ableitung der Verteilungsfunktion F (x) ergibt wieder die Dichtefunktion
f (x). Ihre Grafik ermöglicht einen Eindruck vom Verhalten der Verteilung.

Da f (x) keine Wahrscheinlichkeit ist, können ihre Funktionswerte auch mal größer
als eins werden.

3.3.1 Geometrische Ermittlung der Verteilungsfunktion

Beispiel 3.9 Matrizentest


Für eine lernpsychologische Untersuchung wurde an einer sehr großen Zahl von Stu-
dierenden die Zeit für die Lösung eines Matrizentests gemessen. Wir definieren die
Zufallsvariable X: Zeit (min), die eine Person zum Bearbeiten des Matrizentests benö-
tigte. Es ergab sich die Dichtefunktion

⎪ 1
⎨ 100 · (x − 5)
⎪ für 5 ≤ x ≤ 15,
1 1
f (x) = − · (x − 15) für 15 < x ≤ 25,


10 100
⎩0 sonst.

In Abbildung 3.12 ist die Dichtefunktion grafisch dargestellt. Wir sehen, dass die Dich-
tefunktion symmetrisch zur Achse in x = 15 ist.

Dichte f(x)
0,1

0,08

0,06

0,04

0,02

0
0 5 10 15 20 25 30
Minuten x

Abb. 3.12: Dichtefunktion der Bearbeitungszeit im Matrizentest.

Die Studentin Marga will am Test teilnehmen. Mit welcher Wahrscheinlichkeit braucht
Marga höchstens zehn Minuten? Die gesuchte Wahrscheinlichkeit ist die Fläche unter
dem Graph der Dichtefunktion. Höchstens zehn Minuten heißt: Die Fläche von −∞ bis
3.3 Stetige Zufallsvariablen 119

10, wie in der Grafik 3.13. Da die Dichtefunktion für x < 5 ohnehin null ist, können wir
uns auf die Berechnung der Fläche zwischen 5 und 10 beschränken.

Die Wahrscheinlichkeit P (X ≤ 10) = F (10) können wir in diesem Beispiel geometrisch


lösen. Die vorliegende Fläche ist ein Dreieck. Wir erinnern uns an ferne Schultage, in
denen wir lernten, dass man die Fläche F eines rechtwinkligen Dreiecks berechnet als
(Abbildung 3.14)
Grundlinie · Höhe a·b
F = = .
2 2

0,1

0,08

0,06
Höhe
0,04 a·b b
2
0,02

0
-10 -5 0 5 10 15 20 25 Grundlinie a

Abb. 3.13: Wahrscheinlichkeit, dass Helga höchs- Abb. 3.14: Berechnung einer Drei-
tens zehn Minuten braucht. ecksfläche.

Wir wenden das auf unser Matrizenbeispiel an: Die Basislänge a ist hier der Abstand
zwischen 5 und 10, also a = 10 − 5 = 5. Die Seitenhöhe b ist der Dichtefunktionswert
1 5
f (10), das heißt b = f (10) = · (10 − 5) = . Wir erhalten nun
100 100
1 5 25 1
F = ·5· = = = 0,125.
2 100 200 8
Marga braucht also mit einer Wahrscheinlichkeit von 0,125 höchstens 10 min, um die Tes-
taufgaben zu lösen. Man könnte auch sagen: 12,5 % der Studierenden brauchen höchstens
10 min für die Lösung der Testaufgaben.

Mit welcher Wahrscheinlichkeit braucht Marga mindestens 10 min? Gesucht ist hier
P (X ≥ 10), was P (X ≥ 10) = 1 − P (X < 10) = 1 − P (X ≤ 10) = 1 − F (10)
ergibt. Da wir es mit einer stetigen Zufallsvariablen zu tun haben, gilt bekannterweise
P (X < 10) = P (X ≤ 10) (Seite 116). Es ist also
1 7
P (X ≥ 10) = 1 − = = 0,875.
8 8
Mit welcher Wahrscheinlichkeit benötigt Marga mindestens 20 min? Anhand von Ab-
bildung 3.13 sehen wir sofort, dass diese Fläche gleich der Fläche F (10) ist, also ist
1
P (X ≥ 20) = P (X ≤ 10) = .
8
Die Symmetrieeigenschaft der Verteilung ist offenbar für unsere Berechnungen hilfreich.
120 3 Zufallsvariablen

Mit welcher Wahrscheinlichkeit benötigt Marga höchstens 15 min? Wir sehen unmit-
telbar in allen Grafiken, dass die Fläche die halbe Gesamtfläche der Dichtefunktion
darstellt, das heißt
1
P (X ≤ 15) = .
2

0,1 0,1

0,08 0,08

0,06 0,06

0,04 0,04
P(X £ 17)
0,02 P(X £ 17) 0,02 P(X £ 13) =P(X ³ 13)
0 0
5 10 15 20 25 5 10 15 20 25

Abb. 3.15: Wahrscheinlichkeit, dass Helga Abb. 3.16: Wahrscheinlichkeit, dass Helga
höchstens 17 min braucht. mindestens 13 min braucht.

Mit welcher Wahrscheinlichkeit benötigt Marga höchstens 17 min? Abbildung 3.15 ent-
nehmen wir, dass die gesuchte Wahrscheinlichkeit die gesamte linke Hälfte mit der
Wahrscheinlichkeit 1/2 und einen weiteren Teil der rechten Fläche überdeckt. Wir
könnten nun die rechte Fläche etwas umständlicher berechnen und 1/2 dazuaddieren.
Wir erkennen aber, dass P (X ≤ 17) die gleiche Fläche umfasst wie P (X ≥ 13), und
erhalten

P (X ≤ 17) = P (X ≥ 13) = 1 − P (X ≤ 13).


1 8
Analog zu oben ist a = 13 − 5 = 8 und b = f (13) = (13 − 5) = , sodass wir
100 100
erhalten
1 8 64 8
P (X ≤ 17) = P (X ≥ 13) = 1−P (X ≤ 13) = 1− ·8· = 1− = 1− = 0,68.
2 100 200 25
Mit welcher Wahrscheinlichkeit braucht Marga zwischen 10 und 13 min?

P (10 ≤ X ≤ 13) = P (X ≤ 13) − P (X ≤ 10) = 0,32 − 0,125 = 0,195.

Mit welcher Wahrscheinlichkeit braucht Marga zwischen 10 und 17 min?

P (10 ≤ X ≤ 17) = P (X ≤ 17) − P (X ≤ 10) = 0,68 − 0,125 = 0,555.


3.3 Stetige Zufallsvariablen 121

3.3.2 Quantile

Wir beziehen uns wieder auf Beispiel 3.9. Nun verwenden wir eine neue Art der Fragestel-
lung: Gesucht sind die maximal aufgewendeten Minuten der 68 % schnellsten Studenten.
Oder: Welcher Wert x gehört zu F (x) = 0,68? Hier ist die Wahrscheinlichkeit F gegeben,
und der dazugehörige x-Wert ist gesucht, etwas locker ausgedrückt:

P (X ≤?) = F (?) = 0,68.

Unsere Überlegungen auf Seite 120 zeigen, dass der gesuchte x-Wert 17 beträgt, denn

P (X ≤ 17) = F (17) = 0,68.

Dieser Wert x = 17 wird 68 %-Quantil oder 0,68-Quantil genannt und schreibt sich
x(0,68). Wir haben es also mit der Umkehrfunktion von F (x) zu tun. Ebenso ist bei-
spielsweise x = 10 das (1/8)-Quantil oder auch 12,5 %-Quantil von X. Eine besondere
Stellung hat x(0,5) = 15. Dieses 50 %-Quantil ist der Median, vergleichbar mit dem
Median z in der deskriptiven Statistik (Seite 30). Er kann hier ohne Weiteres aus der
Dichtefunktionsgrafik (Abbildung 3.12) abgelesen werden.

3.3.3 Integrieren bei Verteilungsfunktionen

In Beispiel 3.9 konnten wir Verteilungswerte mithilfe der Geometrie berechnen. Wie ge-
hen wir aber vor, wenn die Wahrscheinlichkeit nicht geometrisch ermittelt werden kann?
Hier können wir beispielsweise die Dichtefunktion integrieren. Es gibt allerdings auch
Dichtefunktionen, die nicht integrierbar sind. In diesem Fall werden die Verteilungswerte
numerisch ermittelt, mithilfe von Näherungen. Ebenso werden bei stetigen Zufallsva-
riablen Erwartungswert und Varianz durch Integration ermittelt. Nun wird aber der
normalsterbliche Bachelorabsolvent in seiner beruflichen Zukunft eher selten etwas inte-
grieren müssen, sodass wir hier auf die Berechnung verzichten. Näheres zu diesem Thema
kann beispielsweise bei Fahrmeir et al. (2004, Kapitel 6) nachgelesen werden.

In Beispiel 3.9 wurde die Verteilungsfunktion integriert. Wir erhalten nun den geschlos-
senen Formelausdruck


⎪ 0 für x < 5,



⎪ 1 2

⎪ · (x − 10x + 25) für 5 ≤ x ≤ 15,
⎨ 200
P (X ≤ x) = F (x) =



⎪ 1

⎪ · (50x − x2 − 425) für 15 < x ≤ 25,

⎪ 200

1 für x > 25.
122 3 Zufallsvariablen

F(x)
1
0,9
0,82
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0 5 10 15 20 25 30
19
Minuten x

Abb. 3.17: Verteilungsfunktion der Bearbeitungszeit im Matrizentest.

Wir können F (x) in Abbildung 3.17 bewundern. So können wir beispielsweise ablesen,
dass F (19) = 0,82 beträgt usw. Der Erwartungswert ist übrigens 15, und die Varianz
beträgt 16,67, die Standardabweichung entsprechend 4,08.

Nachdem wir F (x) als Funktion vorliegen haben, wollen wir noch ein paar Übungen
damit machen.

P (X ≤ 10): x fällt in das Intervall 5 ≤ X ≤ 15. Wir erhalten


1 1 25 1
F (10) = · (x2 − 10x + 25) = · (102 − 10 · 10 + 25) = = = 0,125.
200 200 200 8
P (X ≤ 17): x fällt in das Intervall 15 < X ≤ 25. Wir erhalten
1 1
F (17) = · (50x − x2 − 425) = · (50 · 17 − 172 − 425)
200 200
1 136 17
= · (850 − 289 − 425) = = = 0,68.
200 200 25
P (X ≤ 19): x fällt in das Intervall 15 < X ≤ 25. Wir erhalten
1 1
P (X ≤ 19) = · (50x − x2 − 425) = · (50 · 19 − 192 − 425)
200 200
1 164 41
= · (950 − 361 − 425) = = = 0,82.
200 200 50
P (10 ≤ X ≤ 13): Wir brauchen noch F (13):
1 1
F (13) = · (x2 − 10x + 25) = · (132 − 10 · 13 + 25)
200 200
3.3 Stetige Zufallsvariablen 123

1 64 8
= · (169 − 130 + 25) = = = 0,32.
200 200 25
Also ist

P (10 ≤ X ≤ 13) = F (13) − F (10) = 0,320 − 0,125 = 0,195.

90 %-Quantil: Hier suchen wir den Wert x, der zur Wahrscheinlichkeit F = 0,9 gehört.
F = 0,90 gehört zum Intervall 15 < X ≤ 25, da F (15) schon 0,5 ist. Es gilt also
1
· (50x − x2 − 425) = 0,9.
200
Wir müssen nun diese Gleichung nach x auflösen, damit wir den zu 0,9 passenden x-
Wert erhalten. Es handelt sich im Wesentlichen um die Auflösung einer quadratischen
Gleichung, was allerdings nicht zum Themengebiet der Statistik gehört und daher nur
als Beispiel vorgerechnet wird. Wir beginnen mit
1
· (50x − x2 − 425) = 0,9.
200
Wir wollen erst die Gleichung so umformen, dass wir ganz links x2 stehen haben. Dazu
eliminieren wir zuerst den Faktor 1/200, indem wir die Gleichung mit 200 multiplizie-
ren, und nehmen die Gleichung dann mit −1 mal, um für x2 ein positives Vorzeichen
zu erhalten:

50x − x2 − 425 = 180 bzw. x2 − 50x + 425 = −180.

Wir bringen 425 auf die rechte Seite:

x2 − 50x = −180 − 425 = −605.

Nun müssen wir analog zu der allseits bekannten binomischen Formel (x − a)2 =
x2 −2ax+a2 für den Ausdruck x2 −2ax auf der linken Seite der Gleichung eine passende
Ergänzung a2 suchen, die auch quadratische Ergänzung genannt wird. a = 50/2 = 25
erfüllt diesen Wunsch, und wir erweitern jetzt die Gleichung links und rechts mit 252 .
Es ist also nun

x2 − 50x + 252 = −605 + 252

bzw.

(x − 25)2 = 20.

Wir ziehen links und rechts die Wurzel und erhalten damit

x − 25 = ± 20,
124 3 Zufallsvariablen

√ √
was die Lösungen x1 = 25 − 20 ≈ 20,53 und x2 = 25 + 20 ≈ 29,47 ergibt.
29,47 gehört nicht ins Intervall 15 < X ≤ 25, daher ist das gesuchte 90 %-Quantil
x(0,9) = 20,53, was etwa 20 min und 32 s ausmacht. Wir können das so deuten, dass
90 % der Teilnehmer höchstens ca. 20 min und 30 s brauchten. Wir können das auch et-
was gemeiner so formulieren: Die 10 % langsamsten Teilnehmer brauchten mindestens
20 min und 30 s für die Lösung des Tests.

Bemerkung: Für die Lösung der quadratischen Gleichung können wir das Ergebnis auch
sofort mithilfe der sogenannten Mitternachtsformel errechnen, die man in jeder mathe-
matischen Formelsammlung findet. Hier wollen wir es mit dem Matrizentest gut sein
lassen und weiter vorwärts schreiten.

3.4 Normalverteilung – die Königin der Verteilungen

Eine sehr prominente stetige Verteilung, eigentlich die Königin aller Verteilungen, ist
die Normalverteilung, auch bekannt als Gauss’sche Verteilung. Ihre Bedeutung verdankt
sie mehreren theoretischen Vorzügen, von denen wir einige kennenlernen werden. Ihre
Dichtefunktion ist die wohlbekannte Glockenform.

3.4.1 Eigenschaften der Normalverteilung

Beispiel 3.10 Wirkzeit des Beruhigungsmittels Calma


In einer Klinik wird für Patienten mit Angststörungen das leichte Beruhigungsmittel
Calma eingesetzt. Wir interessieren uns für die Zufallsvariable X: Wirkgeschwindigkeit
in Minuten, also Dauer, bis das Mittel wirkt. X ist normalverteilt mit dem Erwartungs-
wert 20 min und der Varianz 36 min2 .

Die Dichtefunktion ist in Abbildung 3.18 dargestellt. Wir sehen, dass die Verteilung
symmetrisch bezüglich des Erwartungswertes 20 ist. Bei den meisten Patienten beginnt
Calma zwischen 15 und 25 min zu wirken. Je weiter die Wirkgeschwindigkeit vom
Durchschnitt 20 min entfernt ist, desto weniger Patienten sind davon betroffen.

Man könnte die Normalverteilung als „natürliche Verteilung“ bezeichnen, denn viele Na-
turphänomene können damit beschrieben werden, etwa die Größe eines Blattes, das Ge-
wicht von Mäusen, die Herzschlagfrequenz von Menschen. So hängt beispielsweise das
Gewicht einer Maus von der Zusammensetzung des Futters ab, von der Umgebungswär-
me, von Stress usw., also von einer sehr großen Zahl von Faktoren. Aber wir können
nicht angeben, wie groß der Beitrag eines Faktors zum Gewicht der Maus ist. Eine An-
3.4 Normalverteilung 125

f(x)
0,07

0,06

0,05

0,04

0,03

0,02

0,01

0
0 5 10 15 20 25 30 35 40

Wirkgeschwindigkeit x

Abb. 3.18: Normalverteilung der Wirkzeit von Calma.

gabe „Wärme verursacht 20 % des Gewichts“ ist nicht möglich. Der gemeinsame Einfluss
aller Faktoren jedoch ergibt typischerweise eine Normalverteilung. Das ist das Ergebnis
des sogenannten zentralen Grenzwertsatzes, der in Abschnitt 3.4.3 thematisiert wird.

Die attraktive Glockenform in Abbildung 3.18 wird durch die weniger attraktive Dichte-
funktion
(x − μ)2
1 −
2
f (x) = ϕ(x|μ, σ ) = √ e 2 · σ2 (3.18)
σ· 2π
erzeugt. Aufgrund der Bedeutung der Normalverteilung bekommen die Dichte- und die
Verteilungsfunktion die Bezeichnung ϕ und Φ (gesprochen: „klein-phi“ und „groß-Phi“,
die griechischen Pendants zu f und F ).

Normalverteilung

Die Konstanten μ und σ 2 sind die Parameter einer Normalverteilung, wobei gilt:

E(X) = μ und V (X) = σ 2 .

Man sagt, X ist normalverteilt mit den Parametern μ und σ 2 , in kurzer Schreibweise
X ∼ N (μ; σ 2 ). Die Wahrscheinlichkeit P (X ≤ x) wird notiert als Φ(x|μ; σ 2 ).

Wie wir der Dichtefunktion ϕ(x|μ; σ 2 ) entnehmen können, gibt es für jeden Parameter μ
und σ 2 eine eigene Verteilungsfunktion. Die Wahrscheinlichkeit P (X ≤ x) (x ∈ R) ist wie
126 3 Zufallsvariablen

gewohnt die Fläche unter dem Graph der Dichtefunktion und kann angegeben werden
als das Integral
 x
P (X ≤ x) = Φ(x|μ, σ 2 ) = f (u)du.
−∞

Allerdings kann die Dichtefunktion nicht als Funktion integriert werden. Die Werte der
Verteilungsfunktion Φ werden daher in der Praxis durch numerische Näherungsverfah-
ren ermittelt, die in verschiedenen DV-Anwendungen zur Verfügung stehen. Für den
Hausgebrauch gibt es mehr oder weniger ausführliche Tabellen mit ausgewählten Vertei-
lungswerten.

Weitere Eigenschaften der Normalverteilung sind:

Wegen der Symmetrie ist der Erwartungswert der Normalverteilung gleich dem Medi-
an, also dem 50 %-Quantil x(0,5).
Die Wurzel aus der Varianz ist die Standardabweichung σ. Sie spielt bei der Normal-
verteilung eine besondere Rolle (Abbildung 3.19): In einem Intervall mit der Mitte μ
und der Breite von
zwei Standardabweichungen liegen ca. 2/3 aller Realisationen der Zufallsvariablen
X,
vier Standardabweichungen liegen ca. 95 % aller Realisationen der Zufallsvariablen
X,
sechs Standardabweichungen liegen ca. 99,5 % aller Realisationen der Zufallsvaria-
blen X.

0,67 0,95

m m
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
}

}
}
}

}
}

6 6 x 6 6 6 x
6
Abb. 3.19: Standardabweichung σ = 6 im Beispiel der Wirkgeschwindigkeit von Calma:
Breite von zwei und vier Standardabweichungen.

Ist die Normalverteilung die Königin aller Verteilungen, ist die Standardnormalverteilung
die Königin aller Normalverteilungen. Traditionsgemäß wird ihre Zufallsvariable Z ge-
nannt. Sie ergibt sich, indem wir eine normalverteilte Zufallsvariable X standardisieren.
3.4 Normalverteilung 127

Standardnormalverteilung

Jede normalverteilte Zufallsvariable X mit dem Erwartungswert μ und der Varianz


σ 2 kann standardisiert werden zu
X −μ
Z= . (3.19)
σ
Z ist standardnormalverteilt.

Die Verteilungsfunktion P (Z ≤ z) wird mit = Φz (z) notiert. Der Index z dient zur
Unterscheidung von der Zufallsvariablen X. Der Erwartungswert beträgt E(Z) =
μz = 0 und die Varianz V (Z) = σz2 = 1.

Es gelten aufgrund der Symmetrieeigenschaften der Standardnormalverteilung die


Rechenregeln

Φz (−z) = 1 − Φz (z), (3.20)

z(p) = −z(1 − p). (3.21)

Dabei ist z(p) das p-Quantil der Standardnormalverteilung.

Die Funktionswerte Φz (z) der Verteilungsfunktion von Z sind meistens als Tabelle erhält-
lich. Im Anhang dieses Buches finden wir die Normalverteilungstabelle A.1. Wie benützen
wir sie? Der Tabellenkörper besteht aus den Wahrscheinlichkeiten, wobei hier „0,“ aus
Platzgründen weggelassen wurde. Der Wert z ist dreistellig mit zwei Stellen hinter dem
Komma. In der linken äußeren Spalte sind die ersten beiden Stellen aufgeführt. Die zwei-
te Stelle hinter dem Komma steht in der obersten Zeile. So setzt sich beispielsweise 0,52
zusammen aus 0,5 (links) und 0,02 (oben). Dort, wo sich die Zeile mit 0,5 und die Spalte
mit 0,02 kreuzen, können wir die gesuchte Wahrscheinlichkeit Φz (0,52) = 0,6985 ablesen.
In Tabelle 3.8 ist die Vorgehensweise noch einmal dargestellt.

Nun wollen wir zur Übung einige Wahrscheinlichkeiten von Z berechnen:

P (Z ≤ 1,24) = Φz (1,24) = 0,8925.


P (Z ≤ 2) = Φz (2,00) = 0,9772.
P (Z > 2) = 1 − P (Z ≤ 2) = 1 − 0,9772 = 0,0228.
P (−1,20): Da nur die Wahrscheinlichkeiten für positive z-Werte tabelliert sind, müssen
wir die Symmetrie der Normalverteilung zuhilfe nehmen. Ein Blick auf Abbildung 3.20
zeigt, dass die Fläche von P (Z ≤ −1,20) exakt gleich der Fläche von P (Z ≥ 1,20) ist.
Es ist also

P (Z ≤ −1,20) = P (Z ≥ 1,20) = 1 − P (Z ≤ 1,20) = 1 − 0,8849 = 0,1151.

Wir beachten, dass wegen der Stetigkeit von Z P (Z < 1,20) = P (Z ≤ 1,20) ist.
128 3 Zufallsvariablen

Tab. 3.8: Beispiel für die Benutzung der Tabelle der Standardnormalverteilung.

z 0,0 0,01 0,02 0,03 0,04 0,05 ...


0,0 5000 5040 5080 5120 5160 5199 ...
0,1 5398 5438 5478 5517 5557 5596 ...
0,2 5793 5832 5871 5910 5948 5987 ...
0,3 6179 6217 6255 6293 6331 6368 ...
0,4 6554 6591 6628 6664 6700 6736 ...
0,5 6915 6950 6985 7019 7054 7088 ...
0,6 7257 7291 7324 7357 7389 7422 ...
0,7 7580 7611 7642 7673 7704 7734 ...
... ... ... ... ... ... ... ...

P (Z ≥ −1) = 1 − P (Z ≤ −1) = 1 − (1 − P (Z ≤ 1)) = P (Z ≤ 1) = 0,8413.


P (0,52 ≤ Z ≤ 1): Wir erinnern uns (Seite 98), dass P (a < Z ≤ b) = P (Z ≤ b)−P (Z ≤
a) ist und erhalten
P (−0,52 ≤ Z ≤ 1) = Φz (1) − Φz (−0,52) = 0,8413 − (1 − Φ(0,52)) = 0,8413 − (1 −
0,6985) = 0,8413 − 0,3015 = 0,5398.
P (Z ≤ 1,96) = Φz (1,96) = 0,975.
P (−1,96 ≤ Z ≤ 1,96) = Φz (1,96) − Φz (−1,96) = Φz (1,96) − (1 − Φz (1,96)) = 0,975 −
(1 − 0,975) = 0,975 − 0,025 = 0,95. Die Konstellation ist in Abbildung 3.21 dargestellt.
Diese oder ähnliche Konstellationen werden uns später noch häufiger begegnen.

0,95
P(Z £ -1,2) P(Z ³ 1,2)
0,025
0,025

-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
z -1,96 1,96 z

Abb. 3.20: Z höchstens 1,20. Abb. 3.21: Z zwischen −1,96 und 1,96.

Nun wollen wir auch Quantile berechnen. In Abschnitt 3.3.2 hatten wir gesehen, dass ein
p-Quantil der Wert der Zufallsvariablen X ist, der zu einer gegebenen Wahrscheinlichkeit
p passt. Das Quantil wurde x(p) genannt. Wir suchen:

z(0,975): Oben sahen wir, dass P (Z ≤ 1,96) = 0,975 ist. Also ist z(0,975) = 1,96.
z(0,67): Wir suchen die Wahrscheinlichkeit 0,67 und finden z = 0,44 (Abbildung 3.22).
z(0,33): Diese Wahrscheinlichkeit ist wieder nicht tabelliert, aber den Abbildungen 3.22
und 3.23 entnehmen wir, dass (unwissenschaftlich notiert) P (Z ≤?) = 0,33 spiegel-
3.4 Normalverteilung 129

bildlich zum 0,67-Quantil angeordnet ist. Also muss z(0,33) = −0,44 sein, was eine
Anwendung der Regel 3.21 ist.
z(0,7): Diese Wahrscheinlichkeit ist in Tabelle 3.8 nicht angegeben. Wir haben hier
zwei benachbarte Wahrscheinlichkeiten 0,6985 und 0,7019 gegeben, zwischen denen
0,7 liegt. Dazu gehören die Quantile als z-Werte 0,52 und 0,53. Da wir in diesem Buch
meistens Quantile für Schätzverfahren verwenden werden, genügt in so einem Fall die
einfache Regel, das Quantil zu wählen, dessen Absolutwert größer als der andere ist.
Also erhalten wir

z(0,7) ≈ 0,53.

0,33 0,33
0,67 0,67

-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
z(0,67) z z(0,33) z
= 0,44 = -0,44

Abb. 3.22: 67%-Quantil der Standardnor- Abb. 3.23: 33%-Quantil der Standardnor-
malverteilung. malverteilung.

Nun kommen wir zum spannenden Teil: Wie berechnen wir den Wert Φ(x|μ; σ 2 ) der
Verteilungsfunktion einer Zufallsvariablen X?

Wir standardisieren die Ausprägung x zu z und schlagen die Verteilung in Tabelle 3.8
der Standardnormalverteilung nach.

Gehen wir wieder zum Calma-Beispiel 3.10 zurück.

Bei wieviel Prozent der Patienten wirkt das Medikament in höchstens 26 min? Wir
suchen also P (X ≤ 26) = Φ(26|20; 36) und standardisieren (Abbildung 3.24):
x−μ 26 − 20
z= = = 1.
σ 6
Es ist Φz (1) = 0,8413. Also wirkt die Tablette bei 84,13 % der Patienten in höchstens
26 min (Abbildung 3.25).
Entsprechend berechnen wir P (X > 30) = 1 − P (X ≤ 30) (Abbildung 3.26): Es ist
30 − 20
z= ≈ 1,67. Damit erhalten wir 1 − Φz (1,67) = 1 − 0,9525 = 0,0475. Bei ca.
6
6 % der Patienten wirkt das Mittel nach 30 oder mehr Minuten.
130 3 Zufallsvariablen

0,8413 0,8413

-3 -2 -1 0 1 2 3 0 5 10 15 20 25 30 35 40
z x
Abb. 3.24: z-Wert zu X ≤ 26. Abb. 3.25: Wahrscheinlichkeit für X ≤ 26.

Bei wie viel Prozent der Patienten wirkt das Mittel innerhalb von höchstens 15 min
und 30 s (Abbildung 3.27)? Wir suchen P (X ≤ 15,5). Das ist

15,5 − 20
Φ(15,5|20; 36) = = Φz (−0,75) = 1 − Φz (0,75) = 1 − 0,7734 = 0,2266,
6

also bei ca. 23 %.

0,2266
0,0578

0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 35 40
x 15,5 x

Abb. 3.26: Wahrscheinlichkeit für X ≥ 30. Abb. 3.27: Wahrscheinlichkeit für X höchs-
tens 15,5.
Wie groß ist die Höchstdauer bei 67 % der Patienten, bei denen das Mittel am
schnellsten wirkte (Abbildung 3.28)? Wir suchen hier das 67 %-Quantil der Verteilung.
Wir müssen als Erstes die Verteilungstabelle A.1 konsultieren, weil wir die Ausprä-
gung suchen, die zur gegebenen Wahrscheinlichkeit 0,67 passt. Wir erhalten zuerst
z(0,67) = 0,44. Nun interessiert uns aber weniger z(0,67) als x(0,67). Wir müssen die
Standardisierung „umdrehen“, das heißt den Quotienten z nach x auflösen:
x−μ
z= ⇒ x − μ = σ · z ⇒ x = μ + z · σ.
σ
Wir erhalten also

x(0,67) = 20 + 0,44 · 6 = 20 + 2,64 = 22,64 min.

Bei den 67 % Patienten, die am schnellsten auf das Mittel ansprechen, beträgt die
Wirkgeschwindigkeit höchstens 22,64 min, was ungefähr 22 min und 39 s entspricht.
3.4 Normalverteilung 131

0,67

0 5 10 15 20 25 30 35 40
x(0,67) = 22,64 x

Abb. 3.28: 67 %-Quantil.

Wie hoch ist die Mindestdauer bei den 2,5 % Patienten, bei denen das Mittel am
langsamsten wirkt? Die Mindestdauer der langsamsten Patienten ist dieselbe wie die
Höchstdauer der 0,975 schnellsten Patienten. Wie wir wissen, ist z(0,975) = 1,96. Wir
erhalten

x(0,975) = μ + z · σ = 20 + 1,96 · 6 = 31,76.

Bei den 2,5 % Patienten mit der längsten Wirkgeschwindigkeit dauerte es mindestens
ca. 31 min und 45 s, bis Calma wirkte.
Welche Höchstgrenze hat aber die Wirkgeschwindigkeit bei den 2,5 % Patienten, die
am schnellsten ansprachen? Hier suchen wir das 0,025-Quantil. Ein Blick auf Abbil-
dung 3.21 verrät uns, dass das Pendant auf der rechten Seite der Kurve das 0,975-
Quantil ist. Es ist z(0,975) = 1,96. Dann ist z(0,025) = −1,96. Wir erhalten wieder
analog zu oben x = μ + z · σ = 20 − 1,96 · 6 = 20 − 11,76 = 8,24. Bei den 2,5 %
„schnellsten“ Patienten wurde das Medikament nach einem Zeitraum vom höchstens
8 min und 15 s wirksam.
In welchem symmetrisch um μ gelegenen Intervall der Wirkgeschwindigkeit befinden
sich 95 % der Realisierungen?
Wir hatten schon bei der standardnormalverteilten Verteilung auf Seite 128 gesehen,
dass P (−1,96 ≤ Z ≤ 1,96) = 0,95 ist. Das entspricht dem Intervall

[z(0,025); z(0,975)] = [−z(0,975); z(0,975)] = [−1, 96; 1, 96].

Analog dazu wäre das 95 %-Intervall von X

[x(0,025); x(0,975)] = [20 − 1,96 · 6; 20 + 1,96 · 6]

= [20 − 1,96 · 6; 20 + 1,96 · 6] = [8,24; 31,76],


wie wir schon weiter oben ausgerechnet haben.

Wir werden in den folgenden Abschnitten einige besondere Eigenschaften der Normal-
verteilung kennenlernen. Weitere Eigenschaften bezüglich linearer Funktionen finden sich
im Abschnitt 3.5.2.
132 3 Zufallsvariablen

3.4.2 Reproduktivität der Normalverteilung

Die Summe von normalverteilten Zufallsvariablen ist wieder normalverteilt. Wir


nennen diese Eigenschaft Reproduktivität der Normalverteilung.

Es ist nicht selbstverständlich, dass eine Summe von Zufallsvariablen eines bestimmten
Verteilungstyps wieder denselben Verteilungstyp hervorbringt, sondern eher eine seltene
Ausnahme. Reproduktiv ist beispielsweise auch die Poisson-Verteilung (Seite 114).

Die Verteilungsparameter der normalverteilten Summe sind in Abschnitt 3.5.2 ausführlich


angegeben.

3.4.3 Zentraler Grenzwertsatz

Eine der Eigenschaften, die die Normalverteilung krönen, ist der zentrale Grenzwertsatz.
Wir haben bereits auf Seite 125 erfahren, dass das Zusammenspiel von sehr vielen Fak-
toren häufig eine Normalverteilung hervorbringt. Das ist beispielsweise eine Folge des
zentralen Grenzwertsatzes. Wir wollen ihn nun etwas formaler darstellen.

Wir betrachten eine Folge von Zufallsvariablen Xi , also X1 , X2 , . . . Alle Zufallsvariablen


sind identisch verteilt, das heißt, sie haben alle denselben Verteilungstyp und dieselben
Verteilungsparameter. Wir bilden nun fortlaufend eine Summe aus diesen Zufallsvaria-
blen:

Y1 = X1 ,
Y2 = X1 + X2 ,
Y3 = X1 + X2 + X3 ,
...
Yn = X1 + X2 + . . . + Xn .

Es lässt sich beweisen, dass sich mit wachsendem n die Verteilung der Zufallsvariablen
Yn immer mehr einer Normalverteilung annähert. Ab n = 30 kommt die Verteilung von
Yn einer Normalverteilung schon sehr nahe.

Ein Nutzen dieses Satzes ist, dass wir bei Zufallsvariablen mit unbekannter Verteilung
zumindest für die Summe dieser Zufallsvariablen eine Verteilung angeben können, was
beispielsweise für Stichprobenschätzungen sehr wertvoll ist. Auch können die Funktions-
werte vieler Verteilungen mithilfe dieses Satzes näherungsweise ermittelt werden, wie wir
in Abschnitt 3.4.4 sehen werden.
3.4 Normalverteilung 133

3.4.4 Approximation von Verteilungen

Die Königin der Verteilungen birgt noch weitere Überraschungen, die sich zum Teil durch
den zentralen Grenzwertsatz erklären lassen. Wir können mit ihrer Hilfe Verteilungswerte
diverser Zufallsvariablen näherungsweise ermitteln. Diese Näherung bezeichnen wir als
Approximation. Wir wollen Werte der Binomial- und Poisson-Verteilung mithilfe der Nor-
malverteilung approximativ berechnen. Dies ist nur eine kleine Auswahl, denn wir können
noch viele andere Verteilungsfunktionen mithilfe der Normalverteilung näherungsweise
bestimmen. Einige werden wir später kennenlernen.

Approximation der Binomialverteilung

Beispiel 3.11 Anteil der Menschen, die Harry Potter gelesen haben
Stellen wir uns vor, der Anteil der Menschen, die in Deutschland Harry Potter gelesen
haben, läge bei 70 %. Die Studentin Hermine schreibt ihre Bachelorarbeit über die
Verbreitung von Trivialliteratur. Sie kennt allerdings den Anteil der Harry-Potter-
Leser nicht. Deshalb macht sie eine Stichprobe. Sie wählt 100 Personen zufällig aus
und befragt sie. Mit welcher Wahrscheinlichkeit anworten höchstens 60 Leute mit „ja“?
Die Zahl der Leute, die mit „ja“ antworten, ist eine Zufallsvariable X. Sie entstammt
einer dichotomen Grundgesamtheit, bestehend aus Lesern und Nichtlesern. Da die
Zahl aller Leser unbekannt und außerdem der Stichprobenumfang ziemlich groß ist,
können wir ein Modell mit Zurücklegen annehmen. X ist also binomialverteilt mit den
Parametern n = 100 und θ = 0,7.

Wir würden jetzt die gesuchte Wahrscheinlichkeit berechnen mit

P (X = 0) + P (X = 1) + P (X = 2) + . . . + P (X = 60)
60
 60

n 100
= · θx · (1 − θ)n−x = · 0,7x · (1 − 0,7)100−x ,
x x
x=0 x=0

100

was sich bestimmt als spaßig erweist, wenn wir beispielsweise 60 ausrechnen wollen.

Wir können allerdings möglicherweise die Normalverteilung zuhilfe nehmen. Der Stich-
probenumfang sollte hier groß genug sein, damit die Näherungswerte einigermaßen genau
sind. Es gibt verschiedene empfohlene Faustregeln für die Größe von n. Wir können die
Verteilungswerte der Binomialverteilung mithilfe der Normalverteilung approximativ er-
mitteln, wenn
9
n>
θ · (1 − θ)
134 3 Zufallsvariablen

ist. Je näher θ an 0,5 ist, desto „symmetrischer“ ist die Wahrscheinlichkeitsfunktion von
X, das heißt, desto besser passt sich die Normalverteilungskurve der Funktion b(x|n; θ)
an. Je weiter θ davon weg ist, desto größer muss n werden. Wir verwenden für die
Normalverteilungsparameter sinnvollerweise den Erwartungswert n · θ und die Varianz
n · θ · (1 − θ) von X.

Approximation der Binomialverteilung durch die Normalverteilung

Wenn
9
n> (3.22)
θ · (1 − θ)

erfüllt ist, kann die Verteilungsfunktion P (X ≤ x) = B(x|n; θ) der Binomialvertei-


lung näherungsweise mithilfe der Normalverteilung ermittelt werden mit der Formel

P (X ≤ x) = B(x|n; θ) ≈ Φ(x + 0,5|μ = n · θ; σ 2 = n · θ · (1 − θ)). (3.23)

Dabei bezeichnet der Zuschlag von 0,5 zur Ausprägung von X die Stetigkeitskorrek-
tur.

Die Stetigkeitskorrektur sorgt für einen reibungsfreien Übergang von der diskreten zur
stetigen Wahrscheinlichkeitsverteilung, denn, wie wir wissen, ticken diese beiden Ver-
teilungsarten völlig unterschiedlich. In Abbildung 3.29 sind beispielsweise für die Bino-
mialverteilung B(x|10; 0,4) und die Normalverteilung Φ(x|4; 2,4) die Verteilungsgraphen
dargestellt. Wir erkennen deutlich, dass etwa bei x = 3 die Normalverteilungsfunkti-
on erst bei etwa 3,5 die Höhe der dazugehörigen Treppenstufe erreicht. Ein mittlerer
Zuschlag von 0,5 liefert also weit bessere Approximationsergebnisse. Hier liegen die Nä-
herungswerte exakt auf den Sprungstellen der Binomialverteilung.

B, NV B, NV
1 1
0,9 0,9
0,8 0,8
0,7 0,7
0,6 0,6
0,5 0,5
0,4 0,4
0,3 0,3
0,2 0,2
0,1 0,1
0 0
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
x x
Abb. 3.29: Vergleich von Binomial- und Normalverteilung ohne und mit Stetigkeitskorrektur.
3.4 Normalverteilung 135

Wir wollen nun für unser Harry-Potter-Beispiel nachprüfen, ob eine Normalapproxima-


tion sinnvoll ist. Wir erhalten
9 9
= ≈ 43.
θ · (1 − θ) 0,7 · 0,3

n ist größer als 43, und wir können die Normalverteilung verwenden. Nun benötigen wir
noch die Parameter der Normalverteilung. Es sind

μ = n · θ = 100 · 0,7 = 70

und

σ 2 = n · θ · (1 − θ) = 100 · 0,7 · 0,3 = 21.

Wir berechnen einige Wahrscheinlichkeiten näherungsweise.

Mit welcher Wahrscheinlichkeit geben höchstens 60 Personen zu, Harry Potter gelesen
zu haben? Wir erhalten

60,5 − 70
P (X ≤ 60) = B(60|100; 0,7) ≈ Φ(60 + 0,5|70; 21) = Φz √
21

= Φz (−2,07) = 1 − Φz (2,07) = 1 − 0,9808 = 0,0192.

Mit welcher Wahrscheinlichkeit geben mehr als 75 Personen zu, Harry Potter gelesen
zu haben? Bei der binomialverteilten Zufallsvariablen ist das

75,5 − 70
P (X > 75)) = 1 − P (X ≤ 75) ≈ 1 − Φz √ = 1 − Φz (1,20)
21
= 1 − 0,8849 = 0,1151.

Mit welcher Wahrscheinlichkeit geben mindestens 75 Personen zu, Harry Potter gelesen
zu haben? Bei der binomialverteilten Zufallsvariablen ist das

74,5 − 70
P (X ≥ 75)) = 1 − P (X ≤ 74) ≈ 1 − Φz √
21

= 1 − Φz (0,98) = 1 − 0,8365 = 0,1635.

Mit welcher Wahrscheinlichkeit geben mindestens 60 und höchstens 80 Personen zu,


Harry Potter gelesen zu haben? Das ist

80,5 − 70 59,5 − 70
P (60 ≤ X ≤ 80) = P (X ≤ 80) − P (X ≤ 59) ≈ Φz √ − Φz √
21 21

= Φz (2,29) − Φz (−2,29) = 0,9890 − (1 − 0,9890) = 0,978.


136 3 Zufallsvariablen

Mit welcher Wahrscheinlichkeit geben es genau 70 Personen zu? Wir erinnern uns
(Seite 116), dass P (X = 70) bei einer normalverteilten Zufallsvariablen 0 ergeben
würde. Aber wir können bei der binomialverteilten Zufallsvariablen

P (X = 70) = P (X ≤ 70) − P (X ≤ 69)

verwenden. Wir erhalten also

P (X = 70) = P (X ≤ 70) − P (X ≤ 69) ≈ Φ(70 + 0,5|70; 21) − Φ(69 + 0,5|70; 21)



70,5 − 70 69,5 − 70
= Φz √ = Φz √ = Φz (0,11) − Φz (−0,11)
21 21
= 0,5438 − (1 − 0,5438) = 0,0876.

Auch die Verteilungsfunktion der hypergeometrischen Verteilung können wir mithilfe


der Normalverteilung näherungsweise bestimmen. Hier sollte n ebenfalls möglichst groß
sein. Da in diesem Fall ohnehin meistens die hypergeometrische Verteilung durch die
Binomialverteilung ersetzt werden kann, wird auf eine gesonderte Darstellung verzichtet.

Approximation der Poisson-Verteilung

Auch die Verteilungsfunktion P (X ≤ x) = Px (x|λ) der Poisson-Verteilung, die sich als


Summe der Wahrscheinlichkeiten (x ∈ N )

P (X ≤ x) = Px (x|λ) = px (0|λ) + px (1|λ) + px (2|λ) + . . . + px (x|λ)

e−λ · λ0 e−λ · λ1 e−λ · λ2 e−λ · λx


= + + + ... +
0! 1! 2! x!
ergibt, kann bei großem x eine Herausforderung werden. Nach dem zentralen Grenzwert-
satz können wir Werte der Poisson-Verteilung mithilfe der Normalverteilung näherungs-
weise ermitteln. Damit die Abweichung aber nicht zu groß wird, sollte

λ>9 (3.24)

betragen. Da bei einer Poisson-verteilten Zufallsvariablen der Erwartungswert E(X) = λ


und ebenso die Varianz V (X) = λ ist, verwenden wir λ als Parameter μ und σ 2 für die
Normalverteilung und erhalten:

Approximation der Poisson-Verteilung durch die Normalverteilung

Für λ > 9 gilt bei einer Poisson-verteilten Zufallsvariablen:

P (X ≤ x) = Px (x|λ) ≈ Φ(x + 0,5|λ; λ). (3.25)


3.5 Gemeinsam verteilte Zufallsvariablen 137

Um die P -Notation der Verteilungsfunktion der Poisson-Verteilung von der allgemeinen


Wahrscheinlichkeitsnotation P unterscheiden zu können, bekommt ersteres P den In-
dex x. Da auch die Poisson-Verteilung eine diskrete Verteilung ist, müssen wir bei der
Approximation wieder die Stetigkeitskorrektur dazugeben.

Beispiel 3.12 Überpünktlichkeit


Der Doktorand Hurtig untersucht, inwieweit Überpünktlichkeit als Zwangsstörung an-
gesehen werden kann. Die Häufigkeit, mit der jemand innerhalb eines Tages auf die
Uhr sieht, ist erfahrungsgemäß Poisson-verteilt, wobei die Person im Mittel 16-mal auf
die Uhr schaut. (Dieser Wert ist frei erfunden und dient nur didaktischen Zwecken.)
Unser λ ist also mit 16 größer als 9, und wir können unsere Wahrscheinlichkeiten im
Folgenden mithilfe der Normalverteilung näherungsweise ermitteln.

Mit welcher Wahrscheinlichkeit schaut jemand höchstens 20-mal auf die Uhr?

20,5 − 16
P (X ≤ 20) = Px (20|16) ≈ Φ(20 + 0,5|16; 16) = Φz = Φz (1,13) = 0,8708.
4

Etwa 87 % der Personen sehen also pro Tag höchstens 20-mal auf die Uhr.
Mit welcher Wahrscheinlichkeit schaut jemand mindestens 30-mal auf die Uhr?

29,5 − 16
P (X ≥ 30) = P (X ≤ 29) ≈ 1 − Φ(29 + 0,5|16; 16) = 1 − Φz
4

= 1 − Φz (3,38) = 1 − 0,9997 = 0,0003.

Etwa 0,03 % der Personen schauen also pro Tag mindestens 30-mal auf die Uhr usw.

3.5 Gemeinsam verteilte Zufallsvariablen – Steigt


immer die Zahl der Kinder mit der Zahl der
Störche?

Wie bei Ereignissen treten auch bei Zufallsvariablen gemeinsame Wahrscheinlichkeiten


auf. Wie man diese bezeichnet und mit ihnen umgeht, wollen wir an einem sehr stark
vereinfachten Beispiel betrachten.

Beispiel 3.13 Zeit für Mahlzeiten bei Führungskräften


In einer groß angelegten Studie über das Stressmanagement von Führungskräften wur-
de auch das Essverhalten der Personen erfasst. Wir definieren die Zufallsvariablen X:
Zeit, die eine Person für das Frühstück aufwendet, und Y : Zeit, die eine Führungskraft
138 3 Zufallsvariablen

für das Mittagessen aufwendet. Beide Variablen haben als Einheit eine Viertelstunde.
Es ergab sich für die diskreten Zufallsvariablen die gemeinsame Wahrscheinlichkeits-
tabelle 3.9.

Tab. 3.9: Gemeinsame Wahrscheinlichkeiten von Zeit für Frühstück und für Mittagessen
(in Viertelstunden).

Zeit für Mittagessen: Y Summe


1 2 3
Zeit für Früh- 1 0,1 0,3 0,2 0,6
stück: X 2 0,04 0,2 0,16 0,4
Summe 0,14 0,5 0,36 1

X hat m viele Ausprägungen xi (i = 1, . . . , m), und Y hat n viele Ausprägungen yj


(j = 1, . . . , n). Formal erhalten wir nun die gemeinsame Wahrscheinlichkeitstabelle 3.10.

Tab. 3.10: Gemeinsame Wahrscheinlichkeiten von X und Y .

Y
y1 y2 y3 P (X = xi )
1 2 3
X x1 1 0,1 0,3 0,2 0,60
x2 2 0,04 0,2 0,16 0,40
P (Y = yj ) 0,14 0,5 0,36 1,00

Wir wollen anhand einiger Beispiele die Eigenschaften von gemeinsamen Wahrscheinlich-
keiten kennenlernen.

Es wird eine Führungsperson zufällig ausgewählt. Es ist zum Beispiel die Wahrschein-
lichkeit, dass sie sich für das Frühstück eine Viertelstunde und für das Mittagessen eine
halbe Stunde Zeit nimmt, gleich P (X = 1 und Y = 2) = fxy (1; 2) = 0,3. Hier bekommen
die Wahrscheinlichkeiten f Indizes, die angeben, welche Zufallsvariablen gemeint sind.
Wir sagen für fxy (1; 2): „f xy an der Stelle 1 und 2“.

Mit welcher Wahrscheinlichkeit ist P (X = 2 und Y = 3)?

fxy (2; 3) = 0,16.

Mit welcher Wahrscheinlichkeit nimmt sich eine Person für das Frühstück eine halbe
Stunde und für das Mittagessen höchstens eine halbe Stunde Zeit?

P (X = 2 und Y ≤ 2).
3.5 Gemeinsam verteilte Zufallsvariablen 139

Hier sind zwei Wahrscheinlichkeiten betroffen, nämlich

P (X = 2 und Y ≤ 2) = P (X = 2 und Y = 1) + P (X = 2 und Y = 2)


= 0,04 + 0,2 = 0,24.

Mit welcher Wahrscheinlichkeit isst eine Person eine halbe Stunde zu Mittag?

P (Y = 2) = P (X = 1 und Y = 2) + P (X = 2 und Y = 2) = 0,3 + 0,2 = 0,5.

Wir sehen, dass sich die Wahrscheinlichkeit P (Y = 2) als Spaltensumme der gemeinsa-
men Wahrscheinlichkeiten unter y = 2 ergibt. In der untersten Zeile von Tabelle 3.10 sind
die Wahrscheinlichkeiten P (Y = yj ) = fy (yj ) von Y und ganz rechts P (X = xi ) = fx (xi )
von X angegeben. Sie werden Randwahrscheinlichkeiten oder Einzelwahrscheinlichkeiten
genannt.

Damit erhalten wir die Wahrscheinlichkeitstabellen von X und Y , etwa für X:

xi 1 2
f (xi ) 0,6 0,4

So können wir die Verteilungsparameter von X und Y ermitteln, nämlich die Erwar-
tungswerte

E(X) = 1 · 0,6 + 2 · 0,4 = 1,4,

E(Y ) = 1 · 0,14 + 2 · 0,5 + 3 · 0,35 = 2,22,

und die Varianzen, die wir hier mit dem Verschiebungssatz berechnen als

V (X) = 12 · 0,6 + 22 · 0,4 − 1,42 = 2,2 − 1,42 = 0,24,

V (Y ) = 12 · 0,14 + 22 · 0,5 + 32 · 0,36 − 2,222 = 5,38 − 2,222 = 0,4516.

Gemeinsame Wahrscheinlichkeiten zweier Zufallsvariablen

Die gemeinsamen Wahrscheinlichkeiten zweier diskreter Zufallsvariablen X mit den


Ausprägungen xi (i = 1, . . . , m) und Y mit den Ausprägungen yj (j = 1, . . . , n)
werden als P (X = xi und Y = yj ) = fxy (xi ; yj ) bezeichnet.

Die Rand- oder Einzelwahrscheinlichkeiten von X bzw. Y werden berechnet mit der
Zeilensumme

n
P (X = xi ) = fxy (xi ; y1 ) + fxy (xi ; y2 ) + ... + fxy (xi ; yn ) = fxy (xi ; yj )
j=1
140 3 Zufallsvariablen

bzw. mit der Spaltensumme


m
P (Y = yj ) = fxy (x1 ; yj ) + fxy (x2 ; yj ) + ... + fxy (xm ; yj ) = fxy (xi ; yj ).
i=1

Die Randwahrscheinlichkeiten sind eine Anwendung des Satzes der totalen Wahr-
scheinlichkeit (Formel 2.9, Seite 68).

Die grafische Darstellung der Verteilung von zwei diskreten Zufallsvariablen mit Säulen
wie in Abbildung 3.30 sieht zwar imposant aus, ist aber meistens schwer zu interpretieren.
Optisch leichter zu entziffern ist ein Gitternetz mit flächentreuen Symbolen wie Kreisen
oder Quadraten wie in Abbildung 3.31.

Abb. 3.30: Dreidimensionales Säulendiagramm der Esszeiten.

Abb. 3.31: Blasendiagramm der Esszeiten.


3.5 Gemeinsam verteilte Zufallsvariablen 141

Die Wahrscheinlichkeiten von zwei stetigen Zufallsvariablen werden mithilfe von Dop-
pelintegralen ermittelt. Der Graph der gemeinsamen Dichtefunktion ist ein geometrisches
Gebilde im dreidimensionalen Raum. So wird etwa die zweidimensionale Gleichverteilung
räumlich als Quader dargestellt. Stetige Zufallsvariablen werden hier aber nicht weiter
vertieft.

Es können auch die gemeinsamen Wahrscheinlichkeiten von mehr als zwei Zufallsvariablen
verwendet werden. Man nennt gemeinsame verteilte Zufallsvariablen multivariat. Analog
zu oben bezeichnet man beispielsweise die gemeinsamen Wahrscheinlichkeiten der drei
Zufallsvariablen X, Y und Z

P (X ≤ x und Y ≤ y und Z ≤ z) = Fxyz (x; y; z).

Da die formale Darstellung mit steigender Zahl der Variablen immer aufwendiger und
unübersichtlicher wird, geht man bei multivariat verteilten Zufallsvariablen in der Regel
auf Matrixnotation über, welche eine klare und knappe Notation ermöglicht. Mit steigen-
dem Komplexitätsgrad wird auch die Berechnung von multivariaten Verteilungswerten
meistens immer schwieriger bis unmöglich. Hier behilft man sich häufig, indem man die
Wahrscheinlichkeiten nach oben oder unten abschätzt oder gegebenenfalls stochastische
Unabhängigkeit der Variablen ausnützt.

In der Regel ist schon die grafische Darstellung von zwei Zufallsvariablen im dreidimen-
sionalen Raum nicht immer befriedigend darstellbar. Ab drei Variablen ist eine Grafik
der Verteilung nicht mehr möglich. Es gibt allerdings andere grafische Methoden wie
Chernow-Gesichter oder auch paarweise Streudiagramme, die zumindest in der deskrip-
tiven Statistik einen Verteilungseindruck ermöglichen.

3.5.1 Kovarianz und Korrelationskoeffizient

Wenn wir die gemeinsame Verteilung von Zufallsvariablen analysieren, interessiert uns
auch die Struktur der gemeinsamen Verteilung. Sind die Zufallsvariablen unabhängig?
Wenn nicht, wie können wir die Abhängigkeit am besten erfassen?

Die einfachste Struktur ist immer die stochastische Unabhängigkeit, denn wie bei Ereig-
nissen von Zufallsvorgängen in Formel 2.15 gilt auch hier der Satz, dass bei stochastischer
Unabhängigkeit die gemeinsame Wahrscheinlichkeit gleich dem Produkt der Einzelwahr-
scheinlichkeiten ist.

Wir wollen erst die formale Bedingung für die stochastische Unabhängigkeit zweier Zu-
fallsvariablen festhalten.
142 3 Zufallsvariablen

Stochastische Unabhängigkeit von Zufallsvariablen

Zwei diskrete Zufallsvariablen X mit den Ausprägungen xi (i = 1, . . . , m) und Y


mit den Ausprägungen yj (j = 1, . . . , n) sind stochastisch unabhängig, wenn

P (X = xi und Y = yj ) = P (X = xi ) · P (Y = yj )

bzw.

fxy (xi ; yj ) = fx (xi ) · fy (yj ) (3.26)

ist für alle Paare (i; j). Wird für ein Paar diese Bedingung nicht erfüllt, gelten X
und Y schon als abhängig.

Entprechend gilt dann bei stochastischer Unabhängigkeit auch für Bereiche

P (X ≤ a und Y ≤ b) = Fxy (a; b) = Fx (a) · Fy (b) (3.27)

für alle a, b ∈ R. Diese Beziehung gilt auch für stetige Zufallsvariablen.

Zufallsvariablen sind im Allgemeinen als abhängig anzusehen. Die Unabhängigkeit


muss bewiesen werden.

Wir wollen untersuchen, ob die Zufallsvariablen in Tabelle 3.9 unabhängig sind. Beginnen
wir in dieser Wahrscheinlichkeitstabelle oben links. Es sind

P (X = 1 und Y = 1) = fxy (1; 1) = 0,1

und

P (X = 1) · P (Y = 1) = fx (1) · fy (1) = 0,6 · 0,14 = 0,084.

Da 0,1 = 0,084 ist, sind X und Y abhängig.

Wenn die Zufallsvariablen stochastisch unabhängig sind, mag das für praktische Folge-
rungen unangenehm sein, etwa wenn sich herausstellt, dass Ausgaben für die Werbung
eines Produkts stochastisch unabhängig von der verkauften Menge sind. Der Statistiker
allerdings findet stochastische Unabhängigkeit prima, denn beispielsweise kann er dann
die Wahrscheinlichkeiten einfach berechnen, und es gibt auch noch weitere methodische
Vorzüge, von denen wir einige kennenlernen werden.

Was können wir aber mit Zufallsvariablen anfangen, wenn sie abhängig sind? Aus der
Struktur der Abhängigkeit können häufig wertvolle Informationen gewonnen werden.
Betrachten wir einige Beispiele:

Fanni ist Kellnerin in einem Wirtshaus und sehr tüchtig, sodass sie immer gutes Trink-
geld bekommt. Am liebsten mag sie den Sonntagmittag, weil es da förmlich Trinkgeld
3.5 Gemeinsam verteilte Zufallsvariablen 143

hagelt. Warum dieses? Sonntagmittag ist das Lokal voll. Definieren wir die Zufalls-
variablen X: Zahl der Gäste im Wirtshaus, und Y : Trinkgeld, das Fanni erhält. Wir
können vermuten, dass das Trinkgeld umso höher ist, je mehr Leute im Wirtshaus
sitzen. Hier könnten X und Y proportional interagieren – mit steigendem X steigt Y .
Wenn wir den Fischbestand eines Meeres betrachten, können wir vermuten dass der
Bestand X mit steigender Befischung Y fällt. Hier hätten wir also einen umgekehrt
proportionalen Zusammenhang zwischen X und Y .

Es gibt also Abhängigkeitsstrukturen mit einer tendenziellen Proportionalität, die wir als
Linearität bezeichnen wollen. Es kann aber auch Strukturen geben, die zwar messbar vor-
handen sind, aber nicht beschrieben werden können, beispielsweise wenn bei steigendem
X die Zufallsvariable Y in unterschiedlichen Abständen mal steigt, mal fällt. Aktienkurse
weisen häufig im Lauf der Zeit chaotisches Verhalten auf.

Jetzt wollen wir uns Zufallsvariablen zuwenden, deren Abhängigkeit linear beeinflusst
ist. Wir messen das Stärke des linearen Zusammenhangs mit dem Korrelationskoeffi-
zienten ρ(XY ) (ausgesprochen als „rho xy“). Wenn selbstverständlich ist, welche Zu-
fallsvariablen involviert sind, kann das Argument XY weggelassen werden. In den Ab-
bildungen 3.32 bis 3.36 wurden jeweils von zwei Zufallsvariablen X und Y 100 gleich-
zeitig beobachtete Realisationen als Koordinatenwert (x, y) mit verschiedenen Korrela-
tionskoeffizienten abgetragen. Wir sehen, wie mit abnehmendem Korrelationskoeffizien-
ten die Linearität in der Punktewolke immer verwaschener wird. Ein positiver Korre-
lationskoeffizient deutet auf einen proportionalen Zusammenhang zwischen X und Y
hin, ein negativer auf einen umgekehrt proportionalen. Ein Korrelationskoeffizient 1
oder −1 bedeutet, dass eine Variable eine exakte lineare Funktion der anderen ist, also
Y = a + bX.

Wie berechnen wir einen Korrelationskoeffizienten? Dazu benötigen wir die Kovarianz.
Man könnte sagen, sie gibt an, wie viel Information X und Y gemeinsam haben. Wir
nennen die Kovarianz C(XY ).

Kovarianz, die für den Korrelationskoeffizienten gebraucht wird

Für zwei diskrete Zufallsvariablen X und Y wird die Kovarianz berechnet als

m 
n
C(XY ) = (xi − E(X)) · (yj − E(Y )) · fxy (xi ; yj ). (3.28)
i=1 j=1

Mathematisch gleich ist die Berechnung mit dem Verschiebungssatz als


m 
n
C(XY ) = xi · yj · fxy (xi ; yj ) − E(X) · E(Y ). (3.29)
i=1 j=1
144 3 Zufallsvariablen

Abb. 3.32: Streudiagramm von 100 Realisationen der Wertepaare X und Y mit ρ = 0,9.

Abb. 3.33: Streudiagramm von 100 Realisa- Abb. 3.34: Streudiagramm von 100 Reali-
tionen der Wertepaare X und Y mit ρ = 1. sationen der Wertepaare X und Y mit ρ =
0,6.

Abb. 3.35: Streudiagramm von 100 Reali- Abb. 3.36: Streudiagramm von 100 Realisa-
sationen der Wertepaare X und Y mit ρ = tionen der Wertepaare X und Y mit ρ = −1.
0,3.
3.5 Gemeinsam verteilte Zufallsvariablen 145

Es besteht kein Anlass, bei Anblick der Doppelsummen einen Asthmaanfall zu bekom-
men. Sie bedeuten lediglich, dass die ganze Tabelle gemeinsamer Wahrscheinlichkeiten
von links oben nach rechts unten abgearbeitet wird. Dabei ist es gleichgültig, ob wir die
Spalten zeilenweise oder spaltenweise durchgehen.

Korrelationskoeffizient

Aus der Kovarianz berechnen wir den Korrelationskoeffizienten


C(XY )
ρ(XY ) =   .
V (X) V (Y )

Beispiel 3.14 Zahl von Werbespots


Ein Marktforschungsinstitut untersuchte in einer großen Studie die Wirkung von In-
seraten in Zeitschriften. Es wurden die Testpersonen aufgefordert, einen längeren po-
pulärwissenschaftlichen Artikel zu lesen. Auf den Seiten waren ein bis drei Inserate
eingebaut, wobei für jeden Leser die Zahl der eingefügten Inserate zufällig ermittelt
wurde. Um die Leser abzulenken, sollten sie eine kurze schriftliche Inhaltsangabe des
Artikels verfassen. Schließlich wurden die Personen gefragt, wie viele Anzeigen in dem
Artikel gewesen seien.

Wir definieren X: Zahl der Inserate in einer Zeitung, und Y : Zahl der Inserate, an die sich
ein Leser zu erinnern glaubte. Es ergab sich aus der Studie Tabelle 3.11 der gemeinsamen
Wahrscheinlichkeiten.

Tab. 3.11: Gemeinsame Wahrscheinlichkeiten von Inseraten eines Artikels.

Zahl Y der erinnerten Inserate Summe


1 2 3 fx (xi )
Zahl X der 1 0,2 0,1 0 0,3
Inserate in 2 0,1 0,2 0,1 0,4
der Zeitschrift 3 0 0,1 0,2 0,3
Summe fy (yj ) 0,3 0,4 0,3 1

Sind X und Y korreliert? Wenn ja, wie groß ist der Korrelationskoeffizient?

Wir benötigen für die Berechnung von ρ die Erwartungswerte, die Varianzen und die
Kovarianz. Erwartungswerte und Varianz handeln wir schnell ab:

E(X) = 1 · 0,3 + 2 · 0,4 + 3 · 0,3 = 2.

Ebenso ergibt E(Y ) = 2.

V (X) = (1 − 2)2 · 0,3 + (2 − 2)2 · 0,4 + (3 − 2)2 · 0,3 = 0,3 + 0 + 0,3 = 0,6.
146 3 Zufallsvariablen

Ebenso ergibt V (Y ) = 0,6.

Nun berechnen wir die Kovarianz C. Gemäß der Formel



m 
n
C(XY ) = (xi − E(X)) · (yj − E(Y )) · fxy (xi ; yj )
i=1 j=1

arbeiten wir uns in der Wahrscheinlichkeitstabelle 3.11 von links oben nach rechts unten:

C(XY ) = (1 − 2) · (1 − 2) · 0,2 + (1 − 2) · (2 − 2) · 0,1 + (1 − 2) · (3 − 2) · 0


+(2 − 2) · (1 − 2) · 0,1 + (2 − 2) · (2 − 2) · 0,2 + (2 − 2) · (3 − 2) · 0,1
+(3 − 2) · (1 − 2) · 0 + (3 − 2) · (2 − 2) · 0,1 + (3 − 2) · (3 − 2) · 0,2
= (−1) · (−1) · 0,2 + (−1) · 0 · 0,1 + (−1) · 1 · 0
+0 · (−1) · 0,1 + 0 · 0 · 0,2 + 0 · 1 · 0,1
+1 · (−1) · 0 + 1 · 0 · 0,1 + 1 · 1 · 0,2
= 0,2 + 0 + 0
+0 + 0 + 0
+0 + 0 + 0,2
= 0,4.

Wir können jetzt den Korrelationskoeffizienten berechnen als


0,4 0,4 2
ρ= √ √ = = = 0,6667.
0,6 0,6 0,6 3
Wir erkennen, dass X und Y deutlich positiv korreliert sind, mit steigender Zahl der
Inserate stieg auch die Zahl der erinnerten.

Nun wollen wir das Beispiel 3.13 anschauen, wo es um die Zeit für Mahlzeiten bei Füh-
rungskräften ging. Wir werden den Korrelationskoeffizienten zwischen Zeit für das Früh-
stück und für das Mittagessen ermitteln. Hier sind die Erwartungswerte E(X) und E(Y )
„krumm“, sodass sich für manuelles Berechnen der Verschiebungssatz eher eignet. Die
Formel mit dem Verschiebungssatz lautet

m 
n
C(XY ) = xi · yj · fxy (xi ; yj ) − E(X) · E(Y ). (3.30)
i=1 j=1

Wir arbeiten wieder Tabelle 3.10 von links oben nach rechts unten ab und erhalten

C(XY ) = 1 · 1 · 0,1 + 1 · 2 · 0,3 + 1 · 3 · 0,2


+2 · 1 · 0,04 + 2 · 2 · 0,2 + 2 · 3 · 0,16 − 1,4 · 2,22
= 0,1 + 0,6 + 0,6
+0,08 + 0,8 + 0,96 − 3,108
= 3,14 − 3,108 = 0,032.
3.5 Gemeinsam verteilte Zufallsvariablen 147

Wir berechnen dann den Korrelationskoeffizienten als


0,032
ρ= √ √ = 0,0972.
0,24 0,4516

Der Korrelationskoeffizient ist sehr klein. Es scheinen die aufgewendeten Zeiten für Früh-
stück nur ganz wenig denen für das Mittagessen zu entsprechen.

3.5.2 Lineare Funktionen von Zufallsvariablen

Was ist überhaupt eine lineare Funktion? Stellen wir uns eine Zufallsvariable Y vor, die
abhängig von mehreren unabhängigen Variablen X1 , X2 , . . . Xn ist. Wir können also
zunächst angeben: Y = f (X1 , X2 . . . , Xn ), was heißen soll: „Y ist eine Funktion der Xi
(i = 1, . . . n).“ So ist beispielsweise der Blutdruck abhängig von Alter, Gewicht, Stress
usw.

Eine lineare Funktion ist besonders einfach und hat viele wünschenswerte Eigenschaften.
Linear heißt, dass in der Funktion die Xi selbst nicht verändert werden, es dürfen lediglich
noch beliebige Konstanten mitwirken. Ein Beispiel für eine lineare Funktion ist

Y = 200 + 3 · X1 − 0,05 · X2 + 128 · X3 .

Nichtlinear wäre etwa Y = X12 , Y = sin(X1 + X2 ), Y = a + b · ln(X1 ).

Lineare Funktion zwischen zwei Zufallsvariablen X und Y

Gegeben ist eine beliebig verteilte Zufallsvariable X mit dem Erwartungswert E(X)
und der Varianz V (X). Die lineare Funktion

Y =a+b·X

mit a und b als beliebige Konstanten hat den Erwartungswert E(Y ) = a + b · E(X)
und die Varianz V (Y ) = b2 · V (X).

Ist X normalverteilt, ist Y ebenfalls normalverteilt.

Beispiel 3.15 Kosten für Versuchsperson


Die Zahl der Stunden, die eine Versuchsperson für ein bestimmtes Projekt eingesetzt
wird, ist normalverteilt mit dem Erwartungswert E(X) = μ = 8 und der Varianz
V (X) = σ 2 = 2, 25. Sie bekommt pro Stunde ein Honorar von 15 e. Außerdem erhält
sie einmalig eine Mahlzeit im Wert von 10 e.

Wie ist Y verteilt?


148 3 Zufallsvariablen

Die Studentin Hilde möchte gern ihre Finanzen ein wenig aufbessern und stellt sich als
Versuchsperson zur Verfügung. Mit welcher Wahrscheinlichkeit kostet sie das Institut
maximal 175 e?

Wir können zunächst feststellen, dass die Kosten Y von der Zahl der aufgewendeten
Stunden X abhängen, und zwar in der Form

Y = 10 + 15 · X.

Mit a = 10 und b = 15 können wir Y als lineare Funktion Y = a + bX darstellen.

Nach der obigen Vorschrift ist Y normalverteilt mit den Parametern

E(Y ) = a + b · E(X) = 10 + 15 · 8 = 130

und

V (Y ) = b2 · V (X) = 152 · 2,25 = 506,25.

Es ist dann

175 − 130
P (Y ≤ 175) = Φx (175|130; 506,25) = Φz √ = Φz (2) = 0,9772.
506,25
Wir betrachten nun eine lineare Funktion Z = a + bX + cY .

Lineare Funktion zwischen drei Zufallsvariablen X, Y und Z

Gegeben sind die beliebig verteilten Zufallsvariablen X und Y , mit den Erwartungs-
werten E(X) bzw. E(Y ) und den Varianzen V (X) bzw. V (Y ). Außerdem sind X
und Y stochastisch unabhängig. Die lineare Funktion

Z = a + bX + cY,

mit a, b und c als beliebige Konstanten, hat den Erwartungswert E(Z) = a + b ·


E(X) + c · E(Y ) und die Varianz b2 · V (X) + c2 · V (Y ).

Sind X und Y normalverteilt, ist Z ebenfalls normalverteilt.

Beispiel 3.16 Eignungstest für Hochschule


Eine international bekannte Hochschule lässt Bewerber auf einen Studienplatz eine Eig-
nungsprüfung in Mathematik und in Sport machen. Für jedes Fach gibt es maximal
100 Punkte. Erfahrungsgemäß ist die durchschnittlich erreichte Punktzahl in Mathe-
matik 60 und in Sport 80. Wir definieren X als erreichte Punktzahl in Mathe und Y
in Sport. Es haben dann X und Y den Erwartungswert E(X) = 60 und E(Y ) = 80.
Die Varianz der Zufallsvariablen beträgt V (X) = 100 für X und V (Y ) = 225 für Y.
X und Y sind bekannterweise stochastisch unabhängig.
3.5 Gemeinsam verteilte Zufallsvariablen 149

Für die Aufnahme an die Hochschule zählt die erreichte Gesamtpunktzahl. Welche
Verteilungsparameter hat die Summe Z der Punkte?

Es ist Z = X + Y , genauer Z = 0 + 1 · X + 1 · Y . Somit ist Z eine lineare Funktion von


X und Y . Wir ermitteln die Parameter als

E(Z) = a + bE(X) + cE(Y ) = 0 + 1 · E(X) + 1 · E(Y ) = 140

und

V (Z) = b2 · V (X) + c2 · V (Y ) = 12 · V (X) + 12 · V (Y ) = 325.

Wir haben für ein erstes Verständnis oben zwei einfache lineare Funktionen exempla-
risch vorgestellt. Nun gehen wir zum mehr akademischen allgemeinen Fall einer linearen
Funktion über, nämlich Y = b0 + b1 · X1 + b2 · X2 + . . . + bn · Xn .

Lineare Funktion beliebig vieler Zufallsvariablen

Gegeben sind n viele beliebig verteilte Zufallsvariablen Xi (i = 1, . . . , n). Es sei



Y = b0 + b1 · X1 + b2 · X2 + . . . + bn · Xn = b0 + bi · X i ,
i

wobei b0 , b1 . . . bn beliebige Konstanten sind. Es gilt für alle Zufallsvariablen: Y hat


den Erwartungswert

E(Y ) = b0 + b1 · E(X1 ) + b2 · E(X2 ) + . . . bn · E(Xn ) = b0 + bi · E(Xi )
i

und die Varianz



V (Y ) = b21 · V (X1 ) + b22 · V (X2 ) + . . . + b2n · V (Xn ) = b2i · V (Xi ),
i

falls die Xi paarweise stochastisch unabhängig sind.

Sind die Zufallsvariablen Xi auch noch normalverteilt, ist die resultierende lineare
Funktion ebenfalls normalverteilt, und zwar mit den oben gegebenen Parametern.

Hier ein alltagstaugliches Beispiel zu finden, ist schwierig. Diese Formel wird vor allem
in der Schätztheorie angewendet.

Spezielle lineare Funktionen sind

die standardisierte Zufallsvariable

X − E(X)
Z=  .
V (X)
150 3 Zufallsvariablen

Sie hat die Parameter E(Z) = 0 und V (Z) = 1.


Ist X normalverteilt, ist

X − E(Z) X − μz
Z= =
V (Z) σz

aufgrund der Reproduktivität der Normalverteilung ebenfalls normalverteilt als


N (0; 1). Man nennt Z standardnormalverteilt, wie wir bereits auf Seite 127 gesehen
haben. Das ermöglicht uns, jede beliebige Normalverteilung auf die eine Standardnor-
malverteilung zurückzuführen, um damit Werte der Verteilungsfunktion zu ermitteln.
das arithmetische Mittel von n Zufallsvariablen: Gegeben sind n viele identisch verteilte
und stochastisch unabhängige Zufallsvariablen Xi (i = 1, . . . , n), das heißt, die alle
denselben Verteilungstyp, denselben Erwartungswert E(X) und dieselbe Varianz V (X)
besitzen. Das arithmetische Mittel

1 
n
1
X= · Xi = · (X1 + X2 + · · · + Xn )
n n
i=1

hat die Verteilungsparameter E(X) und die Varianz V (X)n .


Die Varianz von X ist also kleiner als die der Xi , was nachvollziehbar ist, denn we-
gen der Durchschnittsbildung werden große Ausschläge der Xi nach oben oder unten
eingeebnet.
Wenn die Xi normalverteilt sind mit demselben Erwartungswert μ und derselben Va-
2
rianz σ 2 , ist X normalverteilt wie N (μ; σn ).
Diese Eigenschaft ist grundlegend für die Schätztheorie. Auf ihrer Grundlage können
wir mithilfe von Stichproben stochastisch korrekte Schätzungen von unbekannten Ver-
teilungskennwerten erlangen.
4 Parameterschätzungen

Wir haben nun die deskriptive Statistik kennengelernt, mit der wir real vorliegende Daten
beschreiben können, und die Wahrscheinlichkeitstheorie, die uns gewisse Gesetzmäßig-
keiten für das Zustandekommen von Daten liefert. Diese Gesetzmäßigkeiten helfen uns,
Folgerungen aus den Daten zu ziehen und relevante Entscheidungen zu treffen. Wir legen
also den Daten ein statistisches Modell zugrunde. Solche Modelle sind aber nicht, wie
etwa das Huftier, von Gott geschaffen und in die Welt gesetzt worden, um dem Men-
schen untertan zu sein. Es sind hypothetische Gebilde des Menschen, quasi Krücken, die
helfen, die komplizierte Vielfalt des realen Lebens zu vereinfachen, also eine Abbildung
der Realität auf das Wesentliche. Häufig können damit wertvolle Erkenntnisse geliefert
werden, manchmal sind die Rückschlüsse auch falsch. Das Leben ist halt nicht immer
fair.

Betrachten wir ein Beispiel aus der Welt der Wirtschaft. Ein großer Obst- und Gemü-
semarkt wird direkt vom Produzenten mit Orangen beliefert, das heißt, ein Lastwagen
mit Orangen rollt heran. Dem Markt liegt die Qualität der Produkte am Herzen, und
so wird bei Lieferung eine Qualitätskontrolle gemacht, um zu untersuchen, ob die Ware
einwandfrei ist. Da die Orangen reif geerntet werden, dürfen maximal 10 % der Früchte
unbrauchbar sein. Nun ist es aber unmöglich, jede Orange auf dem Laster zu untersu-
chen. Also wird eine Stichprobe gemacht. Es werden der Lieferung zufällig 100 Orangen
entnommen und überprüft. Die Stichprobe ergibt nun fünf schlechte Orangen. Es sind
also nur 5 % der Orangen in der Stichprobe schlecht und die Lieferung wird angenom-
men. Können wir nun daraus schließen, dass die gesamte Lieferung nur 5 % schlechte
Orangen enthält? Mit welcher Wahrscheinlichkeit wird die Lieferung fälschlicherweise
angenommen, wenn in Wahrheit 12 % schlechte Orangen in der Lieferung sind? Können
wir ein Intervall angeben, in dem der wahre Anteil der schlechten Orangen mit einer
Wahrscheinlichkeit von 90 % liegt?

4.1 Schätzverteilungen – Könnte man sie


Designerverteilungen nennen?

Ursprünglich ging man in der Statistik bei den Verfahren, die zum Schätzen und Tes-
ten mithilfe normalverteilter Stichprobendaten entwickelt wurden, davon aus, dass die
152 4 Parameterschätzungen

resultierenden Zufallsvariablen normalverteilt seien. Der Statistiker William Sealy Gos-


set, der bei der Guinness-Brauerei in Dublin arbeitete, fand heraus, dass diese An-
nahme nur bei Stichproben mit vielen Elementen gültig war. In der Qualitätskontrolle
allerdings ist man auf kleine Stichprobenumfänge angewiesen. Er entwickelte darauf-
hin unter dem Pseudonym Student die Student’sche oder t-Verteilung, die eine weit
bessere Anpassung ermöglichte. Ronald Aylmer Fisher, einer der bedeutendsten Sta-
tistiker des frühen 20. Jahrhunderts, machte die Verteilung publik. Der Geodät Fried-
rich Robert Helmert hatte im Zuge seiner Forschungsarbeit die χ2 -Verteilung herge-
leitet, die dann von dem ebenfalls renommierten Statistiker Karl Pearson und von
R. A. Fisher in die Wahrscheinlichkeitstheorie eingebettet wurde. Fisher selbst ent-
wickelte eine weitere wichtige Verteilung, die F -Verteilung. Alle diese speziellen Ver-
teilungen könnten wir also gewissermaßen als Designerverteilungen bezeichnen, denn
sie wurden für bestimmte Anwendungen maßgeschneidert. Die genannten Verteilun-
gen, die sich durchweg von der Normalverteilung herleiten, werden im Folgenden
nacheinander vorgestellt.

Allerdings wollen wir auf die Wiedergabe der Dichtefunktionen dieser Verteilungen ver-
zichten, denn sie sind für Anfänger schwer verständlich. Außerdem können wir diese
Funktionen nicht unmittelbar zur Berechnung der Verteilungen verwenden. Genaueres
kann beispielsweise bei Hartung et. al (1995, S. 152 ff.) nachgelesen werden.

Wir gehen für die folgenden Abschnitte beispielhaft von neun normalverteilten und paar-
weise stochastisch unabhängigen Zufallsvariablen Xi (i = 1, . . . , 9) aus. Jede Zufallsvaria-
ble Xi hat einen Erwartungswert μi und eine Varianz σi2 . Durch Standardisieren erhalten
wir die standardnormalverteilten unabhängigen Zufallsvariablen Zi als
X1 − μ1 X2 − μ2 X3 − μ3 X9 − μ9
Z1 = , Z2 = , Z3 = , . . . , Z9 = .
σ1 σ2 σ3 σ9

4.1.1 χ2 -Verteilung

Nehmen wir die ersten vier standardnormalverteilten Zufallsvariablen Z1 bis Z4 . Wir


quadrieren die vier Zufallsvariablen, summieren sie auf und erhalten eine Zufallsvariable

Y = Z12 + Z22 + Z32 + Z42 .

Die Zufallsvariable Y hat eine sogenannte χ2 -Verteilung (ausgesprochen „Chi-Quadrat-


Verteilung“ mit weichem „ch“ wie in „ich“) mit vier Freiheitsgraden. Die Zahl der Sum-
manden gibt also die Zahl n der Freiheitsgrade an. n Freiheitsgrade sind so zu verstehen,
dass wir n Zufallsvariablen haben, von denen jede frei variiert.
4.1 Schätzverteilungen 153

χ2 -Verteilung

Gegeben sind n viele standardnormalverteilte Zufallsvariablen Zi (i = 1, . . . , n). Die


Zufallsvariable Y bezeichnet die Summe dieser quadrierten Zufallsvariablen


n
Y = Zi2 = Z12 + Z22 + . . . + Zn2 . (4.1)
i=1

Y ist dann χ2 -verteilt mit n Freiheitsgraden.

Aufgrund der Quadrierung nimmt Y Werte von mindestens null an.

Die χ2 -Verteilung besitzt den Erwartungswert n und die Varianz 2n.

Das p-Quantil der χ2 -Verteilung mit n Freiheitsgraden wird hier als χ2 (p; n) be-
zeichnet.

In Abbildung 4.1 ist der typische Verlauf der Dichtefunktion angegeben, hier einer χ2 -
Verteilung mit sechs Freiheitsgraden.

0,14
Dichtefunktion

0,12
0,1
0,08
0,06
0,04
0,02
0
0 5 10 15 20
Ausprägung y

Abb. 4.1: Chi-Quadrat-Verteilung mit sechs Freiheitsgraden.

Bemerkung: Y ist zentral χ2 -verteilt, denn die Zufallsvariablen Zi sind bezüglich ihrer
Erwartungswerte zentriert. Normalverteilte Zufallsvariablen, die nicht zentriert sind, er-
geben eine sogenannte nichtzentrale χ2 -Verteilung mit einem Nichtzentralitätsparameter
λ. Dieser besteht aus der Summe der quadrierten Erwartungswerte der beteiligten nor-
malverteilten Zufallsvariablen Xi . Das soll aber hier nicht weiter vertieft werden.

Bei jedem Freiheitsgrad ergibt sich eine eigene Tabelle der χ2 -Verteilung. In der Regel
werden wir jedoch nur bestimmte Quantile benötigen. Es sind daher in Tabelle A.2 im
Anhang die Quantile für ausgewählte Wahrscheinlichkeiten tabelliert.
154 4 Parameterschätzungen

Nach dem zentralen Grenzwertsatz – wir haben es hier mit einer Summe von quadrierten
standardnormalverteilten Zufallsvariablen zu tun – können wir die Verteilungsfunktion
näherungsweise mithilfe der Normalverteilung ermitteln. Allerdings verwenden wir für
√ √
n > 30 statt Y lieber die Funktion Z = 2Y − 2n − 1. Z ist dann standardnormal-
verteilt. Diese Näherung ist besser als Y beizubehalten. Die χ2 -Verteilung ist nämlich
stark schief, und durch das Wurzelziehen wird sie schon in eine eher symmetrische Form
gebracht.

Beispiele

Gegeben ist Y , eine χ2 -verteilte Zufallsvariable mit fünf Freiheitsgraden. Es ist

P (Y ≤ 11,07) = 0,95,
P (Y ≥ 9,24) = 1 − 0,90 = 0,1,
χ2 (0,025; 5) = 0,83,
χ2 (0,99; 5) = 15,09.

Gegeben ist Y , eine χ2 -verteilte Zufallsvariable mit 41 Freiheitsgraden. Hier können


wir die Verteilungswerte von Y wegen mehr als 30 Freiheitsgraden annähernd mit der
standardnormalverteilten Zufallsvariablen
√ √ √
Z = 2Y − 2 · 41 − 1 = 2Y − 9

ermitteln.
P (Y ≤ 50): Es ist
√ √
Z = 2 · 50 − 2 · 41 − 1 = 10 − 9 = 1.

Also ist

P (Y ≤ 50) ≈ Φz (1) = 0,8413.

Der exakte Wert ist übrigens 0,8418.


Das 0,975-Quantil: Wir müssen hier in umgekehrter Richtung vorgehen und suchen erst

das 97,5 %-Quantil der Standardnormalverteilung, das ist 1,96. Wenn wir z = 2y − 9
nach y auflösen, erhalten wir
1
y= · (z + 9)2 .
2
Wir setzen für z 1,96 ein, und es resultiert
1
χ2 (0,975; 41) = · (1,96 + 9)2 = 60,06.
2
Es ist also P (Y ≤ 60,06) = 0, 975.
4.1 Schätzverteilungen 155

4.1.2 F -Verteilung

Wir bedienen uns für eine erste Beschreibung wieder unserer standardnormalverteilten
Zufallsvariablen aus Abschnitt 4.1.

Wir haben eine mit m = 4 Freiheitsgraden χ2 -verteilte Zufallsvariable Y1 , die wie oben
definiert ist, und eine zweite χ2 -verteilte Zufallsvariable

Y2 = Z52 + Z62 + Z72

mit n = 3 Freiheitsgraden.

Der Quotient

Y1 Z12 + Z22 + Z32 + Z42


F = 4 = 4
Y2 Z52 + Z62 + Z72
3 3
hat eine sogenannte F -Verteilung mit vier und drei Freiheitsgraden. Man nennt sie auch
Fisher’sche Verteilung nach dem bekannten Statistiker Fisher (Seite 152). Die Vertei-
lungswerte können wie bei der χ2 -Verteilung ebenfalls nicht analytisch berechnet werden.
Da jeder Freiheitsgrad m und auch n eine eigene Verteilungsfunktion erzeugt, ergibt sich
eine Unzahl von verschiedenen Verteilungen. Deshalb sind in Tabelle A.3a lediglich die
0,975-Quantile der F -Verteilung für ausgewählte m und n Freiheitsgrade vertafelt. Ist
ein Freiheitsgrad nicht aufgeführt, genügt für den Hausgebrauch, ein Quantil zwischen
den tabellierten Werten zu wählen.

F -Verteilung

Gegeben sind zwei χ2 -verteilte Zufallsvariablen, Y1 mit m Freiheitsgraden und Y2


mit n Freiheitsgraden. Der Quotient
Y1
F = m (4.2)
Y2
n
hat eine F -Verteilung mit m Freiheitsgraden des Zählers und n Freiheitsgraden des
Nenners.

Die Ausprägungen von F sind mindestens null. Der Erwartungswert von F existiert
erst ab n = 3 Freiheitsgraden und lautet
n
E(F ) = . (4.3)
n−2
156 4 Parameterschätzungen

Die Varianz ist ab n ≥ 5 definiert und lautet

2n2 (m + n − 2)
V (F ) = . (4.4)
m(n − 2)2 (n − 4)

Das p-Quantil der F -Verteilung mit m und n Freiheitsgraden wird hier f (p; m; n)
1
genannt. Es besteht die Beziehung f (p; m; n) = .
f (1 − p; n; m)

In Abbildung 4.2 ist der Verlauf des Dichtefunktionsgraphs einer F -Verteilung mit vier
und acht Freiheitsgraden wiedergegeben. Auffällig ist die starke Rechtsschiefe.

0,8
Dichtefunktion

0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0 1 2 3 4 5 6 7 8
Ausprägung von f
Abb. 4.2: F -Verteilung mit vier und acht Freiheitsgraden.

Die Verteilungsfunktion der F -Verteilung lässt sich nicht so einfach näherungsweise er-
mitteln wie beispielsweise die der χ2 -Verteilung.

Ein Beispiel soll den Abschnitt abrunden. Gegeben ist eine F -verteilte Zufallsvariable F
mit fünf und sechs Freiheitsgraden. Wir wollen mithilfe der Verteilungstabelle A.3a zwei
Quantile ermitteln:

Es ist das 0,975-Quantil f (0,975; 5; 6) = 5,99.


Das 0,025-Quantil beträgt

1 1
f (0,025; 5; 6) = = = 0,1433.
f (0,975; 6; 5) 6,98
4.1 Schätzverteilungen 157

4.1.3 t-Verteilung

Wir verwenden wieder die standardnormalverteilten Zufallsvariablen von oben. Es ist


beispielsweise die Zufallsvariable
Z9 Z9
T =  = 
Y2 Z5 +Z62 +Z72
2

3
3
t-verteilt mit drei Freiheitsgraden. Abbildung 4.3 zeigt den typischen Verlauf einer t-
Verteilung, hier mit sechs Freiheitsgraden.
Dichtefunktion

-4 -3 -2 -1 0 1 2 3 4
t
Abb. 4.3: t-Verteilung mit sechs Freiheitsgraden.

t-Verteilung

Gegeben sind eine standardnormalverteilte Zufallsvariable Z und eine mit n Frei-


heitsgraden χ2 -verteilte Zufallsvariable Y . Der Quotient
Z
T =  (4.5)
Y
n
ist eine Zufallsvariable und wird als t-verteilt oder Student-t-verteilt mit n Freiheits-
graden bezeichnet.

T hat für n ≥ 2 den Erwartungswert

E(T ) = 0 (4.6)

und für n ≥ 3 die Varianz


n
V (T ) = . (4.7)
n−2
158 4 Parameterschätzungen

Der Graph der t-Verteilungsdichte sieht ähnlich aus wie der der Standardnormalvertei-
lung, denn die Dichtefunktion verteilt sich symmetrisch um t = 0. Die t-Verteilung hat
damit Rechenregeln vergleichbar zu denen der Standardnormalverteilung. Allerdings ist
die Dichtefunktion von T in der Mitte etwas schmäler und an den Seiten etwas höher.
Die Quantile der Zufallsvariablen T sind in Tabelle A.4 für ausgewählte Wahrschein-
lichkeiten p und für Freiheitsgrade n von 1 bis 30 vertafelt. Für n > 30 können wir
die Verteilungswerte der t-Verteilung bzw. deren Quantile näherungsweise mithilfe der
Standardnormalverteilung ermitteln.

Bemerkungen:

Das Quadrat einer t-verteilten Zufallsvariablen mit n Freiheitsgraden ist F -verteilt mit
einem und n Freiheitsgraden:
⎛ ⎞2
Z2
⎜ Z ⎟
T2 = ⎜ ⎟ 1
⎝Y ⎠ = Y .
n n

Uns liegt hier eine zentrale t-Verteilung vor, weil der Zähler Z den Erwartungswert
E(Z) = 0 hat. Wenn die normalverteilte Zufallsvariable einen Erwartungswert μ = 0
hat, erhalten wir eine nichtzentrale t-Verteilung mit dem Nichtzentralitätsparameter μ.

Beispiele

Gegeben ist eine t-verteilte Zufallsvariable T mit sechs Freiheitsgraden. Es ist

P (T ≤ 1,440) = 0,9,
P (T ≤ −3,143) = 1 − P (T ≤ 3,143) = 1 − 0,99 = 0,01,
das 0,95-Quantil t(0,95; 6) = 1,943,
das 0,1-Quantil t(0,1; 6) = −1,440.

Gegeben ist eine t-verteilte Zufallsvariable T mit 50 Freiheitsgraden. Hier können die
t-Verteilungswerte mit der Standardnormalverteilung approximiert werden. Es ist etwa

P (T ≤ 2) ≈ Φz (2) = 0,9772,
das 0,95-Quantil t(0,95; 50) ≈ z(0,95) = 1,65.
4.2 Schätzfunktionen 159

4.2 Schätzfunktionen – Ist der beste Schätzer auch


der beste Schätzer?

Wir haben nun im Wesentlichen alles über Zufallsvariablen gelernt. Das befähigt uns zu
einem weiteren großen Schritt: dem Schätzen. Warum müssen wir schätzen?

Beispiel 4.1 Kundenzufriedenheit


Ein Versandhandelsunternehmen möchte die Zufriedenheit seiner Kunden mit dem
Service erfassen. Dafür sollen Fragebögen verschickt werden. Das Unternehmen hat
ungefähr eine Million Kunden. Eine Befragung aller Kunden wäre allerdings zu teuer,
sowohl hinsichtlich des Portos als auch der Eingabe aller Antworten in den Computer.
Deshalb entschließt sich die Unternehmensleitung, 1000 Kunden zufällig auszuwäh-
len und anzuschreiben. Von den 1000 Kunden antworten 600, sie seien zufrieden mit
dem Service des Unternehmens. Es sind also 60 % der angeschriebenen Kunden mit
dem Service zufrieden. Heißt das nun auch, dass 60 % aller Kunden mit dem Service
zufrieden sind?

Wir können die Menge aller Kunden als Grundgesamtheit betrachten. Die 1000 aus-
gewählten Kunden sind eine Stichprobe aus dieser Grundgesamtheit. Und wir hoffen,
dass die Stichprobe den Anteil der zufriedenen Kunden in der Grundgesamtheit eini-
germaßen trifft.

Betrachten wir ein weiteres ausführliches Beispiel und leiten wir anhand dessen im fol-
genden Abschnitt das Grundprinzip einer Schätzfunktion ab.

4.2.1 Schätzfunktion für den Erwartungswert eines


normalverteilten Merkmals mit bekannter Varianz

Beispiel 4.2 Wirkzeit von Felixa


Im psychologischen Institut der Uni Entenhausen wird das neue Medikament Fe-
lixa für depressive Störungen entwickelt. Die Doktorandin Cindy arbeitet maß-
geblich an diesem Projekt mit. Es ist wünschenswert, dass der Noradrenalin-
Wiederaufnahmehemmer zumindest nicht langsamer wirkt als die herkömmlichen Me-
dikamente. Dazu wird Patienten in den vorgeschriebenen Dosen Felixa verabreicht.
Kann Cindy eine wissenschaftlich haltbare Aussage darüber machen, wie lang die
durchschnittliche Wirkzeit von Felixa dauert? Cindy hat keine Ahnung, wie hoch die
durchschnittliche Wirkzeit bei allen Patienten ausfallen würde, die jemals so einen Ver-
such miterleben „dürfen“. Aber sie kann eine Stichprobe machen. Nun wachsen Patien-
ten mit depressiven Störungen nicht auf Bäumen, sodass Cindy fünf Versuchspersonen
160 4 Parameterschätzungen

als ausreichend erachtet. Sie kann also diese Personen testen und dann die durch-
schnittliche Wirkzeit berechnen – und hoffen, dass die Stichprobe den Sachverhalt aus
der Grundgesamtheit aller betroffenen Patienten einigermaßen genau widerspiegelt.

Um die Beziehung zwischen Grundgesamtheit und Stichprobe analysieren zu können,


fassen wir diese Problemstellung als stochastisches Modell auf.

Cindy definiert eine Zufallsvariable X: Wirkzeit von Felixa. Sie vermutet zu Recht, dass
X normalverteilt ist. Für ihre Studie braucht sie Informationen über die Verteilungspa-
rameter von X, aber sie kennt Erwartungswert und Varianz der Zufallsvariablen nicht –
woher auch? Sie muss also diese Parameter schätzen.

Nun wollen wir den Komplex Schätzungen von der anderen Seite angehen. Wir sehen die
Grundgesamtheit aller Patienten als Normalverteilung mit den Verteilungsparametern μ
und σ 2 vor uns ausgebreitet.

1. Wir wählen aus dieser Grundgesamtheit einen Patienten zufällig aus und definieren
die Zufallsvariable X1 : Wirkzeit von Felixa (in Tagen). X1 ist normalverteilt mit μ
und σ 2 .
2. Wir wählen einen weiteren Patienten zufällig aus und definieren die Zufallsvariable
X2 : Wirkzeit von Felixa (in Tagen). X2 ist normalverteilt mit μ und σ 2 .
...
5. Wir verfahren so weiter bis zur Zufallsvariablen X5 .

Es hat also jeder Patient seine eigene Zufallsvariable mit der Wirkzeit. Die Zufallsvaria-
blen Xi (i = 1, . . . , 5) sind identisch verteilt, denn sie entstammen derselben Grundge-
samtheit. Die fünf Realisationen der fünf Zufallsvariablen Xi , die wir konkret erhalten,
nennen wir Stichprobe. Damit wollen wir nun den unbekannten Parameter μ der Grund-
gesamtheit schätzen. Wir können aber mit fünf Werten als solchen nichts anfangen, son-
dern müssen sie zu einem Wert zusammenfassen. Da μ die durchschnittliche Wirkzeit
von allen Patienten in der Grundgesamtheit ist, müsste doch der Durchschnitt über die
fünf Zufallsvariablen in der Stichprobe am besten als Schätzung für μ geeignet sein.

Wir schätzen also μ mithilfe des arithmetischen Durchschnitts


1
X= · (X1 + X2 + X3 + X4 + X5 ) .
5
Wie wir auf Seite 150 gelernt haben, ist X eine lineare Funktion der Xi (Formel 3.5.2)
2
und daher verteilt nach N (μ; σn ).

Nun wollen wir etwas konkreter werden. Uns, aber nicht Cindy, ist bekannt, dass die
Wirkzeit eines Patienten normalverteilt ist mit dem Erwartungswert μ = 10 und der
Varianz σ 2 = 12, 8. Lassen wir Cindy eine Stichprobe mit ihren fünf Patienten erheben.
4.2 Schätzfunktionen 161

normalverteilte Grundgesamtheit

unbekannter Parameter
m
Stichprobe
Schätzung
X1 X2 X3 X4 X5

X
Abb. 4.4: Stichprobenentnahme zur Schätzung unbekannter Parameter.

Sie erhält

x1 x2 x3 x4 x5
15,68 7,11 14,43 10,45 17,01

und errechnet daraus das arithmetische Mittel


1 64,68
x= · (15,68 + 7,11 + 14,43 + 10,45 + 17,01) = ≈ 12,94.
5 5
Der Wert liegt um einiges höher als der Mittelwert, was aber vermutlich durch die kleine
Stichprobe mit fünf Elementen verursacht wird.

Könnten wir μ auch anders schätzen? Wir könnten beispielsweise den Median z ver-
wenden, denn bei der Normalverteilung sind μ und der Median gleich. Das wäre in der
obigen Stichprobe der drittkleinste Wert, also 14,43. Welche Schätzung ist besser? Bei
jeder Stichprobe können x und z anders ausfallen, weil ihre Werte immer von den Realisa-
tionen der Xi abhängen. Stichprobenmittel und -median sind also selbst Zufallsvariablen
X bzw. Z. Sie sind eine Funktion der Stichprobenvariablen X1 , X2 , . . . , X5 .

Stellen wir uns vor, dass es weitere Forschungsvorhaben und Institute gibt, bei denen
Felixa untersucht wird, jeweils mit fünf Patienten. Es liegen insgesamt 20 Stichproben
mit n = 5 vor. Die Ergebnisse wurden in Tabelle 4.1 zusammengefasst.

Wir sehen, dass die einzelnen Werte stark schwanken und damit auch die Stichproben-
mittel und -mediane unterschiedlich ausfallen. X und Z sind eine Funktion der Stichpro-
benvariablen Xi . Da mit diesen Funktionen ein Parameter geschätzt wird, nennt man sie
Schätzfunktion, häufig auch Schätzstatistik oder kurz Schätzer.

X ist im Beispiel 4.2 normalverteilt wie N (10; 12,8


5 = 2,56). X ist also eine Schätzfunktion
für μ – nennen wir diese Funktion P1 = X –, und ebenso ist Z eine Schätzfunktion für
μ, zum Beispiel P2 = Z. Wir könnten uns auch eine andere Schätzfunktion überlegen,
etwa P3 = log(X1 + X2 + . . . + X5 ).
162 4 Parameterschätzungen

Tab. 4.1: 20 verschiedene Stichproben der Wirkzeit von Felixa.

Nr. der Stichprobe x1 x2 x3 x4 x5 x z s2


1 15,68 7,11 14,43 10,45 17,01 12,936 14,43 16,62
2 12,84 7,01 7,76 5,31 4,27 7,438 7,01 11,01
3 12,26 4,15 14,1 9,16 9,18 9,77 9,18 14,31
4 9,26 9,19 9,84 13,43 14,18 11,18 9,84 5,88
5 10,21 10,52 7,15 6,92 12,43 9,446 10,21 5,57
6 8,99 12,44 8,89 13,93 6,41 10,132 8,99 9,11
7 13,94 7,75 10,95 13,14 9,83 11,122 10,95 6,27
8 11,2 7,23 8,96 10,57 15,36 10,664 10,57 9,26
9 9,97 5,11 10,11 6,85 5,52 7,512 6,85 5,74
10 7,89 13,2 8,11 18,36 10,25 11,562 10,25 19,00
11 16,24 7,55 11,18 14,71 12,62 12,46 12,62 11,28
12 11,09 9,09 6,45 8,75 8,45 8,766 8,75 2,74
13 5,28 13,72 7,53 9,83 8,46 8,964 8,46 9,81
14 12,68 10,55 15,6 7,68 12,29 11,76 12,29 8,50
15 6,26 13,6 13,51 12,76 9,49 11,124 12,76 10,21
16 14,73 7,49 9,14 10,84 14,66 11,372 10,84 10,61
17 6,74 6,52 14,46 9,46 12,26 9,888 9,46 11,99
18 9,87 9,28 11,43 7,76 3,74 8,416 9,28 8,56
19 5,55 7,84 6,82 9,6 8,03 7,568 7,84 2,26
20 7,76 8,98 8,52 9,15 8,76 8,634 8,76 0,29
Mittelwert der 20 Werte 10,04 9,97 8,95
Varianz der 20 Werte 2,76 3,84 21,56

Welche Schätzfunktion ist sinnvoll und welche nicht? Welche Anforderungen stellen wir
an eine Schätzfunktion?

Die Schätzfunktion für einen Parameter sollte im Durchschnitt den wahren Parameter
ergeben, also in unserem Fall E(P ) = μ. Man nennt so eine Schätzfunktion erwartungs-
treu. Liegt der Erwartungswert der Schätzfunktion systematisch neben dem Parameter,
nennen wir die Schätzfunktion verzerrt. In Abbildung 4.5 wird der Unterschied zwischen
Erwartungstreue und Verzerrtheit gezeigt.

Die Varianz der Schätzfunktion sollte möglichst klein sein, damit die resultierenden P -
Werte nicht so weit vom Erwartungswert abweichen. Es wird so vermieden, dass häufig
Schätzungen auftreten, die weit vom wahren Parameter weg liegen. In Abbildung 4.5
wird der Unterschied zwischen kleiner und großer Varianz gezeigt.
4.2 Schätzfunktionen 163

Welche unserer Schätzfunktionen könnten erwartungstreu sein? X ist erwartungstreu,


denn wie wir wissen, ist ja EX = μ. Z müsste auch erwartungstreu sein, denn bei einer
normalverteilten Zufallsvariablen ist der Erwartungswert gleich dem Median. Was ist nun
mit der Schätzfunktion P3 ? Sie ist offensichtlicher Unfug; wir erhalten beispielsweise für
die erste Stichprobe 1,81, was wohl mit μ wenig zu tun hat.

Das arithmetische Mittel der 20 Stichproben-x-Werte ergab


1
· (12,94 + 7,44 + . . . + 8,63) = 10,04
20
und entsprechend die Varianz über die 20 x-Werte
1
· ((12,94 − 10,04)2 + (7,44 − 10,04)2 + . . . + (8,63 − 10,04)2 ) = 2,76.
20 − 1
Stichprobe
Stichprobe

4 5 6 7 8 9 10 11 12 13 14 4 5 6 7 8 9 10 11 12 13 14
m m
erwartungstreuer Schätzer: verzerrter Schätzer:
Werte streuen gleichmäßig um m. Werte liegen zu weit links von m.
Stichprobe

Stichprobe

0 2 4 6 8 10 12 14 16 18 20 22 24 0 2 4 6 8 10 12 14 16 18 20 22 24
m m

Schätzer mit kleiner Varianz: Schätzer mit großer Varianz:


Werte streuen eng um m. Werte streuen sehr weit um m.

Abb. 4.5: Beispiele für verschiedene Schätzfunktionen für μ.

Ebenso erhalten wir das arithmetische Mittel der 20 z-Werte und deren Varianz. In
Tabelle 4.2 sind die Werte noch einmal zusammengefasst. Wir sehen, dass für X und Z
der Durchschnitt schon sehr nahe bei 10 liegt. Allerdings ist die Varianz 2,76 der x-Werte
deutlich kleiner als 3,84. Also können wir schon hier ahnen, dass die Zufallsvariable P1
eine kleinere Varianz hat als P2 . P1 = X ist der beste Schätzer für einen Erwartungswert.
164 4 Parameterschätzungen

Tab. 4.2: Statistische Kennwerte von X und Z.

X Z
Durchschnitt der 20 Werte 10,04 9,97
Varianz der 20 Werte 2,76 3,84

Bester Schätzer

Man nennt eine erwartungstreue Schätzfunktion mit kleinster Varianz unter allen
anderen erwartungstreuen Schätzfunktionen wirksamst oder effizient oder einen bes-
ten Schätzer.

Der beste Schätzer für den Erwartungswert μ einer normalverteilten Grundgesamt-


heit ist immer das arithmetische Mittel X.

4.2.2 Schätzfunktion für die Varianz eines normalverteilten


Merkmals

Neben dem Erwartungswert einer Zufallsvariablen ist vor allem auch deren Varianz von
Interesse. Wenn wir die Varianz einer Zufallsvariablen schätzen wollen, verwenden wir als
erwartungstreue Schätzfunktion die Stichprobenvarianz, die wir aus dem ersten Kapitel
(Seite 43) kennen:

1 
n
S2 = · (Xi − X)2 . (4.8)
n−1
i=1

Für die erste Stichprobe in Tabelle 4.1 mit dem Beruhigungsmittel Felixa ergibt sich
dann
1
s2 = · (15,68 − 12,94)2 + (7,11 − 12,94)2 + (14,43 − 12,94)2 + (10,45 − 12,94)2
5−1

+(17,01 − 12,94)2 = 16,62.

Bemerkung: Intuitiv möchte man für die mittlere Abweichung durch n statt n − 1 teilen.
Ein Nenner n in der obigen Formel ergäbe einen verzerrten Schätzer, hier würde die
Varianz unterschätzt. Der Beweis dafür kann beispielsweise bei Schira (2003, S. 248 ff.)
nachgelesen werden. Wir können uns das aber auch intuitiv erklären:
4.2 Schätzfunktionen 165

Wäre μ bekannt, hätten wir bei einer konkreten Schätzung statt der Quadratsumme
n 2
n 2
i=1 (xi − x) in Formel 4.8 die Summe i=1 (xi − μ) . Hier würden wir die Varianz als
mittlere quadratische Abweichung der xi vom Mittelwert schätzen als
1 
n
s2μ bekannt = · (xi − μ)2 , (4.9)
n
i=1

also durch n teilen. Wenn wir aber μ mit x schätzen, erhalten wir die Quadratsumme
n 2
Q = i=1 (xi − x) . Da in x immer ein kleines Stückchen xi steckt, subtrahieren wir
bei jedem xi − x dieses Stückchen, sodass wir am Schluss im Mittel ein ganzes x we-
niger übrig haben. Weil uns faktisch n − 1 Beobachtungswerte übrig bleiben, teilen wir
durch n − 1. Diese Argumentation ist natürlich höchst unwissenschaftlich, was aber dem
Wissenschaftsbetrieb manchmal guttut.

Wie ist die zu s2 gehörende Schätzfunktion S 2 verteilt? Wir haben es bei einem nor-
malverteilten Merkmal mit einer Quadratsumme von normalverteilten Zufallsvariablen
zu tun. Also wird wohl die χ2 -Verteilung der richtige Adressat sein. Für S 2 selbst kann
unmittelbar keine Verteilung angegeben werden, aber eine kleine Umformung beschert
uns eine bekannte Verteilung für die Stichprobenvarianz:

Schätzung der Varianz

Die erwartungstreue Schätzfunktion für die Varianz einer normalverteilten Zufalls-


variablen ist

1 
n
S2 = (Xi − X)2 . (4.10)
n−1
i=1

Der Quotient

(n − 1)Sn2
(4.11)
σ2
ist χ2 -verteilt mit n − 1 Freiheitsgraden. Dabei ist n der Stichprobenumfang.

4.2.3 Schätzfunktion für den Erwartungswert eines


normalverteilten Merkmals mit unbekannter Varianz

Bisher hatten wir ein normalverteiltes Merkmal mit bekannter Varianz betrachtet und
die Verteilung der Schätzfunktion X ermittelt. Wenn wir die Zufallsvariable X standar-
disieren, erhalten wir die Zufallsvariable
X −μ
Z= σ , (4.12)

n
166 4 Parameterschätzungen

die normalverteilt ist mit μz = 0 und σz2 = 1. Seien wir ehrlich: Eigentlich glaubt doch
kein Mensch, dass in der Realität der Erwartungswert unbekannt, aber die Varianz be-
kannt ist. Wir hatten gesehen, dass die Varianz von X gleich σ 2 /n ist. Wenn wir sie nicht
kennen, müssen wir die Varianz der Zufallsvariablen X schätzen. Wir ersetzen also σ 2
durch die erwartungstreue Schätzung

1 
n
s2 = (xi − x)2 . (4.13)
n−1
i=1

Wir können jetzt wieder standardisieren. Aber der zu Formel 4.12 analoge Quotient

X −μ
T =
S
n
ist nicht mehr normalverteilt. Wir haben nämlich jetzt im Nenner die Wurzel aus ei-
ner Quadratsumme von normalverteilten Zufallsvariablen stehen. Deshalb ist T keine
lineare Funktion der Xi . T hat nun eine t-Verteilung mit n − 1 Freiheitsgraden wie in
Abschnitt 4.1.3.

Wenn neben der Varianz die Verteilung des Merkmals ebenfalls nicht bekannt ist, können
wir die Verteilung von X nicht angeben. Als Faustregel gilt: Ab n > 30 kann nach dem
zentralen Grenzwertsatz (Abschnitt 3.4.3) auch hier wieder die Verteilung näherungsweise
mithilfe der Normalverteilung ermittelt werden. Wenn wir den Stichprobendurchschnitt
standardisieren, erhalten wir also

X − EX
Z= ,
S

n
was für n > 30 annähernd standardnormalverteilt ist. Gelegentlich finden wir in der
Literatur auch die Empfehlung von n > 50. Man vergleiche beispielsweise Schaich et al.
(1982, S. 99).

Nebenbei soll bemerkt werden, dass zwar S 2 ein erwartungstreuer Schätzer für σ 2 ist,
aber mitnichten ist S erwartungstreu für σ. Über diesen Umstand wird in der Feld-Wald-
und-Wiesenstatistik allerdings meistens gnädig hinweggesehen.

4.2.4 Schätzfunktion für den Erwartungswert eines


normalverteilten Merkmals bei einer Auswahl ohne
Zurücklegen

Bei kleineren, endlichen Grundgesamtheiten müssen wir von einem Modell ohne Zurück-
legen ausgehen, denn mit jeder zufälligen Auswahl eines Elements ändert sich die Grund-
gesamtheit. Jetzt ist die Varianz des Merkmals X bei normalverteilter Grundgesamtheit
4.2 Schätzfunktionen 167

−n
σ2 · N
N −1 . Wir kennen den Bruch schon von der hypergeometrischen Verteilung her. Es ist
der Korrekturfaktor, der dafür sorgt, dass die Varianz mit jeder Entnahme eines Elements
sinkt (Seite 109).
σ2 N −n
Hier ist das arithmetische Mittel X normalverteilt mit den Parametern μ und n · N −1
bzw. die Standardisierung

X −μ
Z= 
σ N −n
√ ·
n N −1
standardnormalverteilt.

Die Berücksichtigung des Korrekturfaktors wird häufig als lästig empfunden. Wir sehen,
dass sich mit sehr großem N und sehr kleinem n der Korrekturfaktor der Eins nähert.
n
Es gilt hier als Faustregel: Ist N ≤ 0,05, dürfen wir den Korrekturfaktor vernachlässigen.
Mit anderen Worten, wir ersetzen das Modell ohne Zurücklegen durch das Modell mit
Zurücklegen.

4.2.5 Schätzfunktion für den Anteil der Kugeln erster Sorte einer
binomialverteilten Zufallsvariablen

Wir gehen nun von einer dichotomen Grundgesamt aus, also von einem Urnenmodell
mit zwei Sorten Kugeln. Wir interessieren uns für den Anteilswert der Kugeln erster
Sorte – kurz gesagt, wir suchen eine Schätzfunktion für den Parameter θ (Seite 109). Der
Anteilswert θ wird mit der Schätzfunktion
X
P = (4.14)
n
geschätzt, wobei X die Zahl der Kugeln erster Sorte unter n gezogenen bedeutet. Die
konkrete Berechnung der Verteilung von P ist allerdings knifflig. Ein Grund dafür ist, dass
es sich nicht um die ganzzahlige binomialverteilte Zufallsvariable X handelt, sondern um
den Anteil X n , der für die Anwendung der Binomialverteilung unbrauchbar ist. Meistens
9
wird von der Faustregel ausgegangen, dass für n > θ·(1−θ) (Seite 133) die Verteilung
des Merkmals in der Grundgesamtheit näherungsweise mithilfe der Normalverteilung
ermittelt werden kann. Wir begnügen uns hier mit der Faustregel:
9 X
Wenn n > p·(1−p) ist, können wir die Verteilung von P = n als annähernd normalverteilt
2 θ·(1−θ)
ansehen mit den Parametern μ = θ und σ = n . Es ist dann

P −θ
Z=  (4.15)
θ·(1−θ)
n

standardnormalverteilt.
168 4 Parameterschätzungen

Allerdings ist bei einer konkreten Schätzung p der Parameter θ nicht bekannt, den wir
aber für die Schätzung der Normalverteilungsvarianz bräuchten. Wir müssen θ mit p
schätzen, sodass wir auch hier nur suboptimale Schätzungen erhalten.

Speziell bei klinischen Analysen haben wir häufig mit kleinen Fallzahlen zu tun. Hier kön-
nen wir die F -Verteilung für die Berechnung der Wahrscheinlichkeiten ermitteln. Konkret
werden wir das auf Seite 178 sehen.

4.3 Konfidenzintervalle – Wie weit geht das


Vertrauen in den Schätzer?

4.3.1 Konfidenzintervall für den Erwartungswert eines


normalverteilten Merkmals mit bekannter Varianz

Beispiel 4.3 Zeit für die Zeitung


Gräbt das Internet der herkömmlichen Papierzeitung den Rang ab? Wie viel Zeit
verbringt heute ein Bürger mit der Lektüre einer solchen?

Erika und Gerd sollen im Rahmen einer Projektarbeit das Leseverhalten der Entenhau-
sener Bürger untersuchen. Beide befragen je zehn zufällig ausgewählte Personen. Erika
erhält eine durchschnittliche Leseleistung von 24 Minuten, also 0,4 Stunden, Gerd da-
gegen einen Durchschnitt von 48 Minuten, also 0,8 Stunden. Wer hat nun recht? Wir
können das leicht erklären: Die Durchschnittswerte hängen von den jeweilig erhobenen
Daten ab. Sie können mal groß und mal klein ausfallen – sie sind Zufallsvariablen.
Können wir eigentlich überhaupt mit so einem Mittelwert etwas anfangen?

Wir müssen theoretisch werden.

Wir interessieren uns für die Zeitungslesezeit und definieren die Zufallsvariable X: Zeit,
die ein Bürger täglich auf das Lesen einer Zeitung verwendet (in h). Um das Beispiel
einfach zu halten, setzen wir wieder voraus, dass X normalverteilt ist, und zwar mit der
Varianz σ 2 = 10 2
49 h . Das ist auch Erika und Gerd bekannt. Was die beiden allerdings nicht
kennen, wir aber schon, ist der Erwartungswert der Lesezeit, μ = 12 h (Erwartungswert
und Varianz sind übrigens von der Autorin frei erfunden).

Die Aufgabe von Erika und Gerd ist, diesen Erwartungswert zu schätzen. Wie wir oben
gelernt haben, bietet sich die Schätzfunktion X an, denn ebenso wie der Erwartungswert
ist sie ein Durchschnitt und von daher wohl am besten für eine Schätzung geeignet. Erika
hatte eine Stichprobe im Umfang von n = 10 genommen und 0,4 erhalten. Wenn die
Stichprobe nicht zu extrem ausfällt, müsste eigentlich in aller Regel das resultierende x
4.3 Konfidenzintervalle 169

in der Nähe von μ liegen. Es kann allerdings auch mal vorkommen, dass x weit weg von μ
ist. In Abbildung 4.6 ist die Konstellation beispielhaft zusammengefasst. Wie zuverlässig
ist die Schätzung von Erika? Um ein wenig vorzugreifen: Der Schätzwert 0,4 sagt uns,
dass der wahre Parameter μ mit einer hohen Wahrscheinlichkeit im Intervall [0,12; 0,68]
liegen muss.

m unbekannt

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1


durchschnittliche Lesezeit x
x selten weit weg von m x meistens nahe bei m

Abb. 4.6: Wie gut trifft das Stichprobenmittel den Erwartungswert?

Wir wollen nun das „nahe bei“ und „weit weg“ quantifizieren: Wir wissen von Seite 150,
2
dass X normalverteilt ist wie N (μ; σn ). In unserem Beispiel berechnet sich die Vari-
anz von X als V (X) = 10/49 10
1
= 49 , sodass der Stichprobendurchschnitt die Verteilung
1 1
N ( 2 ; 49 ) hat. Das dazugehörige Z ist

X −μ
Z= .
√σ
n

Wie kommen wir auf das obige Intervall? Wir überlegen, auch unter Zuhilfenahme der
Beispiele auf Seite 131, dass gelten muss
 
X −μ
P (−1,96 ≤ Z ≤ 1,96) = P −1,96 ≤ σ ≤ 1,96 = 0,95.

n

Wenn wir die doppelte Ungleichung umstellen, erhalten wir, ausführlich hergeleitet,
 
X −μ σ σ
P −1,96 ≤ ≤ 1,96 = P −1,96 · √ ≤ X − μ ≤ 1,96 · √
√σ n n
n

σ σ
=P X − 1,96 · √ ≤ μ ≤ X + 1,96 · √ = 0,95.
n n
170 4 Parameterschätzungen

Was haben wir eigentlich berechnet? Wir können theoretisch ein Intervall um X angeben,
in das der wahre, aber unbekannte Parameter mit einer Wahrscheinlichkeit von 95 % fällt.
Solange wir X als Zufallsvariable behandeln, nennen wir das Intervall Zufallsintervall.
Die Wahrscheinlichkeit 0,95 ist der Konfidenzkoeffizient. Die Gegenwahrscheinlichkeit
α = 1 − 0,95 = 0,05 wird Signifikanzniveau genannt. Es ist dann umgekehrt 1 − α der
Konfidenzkoeffizient.

Mit der konkreten Realisation eines Mittelwertes x ergibt sich das sogenannte Konfidenz-
intervall, auch Vertrauensintervall genannt.

Erika erhält das 95 %-Konfidenzintervall


 
σ σ 1 1
x − 1,96 · √ ; x + 1,96 · √ = 0,4 − 1,96 · ; 0,4 + 1,96 ·
10 10 7 7
= [0,4 − 0,28; 0,4 + 0,28] = [0,12; 0,68] ,
wie oben schon angedeutet worden war. Erika weiß nun, dass die mittlere Lesezeit in der
Grundgesamtheit mit 95 %iger Wahrscheinlichkeit zwischen 0,12 h und 0,68 h liegt.

Wie findet Erika das? Sie wird vermutlich finden, dass dieses Intervall doch recht breit ist
und keine befriedigende Aussage über die Größenordnung des Erwartungswertes liefert.
Warum ist das so? Ist ein Konfidenzintervall immer so nichtssagend? Das werden wir
nun im Folgenden erfahren. Auf jeden Fall liegt hier der wahre Erwartungswert mit 1/2
tatsächlich im Intervall.

Nun können wir das Konfidenzintervall als Formel herleiten. μ, σ 2 und n sind schon be-
kannt. Aber der z-Wert, hier speziell 1,96, muss noch allgemein angegeben werden. Geben
wir beispielsweise α = 0,05 vor, haben wir einen Konfidenzkoeffizienten von 1 − α = 0,95.
Der verwendete z-Wert war 1,96. Welchem Quantil entspricht 1,96? Wenn wir in der Nor-
malverteilungstabelle A.1 nachsehen, ist es das 0,975-Quantil der Standardnormalvertei-
lung. Mithilfe von α ausgedrückt ist es das (1−α/2)-Quantil, wie wir schnell nachrechnen
können, denn α = 0,05, α/2 = 0,025 und 1 − α/2 = 0,975.

∗ zu schätzender Kennwert: Erwartungswert E(X) = μ,


∗ Verteilung von X: Normalverteilung,
∗ Varianz: σ 2 bekannt.

Das (1 − α)-Konfidenzintervall für den Erwartungswert einer normalverteilten Zu-


fallsvariablen mit bekannter Varianz σ 2 lautet

σ σ
x − z(1 − α/2) · √ ; x + z(1 − α/2) · √ . (4.16)
n n

Dabei bezeichnet 1 − α den Konfidenzkoeffizienten und z(1 − α/2) das (1 − α/2)-


Quantil der Standardnormalverteilung.
4.3 Konfidenzintervalle 171

Die Breite des Konfidenzintervalls ist


σ
2 · z(1 − α/2) · √ . (4.17)
n

1,96·s/Ön 1,96·s/Ön
{
{
0
[
0,1
0,12
0,2 0,3 0,4 0,5 0,6
[ 0,7
0,68
0,8 0,9 1

x +1,96·s/Ön Stichprobe x x +1,96·s/Ön

Abb. 4.7: Konfidenzintervall von Erikas Stichprobe.

Wie wir anhand von Abbildung 4.7 sehen können, war es bei Erika
σ
2 · 1,96 · √ = 2 · 0,28 = 0,56.
n
Verständlicherweise wäre Erika ein schmaleres Intervall lieber, dann hätte sie eine ge-
nauere Schätzung. Schauen wir uns Formel 4.16 an. Wie bekommt Erika das Intervall
schmaler? An der Standardabweichung σ kann sie nicht schrauben, sie ist konstant. Aber
sie kann das Signifikanzniveau ändern. Wenn z(1 − α/2) kleiner wird, verschmälert sich
das Intervall. Das entspricht einer Vergrößerung von α. Oder sie kann den Stichproben-
umfang n vergrößern, das heißt, sie muss mehr Leute befragen. Es klingt auch logisch,
dass die Schätzung umso besser ist, je mehr Daten zur Verfügung stehen.

Sehen wir uns ein paar Beispiele an:

Wir erhöhen α auf 0,1. Dann ist z(1 − α/2) = z(0,95). Wir suchen in der Normalver-
teilungstabelle A.1 die Wahrscheinlichkeit 0,95. Die fällt zwischen die Werte 0,9495 und
0,9505 mit den Quantilen 1,64 und 1,65. Wir erinnern uns (Seite 129), dass wir immer
das Quantil mit dem größten Betrag wählen, also hier 1,65. Wir erhalten für Beispiel 4.3
das Konfidenzintervall
 
σ σ 1 1
x − z(0,95) · √ ; x + z(0,95) · √ = x − 1,65 · ; x + 1,65 ·
n n 7 7

≈ [x − 0,24; x + 0,24] = [0,16; 0,64].


172 4 Parameterschätzungen

Die Breite des Intervalls beträgt nun 0,48. Ehrlich gesagt ist das Ergebnis immer noch
nicht berauschend. Da α die Wahrscheinlichkeit repräsentiert, dass der wahre Erwar-
tungswert nicht in diesem Intervall liegt, ist es vermutlich wenig zielführend, α beliebig
aufzupusten.

Erika befragt nun 40 Personen und errechnet – hier aus didaktischen Gründen – wieder
einen Durchschnitt von 0,4. Sie erhält bei einem α = 0,05 das 95 %-Konfidenzintervall
    
σ σ 10/49 10/49
x − z(0,975) · √ ; x + z(0,975) · √ = x − 1,96 · ; x + 1,96 ·
n n 40 40

1 1
≈ x − 1,96 · ; x + 1,96 · = [0,4 − 0,14; 0,4 + 0,14] = [0,26; 0,54].
14 14
Die Breite des Konfidenzintervalls ist 2 · 0,14 = 0,28. Das ist schon besser.

Schön präzise wäre beispielsweise eine Breite von höchstens 0,1. Wie groß müsste da n
mindestens sein?

Die Breite des Konfidenzintervalls ist allgemein 2 · z(1 − α/2) · √σ .


n
Es soll also sein

σ
2 · z(1 − α/2) · √ ≤ 0,1.
n

Wenn wir die Ungleichung schrittweise nach n auflösen, erhalten wir


σ 0,1
√ ≤ ,
n 2 · z(1 − α/2)
1 0,1
√ ≤ ,
n 2 · z(1 − α/2) · σ
√ 2 · z(1 − α/2) · σ
n≥ ,
0,1
2
2 · z(1 − α/2) · σ
n≥ .
0,1

Erika erhielte dann


  2
2 · 1,96 · 10/49
n≥ = 64,
0,1

was bedeutet, dass sie mindestens 64 Personen befragen müsste, um ein 95%iges Konfi-
denzintervall der Breite von höchstens 0,1 zu erhalten.

Übrigens erhält Gerd für sein Ergebnis von 0,8 h das Konfidenzintervall
 
σ σ 1 1
x − 1,96 · √ ; x + 1,96 · √ = 0,8 − 1,96 · ; 0,8 + 1,96 ·
10 10 7 7

= [0,8 − 0,28; 0,8 + 0,28] = [0,52; 1,04] .


4.3 Konfidenzintervalle 173

Gerd entnimmt dieser Information, dass die mittlere Lesezeit in der Grundgesamtheit
mit 95 %iger Wahrscheinlichkeit zwischen 0,52 h und 1,08 h liegt. Da die wahre mittlere
Leseleistung 0,5 h beträgt, hat Gerd mit seinem Konfidenzintervall „daneben getroffen“.
Der Erwartungswert ist nicht im Intervall eingeschlossen. Dieses untypische Intervall
gehört zu den α = 0,05 Intervallen, die μ nicht enthalten. Es könnte allerdings auch sein,
dass Gerd zu bequem war, seine zehn Leute zufällig auszuwählen, und stattdessen auf
die Schnelle zehn Studienkollegen befragt hat. Und das rächt sich nun.

4.3.2 Konfidenzintervall für den Erwartungswert eines


normalverteilten Merkmals mit unbekannter Varianz

Aus Abschnitt 4.2.3 wissen wir, dass bei unbekannter Varianz die standardisierte Zufalls-
variable
X −μ
T = s
n

!
t-verteilt ist mit n−1 Freiheitgraden. Außerdem "
werden wir bei der t-Verteilung die Sym-
metrieeigenschaften ausnützen. Analog zu x − z(1 − α/2) · √σn ; x + z(1 − α/2) · √σn in
Formel 4.16 erhalten wir:

∗ zu schätzender Kennwert: Erwartungswert E(X) = μ,


∗ Verteilung von X: Normalverteilung,
∗ Varianz: σ 2 unbekannt.

Das (1 − α)-Konfidenzintervall für den Erwartungswert μ eines normalverteilten


Merkmals mit unbekannter Varianz ist

s s
x − t(1 − α/2; n − 1) · √ ; x + t(1 − α/2; n − 1) · √ . (4.18)
n n

Ist n > 30, können die Quantile t(1 − α/2; n − 1) durch die Quantile der Standard-
normalverteilung z(1 − α/2) ersetzt werden.

Beispiel 4.4 Alter von Besuchern des Frankenwaldes


Mia studiert Tourismusmanagement. In Zusammenarbeit mit einem regionalen Dienst-
leister untersucht sie die Struktur der Touristen im Frankenwald. Sie wählt neun Tou-
risten zufällig aus und befragt sie. Unter anderem erhebt sie das Alter der Befragten.
Sie erhält die Urliste
48 32 60 64 80 60 36 72 70.
Erfahrungsgemäß ist das Alter der Touristen normalverteilt. Mia möchte ein 95 %-
Konfidenzintervall für das Durchschnittsalter der Frankenwald-Touristen ermitteln.
174 4 Parameterschätzungen

Wir helfen Mia bei dieser Aufgabe und definieren die Zufallsvariable X: Alter eines Tou-
risten (in Jahren). Die Varianz von X ist unbekannt. Wir schätzen μ mit X und verwen-
den das Konfidenzintervall 4.18. Dafür benötigen wir zuerst den Stichprobendurchschnitt
1 522
x= · (48 + 32 + . . . + 70) = = 58.
9 9
Damit schätzen wir die Varianz als

1 
n
1

s2 = · (xi − x)2 = · (48 − 58)2 + (32 − 58)2 + . . . + (70 − 58)2


n−1 8
i=1

1 2128
= · (100 + 676 + . . . + 144) = = 266.
8 8

Somit ist die Standardabweichung 266 ≈ 16,31. Wir benötigen nun noch das t-Quantil.
Es ist t(1 − α/2; n − 1) = t(0,975; 8) = 2,306. Mia erhält nun das 95 %-Konfidenzintervall

16,31 16,31
58 − 2,306 · √ ; 58 + 2,306 · √ = [58 − 4,18; 58 + 4,18] = [53,82; 62,18] .
9 9

4.3.3 Konfidenzintervall für den Erwartungswert eines unbekannt


verteilten Merkmals mit unbekannter Varianz

Wir haben gesehen, dass uns die Normalverteilung mit ihren schönen Eigenschaften
der Reproduktivität und des zentralen Grenzwertsatzes gefällige Konfidenzintervalle be-
schert. Gerade bei kleinen Stichproben sollte aber die betreffende Zufallsvariable dann
auch annähernd normalverteilt sein, weil sonst beispielsweise Ausreißer in den Daten un-
sere Ergebnisse verfälschen. Um einigermaßen sicher zu sein, ob die Daten einer Normal-
verteilung entstammen könnten, sollte durch einen Verteilungstest die Normalverteilungs-
voraussetzung untermauert werden. Wie gehen wir bei unbekannter Verteilung des Merk-
mals vor, was wohl eher die Regel als die Ausnahme ist? Für den Hausgebrauch genügt:

∗ zu schätzender Kennwert: Erwartungswert E(X),


∗ Verteilung von X: unbekannt,
∗ Varianz: unbekannt.

Falls n > 30 ist, kann das (1 − α)-Konfidenzintervall für den Erwartungswert eines
Merkmals mit unbekannter Verteilung und unbekannter Varianz näherungsweise
angegeben werden mit

s s
x − z(1 − α/2) · √ ; x + z(1 − α/2) · √ . (4.19)
n n
4.3 Konfidenzintervalle 175

Allerdings sollten wir bedenken, dass wir schon für die unbekannte Verteilung mehr als 30
Beobachtungen brauchen. Wenn nun noch die Varianz geschätzt werden muss, kommt ein
weiterer Unsicherheitsfaktor dazu. Daher wird gelegentlich für obiges Konfidenzintervall
ein Stichprobenumfang von n > 50 gefordert (Schaich et al., 1982, S. 99).

4.3.4 Konfidenzintervall für den Erwartungswert eines


normalverteilten Merkmals mit bekannter Varianz bei einer
Auswahl ohne Zurücklegen

In Abschnitt 4.2.4 hatten wir gesehen, dass wir bei einem Modell ohne Zurücklegen den
N −n
Korrekturfaktor benötigen. Aus der standardisierten Zufallsvariablen
N −1

X −μ
Z= 
√σ N −n
n N −1

leiten wir also her:

∗ zu schätzender Kennwert: Erwartungswert E(X) = μ,


∗ Verteilung von X: Normalverteilung,
∗ Varianz: σ 2 bekannt,
∗ Auswahl ohne Zurücklegen.

Das (1 − α)-Konfidenzintervall für den Erwartungswert μ eines normalverteilten


Merkmals mit bekannter Varianz und einer Auswahl ohne Zurücklegen wird berech-
net mit
   
σ N −n σ N −n
x − z(1 − α/2) · √ ; x + z(1 − α/2) · √ . (4.20)
n N −1 n N −1

n
Ist N < 0,05, kann der Korrekturfaktor weggelassen werden.
n
Gelegentlich wird noch als ergänzende Voraussetzung N < 0,5 verlangt, denn n sollte
ausreichend groß, aber N nicht zu klein sein, damit noch eine zufällige Auswahl möglich
ist (z. B. Schaich et al., 1982, S. 103)
176 4 Parameterschätzungen

4.3.5 Konfidenzintervall für den Erwartungswert eines


normalverteilten Merkmals mit unbekannter Varianz bei
einer Auswahl ohne Zurücklegen

Ist die Varianz unbekannt, verwenden wir die Schätzung s2 . Die erwartungstreue Schätz-
S2 # n$
funktion für die Varianz von X ist nun 1− . Dann ist der Quotient
n N
X −μ
T = #
S n$
√ 1−
n N

t-verteilt mit n − 1 Freiheitsgraden. Wir erhalten:

∗ zu schätzender Kennwert: Erwartungswert E(X) = μ,


∗ Verteilung von X: Normalverteilung,
∗ Varianz: σ 2 unbekannt,
∗ Auswahl ohne Zurücklegen.

Das (1 − α)-Konfidenzintervall für den Erwartungswert μ eines normalverteilten


Merkmals mit bekannter Varianz und einer Auswahl ohne Zurücklegen wird berech-
net mit
 # #
α s n$ α s n$
x − t(1 − ; n − 1) · √ 1− ; x + t(1 − ; n − 1) · √ 1− .
2 n N 2 n N

Ist n > 30, können wir t(1 − α2 ; n − 1) durch z(1 − α2 ) ersetzen.


n
Ist N < 0,05, kann der Korrekturfaktor weggelassen werden.

4.3.6 Konfidenzintervall für den Erwartungswert eines unbekannt


verteilten Merkmals mit unbekannter Varianz bei einer
Auswahl ohne Zurücklegen

Analog zu Formel 4.19 können wir wieder ein näherungsweise normalverteiltes Zufallsin-
tervall angeben.:

∗ zu schätzender Kennwert: Erwartungswert E(X),


∗ Verteilung von X: unbekannt,
∗ Varianz: V (X) unbekannt,
∗ Auswahl ohne Zurücklegen.
4.3 Konfidenzintervalle 177

Falls n > 30 ist, kann das (1 − α)-Konfidenzintervall für den Erwartungswert eines
unbekannt verteilten Merkmals mit unbekannter Varianz bei einer Auswahl ohne
Zurücklegen näherungsweise angegeben werden als
 # #
s n$ s n$
x − z(1 − α/2) · √ 1− ; x + z(1 − α/2) · √ 1− . (4.21)
n N n N
n
Ist N < 0,05, kann der Korrekturfaktor weggelassen werden.

Analog zu Abschnitt 4.3.3 findet man in der Literatur auch die strengere Regel n > 50
n
und N < 0,5 als Voraussetzung für obiges Konfidenzintervall.

Beispiel 4.5 Dauer der Abstinenz von therapierten Alkoholkranken


Die Studie einer staatlichen Institution soll Erkenntnisse über die Bekämpfung von
Alkoholismus liefern. Von Interesse ist in diesem Zusammenhang auch die Zeit, die ein
therapierter Alkoholkranker trocken übersteht. Aus 625 Mitgliedern einer Selbsthilfe-
organisation gegen Alkoholismus in einem deutschen Bundesland wurden 64 zufällig
ausgewählt. Sie wurden unter anderem befragt, wie viele Monate sie schon trocken sei-
en. Die Auswahl der Mitglieder erfolgte ohne Zurücklegen. Aus der Urliste resultierten
64 
64
die Kennwerte x2i = 356 764 und xi = 3328. Es soll ein 90 %-Konfidenzintervall
i=1 i=1
erstellt werden für den Erwartungswert des Merkmals X: Zahl der Monate, die ein
therapierter Alkoholkranker trocken bleibt. Wie verlässlich ist die Schätzung aus den
Daten?

Wir interpretieren X: Zahl der Monate, die ein therapierter Alkoholkranker trocken
bleibt, als Zufallsvariable. Über die Verteilung von X ist nichts bekannt, ebenso über
die Varianz. Wir müssen die Varianz also mit s2 schätzen. Das Studium der Daten verrät
uns, dass wir s2 mithilfe des Verschiebungssatzes berechnen können als
 n 
1 
s2 = x2i − n · x2 ,
n−1
i=1

was die Stichprobenvarianz


1
1
s2 = 356 764 − 64 · 3 3282 = (356 764 − 173 056) = 2 916
63 63
bzw. die Standardabweichung s = 54 ergibt. Anmerkung des Verfassers: Solche glatten
Zahlen können nur unter vielen Opfern vom Statistikgott gewährt werden.

Können wir ein Konfidenzintervall angeben? Es ist n > 30, wir können näherungsweise
n
die Normalverteilung verwenden. Da aber N > 0,05 ist, sollte der Korrekturfaktor bei-
behalten werden. Wir können also mit z(1 − α/2) = z(1 − 0,95) = 1,65 näherungsweise
das Konfidenzintervall aus Formel 4.21 als
178 4 Parameterschätzungen

 % % 
54 64 54 64
52 − 1,65 · √ 1− ; 52 + 1,65 · √ 1−
64 625 64 625

= [52 − 1,65 · 6,40; 52 + 1,65 · 6,40]


= [52 − 10,56; 52 + 10,56]
= [41,44; 62,56]

angeben. Welche Information ziehen wir daraus? Die durchschnittliche Zeit bis zu einem
Rückfall liegt bei therapierten Alkoholkranken mit 90 %iger Wahrscheinlichkeit zwischen
ca. dreieinhalb Jahren und gut fünf Jahren.

4.3.7 Konfidenzintervall für den Anteilswert eines dichotomen


Merkmals bei einer Auswahl mit Zurücklegen

Wir gehen von einer binomialverteilten Zufallsvariablen aus und wollen ein Konfidenz-
intervall für den wahren Anteilswert θ der Kugeln erster Sorte ermitteln. Wie in Ab-
schnitt 4.2.5 angegeben, schätzen wir θ mit p = nx . Für das Konfidenzintervall finden wir
in der Literatur eine Fülle von Empfehlungen. Ein „mittelschwerer“ Vorschlag ist:

∗ Zu schätzender Kennwert: Anteil der Kugeln erster Sorte θ,


∗ Verteilung von X: Binomialverteilung,
∗ Auswahl mit Zurücklegen.
9
Falls n > ist, kann das (1 − α)-Konfidenzintervall für den Anteilswert θ
p · (1 − p)
eines dichotomen Merkmals näherungsweise angegeben werden als
   
p(1 − p) p(1 − p)
p − z(1 − α/2) · ; p + z(1 − α/2) · . (4.22)
n n

Bei einer sehr kleinen Stichprobe können wir das Konfidenzintervall exakt angeben als

x
;
(n − x + 1) · f (1 − α2 ; 2n − 2x + 2; 2x) + x
(x + 1) · f (1 − α2 ; 2x + 2; 2n − 2x)
, (4.23)
(x + 1) · f (1 − α2 ; 2x + 2; 2n − 2x) + n − x

wobei f (1 − α
2 ; k1 ; k2 ) das (1 − α/2)-Quantil der F -Verteilung mit k1 und k2 Freiheits-
graden ist.
4.3 Konfidenzintervalle 179

4.3.8 Konfidenzintervall für den Anteilswert eines dichotomen


Merkmals bei einer Auswahl ohne Zurücklegen

Hier kann nicht so ohne Weiteres ein exaktes Konfidenzintervall wie in Formel 4.23 an-
gegeben werden. Wir können aber festhalten:

∗ zu schätzender Kennwert: Anteil der Kugeln erster Sorte θ,


∗ Verteilung von X: hypergeometrische Verteilung,
∗ Auswahl ohne Zurücklegen.
9
Falls n > p·(1−p) ist, kann das (1 − α)-Konfidenzintervall für den Anteilswert θ ei-
nes dichotomen Merkmals mithilfe der Normalverteilung näherungsweise angegeben
werden als
     
p(1 − p) N − n p(1 − p) N − n
p − z(1 − α/2) · ; p + z(1 − α/2) · .
n N −1 n N −1
5 Hypothesentests

Wir kommen nun zu einem sehr wichtigen Thema für angehende Psychologen, den Hy-
pothesentests. In der Forschung wird ein großer Teil der Tätigkeit darin bestehen, über
einen Sachverhalt eine Vermutung anzustellen, die sogenannte Hypothese. Für die nähere
Untersuchung wird Zahlenmaterial erhoben und verarbeitet. Mit Hypothesentests soll die
Vermutung dann untermauert oder ausgeschlossen werden. Es gibt unzählige verschiede-
ne Tests. Sie unterscheiden sich vor allem durch den Parameter, der getestet werden soll,
die Verteilung des Merkmals in der Grundgesamtheit, den Stichprobenumfang. Häufig ist
die Verteilung des Merkmals unbekannt. Wenn man hier Glück hat, das heißt, wenn die
Stichprobe groß genug ist, kann man den Test mithilfe der Normalverteilung näherungs-
weise durchführen. Wenn nicht, können manchmal „primitivere“ Methoden zum Erfolg
führen.

Wir können schon ahnen, dass Hypothesentests eng verwandt mit Konfidenzintervallen
sind. Und wir können in der Tat bei manchen Tests ersatzweise ein Konfidenzintervall
verwenden.

5.1 Einführung in den Hypothesentest – Wie tickt


der?

5.1.1 Punkthypothese

Für den Einstieg wollen wir ausnahmsweise ein Beispiel aus der Essenssparte betrachten,
denn beim Essen kann jeder mitreden.

Beispiel 5.1 Test der Füllmenge von Wurstgläsern


In einem großen Metzgereibetrieb wird hochwertige Gänseleberpastete von artgerecht
gehaltenen Gänsen produziert und in 100-g-Gläser abgefüllt. Um Beschwerden über zu
geringe Befüllung von vornherein abzuwehren, sollen im Durchschnitt 110 g abgefüllt
werden. Die Abfüllmenge sollte also im Mittel nicht zu niedrig sein. Der Durchschnitt
sollte aber auch nicht zu hoch sein, denn das kostet Geld.

Gelegentlich muss überprüft werden, ob die mittlere Abfüllmenge noch eingehalten


wird. Hierzu werden in einer Stichprobe 16 Gläser zufällig ausgewählt und überprüft.
182 5 Hypothesentests

Das durchschnittliche Füllgewicht wird errechnet. Wenn dieses nahe beim geforderten
Durchschnitt 110 liegt, gibt es keinen Anlass, die Abfüllanlage neu zu justieren. Wenn
allerdings der Stichprobenwert weit weg von 110 liegt, sollte eingegriffen werden. Wir
können das in Abbildung 5.1 nachschauen.

m unbekannt
Falls m = 110 ist:

102 104 106 108 110 112 114 116 118


x meistens nahe bei m x
x selten weit weg von m

Abb. 5.1: Wenn μ tatsächlich 110 ist, sollte sich das in der Stichprobe wiederfinden.

Und es stellt sich wieder die Frage: Wie nahe ist „nahe bei“, und wie weit weg ist „weit
weg“? Unsere Aufgabe ist im Wesentlichen, ein Intervall um μ = 110 zu legen. Wenn
der Mittelwert der Stichprobendaten in dieses Intervall fällt, kann davon ausgegangen
werden, dass die Anlage noch einwandfrei arbeitet.

Dazu müssen wir ein stochastisches Modell bemühen: Wir definieren die Zufallsvariable
X: Abfüllmenge in Gramm. Um das Beispiel einfach zu halten, setzen wir als bekannt
voraus, dass die Abfüllmenge normalverteilt ist mit der Varianz σ 2 = 64. μ ist unbekannt
und wird mit dem Stichprobenmittel X geschätzt. Wir erinnern uns (Seite 150), dass X
2
ebenfalls normalverteilt ist, und zwar wie N (μ; σn ) = N (μ; 64
16 ) = N (μ; 4).

Wir wollen nun ein Intervall erstellen, in das X mit einer 95%igen Wahrscheinlichkeit
fällt, wenn X tatsächlich einen Erwartungswert μ = 110 hat. Wir bezeichnen die Grenzen
des Intervalls mit xu für die untere Grenze und und xo für die obere Grenze.

Spielen wir den Testvorgang durch:

1. Die Hypothese formulieren:

H0 : μ = μ0 = 110.

Wir gehen im Folgenden bei allen Schritten von der Voraussetzung aus, dass 110 der
wahre Erwartungswert von X ist. Diese Voraussetzung ist die Nullhypothese H0 .
5.1 Einführung in den Hypothesentest 183

Die komplementäre Hypothese, die vom Gegenteil der Behauptung ausgeht, wäre dann
die Alternativhypothese H1 : μ = 110.
2. Die Spielregeln festlegen: Es wird eine Stichprobe mit n = 16 Elementen erhoben. Die
Wahrscheinlichkeit, dass die Stichprobenstatistik bei Gültigkeit von H0 in den Bereich
[ xu ; xo ] fällt, soll zum Beispiel 0,95 betragen.
3. Die Verteilung von X ermitteln: Für die Berechnung der Intervallgrenzen benötigen
wir die Verteilung von X. Unter H0 ist X normalverteilt mit dem Erwartungswert
μ0 = 110 und der Varianz σ 2 /n = 4.
4. Die Intervallgrenzen herleiten:
Es soll sein

P (xu ≤ X ≤ xo ) = 0,95.

Fällt die Stichprobe x in dieses Intervall, lehnen wir die Hypothese H0 : μ = 110 nicht
ab. Deshalb nennen wir das Intervall den Nichtablehnungsbereich für x. Entsprechend
ist der Bereich außerhalb des Intervalls der Ablehnungsbereich (Abbildung 5.2).

95 %

2,5 % Nichtablehnungsbereich 2,5 %

Ablehnungsbereich xu m0 x
xo Ablehnungsbereich
110

Abb. 5.2: Nichtablehnungs- und Ablehnungsbereich.

Wir bezeichnen 0,95 wie bei den Konfidenzintervallen wieder mit 1−α. α = 0,05 ist das
Signifikanzniveau. Das ist also die Wahrscheinlichkeit, dass x in den Ablehnungsbe-
reich fällt, obwohl tatsächlich μ = 110 ist. In so einem Fall würde man unnötigerweise
die Anlage überprüfen. Die Produktionsleitung hätte eine falsche Entscheidung ge-
troffen. α ist also die Wahrscheinlichkeit, dass H0 abgelehnt wird, obwohl H0 wahr
ist. Wir würden hier einen Fehler machen, nämlich einen α-Fehler oder Fehler erster
Art. In 5 % aller Stichproben passiert das (Abbildung 5.3).
Um die Eckpunkte des Intervalls konkret zu berechnen, schalten wir wieder auf die
standardnormalverteilte Zufallsvariable Z um. Es gilt nun

P (zu ≤ Z ≤ zo ) = 0,95.
184 5 Hypothesentests

a/2 1-a a/2


2,5 % 95 % 2,5 %

102 104 106 108 110 112 114 116 118


m0 x
106,08 113,92
110

Abb. 5.3: Nichtablehnungsbereich für μ = 110.

Wie wir wissen (Seite 169), kann dieses Intervall um Z geschrieben werden als

P (−1,96 ≤ Z ≤ 1,96) = 0,95,

was wieder mithilfe von α


# # α$ # α $$
P −z 1 − ≤Z ≤z 1− = 0,95
2 2
ergibt. Es ist folglich, immer noch unter der Hypothese H0 ,

X − μ0
P (−1,96 ≤ ≤ 1,96) = 0,95,
√σ
n

also
X − 110
P (−1,96 ≤ 8 ≤ 1,96) = 0,95
4

bzw.
X − 110
P (−1,96 ≤ ≤ 1,96) = 0,95.
2
Wir lösen die doppelte Ungleichung nach X auf und erhalten

P (110 − 1,96 · 2 ≤ X ≤ 110 + 1,96 · 2) = 0,95,

allgemein ausgedrückt
#
α$ σ # α$ σ
P μ0 − z 1 − · √ ≤ X ≤ μ0 + z 1 − ·√ = 1 − α.
2 n 2 n
Bei uns ist das nun

P (106,08 ≤ X ≤ 113,92) = 0,95.


5.1 Einführung in den Hypothesentest 185

H0: m £ m0 = 0,25

1–a a
95 % 0,05 %

0,18 0,2 0,22 0,24 0,26 0,28 0,3 0,32


m0
0,25 0,27475 x

Abb. 5.4: Einseitiger Ablehnungsbereich.

Wenn also der Stichprobenwert x in das Intervall [106,08; 113,92] fiele, könnten wir H0
nicht ablehnen und würden vermuten, dass kein Anlass zur Überprüfung der Anlage
gegeben ist (Abbildung 5.4).
5. Den Stichprobenwert errechnen:
Wir haben im laufenden Produktionsprozess 16 Gläser zufällig ausgewählt und erhal-
ten die Urliste

115 114 108 104 112 96 116 116 111 92 108 102 110 112 104 108.

Wir berechnen das arithmetische Mittel


115 + 114 + . . . + 108 1
x= = · 1728 = 108.
16 16
6. Die Entscheidung treffen:
108 fällt in den Nichtablehnungsbereich, und wir lehnen H0 bei einem Signifikanzni-
veau von 0,05 nicht ab.
Äquivalent zu dieser Vorgehensweise wäre auch, eine standardisierte Statistik z zu
berechnen. Hier ist der Nichtablehnungsbereich [−1,96; 1,96]. Wir erhalten
108 − 110
z= = −1.
2
z fällt in den Nichtablehnungsbereich, und wir lehnen H0 nicht ab.
Bei den verschiedenen folgenden Tests werden wir meistens die standardisierte Prüf-
größe verwenden.

5.1.2 Bereichshypothese

Es gibt Fragestellungen, bei denen die Punkthypothese H0 : μ = μ0 nicht so sehr ge-


eignet ist. Beispielsweise behauptet ein TV-Anbieter gegenüber Anzeigenkunden, dass
186 5 Hypothesentests

die durchschnittliche Zahl der Zuschauer von Power to the Bauer eine Million beträgt.
Hier wäre eine Punkthypothese zur Überprüfung weniger geeignet, denn dann dürfte
ja die Zuschauerzahl auch nach oben nicht abweichen. Also wird hier eine sogenannte
Bereichshypothese sinnvoller sein.

Beispiel 5.2 Alkoholabbau


Der Pharmakologe Dr. Dodo bietet einem Pharmaunternehmen ein Mittel an, das nach
Alkoholkonsum den Alkoholabbau beschleunigen soll. Dodo versichert, dass bei diesem
Mittel der durchschnittliche Alkoholabbau pro Stunde mindestens 0,25 Milligramm
Alkohol pro Gramm Blut beträgt, wobei mg/g dem landläufig bekannten Promille
entspricht. Normalerweise beträgt der durchschnittliche Alkoholabbau ca. 0,15 Pro-
mille. Im Pharmaunternehmen ist man zunächst skeptisch. Laborleiter Menno soll die
Behauptung überprüfen.

Aus einem sehr großen Pool verfügbarer Versuchspersonen sollen zehn Personen zufällig
ausgewählt werden. Sie bekommen eine bestimmte Menge alkoholischer Getränke vorge-
setzt. Nach deren Konsum wird alle Stunde der Blutalkoholpegel gemessen.

Um sich der Sache ganz sicher zu sein, testet Menno die gegenteilige Aussage, nämlich,
dass der durchschnittliche Alkoholabbau höchstens 0,25 ausmacht. Wenn diese Hypothese
abgelehnt wird, kann das Unternehmen sicher sein, dass das Mittel wirkt.

Es soll der Einfachheit halber wieder bekannt sein, dass das Merkmal X: Alkoholabbau
in einer Stunde ( mg 1 mg 1 2
g · h ) normalverteilt ist mit der Varianz 0,00225 [( g · h ) ].

Menno legt ein Signifikanzniveau α = 0,05 fest und prüft die Nullhypothese

H0 : μ ≤ 0,25.

Der Alkoholabbau beträgt höchstens 0,25 Promille pro Stunde. Das ist eine Bereichshypo-
these, genauer eine Höchsthypothese. Die Alternativhypothese ist H1 : μ > 0,25. Darüber
werden wir weiter unten noch mehr erfahren.

Die Prüfgröße X ist normalverteilt mit unbekanntem Erwartungswert und der Varianz
2
V (X) = σn = 0,00225
10 = 0,000225.

Menno muss nun den Ablehnungsbereich festlegen.

Wenn H0 : μ ≤ 0,25 getestet wird, würde ein sehr kleines x die Hypothese bestärken.
Nur ein zu großes x führt zur Ablehnung. Also wird nun das gesamte α auf die rechte
Seite der Normalverteilung gepackt, das heißt, wenn x größer wird als das 0,95-Quantil
der Normalverteilung, würde H0 abgelehnt werden.
5.1 Einführung in den Hypothesentest 187

Menno standardisiert für die konkrete Ermittlung des Ablehnungsbereichs zuerst wieder
die Prüfgröße als

X − E(X) X − μ0 X − 0,25 X − 0,25


Z=  = =  = .
√σ 0,00225 0,015
V (X) n
10

Entsprechend zu oben bestimmt Menno das 0,95-Quantil der Standardnormalverteilung.


In der Normalverteilungstabelle A.1 fällt allerdings 0,95 zwischen die tabellierten Wahr-
scheinlichkeiten 0,9495 und 0,9505, welche den Quantilen 1,64 und 1,65 entsprechen. Auf
Seite 129 hatten wir bei der Normalverteilung gelernt, dass wir in diesem Fall das Quantil
wählen sollten, dessen Absolutwert größer ist. In Abbildung 5.5 sehen wir nun, warum.
Wählten wir 0,9495 mit dem Quantil 1,64, würde sich faktisch der α-Fehler auf 0,0505
erhöhen. Das ist aber unerwünscht, denn damit würden wir ja einen Fehler erhöhen. Wir
wollen ihn aber eher klein halten und wählen deshalb 1,65 mit einem faktischen α-Fehler
von α = 0,0495.
0,0505
{{
a=0,05

a‘=0,0495

1,64 1,65

Abb. 5.5: Konservatives Testen: Immer das absolut größere Quantil wählen.

Konservatives Testen

Hat man bei einem Hypothesentest die Wahl zwischen zwei benachbarten Quan-
tilen, wählt man das Quantil, das eine Verkleinerung des α-Fehlers bewirkt. Diese
Vorgehensweise wird konservatives Testen genannt.

Bei Quantilen der Standardnormalverteilung wird aus zwei Quantilen der Wert z
gewählt, dessen Absolutwert größer ist.

Diese Vorgehensweise wird uns im Folgenden noch mehrmals begegnen.

Menno muss jetzt noch xo ermitteln. Es ist


σ
xo = μ0 + z(1 − α/2) · √ = 0,25 + 1,65 · 0,015 = 0,25 + 0,02475 = 0,27475.
n
188 5 Hypothesentests

Ist die Stichprobe x größer als xo , wird H0 abgelehnt. Menno erhält also den Ableh-
nungsbereich für x als (0,27475; ∞).

Bei Bereichshypothesen nennt man den Trennwert zwischen Nichtablehnungs- und Ab-
lehnungsbereich auch kritischen Wert.

Menno hat jetzt alle Rahmenbedingungen festgezurrt und bittet nun zehn zufällig aus-
gewählte Personen, sich dem Test zu unterziehen. Er erhält die Einzelwerte

0,12 0,24 0,09 0,03 0,24 0,09 0,21 0,18 0,15 0,15.

Nun berechnet Menno den Mittelwert


1  1 1
x= · xi = · (0,12 + 0,24 + . . . + 0,15) = · 1,5 = 0,15.
n 10 10
0,15 fällt in den Nichtablehnungsbereich, und die Nullhypothese μ ≤ 0,25 wird nicht
abgelehnt. Man kann also nicht davon ausgehen, dass die stündliche Abbaurate des Al-
koholpegels mehr als 0,25 beträgt. Das Pharmaunternehmen wird das Medikament nicht
kaufen.

Was wäre, wenn Menno einen Durchschnitt von 0,26 erhalten hätte? Das ist ja mehr als
0,25. H0 wird aber erst beim kritischen Wert von 0,27475 abgelehnt. Man würde also
davon ausgehen, dass der Stichprobenwert deutlich höher als 0,25 sein muss, damit die
Hypothese abgelehnt wird, das heißt, damit Dr. Dodo sein Medikament an den Mann
bringt.

Test des Erwartungswerts eines normalverteilten Merkmals mit bekann-


ter Varianz mit einer Bereichshypothese

Bei einer Höchsthypothese H0 : μ ≤ μ0 wird die Nullhypothese abgelehnt, wenn


x > xo = μ0 + z(1 − α) · √σn ist.
Entsprechend wird bei einer Mindesthypothese H0 : μ ≥ μ0 die Nullhypothese
abgelehnt, wenn x < xu = μ0 − z(1 − α) · √σn ist.

5.1.3 α- und β-Fehler

Warum ist α eigentlich ein Fehler? Und welche Arten von Fehlern gibt es bei einem
Hypothesentest?

α-Fehler oder Fehler erster Art: α ist die Wahrscheinlichkeit, dass der Stichprobenwert
in den Ablehnungsbereich fällt, obwohl H0 wahr ist. Wir würden hier irrtümlicherweise
die Hypothese ablehnen. Das kommt in α · 100 % aller Stichproben vor. Diese Ablehnung
5.1 Einführung in den Hypothesentest 189

kann durchaus schwerwiegende Konsequenzen haben, etwa wenn eine Investition nicht
getätigt wird, weil der Hypothesentest eine dauerhafte Zahlungsunfähigkeit des Unter-
nehmens voraussagt, oder wenn ein Medikament nicht auf den Markt gebracht wird, weil
der Test dem Medikament Wirkungslosigkeit bescheinigt.

β-Fehler oder Fehler zweiter Art: β ist die Wahrscheinlichkeit, dass der Stichproben-
wert in den Nichtablehnungsbereich fällt, obwohl die Hypothese falsch ist. Wir wollen
uns den β-Fehler genauer ansehen.

Beispiel 5.3 Beispiel für einen β-Fehler bei Einschaltquoten


Greifen wir die Idee des oben erwähnten TV-Senders als Beispiel auf. Wir nennen
ihn SatLight. SatLight ist erst kurz auf dem Markt und kämpft um den Erhalt der
Sponsoren seiner Sendung Power to the Bauer. Der renommierte Futtermittelhersteller
Körnlein ist Hauptsponsor. Er möchte sich ein eigenes Bild von der Attraktivität der
Sendung verschaffen, bevor er weitere Millionen freisetzt. Er beschafft sich von einem
Markforschungsunternehmen die Zuschauerzahlen von Power to the Bauer der letzten
neun Wochen. Es soll nun bei einem Signifikanzniveau α = 0,05 die Hypothese getestet
werden, dass diese Sendung im Durchschnitt mindestens eine Million Menschen vor den
Bildschirm lockt.

Bemerkung: Körnlein könnte auch testen, dass höchstens eine Million Zuschauer die Sen-
dung gucken und bei Ablehnung dieser Hypothese das Sponsoring fortsetzen. Das würde
allerdings SatLight unangemessen benachteiligen, da hier ein sehr hoher Durchschnitts-
wert in der Stichprobe verlangt würde.

Es soll bekannt sein, dass die Zuschauerzahl X (in Mio.) normalverteilt ist mit einem
unbekannten Erwartungswert und mit der Varianz 0,2916 (Mio. Personen)2 . Zu prüfen
ist also die Nullhypothese: H0 : μ ≥ μ0 = 1 (α = 0,05).

Die verwendete Prüfgröße X ist unter H0 normalverteilt mit dem Erwartungswert


E(X) = μ0 und der Varianz V (X) = 0,2916/9 = 0,0324.

Da wir es mit einer Mindesthypothese zu tun haben, packen wir α nach links und erhalten
zunächst als kritischen Wert für z = x−μ
√σ
0
das 0,05-Quantil z(α) = −z(1 − α) = −1,65,
n

wie wir oben schon gesehen haben. Der dazu gehörige kritische Wert für X ist dann
σ 
xα = μ0 − z(1 − α) · √ = 1 − 1,65 · 0,0324 = 1 − 1,65 · 0,18 = 0,703.
n

Ist x < 0,703, wird H0 abgelehnt, und der Sponsor Körnlein kann ausschließen, dass die
garantierte durchschnittliche Zuschauerzahl über einer Million liegt.

Die Stichprobe ergab für die durchschnittliche Zuschauerzahl den Wert x = 0,9. Die
Hypothese würde hier nicht abgelehnt werden, und der Futtermittelhersteller würde wei-
terhin Werbeerträge einbringen.
190 5 Hypothesentests

Wir gehen also bei der Nullhypothese hilfsweise davon aus, dass der wahre Erwartungs-
wert μ0 = 1 beträgt, und legen mit dieser Information den Ablehnungsbereich, hier
(−∞; 0,703), fest. Wenn tatsächlich μ = 1 ist, würde in 5 % aller Stichproben H0 fälsch-
licherweise abgelehnt, das heißt, Körnlein würde das Sponsoring irrtümlicherweise ein-
stellen. Das wäre natürlich für SatLight ärgerlich, für Körnlein aber auch, denn er könnte
durch Power to the Bauer möglicherweise neue Kunden gewinnen.

m1 = 0,8 m0 = 1

0,705

a= 0,95
0,05

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6
xa=0,703 Zuschauerzahl in Mio. x

Abb. 5.6: Betafehler für verschiedene Zuschauerzahlen.

Wie sieht aber die Situation aus, wenn in Wahrheit die wahre durchschnittliche Zuschau-
erzahl nur μ1 = 0,8 beträgt? Körnlein hofft, dass dann folgerichtig die Nullhypothese
abgelehnt wird. In Abbildung 5.6 sehen wir die vermutete Verteilung mit μ0 = 1. Wenn
x größer als 0,703 ist, wird H0 nicht abgelehnt. Links davon ist die wahre Verteilung mit
der durchschnittlichen Zuschauerzahl μ1 = 0,8. Wie groß ist die Wahrscheinlichkeit, dass
die falsche Nullhypothese nicht abgelehnt wird? Wir suchen also die Wahrscheinlichkeit,
dass x > 0,703 bei einem E(X) = 0,8 ist. Der Einfachheit halber soll die Varianz unver-
ändert sein. Jetzt ist X in Wahrheit normalverteilt wie N (0,8; 0,0324), und wir erhalten
die Wahrscheinlichkeit

0,703 − 0,8
P (X ≥ 703) = 1 − P (X ≤ 0,703) = 1 − Φ
0,18

≈ 1 − Φ(−0,54) = Φ(0,54) = 0,705.

Es würden also bei einer tatsächlich existierenden mittleren Zuschauerzahl von 0,8 Millio-
nen ca. 70 % aller x-Werte größer als 0,703 werden, das heißt, die Nullhypothese würde in
70 % aller Stichproben nicht abgelehnt werden. Die Wahrscheinlichkeit einer irrtümlichen
Fortsetzung des Sponsorentums ist hier sehr hoch.
5.1 Einführung in den Hypothesentest 191

Wir nennen diese Wahrscheinlichkeit, nämlich dass H0 nicht abgelehnt wird, obwohl H0
falsch ist, einen β-Fehler oder Fehler zweiter Art. Im Gegensatz zu α, das unverrückbar
fest ist, ergibt sich natürlich für jeden denkbaren Wert μ1 ein eigener β-Fehler. Des-
halb geben wir beim β-Fehler zweckmäßigerweise den dazugehörigen Parameter an, also
beispielsweise

β(0,8) = 0,705.

Wir können uns überlegen, dass β umso größer ist, je näher μ1 an μ0 ist. Wir wollen
aber auch hier den Fehler klein halten. Wie groß ist denn β, wenn tatsächlich μ1 = 0,6
ist, wenn also im Durchschnitt nur 600 000 Zuschauer Power to the Bauer gucken? Wir
erhalten hier

0,703 − 0,6
β(0,6) = P (X ≥ 0,703|μ1 = 0,6) = 1 − P (X ≤ 0,703) = 1 − Φ
0,18
≈ 1 − Φ(0,57) = 0,2836.
Wenn 0,6 der wahre Parameter ist, würde H0 immer noch fälschlicherweise in ca. 30 %
aller Stichproben nicht abgelehnt werden.

Nun können wir eine Funktion β(μ1 ) grafisch darstellen, mit den verschiedenen μ1 -Werten
auf der x-Achse und dem resultierenden β-Fehler auf der y-Achse. Diese Funktion ist die
sogenannte Operationscharakteristik und ist in Abbildung 5.7 wiedergegeben.

b(m1)
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
m1

Abb. 5.7: Operationscharakteristik für die Zuschauerzahlen.

Wir können hier unsere bereits berechneten β-Fehler erkennen. Wir sehen außerdem,
dass β für μ = 1 gleich 0,95 ist. Es ist nämlich die Wahrscheinlichkeit, dass H0 nicht
192 5 Hypothesentests

abgelehnt wird, gleich 1 − α. Die Funktion ist hier streng monton steigend, das heißt, mit
steigendem μ1 steigt auch β.

Bei einer Höchsthypothese erhielten wir eine fallende Operationscharakteristik, bei einer
Punkthypothese eine U-förmige Funktion.

In unserer Operationscharakteristik (Abbildung 5.7) ist vor allem der Bereich der μ1 -
Werte von Interesse, für den β einen bestimmten Höchstwert hat, beispielsweise ein β-
Fehler von höchstens 0,15. Dies entspräche einem μ1 ≈ 0,52. Dieser Wert ist allerdings
sehr klein, denn es sollte eigentlich schon bei einem wesentlich höheren μ1 die Null-
hypothese abgelehnt werden. Das Problem ist offensichtlich, dass sich die alternativen
Normalverteilungen stark durchmischen. Idealerweise sollte der Nichtablehnungsbereich
weiter weg von den μ1 -Verteilungen sein, damit die Ablehnung möglichst früh erfolgt.
Wie bekommen wir den Nichtablehnungsbereich „kleiner“? Er lautet in unserem Fall

σ
μ0 − z(1 − α) · √ ; ∞ .
n

Wir beabsichtigen, den kritischen Wert nach rechts zu verschieben. Wie können wir das
erreichen? Ein Blick auf die obige Formel zeigt es uns: Der Ausdruck z(1 − α) · √σn muss
kleiner werden. Wir könnten

z(1−α) verkleinern, was einer Erhöhung des Signifikanzniveaus α entspricht. Inwieweit


das sinnvoll sein kann, sehen wir weiter unten;
die Varianz σ 2 verkleinern. Das wird nicht möglich sein, denn die Varianz ist ein
vorgegebener Parameter;
den Stichprobenumfang vergrößern. Das hat die Verkleinerung von √σn zur Folge. Wie
schon erwähnt: Viel hilft viel.

Momentan ist wohl die Erhöhung des Stichprobenumfangs am vielversprechendsten. Was


passiert mit unserem β-Fehler, wenn wir beispielweise n = 25 Sendungen erfassen? Wir
erhalten jetzt mit V (X) = 0,2916/25 = 0,011664 den kritischen Wert

σ 0,2916
xu = μ0 − z(1 − α) · √ = 1 − 1,65 · = 1 − 1,65 · 0,108 = 0,8218.
n 25
Nun beträgt die Wahrscheinlichkeit, dass H0 bei einem wahren μ1 von 0,8 nicht abgelehnt
wird

0,8218 − 0,8
β(0,8) = P (X ≥ 0,8218|μ1 = 0,8) = 1 − P (X ≤ 0,8218) = 1 − Φ
0,108
≈ 1 − Φ(0,20) ≈ 0,42.

Der β-Fehler hat sich von 0,7 auf 0,42 verkleinert – was aber immer noch sehr groß ist.
Abbildung 5.8 zeigt, dass durch die Erhöhung von n die Varianzen der Normalvertei-
lungen kleiner geworden sind. Die Verteilungen durchmischen sich nicht mehr so stark,
5.1 Einführung in den Hypothesentest 193

m01=0,6 m1=0,8 m0=1

0,42

0,95
0,05

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6
xa=0,8218 Zuschauerzahl in Mio. x

Abb. 5.8: Betafehler bei n = 25.

die β-Fehler sind deutlich kleiner geworden. Man nennt einen Test mit kleinem β-Fehler
daher trennscharf .

Angenommen, wir wünschen für μ1 = 0,8 einen β-Fehler von 0,1. Wie groß muss hier der
Stichprobenumfang sein? Der kritische Wert für den Test ist
σ
xu = μ0 − z(1 − α) · √ .
n

Wir erhalten nun die Wahrscheinlichkeit, dass H0 nocht abgelehnt wird, obwohl μ1 = 0,8
wahr ist, als

P (X ≥ xu |μ1 = 0,8) = 1 − P (X ≤ xu |μ1 = 0,8) = 0,1.

Statistisch gleichbedeutend ist

P (X ≤ xu |μ1 = 0,8) = 0,9

bzw.
 
xu − μ1
Φ = 0,9.
√σ
n

Wenn wir für 0,9 das ensprechende Quantil der Standardnormalverteilung verwenden,
erhalten wir
xu − μ1
= 2,19.
√σ
n
194 5 Hypothesentests


Das lösen wir nun zunächst nach n auf:
σ
xu − μ1 = 1,65 · √ .
n
Mit xu = μ0 − 2,19 · √σn gibt das

σ σ
μ0 − 2,19 · √ − μ1 = 2,19 · √ ,
n n
in Zahlen
σ σ
1 − 2,19 · √ − 0,8 = 2,19 · √ ,
n n
was zusammengefasst und umgestellt mit σ 2 = 0,2916
σ √ 2 
2 · 2,19 √ = 0,2 ⇒ n = · 2,19 · 0,2916 ≈ 6,97
n 0,2
ergibt.

Es ist ( n)2 = 48,53. Da wir nur ganzzahlige Werte von n brauchen können, runden
wir auf 49 auf. Wir brauchen also einen Stichprobenumfang von 49, um bei einem wah-
ren μ1 = 0,8 einen β-Fehler von 0,1 zu erhalten. Soll dieser Fehler noch kleiner werden,
müssen wir entsprechend n noch weiter erhöhen. So muss beispielsweise bei einem ge-
wünschten β-Fehler von 0,05 der Stichprobenumfang 80 betragen.

5.1.4 Bemerkungen zur Nullhypothese und Alternativhypothese

Wir hatten oben schon die Einteilung des Hypothesenbereichs in Nullhypothese und Al-
ternativhypothese gesehen. Fassen wir die Hypothese als Menge auf, muss die Alternativ-
hypothese das Komplement der Nullhypothese sein. Was hat es damit auf sich? Da wir
erst den Test auf μ kennen, wollen wir mit μ weiter argumentieren.

Fällt der Prüfwert in den Ablehnungsbereich, wird die Nullhypothese abgelehnt. Fällt er
dagegen in den Nichtablehnungsbereich, gilt es in der Statistik als extrem unfein zu sagen,
dass die Hypothese angenommen wird – auch wenn man das gelegentlich in Fachbüchern
liest.

Der β-Fehler ist also die Wahrscheinlichkeit, dass die Nullhypothese nicht abgelehnt wird,
obwohl in Wahrheit die Alternativhypothese wahr ist, das heißt, obwohl in Wahrheit μ1
vorliegt. β kann nicht eindeutig quantifiziert werden. Das haben wir schon auf Seite
191 gesehen. Es gibt nämlich für eine Nullhypothese beliebig viele β-Fehler, je nach
alternativem Parameter μ1 . Und schlimmer noch – ein β-Fehler kann sehr groß werden.
So erscheint es wenig zielführend, eine Nullhypothese anzunehmen. Im Gegensatz dazu
ist der α-Fehler eindeutig festgelegt, er beträgt immer α und ist die Wahrscheinlichkeit,
dass wir die Nullhypothese fälschlicherweise ablehnen.
5.1 Einführung in den Hypothesentest 195

Wollen wir uns einer Aussage also sicher sein, sollte sie abgelehnt werden. Das bedeutet:
Haben wir eine These, die verifiziert werden soll, formulieren wir in der Nullhypothese
die gegenteilige Aussage. Die Alternativhypothese beinhaltet somit unsere These. Wird
dann die Nullhypothese abgelehnt, können wir zu (1 − α) · 100 % sicher sein, dass die
Alternativhypothese gilt. Wir nennen so einen Test einen Signifikanztest. Denn hier wird
unsere These durch eine signifikante Abweichung des Prüfwertes x vom hypothetischen
Parameterwert μ0 bestätigt.

Wir haben das in Beispiel 5.2 gesehen: Es sollte untersucht werden, ob der durchschnitt-
liche Alkoholabbau pro Stunde tatsächlich mindestens 0,25 Promille beträgt. Die Alter-
nativhypothese ist H1 : μ > 0,25. Wir testen die gegenteilige Aussage als H0 : μ ≤ 0,25.
Da die Wahrscheinlichkeit einer irrtümlichen Ablehnung von H0 nur klein ist, können
wir die Ablehnung als deutliches Signal für die Falschheit der Nullhypothese deuten. Wir
würden also in diesem Fall die Alternativhypothese als zutreffend ansehen.

Allerdings ist eine konsequente Befolgung obiger Empfehlung nicht durchgängig möglich.
Was machen wir beispielsweise, wenn wir als These auf einen bestimmten Wert von μ
abzielen? Hier müssten wir die Alternativhypothese als Punkthypothese und die Nullhy-
pothese als H0 : μ = μ0 testen. Wie sollen wir so eine Hypothese testen? Hier behilft man
sich mit der Begründung, dass man von einem bekannten Parameter μ0 ausgeht. Die
These ist nun, dass sich dieser Parameter geändert hat. Also ist nun unsere Alternativ-
hypothese H1 : μ = μ0 und die korrespondierende Nullhypothese H0 : μ = μ0 . Fällt dann
der Prüfwert in den Nichtablehnungsbereich, würden wir korrekt sagen, dass aufgrund
des Testergebnisses die Nullhypothese nicht abgelehnt werden kann.

Betrachten wir dazu Beispiel 5.1. Wir würden folgendermaßen argumentieren: Wir gehen
von einem bekannten durchschnittlichen Abfüllgewicht μ = 110 aus. Wir überprüfen die
These, dass sich das Abfüllgewicht geändert hat, und stellen die gegenteilige Nullhypo-
these H0 : μ = 110 auf. Fällt der Prüfwert in den Nichtablehnungsbereich, können wir
sagen, es spricht nichts dafür, dass sich die durchschnittliche Abfüllmenge geändert hat.
In der gängigen Literatur steht dann häufig als Entscheidungsregel: „H0 beibehalten.“
Natürlich entspricht das verbal dem verpönten „H0 annehmen“, aber wir wollen dann
zumindest nicht vergessen, dass wir hier das massive Problem des β-Fehlers haben.

Ein weiteres Problem sind Tests, die das Vorhandensein von bestimmten Eigenschaften
der Verteilung testen sollen, etwa ein Test auf Normalverteilung. Wir testen so etwas
natürlich nur, wenn wir Daten haben, für die methodisch eine Normalverteilung gefordert
wird. Das heißt, wird der Test abgelehnt, sind wir zwar auf der sicheren Seite, aber wir
haben eigentlich nichts von dieser Erkenntnis. So eine Art Test wird konfirmatorischer
Test genannt, weil wir eine These durch die Nullhypothese bestärken wollen. Nachdem
wir hier die Nullhypothese quasi annehmen, wird empfohlen, dann wenigstens den α-
Fehler einigermaßen groß zu wählen. Damit fällt der Prüfwert relativ schnell in den
Ablehnungsbereich und beugt so einem hohen β-Fehler vor.
196 5 Hypothesentests

Eine brauchbare Regel wäre, die vermutete oder gewünschte These zur Alternativhy-
pothese zu erklären, wenn von der Gültigkeit der These sehr viel abhängt. Beispiele
wären die Wirksamkeit eines Medikaments oder einer Behandlung oder die zukünftige
Zahlungsfähigkeit eines Unternehmens. Hier sind hohe Anforderungen an den Test ge-
stellt. So muss beispielsweise bei einem Test H0 : μ ≤ μ0 der Prüfwert weit höher als der
kritische Wert xo sein, damit die Nullhypothese abgelehnt wird.

Es gibt aber auch viele Analysen, bei denen so eine strenge Auslegung unangebracht
ist. Überlegen wir: Ein Lieferant versichert, dass in seiner Lieferung höchstens 10 %
defekte Teile sind. Wenn wir seine Behauptung „Der wahre Anteil der defekten Tei-
le ist höchstens 10 %“ als Alternativhypothese nähmen, also H0 : „Der wahre An-
teil der defekten Teile ist mindestens 10 %“, dürfte in einer Stichprobe der Anteil
beispielsweise höchstens 9 % sein, damit die Nullhypothese abgelehnt und die Liefe-
rung angenommen wird. Also müsste der Lieferant das Soll immer stark übererfül-
len, was ihn unangemessen benachteiligen würde. Daher würden wir hier testen H0 :
„Der wahre Anteil der defekten Teile ist höchstens 10 %“ und die Lieferung annehmen,
wenn die Stichprobe etwa höchstens 11 % defekte Teile enthält. Ein Beispiel für die-
se Vorgehensweise ist der Fall mit den Einschaltquoten von Power to the Bauer (Bei-
spiel 5.3).

5.2 Test eines Erwartungswertes

Es soll der unbekannte Erwartungswert einer Zufallsvariablen X geprüft werden. Wir


haben in der Einführung zum Hypothestentest (Abschnitt 5.1.1) schon Erwartungswerte
von normalverteilten Zufallsvariablen mit bekannter Varianz getestet und beispielsweise
Punkthypothese und Bereichshypothese kennengelernt. Wir haben gelernt, dass für die
Ausführung des Tests die Verteilung des Stichprobendurchschnitts X und damit von X
bekannt sein muss. Es werden im Folgenden verschiedene Möglichkeiten für den Test
eines Erwartungswertes gezeigt.

5.2.1 Test des Erwartungswertes eines normalverteilten Merkmals


bei bekannter Varianz

Diesen Fall haben wir in der Einführung in Abschnitt 5.1.1 schon ausführlich gezeigt. Er
soll allerdings zur Vervollständigung der Liste hier noch einmal kurz aufgeführt werden.
5.2 Test eines Erwartungswertes 197

Test des Erwartungswertes

∗ zu testender Kennwert: Erwartungswert μ,


∗ Verteilung von X: Normalverteilung,
∗ Varianz: σ 2 bekannt.

Die Realisation der Prüfgröße Z ist


x − μ0
z= .
√σ
n

H0 : μ = μ0 wird abgelehnt, falls z < −z(1 − α2 ) oder z > z(1 − α2 ) ist.


H0 : μ ≤ μ0 wird abgelehnt, falls z > z(1 − α) ist.
H0 : μ ≥ μ0 wird abgelehnt, falls z < −z(1 − α) ist.
Dabei ist z(p) das p-Quantil der Standardnormalverteilung.

5.2.2 Test des Erwartungswertes eines normalverteilten Merkmals


bei unbekannter Varianz

Der Fall, dass der Erwartungswert zwar unbekannt, aber die Varianz bekannt ist, ist
wohl eher untypisch. In der Tat dient dieses etwas weltfremde Beispiel vor allem der ein-
führenden Erläuterung des Testverfahrens. Wir werden jetzt den Fall betrachten, dass X
normalverteilt ist, wir aber die Varianz des Merkmals nicht kennen. Um eine Prüfgröße
analog zu Abschnitt 5.2.1 aufstellen zu können, müssen wir die Varianz σ 2 der Grundge-
samtheit mit der Stichprobenvarianz s2 schätzen. Die Stichprobenvarianz ist selbst eine
Zufallsvariable S 2 , wie wir aus Abschnitt 4.2.2 wissen. Die resultierende Prüfgröße

X − μ0
T =
√S
n

ist nicht mehr normalverteilt, sondern t-verteilt mit n − 1 Freiheitsgraden. Die Eigen-
schaften der t-Verteilung sind in Abschnitt 4.1.3 aufgeführt. Da die t-Verteilung in einigen
Punkten ähnlich der Normalverteilung ist, können wir als Anleitung für den Test des Er-
wartungswertes folgendes Vorgehen angeben:

Test des Erwartungswertes

∗ zu testender Kennwert: Erwartungswert μ,


∗ Verteilung von X: Normalverteilung,
∗ Varianz: σ 2 unbekannt.
198 5 Hypothesentests

Die Realisation der Prüfgröße T ist


x − μ0
t= .
√s
n

H0 : μ = μ0 wird abgelehnt, falls t < −t(1 − α2 ; n − 1) oder t > t(1 − α2 ; n − 1) ist.


H0 : μ ≤ μ0 wird abgelehnt, falls t > t(1 − α; n − 1) ist.
H0 : μ ≥ μ0 wird abgelehnt, falls t < −t(1 − α; n − 1) ist.
Dabei ist t(p; n − 1) das p-Quantil der t-Verteilung mit n − 1 Freiheitsgraden.
Falls n > 30 ist, können wir näherungsweise für die Ermittlung des Ablehnungsbe-
reichs die Quantile der Standardnormalverteilung verwenden, wobei die Entschei-
dung analog zu Abschnitt 5.2.1 getroffen wird.

5.2.3 Test des Erwartungswertes eines Merkmals mit unbekannter


Verteilung und unbekannter Varianz

Hier kann auch die Verteilung der Prüfgröße nicht mehr unmittelbar angegeben werden.
Als Faustregel können wir verwenden:

Falls n > 30 ist, ist die Prüfgröße

X − μ0
Z=
√S
n

näherungsweise standardnormalverteilt.

Test des Erwartungswertes

∗ zu testender Kennwert: Erwartungswert E(X),


∗ Verteilung von X: unbekannt,
∗ Varianz: V (X) unbekannt.

Wenn n > 30 ist, wird für die Prüfgröße Z die Realisation


x − μ0
z= .
√s
n

verwendet.
H0 : E(X) = μ0 wird abgelehnt, falls z < −z(1 − α2 ) oder z > z(1 − α2 ) ist.
H0 : E(X) ≤ μ0 wird abgelehnt, falls z > z(1 − α) ist.
H0 : E(X) ≥ μ0 wird abgelehnt, falls z < −z(1 − α) ist.
5.2 Test eines Erwartungswertes 199

Uns fällt auf, dass hier statt μ die Bezeichnung E(X) verwendet wird. μ ist für eine
normalverteilte Zufallsvariable reserviert. Lediglich der Hypothesenwert wird als μ0 be-
zeichnet, weil hier „E(X)“ mit einer Null zu sperrig wird.

Bemerkungen:

Häufig wird für die Mindestzahl der Beobachtungen n > 50 verlangt. Die Mindestzahl
hängt natürlich von der gewünschten Genauigkeit des Tests ab.
Liegen zu wenige Beobachtungen für diesen Test vor, gibt es unter bestimmten Vor-
aussetzungen Tests, die auf eine Verteilung des Merkmals verzichten. Wir nennen sie
verteilungsfreie Tests. Allerdings sind diese Testverfahren sehr grob und wenig trenn-
scharf.

5.2.4 Test des Erwartungswertes eines Merkmals bei einer


Stichprobenentnahme ohne Zurücklegen

Speziell im klinischen Anwendungsbereich haben wir es häufig mit kleinen Grundgesamt-


heiten zu tun, etwa einem Pool von Versuchspersonen oder einer Gruppe von Patienten
mit einer bestimmten Erkrankung. Können wir bei sehr großen Grundgesamtheiten im-
mer näherungsweise von einem Entnahmemodell mit Zurücklegen ausgehen, müssen wir
bei einer kleineren Grundgesamtheit berücksichtigen, dass sich bei jeder Entnahme die
Gesamtheit um eine Einheit verkleinert. Es genügt hier, lediglich den Fall eines beliebig
verteilten Merkmals mit unbekannter Varianz zu betrachten. Mit der Faustregel n > 30
können wir für den Test eine näherungsweise standardnormalverteilte Prüfgröße

X −μ
Z=  0

√S
n
1− N
n

verwenden.

Test des Erwartungswertes

∗ zu testender Kennwert: Erwartungswert E(X),


∗ Verteilung von X: unbekannt,
∗ Auswahl ohne Zurücklegen,
∗ Varianz: unbekannt.

Falls n > 30 erfüllt ist, wird die Realisation der Prüfgröße Z verwendet:
x−μ
z= # 0 $ .
s n
√ 1−
n N
200 5 Hypothesentests

H0 : E(X) = μ0 wird abgelehnt, falls z < −z(1 − α2 ) oder z > z(1 − α2 ) ist.
H0 : E(X) ≤ μ0 wird abgelehnt, falls z > z(1 − α) ist.
H0 : E(X) ≥ μ0 wird abgelehnt, falls z < −z(1 − α) ist.

Ist außerdem Nn
< 0,05, kann der Korrekturfaktor 1 − N n
weggelassen werden, das
heißt, wir erhalten näherungweise ein Modell mit Zurücklegen.

Analog zu Abschnitt 4.3.3 findet man in der Literatur auch die strengere Regel n > 50
n
und N < 0,5 als Voraussetzung für obigen Test.

5.3 Test des Anteilswertes einer dichotomen


Grundgesamtheit

5.3.1 Test des Anteilswertes einer dichotomen Grundgesamtheit


bei großem Stichprobenumfang n

Wir gehen jetzt von einem Urnenmodell mit zwei Sorten Kugeln aus. Wir wünschen In-
formationen über den unbekannten Anteil θ der Kugeln erster Sorte in der Urne. Wir
bezeichnen X als Zahl der Kugeln erster Sorte bei n gezogenen Kugeln. Wenn die Zahl
der Kugeln in der Urne sehr groß oder gar unbekannt ist, gehen wir von einem Mo-
dell mit Zurücklegen aus. X ist dann binomialverteilt. Hier können wir den Anteil der
Grundgesamtheit mit dem Anteil der Kugeln erster Sorte in der Stichprobe schätzen. Die
Schätzfunktion ist der Anteil P = X
n . Wir können das in Abschnitt 4.2.5 nachlesen.

Wir könnten eine Prüfgröße für P angeben, einfacher ist aber, X zu verwenden. Ist der
Stichprobenumfang groß genug, ist die Prüfgröße näherungsweise standardnormalverteilt.

Test des Anteilswertes

∗ Urnenmodell: zwei Sorten Kugeln, Auswahl von n Kugeln mit Zurücklegen,


∗ Stichprobenumfang n groß,
∗ zu testender Kennwert: Anteil θ der Kugeln erster Sorte,
∗ Verteilung von X: Binomialverteilung.
9
Falls n > θ0 (1−θ0 ) ist, verwenden wir für die Prüfgröße Z die Realisation

x − n · θ0
z=  .
n · θ0 · (1 − θ0 )

H0 : θ = θ0 wird abgelehnt, falls z < −z(1 − α2 ) oder z > z(1 − α2 ) ist.


H0 : θ ≤ θ0 wird abgelehnt, falls z > z(1 − α) ist.
H0 : θ ≥ θ0 wird abgelehnt, falls z < −z(1 − α) ist.
5.3 Test des Anteilswertes einer dichotomen Grundgesamtheit 201

Gelegentlich wird noch die erforderliche Stetigkeitskorrektur in die Prüfgröße eingebaut.


Häufig findet man die sehr stark vereinfachte Regel, dass lediglich n > 30 sein muss, um
die standardnormalverteilte Prüfgröße Z verwenden zu können.

5.3.2 Test des Anteilswertes einer dichotomen Grundgesamtheit


bei kleinem Stichprobenumfang n

Wenn n zu klein für eine Approximation ist (Abschnitt 3.4.4), müssen wir die exakte
Binomialverteilung für den Test verwenden. Da heutzutage die Verteilungswerte schnell
mit Tabellenkalkulationsprogrammen ermittelt werden können, ist dieses Vorgehen nicht
mehr so aufwendig wie noch vor einigen Jahren. Wir können für die Festlegung des Ableh-
nungsbereichs die F -Verteilung oder die Binomialverteilung verwenden. Wir wollen hier
die Binomialverteilung nehmen und für das Verständnis zuerst ein Beispiel verwenden.

Beispiel 5.4 Rückfallquote bei Drogenabhängigen


Es wird eine Therapiemethode bei Drogenabhängigen analysiert. Man erhoffte sich bei
Einführung dieser Methode eine Rückfallquote von höchstens 30 %. 15 Personen nah-
men an der Therapie teil. Es soll die Hypothese geprüft werden, dass die Rückfallquote
mindestens 30 % beträgt (α = 0,05).

Analysieren wir die Problemstellung: Wir haben eine dichotome Grundgesamtheit vor
uns, nämlich Patienten, die rückfällig oder nicht rückfällig wurden. Da die Gesamtzahl
aller infrage kommenden Patienten nicht gegeben ist, können wir ein Entnahmemodell mit
Zurücklegen annehmen. Wir definieren nun die Zufallsvariable X: Zahl der rückfälligen
Patienten unter n = 15. X ist binomialverteilt mit den Parametern n = 15 und einem
unbekannten Anteilswert θ von rückfälligen Patienten. Wir formulieren die Nullhypothese
„umgekehrt“ zu dem erhofften Ergebnis und stellen die Nullhypothese auf:

H0 : θ ≥ θ0 = 0,3.

Entsprechend lautet die Alternativhypothese:

H1 : θ < 0,3.
9
Die Verwendung einer näherungsweise normalverteilten Prüfgröße ist wegen 0,3·0,7 > 15
nicht sinnvoll. Also überlegen wir uns: X ist binomialverteilt. Ist der Stichprobenwert
x groß, unterstützt er die Nullhypothese. Wird dagegen x klein, muss der Anteil der
Rückfälligen eher klein als groß sein. Also werden wir den Ablehnungsbereich „links“
platzieren und einen kritischen Wert xα bestimmen, der zur Ablehnung von H0 führt.

Bei der Binomialverteilung haben wir es mit einer diskreten Zufallsvariablen zu tun.
Der Glücksfall, dass α genau einem errechneten F (xi ) gleicht, wird daher eher selten
auftreten. α fällt also meistens zwischen zwei Verteilungswerte. In Tabelle 5.1 ist eine
Wahrscheinlichkeitstabelle für X angegeben.
202 5 Hypothesentests

Tab. 5.1: Wahrscheinlichkeiten einer binomialverteilten Zufallsvariablen mit n = 15 und


θ = 0,3.

x P (X = x) P (X ≤ x) P (X ≥ x)
0 0,0047 0,0047 1,0000
1 0,0305 0,0353 0,9953
2 0,0916 0,1268 0,9647
3 0,17 0,2969 0,8732
4 0,2186 0,5155 0,7031
5 0,2061 0,7216 0,4845
6 0,1472 0,8689 0,2784
7 0,0811 0,95 0,1311
8 0,0348 0,9848 0,0500
9 0,0116 0,9963 0,0152
10 0,003 0,9993 0,0037
11 0,0006 0,9999 0,0007
12 0,0001 1 0,0001
13 0 1 0,0000
14 0 1 0,0000
15 0 1 0,0000

Wir lesen ab: P (X ≤ 1) = 0,0353 und P (X ≤ 2) = 0,1268. Diese Wahrscheinlichkeiten


sind α = 0,05 am nächsten. Ein tatsächliches α = 0,0353 ist zu klein, und α = 0,1268
ist zu groß. Wir haben auf Seite 187 gelernt, dass α ein Fehler ist und dass ein Fehler
verkleinert, aber nicht vergrößert werden soll, was wir als Prinzip des konservativen Tes-
tens bezeichnet haben. Wir wählen also α = 0,0353. Das bedeutet, wenn x ≤ 1 wäre,
würde H0 abgelehnt werden. 1 ist der kritische Wert unseres Tests. Übrigens entspricht
1
er einem geschätzen Anteil von p = 15 ≈ 0,07. Was bedeutet das? Wir können festhalten:
Wenn H0 abgelehnt wird, ist vermutlich die Rückfallquote kleiner als 0,3, was uns freuen
würde. Hier dürfte in der Stichprobe höchstens ein Anteil von 0,07 rückfälligen Patienten
erreicht werden. Das ist ein sehr strenges Kriterium für die Ablehnung des Tests und
die Befürwortung dieser Therapie. Dieser Wert ist unter anderem auch deshalb so nied-
rig, weil unser Stichprobenumfang mit 15 ziemlich klein ist. Wir sehen also, dass kleine
Stichproben meistens unbefriedigende Ergebnisse hervorbringen.

Die Analyse der 15 Patienten ergab nun, dass drei von ihnen rückfällig geworden waren,
was einem Stichprobenanteil von 20 % entspricht. Das liegt deutlich unter 30 %. Die
Nullhypothese würde aber trotzdem nicht abgelehnt werden.

Zu Übungszwecken testen wir nun noch die Hypothese, dass die Rückfallquote höchstens
30 % beträgt, hier mit einem α = 0,1, also

H0 : θ ≤ θ0 = 0,3.
5.3 Test des Anteilswertes einer dichotomen Grundgesamtheit 203

Jetzt wird der α-Fehler rechts platziert. Wir müssen also die Wahrscheinlichkeiten
b(x|15; θ0 ) ab 15 absteigend x addieren, um auf den kritischen Wert xα zu kommen.
In Tabelle 5.1 sind in der Spalte P (X ≥ x) die kumulierten Wahrscheinlichkeiten aufge-
führt. Abbildung 5.9 zeigt das Vorgehen noch einmal. Wir sehen, dass P (X ≥ 8) noch
0,05 ergibt und P (X ≥ 7) schon 0,1311. Um den α-Fehler nicht mutwillig zu vergrö-
ßern, wählen wir als kritischen Wert für die Ablehnung xα den x-Wert 8. Ergibt also die
Stichprobe einen x-Wert von mindestens 8, lehnen wir die Nullhypothese ab. Wenn wir
übrigens ein Signifikanzniveau von α = 0,05 vorgegeben hätten, wäre auch hier 8 der
kritische Wert für die Ablehnung von H0 . In diesem Fall würde der tätsachliche α-Fehler
genau 0,05 betragen.
0,2186

0,2500
0,2061

a=0,01
0,1700

0,2000
0,1472

0,1311
0,1500
{{ {
0,0916

0,0811

0,1000
0,0500
0,0348
0,0305

0,0500
0,0116
0,0047

0,0030
0,0006
0,0001
0,0000
0,0000
0,0000

0,0000
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Ablehnungsbereich

Abb. 5.9: Ablehnungsbereich der Hypothese H0: θ ≤ 0,3 durch konservatives Testen.

Wir gehen methodisch so vor:

Test des Anteilswertes

∗ Urnenmodell: zwei Sorten Kugeln, Auswahl von n Kugeln mit Zurücklegen,


∗ Stichprobenumfang n klein,
∗ zu testender Kennwert: Anteil θ der Kugeln erster Sorte,
∗ Verteilung von X: Binomialverteilung.

Wir gehen von einem Urnenmodell mit Zurücklegen aus. Die Prüfgröße X: Zahl der
Kugeln erster Sorte in der Stichprobe ist binomialverteilt mit den Parametern θ0
und dem Stichprobenumfang n.
204 5 Hypothesentests

Bei einer Mindesthypothese H0 : θ ≥ θ0 ist der Ablehnungsbereich die Menge


aller x-Werte { 0, 1, 2, . . . , m}, für die P (X ≤ m) = B(m|n; θ0 ) ≤ α und folglich
P (X ≤ m + 1) = B(m + 1|n; θ0 ) > α ist.
B(m|n; θ0 ) wird als tatsächliches Signifikanzniveau α bezeichnet.
Bei einer Höchsthypothese H0 : θ ≤ θ0 umfasst der Ablehnungsbereich die Menge
aller x-Werte { r, r+1, r+2, . . . , n−1, n}, für die unter H0 die Wahrscheinlichkeit
P (X ≥ r) ≤ α und folglich P (X ≥ r − 1) > α ist. Das ist gleichbedeutend mit

1 − B(r − 1|n; θ0 ) ≤ α und 1 − B(r − 2|n; θ0 ) > α.

1 − B(r − 1|n; θ0 ) wird als tatsächliches Signifikanzniveau α bezeichnet.


Bei einer Punkthypothese H0 : θ = θ0 umfasst der Ablehnungsbereich die Menge
aller x-Werte, für die B(m|n; θ0 ) ≤ α2 oder für die 1 − B(r − 1|n; θ0 ) ≤ α2 ist,
wobei sich die kritischen Werte analog zu oben ergeben.

Bemerkung: Wenn uns die Verrenkungen mit 1 − B(r − 1|n; θ0 ) ≤ α zu verwirrend sind,
addieren wir einfach die Wahrscheinlichkeiten von oben auf, wie in Abbildung 5.9 gezeigt.

5.3.3 Test des Anteilswertes einer dichotomen Grundgesamtheit


bei einem Entnahmemodell ohne Zurücklegen

Modellhaft betrachten wir ein Urne mit insgesamt N vielen Kugeln und M vielen Ku-
geln erster Sorte. Von Interesse ist der Anteilswert θ = M
N . Analog zu Abschnitt 5.3.1
verwenden wir für genügend großes n eine standardnormalverteilte Prüfgröße Z.

Test des Anteilswertes

∗ Urnenmodell: zwei Sorten Kugeln, Auswahl von n Kugeln ohne Zurücklegen,


∗ Stichprobenumfang n groß,
∗ zu testender Kennwert: Anteil θ der Kugeln erster Sorte,
∗ Verteilung von X: hypergeometrische Verteilung.
9 n
Falls n > θ0 (1−θ0 ) und N < 0,5 sind, verwenden wir für Z die Realisation

x − n · θ0
z=   . (5.1)
−n
n · θ0 · (1 − θ0 ) · NN −1

H0 : θ = θ0 wird abgelehnt, falls z < −z(1 − α2 ) oder z > z(1 − α2 ) ist.


H0 : θ ≤ θ0 wird abgelehnt, falls z > z(1 − α) ist.
H0 : θ ≥ θ0 wird abgelehnt, falls z < −z(1 − α) ist.
5.3 Test des Anteilswertes einer dichotomen Grundgesamtheit 205

Auch hier kann bei sehr kleinen Fallzahlen anhand der hypergeometrischen Verteilung
ein exakter Ablehnungsbereich ermittelt werden. Mithilfe eines Tabellenkalkulationspro-
gramms ist das kein Problem.

Beispiel 5.5 Sozialisation von verwilderten Hauskatzen


Die Tiermedizinstudentin Helga schreibt eine Arbeit über die Sozialisation verwilderter
Katzen. Diese Katzen waren eingefangen, sterilisiert, ärztlich versorgt und aufgepäp-
pelt worden. In den regional nahe gelegenen Tierheimen konnten 200 solcher anfänglich
sehr scheuer Katzen an Tierfreunde vermittelt werden. Helga vermutet, dass bei ent-
sprechender Pflege mindestens 70 % der Katzen sozialisiert werden können, das heißt,
sie werden ein Familienmitglied im Haushalt „ihrer“ Menschen. Um ihre Vermutung
wissenschaftlich unangreifbar zu machen, testet Helga die Hypothese, dass höchstens
70 % Prozent der Katzen sozialisiert werden können. Sie wählt aus den 200 Katzenbe-
sitzern zufällig 60 aus und befragt sie. Wie geht Helga bei dem Test vor?

Wir schicken voraus, dass Helga nur von einer Katze pro Haushalt ausgeht, um das Bei-
spiel für uns nicht unnötig zu verkomplizieren. Sie definiert eine Zufallsvariable X: Zahl
der sozialisierten Katzen unter den 60 erhobenen. Die Grundgesamtheit umfasst nur 200
Elemente, hier Katzen. Helga muss jetzt von einem Entnahmemodell ohne Zurücklegen
ausgehen, denn jede ausgewählte Katze verkleinert die Grundgesamtheit um ein Element.
Die Grundgesamt ist bezüglich X dichotom. Die Schlagworte Modell ohne Zurücklegen
und dichotome Grundgesamtheit sagen uns, dass X hypergeometrisch verteilt ist mit den
Parametern N = 200, n = 60 und einer unbekannten Zahl von sozialisierten Katzen M .
Der Anteilswert der Kugeln erster Sorte ist θ = MN.

Helga könnte analog zu Beispiel 5.4 den Ablehnungsbereich für den Test mithilfe der
hypergeometrischen Verteilung exakt festlegen. Obwohl das heutzutage für den Besitzer
einer Tabellenkalkulation kein Problem mehr ist, zieht Helga eine Approximation mithilfe
der Normalverteilung vor. Kann sie approximieren? Es ist
9 n 60
n> ≈ 45 und = = 0,3 < 0,5,
0,7 · 0,3 N 200
und Helga kann die Prüfgröße von Formel 5.1 verwenden. Darf sie den Korrekturfaktor
weglassen? Es ist
n
= 0,3 > 0,05.
N
Also sollte Helga nicht vom Modell ohne Zurücklegen abrücken.

Wie legt sie bei einer Nullhypothese H0 : θ ≤ θ0 = 0,7 den Ablehnungsbereich fest? Ein
kleiner x-Wert entspricht einem kleinen θ und unterstützt die Nullhypothese. Ein sehr
großer x-Wert entspricht einem großen θ und führt zur Ablehnung. Also siedelt man den
206 5 Hypothesentests

Ablehnungsbereich im oberen Teil der Verteilung an. Die Nullhypothese wird abgelehnt,
wenn die Realisation der Prüfgröße
x − n · θ0
z=  > z(1 − α) = 1,65
 N −n
n · θ0 · (1 − θ0 ) ·
N −1
ergibt. Es hatten 48 Tierfreunde berichtet, dass die Katzen sozialisiert worden waren.
Das entspricht einem Stichprobenwert von
48 − 60 · 0,7
z=   ≈ 2,02.
200 − 60
60 · 0,7 · 0,3 ·
199
Die Nullhypothese wird also abgelehnt, und Helga kann davon ausgehen, dass der Anteil
der sozialisierten Katzen tatsächlich mindestens 70 % beträgt.

5.4 Test der Varianz

Die Varianz ist ein Indikator für die Streubreite eines Merkmals. Sie kann auch als Maß
für den Informationsgehalt von Daten interpretiert werden.

Beispiele für die Anwendung von Varianztests wären:

In einem Fastfoodlokal werden Kaffeebecher automatisch befüllt. Die Abfüllmengen


sollten nicht zu stark schwanken. Von Zeit zu Zeit wird die Varianz der Füllmenge
überprüft.
Bei Haftstrafen von Männern und Frauen werden neben den durchschnittlichen Haft-
zeiten auch die Varianzen verglichen. Eine große Varianz könnte bedeuten, dass neben
kleineren Haftzeiten auch sehr lange Haftzeiten wegen schwerer Kapitalverbrechen auf-
treten. Von Interesse könnte sein, ob die Verteilung der Haftzeiten von Männern und
Frauen ähnlich ist.
Ist die Konzentrationsfähigkeit beim Lesen eines schwierigen Textes gleichbleibend,
oder schwankt sie stark?

Die Varianz schätzen wir aus der Stichprobe mithilfe von

1 
n
s2 = · (xi − x)2 .
n−1
i=1

Diese Stichprobenvarianz oder auch inferenzielle Varianz ist eine Zufallsvariable

1 
n
S2 = · (Xi − X)2 . (5.2)
n−1
i=1
5.4 Test der Varianz 207

Gehen wir von einer normalverteilten Grundgesamtheit aus, besteht die Varianz im We-
sentlichen aus einer Summe von quadrierten normalverteilten Zufallsvariablen. Wir kön-
nen für S 2 keine unmittelbare Verteilung angeben, aber die lineare Transformation

S2
Y = (n − 1) · (5.3)
σ02

ist χ2 -verteilt mit n − 1 Freiheitsgraden. In Abschnitt 4.1.1 sind die Eigenschaften der
χ2 -Verteilung beschrieben.

Wir verwenden für den Varianztest unter H0 die obige Prüfgröße in Gleichung 5.3. Auf-
grund der Asymmetrie der Verteilung müssen wir das untere Quantil und das obere
Quantil getrennt voneinander ermitteln. Wir bezeichnen mit χ2 (p; n − 1) das p-Quantil
der χ2 -Verteilung mit n − 1 Freiheitsgraden.

Test der Varianz

∗ zu testender Kennwert: Varianz σ 2 ,


∗ Verteilung von X: Normalverteilung.

Für die Prüfgröße Y verwenden wir die Realisation

s2
y = (n − 1) · . (5.4)
σ02

H0 : σ 2 = σ02 wird abgelehnt, falls y < χ2 ( α2 ; n − 1) oder y > χ2 (1 − α2 ; n − 1) ist.


H0 : σ 2 ≤ σ02 wird abgelehnt, falls y > χ2 (1 − α; n − 1) ist.
H0 : σ 2 ≥ σ02 wird abgelehnt, falls y < χ2 (α; n − 1) ist.

Beispiel 5.6 Streuung des Intelligenzquotienten


Der Intelligenzquotient (IQ) gilt als näherungsweise normalverteilte Zufallsvaria-
ble mit einem Erwartungswert 100 und der Varianz 225. Für die Aufnahme in
die Mensa, einer Vereinigung für Personen mit überdurchschnittlicher Intelligenz,
wird ein Intelligenzquotient von mindestens 130 verlangt. Verona schreibt eine Ar-
beit über die Verteilung des IQ bei Personen mit überdurchschnittlicher Intelligenz.
Sie vermutet, dass die Intelligenzquotienten dieser Personen unterschiedlich schwan-
ken im Vergleich zu den Intelligenzquotienten aller erwachsenen Personen. Bei ei-
nem IQ-Test von 21 Anwärtern auf eine Mensa-Mitgliedschaft ergaben sich die IQ-
Werte

122 124 118 123 135 117 143 158 131 148 132 132 118 136 134
132 117 123 131 136 120.
208 5 Hypothesentests

Verona testet bei einem Signifikanzniveau von 0,01, dass die Varianz des IQ von Personen
höherer Intelligenz gleich der bekannten Varianz 225 ist:

H0 : σ 2 = 225.

Die kritischen Werte für die Ablehnung der Nullhypothese sind


#α $
χ2 ; n − 1 = χ2 (0,005; 20) = 7,43
2
und
# α $
χ2 1 − ; n − 1 = χ2 (0,995; 20) = 40,00.
2
H0 wird also abgelehnt, wenn y < 7,43 oder y > 40,00 ist.

Verona berechnet nun den Mittelwert x = 130 und die Stichprobenvarianz s2 = 116,4
(bitte nachrechnen!). Die Prüfgröße erhält den Wert

s2 116,4
y = (n − 1) · = 20 · ≈ 10,35.
σ02 225

y fällt in den Nichtablehnungsbereich. Verona kann ihre These nicht aufrechterhalten.

Was wäre, wenn Verona bei α = 0,1 testen würde: H0 : σ 2 ≥ 225? H0 wird abgelehnt,
falls y < χ2 (α; n − 1) = χ2 (0,1; 20) = 12,44 ist. Die Hypothese würde mit y = 10,35
abgelehnt werden.

5.5 Vergleich zweier Parameter

Gelegentlich werden uns in der wissenschaftlichen Forschung Situationen begegnen, in


denen wir die Ergebnisse von zwei unterschiedlichen Therapien vergleichen müssen. Oder
wir vergleichen die Anteile von Männern und Frauen bezüglich bestimmer Einstellungen.
Wir wollen hier die wichtigsten Vergleiche betrachten.

5.5.1 Vergleich zweier Erwartungswerte

Beispiel 5.7 Wirkung eines Medikaments zur Reduzierung des Zigaret-


tenkonsums
Ein Medikament soll die Sucht von Rauchern dämpfen. Angeblich bewirkt die Einnah-
me eine deutliche Reduzierung des Zigarettenkonsums. Es wurde in einem Versuch elf
Rauchern das Medikament und neun Rauchern ein Placebo gegeben.
5.5 Vergleich zweier Parameter 209

Wir bezeichnen mit X1 die Zahl der Zigaretten, die ein Raucher mit Medikament täglich
raucht, und mit X2 die Zahl der Zigaretten, die ein Placeboempfänger täglich raucht.
Die beiden Zufallsvariablen sind normalverteilt.

Wir interessieren uns dafür, ob die durchschnittliche Zahl der gerauchten Zigaretten von
medikamentierten Versuchspersonen gleich der von Placeboempfängern ist. Wir testen
also

H0 : μ1 = μ2 .

Nun benötigen wir noch eine geeignete Prüfgröße, denn mit der obigen Hypothesenstel-
lung können wir wenig anfangen. H0 lässt sich umformen zu

H0 : μ1 − μ2 = 0.

Wie schätzen wir das? Wir verwenden die arithmetischen Durchschnitte x1 und x2 , den
durchschnittlichen Zigarettenkonsum eines Rauchers. Wir konstruieren also eine Zufalls-
variable D = X 1 − X 2 (D wie Differenz). Ihren Erwartungswert E(D) = μ1 − μ2 be-
zeichnen wir als δ (= „delta“, die griechische Entsprechung zu d). Außerdem hat D die
– vorläufig nur angedeutete – Varianz V (D). Wir standardisieren D wie gewohnt als
D − E(D) (X 1 − X 2 ) − (μ1 − μ2 ) D−δ
 =  =  .
V (D) V (D) V (D)
Wäre die Varianz von D bekannt, hätten wir aufgrund der Reproduktivität der Nor-
malverteilung eine normalverteilte Prüfgröße. Da wir die Varianz von D aber schätzen
müssen, erhalten wir eine t-verteilte Prüfgröße. Nun ist die t-Verteilung nicht repro-
duktiv, was heißen soll, dass wir bei der Ermittlung der Verteilung von D Probleme
bekommen. Schuld sind die geschätzten Varianzen. Es gibt zwei Möglichkeiten für einen
befriedigenden Ansatz:

Die Varianzen sind gleich. In diesem Fall können wir so tun, als ob wir nur eine Varianz
vorliegen haben, und die Ermittlung der Verteilung ist kein Problem.
Die Varianzen sind ungleich. Hier können wir keine exakte Verteilung angeben. Wir
haben eine t-Verteilung mit einer unbekannten Zahl von Freiheitsgraden, die nähe-
rungsweise bestimmt werden.

Wir werden meistens testen:

H0 : δ = 0 bzw. H0 : μ1 − μ2 = 0 bzw. H0 : μ1 = μ2 ,
H0 : δ ≥ 0 bzw. H0 : μ1 − μ2 ≥ 0 bzw. H0 : μ1 ≥ μ2 ,
H0 : δ ≤ 0 bzw. H0 : μ1 − μ2 ≤ 0 bzw. H0 : μ1 ≤ μ2 .

Man kann selbstredend auch den allgemeinen Fall

H0 : δ = δ0 oder H0 : δ ≤ δ0 oder H0 : δ ≥ δ0

(δ0 = 0) betrachten, was aber hier zu weit führt.


210 5 Hypothesentests

Vergleich zweier Erwartungswerte bei gleicher Varianz der Merkmale

Sind die Varianzen gleich, kommt folgerichtig nur eine Varianz in den Nenner der Prüfgrö-
ße. Wir berechnen also aus allen Daten die gemeinsame Stichprobenvarianz s2 , die auch
gepoolte Varianz genannt wird. Wir bezeichnen die Daten aus der ersten Grundgesamt-
heit mit x1i (i = 1, . . . , n1 ) und die der zweiten Grundgesamtheit mit x2i (i = 1, . . . , n2 ).
Die Gesamtzahl aller Beobachtungen ist dann n = n1 + n2 . Die gepoolte Varianz wird
ermittelt als
(n1 − 1) · s21 + (n2 − 1) · s22
s2 = (5.5)
n1 + n2 − 2
mit den Einzelvarianzen pro Grundgesamtheit als

1 
n1
s21 = (x1i − x1 )2 ,
n1 − 1
i=1

s22 entsprechend. Allerdings fragen wir uns zu Recht: Woher weiß ich, dass die Varianzen
gleich sind, wenn ich sie gar nicht kenne? Das müssen wir testen, nämlich mit einem Test
auf Vergleich der Varianzen zweier Merkmale wie in Abschnitt 5.5.3. Wurde dieser Test
nicht abgelehnt, gehen wir von der Gleichheit aus und erhalten die Prüfgröße

X 1 − X 2 − δ0
T =  , (5.6)
S · n11 + n12

die wegen δ0 = 0 zu

X1 − X2
T =  (5.7)
S · n11 + n12
 √
1 1
reduziert wird. Der geheimnisvolle Zusatz n1 + n2 im Nenner entspricht dem n, das
wir von √S bei den bekannten Prüfgrößen kennen.
n

T ist t-verteilt mit n − 2 Freiheitsgraden. Es gehen hier zwei Freiheitsgrade verloren,


denn wir müssen bei der Berechnung der Varianz zwei Parameter schätzen, nämlich μ1
und μ2 .

Vergleich zweier Erwartungswerte

∗ zu testender Kennwert: Unterschied der Erwartungswerte μ1 − μ2 ,


∗ Verteilung von X1 und X2 : Normalverteilung,
∗ Varianzen: V (X1 ) und V (X2 ) unbekannt,
∗ Gleichheit der Varianzen: V (X1 ) und V (X2 ) gleich.
5.5 Vergleich zweier Parameter 211

Verwendet wird für die Prüfgröße T die Realisation


x − x2
t= 1 . (5.8)
s · n11 + n12

H0 : μ1 − μ2 = 0 wird abgelehnt, falls t < −t(1 − α2 ; n1 + n2 − 2) oder t >


t(1 − α2 ; n1 + n2 − 2) ist.
H0 : μ1 − μ2 ≤ 0 wird abgelehnt, falls t > t(1 − α; n1 + n2 − 2) ist.
H0 : μ1 − μ2 ≥ 0 wird abgelehnt, falls t < −z(1 − α; n1 + n2 − 2) ist.

Jetzt setzen wir Beispiel 5.7 mit den Rauchern fort. Wir testen also bei α = 0,05.

H0 : μ1 − μ2 = 0

Nach der obigen Vorschrift lehnen wir H0 ab, wenn t < −t(1 − α2 ; n1 + n2 − 2) oder
t > t(1− α2 ; n1 +n2 −2) ist. Das (1−α/2)-Quantil der t-Verteilung ist t(0,975; 11+9−2 =
18) = 2,10. Wir lehnen also H0 ab, wenn t < −2,10 oder t > 2,10 ist.

Bei der Auswertung der erhaltenen Daten stellte sich Folgendes heraus: Die n1 = 11
therapierten Raucher rauchten jeweils pro Tag

x1i 25 28 35 30 18 27 26 21 27 30 30

Zigaretten, und die n2 = 9 Placeboempfänger rauchten jeweils pro Tag

x2i 30 18 24 26 27 23 18 24 26.

Wir erhalten die Kennwerte x1 = 27, x2 = 24, s21 = 21,4 und s22 = 15,75, wobei wir das
zur Übung nachrechnen! Der Test auf Gleichheit der Varianzen, der auf Seite 217 für
dieses Beispiel vorgerechnet wird, ergibt, dass die Varianzen nicht als ungleich anzusehen
sind. So können wir die gepoolte Varianz ermitteln als
10 · 21,4 + 8 · 15,75
s2 = ≈ 18,89
18
bzw.

s ≈ 4,35.

Der Stichprobenwert der Prüfgröße ergibt also


27 − 24 − 0
t=  = 1,54.
1
4,35 · 11 + 19

Die Nullhypothese kann nicht abgelehnt werden. Das Medikament zur Verringerung der
Nikotinsucht überzeugt nicht.
212 5 Hypothesentests

Vergleich der Erwartungswerte von zwei normalverteilten Zufallsvariablen


mit ungleichen Varianzen

Für die Nullhypothesen wie oben verwenden wir nun die Prüfgröße

X1 − X2
T =  2 , (5.9)
S1 S22
n1 + n2

die wieder t-verteilt ist.

Vergleich zweier Erwartungswerte

∗ zu testender Kennwert: Unterschied der Erwartungswerte μ1 − μ2 ,


∗ Verteilung von X1 und X2 : Normalverteilung,
∗ Varianzen: V (X1 ) und V (X2 ) unbekannt,
∗ Gleichheit der Varianzen: V (X1 ) und V (X2 ) ungleich.

Verwendet wird für die Prüfgröße T die Realisation


x1 − x2
t=  2 . (5.10)
s1 s22
n1 + n2

Die Freiheitsgrade k können nur näherungsweise ermittelt werden mit der Formel
2
s21 s2
+ 2
n1 n2
k = 2 2 2 . (5.11)
2
s1 s2
n1 n2
+
n1 − 1 n2 − 1

H0 : μ1 − μ2 = 0 wird abgelehnt, falls t < −t(1 − α2 ; k) oder t > t(1 − α2 ; k) ist.


H0 : μ1 − μ2 ≤ 0 wird abgelehnt, falls t > t(1 − α; k) ist.
H0 : μ1 − μ2 ≥ 0 wird abgelehnt, falls t < −z(1 − α; k) ist.

Wir wollen hier nur ein kleines numerisches Beispiel betrachten, mit dem wir allerdings
gleich zwei Fliegen erschlagen.

Beispiel 5.8 Umgekehrte Richtung der Hypothesenformulierung und un-


gleiche Varianzen
Es wurden aus einer Grundgesamtheit n1 = 16 und aus einer zweiten n2 = 25 Beob-
achtungswerte gewonnen.

Beim Signifikanzniveau α = 0,1 soll geprüft werden H0 : μ2 − μ1 ≥ 0.


5.5 Vergleich zweier Parameter 213

H0 bedeutet, μ2 ist größer als μ1 . Hielten wir uns an die Prüfgröße der Formel 5.9 mit
dem Zähler X 1 − X 2 , müssten wir die Hypothese umformen zu H0 : μ1 − μ2 ≤ 0. Das
Hantieren mit Ungleichungen bereitet Anfängern häufig Schwierigkeiten. Wir können es
aber auch in der Hypothese bei H0 : μ2 − μ1 ≥ 0 belassen und in die Prüfgröße statt
des Zählers X 1 − X 2 die Differenz X 2 − X 1 schreiben, was uns die Umdrehung der
Ungleichung erspart. Ansonsten hat das keine Auswirkungen, denn die Ausdrücke mit
den Varianzen bleiben gleich.

Es ergaben sich die Kennwerte x1 = 50, x2 = 45, s21 = 64 und s22 = 225. Der Test auf
Varianzgleichheit wurde abgelehnt. Die Zahl k der Freiheitsgrade ist dann
2
64 225
+
16 25 169
2 2 = 16 81 ≈ 39 (aufgerundet).
64 225 +
16 25 15 24
+
15 24
Da wir eine Mindesthypothese haben, packen wir den Ablehnungsbereich ans untere Ende
der Verteilung und entscheiden so: Wenn der Wert der Prüfgröße t < −t(1 − α; 39) ist,
wird H0 abgelehnt.

In unserem Beispiel haben wir es allerdings bei k mit mehr als 30 Freiheitsgraden zu tun.
Deshalb können wir die Prüfgröße als näherungsweise normalverteilt ansehen. Und wir
lehnen nun ab, wenn t < −z(1 − α) = −z(0,9) = −1,29 ist. Für t erhalten wir
45 − 50 −5
t=  = √ = −1,39.
64
+ 225 4+9
16 25

Da −1,39 < −1,29 ist, wird die Hypothese abgelehnt. μ2 ist vermutlich kleiner als μ1 .

Vergleich der Erwartungswerte von zwei Zufallsvariablen unbekannter


Verteilung

Dieser Absatz soll die Vergleichspalette der Erwartungswerte abrunden. Wir können hier
wieder bei genügend großem Stichprobenumfang eine standardnormalverteilte Prüfgröße
verwenden.

Vergleich zweier Erwartungswerte

∗ Zu testender Kennwert: Unterschied der Erwartungswerte E(X1 ) − E(X2 ),


∗ Verteilung von X1 und X2 : unbekannt,
∗ Varianzen: V (X1 ) und V (X2 ) unbekannt.
214 5 Hypothesentests

Gilt n1 > 30 und n2 > 30 oder gilt k > 30, ist die Prüfgröße näherungsweise
normalverteilt. Ihre Realisation ist
x1 − x2
z=  2 . (5.12)
s1 s22
n1 + n2

H0 : E(X1 ) − E(X2 ) = 0 wird abgelehnt, falls z < −z(1 − α2 ) oder z > z(1 − α
2)
ist.
H0 : E(X1 ) − E(X2 ) ≤ 0 wird abgelehnt, falls z > z(1 − α) ist.
H0 : E(X1 ) − E(X2 ) ≥ 0 wird abgelehnt, falls z < −z(1 − α) ist.

5.5.2 Vergleich der Anteilswerte zweier dichotomer


Grundgesamtheiten

Wir gehen von zwei binomialverteilten Zufallsvariablen X1 und X2 aus. Von Interesse
ist hier, ob die Parameter θ1 und θ2 verschieden sind. Wir testen also die Anteilswerte
auf Gleichheit: H0 : θ1 = θ2 bzw. H0 : θ1 − θ2 = 0. Die gruppenspezifischen Anteilswerte
θ1 bzw. θ2 werden mit dem Stichprobenanteil p1 = nx11 , p2 entsprechend, geschätzt. Bei
genügend großem Stichprobenumfang ist die Differenz D = P1 − P2 näherungsweise
normalverteilt.

Test auf Gleichheit der Anteilswerte zweier binomialverteilter Zufallsva-


riablen

∗ Urnenmodell: zwei Urnen mit je zwei Sorten Kugeln, Auswahl von n1 und n2
Kugeln mit Zurücklegen,
∗ Verteilung von X1 und X2 : Binomialverteilung,
∗ zu testender Kennwert: Unterschied der Anteilswerte θ1 und θ2 .
9 9
Wenn n1 > und n2 > sind, ist die resultierende Prüfgröße
p1 (1 − p1 ) p2 (1 − p2 )
näherungsweise standardnormalverteilt. Man verwendet die Realisation
p1 − p2
z=  # $. (5.13)
p(1 − p) · n11 + 1
n2

Da unter H0 die Anteilswerte gleich sind, kann für die Ermittlung der Varianz der
Normalverteilung der gepoolte Anteilswert
n 1 · p1 + n 2 · p 2
p= (5.14)
n1 + n 2
verwendet werden.
5.5 Vergleich zweier Parameter 215

H0 : θ1 − θ2 = 0 wird abgelehnt, falls z < −z(1 − α2 ) oder z > z(1 − α2 ) ist.


H0 : θ1 − θ2 ≤ 0 wird abgelehnt, falls z > z(1 − α) ist.
H0 : θ1 − θ2 ≥ 0 wird abgelehnt, falls z < −z(1 − α) ist.

Bemerkung: Grundsätzlich können wie beim Vergleich von Erwartungswerten auch be-
stimmte Unterschiede quantifiziert werden. Es sollen hier aber lediglich die Tests auf
Gleichheit betrachtet werden.

Beispiel 5.9 Mitarbeit bei Wikipedia


Anlässlich der Jugendmesse YOU in Berlin wurden jugendliche Besucher zu Wikipedia
befragt. Es hatten n1 = 280 Mädchen und n2 = 110 Jungen den Fragebogen ausgefüllt.
Von den Mädchen gaben 49 an, auch aktiv bei Wikipedia mitzuarbeiten, bei den
Jungen waren es 22. Es soll bei α = 0,05 die Hypothese getestet werden, dass anteilig
mehr Mädchen als Jungen bei Wikipedia mitarbeiten.

Wir testen

H0 : θ1 ≥ θ2 bzw. H0 : θ1 − θ2 ≥ 0
49 22
und schätzen θ1 mit p1 = = 0,175 und θ2 mit p2 = = 0,2. Können wir für den
280 110
Test die Normalverteilung verwenden? Es sind
9
≈ 62 < n1 = 280
0,175 · (1 − 0,175)

und
9
≈ 56 < n2 = 110.
0,2 · (1 − 0,2)

Wir können also mit der Normalverteilung approximieren und lehnen die Hypothese ab,
wenn z < −z(1 − α), also z < −1,65 ist.

Es ergibt sich für den gepoolten Anteil


n 1 · p1 + n 2 · p 2 280 · 0,175 + 110 · 0,2
p= = = 0,1820.
n1 + n2 280 + 110
Der Stichprobenwert ist dann
p1 − p2 0,175 − 0,2
z=  # $=
≈ −0,58.
1 1
p(1 − p) · n11 + 1 0,1820 · (1 − 0,1820) · 280 + 110
n2

z liegt im Nichtablehnungsbereich. Die obige Behauptung kann nicht widerlegt werden.

Bemerkung: Die Daten beruhen auf einer realen Erhebung. In Wirklichkeit übersteigt
aber die Zahl männlicher Mitarbeiter in Wikipedia immer noch deutlich die Zahl der der
weiblichen. In diesem Fall war die Datenlage untypisch.
216 5 Hypothesentests

5.5.3 Vergleich der Varianzen zweier Grundgesamtheiten

Was sollen wir mit so einem Test? Wann brauchen wir einen Vergleich von Varianzen?

Könnte es in den schulischen Leistungen von Gymnasiasten Unterschiede zwischen Jun-


gen und Mädchen geben? Möglicherweise sind die Leistungen im Durchschnitt etwa
gleich, aber vielleicht unterscheiden sich die Varianzen signifikant, was bedeuten wür-
de, dass die Angehörigen der einen Gruppe im Vergleich zur anderen womöglich sehr
gute, aber auch sehr schlechte Leistungen hervorbringen.

Wir brauchen gelegentlich Varianzgleichheit von Gruppen bei statistischen Methoden.


Das haben wir schon beim Vergleich zweier Erwartungswerte gesehen. Auch in der Dis-
krimanzanalyse, einem sogenannten multivariaten Verfahren, wird Varianzgleichheit ge-
fordert.

Zielt unser Wunsch auf Gleichheit der Varianzen, spricht man von Varianzhomogenität.

Methodisch gehen wir von zwei normalverteilten Grundgesamtheiten mit den dazugehö-
rigen Zufallsvariablen X1 und X2 aus. Wir wollen wissen, ob die Varianzen ungleich sind,
und testen
σ12
H0 : σ12 = σ22 , was auch umgeformt werden kann zu H0 : = 1.
σ22

Eine brauchbare Prüfgröße für diesen Test ist

S12
F = , (5.15)
S22

die F -verteilt ist mit n1 − 1 und n2 − 1 Freiheitgraden. Für die kritischen Werte der
Punkthypothese müssen wir wieder beachten, dass die F -Verteilung nicht symmetrisch,
sondern rechtsschief ist. Wir berechnen also f ( α2 ; n1 −1; n2 −1) und f (1− α2 ; n1 −1; n2 −1),
die jeweiligen Quantile der F -Verteilung, getrennt voneinander. In Tabelle A.3a sind für
ausgewählte Freiheitsgrade m und n die 97,5 %-Quantile der F-Verteilung aufgeführt. Für
1
2 machen wir uns die Rechenregel zunutze, dass f ( 2 ; n1 − 1; n2 − 1) = f (1− α
α α
2 ;n2 −1;n1 −1)
ist.

Vergleich von Varianzen

∗ Zu testende Eigenschaft: Unterschied der Varianzen σ12 = σ22 ,


∗ Verteilung von X1 und X2 : Normalverteilung.

Verwendet wird für die Prüfgröße F die Realisation

s21
f= . (5.16)
s22
5.6 χ2 -Tests 217

H0 : σ12 = σ22 wird abgelehnt, wenn f < f 2 ; n1 − 1; n2 − 1 oder f >


f 1 − α2 ; n1 − 1; n2 − 1 ist.

Wie schon auf Seite 195 erwähnt, sollten wir bei einem konfirmatorischen Test (also wenn
wir die Varianzhomogenität bestätigt haben wollen) α nicht zu klein wählen.

Wir können wie bei H0 : μ1 = μ2 auch die Varianten H0 : σ12 ≤ σ22 oder H0 : σ12 ≥ σ22
testen. Das führt aber hier zu weit und kann beispielsweise bei Schwarze (1988, S. 234)
nachgelesen werden.

Wir wollen hier den Varianztest für Beispiel 5.7 aufgreifen. Wir hatten die Stichpro-
benvarianzen s21 = 21,4 und s22 = 15,75 erhalten. Wir wählen ein vergleichsweise hohes
Signifikanzniveau von α = 0,2 und testen die Nullhypothese H0 : σ12 = σ22 .

Wir erhalten einen Nichtablehnungsbereich von


! #α $ # α $"
f ; n1 − 1; n2 − 1 ; f 1 − ; n1 − 1; n2 − 1 = [ f (0,1; 10; 8); f (0,9; 10; 8)]
2 2
 
1 1
= ; f (0,9; 10; 8) = ; 2,54] = [ 0,42; 2,54 .
f (0,9; 8; 10) 2,38
Im Anhang dieses Buches ist die F -Verteilung nur für α = 0, 025 tabelliert. Wir können
aber beispielsweise mit Excel Quantile der F -Verteilung erhalten. Allerdings müssen wir
beachten, dass wir anstatt der Wahrscheinlichkeit p den Wert 1 − p angeben müssen. Das
ist etwas unglücklich konzipiert.

Der Prüfwert auf Varianzhomogenität ist nun


s21 21,4
f= = ≈ 1,36.
s22 15,75
Unser Stichprobenwert fällt in den Nichtablehnungsbereich. Deshalb lehnen wir H0 nicht
ab und gehen von Gleichheit der Varianzen aus.

5.6 χ2 -Tests

5.6.1 Verteilungstest

In diesem Abschnitt geht es darum, zu prüfen, ob vorliegende Daten einer bestimmten


Verteilung entstammen.

Beispielsweise wird in einem Supermarkt die Zahl der Kunden erfasst, die in einer
Minute an eine bestimmte Kasse kommen. Könnte die Zahl der Kunden Poisson-
verteilt sein?
218 5 Hypothesentests

Für den Test eines Erwartungswertes wird die Normalverteilung des interessierenden
Merkmals gefordert. Könnten die Daten normalverteilt sein?

Ganz allgemein ausgedrückt lautet unsere Nullhypothese bezüglich der Verteilung eines
Merkmals
H0 : F = F0 . (5.17)
Wie schon der Begriff χ2 -Test andeutet, ist die Prüfgröße des Verteilungstests χ2 -verteilt.

Verteilungstest einer diskreten Zufallsvariablen

Wir wollen mit einem einfachen Beispiel beginnen.

Beispiel 5.10 Tatsächliche Verteilung der Zahl von Autos in einem Haus-
halt
Ein großer Autobauer gibt eine Studie über Lebensgewohnheiten und Autos in einem
EU-Land in Auftrag. Man ging bisher davon aus, dass 20 % der Haushalte dieses Lan-
des kein Auto besitzen, 50 % sollen ein Auto und 30 % zwei Autos haben. Kann von
dieser Verteilung der Autos weiterhin ausgegangen werden? Man hat hierzu 50 zufällig
ausgewählte Haushalte befragt.

Wenn diese prozentuale Aufteilung immer noch gültig ist, müssten beispielsweise in der
Stichprobe auch ca. 20 % der Befragten kein Auto haben. Das sind ca. 0,2 · 50 = 10 Per-
sonen. Wir nennen das die erwartete Häufigkeit. Entsprechend müssten in der Stichprobe
ca. 25 Haushalte ein Auto und ca. 15 Haushalte zwei Autos besitzen.

Für die methodische Vorgehensweise definieren wir eine diskrete Zufallsvariable X: Zahl
der Autos in einem Haushalt. X hat die drei Ausprägungen xj (j = 1, . . . , m), nämlich
x1 = 0, x2 = 1 und x3 = 2. Damit erhalten wir drei Kategorien j, die in Tabelle 5.2
zusammen mit weiteren Ergebnissen aufgeführt sind. Die unter H0 behaupteten Wahr-
scheinlichkeiten der Ausprägungen sind P (X = xj ). Wir nennen sie ganz schnörkellos Pj ,
die Wahrscheinlichkeit in der Kategorie j. Diese Bezeichnungsweise ist die einfachste für
die verschiedenen Arten der Verteilungen, die wir testen wollen. Die Pj (j = 1, 2, . . . , m)
summieren sich zu eins:
P1 + P2 + . . . + Pm = 1.
Die erwarteten Häufigkeiten, wie sie idealerweise in der Stichprobe auftreten sollten,
ergeben sich dann als Ej = n · Pj („E“ wie „erwartet“).

Wir testen nun bei einem Signifikanzniveau α = 0,05 die Nullhypothese


allgemein: H0 : F = F0 ,
konkret: H0 : P1 = 0,2; P2 = 0,5; P3 = 0,3.
5.6 χ2 -Tests 219

Tab. 5.2: Erwartete und beobachtete Häufigkeiten der Haushalte mit Autos.

Kategorie Ausprägung Wahrschein- erwartete beobachtetete


lichkeit Häufigkeit Häufigkeit
j xj Pj Ej nj
P (X = xj ) n · Pj
1 0 0,2 10 13
2 1 0,5 25 19
3 2 0,3 15 18

Für die Stichprobe befragen wir die Haushalte. Die Zahl der Haushalte, die in eine Kate-
gorie j fallen, sind wie gewohnt die absoluten Häufigkeiten nj . Wir nennen sie beobachtete
Häufigkeiten. Es hatten in der Stichprobe n1 = 13 Haushalte kein Auto, n2 = 19 Haus-
halte ein und n3 = 18 Haushalte zwei Autos.

Wie könnten wir bei der Prüfung vorgehen? Wenn die Abstände zwischen den beob-
achteten Häufigkeiten nj und den erwarteten Häufigkeiten Ej klein sind, würde das H0
unterstützen. Zur Ablehnung würden große Abweichungen der beobachteten Häufigkeiten
von den erwarteten führen. Für diese Differenzen lässt sich der Prüfwert

m
(nj − Ej )
2
y= (5.18)
Ej
j=1

angeben, dessen Zufallsvariable Y näherungsweise χ2 -verteilt ist mit m − 1 Freiheitsgra-


den, falls keine Verteilungsparameter geschätzt wurden. Wir sehen, dass H0 abgelehnt
wird, wenn die Differenzen groß werden, das heißt, wenn auch y groß wird. Wir lehnen
also H0 ab, wenn y > χ2 (1 − α; m − 1) ist, hier χ2 (0,95; 2) = 5,99.

Nun berechnen wir den Prüfwert. Der Ablauf findet sich in Tabelle 5.3. Es werden erst
die Differenzen nj − Ej ermittelt, die dann quadriert werden. Schließlich wird noch durch
die erwarteten Häufigkeiten geteilt. Die Summe über die letzte Spalte ergibt dann den
gesuchten Wert 2,94.

Tab. 5.3: Berechnungsschema für den Verteilungstest: Haushalte mit Autos.


(nj −Ej )2
j xj Pj Ej nj nj − Ej (nj − Ej )2 Ej

1 0 0,2 10 13 3 9 0,9
2 1 0,5 25 19 −6 36 1,44
3 2 0,3 15 18 3 9 0,6
Summe 1 50 50 2,94

Wie sieht es mit der Entscheidung aus? Der Stichprobenwert 2,94 ist kleiner als 5,99. H0
wird also nicht abgelehnt.
220 5 Hypothesentests

Wir können den gezeigten Test für häufbare Merkmale aller Skalenniveaus analog an-
wenden, also für nominal skalierte, ordinal skalierte oder metrische diskrete Merkmale.
In Abschnitt 1.2.2 können wir die Begrifflichkeiten noch einmal nachlesen.

Häufig sind uns die Verteilungsparameter nicht bekannt. Diese müssen wir schätzen. Es
geht uns pro geschätztem Parameter ein Freiheitsgrad verloren, sodass die Prüfgröße Y
dann χ2 -verteilt ist mit m − k − 1 Freiheitsgraden, wobei k die Zahl der geschätzten
Parameter angibt.

Damit die Prüfgröße Y näherungsweise als χ2 -verteilt angenommen werden kann, dürfen
die Häufigkeiten nicht zu klein werden. Eine Faustregel besagt, dass keine erwartete
Häufigkeit Ej kleiner als 1 und höchstens 1/5 aller erwarteten Häufigkeiten kleiner als
5 sein soll. Kann diese Bedingung mit der vorliegenden Klasseneinteilung nicht erfüllt
werden, sollten andere Klassen gebildet werden, oder es werden mehrere benachbarte
Klassen zu einer zusammengefasst, damit die erwartete Häufigkeit groß genug ist.

Verteilungstest einer stetigen Zufallsvariablen

Mit dem χ2 -Test können auch Verteilungstests für stetige Verteilungen durchgeführt
werden.

Die Beobachtungen werden in m Klassen eingeteilt, die hier analog zu oben Kategorien
genannt werden. Die absoluten Häufigkeiten nj (j = 1, . . . , m), die wir aus der deskrip-
tiven Statistik (Seite 18) kennen, sind die beobachteten Häufigkeiten.

Sodann wird die Wahrscheinlichkeit ermittelt, dass die Zufallsvariable X in das entspre-
chende Klassenintervall [ xuj ; xoj ] fällt. Es ergibt sich

Pj = P (xuj ≤ X ≤ xoj ) = F (xoj ) − F (xuj ),

wobei F (x) die Verteilungsfunktion der stetigen Zufallsvariablen X ist. Die erwartete
Häufigkeit wird wieder als Ej = n · Pj berechnet.

Beispiel 5.11 Bildungsindikator für 51 US-Bundesstaaten


In einer Studie zur Kriminalität in US-Bundesstaaten wurde unter anderem der pro-
zentuale Anteil der mindestens 25-jährigen mit einem Bachelorabschluss oder höher
erfasst. Es liegen in Tabelle 5.4 die Daten für 51 Bundesstaaten vor.

Definieren wir den Bildungsindikator in der Grundgesamtheit als Zufallsvariable X. Von


den Daten wurde mit dem Auswertungsprogramm Minitab ein Histogramm nebst dar-
über gelegter Normalverteilungskurve erstellt. Wir entnehmen der Abbildung 5.10, dass
die Daten für die Säulenbildung des Histogramms in 3 %-Intervalle eingeteilt wurden. Die
Intervallbildung war 12 ≤ x < 15, 15 ≤ x < 18 usw. Diese Einteilung übernehmen wir
5.6 χ2 -Tests 221

Tab. 5.4: Bildungsindikator für 51 US-Bundesstaaten

14,8 16,7 16,9 17,1 18,2 18,7 19,0 19,4 19,6 20,3 24,3
21,1 21,2 21,5 21,6 21,7 21,8 21,9 22,0 22,3 22,4 33,2
22,5 22,9 23,2 23,5 23,5 23,7 24,3 24,4 24,7 25,0 27,4
25,6 25,8 26,1 26,1 26,2 26,6 27,4 27,4 27,7 28,7 23,2
29,5 29,8 31,4 31,4 32,7 33,2 39,1

versuchsweise und prüfen, ob das Merkmal X normalverteilt ist. Da wir keine Ahnung
haben, welche Verteilungsparameter wir nehmen sollen, verwenden wir der Einfachheit
halber die entsprechenden Schätzungen. Wie uns Abbildung 5.10 verrät, sind x = 24,08
und s = 4,75.

nj

16 Mittelwert 24,08
Standardabweichung 4,75
14 n = 51

12

10

0
12 15 18 21 24 27 30 33 36 39 42
Bildung x

Abb. 5.10: Histogramm der Akademikerquote (%) von über 25jährigen in US-Bundesstaaten.

Die Daten wurden nun in die Klassen eingeteilt, wie sie im Histogramm ersichtlich sind.
Da zwischen 33,2 und 39,1 eine Kategorienlücke ist, wurde der einzelne Wert 39,1 zur
letzten Klasse dazugeschlagen. Wenn wir die erwarteten Häufigkeiten berechnen wollen,
müssen wir die äußeren Randklassen offenlassen, denn die Normalverteilung ist ja für
−∞ < x < ∞ definiert. Die erforderlichen Schritte können in Tabelle 5.5 mitverfolgt
werden.

Zuerst bestimmen wir die Normalverteilungswerte. Wir berechnen für die erste Klasse
bzw. Kategorie: P (X ≤ 0,15). Wir müssen nämlich die Normalverteilung für x-Werte ab
−∞ beginnen lassen. Es ist

15 − 24,08
P (X ≤ 15) = Φ = 0,0280.
4,75
222 5 Hypothesentests

Tab. 5.5: Erste Kategorieneinteilung der Akademikerquoten anhand des Histogramms.

(a) (b) (c) (d) (e) (f) (g) (h)


j xu xo nj F (xu ) F (xo ) Pj Ej
1 −∞ 15 1 0,028 0,028 1,4
2 15 18 3 0,028 0,1003 0,0723 3,7
3 18 21 7 0,1003 0,2584 0,1581 8,1
4 21 24 17 0,2584 0,4933 0,2349 12
5 24 27 11 0,4933 0,7306 0,2374 12,1
6 27 30 7 0,7306 0,8937 0,163 8,3
7 30 33 3 0,8937 0,9698 0,0761 3,9
8 33 ∞ 2 0,9698 0,0302 1,5
Summe 51 1 51
mit den Spalten
(a): Klassennummer; (b): Klassenuntergrenze; (c): Klassenobergrenze; (d): beobachtete Häufigkeit; (e):
P (X ≤ xuj ); (f): P (X ≤ xoj ) ; (g): hypothetische Wahrscheinlichkeit; (h): erwartete Häufigkeit

Es müssten also ca. 3 % aller Staaten eine Akademikerquote von höchstens 15 haben. In
der zweiten Kategorie müssen wir die Wahrscheinlichkeit ermitteln, dass ein Staat eine
Akademikerquote zwischen 0,15 und 0,18 hat, also

18 − 24, 08 15 − 24, 08
P (15 ≤ X ≤ 18) = Φ −Φ = 0, 1003 − 0, 0280 = 0, 0723.
4, 75 4, 75
In der dritten Kategorie müssen wir die Wahrscheinlichkeit ermitteln, dass ein Staat eine
Akademikerquote zwischen 0,18 und 0,21 hat, also

21 − 24,08 18 − 24,08
P (18 ≤ X ≤ 21) = Φ −Φ = 0,2584 − 0,1003 = 0,1581.
4,75 4,75
usw. Für die letzte, also achte Kategorie, werden wir wieder die ganze Fläche unter dem
Dichtefunktionsgraph ab 0,33 bis ∞ berechnen mit

33 − 24,08
P (X ≥ 33) = 1 − P (X ≤ 33) = 1 − Φ = 1 − 0,9698 = 0,0302.
4,75
In Abbildung 5.11 sind die erwarteten Wahrscheinlichkeiten für die gewählten Klassen
dargestellt.

Für die erwartete Häufigkeit müssen wir die Wahrscheinlichkeiten mit n multiplizieren.
Die Ergebnisse sind in Spalte (h) der Tabelle 5.5 aufgeführt. Wir sehen, dass vier Ka-
tegorien eine erwartete Häufigkeit von unter 5 haben. Das sind zu viele! Wie wir auf
Seite 220 nachlesen können, darf bei acht Kategorien höchstens eine fünf unterschreiten.
Also werden wir die beiden ersten und die beiden letzten Kategorien verschmelzen. Wir
erhalten nun in Tabelle 5.6 sechs Kategorien. Abbildung 5.12 zeigt die neue Aufteilung
der Klassen und ihre Wahrscheinlichkeiten Pj .
5.6 χ2 -Tests 223

74
49

0,23
0,23
81

30
0,15

0,16
23

61
80

0,07

02
0,07
0,02

0,03
8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40

Abb. 5.11: Aufteilung der Kategorien nach dem vorgegebenen Histogramm.

Tab. 5.6: Endgültige Kategorieneinteilung der Akademikerquoten und Berechnung des Prüf-
werts.

j xu xo nj F (xu ) F (xo ) Pj Ej (a) (b) (c)


1 −∞ 18 4 ≈0 0,1003 0,1003 5,1 −1,1 1,21 0,24
2 18 21 7 0,1003 0,2584 0,1581 8,1 −1,1 1,21 0,15
3 21 24 17 0,2584 0,4933 0,2349 12 5 25 2,08
4 24 27 11 0,4933 0,7306 0,2374 12,1 −1,1 1,21 0,1
5 27 30 7 0,7306 0,8937 0,163 8,3 −1,3 1,69 0,2
6 30 ∞ 5 0,8937 ≈1 0,1063 5,4 −0,4 0,16 0,03
Summe 51 1 51 2,8
mit den Spalten
(a): nj − Ej ; (b): (nj − Ej )2 ; (c): (nj − Ej )2 /Ej
74
49

0,23
0,23
81

30
0,15

0,16
03

63
0,10

0,10

8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40

Abb. 5.12: Neue Kategorien nach dem Zusammenfassen von Randklassen.


224 5 Hypothesentests

Wir berechnen wieder wie oben die hypothetischen Wahrscheinlichkeiten mit ihren er-
warteten Häufigkeiten. Dann bilden wir die Differenzen zwischen beobachteter und er-
warteter Häufigkeit, quadrieren die Differenz und teilen durch die erwartete Häufigkeit.
Die Summe ergibt 2,8.

Die Prüfgröße Y ist χ2 -verteilt mit m − k − 1 Freiheitsgraden. Es sind sechs Kategorien


übrig geblieben, es wurden k = 2 Parameter, nämlich μ und σ, geschätzt. Also hat Y
6 − 2 − 1 = 3 Freiheitsgrade. Der kritische Wert für die Ablehnung ist χ2 (0,95; 3) = 7,81.
Da 2,8 < 7,81 ist, kann H0 nicht abgelehnt werden.

Wollen wir durch die Nichtablehnung der Nullhypothese bestätigt wissen, dass die Daten
normalverteilt sind, sollten wir den Ablehnungsbereich größer wählen, zum Beispiel α =
0,2. Wir würden hier den kritischen Wert χ2 (0,8; 3) = 4,64 erhalten. Damit würde H0
ebenfalls nicht abgelehnt werden, und wir könnten die Daten als normalverteilt vermuten.

Test auf Vorliegen bestimmter Wahrscheinlichkeiten

Eigenschaft der Variablen (Skalenniveau):

Häufbare Variable: Die Wahrscheinlichkeiten Pj für Ausprägungen eines häufbaren


Merkmals liegen in m vielen Kategorien j (j = 1, 2, . . . , m) vor.
Die Nullhypothese lautet:
H0 : Die Wahrscheinlichkeit für die j-te Ausprägung der Variablen beträgt Pj .

Stetige Zufallsvariable: Alle möglichen Ausprägungen der stetigen Zufallsvariablen


X werden in m Klassen zusammengefasst.
Die Nullhypothese lautet
H0 : Die Wahrscheinlichkeit, dass X in die jte Klasse fällt, beträgt Pj .
Dabei ist Pj = (Fo j)−F (uj ) mit F als Verteilungsfunktionswert der Zufallsvariablen
und oj bzw. uj als Klassenunter- bzw. Klassenobergrenze des Klassenintervalls j.

Weiteres Testverfahren:

Die erwartete Häufigkeit ist Ej = n · Pj . Für den Test wird der Prüfwert


m
(nj − Ej )
2
y= (5.19)
Ej
j=1

berechnet, wobei nj die beobachteten Häufigkeiten der Stichprobe in einer Kategorie


sind.

Die Nulhypothese wird abgelehnt, wenn y > χ2 (1−α; m−k−1) ist. Dabei bezeichnet
y > χ2 (1 − α; m − k − 1) das (1 − α)-Quantil der χ2 -Verteilung mit m − k − 1
Freiheitsgraden. k ist die Zahl der Parameter, die geschätzt worden sind.
5.6 χ2 -Tests 225

Stichprobengröße:
Außerdem gilt die Faustregel: Keine erwartete Häufigkeit Ej darf kleiner als 1 und
höchstens 1/5 aller erwarteten Häufigkeiten dürfen kleiner als 5 sein. Mit der Ver-
einigung benachbarter Kategorien kann man größere Ej -Werte erreichen.

Bemerkung: Es gibt noch weitere gebräuchliche Verteilungstests, etwa den Kolmogoroff-


Smirnoff-Test. Er ist eher für kleine Stichproben geeignet. Näheres findet sich beispiels-
weise bei Schwarze (1988, S. 252 ff.).

5.6.2 Unabhängigkeitstest

Der Unabhängigkeitstest, auch Kontingenztest genannt, prüft, ob zwei Merkmale stochas-


tisch unabhängig sind. Wie schon die letztere Bezeichnung andeutet, verwenden wir hier-
für eine Kontingenztabelle. Dieser Test wird im Allgemeinen in einem Atemzug mit dem
Anpassungstest genannt, denn die Vorgehensweise ist ähnlich – wir vergleichen auch hier
die beobachteten Häufigkeiten mit den erwarteten und erhalten daraus eine χ2 -verteilte
Prüfgröße.

Beispiel 5.12 Ist der Blutdruck abhängig von der Händigkeit eines Men-
schen?
Professor Eso hat durch Pendeln herausgefunden, dass Linkshänder eher zu erhöhtem
Blutdruck neigen.

Es wurden in diesem Zusammenhang 2000 Personen befragt; davon waren 10 % Links-


händer (L). 30 % neigten zu erhöhtem Blutdruck (B). 70 Personen waren Linkshänder
und hatten erhöhten Blutdruck.

Um die These von Eso zu untersuchen, testen wir die Hypothese:

H0 : Die Ereignisse B und L sind stochastisch unabhängig.

Wenn diese Hypothese abgelehnt wird, könnte Eso Recht haben.

Es gilt in der Wahrscheinlichkeitsrechnung das Gesetz: Sind die Ereignisse B und L


stochastisch unabhängig, ist

P (L ∩ B) = P (L) · P (B).

Sind also L und B unabhängig, müsste im Idealfall in der Stichprobe der Anteil der
Personen, die Linkshänder sind und erhöhten Blutdruck haben, bei PLB = 0,3·0,1 = 0,03
liegen. PLB ist der erwartete Anteil, falls B und L stochastisch unabhängig sind. Wir
vergleichen den beobachteten Anteil der Linkshänder mit erhöhtem Blutdruck mit dem
226 5 Hypothesentests

hypothetischen PLB , und ebenso die restlichen Ereignisse. Sind die Differenzen zu groß,
lehnen wir die Hypothese ab.

Um eine χ2 -verteilte Prüfgröße zu erhalten, müssen wir wieder die Anteile mit n multipli-
zieren. Wir wollen nun zuerst eine Kontingenztabelle mit den beobachteten Häufigkeiten
konstruieren. Rechnen wir die Anteile hoch, hatten 0,3 · 2000 = 600 Personen erhöhten
Blutdruck und 0,1 · 2000 = 200 Personen waren Linkshänder. In Tabelle 5.7 sind die
beobachteten Häufigkeiten zusammengefasst.

Tab. 5.7: Beobachtete Häufigkeiten von Linkshändern und Personen mit erhöhtem Blutdruck.

erhöhter Blutdruck normaler Blutdruck Summe


B B
Linkshänder L nLB nLB nL
70 130 200
Rechtsshänder L nLB nLB nL
530 1270 1800
Summe nB nB n
600 1400 2000

Dem hypothetischen Anteil PLB = 0,3 · 0,1 = 0,03 jedoch entspricht eine erwartete abso-
lute Häufigkeit
n L · nB 200 · 600
ELB = = = 120 .
n 2000
Wir müssen nämlich das Produkt der Häufigkeiten noch durch n teilen, weil sonst die Ver-
gleichbarbeit mit nLB nicht möglich ist. Diese und die restlichen erwarteten Häufigkeiten
finden wir in Tabelle 5.8.

Tab. 5.8: Erwartete Häufigkeiten von Linkshändern und Personen mit erhöhtem Blutdruck.

erhöhter Blutdruck normaler Blutdruck Summe


B B
Linkshänder L ELB ELB nL
60 140 200
Rechtsshänder L ELB ELB nL
540 1260 1800
Summe nB nB n
600 1400 2000
5.6 χ2 -Tests 227

Wir bilden nun wieder quadrierte Differenzen zwischen beobachteter und erwarteter Häu-
figkeit und teilen die Quadrate noch durch die erwarteten Häufigkeiten. Wir erhalten
damit den Stichprobenwert

(nLB − ELB )2 (n − ELB )2 (n − ELB )2 (n − ELB )2


+ LB + LB + LB
ELB ELB ELB ELB

(70 − 60)2 (130 − 140)2 (530 − 540)2 (1270 − 1260)2


= + + +
60 140 540 1260
= 1,67 + 0,71 + 0,19 + 0,08 = 2,65.

Der kritische Wert für die Ablehnung ist das (1 − α)-Quantil der χ2 -Verteilung mit
(m − 1) · (r − 1) Freiheitsgraden, wobei m die Zahl der Zeilen und r die Zahl der Spalten
der Kontingenztabelle darstellt. Das wäre in unserem Fall χ2 (0,8; (2 − 1) · (2 − 1)) =
χ2 (0,8; 1) = 1,64. Hier würde die Hypothese abgelehnt werden, dass B und L stochastisch
unabhängig sind. Eso würde triumphieren, und wir würden uns ärgern. Das Leben ist
eben manchmal gemein.

Test auf Unabhängigkeit zweier Variablen

Gegeben ist eine Kontingenztabelle mit m vielen Ereignissen j (j = 1, . . . , m) in


den Zeilen und r vielen Ereignissen k (k = 1, . . . , r) in den Spalten. Die Elemente
der Kontigenztabelle sind die beobachteten gemeinsamen Häufigkeiten njk und die
jeweiligen Randhäufigkeiten nk bzw. nj . Zu jeder beobachteten Häufigkeit njk wird
die erwartete Häufigkeit
n j · nk
Ejk = (5.20)
n
gebildet. Die Prüfgröße der Realisation


m 
r
(njk − Ejk )2
y= (5.21)
Ejk
j=1 k=1

ist näherungsweise χ2 -verteilt mit (m − 1)(r − 1) Freiheitsgraden.

Wenn y > χ2 (1 − α; (m − 1)(r − 1)) ist, wird die Hypothese abgelehnt.

Dieser Test kann für Daten aller Skalenniveaus verwendet werden. Bei einem stetigen
Merkmal müssen wieder analog zum Verteilungstest Klassen gebildet werden, deren Häu-
figkeiten in die Tabelle eingehen. Für die Mindestwerte der erwarteten Häufigkeiten ver-
wenden wir die Faustregel des Verteilungstests auf Seite 220.
228 5 Hypothesentests

5.7 Verteilungsfreie Tests

Bei verteilungsfreien Tests, auch parameterfreie Tests genannt, muss die Verteilung der
Prüfgröße nicht bekannt sein. Diese Tests sind vor allem bei kleinen Datenmengen re-
levant, deren Verteilung in der Grundgesamtheit unbekannt ist. Hier kann im Allge-
meinen wegen des kleinen Stichprobenumfangs die Normalverteilung nicht verwendet
werden. Allerdings sind diese Tests gröber und weniger trennscharf als die verteilungs-
gebundenen. Typischerweise werden die Daten der Größe nach geordnet, oder man ka-
tegorisiert sie, etwa durch Dichotomisieren. Die Ablehnungsbereiche werden dann mit-
hilfe der Kombinatorik oder ähnlich ermittelt. Es gibt gerade für den klinischen Be-
reich unzählige verteilungsfreie Tests, von denen aber hier nur die bekanntesten darge-
stellt werden. Eine umfangreiche Darstellung solcher Methoden finden wir beispielsweise
bei Bortz et al. 2008.

5.7.1 Vorzeichentest

Mit dem Vorzeichentest prüfen wir, ob eine Grundgesamtheit einen bestimmten Median
hat. Wir können beispielsweise testen:

H0 : x(0,5) = x0 (0,5).

Wie immer gehen wir davon aus, dass die Stichprobenentnahme zufällig erfolgt ist. Au-
ßerdem sollte das Merkmal in der Grundgesamtheit stetig verteilt sein. Wir wissen, dass
gerade bei stetigen Zufallsvariablen der Median die Fläche unter der Dichtefunktion hal-
biert. Wir könnten also die 50 % der Werte in der Grundgesamtheit, die unterhalb des
Medians liegen, mit einem Minus (−) und die Werte, die oberhalb des Medians liegen,
mit einem Plus (+) etikettieren. So haben wir eine Urne mit zwei Sorten Kugeln kon-
struiert, das heißt, wir haben die Grundgesamheit dichotomisiert. Wenn wir die Werte
mit Minus als Kugeln erster Sorte bezeichnen, ist der Anteilswert der Kugeln erster
Sorte θ = 0,5.

Nun wollen wir auch analog zur Grundgesamtheit die Stichprobe dichotomisieren. Unter
H0 bekommen die Werte der Stichprobe, die kleiner als x0 (0,5) sind, ein Minus. Wir
definieren die Zufallsvariable Y : Zahl der Minus bei einer Stichprobe von n. Y ist dann
unter H0 binomialverteilt mit den Parametern θ = 0,5 und dem Stichprobenumfang n.
Ist übrigens ein Datenwert genau gleich x0 (0,5), lassen wir ihn weg und reduzieren n um
Eins, denn wir betrachten nur Plus und Minus.

Wir überlegen, dass bei Gültigkeit von H0 der Anteil der Minus ungefähr bei 0,5 liegen
müsste. Wir können nun den aus Abschnitt 5.3.1 bekannten Test auf Anteilswert einer
dichotomen Grundgesamtheit verwenden. Die Binomialverteilung mit θ = 0,5 ist übrigens
5.7 Verteilungsfreie Tests 229

symmetrisch. Also sind bei einer Punkthypothese im unteren Ablehnungsbereich ebenso


viele Elemente wie im oberen. Falls H0 wahr ist, führt ein zu kleiner oder zu großer Wert
der Minus zur Ablehnung. In diesem speziellen Fall mit θ = 0,5 ist die Verwendung der
Plus äquivalent.

Wie gehen wir beispielsweise bei einer Hypothese H0 : x(0,5) ≤ x0 (0,5) mit α = 0,05 vor?
Nehmen wir etwa an, wir vermuten, dass der Median einer Zufallsverteilung x0 (0,5) = 20
ist. Falls in Wahrheit der Median 30 ist, müssten tendenziell mehr x-Werte, die größer als
20 sind, in der Stichprobe vorliegen, also ist die Zahl der Minus dann unter H0 klein. Eine
kleine Zahl von Minus führt demnach zur Ablehnung. Wir siedeln den Ablehnungsbereich
links an und geben den Ablehnungsbereich an als die Menge der y-Werte, für die P (Y ≤
y) = B(y|n; 0,5) ≤ 0,05 ist.

Beispiel 5.13
Die Tierärztin Christine befürchtet, dass mehr als die Hälfte der Hauskatzen in
Deutschland übergewichtig sind. Sie möchte einen Signifikanztest durchführen. Als
Maß für Übergewicht verwenden die Veterinäre den FBMI (Feline Body Mass Index),
der – grob vereinfacht ausgedrückt – das Verhältnis von Brustumfang und Beinlänge
misst. Ein FBMI von mehr als 30 zeigt Übergewichtigkeit der Katze an. Leider kennt
Christine die Verteilung des FBMI nicht. Also wendet sie den Vorzeichentest an. Sie
testet die Hypothese

H0 : x(0,5) ≤ 30.

Nun definiert sie die Zufallsvariable Y : Zahl der Katzen, die einen FBMI von weniger als
30 haben, in einer Stichprobe von n = 20. Y ist unter H0 binomialverteilt mit θ = 0,5
und n = 20.

Der Ablehnungsbereich liegt im linken Teil der y-Werte. Sie errechnet mithilfe von Excel:
P (Y ≤ 5) = 0,0207 und P (Y ≤ 6) = 0,0577. Da sie konservativ testet, wählt sie als
kritischen Wert 5. Der Ablehnungsbereich für y ist die Menge {0, 1, 2, 3, 4, 5}, das heißt,
die Nullhypothese wird abgelehnt, wenn die Zahl der Minus höchstens 5 beträgt.

Christine hat bei 20 Katzen in ihrer Praxis die Messwerte für den FBMI erhoben und
die folgenden Daten erhalten:

26 32 24 26 33 25 25 19 12 36 15 22 31 32 17 10 22 21 18 40

Sie weist nun allen Katzen mit einem FBMI von höchstens 30 ein Minus und dem Rest
ein Plus zu:

26 32 24 26 33 25 25 19 12 36 15 22 31 32 17 10 22 21 18 40
− + − − + − − − − + − − + + − − − − − +
230 5 Hypothesentests

Es ergeben sich y = 14 Minus. Die Nullhypothese wird nicht abgelehnt, denn y liegt nicht
im Ablehnungsbereich. Christine kann also nicht widerlegen, dass höchstens die Hälfte
der Katzen ein geringes bis normales Gewicht hat.

Vorzeichentest: Test des Medians

∗ Verteilung von X: stetig, ansonsten unbekannt,


∗ zu prüfender Kennwert: Median x(0,5).

Die Datenwerte werden bezüglich x0 (0, 5) dichotomisiert. Allen xi < x0 (0,5) wird
ein Minus zugeordnet. Für den Test wird die Zahl y der Minus verwendet.
Die Ablehnungsbereiche ergeben sich wie beim Test des Anteilswertes einer binomi-
alverteilten Zufallsvariablen (Seite 201 ff.):
Bei einer Mindesthypothese H0 : x(0,5) ≥ x0 (0,5) ist der Ablehnungsbereich die
Menge aller y-Werte, für die 1 − B(y − 1|n; 0,5) ≤ α ist.
Bei einer Höchsthypothese H0 : (0,5) ≤ x0 (0,5) ist der Ablehnungsbereich die
Menge aller y-Werte, für die unter H0 die Wahrscheinlichkeit P (Y ≤ y) =
B(y|n; 0,5) ≤ α ist.
Bei einer Punkthypothese H0 : x(0,5) = x0 (0,5) ist der Ablehnungsbereich die
Menge aller y-Werte, für die B(y|n; 0,5) ≤ α2 oder für die 1 − B(y − 1|n; 0,5) ≤ α2
ist.

Es ist auch möglich, neben dem Median andere Quantile x(p) zu testen. Für die Zuwei-
sung der Minus wird analog zu oben die Differenz xi − x0 (p) ermittelt. Es wird hier die
Binomialverteilung mit θ = p als Stichprobenverteilung verwendet. Die Entscheidung ge-
staltet sich analog zum Mediantest. Näheres können wir beispielsweise bei Schira (2003,
S. 551 f.) nachlesen.

Bemerkungen:

Der Vorzeichentest verursacht durch das Dichotomisieren einen hohen Informations-


verlust an Daten und ist daher wenig trennscharf.
Ist bekannt, dass die Grundgesamtheit symmetrisch verteilt ist, kann der Vorzeichen-
test auf den Median auch als Test auf den Erwartungswert des Merkmals in der Grund-
gesamtheit verwendet werden.

Der Vorzeichentest wird neben dem Test eines Quantils auch als Test für den Vergleich
der Verteilungen zweier verbundener Stichproben verwendet. Was bedeutet das? Laienhaft
dargestellt sind zwei Stichproben verbunden, wenn sie als n Wertepaare (xi , yi ) erhoben
werden. Ist die Verteilung des Merkmals X und des Merkmals Y in der Grundgesamtheit
gleich, werden die Datenpaare nicht genau gleich sein, aber mal wird x > y und mal
y > x sein. Es müsste also in der Regel etwa die Hälfte der xi < yi sein. X und Y sind
stetig verteilt Die Entnahme hat für jedes Paar unabhängig stattgefunden.
5.7 Verteilungsfreie Tests 231

Wir testen die Hypothese:

H0 : Die Verteilungen von X und Y sind gleich bzw.


H0 : P (X − Y < 0) = 0,5 und P (Y − X < 0) = 0,5.

Es liegen n Wertepaare (xi , yi ) vor. Davon werden die Differenzen di = xi − yi ermittelt.


Ist di < 0, bekommt di ein Minus zugewiesen, ist di > 0, bekommt di ein Plus zugewiesen.
Ist dagegen di = 0, wird die Beobachtung aus dem Datensatz entfernt. n wird für jedes
di = 0 um eins erniedrigt. Wir definieren eine Zufallsvariable D als Zahl der Plus. Unter
H0 ist D binomialverteilt mit dem Anteilswert θ = 0,5.

Beispiel 5.14 Entwicklung der Kriminalitätsrate in US-Bundesstaaten


Wir wollen untersuchen, ob die Rate für Mord und schweren Totschlag (Zahl der
Verbrechen auf 100 000 Einwohner), kurz „Kriminalitätsrate“ genannt, in 51 Staaten
der USA von 2003 bis 2006 die gleiche Verteilung beibehalten hat (Quellen: US Bureau
of Justice Statistics und US Census Bureau).

Wir testen bei einem Signifikanzniveau α = 0,05 die Hypothese:

H0 : Die Verteilung der Kriminalitätsrate des Jahres 2003 ist die gleiche wie
die des Jahres 2006.

In Tabelle 5.9 sind für die 51 Bundesstaaten die Raten für die beiden Jahre 2003 (Variable
x) und 2006 (Variable y) aufgeführt. Es folgen die Differenzen di und die Vorzeichen von
di . Bei vier Staaten ist die Differenz null; diese Werte werden nicht berücksichtigt. n
reduziert sich um vier auf 47. Es sind 24 Plus gezählt worden.

Die Prüfgröße D ist unter H0 binomialverteilt mit den Parametern n = 47 und θ = 0,5.
Die Nullhypothese wird dann abgelehnt, wenn die Realisation d sehr groß oder sehr klein
wird. Es ist bei α/2 = 0,025 P (D ≤ 16) = 0,0200 und P (D ≤ 17) = 0,0395. Ebenso ist
P (D ≥ 30) = 0,0395 und P (D ≥ 31) = 0,0200. Wir nehmen also die beiden Werte, die
außen liegen und legen fest: Die Nullhypothese wird abgelehnt, wenn d ≤ 16 oder d ≥ 31
ist.

Bemerkung: Die Ablehnungsbereiche wurden exakt mithilfe der Binomialverteilung er-


mittelt. Ebenso hätten wir aber wegen des großen Stichprobenumfangs auch eine Nähe-
rung mithilfe der Normalverteilung verwendet können.

d = 24 liegt im Nichtablehnungsbereich, und die Hypothese wird nicht abgelehnt. Wir


können also nicht davon ausgehen, dass sich die Verteilung der Mordrate verändert hat.
232 5 Hypothesentests

Tab. 5.9: Kriminalitätsrate von 2003 und 2006 der USA-Bundesstaaten.

Nr. Staat 2003 2006 Differenz Vorzeichen


i xi yi di = xi − yi von di

1 Alabama 6,6 8,3 −1,7 −


2 Alaska 6 5,4 0,6 +
3 Arizona 7,9 7,5 0,4 +
4 Arkansas 6,4 7,3 −0,9 −
5 California 6,8 6,8 0 0
6 Colorado 3,9 3,3 0,6 +
7 Connecticut 3 3,1 −0,1 −
8 Delaware 2,9 4,9 −2 −
9 District Of Columbia 44,2 29,1 15,1 +
10 Florida 5,4 6,2 −0,8 −
11 Georgia 7,6 6,4 1,2 +
12 Hawaii 1,7 1,6 0,1 +
13 Idaho 1,8 2,5 −0,7 −
14 Illinois 7,1 6,1 1 +
15 Indiana 5,5 5,8 −0,3 −
16 Iowa 1,6 1,8 −0,2 −
17 Kansas 4,5 4,6 −0,1 −
18 Kentucky 4,6 4 0,6 +
19 Louisiana 13 12,4 0,6 +
20 Maine 1,2 1,7 −0,5 −
21 Maryland 9,5 9,7 −0,2 −
22 Massachusetts 2,2 2,9 −0,7 −
23 Michigan 6,1 7,1 −1 −
24 Minnesota 2,5 2,4 0,1 +
25 Mississippi 9,3 7,7 1,6 +
26 Missouri 5 6,3 −1,3 −
27 Montana 3,3 1,8 1,5 +
28 Nebraska 3,2 2,8 0,4 +
29 Nevada 8,8 9 −0,2 −
30 New Hampshire 1,4 1 0,4 +
31 New Jersey 4,7 4,9 −0,2 −
32 New Mexico 6 6,8 −0,8 −
33 New York 4,9 4,8 0,1 +
5.7 Verteilungsfreie Tests 233

Tab. 5.9: Kriminalitätsrate von 2003 und 2006 der USA-Bundesstaaten.

Nr. Staat 2003 2006 Differenz Vorzeichen


i xi yi di = xi − yi von di

34 North Carolina 6,1 6,1 0 0


35 North Dakota 1,9 1,3 0,6 +
36 Ohio 4,6 4,7 −0,1 −
37 Oklahoma 5,9 5,8 0,1 +
38 Oregon 1,9 2,3 −0,4 −
39 Pennsylvania 5,3 5,9 −0,6 −
40 Rhode Island 2,3 2,6 −0,3 −
41 South Carolina 7,2 8,3 −1,1 −
42 South Dakota 1,3 1,2 0,1 +
43 Tennessee 6,8 6,8 0 0
44 Texas 6,4 5,9 0,5 +
45 Utah 2,5 1,8 0,7 +
46 Vermont 2,3 1,9 0,4 +
47 Virginia 5,6 5,2 0,4 +
48 Washington 3 3 0 0
49 West Virginia 3,5 4,1 −0,6 −
50 Wisconsin 3,3 3 0,3 +
51 Wyoming 2,8 1,7 1,1 +

Summe d = 24

Vorzeichentest: Vergleich von zwei Verteilungen

∗ Verteilung von X und Y : stetig, ansonsten unbekannt,


∗ zu prüfen: Gleichheit der Verteilungen: F (x) = F (y),
∗ verbundene Stichprobe: Merkmale liegen als Wertepaare (xi ; yi ) vor.

Zu prüfen ist die Hypothese:

H0 : Die Verteilungen von X und Y sind gleich bzw.


H0 : P (X − Y < 0) = 0,5 und P (Y − X < 0) = 0,5.

Es liegen n Wertepaare (xi , yi ) vor. Ist die Differenz di = xi − yi kleiner als null,
bekommt di ein Minus zugewiesen, ist di > 0, ein Plus. Die Zufallsvariable D als
Zahl der Plus ist unter H0 binomialverteilt mit dem Anteilswert θ = 0,5.
234 5 Hypothesentests

Der Ablehnungsbereich für H0 : „Die Verteilungen von X und Y sind gleich“ ist die
Menge aller d-Werte, für die B(d|n; 0,5) ≤ α2 oder für die 1 − B(d − 1|n; 0,5) ≤ α2
ist. Dieser Ablehnungsbereich entspricht dem Test des Anteilswerts einer binomial-
verteilten Zufallsvariablen (Abschnitt 5.3.1).

5.7.2 Wilcoxon-Mann-Whitney-Test

Mithilfe des Wilcoxon-Mann-Whitney-Tests, häufig auch Mann-Whitney-U -Test, Wil-


coxon-Rangsummentest oder kurz U -Test genannt, können wir anhand von zwei unab-
hängigen Stichproben prüfen, ob die zugrunde liegenden Verteilungen gleich sind. Die-
ser Test wurde von Henry Mann und Donald Whitney als sogenannter U -Test und als
Rangsummentest von Frank Wilcoxon entwickelt. Beide sind inhaltlich äquivalent und
unterscheiden sich nur geringfügig in der Prüfgröße.

Bemerkung: In diesem Abschnitt wird zwischen Schätzfunktion als Zufallsvariabler und


Realisation der Stichprobe bezüglich der Groß- und Kleinschreibung nicht unterschieden.
Beides wird großgeschrieben. So wird meistens in der gängigen Literatur vorgegangen.
Damit wird die Darstellung des Verfahrens etwas vereinfacht.

Bei zwei unabhängigen Stichproben testen wir die Hypothese, dass die den Grundgesamt-
heiten zugrunde liegenden Verteilungen gleich sind. Wir gehen also von zwei Zufallsva-
riablen X und Y aus, die stetig verteilt sein sollen. Wir testen die Hypothese:

H0 : F (x) = F (y).

Es liegt für X eine Stichprobe im Umfang n1 und für Y eine Stichprobe im Umfang n2
vor. Wir definieren n = n1 + n2 .

Die Konzeption des Tests ist, dass zunächst beide Stichproben zu einer zusammengefasst
werden. Sodann werden den Daten Ränge zugeordnet. Sind nun beide Verteilungen gleich,
müssten die Ränge gleichmäßig auf beide Stichproben verteilt sein. Es sollten also in
beiden Stichproben sowohl kleine als auch große Ränge vorhanden sein. Addiert man die
Ränge pro Stichprobe, sollte unter H0 im Mittel die Summe der Ränge n1 2· n2 betragen.

Bemerkung: Die methodische Idee ist, jeden x-Wert mit jedem y-Wert zu vergleichen
und die Zahl U aller positiven Unterschiede x − y > 0 zu zählen. Unter H0 sollte im
Mittel die Zahl aller positiven Unterschiede n1 2· n2 betragen. Die Verteilung von U unter
H0 wird mithilfe der Kombinatorik ermittelt. Der Ablehnungsbereich ergibt sich dann
nach dem Prinzip des konservativen Testens. Dem Statistikgott sei gedankt, dass sich U
auch erheblich einfacher ermitteln lässt, nämlich mithilfe von Rangzahlen der Beobach-
tungswerte.
5.7 Verteilungsfreie Tests 235

Beispiel 5.15 Neues Experiment zur Wirksamkeit eines Nikotin-Entwöhnun


Wir wollen zur Demonstration inhaltlich auf Beispiel 5.7 zurückgreifen. Es wurde dort
ein Medikament zur Nikotinentwöhnung verabreicht, wobei n1 = 11 Personen das
Medikament erhielten und n2 = 9 ein Placebo. Mit diesen Patienten wurde ein zweiter
Versuch gestartet, wobei wieder elf zufällig ausgewählte Personen das Medikament
und neun Personen das Placebo erhielten. Es wurde nun pro Person die Gesamtzahl
der innerhalb von 14 Tagen gerauchten Zigaretten erhoben. Zur Sicherheit nahm man
die Verteilung der Gesamtzahl als unbekannt an. Es sollte untersucht werden, ob die
Verteilung der gerauchten Zigaretten sich durch die Medikamentierung ändert.

Man erhielt folgende Daten:

Medikament xi 450 273 363 393 404 348 268 360 389 380 420
Placebo yj 525 448 272 402 394 320 408 451 445

Nun wollen wir beide Stichproben zu einer zusammenfassen und den Werten Rangzahlen
zuordnen. In Tabelle 5.10 enthält die linke Spalte die x- und y-Werte zusammengefasst.
In der zweiten Spalte stehen die Ränge. Sie wurden aufsteigend geordnet, das heißt, 268
ist der kleinste Wert und bekommt Rang 1, 272 ist der zweitkleinste Wert und bekommt
den Rang 2 usw.

Wir summieren nun die Rangzahlen der ersten Stichprobe auf und nennen die Summe
R1 . Ensprechend verfahren wir mit den Rangzahlen der zweiten Stichprobe. Aus den
beiden Rangsummen R1 = 95 und R2 = 115 ermitteln wir die Größen

n1 · (n1 + 1)
U1 = n1 · n2 + − R1
2
und
n2 · (n2 + 1)
U2 = n1 · n2 + − R2 ,
2
wobei wir uns die Rechnerei vereinfachen können, weil gilt

U2 = n1 · n2 − U1 .

Wir erhalten also


11 · 12
U1 = 11 · 9 + − 95 = 99 + 66 − 95 = 70
2
und

U2 = 11 · 9 − 70 = 29.
236 5 Hypothesentests

Tab. 5.10: Medikament zur Nikotinentwöhnung: Daten und ihre Ränge.

Datenwerte Rang aller Rang von x Rang von y


Datenwerte
450 18 18
273 3 3
363 7 7
393 10 10
404 13 13
348 5 5
268 1 1
360 6 6
389 9 9
380 8 8
420 15 15
525 20 20
448 17 17
272 2 2
402 12 12
394 11 11
320 4 4
408 14 14
451 19 19
445 16 16
Summe 210 95 115
R1 R2

Wir wählen aus U1 und U2 als Testwert den kleineren Wert U = 29.

Wie ist die zu U gehörende Zufallsvariable verteilt? Im Prinzip kann die Verteilung der
Rangsummen mithilfe der Kombinatorik ermittelt werden. Da die Berechnung umständ-
lich ist, liegen die kritischen Werte für die Ablehnung tabelliert vor, meistens für ausge-
wählte n1 und n2 bis 20. Auf Seite 324 sind die kritischen Werte vertafelt. Für sehr kleine
Stichprobenumfänge ist der Ablehnungsbereich für ein bestimmtes α teilweise sehr grob
oder gar nicht vorhanden. Allerdings kann hier die exakte Wahrscheinlichkeitsfunktion
von U angegeben werden. Eine Tabelle dafür findet sich beispielsweise bei Bortz (2005,
S. 826).

Tabelle A.5 ist symmetrisch bezüglich n1 und n2 , daher genügt die Angabe des oberen
5.7 Verteilungsfreie Tests 237

Dreiecks der Tabelle. Ist U kleiner oder gleich dem angegebenen kritischen Wert, wird
die Nullhypothese abgelehnt.

Nun suchen wir in Tabelle A.5 den kritischen Wert. Da unter H0 die Verteilung von
U symmetrisch ist, ist der kritische Wert für n1 = 11 und n2 = 9 der gleiche wie für
n1 = 9 und n2 = 11. Wir lesen hier den Wert 23 ab. Es ist U = 9 > 23, und wir
können daraus schließen, dass der Zigarettenkonsum zwischen den Therapierten und den
Placeboempfängern sich nicht unterscheidet.

Wilcoxon-Mann-Whitney-Test für den Vergleich der Verteilung zweier


unabhängiger Stichproben

∗ Verteilung von X und Y : stetig, ansonsten unbekannt,


∗ zu prüfen: Gleichheit der Verteilungen: F (x) = F (y),
∗ unabhängige Stichproben: n1 viele Beobachtungen xi (i = 1, . . . , n1 ) und n2 viele
Beobachtungen yj (j = 1, . . . , n2 ).

1. Es liegen zwei Beobachtungsreihen xi und yj zweier unverbundener Stichproben


im Umfang von n1 und n2 vor. Die Beobachtungen sind zufällige Entnahmen aus
stetigen Grundgesamtheiten.
2. Die beiden Stichproben werden zu einer mit n = n1 + n2 zusammengefasst.
3. Den Datenwerten werden Ränge zugewiesen. Treten mehrfach gleiche Werte (Bin-
dungen) auf, wird ihnen der mittlere Rang zugewiesen.
4. Es werden nun die Summe R1 der Ränge aus der ersten Stichprobe und die
Summe R2 der Ränge aus der zweiten Stichprobe ermittelt.
5. Für die Prüfgröße werden

n1 · (n1 + 1)
U1 = n1 · n2 + − R1 (5.22)
2
und
n2 · (n2 + 1)
U2 = n1 · n2 + − R2 (5.23)
2
berechnet, wobei gilt:

R2 = (n)(n + 1)/2 − R1 (5.24)

und

U2 = n1 n2 − U1 (5.25)

6. Die Prüfgröße U selbst ist der kleinere der Werte U1 und U2 .


238 5 Hypothesentests

7. Für n1 , n2 ≤ 20 und α = 0,05 sind die kritischen Werte Uα für U in Tabelle A.5
vertafelt. Dabei ist so vorzugehen:
Ist U ≤ Uα , wird die Hypothese Fx = Fy beim Signifikanzniveau α = 0,05
abgelehnt.
Es ist Uα von (n1 ; n2 ) das gleiche wie von (n2 ; n1 ).
8. Sind n1 oder n2 > 10, kann die Verteilung von U näherungsweise mithilfe der
Normalverteilung berechnet werden. Unter H0 ist
n1 · n2
E(U ) = (5.26)
2
und
n1 · n2 · (n1 + n2 + 1)
V (U ) = . (5.27)
12
Es ergibt sich die standardnormalverteilte Prüfgröße

U − E(U ) U − n12n2
Z=  =  . (5.28)
V (X) n1 n2 (n1 +n2 +1)
12

Fällt z in das Intervall [−1,96; 1,96], wird die Nullhypothese bei α = 0,05 nicht
abgelehnt.

Bemerkung: Weisen bekannterweise die Verteilungen von x und y den gleichen Vertei-
lungstyp auf, kann mithilfe des U -Tests auch geprüft werden, ob beide Merkmale den
gleichen Lageparameter besitzen.

Wir wollen nun ein Beispiel mit Bindungen in den Daten betrachten. Das heißt, es können
mehrfach gleiche Werte auftreten.

Beispiel 5.16 Gehalt von Männern und Frauen


Von den Absolventen einer Hochschule wurden 43 zufällig ausgewählt und nach dem
monatlichen Einstiegsgehalt (in e) ihrer ersten Arbeitsstelle befragt. n1 = 18 der
Befragten waren Männer und n2 = 25 Frauen. Wir fragen uns, ob das Einstiegsgehalt
x für Männer der gleichen Verteilung entstammt wie das Einstiegsgehalt y der Frauen.
In Tabelle 5.11 sind in der zweiten Spalte die einzelnen Werte getrennt nach männlich
und weiblich aufgeführt.

Wir wollen die Hypothese testen (α = 0,1):

H0 : F (x) = F (y).
5.7 Verteilungsfreie Tests 239

Tab. 5.11: Einstiegsgehälter von Männern und Frauen und ihre Rangzahlen.

Geschlecht Einstiegsgehalt Rang Rang Rang


(1 = männlich, e/Monat alle männlich weiblich
2 = weiblich)
1 1000 1 1
1 2000 4,5 4,5
1 2000 4,5 4,5
1 2400 10 10
1 2470 11,5 11,5
1 2500 15 15
1 2500 15 15
1 2500 15 15
1 2600 19 19
1 2650 21,5 21,5
1 2700 24,5 24,5
1 2800 26 26
1 2850 27 27
1 2930 30 30
1 3000 33 33
1 3270 39 39
1 3300 40 40
1 3600 42,5 42,5
2 1400 2 2
2 1600 3 3
2 2225 6 6
2 2250 7,5 7,5
2 2250 7,5 7,5
2 2360 9 9
2 2470 11,5 11,5
2 2500 15 15
2 2500 15 15
2 2600 19 19
2 2600 19 19
2 2650 21,5 21,5
2 2670 23 23
2 2700 24,5 24,5
2 2900 28 28
2 2916 29 29
240 5 Hypothesentests

Tab. 5.11: Einstiegsgehälter von Männern und Frauen und ihre Rangzahlen.

Geschlecht Einstiegsgehalt Rang Rang Rang


(1 = männlich, e/Monat alle männlich weiblich
2 = weiblich)
2 3000 33 33
2 3000 33 33
2 3000 33 33
2 3000 33 33
2 3200 37 37
2 3200 37 37
2 3200 37 37
2 3400 41 41
2 3600 42,5 42,5
Rangsummen 946 379 567

Als Erstes wollen wir beide Stichproben zu einer zusammenfassen und den Werten Rang-
zahlen zuordnen. Wir bemerken sofort, dass viele Werte mehrfach auftreten. Man nennt
so etwas eine Bindung. Was machen wir da? Wir vergeben auf gleiche Werte mittlere
Ränge. Das werden wir nun anhand von Tabelle 5.12 praktisch üben. Zuerst sind alle
Daten der Größe nach aufgeführt. Jetzt nummerieren wir die Daten hilfsweise durch, das
heißt, wir vergeben erst einmal Hilfsränge von 1 bis 43. Aus diesen Hilfsrängen ermitteln
wir dann den mittleren Rang. Wir beginnen bei 2000. 2000 hat die Hilfsränge 4 und 5.
Der mittlere Rang ist also 4+5
2 = 4,5. Alle Werte mit 2000 erhalten den mittleren Rang
4,5. Springen wir zu den Werten 2500. 2500 kommt fünfmal vor. Der mittlere Rang ist
13+14+15+16+17
5 = 15 usw.

Befinden sich die Bindungen nur in einer der beiden Stichproben, können in numerischer
Hinsicht auch die fortlaufenden Hilfsränge verwendet werden. Verteilen sie sich aber auf
beide Stichproben, muss der mittlere Rang genommen werden.

In Tabelle 5.11 sind den Daten die Rangzahlen zugeordnet worden. Wir summieren nun
als R1 die Rangzahlen der ersten Stichprobe und als R2 die Rangzahlen der zweiten
Stichprobe. Es ergibt sich R1 = 379 und R2 = 567. Analog zu oben können wir ausrechnen

n1 · (n1 + 1) 18 · 19
U1 = n1 · n2 + − R1 = 18 · 25 + − 379 = 242 (5.29)
2 2
und

U2 = n1 n2 − U1 = 208. (5.30)

Die Prüfgröße U ist der kleinere der Werte U1 und U2 , also 208.
5.7 Verteilungsfreie Tests 241

Da unsere Stichprobe groß genug ist, können wir die Prüfgröße als näherungsweise nor-
malverteilt ansehen. Wir erhalten mit α = 0,1 den Nichtablehnungsbereich

[ −z(1 − α/2); z(1 − α/2)] = [ −z(0,95); z(0,95)] = [ −z(1,65); z(1,65)].

Wir berechnen nun die Parameter der Normalverteilung als


n 1 · n2 18 · 25
E(U ) = = = 225 (5.31)
2 2
und
n1 · n2 · (n1 + n2 + 1) 450 · (43 + 1)
V (U ) = = = 1650. (5.32)
12 12
Wir bilden den Prüfwert
U − E(U ) 208 − 225
z=  = √ = −0,42. (5.33)
V (X) 1650

Da z in den Nichtablehnungsbereich fällt, kann nicht davon ausgegangen werden, dass


die Einstiegsgehälter für Männer und Frauen unterschiedlich verteilt sind.

Tab. 5.12: Einstiegsgehälter von Männern und Frauen: Mittlere Ränge.

geordneter Hilfsrang Berechnung endgültiger


Wert Rang
1000 1 1
1400 2 2
1600 3 3
4+5
2000 4 2 4,5
2000 5 4,5
2225 6 6
7+8
2250 7 2 7,5
2250 8 7,5
2360 9 9
2400 10 10
11+12
2470 11 2 11,5
2470 12 11,5
2500 13 15
2500 14 15
13+14+15+16+17
2500 15 5 15
2500 16 15
242 5 Hypothesentests

Tab. 5.12: Einstiegsgehälter von Männern und Frauen: Mittlere Ränge.

geordneter Hilfsrang Berechnung endgültiger


Wert Rang
2500 17 15
2600 18 19
18+19+20
2600 19 3 19
2600 20 19
21+22
2650 21 2 21,5
2650 22 21,5
2670 23 23
24+25
2700 24 2 24,5
2700 25 24,5
2800 26 26
2850 27 27
2900 28 28
2916 29 29
2930 30 30
3000 31 33
3000 32 33
31+32+33+34+35
3000 33 5 33
3000 34 33
3000 35 33
3200 36 37
36+37+38
3200 37 3 37
3200 38 37
3270 39 39
3300 40 40
3400 41 41
42+43
3600 42 2 42,5
3600 43 42,5
6 Analyse mehrerer Merkmale

Mit der Analyse nur eines Merkmals werden wir in der Datenanalyse nicht sehr weit
kommen. Die Betrachtung mehrerer gemeinsamer Variablen oder Ereignisse kann uns
viele nützliche Informationen liefern. Wir hatten bisher schon einige Beispiele, etwa die
Absolventen und Abbrecher einer schulischen Ausbildung nach Geschlecht oder die Fern-
sehgewohnheiten von Zuschauern, die volkstümliche Musik mögen oder nicht mögen.
Die Auswertung solcher Daten kann einen hohen Erkenntnisgewinn über die zugrunde
liegende Struktur der Daten liefern.

Ein typisches Beispiel für solche Daten sind Fragebögen. Wir haben hier einen Merk-
malsträger – in der Regel eine Person – und mehrere Variablen, die wir an dieser Person
beobachten können. Erinnern wir uns an die BMI-Tabelle 1.1. Wir erhalten also für jede
Person einen Datensatz der verschiedenen Variablen. Wir nennen diese Variablen mehr-
dimensional oder multidimensional oder multivariat verteilt. Im Rahmen dieses Buches
werden wir uns vorwiegend mit zwei Variablen befassen, was für den Hausgebrauch einer
Statistikeinführung genügt.

Die Daten des Fragebogens der Reha sind so strukturiert: Es liegen n Datensätze mit
der Nummer i vor (i = 1, . . . , n). So gibt es n viele Beobachtungen xi der Variablen x
und n viele Beobachtungen yi der Variablen y usw.

6.1 Deskriptive Analyse – Das gute alte


Streudiagramm

6.1.1 Zusammenfassung mehrdimensionaler Daten

Die Aufbereitung mehrdimensionaler Daten hängt wieder vor allem von ihrem Skalenni-
veau ab, was in Abschnitt 1.2.3 beschrieben ist. Wir wollen die Daten grob in häufbar
und stetig einteilen. Wir erinnern uns, dass eine Variable häufbar ist, wenn wir ihre Be-
obachtungswerte in Häufigkeitstabellen zusammenfassen können. Dazu zählen nominal-,
ordinal- und diskrete metrisch skalierte Variablen.
244 6 Analyse mehrerer Merkmale

6.1.2 Häufbare Merkmale

Zwei häufbare Variablen können wir in einer zweidimensionalen Tabelle, einer sogenann-
ten Kontingenztabelle, zusammenfassen. Wir wollen hierzu ein kleines Beispiel anschauen.

Beispiel 6.1 Selbsteinschätzung von Sprachkenntnissen


An einer kleineren Hochschule wurden im Rahmen der Qualitätssicherung n = 30
ausländische Studierende befragt. Unter anderem sollten sie Angaben zu ihrer Sprach-
kompetenz machen. Es wurde gefragt, wie sie ihre Sprachkenntnisse der deutschen (D)
und englischen (E) Sprache einschätzten, wobei die Skala von 1 (sehr schlecht) bis 5
(sehr gut) reichte. Zu dieser Zeit waren 30 ausländische Studierende an der Hochschu-
le. Wir bezeichnen die Kenntnisse in Deutsch in der weiteren Analyse als Variable x
und die Kenntnisse in Englisch als Variable y. Die erhobenen Daten sind in Tabelle 6.1
aufgeführt.

Tab. 6.1: Sprachkenntnisse ausländischer Studierender (1: sehr schlecht, bis 5: sehr gut).

Nr. D E Nr. D E Nr. D E Nr. D E Nr. D E


i x y i x y i x y i x y i x y
1 5 3 7 5 5 13 2 5 19 1 5 25 3 4
2 3 4 8 2 4 14 4 5 20 4 2 26 2 4
3 2 3 9 5 4 15 3 4 21 2 4 27 3 4
4 3 2 10 4 5 16 1 3 22 2 4 28 4 3
5 3 1 11 5 4 17 3 2 23 2 4 29 4 2
6 4 3 12 4 3 18 1 4 24 3 4 30 4 3

Nun wollen wir die Daten in einer zweidimensionalen Kontingenztabelle zusammenfas-


sen. Die Zeilen der Tabelle stehen für die selbst eingeschätzten Kenntnisse der deutschen
Sprache und die Spalten für die selbst eingeschätzten Kenntnisse der englischen Spra-
che. Wir erhalten nun Tabelle 6.2. Es hatten sich beispielsweise vier Studierende gute
Kenntnisse für Deutsch und mittlere Kenntnisse für Englisch bescheinigt.

Analog zu den zweidimensionalen Zufallsvariablen in Abschnitt 3.5 nummerieren wir die


Ausprägungen von x mit j (j = 1, . . . , m) und die von y mit k (k = 1, . . . , r). Der Index
i ist schon für die Nummer des Merkmalträgers reserviert. Wir bezeichnen die Tabellen-
werte mit njk . Also ist beispielsweise der obige Wert n43 = 4. Die Zeilensummen ergeben
die absoluten Häufigkeiten der xj und die Spaltensummen die absoluten Häufigkeiten der
yk . Teilen wir die njk durch n, erhalten wir wieder die relativen Häufigkeiten.

Für mehr als zwei Variablen erhalten wir dann eine Tabelle mit zum Beispiel drei- oder
vierfachem Eingang. Solche Tabellen sind allerdings nicht mehr so leicht lesbar.
6.1 Deskriptive Analyse 245

Tab. 6.2: Kontingenztabelle der Spracheinschätzungen des Deutschen und Englischen.

Englisch y
1 2 3 4 5 Summe
Deutsch x 1 0 0 1 1 1 3
2 0 0 1 5 1 7
3 1 2 0 5 0 8
4 0 2 4 0 2 8
5 0 0 1 2 1 4
Summe 1 4 7 13 5 30

Wie setzen wir nun eine Kontingenztabelle grafisch um? Hier gibt es verschiedene Mög-
lichkeiten. Ein kleines Beispiel soll uns helfen.

Beispiel 6.2 Evaluation einer Statistikvorlesung


Die Statistikvorlesung der Professorin Mahlzahn wurde ausgewertet. Unter anderem
beantworteten die Studierenden die Aussage „Die Vorlesung war verständlich“. Schließ-
lich benoteten sie die Vorlesung mit den Noten 1 (sehr gut) bis 4 (schlecht). Die Er-
gebnisse wurden in der Kontingenztabelle 6.3 zusammengefasst.

Tab. 6.3: Evaluation einer Statistikvorlesung.

Beurteilung der Statistikvorlesung


sehr gut gut mäßig schlecht Summe
ja 0 1 0 0 1
verständlicher eher ja 1 14 2 0 17
Vorlesungsstoff eher nein 0 19 7 0 26
nein 0 3 5 2 10
Summe 1 37 14 2 54

Wir brauchen für die grafische Darstellung einer zweidimensionalen Häufigkeitsverteilung


in der Regel ein dreidimensionales Koordinatensystem, nämlich eine Achse für x, eine für
y und eine für die Häufigkeit. Hier werden häufig dreidimensionale Säulendiagramme
verwendet. Für unser Beispiel 6.2 erhalten wir das Säulendiagramm Abbildung 6.1.

Eine einfache zweidimensionale Darstellung erlaubt das Blasendiagramm, bei dem quasi
in den Zellen der Kontingenztabelle Kreise abgebildet werden, deren Fläche proportional
zu den Häufkeiten ist. Auf Seite 140 haben wir das schon kennengelernt. Allerdings bieten
weder die Statistikprogramme Minitab noch SPSS dieses Feature an. Auch bei Excel ist
die Funktion unbefriedigend ausgestaltet.
246 6 Analyse mehrerer Merkmale

Abb. 6.1: 3-D-Balkendiagramm für Evaluation einer Vorlesung.

Leider kranken die meisten Diagramme daran, dass sie nicht auf den ersten Blick als Mus-
ter erfasst werden können, sondern stattdessen einen gewissen Studieraufwand erfordern.

Raffiniert kommt dagegen der weniger bekannte Jittered Scatterplot daher, was man in
etwa als „verwackeltes Streudiagramm“ bezeichnen könnte. Hier werden die Punkte, die
sich ja bei häufbaren Mermalen überlagern, etwas auseinandergezogen, sodass wir eine
visuelle Vorstellung von der Verteilung der Punkte erhalten. Er ist beispielsweise bei
Chambers et al. (2008, S. 106) beschrieben. In Abbildung 6.2 sind die Evaluationsdaten
des Beispiels 6.2 aufgeführt.

Abb. 6.2: Jittered Scatterplot für die Evaluation einer Vorlesung.


6.1 Deskriptive Analyse 247

Häufig werden auch sogenannte Profile verwendet. Auf der x-Achse werden die fortlaufen-
den Nummern der Merkmalsträger aufgeführt. Auf der y-Achse werden die dazugehörigen
Beobachtungen der Variablen eingetragen. Es ergibt sich eine Folge von Punkten, die wie
bei einer Fieberkurve geradlinig verbunden werden. Man kann in so ein Diagramm auch
mehrere Variablen einfügen, sodass wir hier einen Ersatz für die grafische Abbildung einer
Kontingenztabelle haben. Wir beachten, dass für Profile nicht zu viele Beobachtungen
vorliegen dürfen, da sie einzeln nebeneinander aufgeführt werden. Abbildung 6.3 zeigt
für Beispiel 6.1 Profile der Selbsteinschätzungen. Die runden Punkte bezeichnen Anga-
ben zu den Englischkenntnissen, die rautenförmigen Angaben zu den Deutschkenntnisse.
Wir können der Abbildung nun entnehmen, dass sich tendenziell mehr Studierende in
Englisch besser als in Deutsch eingruppieren.

!


 


      







Abb. 6.3: Profil für Selbsteinschätzung der Sprachkenntnisse ausländischer Studierender.

Bei Profilen sollten die Werte auf der y-Achse mindestens rangskaliert sein. Wir könnten
allerdings bei einer nominalskalierten Variablen die Ausprägungen als natürliche Zahlen
kodieren, beispielsweise beim Familienstand 1 für ledig, 2 für verheiratet usw. und damit
das Profil erstellen.

6.1.3 Stetige Merkmale

Für eine Zusammenfassung der stetigen Daten ist die Kontingenztabelle weniger geeignet,
weil die Wertepaare (x; y) zu verschieden sind. Ein einfach zu handhabendes und sehr
aufschlussreiches grafisches Mittel ist das Streudiagramm (scatterplot). Hier werden alle
248 6 Analyse mehrerer Merkmale

n Wertepaare (xi ; yi ) in ein x-y-Koordinatensystem abgetragen. Das Muster der Punkte


verrät sehr viel über die Abhängigkeitsstruktur der Variablen.

Beispiel 6.3 Kriminalitätsdaten von 51 US-Bundesstaaten (2006)


Als Fortführung von Beispiel 5.14 (Seite 231) liegen für 51 US-Bundesstaaten die Kri-
minalitätsraten (Anzahl der Gewaltverbrechen auf 100 000 Personen), kurz Crime ge-
nannt, vor. Es wurden außerdem noch soziodemografische Daten dieser Bundesstaaten
zusammengefasst, unter anderem ein Armutsindikator (Anteil der Personen unter der
Armutsgrenze), kurz Armut genannt, der Anteil der über 25-Jährigen mit Bachelorab-
schluss, kurz Bachelor genannt, das mittlere Pro-Kopf-Einkommen, kurz Einkommen
genannt, und der Anteil der Afromerikanner, kurz Afro genannt.

In Abbildung 6.4 sind einige Streudiagramme der Crime-Daten zusammengefasst. Je-


der Punkt betrifft einen Bundesstaat. Das Streudiagramm der Variablen Armut und
Bachelor lässt sofort erkennen, dass mit steigender Armut tendenziell der Anteil der
Bachelorabschlüsse sinkt. Wie sieht es mit den Bildungschancen von Afroamerikanern in
den einzelnen Bundesstaaten aus? Dem Streudiagramm der Variablen Afro und Bachelor
können wir keine besondere Information entnehmen. Die Punkte streuen zufällig, man
könnte chaotisch sagen. Es scheinen also auch Afroamerikaner ausreichend Zugang zu
Bildung zu haben. Als letztes Streudiagramm betrachten wir die Kriminalitätsrate und
den Anteil der Afroamerikaner in einem Bundesstaat. Auf den ersten Blick scheint, dass
mit steigendem Anteil von Afroamerikanern auch die Kriminalitätsrate steigt. Wir haben
aber einen ausgeprägten Ausreißer in den Daten – der Punkt oben rechts, der zu District
of Columbia gehört. Wenn wir uns diesen wegdenken, weisen die restlichen Daten eher
eine Strukur wie bei Afro-Bachelor auf. Betrachten wir das Streudiagramm oben links,
Bachelor vs. Einkommen. Das zeigt sehr deutlich, dass mit steigendem Anteil der Ba-
chelorabsolventen auch das Durchschnittseinkommen in einem Staat steigt. Wir sagen,
Bachelor und Einkommen sind korreliert. Wir könnten hier eine Gerade y = a + bx in
die Punktwolke legen. Die Punkte streuen zwar um die Gerade herum, aber die Tendenz
einer Geradensteigung ist unübersehbar.

6.1.4 Gemischte Skalenniveaus

Auch bei gemischen Skalennivaus von Variablen können wir sinnvolle Auswertungen ma-
chen. Wenn etwa y als stetig und x als häufbar vorliegen, kann ein Streudiagramm noch
wertvolle Informationen liefern. So sind in Abbildung 6.5 die Bundesstaaten noch nach
Regionen aufgeteilt. Wir sehen deutlich, dass in den Regionen 3 (Süden) und 4 (Westen)
die Kriminalitätsrate insgesamt höher liegt als in den Regionen 1 (Nordosten) und 2
(Mittlerer Westen).
6.1 Deskriptive Analyse 249

  

 
     





   

Abb. 6.4: Ausgewählte Streudiagramme zu den Crime-Daten des Beispiels 6.3.

Es kann auch hilfreich sein, das stetige Merkmal in Klassen einzuteilen und es dann wie
ein häufbares zu behandeln. Hier können dann Kontingenztabellen und Grafiken, wie
in Abschnitt 6.1.2 vorgestellt, verwendet werden. Mit einer Klassierung geht allerdings
in der Regel ein starker Informationsverlust einher. Wir kennen diese Vorgehensweise
aus Abschnitt 5.6.1, wo wir mithilfe von klassierten stetigen Daten einen Verteilungstest
machten.

Eine weitere Möglichkeit ist, im Streudiagramm die Symbole für die Ausprägung des
kategorialen Merkmals unterschiedlich zu wählen. Diese Grafik ist für alle Skalenniveaus
der kategorialen Variablen brauchbar. In Abbildung 6.5 können wir diese Anordnung
betrachten. Deutlich zu erkennen sind Gruppen von gleichartigen Bundesstaaten.

6.1.5 Abhängigkeitsstrukturen

Bei der Analyse mehrerer Variablen wird uns meistens interessieren, ob die Variablen
abhängig sind oder nicht. Falls ja, wäre die Struktur der Abhängigkeit hilfreich. So haben
wir oben in Beispiel 6.3 gesehen, dass beispielsweise Bachelor und Einkommen positiv
korreliert und Bachelor und Armut negativ korreliert sind. Wir sprechen hier von linearen
250 6 Analyse mehrerer Merkmale

Crime Nordosten Mittl. Westen Süden Westen


800

700
600

500

400
300

200
100
0,06 0,08 0,1 0,12 0,14 0,16 0,18 0,2
Armut

Abb. 6.5: Streudiagramm von Armut und Crime, nach Regionen unterschieden.

Zusammenhängen, weil wir eine Gerade in die Punktwolke legen können. Dagegen weisen
Afro und Bachelor keinen erkennbaren Zusammenhang auf.

Häufig können in Punktwolken auch exponentiell steigende, logarithmisch steigende oder


ähnliche Kurven gelegt werden. Als Beispiel liegt uns hier Abbildung 6.6 vor. Das Streu-
diagramm hat auf der x-Achse die Zeit als Jahr und auf der y-Achse die Schwefeldioxide-
missionen in Deutschland, wobei wir hier statt der absoluten Werte in Tonnen die relati-
ven bezogen auf das Jahr 1990 haben. Wir nennen diese Werte Indexzahlen. Sie haben den
Vorteil, dass wir nicht mit Riesenwerten laborieren müssen, die sehr unhandlich sind, und
wir immer eine direkte Vergleichsmöglichkeit mit 1990 haben. In diesem Streudiagramm
scheinen die y-Werte mit steigendem x eine fallende Tendenz aufzuweisen. Allerdings
passt hier eine Gerade ziemlich schlecht in die Punktwolke. Besser wäre beispielsweise
eine Hyperbel. Wir vermuten, dass wir hier ungefähr eine Funktion y ≈ a + b · x1 vor uns
haben. In Abbildung 6.6 (rechts) sehen wir, dass die Punktwolke nun gestreckt worden ist.
Bei stetigen Merkmalen können wir also häufig die Art der Abhängigkeit mithilfe einer
Funktion beschreiben. Bei diskreten metrischen Merkmalen ist das oft nicht möglich.

In den folgenden Abschnitten werden spezielle Analyseverfahren für mehrdimensionale


Variablen vorgestellt.

6.2 Zusammenhangsmaße – Können wir Linearität


messen?

In Beispiel 6.3 haben wir gesehen, dass die Variablen unterschiedlich stark voneinander
abhängen. In diesem Abschnitt wollen wir untersuchen, wie wir die Stärke eines Zu-
sammenhangs zwischen zwei Variablen erfassen und ob wir sogar eine lineare Tendenz
feststellen können. Fangen wir mit Letzterem an, der linearen Tendenz.
6.2 Zusammenhangsmaße 251

110 0,035
1/y
Index des SO2 -Ausstoßes

100
0,03
90
80 0,025
70
60 0,02
50
0,015
40
30 0,01
1990 1995 2000 2005 2010 1990 1995 2000 2005 2010
Jahr Jahr
Nichtlineare Abhängigkeit Linearisierung durch Kehrwert

Abb. 6.6: Linearisierung von Abhängigkeiten.

6.2.1 Korrelationskoeffizient nach Pearson

In Abschnitt 6.1.3 haben wir Streudiagramme kennengelernt. Es zeigte sich, dass es


stetige Variablen gibt, die eine gewisse Proportionalität oder lineare Tendenz aufweisen,
sodass wir bei zwei Variablen x und y sagen könnten, tendenziell steigt y mit steigendem
x. Tendenziell heißt, es kann auch mal der eine oder andere y-Wert bei steigendem x
fallen, aber das gesamte Bild deutet auf steigende y-Werte hin. Wir messen die Stärke so
einer linearen Tendenz mit dem Korrelationskoeffizienten nach Bravais-Pearson (Auguste
Bravais und Karl Pearson), meistens nur nach Pearson benannt.

Wir wollen uns dazu wieder Streudiagramme des Beispiels 6.3 mit verschiedenen Varia-
blen der Kriminalitätsdaten ansehen. Wo der Staat DC Ausreißerwerte liefert, wurde das
entsprechende Wertepaar entfernt, da Ausreißer die Auswertungen beeinträchtigen. Das
ist vor allem bei der Variablen Crime der Fall.

Abb. 6.7: Streudiagramm von Highschool-Absolventen vs. Bachelor.


252 6 Analyse mehrerer Merkmale

Uns liegt in Abbildung 6.4 ein Streudiagramm der Variablen Einkommen und Bachelor
vor. Hier ist eindeutig zu erkennen, dass mit steigender Anzahl der Bachelorabschlüsse
auch das Pro-Kopf-Einkommen steigt. Wenn wir ein Streudiagramm von HighSc (Anteil
der erwachsenen Highschool-Absolventen) und Bachelor machen (Abbildung 6.7), kön-
nen wir auch eine lineare Tendenz ausmachen, aber sie ist viel verschwommener als im
vorherigen Diagramm. Beim Streudiagramm Bachelor und Armut (Abbildung 6.4) ist
die Punktwolke bei steigendem Bachelor-Wert fallend. Der Armutsindikator fällt hier
tendenziell mit steigendem Anteil von Bachelorabsolventen. Wenig Linearität finden wir
im Streudiagramm Armut vs. Crime (Abbildung 6.5). Wir greifen etwas vor und geben
schon einige die Korrelationskoeffizienten an:

Einkommen und Bachelor: 0,797,


HighSc und Bachelor: 0,556,
Bachelor und Armut: −0,612,
Armut und Crime: 0,320.

Auch wenn die Funktionsweise des Korrelationskoeffizienten noch nicht bekannt ist, ver-
mitteln die Streudiagramme nebst Korrelationskoeffizienten schon gewissen Eindruck
von der Bedeutung des Korrelationskoeffizienten. Nun werden wir diesen etwas genauer
betrachten.

Pearson’scher Korrelationskoeffizient

Gegeben sind zwei metrisch skalierte Variablen x und y, die idealerweise normalver-
teilt sein sollten. In der Regel genügt es, wenn die Daten keine Ausreißer enthalten.
Es liegen für die Variablen n viele Wertepaare (xi ; yi ) (i = 1, . . . , n) vor.

Der Pearson’sche Korrelationskoeffizient wird als rxy bezeichnet und errechnet mit
der Formel

n
(xi − x) · (yi − y)
rxy =  n i=1
n . (6.1)
 
(xi − x)2 · (yi − y)2
i=1 i=1

Dieser Ausdruck ist hergeleitet aus dem Quotienten


1 
n
· (xi − x) · (yi − y)
covxy n − 1 i=1
rxy = =   .
sx · sy 1
n
2 1
n
2
n−1 (xi − x) · n−1 (yi − y)
i=1 i=1

Der Zähler des Quotienten ist hier die Stichprobenkovarianz zwischen x und y. Auch sie
misst den Grad der Linearität zwischen den Variablen. Sie hat allerdings – ebenso wie
die Stichprobenvarianz – den Nachteil, dass wir der Kovarianz nicht ansehen können, ob
6.2 Zusammenhangsmaße 253

sie groß oder klein ist. Erst die Division durch die Standardabweichungen von x und y
normiert den Ausdruck, sodass r zwischen −1 und 1 liegt. Wenn wir nun noch durch
1
n−1 kürzen, enthalten wir Formel 6.1. Wie auch bei der Stichprobenvarianz (Seite 45)
können wir bei ungeeigneten Daten, das heißt, wenn wir „krumme“ Mittelwerte erhalten,
den Verschiebungssatz anwenden. Die Formel lautet wie folgt:

Verschiebungssatz für den Pearson’schen Korrelationskoeffizienten

Der Korrelationskoeffizient wird mithilfe des Verschiebungssatzes berechnet als


n

xi · yi − n · x · y
rxy = %
i=1
% . (6.2)
 2
n n
xi − n · x2 · yi2 − n · y 2
i=1 i=1

Beispiel 6.4 Steigt die Zahl Diskobesuche von Jugendlichen mit dem Ta-
schengeld?
Eine Befragung zum Thema Taschengeld von Jugendlichen ergab bei sechs Befragten
die Werte in Tabelle 6.4.

Es sei bekannt, dass x und y normalverteilten Grundgesamtheiten entstammen. Die


Frage ist, geben Jugendliche mit steigendem Taschengeld auch mehr für Diskotheken-
besuche aus? Könnten x und y proportional sein?

Tab. 6.4: Taschengeld und Ausgaben für Diskobesuche.

Person i 1 2 3 4 5 6
Taschengeld (e) pro Monat x 25 35 55 100 35 50
ungefähre monatliche Ausgaben für Diskothek (e) y 15 10 25 35 15 20

Wir wollen das mit dem Pearson’schen Korrelationskoeffizienten messen. Dazu verwen-
den wir die Arbeitstabelle 6.5. Wir benötigen zunächst die Mittelwerte x und y. Wir
summieren also xi und yi auf und teilen die Summen jeweils durch 6.

6
300
x= xi = = 50.
6
i=1

Entsprechend erhalten wir y = 120 6 = 20. Da die Mittelwerte „glatt“ sind, können wir
sehr gut Formel 6.1 verwenden. Wir müssen erst die Datenwerte zentrieren mit xi − x
und yi − y. Die zentrierten Werte stehen in Spalte 4 und 5. Nun müssen für den Zähler
die zentrierten Werte zeilenweise multipliziert werden als (xi − x) · (yi − y) (Spalte 6). Die
Summe ist dann 1125. Wir brauchen noch die Quadratsummen der zentrierten Werte.
Wir quadrieren sie in Spalte 7 und 8 und erhalten die Summen 3600 und 400.
254 6 Analyse mehrerer Merkmale

Tab. 6.5: Arbeitstabelle für die Berechnung des Pearson’schen Korrelationskoeffizienten

(2) (3) (4) (5) (6) (7) (8)


i xi yi xi − x yi − y (xi − x)· (xi − x)2 (yi − y )2
(yi − y )
1 25 15 −25 −5 125 625 25
2 35 10 −15 −10 150 225 100
3 55 25 5 5 25 25 25
4 100 35 50 15 750 2500 225
5 35 15 −15 −5 75 225 25
6 50 20 0 0 0 0 0
Summe 300 120 0 0 1125 3600 400

Nun haben wir alle erforderlichen Summen berechnet und erhalten den Korrelationsko-
effizienten
1125
√ √ = 0,9375.
3600 · 400

Diese Korrelation ist sehr hoch; wir können also annehmen, dass mit steigendem Ta-
schengeld auch die Diskobesuche entsprechend stark steigen.

Der Korrelationskoeffizient misst lediglich die Linearität. Er kann keine Aussage über
die Ursache-Wirkungs-Struktur machen. Daher ist es dem Korrelationskoeffizienten auch
egal, welche Variable wir als x und welche als y bezeichnen.

Eigenschaften des Pearson’schen Korrelationskoeffizienten:

Es ist

rxy = ryx . (6.3)

Es ist

−1 ≤ rxy ≤ 1. (6.4)

Je näher r dem Wert −1 oder 1 ist, desto ausgeprägter ist die lineare Tendenz.
Wenn rxy = 1 ist, liegt eine perfekte lineare Transformation der Art einer steigenden
Geraden y = a + b · x (b > 0) vor.
Wenn rxy = −1 ist, liegt eine perfekte lineare Transformation der Art einer fallenden
Geraden y = a − b · x (b > 0) vor.
Wenn rxy = 0 ist, sind x und y unkorreliert, das heißt, es besteht keine lineare Ten-
denz zwischen den Variablen. Trotz bestehendem rxy = 0 können x und y funktional
abhängig sein, denn r kann nur Linearität diagnostizieren.
6.2 Zusammenhangsmaße 255

Wenn x und y linear transformiert werden, wenn also statt der Variablen x eine Variable
x∗ = a + bx oder entsprechend statt y eine Variable y∗ = c + dy verwendet wird (a,
b, c, d Konstanten, b und d haben dasselbe Vorzeichen), ist der Korrelationskoeffizient
rx∗y∗ = rxy .

Jetzt wollen wir den Korrelationskoeffizienten mithilfe des Verschiebungssatzes berech-


nen. Dazu konstruieren wir uns ein primitives Schnellbeispiel. Es liegen folgende Daten
vor:

i 1 2 3 4 5 6
xi 0 1 2 3 4 5
yi 0 1 4 9 16 25

Wir sehen sofort, dass y = x2 ist, was allerdings keinen Anspruch auf Sinnhaftigkeit
erhebt und nur der Tatsache geschuldet ist, dass wir uns nicht mit einem umständlichen
Beispiel aufhalten wollen. Wie oben basteln wir uns eine Arbeitstabelle (Tabelle 6.6).
Der Verschiebungssatz lautet
n
( i=1 xi · yi ) − n · x · y
rxy =    .
( i=1 x2i ) − n · x2 · ( i=1 yi2 ) − n · y 2
n n

Tab. 6.6: Arbeitstabelle für den Verschiebungssatz.

i xi yi xi · yi xi2 yi2
1 0 0 0 0 0
2 1 1 1 1 1
3 2 4 8 4 16
4 3 9 27 9 81
5 4 16 64 16 256
6 5 25 125 25 625
Summe 15 55 225 55 979

Wir brauchen also wieder zunächst die Mittelwerte. Es sind x = 15 6 = 2,5 und
y = 556 = 9,17 (gerundet). Hier sind die Mittelwerte nicht so gefällig wie oben. Der
Verschiebungssatz ist angenehmer für die Berechnung von r. Wir erhalten
225 − 6 · 2,5 · 9,17 87,5
rxy =   = √ = 0,9599.
2
55 − 6 · 2,5 · 979 − 6 · 9,17 2 17,5 · 474,83

Studierende, die es genauer wissen wollen, sollten den Korrelationskoeffizienten mit den
Werten
256 6 Analyse mehrerer Merkmale

x −3 −2 −1 0 1 2 3
y 9 4 1 0 1 4 9

durchrechnen. Ist das Ergebnis überraschend? Was bedeutet es?

Bemerkung zum Verschiebungssatz: Der Verschiebungssatz sollte in der Regel nur bei
manueller Berechnung des Korrelationskoeffizienten angewendet werden, da die errech-
neten Produkte, zu denen auch die Quadrate zählen, riesig werden können. Hier ist die
Gefahr von Rundungsfehlern groß. Wenn wir für die Berechnung den Computer verwen-
den, nehmen wir die Formel mit den zentrierten Werten. Denn dem Computer ist es
gleichgültig, wie die Werte vorliegen. Er macht stumpfsinnig seine Arbeit.

Die Autorin wird von ihren lieben Studierenden oft gefragt, welche Formel sie denn
nun in der Klausur nehmen sollten. Die Antwort ist: Genommen wird, was gefällt, denn
mathematisch sind beide Formeln äquivalent.

Ermahnungen für die korrekte Verwendung des Pearson’schen Korrelationskoeffi-


zienten: Wie beispielsweise das arithmetische Mittel und die Stichprobenvarianz ist
auch der Korrelationskoeffizient sehr sensibel gegenüber Ausreißern. Beispielsweise be-
trägt der Korrelationskoeffizient zwischen Crime und Einkommen r = 0,294, wenn DC in
die Daten miteinfließt. Der Staat DC hatte sich als starker Ausreißer herausgestellt (Sei-
te 251). Ohne diesen Ausreißer ergibt sich r = 0,082. Die Diskrepanz ist deutlich. Daher
sollten die Daten ausreißerfrei sein. Das wird mit größter Wahrscheinlichkeit vermieden,
wenn die Daten normalverteilten Grundgesamtheiten entstammen. Für Daten unklarer
Herkunft ist beispielsweise der Rangkorrelationskoeffizient geeignet, der im folgenden
Abschnitt beschrieben ist.

6.2.2 Rangkorrelationskoeffizient nach Spearman

Oben wurden uns Ermahnungen zum korrekten Verwenden des Korrelationskoeffizienten


mit auf den Weg gegeben. Was machen wir aber, wenn die Daten das nicht hergeben,
wenn die Wahrscheinlichkeit für Ausreißer groß ist oder wenn die Daten andererseits nur
rangskaliert sind? Für solche lästigen Vorgaben steht uns der Spearman’sche Rangkor-
relationskoeffizient zur Verfügung, entwickelt von dem britischen Psychologen Charles
Spearman (1863–1945). Wir bezeichnen ihn zur Unterscheidung vom Pearson’schen Ko-
effizienten r mit rs .

Wie sieht diese Wunderwaffe aus? Das Prinzip ist denkbar einfach: Wir ordnen zuerst die
xi - und auch die yi -Werte. Wir weisen ihnen Rangzahlen rg(xi ) und rg(yi ) zu. Sodann
6.2 Zusammenhangsmaße 257

berechnen wir aus diesen Rangzahlen einen Korrelationskoeffizienten nach Pearson. Die
Formel ist also

n
(rg(xi ) − rg(x)) · (rg(yi ) − rg(y))
rs xy =  i=1
n . (6.5)

n
2
 2
(rg(xi ) − rg(x)) · (rg(yi ) − rg(y))
i=1 i=1

Betrachten wir ein Beispiel.

Beispiel 6.5 Blutdruck und Übergewicht bei Offizieren


Im Rahmen einer Studie wurden bei n = 10 zufällig ausgewählten Bundeswehroffizieren
der Body-Mass-Index und der Blutdruck (1. Wert) gemessen. Es ergaben sich die Werte
der Tabelle 6.7.

Sind Body-Mass-Index und Blutdruck korreliert?

Tab. 6.7: BMI und Blutdruck bei Bundeswehroffizieren.

BMI 21,3 27,1 26,8 29,1 30,9 34 26,2 30,8 31,6 27,8
Blutdruck 107 134 119 139 162 132 131 143 125 154

Es stellte sich bei der Analyse der Grundgesamtheit heraus, dass der Blutdruck zu Ausrei-
ßern nach oben neigt. Aus diesem Grund soll der Rangkorrelationskoeffizient rs verwendet
werden.

Wir brauchen wieder unsere bewährte Arbeitstabelle (Tabelle 6.8). Wir weisen also den
Daten zuerst ihre Ränge zu. 21,3 ist der kleinste x-Wert, er bekommt den Rang 1. 26,2
ist der zweitkleinste x-Wert, er bekommt den Rang 2 usw. (Spalte 4). Entsprechend
verfahren wir mit den y-Werten: 107 ist der kleinste y-Wert, er bekommt den Rang 1. 109
ist der zweitkleinste y-Wert, er bekommt den Rang 2 usw. (Spalte 5). Mit diesen Rängen
berechnen wir nun den Korrelationskoeffizienten rs . Zuerst bilden wir die Mittelwerte
55 55
rg(x) = = 5,5 und rg(y) = = 5,5
10 10
und zentrieren damit die Ränge (Spalte 6 und 7). Sodann multiplizieren wir paarweise
die Elemente von Spalte 6 und Spalte 7, aufgeführt in Spalte 8. Wir bilden aus Spalte
6 beziehungsweise Spalte 7 die Quadratsummen, aufgeführt in Spalte 9 bzw. Spalte 10.
Nun können wir den Rangkorrelationskoeffizienten ausrechnen:
36,5
rs xy = √ √ = 0,4424.
82,5 · 82,5

Wir sehen, dass x und y zwar korreliert sind, aber nicht sehr stark. Wir können dem Er-
gebnis entnehmen, dass das Gewicht eines Offiziers deutlich den Blutdruck beeinflusst,
258 6 Analyse mehrerer Merkmale

dass aber offensichtlich noch viele andere Faktoren zum Blutdruck beitragen, zum Bei-
spiel Stress.

Tab. 6.8: Arbeitstabelle für den Rangkorrelationskoeffizienten mithilfe des Pearson’schen


Korrelationskoeffizienten.

(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
i x y r g(x) r g(y )
1 21,3 107 1 1 −4,5 −4,5 20,25 20,25 20,25
2 27,1 134 4 6 −1,5 0,5 −0,75 2,25 0,25
3 26,8 119 3 2 −2,5 −3,5 8,75 6,25 12,25
4 29,1 139 6 7 0,5 1,5 0,75 0,25 2,25
5 30,9 162 8 10 2,5 4,5 11,25 6,25 20,25
6 34 132 10 5 4,5 −0,5 −2,25 20,25 0,25
7 26,2 131 2 4 −3,5 −1,5 5,25 12,25 2,25
8 30,8 143 7 8 1,5 2,5 3,75 2,25 6,25
9 31,6 125 9 3 3,5 −2,5 −8,75 12,25 6,25
10 27,8 154 5 9 −0,5 3,5 −1,75 0,25 12,25
Summe 55 55 0 0 36,5 82,5 82,5
mit den Spalten
(6): r g(xi ) − r g(x); (7): r g(yi ) − r g(y ); (8): (r g(xi ) − r g(x) · (r g(yi ) − r g(y )); (9): (r g(xi ) − r g(x))2 ;
(10): (r g(yi ) − r g(y ))2 ;

Wir wollen uns nun die speziellen Eigenschaften des Rangkorrelationskoeffizienten anse-
hen: Durch die Umwandlung der Datenwerte in Ränge geht viel Information verloren.
Steigt etwa mit wachsendem x auch immer y (mathematisch: y ist eine streng monoton
steigende Funktion von x), erhalten wir einen Spearman’schen Korrelationskoeffizienten
von 1. Das können wir unmittelbar einsehen, denn in diesem Fall ist rg(yi ) = rg(xi ).
rg(yi ) ist also eine exakte lineare Funktion von rg(xi ), und damit ist der Pearson’sche
Korrelationskoeffizient gleich eins. Generell hat der Rangkorrelationskoeffizient alle Ei-
genschaften des Pearson’schen Korrelationskoeffizienten.

Eine lehrreiche Übung ist das Ausrechnen von rs für die Zahlen von oben,

xi 0 1 2 3 4 5
yi 0 1 4 9 16 25

und ein Vergleich der beiden Korrelationskoeffizienten.

Bei der Berechnung von rs fällt auf, dass zwar die Formeln wüst erscheinen, dass aber die
resultierenden Summen simpel sind und auch mehrfach gleich ausfallen. Das liegt natür-
6.2 Zusammenhangsmaße 259

lich daran, dass rg(x) und rg(y) jeweils alle natürlichen Zahlen von 1 bis n annehmen.
So gelten beispielsweise die Rechenregeln

n(n + 1) n · (n + 1) · (2n + 1)
1 + 2 + ... + n = und 12 + 22 + . . . + n2 = .
2 6

Vereinfachen wir die gesamte Formel für rs unter Ausnutzung aller Vereinfachungsregeln,
erhalten wir schließlich

n
6· (rg(xi ) − rg(yi ))2
i=1
rs = 1 − . (6.6)
n · (n2 − 1)

Diese Vereinfachung ist in mathematischer Hinsicht nur dann korrekt, wenn die Ränge für
jede Variable tatsächlich alle unterschiedlich sind. Treten aber Bindungen auf – wir haben
sie auf Seite 240 kennengelernt –, gilt die mathematische Gleichheit nicht mehr. Allerdings
sind die resultierenden Unterschiede meistens so klein, dass wir sie gnädig übersehen
und beim händischen Ausrechnen diese „Quick-and-Dirty“-Methode verwenden. Bei der
Benutzung eines Computers kann ohnehin Formel 6.5 verwendet werden, denn wie immer
ist dieser aufgeschlossen gegenüber lästigen Rechnungen.

Wir werden jetzt rs mit der vereinfachten Formel berechnen. Die Zwischenwerte stehen
in Tabelle 6.9. Wir bilden also die Differenzen zwischen den Rängen von x und y, wir
quadrieren die Differenzen und summieren sie auf. Wir erhalten die Summe 92. Unser
Korrelationskoeffizient ist
6 · 92 552
rs = 1 − =1− = 0,4424.
10 · (100 − 1) 990

Wir sehen, dass wir tatsächlich denselben Korrelationskoeffizienten erhalten. Das soll
uns freuen, denn schließlich ist die vereinfachte Formel mathematisch äquivalent zu For-
mel 6.5, zumindest bei fehlenden Bindungen.

Jetzt wollen wir zur Übung noch Daten mit Bindungen verwenden, also mit mehrfach
auftretenden gleichen Werten von x oder y. Wir wollen hier ein Beispiel auswählen, dessen
Bindungen so heftig ausfallen, dass sich der tatsächliche Koeffizient erheblich von dem
mit der vereinfachten Form unterscheidet.

Beispiel 6.6 Kundenzufriedenheit und Zahl von Hotelsternen


Ein Reiseveranstalter hat neun Kunden nach ihrer Zufriedenheit mit dem Hotel be-
fragt, das sie im letzten Urlaub hatten. In Tabelle 6.10 sind die Ergebnisse der Befra-
gung aufgeführt. Es sind die Sterne des gebuchten Hotels und die Note des Kunden
(1: sehr gut bis 4: sehr schlecht) angegeben. Von Interesse ist, ob sich die Zahl (x) der
Sterne auf die Zufriedenheit (y) des Kunden auswirkt.
260 6 Analyse mehrerer Merkmale

Tab. 6.9: Arbeitstabelle für den Rangkorrelationskoeffizienten mithilfe der vereinfachten


Formel.

i x y r g(x) r g(y ) r g(xi ) − r g(yi ) (r g(xi ) − r g(yi ))2


1 21,3 107 1 1 0 0
2 27,1 134 4 6 −2 4
3 26,8 119 3 2 1 1
4 29,1 139 6 7 −1 1
5 30,9 162 8 10 −2 4
6 34 132 10 5 5 25
7 26,2 131 2 4 −2 4
8 30,8 143 7 8 −1 1
9 31,6 125 9 3 6 36
10 27,8 154 5 9 −4 16
Summe 55 55 92

Tab. 6.10: Kundenzufriedenheit mit Reiseveranstalter.

Kunde Nr. 1 2 3 4 5 6 7 8 9
Sterne des Hotels x 1 3 2 2 3 2 2 4 1
Note des Kunden y 3 2 2 4 1 1 3 1 4

Wir wollen also die Korrelation zwischen x und y feststellen. Nun sind aber x und y beide
rangskaliert, deshalb werden wir den Rangkorrelationskoeffizienten verwenden. Zuerst
müssen wir die Ränge von x und y bestimmen. Wir gehen vor wie auf Seite 240. In
Tabelle 6.11 kann die Vorgehensweise nachvollzogen werden. Die konkrete Berechnung
für den Rangkorrelationskoeffizienten finden wir in Tabelle 6.12. Wir erhalten dann
6 · 188,5 1131
rs = 1 − =1− = −0,5708.
9 · (81 − 1) 720

Der Korrelationskoeffizient ist negativ. Was soll das wieder bedeuten? Es folgt ja, dass
mit steigender Zahl der Sterne die Zufriedenheitsnote sinkt. Eine kleine Note steht aber
für große Zufriedenheit, eine große Note für Unzufriedenheit. Wenn es wirklich stimmt,
dass Hotels mit mehr Sternen die Kunden eher zufrieden stimmen, muss also mit steigen-
der Sternezahl die Note sinken. Deshalb ist der Korrelationskoeffizient negativ. Der Rang-
korrelationskoeffizient, der mit Formel 6.5 berechnet wurde, beträgt übrigens −0,7061.
Hier ist der Unterschied zu −0,5708 schon beträchtlich. Das liegt aber an den wenigen
Beobachtungen und den vielen Bindungen. In der Realität wird der Unterschied meis-
tens nicht so sehr groß sein. Ob nun −0,5708 oder −0,7061 – wir können feststellen, dass
Zufriedenheit zu einem großen Teil von der Zahl der Sterne abhängt.
6.2 Zusammenhangsmaße 261

Tab. 6.11: Zufriedenheit mit Reiseveranstalter: Berechnen der Bindungen.

Berechnung der mittleren Ränge für x Berechnung der mittleren Ränge für y
Hilfsrang Daten mittlerer Rang Hilfsrang Daten mittlerer Rang
1 1 (1+2)/2= 1,5 1 1 2
2 1 1,5 2 1 (1+2+3)/3= 2
3 2 4,5 3 1 2
4 2 (3+4+5+6)/4= 4,5 4 2 (4+5)/2= 4,5
5 2 4,5 5 2 4,5
6 2 4,5 6 3 (6+7)/2= 6,5
7 3 (7+8)/2= 7,5 7 3 6,5
8 3 7,5 8 4 (8+9)/2= 8,5
9 4 9 9 4 8,5

Tab. 6.12: Zufriedenheit mit Reiseveranstalter: Berechnen von rs .

Kunde Sterne Note


Nr. des des
Hotels Kunden
x y r g(x) r g(y ) r g(x) − r g(y ) (r g(x) − r g(y ))2
1 1 3 1,5 6,5 −5 25
2 3 2 7,5 4,5 3 9
3 2 2 4,5 4,5 0 0
4 2 4 4,5 8,5 −4 16
5 3 1 7,5 2 5,5 30,25
6 2 1 4,5 2 2,5 6,25
7 2 3 4,5 6,5 −2 4
8 4 1 9 2 7 49
9 1 4 1,5 8,5 −7 49
Summe 188,5

Bemerkung: Ein weiterer auch häufig verwendeter Rangkorrelationskoeffizient ist Ken-


dall’s Tau. Seine Beschreibung finden wir beispielsweise bei Hartung et al. (1995,
S. 556 ff.).

6.2.3 Kontingenzkoeffizient

Wir haben nun gesehen, wie wir den linearen Zusammenhang bei metrisch- und rangska-
lierten Merkmalen bestimmen können. Können wir Vergleichbares auch mit nominalska-
262 6 Analyse mehrerer Merkmale

lierten Merkmalen anstellen? Für derlei Daten gibt es den Kontingenzkoeffizienten. Der
Kontingenzkoeffizient ermöglicht es uns, die Stärke des Zusammenhangs zwischen zwei
nominalskalierten Variablen anzugeben. Allerdings gibt es hier keine sinnvolle Aussage
bezüglich einer Linearität. Wir können lediglich statuieren, dass zwei Variablen stark
oder schwach abhängig sind.

Wir haben schon eine Größe kennengelernt, die das Ausmaß von Abhängigkeit wieder-
gibt, und zwar beim Unabhängigkeitstest in Abschnitt 5.6.2. Wir hatten es hier in der
Stichprobe mit zwei nominalskalierten Variablen zu tun, deren Häufigkeiten in einer Kon-
tingenztabelle (Tabelle 5.7) zusammengefasst worden waren. Es wurde die Nullhypothese
getestet, dass in der Grundgesamtheit die Ereignisse, welche die Spalten der Tabelle be-
legen, von den Ereignissen in den Zeilen der Tabelle stochastisch unabhängig sind. Der
Mechanismus des Tests ist, dass die Differenzen der beobachteten Häufigkeiten und der
bei Unabhängigkeit zu erwartenden Häufigkeit erfasst werden. Wenn die Differenzen ins-
gesamt groß sind, kann die Nullhypothese nicht wahr sein, und H0 wird abgelehnt. Wir
können also folgern: Je größer die Differenzen sind, desto stärker ausgeprägt ist die Ab-
hängigkeit zwischen den Variablen. Also scheinen sie eigentlich ideal für unser Vorhaben
zu sein. Wir leihen einige Festlegungen des χ2 -Tests aus:

Gegeben ist eine Kontingenztabelle mit m vielen Ereignissen j (j = 1, . . . , m) in den


Zeilen und r vielen Ereignissen k (k = 1, . . . , r) in den Spalten. Die Elemente der Kon-
tingenztabelle sind die beobachteten gemeinsamen Häufigkeiten njk und die jeweiligen
Randhäufigkeiten nk bzw. nj . Zu jeder beobachteten Häufigkeit njk wird die erwartete
Häufigkeit
n j · nk
Ejk = (6.7)
n
gebildet. Wir errechnen daraus die Variable


m 
r
(njk − Ejk )2
y= (6.8)
Ejk
j=1 k=1

und nennen y den χ2 -Koeffizienten.

Können wir bei Kenntnis der Variablenausprägungen in der Kontingenztabelle dem χ2 -


Koeffizienten noch etwas Information abgewinnen, ist allerdings ein Vergleich mehrerer
Kontingenztabellen nicht mehr sinnvoll. Es wäre wünschenswert, einen Koeffizienten zu
finden, der ähnlich wie bei der Korrelation normiert ist. Eine Normierung, sodass der Ko-
effizient zwischen 0 und 1 liegt, ermöglicht der bei Humanwissenschaftlern gut bekannte
Kontingenzkoeffizient

χ2
C= 2
. (6.9)
χ +n
6.2 Zusammenhangsmaße 263

Es ist 0 ≤ C < 1. Wünschenswert wäre allerdings, dass C genau den Wert 1 annimmt,
wenn „perfekte Abhängigkeit vorliegt“, das heißt, wenn jede Ausprägung j mit genau
einer Ausprägung k einhergeht. Besser interpretierbare Ergebnisse liefert hier der korri-
gierte Kontingenzkoeffizient
 
∗ χ2 q
C = 2
· , (6.10)
χ +n q−1

wobei q lediglich der kleinere der beiden Werte m und r ist, also q = min(m; r). Hier gilt
0 ≤ C ∗ ≤ 1.

Beispiel 6.7 Nutzung von Wikipedia durch Jugendliche


Auf der Jugendmesse YOU in Berlin wurden vor einigen Jahren vorwiegend jugendliche
Besucher über Wikipedia befragt. Eine Frage lautete: „Wie arbeitest du mit Wikipe-
dia?“ mit den Antwortmöglichkeiten: 1 „Ich lese nur“; 2 „Ich ändere Kleinigkeiten“;
3 „Ich mache auch große Bearbeitungen“. Es wird in Wikipedia häufig beklagt, dass
Frauen eine Minderheit unter den aktiven Wikipedia-Nutzern darstellen. Deshalb wol-
len wir untersuchen, wie sich die Antworten nach 1: „weiblich“ und 2: „männlich“
aufteilen. Es ergab sich die Kontingenztabelle 6.13.

Tab. 6.13: Kontingenztabelle über die Nutzung von Wikipedia nach Geschlecht.

y : Geschlecht Summe
x: Wie arbeitest du mit Wikipedia? 1 weiblich 2 männlich
1 Ich lese nur 235 90 325
2 Ich ändere Kleinigkeiten 22 11 33
3 Ich mache auch große Bearbeitungen 27 10 37
Summe 284 111 395

Wir werden nun den χ2 -Koeffizienten berechnen. Zuerst brauchen wir die erwarteten
n ·n
Häufigkeiten Ejk = jn k . Wir berechnen zum Beispiel

325 · 284
E11 = = 233,67,
395
325 · 111
E12 = = 91,33
395
usw.
(njk − Ejk )2
Daraus ermitteln wir , zum Beispiel
Ejk

(n11 − E11 )2 (235 − 233,67)2


= = 0,01,
E11 233,67
264 6 Analyse mehrerer Merkmale

(n12 − E12 )2 (90 − 91,33)2


= = 0,02
E12 91,33
usw. Übersichtlich ist eine Zusammenfassung der erwarteten Häufigkeiten in einer Kon-
tingenztabelle (Tabelle 6.14) und der Quotienten in einer weiteren (Tabelle 6.15). Wir
erhalten nun χ2 als Summe über die Zellen der Tabelle,

χ2 = 0,01 + 0,02 + 0,13 + 0,32 + 0,01 + 0,02 = 0,51,

und den korrigierten Kontingenzkoeffizienten


 
∗ 0,51 2
C = · = 0,05.
0,51 + 395 1

Tab. 6.14: Erwartete Häufigkeiten über die Nutzung von Wikipedia nach Geschlecht
n ·n
Ejk = j n k .

1 2 Summe
1 233,67 91,33 325
2 23,73 9,27 33
3 26,6 10,4 37
Summe 284 111 395

(njk −Ejk )2
Tab. 6.15: Differenzen der beobachteten und erwarteten Häufigkeiten Ejk .

1 2
1 0,01 0,02
2 0,13 0,32
3 0,01 0,02

Verglichen mit einem Korrelationskoeffizienten können wir feststellen, dass offensichtlich


die Nutzungsart von Wikipedia und das Geschlecht wenig Abhängigkeit vereint.

6.3 Regressionsanalyse – Wie finden wir eine


Gerade?

Wie auch in der Korrelationsanalyse befassen wir uns in der Regressionsanalyse mit der
Linearität zwischen zwei Variablen. Der Korrelationskoeffizient verrät uns, wie stark der
Zusammenhang ist. Die Regressionsanalyse ist mit der Korrelationsanalyse eng verwandt,
aber die Fragestellung ist eine andere.
6.3 Regressionsanalyse 265

6.3.1 Einfaches lineares Regressionsmodell

Betrachten wir ein Beispiel aus der Werbepsychologie:

Beispiel 6.8 Mitnahmeeffekt bei Sonderangeboten im Baumarkt


Ein Baumarkt bietet Anfang Mai ein Sonderangebot von Balkonpflanzen an. In der
Nähe der Balkonpflanzen werden auch frühlingshafte Dekoartikel platziert. x gibt die
Ausgabe für Balkonpflanzen an, die ein Kunde gekauft hat, und y die Ausgaben des
Kunden für Dekoartikel in der Pflanzenabteilung. Die Marketingleitung untersucht, ob
die Ausgaben für Dekoartikel an die Ausgaben für Pflanzen gekoppelt sein könnten.
Interessant ist die Frage, wie viel ein Kunde im Durchschnitt für Dekoartikel pro einem
Euro für Blumen ausgibt. Oder, anders ausgedrückt, könnte man eine Gerade angeben,
die die Abhängigkeit der Variablen y von der Variablen x angibt?

Sehen wir uns das Streudiagramm beider Variablen an (Abbildung 6.8). Es scheint durch-
aus eine Art Linearität zwischen x und y zu bestehen: Je mehr Blumen ein Kunde kauft,
desto mehr Dekoartikel nimmt er mit. Wir könnten das momentan ganz unverbindlich
so ausdrücken:

y ≈ a + bx.




  











    




 

Abb. 6.8: Streudiagramm der Ausgaben für Pflanzen und Dekoartikel.

Wir wollen nun eine Gerade möglichst passgenau in die Punktwolke legen, um die Re-
gressionskoeffizienten a und b konkret zu ermitteln. Wie machen wir das am besten? Das
Verfahren, in die Punktwolke eine Gerade – man nennt sie übrigens Ausgleichsgerade – zu
legen, nennen wir Regressionsverfahren und die resultierende Gerade Regressionsgerade.

Wir befassen uns hier mit der linearen Einfachregression; linear, weil wir eine Gerade
wollen, und einfach, weil wir nur eine Variable x verwenden, denn wir könnten auch
266 6 Analyse mehrerer Merkmale

mehrere Variablen verwenden, wie wir in Abschnitt 6.3.4 sehen werden. Es gibt verschie-
dene Möglichkeiten, die Ausgleichsgerade zu bestimmen. Wir könnten sogar einen Faden
geradlinig in die Punktwolke legen und anhand zweier Wertepaare (x1 ; y1 ) und (x2 ; y2 )
mithilfe der sogenannten Zwei-Punkte-Form eine Gerade basteln. Bei einer deutlich ge-
streckten Punktwolke mit vielen Beobachtungen kann dieses Verfahren mindestens so
gut sein wie jedes andere. Ist die Punktwolke allerdings eher bauchig, ist der Ermessens-
spielraum für das Platzieren der Gerade sehr groß, und die Ergebnisse sind in der Regel
weniger zufriedenstellend. Wir werden uns eine bewährte Methode ansehen.

Aber zuerst müssen wir wieder ein bisschen wissenschaftlich argumentieren und gehen
von folgendem statistischen Modell aus: Wir betrachten eine unabhängige Variable x und
eine abhängige Zufallsvariable Y , die unserer Vermutung nach ungefähr in einem linearen
Zusammenhang

Y ≈ α + βx

stehen. x ist fest vorgegeben und wird daher nicht als Zufallsvariable aufgefasst. Man
nennt x unabhängige, erklärende oder exogene Variable oder auch Regressor und Y Ziel-
variable, abhängige, endogene Variable oder Regressand. Die Daten beider Variablen soll-
ten in unserem Modell metrisch skaliert sein.

Da x wie eine Konstante behandelt wird, ist der Erwartungswert von Y

E(Y ) = α + β · x.

Allerdings können die wahren Parameter der Grundgesamtheit nicht beobachtet werden,
da die Gerade α+βx von einer Störgröße ε („epsilon“) überlagert wird, die nichterfassba-
re Einflüsse auf Y wie menschliches Verhalten, Messungenauigkeiten usw. mit einschließt.
Die Zufallsvariable Y setzt sich also zusammen aus dem Erwartungswert und einer Stör-
größe

Y = E(Y ) + ε = α + β · x + ε. (6.11)

Da ε nur rein zufällig streut – mal ist es positiv, mal negativ –, ist sein Erwartungswert
gleich null. Die Varianz von ε ist gleich für alle Werte von x. Es gibt also entlang der
Geraden α + β · x unendlich viele ε, die alle identisch verteilt sind.

Unser Ziel ist, die unbekannten Parameter α und β zu schätzen. Wir erheben also im
Rahmen einer Stichprobe n Wertepaare von x und Y , das heißt, wir haben es mit n
unabhängigen Zufallsvariablen Yi zu tun. Wir erhalten nun das Modell
6.3 Regressionsanalyse 267

Y1 = α + βx1 + ε1 ,
Y2 = α + βxi + ε2 ,
...
(6.12)
Yi = α + βxi + εi ,
...
Yn = α + βxn + εn ,

und es gibt für jede Zufallsvariable Yi eine Störgröße εi .

Wir befassen uns in diesem Buch mit dem sogenannten klassischen linearen Regressions-
modell. Dieser Ausdruck lässt uns ahnen, dass die Regressionsanalyse zu den Dinosauriern
der Statistik, aber auch zu den Klassikern der Analysen gehört. Um im Rahmen dieses
klassischen linearen Regressionsmodells schätztheoretisch korrekt vorgehen zu können,
wurde ein Annahmensystem formuliert, welches im folgenden Kasten präzisiert ist:

Axiome des linearen Regressionsmodells

Es werden in einer uneingeschränkten Stichprobe n Wertepaare (xi ; yi ) erhoben.


Für die dazugehörige Zufallsvariable εi gelten folgende Axiome:

1. Alle εi haben den Erwartungswert null: E(εi ) = 0 (i = 1, . . . , n).


2. Alle εi haben die gleiche Varianz (Homoskedastizität): V (εi ) = V (V konstant).
3. Die εi sind sämtlich paarweise voneinander stochastisch unabhängig.
4. Zusatzannahme: Die Störgröße εi ist normalverteilt. Diese Annahme wird beim
Schätzen und Testen erforderlich.

Wir wollen nun die Parameter α und β durch zwei Konstanten a und b schätzen, und
zwar so, dass sich für Yi = α + βxi + εi die Schätzung

yi = a + bxi + di

ergibt. di bezeichnet das Residuum (Mehrzahl Residuen), die Abweichung des beobach-
teten yi -Wertes vom geschätzten a + b · xi . Das Residuum di ist die Entsprechung von
εi . Wir können hier allerdings nicht von einer Schätzung sprechen, denn Zufallsvariablen
können nicht geschätzt werden, nur ihre Parameter.

In Abbildung 6.9 wurde der fiktive Verlauf einer wahren Geraden α + βx durch eine
Punktwolke angegeben. Die senkrechten Abweichungen der Punkte von dieser Geraden
sind Realisationen der Störgröße ε. Zugleich sehen wir hier die Schätzung der wahren
Geraden durch die Regressionsgerade a + bx. Die senkrechten Abweichungen der Punkte
von dieser Geraden sind die Residuen di = yi − (a + bxi ). Uns fällt auf, dass in unserem
Beispiel die Regressionsgerade sehr stark von der wahren Geraden abweicht. Hier ist
die Stichprobe etwas untypisch ausgefallen. Die Steigung der geschätzten Geraden ist
268 6 Analyse mehrerer Merkmale

gegenläufig. Aber in der Regel sollte die Steigung der Regressionsgeraden ungefähr gleich
der Steigung der wahren Geraden sein. Natürlich ist das Beispiel nur erfunden, hat aber
den Vorteil, dass für die Beschriftung innerhalb der Grafik genügend Platz ist.

y
45
geschätzt
40 a+bx

35
di
30 ei
di
25 di
ei
20 ei
di
15 a+bx
10 wahr, aber
unbekannt
5

0
0 10 20 30 40 50 60 70
x

Abb. 6.9: Wahre und geschätzte Gerade nebst Störgröße und Residuum.

Nun wollen wir die Regressionsgerade für Beispiel 6.8 berechnen. Das am häufigsten
verwendete Verfahren ist die Methode der kleinsten Quadrate, auch Minimum-Quadrat-
Methode genannt. Die Idee ist folgende: Wir legen eine Gerade so durch den Punkte-
schwarm, dass die Summe der quadrierten Residuen, also der senkrechten Abweichungen
di der Punkte von dieser Ausgleichsgeraden, minimiert wird. Die konkrete Aufgabe ist:
Suche die Werte von a und b, für welche die Quadratsumme der Residuen

n 
n
d2i = (yi − (a + bxi ))2 (6.13)
i=1 i=1

minimiert wird. Die Herleitung ist nicht sehr anspruchsvoll, aber eine mühselige Tour
durch die Welt der Summen, sodass wir uns diese sparen. Das Ergebnis des Minimierens
sind die Normalgleichungen

n 
n
na + b xi = yi , (6.14)
i=1 i=1


n 
n 
n
a xi + b x2i = xi yi . (6.15)
i=1 i=1 i=1
Die Formeln für die Regressionskoeffizienten der Geraden ŷ = a + bx können direkt
daraus ermittelt werden:
6.3 Regressionsanalyse 269

Formeln für die Regressionskoeffizienten a und b

Der Steigungskoeffizient b wird berechnet mit



n
(xi − x)(yi − y)
i=1
b= (6.16)
(xi − x)2

und das Absolutglied a mit

a = y − b · x. (6.17)

Wir berechnen also die Regressionskoeffizienten rekursiv (rekursiv bedeutet, dass man
für eine Berechnung das Ergebnis eines vorhergegangenen Schrittes verwendet), nämlich
erst b, dann damit a.

Tab. 6.16: Dekoartikel: Arbeitstabelle für das Berechnen der Regressionsgeraden.

i x y x −x y −y (x − x)(y − y ) (x − x)2 (y − y )2
1 20 15 −20 −10 200 400 100
2 50 35 10 10 100 100 100
3 30 15 −10 −10 100 100 100
4 50 25 10 0 0 100 0
5 40 15 0 −10 0 0 100
6 40 25 0 0 0 0 0
7 40 35 0 10 0 0 100
8 50 35 10 10 100 100 100
9 20 15 −20 −10 200 400 100
10 60 35 20 10 200 400 100
400 250 0 0 900 1600 800

Nun wollen wir es nicht so spannend machen und endlich für Beispiel 6.8 die Regres-
sionsgerade berechnen. Was ist unsere Aufgabe? Wir müssen die Datenwerte xi und yi
zentrieren mit den Mittelwerten
400 250
x= = 40 und y = = 25.
10 10
Dann berechnen wir alle (xi − x)(yi − y) und (xi − x)2 . Wir summieren die Produkte
auf und erhalten zunächst den Steigungskoeffizienten b. Die Berechnung können wir in
Tabelle 6.16 nachvollziehen. Wir erhalten nun mit den oben errechneten Summen
900
b= = 0,5625
1600
270 6 Analyse mehrerer Merkmale

und

a = y − b · x = 25 − 0,5625 · 40 = 2,5.

Unsere Regressionsgerade lautet

ŷ = 2,5 + 0,5625 · x.

Sie wird in Abbildung 6.10 dargestellt.




  
















       




 


Abb. 6.10: Regressionsgerade des Dekobeispiels.

ŷ wird „y-Dach“ ausgesprochen. Das Dach ist ein geläufiges Symbol für eine Schätzung.
So würde man beispielsweise statt b auch β̂ schreiben können, denn b ist eine Schätzung
für β. Was möchte uns diese Gerade mitteilen? Dass die Steigung b = 0,5625 ist. Ma-
thematisch ist die Steigung b die erste Ableitung der Funktion y = a + bx. Sie bedeutet
inhaltlich:

Um wie viel ändert sich y, wenn x um eine Einheit steigt?

In unserem Fall würde das heißen: Mit jedem Euro, den ein Kunde für Blumen mehr
ausgibt, steigt die Ausgabe für Dekoartikel im Durchschnitt um 0,5625 e. Letztere steigt
natürlich nicht bei jedem Kunden genau um 0,5625 e. Es kann mal mehr, mal weniger
sein. Deshalb der Zusatz „im Durchschnitt“.

Wie interpretieren wir a = 2,5? Setzen wir beispielsweise für x den Wert null ein, erhalten
wir ŷ = 2,5 + 0,5625 · 0 = 2,5. In mathematischer Hinsicht gibt also das Absolutglied
6.3 Regressionsanalyse 271

a den Wert von y an, der sich für x = 0 ergibt. Grafisch würde das auf der y-Achse
den Punkt bedeuten, durch den die Gerade geht. Deshalb nennt man das Absolutglied
auch den Achsenabschnitt. Interpretieren könnten wir a so: Auch wenn jemand keine
Blumen kauft, gibt er (im Durchschnitt) 2,5 e für Dekoartikel aus. Sinnvoll ist allerdings
die Verwendung von a nur, wenn x = 0 nicht zu weit von den beobachteten x-Werten
entfernt ist. In unserem Fall ist der kleinste Wert x = 20. Daher ist eine Interpretation
wie oben („Auch wenn jemand keine Blumen kauft, gibt er (im Durchschnitt) 2,5 e für
Dekoartikel aus“) wenig sinnvoll. Warum das so ist, erfahren wir auf Seite 286.

Wir können nun für jeden Wert von xi den Erwartungwert der Zufallsvariablen Y schät-
zen mit

ŷi = a + b · xi . (6.18)

Zum Beispiel sind ŷ1 = 2,5 + 0,5625 · 20 = 13,75 und ŷ2 = 2,5 + 0,5625 · 50 = 30,625. ŷi
wird Prognose genannt. Die komplette Liste der ŷi finden wir in Tabelle 6.17. Die Resi-
duen di können wir dann als Abweichung der geschätzten Werte ŷi von den beobachteten
yi berechnen, also

di = yi − ŷi = yi − (a + b · xi ). (6.19)

So erhalten wir beispielsweise d1 = 15 − 13,75 = 1,25 und d2 = 35 − 30,625 = 4,375.


Auch die Residuen sind in Tabelle 6.17 aufgeführt.

Tab. 6.17: Dekoartikel: Schätzwerte und Residuen.

i x y ŷ d
1 20 15 13,75 1,25
2 50 35 30,625 4,375
3 30 15 19,375 −4,375
4 50 25 30,625 −5,625
5 40 15 25 −10
6 40 25 25 0
7 40 35 25 10
8 50 35 30,625 4,375
9 20 15 13,75 1,25
10 60 35 36,25 −1,25
Summe 400 250 250 0

Bei genauerem Studium der Tabelle 6.17 sollte uns auffallen, dass die Summe 250 der ŷi
gleich der Summe der yi ist. Das ist kein Zufall, sondern ergibt sich mathematisch und
lässt sich auch einfach beweisen. Näheres finden wir beispielsweise bei Johnston (1984,
272 6 Analyse mehrerer Merkmale

S. 18 ff.). Dass auch die Summe der Residuen gleich null ist, ergibt sich mathematisch
und ist sogar erwünscht, denn die Störgröße streut ebenfalls um den Nullpunkt.

Wie beim Korrelationskoeffizienten können bei den Daten Mittelwerte auftreten, die ein
Zentrieren per Hand erschweren. Und wie beim Korrelationskoeffizienten können wir auch
hier den Verschiebungssatz bei der Berechnung von b anwenden.

Verschiebungssatz des Steigungskoeffizienten b

Der Verschiebungssatz für den Steigungskoeffizienten b lautet



n
xi · yi − n · x · y
i=1
b= . (6.20)

n
x2i − nx2
i=1

In Tabelle 6.18 sind die benötigten Zwischenwerte dargestellt. Wir verwenden die Sum-
men und erhalten
10 900 − 10 · 40 · 25 900
b= 2
= = 0,5625.
17 600 − 10 · 40 1600
a kann dann wieder mit der gewohnten Formel 6.17 ausgerechnet werden.

Tab. 6.18: Arbeitstabelle für Verschiebungssatz.

i x y xy x2
1 20 15 300 400
2 50 35 1750 2500
3 30 15 450 900
4 50 25 1250 2500
5 40 15 600 1600
6 40 25 1000 1600
7 40 35 1400 1600
8 50 35 1750 2500
9 20 15 300 400
10 60 35 2100 3600
Summe 400 250 10900 17600
6.3 Regressionsanalyse 273

6.3.2 Güte der Anpassung

n n
An Formel b = i=1 (xi − x)(yi − y)/ i=1 (xi − x)2 fällt sofort die Verwandschaft mit
dem Stichproben-Korrelationskoeffizienten rxy (Seite 252) auf. Und in der Tat ist auch
die Regressionsrechnung ein Verfahren, das auf der Linearität der Variablen x und y
basiert. Nicht ohne Grund resultiert eine Gerade. Die Methode der kleinsten Quadrate
ist also auch nur für Daten geeignet, die schon von vornherein Linearität versprechen.

Abb. 6.11: Regressionsgerade in der SO2 -Punktwolke.

Was passiert, wenn man diese Forderung nicht beachtet, können wir an dem SO2 -Beispiel
(Abbildung 6.6) sehen. Wir greifen in Abbildung 6.11 das Streudiagramm des Schwefel-
dioxidausstoßes von 1990 bis 2007 auf. Es wurde hier noch eine Regressionsgerade in
die Punktwolke gelegt. Wir erkennen, dass eine Prognose des Schwefeldioxidausstoßes in
die Zukunft mithilfe der Geraden nicht hilfreich ist, denn die Punkte wandern ab 2003
systematisch über die Gerade hinweg. Wir würden also bei einer Zukunftsschätzung ŷ
immer unterschätzen. Das Gleiche würde uns bei einer Schätzung für sehr frühe Jahre
passieren, denn auch hier driften die Punkte nach oben. Die Residuen streuen hier nicht
mehr zufällig um die Gerade herum, sondern sie liegen links sämtlich über der Geraden,
in der Mitte sämtlich unter der Geraden und rechts wieder oberhalb der Geraden. Die
Residuen enthalten also noch zusätzliche Informationen. Wir könnten aber versuchen,
statt y den reziproken Wert 1/y zu verwenden. Wir konnten anhand von Abbildung 6.6
lernen, dass der reziproke Wert yi∗ = 1/yi eine zufriedenstellende Gerade produziert.

Wir haben gelernt, dass für eine methodisch einwandfreie Regressionsanalyse die Stör-
größe εi der Zufallsvariablen Yi für alle i den Erwartungswert null haben soll. Außerdem
haben alle εi die gleiche Varianz und sind untereinander unkorreliert. Praktisch heißt das
für unser Regressionsmodell:
274 6 Analyse mehrerer Merkmale

Die Residuen sollen keinerlei systematische Information mehr enthalten, sondern


nur zufällig um die Regressionsgerade streuen.

Die einfachste Methode zur Überprüfung dieser Annahmen ist ein Streudiagramm, even-
tuell mit einer eingepassten Regressionsgeraden. Besonders nichtlineare Abhängigkeiten
werden hier deutlich sichtbar. Häufig hilft für die Linearisierung, x oder y durch eine
nichtlineare Funktion wie Logarithmieren, Wurzelziehen oder Quadrieren zu transfor-
mieren. Wir können verschiedene Transformationen ausprobieren und anhand des resul-
tierenden Streudiagramms den Erfolg überprüfen. In Abbildung 6.12 ist links ein Streu-
diagramm, bei dem die y-Werte exponentiell wachsen. Hier hilft das Logarithmieren:
Es wurde statt y als Zielvariable ln(y) verwendet. Mithilfe des natürlichen Logarith-
mus konnte eine lineare Abhängigkeitsstruktur erreicht werden. Wir würden also in der
praktischen Anwendung für die Berechnung der Regressionsgeraden statt y die trans-
formierten Werte y ∗ = ln(y) verwenden. Wenn wir an einem konkreten Prognosewert
für ein bestimmtes x interessiert sind, können wir ŷ ∗ delogarithmieren, das heißt, wir

berechnen dann ŷ = eŷ und erhalten damit einen Schätzwert, der den ursprünglichen
Daten entspricht.

y lny

x x

Abb. 6.12: Exponentielle Funktion und Linearisieren durch den natürlichen Logarithmus.

Ermahnung: Falls ein Hypothesentest bezüglich der Regression gemacht werden soll, muss
beachtet werden, dass bei einer transformierten Zielvariablen y ∗ die Zufallsvariable Y ∗
normalverteilt sein muss und nicht etwa Y .

Es gibt auch Ansätze der nichtlinearen Regression, bei der ein multiplikativer Ansatz,
etwa y = a · xb · d mittels Logarithmierung in einen additiven Ansatz ln(y) = ln(a) +
b · ln(x) + ln(d) umgewandelt wird. Diese Ansätze genießen methodisch mehr Ansehen
als das Transformieren einer Variablen, aber Letzteres genügt für den Hausgebrauch.
Näheres kann bei Johnston (1984, S. 61) nachgelesen werden.

Neben einer gegebenenfalls falschen funktionellen Abhängigkeitsstruktur verrät uns das


Streudiagramm beispielsweise auch, ob möglicherweise eine weitere unabhängige Variable
in das Regressionsmodell aufgenommen werden sollte. In Abbildung 6.13 sehen wir deut-
6.3 Regressionsanalyse 275

lich, dass hier die Residuen nicht mehr zufällig streuen. Es scheint neben dem linearen
Trend noch eine zyklische Schwankung die Zielvariable zu beeinflussen. Wir könnten hier
eine weitere unabhängige Variable einführen, die die Schwankungen abdeckt, sodass wir
beispielsweise ein Regressionsmodell ŷ = a + bx1 + c sin x1 aufstellen würden. Wir werden
in Abschnitt 6.3.4 einen kurzen Blick auf die Regression mit mehreren unabhängigen
Variablen werfen.

Abb. 6.13: Zyklische Schwankungen von y .

Alle diese Beispiele deuten auf Verletzungen des Annahmensystems der linearen Regres-
sion hin. Mit anderen Worten bedeutet das Annahmensystem nichts weiter, als dass die
Residuen zufällig streuen sollen und keine systematische Funktion mehr enthalten dürfen.

Die Interpretation so eines Streudiagramms ist nun Ermessenssache. Fein wäre ein Gü-
temaß für unser Regressionsmodell, das etwas mehr Objektivität verspricht. Für diese
Zwecke können wir das Bestimmtheitsmaß, auch Determinationskoeffizient genannt, ver-
wenden.

Wir wollen zuerst die Konzeption des Bestimmtheitsmaßes betrachten. In Abschnitt 1.5.1
wurde erwähnt, dass die Stichprobenvarianz als Maß für den Informationsgehalt in Daten
fungiert. Hier kann die gesamte Varianz s2y der y-Daten zerlegt werden in die Varianz s2ŷ ,
die aufgrund der Regression resultiert, und die Restvarianz s2d der Residuen,

s2y = s2ŷ + s2d , (6.21)

bzw.

n 
n 
n
(yi − y)2 (ŷi − ŷ)2 (di − d)2
i=1 i=1 i=1
= + . (6.22)
n−1 n−1 n−1
Es setzt sich also die gesamte Information, die in y steckt, zusammen aus der Information,
die mithilfe von x erklärt werden kann, und der restlichen Information, deren Herkunft
anderweitig ist und nicht erklärt werden kann.
276 6 Analyse mehrerer Merkmale

Da der Nenner der Summanden immer gleich ist, kann darauf verzichtet werden, und wir
erhalten die sogenannte Streuungszerlegung


n 
n 
n
(yi − y)2 = (ŷi − ŷ)2 + (di − d)2 . (6.23)
i=1 i=1 i=1

Wir haben es nun mit Quadratsummen zu tun. Eine Quadratsumme wird in der Literatur
häufig mit SS (für sum of squares) benannt. Da SS schön kurz und prägnant ist, wollen
wir das gerne aufgreifen. Für Formel 6.23 können wir nun schreiben

SST = SSE + SSR, (6.24)

wobei T in SST für die totale Streuung, E in SSE für die durch x erklärte Streuung
und R in SSR für die Streuung der Residuen steht.

Das Bestimmtheitsmaß wird r2 genannt. Es ist der Anteil der erklärten Streuung an der
Gesamtstreuung von y, also
SSE
r2 = . (6.25)
SST
Da die Quadratsummen nicht negativ werden können, gilt wegen der Streuungszerlegung
die Beziehung

0 ≤ r2 ≤ 1. (6.26)

Je größer der Anteil von SSE an SST , desto besser ist unser Regressionsmodell. Das
heißt, ein Bestimmtheitsmaß nahe bei eins zeigt eine eher gute Anpassung der Gerade
an die Daten an, eines nahe null eine eher schlechte.

Die Berechnung von r2 mithilfe von SST und SSE ist allerdings lusttötend, denn wir
müssen erst die Regressionskoeffizienten, daraus ŷ, die Differenzen y − ŷ und schließlich
die Quadratsummen ermitteln. Man kann jedoch leicht beweisen, dass für r2 auch gilt:

n
( (xi − x) · (yi − y))2
2 i=1
r = .

n 
n
(xi − x)2 · (yi − y)2
i=1 i=1

Ein Blick auf Formel 6.1 verrät uns, dass unser Bestimmtheitsmaß das Quadrat des
Korrelationskoeffizienten darstellt. Und deshalb heißt das Gebilde auch r2 . So ist das
Bestimmheitsmaß ebenfalls ein Gradmesser für die Linearität zwischen x und y. Natürlich
können wir auch bei r2 den Verschiebungssatz anwenden, der sich analog zu Formel 6.2
ergibt.
6.3 Regressionsanalyse 277

Wir wollen nun für unser Beispiel das Bestimmtheitsmaß ausrechnen. Wir haben bis auf
n 2
i=1 (yi − y) schon oben alles für die Berechnung von b verwendet. Diese Summe hatten
wir vorsorglich in Tabelle 6.16 gleich mit angegeben. Sie lautet 800. Wir erhalten nun

9002
r2 = = 0,6328.
1600 · 800
Das Regressionsmodell stellt uns einigermaßen zufrieden. Das Bestimmheitsmaß ent-

spricht einem Korrelationskoeffizienten von 0,6328 ≈ 0,8.

Anpassungsgüte eines Regressionsansatzes

Die Residuen des Regressionsmodells sollen keine systematische Information ent-


halten, sondern nur zufällig streuen. Ein x-y-Streudiagramm ist hilfreich für die
optische Beurteilung.

Ein Maß die Güte der Anpassung ist das Bestimmheitsmaß



n
(xi − x) · (yi − y))2
(
2 SSE i=1
r = = n . (6.27)
SST  n
(xi − x)2 · (yi − y)2
i=1 i=1

Es gibt den Anteil der durch das Modell erklärten Streuung SSE von y an sei-
ner Gesamtstreuung SST an. Je weiter weg r2 von null ist, desto besser ist die
Anpassung.

Mithilfe des Verschiebungssatzes kann das Bestimmheitsmaß errechnet werden als


 n 2

( xi · yi ) − n · x · y
r2 =  n i=1
 n . (6.28)
 2 
( xi ) − n · x2 · ( yi2 ) − n · y 2
i=1 i=1

6.3.3 Prognose

Neben der strukturellen Abhängigkeit von x und y interessiert uns bei der Regressions-
analyse auch, welchen Wert ŷ für einen frei vorgegebenen Wert x0 annimmt. Wir haben
oben (Seite 271) schon die Prognosewerte ŷi kennengelernt. Der Schätzwert ŷ0 für ein
beliebig vorgegebenes x0 wird ebenfalls als Prognose bezeichnet und berechnet sich als

ŷ0 = a + b · x0 . (6.29)
278 6 Analyse mehrerer Merkmale

ŷ0 ist folglich ein Punkt auf der Regressionsgeraden an der Stelle x0 . Wie viel würde
ein Käufer im Durchschnitt für Dekoartikel ausgeben, wenn er Blumen im Wert von
x0 = 25 e kaufte? Das wäre dann

ŷ0 = 2,5 + 0,5625 · 25 = 16,5625.

Solche Prognosen sollten nicht zu weit vom Beobachtungsraum weg liegen, weil mit wach-
sendem Abstand der x0 zu x die Breite der Konfidenzintervalle für die Prognose quadra-
tisch ansteigt, also die Zuverlässigkeit schnell sinkt.

6.3.4 Multiple Regression

Häufig begnügen wir uns in Regressionsmodellen mit nur einem Regressor, also einer
unabhängigen Variablen x. Wir haben aber die Möglichkeit, auch kompliziertere Re-
gressionsmodelle mit mehreren Regressoren zu verwenden, was ein sogenanntes multiples
Regressionsmodell ergibt. Wir gehen dann von einem Regressionsmodell mit p vielen
fest vorgegebenen unabhängigen Variablen xj (j = 1, . . . , p) aus, für die jeweils n viele
Beobachtungen vorliegen, und erhalten für die Zufallsvariable Y die Gleichung

Y = β0 + β1 x1 + β2 x2 + · · · + βp xp +  , (6.30)

wobei  wieder die Störgröße repräsentiert. Statt des Absolutglieds α verwenden wir hier
die Bezeichnung β0 , weil dann die gemeinsame Betrachtung der Regressionskoeffizien-
ten einfacher handzuhaben ist. Es liegen analog zu oben für die xj und Y je n viele
Beobachtungen vor, sodass sich das Gleichungssystem aus n Gleichungen

Yi = β0 + β1 xi1 + β2 xi2 + · · · + βp xip + i (6.31)

zusammensetzt. Für die konkrete Analyse der Daten verwendet man Matrizenrechnung,
denn diese ermöglicht eine einfach strukturierte Darstellung der Formeln. Das Ausrechnen
muss hier ohnehin ein Computer vornehmen. So etwas können wir nicht mehr auf die
Schnelle mit Papier und Bleistift erledigen. Allerdings führt in diesem Buch eine genauere
Darstellung zu weit.
6.4 Schätzen und Testen im Zusammenhang mit mehreren Merkmalen 279

6.4 Schätzen und Testen im Zusammenhang mit


mehreren Merkmalen – Wann ist ein linearer
Zusammenhang wirklich linear?

6.4.1 Test des Pearson’schen Korrelationskoeffizienten

Meistens interessiert uns bei einer Analyse zweier Zufallsvariablen X und Y , ob die
beiden korreliert sind oder nicht. Wollen wir den Pearson’schen Korrelationskoeffizienten
testen, müssen X und Y normalverteilt sein. Wir machen dann einen Signifikanztest und
prüfen die Nullhypothese, dass der Korrelationskoeffizient ρxy in der Grundgesamtheit
(Abschnitt 3.5.1) gleich null ist,

H0 : ρ = 0. (6.32)

Geschätzt wird ρ mit dem Stichproben-Korrelationskoeffienten rxy . Die dem Stichpro-


benwert rxy zugrunde liegende Zufallsvariable R hat unter H0 eine t-Verteilung mit n − 2
Freiheitsgraden. Sie besitzt dann den Erwartungwert ρ0 = 0. Ihre Varianz schätzen wir
mit (1 − r2 )/(n − 2).

Wir verwenden also den Prüfwert


r−0 r √
t=  = √ · n − 2.
1−r 2 1−r 2
n−2

Wir lehnen die Punkthypothese H0 : ρ = 0 ab, wenn t < −t(1 − α/2; n − 2) oder wenn t >
t(1 − α/2; n − 2) ist. Dann können wir annehmen, dass X und Y deutlich korreliert sind.

Signifikanztest des Pearson’schen Korrelationskoeffizienten

∗ Zu testender Kennwert: Korrelationskoeffizient ρ,


∗ Verteilung von X und Y : Normalverteilung.
Verwendet wird für die Prüfgröße T die Realisation
r √
t= √ · n − 2. (6.33)
1 − r2
Die Punkthypothese H0 : ρ = 0 wird abgelehnt, wenn t < −t(1 − α/2; n − 2) oder
wenn t > t(1 − α/2; n − 2) ist.
Da unkorrelierte normalverteilte Zufallsvariablen auch stochastisch unabhängig
sind, bedeutet das zugleich, dass X und Y unabhängig sind.
280 6 Analyse mehrerer Merkmale

Ist n−2 > 30, können wir die Quantile der t-Verteilung durch die entsprechenden Quantile
der Standardnormalverteilung ersetzen.

Greifen wir unser Taschengeldbeispiel (Beispiel 6.4) wieder auf. Wir wollen den Korrela-
tionskoeffizienten r = 0, 9375 auf Signifikanz testen, das heißt, wir prüfen die Nullhypo-
these H0 : ρ = 0. Das Signifikanzniveau soll 0,05 betragen. Der Nichtablehnungsbereich
für die Punkthypothese ist

[−t(0,975; 4); t(0,975; 4)] = [−2,776; 2,776].

Wir berechnen nun den konkreten Prüfwert


0,9375 √ 0,9375 √
t=  · 6−2= √ · 4 ≈ 5,39.
1 − 0,9375 2 0,1211

5,39 liegt im Ablehnungsbereich. Wir lehnen also H0 ab und gehen davon aus, dass x
und y korreliert sind.

Bemerkung: Die oben angegebene Prüfgröße gilt nur unter der Punkthypothese H0 : ρ =
0. Für anderweitige Tests wie Bereichshypothesen oder H0 : ρ = ρ0 = 0 ergibt sich eine
sogenannte nichtzentrale t-Verteilung der Prüfgröße. Diese kann nicht mehr ohne Weiteres
angegeben werden. Mithilfe der Fisher’schen Transformation können wir näherungsweise
einen Ablehnungsbereich errechnen. Wir wollen das aber in diesem Rahmen nicht weiter
vertiefen.

6.4.2 Test des Spearman’schen Rangkorrelationskoeffizienten

Analog zu oben beschränken wir uns auch hier auf den Signifikanztest mit der Nullhy-
pothese

H0 : ρ = 0. (6.34)

Die tatsächliche Verteilung der zu rs gehörenden Zufallsvariablen Rs ergibt sich aus dem
Symmetrieprinzip. Rs ist eine diskrete Zufallsvariable, deren Ausprägungen von den mög-
lichen Rangkombinationen bestimmt werden. Man spricht hier von einer Rangstatistik.
Bis n = 10 sind daher die kritischen Werte für rs tabelliert. Wir finden sie in Tabel-
le A.6. Für n > 10 können wir den Prüfwert t der Formel 6.33 verwenden. Wir lehnen
dann wieder H0 : ρ = 0 ab, wenn t < −t(1−α/2; n−2) oder wenn t > t(1−α/2; n−2) ist.
6.4 Schätzen und Testen im Zusammenhang mit mehreren Merkmalen 281

Signifikanztest des Spearman’schen Korrelationskoeffizienten

∗ Zu testender Kennwert: Korrelationskoeffizient ρ,


∗ Verteilung von X und Y : unbekannt, auch ordinales Skalenninveau möglich.
Die Punkthypothese H0 : ρ = 0 wird abgelehnt, wenn
für n ≤ 10 der errechnete Wert rs größer oder gleich dem kritischen Wert rα in
Tabelle A.6 ist
für n ≥ 10 für den Prüfwert
r √
t= √ · n−2 (6.35)
1−r 2

gilt: t < −t(1 − α/2; n − 2) oder t > t(1 − α/2; n − 2).

Unser Beispiel 6.5 (Seite 257) für den Spearman’schen Korrelationskoeffizienten war der
Zusammenhang zwischen BMI und dem Blutdruck. Es ergab sich rs = 0,4424. Hier ist
n nicht größer als 10, und wir müssen auf die Tabelle A.6 mit den kritischen Werten
verweisen. Wir würden H0 ablehnen, wenn rs ≥ 0, 65 ist. Das ist hier nicht der Fall und
wir können nicht davon ausgehen, dass BMI und Blutdruck korreliert sind.

6.4.3 Schätzen im einfachen linearen Regressionsmodell

Da die Regressionsanalyse altbekannt und weitgehend durchforscht ist, existieren in die-


sem Zusammenhang Schätzungen für Verteilungsparameter aller Art. Wir sehen uns die
wichtigsten näher an. Für Konfidenzintervalle und Hypothesentests benötigen wir die
Verteilungen der Schätzfunktionen. Um brauchbare Verteilungsfunktionen angeben zu
können, müssen wir voraussetzen, dass  und damit Y normalverteilt sind. Die Varian-
zen der Schätzfunktionen enthalten als Bestandteil die Varianz σ 2 der Störgröße . Wir
schätzen σ 2 mithilfe der Quadratsumme der Residuen als

n
d2i
2 i=1
s = . (6.36)
n−2
Unter Zuhilfenahme der Streuungszerlegung können wir die Varianz der Störgröße um-
formen zu einer einfacher zu berechnenden Formel:
282 6 Analyse mehrerer Merkmale

Stichprobenvarianz der Störgröße

Die Varianz σ 2 der Störgröße ε wird geschätzt mit der Formel

1  n
s2 = · (1 − r2 ) · (yi − ȳ)2 . (6.37)
n−2
i=1

Dabei bezeichnet r2 das Bestimmheitsmaß (Formel 6.27).

Schätzen der Regressionskoeffizienten α und β

Wir werden hier die beiden Parameter durch Hypothesentests prüfen. Da aber gerade
im klinischen Bereich häufig nur wenige Beobachtungen für eine Regressionsanalyse zur
Verfügung stehen, spielen auch Konfidenzintervalle eine große Rolle, um zu untersuchen,
wie zuverlässig unsere Schätzung der Regressionskoeffizienten ist.

Als Erstes benötigen wir die Schätzfunktionen der unbekannten Parameter α und β.
Wir schätzen sie mit konkreten Werten a und b. Wir wollen die zu a und b gehörenden
Schätzfunktionen als α̂ und β̂ bezeichnen. α̂ und β̂ sind beide lineare Funktionen von Y .
Bei normalverteiltem Y sind daher

α̂ normalverteilt mit dem Erwartungswert E(α̂) = α und der Varianz V (α̂) =


n
x2i
σ2 · i=1
und

n
n· (xi − x)2
i=1
β̂ normalverteilt mit dem Erwartungswert E(β̂) = β und der Varianz V (β̂) =
σ2
.
n
(xi − x)2
i=1

Es sind dann
α̂ − E(α̂) α̂ − α
Z=  = & (6.38)
V (α̂) ' 
n
' x2i
'
' i=1
σ·'
( 
n
n· (xi − x)2
i=1

und
β̂ − E(β̂) β̂ − β
Z=  = σ (6.39)
V (β̂) n

(xi − x)2
i=1
6.4 Schätzen und Testen im Zusammenhang mit mehreren Merkmalen 283

standardnormalverteilt. Wir verwenden nun für σ 2 die Schätzung s2 und erhalten dann
die standardisierten Schätzwerte
a−α
t= & (6.40)
' 
n
' x2i
'
' i=1
s'
( 
n
n· (xi − x)2
i=1

und
b−β
t= s . (6.41)
n

(xi − x)2
i=1

Die entsprechenden Schätzfunktionen sind t-verteilt mit n − 2 Freiheitsgraden.

Konfidenzintervalle der Regressionskoeffizienten

Für den Steigungskoeffizient β ergibt sich das (1 − α)-Konfidenzintervall als


⎡ ⎤
⎢ s s ⎥
⎢b −  · t; b +  n · t⎥ (6.42)
⎣ 
n  ⎦
(xi − x)2 (xi − x)2
i=1 i=1

und für das Absolutglied α als


⎡ & & ⎤
'  ' 
' n
2 ' n
2
⎢ ' x ' x ⎥
⎢ ' i
' i

⎢a − s'  · t; a + s'
i=1 i=1
· t⎥ . (6.43)
⎣ ( n ( 
n

n· (xi − x)2 n· (xi − x)2
i=1 i=1

Dabei bedeuten

s die Wurzel aus der Stichprobenvarianz in Formel 6.37,


t das (1 − α/2)-Quantil der t-Verteilung mit n − 2 Freiheitsgraden, also t(1 −
α/2; n − 2).

Beispiel 6.9 Konfidenzintervalle für Beispiel 6.8


Wir wollen für Beispiel 6.8 Konfidenzintervalle für die Regressionskoeffizienten ermit-
teln. Es war a = 2,5 und b = 0,5625.
284 6 Analyse mehrerer Merkmale

Wir benötigen die Stichprobenvarianz s2 als Schätzung für die Varianz der Störgröße. Es
ist

1 
n
1
s2 = (1 − r2 ) · (yi − ȳ)2 = (1 − 0,6328) · 800 = 36,71875.
n−2 8
i=1

Damit ist s ≈ 6,06.

Wir brauchen noch das (1 − α/2)-Quantil der t-Verteilung mit n − 2 Freiheitsgraden,


t(1 − α/2; n − 2). Mit 1 − α/2 = 1 − 0,025 = 0,975 ergibt sich

t(0,975; 8) = 2,306.

Wir erhalten für den Steigungskoeffizient β ein 0,95-Konfidenzintervall als



6,06 6,06
0,5625 − √ · 2,306; 0,5625 + √ · 2,306 ≈ [0,21; 0,91]
1600 1600
und entsprechend für α
   
17600 17600
2,5 − 6,06 · 2,306; 2,5 − 6,06 · 2,306 = [−7,15; 12,15].
10 · 1600 10 · 1600

Wir sehen, dass die Konfidenzintervalle für die Regressionskoeffizienten sehr groß sind,
was darauf zurückzuführen ist, dass zehn Beobachtungen sehr wenig sind.

Wenn wir b = 0,5625 so interpretieren, dass pro 1 e für Pflanzen 56,25 Cents für Dekoar-
tikel ausgegeben werden, teilt uns das Konfidenzintervall mit, dass in Wahrheit die antei-
ligen Ausgaben für Dekoartikel mit einer 95%igen Wahrscheinlichkeit zwischen 21,32 und
91,18 Cents liegen. Für die Marketingabteilung ist diese Schätzung nicht sehr hilfreich,
wenn mithilfe von b das Warenangebot konkret geplant werden soll. Das Konfidenzinter-
vall für α überdeckt sogar die Null, sodass hier möglicherweise α in Wahrheit null ist.

Verlässlichkeit eines Prognosewertes

Wir haben oben gelernt, dass eine Prognose der Wert ŷ0 = a + b · x0 für einen gegebe-
nen Wert x0 ist. ŷ0 liegt auf der Regressionsgeraden. Wir haben weiter erfahren, dass
x0 nicht zu weit von den Daten entfernt sein soll, genauer gesagt, nicht zu weit weg
vom Mittelwert x. Wird die Entfernung zu groß, sinkt die Verlässlichkeit der Prognose,
das heißt, ihr Konfidenzintervall wird schnell breiter. Wir können uns das anschaulich
an einem einfachen Beispiel erklären: Betrachten wir ein Regressionsmodell y = a + bx,
wobei x das Jahr und y die Arbeitslosenquote in dem Jahr x ist. Wir können mit der ge-
fundenen Regressionsgeraden möglicherweise die Arbeitslosenquote des nächsten Jahres
6.4 Schätzen und Testen im Zusammenhang mit mehreren Merkmalen 285

einigermaßen zutreffend prognostizieren, aber es ist unmöglich, die Arbeitslosenquote in


zehn Jahren anzugeben. In diesem Zeitraum gibt es so viele zufällige Einflüsse, dass hier
eine Prognose völligen Unsinn ergeben würde.

Vom Modell her fassen wir die Prognose als Erwartungswert der Zufallsvariablen Y für
einen gegebenen Wert x0 auf. Ohne weiter auf die Herleitung einzugehen, erhalten wir:

Konfidenzintervall für den Erwartungswert der Prognose

Das (1−α)-Konfidenzintervall für den Erwartungswert der Prognose bezüglich eines


Wertes x0 ist
⎡ ⎤
& &
⎢ ' ' ⎥
⎢ '1 (x0 − x̄)2 '1 (x0 − x̄)2 ⎥
⎢ŷ0 − t · s · ' +  ; ŷ 0 + t · s · ' +
 ⎥. (6.44)
⎣ (n n (n n

(xi − x̄)2 (xi − x̄)2
i=1 i=1

Dabei bezeichnen

x0 eine beliebige Konstante,


s die Wurzel aus der Stichprobenvarianz in Formel 6.37,
ŷ0 den Prognosewert a + b · x0 ,
t das (1−α/2)-Quantil der t-Verteilung mit n−2 Freiheitsgraden, t(1−α/2; n−2).

Speziell aus dieser Form des Konfidenzintervalls erkennt man sofort, dass das Konfidenz-
intervall breiter wird, wenn im Ausdruck (x0 − x̄)2 des Zählers unter der Wurzel x0 weiter
von x entfernt ist.

Bemerkung: Erwartungswert der Prognose bedeutet, dass in Wahrheit der Prognosewert


auch etwas größer oder kleiner als der errechnete Wert sein darf. Man kann ebenfalls
ein Konfidenzintervall für den Einzelwert der Prognose angeben, das heißt, der prognos-
tizierte Wert muss genau eintreffen. Dieses Konfidenzintervall ist um einiges breiter als
das obige, soll hier aber nicht weiter vertieft werden.

Beispiel 6.10 Dekoartikel


Wir wollen Konfidenzintervalle für den Erwartungswert der Prognose machen, und
zwar für x0 = 30 und x0 = 100.

Die dazugehörigen Prognosen sind mit ŷ0 = a + b · x

für x0 = 30 : ŷ0 = 2,5 + 0,5625 · 30 = 19,375


und für x0 = 100 : ŷ0 = 2,5 + 0,5625 · 100 = 58,75.
286 6 Analyse mehrerer Merkmale

Mit Formel 6.44 erhalten wir


 
1 (30 − 40)2
19,375 − 2,306 · 6,06 · + ;
10 1600
 
1 (30 − 40)2
19,375 + 2,306 · 6,06 · +
10 1600

= [13,742; 25,008]

und
 
1 (100 − 40)2
58,75 − 2,306 · 6,06 · + ;
10 1600
 
1 (100 − 40)2
58 + 2,306 · 6,06 · +
10 1600

= [37,329 ; 80,171] .

Auch diese Konfidenzintervalle beruhen auf zehn Beobachtungen und sind deshalb relativ
breit. Das erste beispielsweise besagt, dass ein Kunde, der 30 e für Pflanzen ausgibt,
mit einer Wahrscheinlichkeit von 95 % im Durchschnitt für Dekoartikel zwischen 13,742
und 25,008 e ausgibt. Die Breite des Konfindenzintervalls beträgt 25,008 − 13,742 =
11,266. Wir bemerken, dass das zweite Konfidenzintervall für x0 = 100 wesentlich breiter
ist als das erste, nämlich 80,171 − 37,329 = 42,842. Es ist fast viermal so groß wie
das erste.

Die Breite des Konfidenzintervalls steigt mit dem Quadrat von x0 − x̄.

Das ist der Grund, warum Prognosen nicht zu weit vom Zentrum x der Daten entfernt
sein sollten, um einigermaßen zuverlässig zu sein.

6.4.4 Testen im einfachen linearen Regressionsmodell

Zu einer korrekten Regressionsanalyse gehört auch die Hypothesenprüfung der Regressions-


koeffizienten.
6.4 Schätzen und Testen im Zusammenhang mit mehreren Merkmalen 287

Prüfung des Steigungskoeffizienten β

Das vorwiegende Interesse haben wir an dem Steigungskoeffizienten β, den wir mit b
schätzen. Ausgehend von der standardisierten Variablen in Formel 6.41 verwenden wir
für einen Hypothesentest den Prüfwert
b − β0
t= . (6.45)
 s

n
(xi −x)2
i=1

Die Punkthypothese H0 : β = β0 wird abgelehnt, wenn t < −t(1 − α/2; n − 2) oder


t > t(1 − α/2; n − 2) ist.
Die Höchsthypothese H0 : β ≤ β0 wird abgelehnt, wenn t > t(1 − α; n − 2) ist.
Die Mindesthypothese H0 : β ≥ β0 wird abgelehnt, wenn t < −t(1 − α; n − 2) ist.

Meistens genügt uns ein Signifikanztest H0 : β = 0, weil wir wissen wollen, ob über-
haupt zwischen x und y ein linearer Zusammenhang besteht. Hier gehen wir mit einem
reduzierten Prüfwert so vor:

Signifikanztest des Steigungskoeffizienten β

Für den Signifikanztest des Steigungskoeffizienten β ergibt sich der Prüfwert


b
t= . (6.46)
 s

n
(xi −x)2
i=1

Die Punkthypothese H0 : β = 0 wird abgelehnt, wenn t < −t(1 − α/2; n − 2) oder


t > t(1 − α/2; n − 2) ist.

Prüfung des Absolutglieds α

Als eher weniger bedeutend wird häufig der Hypothesentest bezüglich des Absolutglieds
α angesehen. Dabei gibt es durchaus relevante Fragestellungen für ein bestimmtes α, wie
wir in Beispiel 6.11 sehen werden. Die Schätzung für α ist a. Wir verwenden für einen
Hypothesentest ausgehend von der standardisierten Variablen in Formel 6.40 den zur
Prüfgröße gehörenden Prüfwert
a − α0
t= & . (6.47)
' 
n
' x2i
'
' i=1
s·'
( 
n
n· (xi − x)2
i=1
288 6 Analyse mehrerer Merkmale

Die Punkthypothese H0 : α = α0 wird abgelehnt, wenn t < −t(1 − α/2; n − 2) oder


t > t(1 − α/2; n − 2) ist.
Die Höchsthypothese H0 : α ≤ α0 wird abgelehnt, wenn t > t(1 − α; n − 2) ist.
Die Mindesthypothese H0 : α ≥ α0 wird abgelehnt, wenn t < −t(1 − α; n − 2) ist.

Meistens genügt uns ein Signifikanztest H0 : α = 0. Wir gehen mit einer vereinfachten
Prüfgröße folgendermaßen vor:

Signifikanztest das Absolutglied α

Für den Signifikanztest des Absolutglieds α ergibt sich der Prüfwert


a
t= & . (6.48)
' 
n
' x2i
'
' i=1
s·'
( 
n
n· (xi − x)2
i=1

Die Punkthypothese H0 : α = 0 wird abgelehnt, wenn t < −t(1 − α/2; n − 2) oder


t > t(1 − α/2; n − 2) ist.

Bemerkung: Verwenden wir eine statistische Software wie beispielsweise SPSS oder Mi-
nitab, erhalten wir bei der Ausgabe einer Regressionsrechnung auch die Testergebnisse
für H0 : α = 0 und H0 : β = 0. So können wir schnell nachprüfen, ob die Regressoren einen
signifikanten Beitrag zur Erklärung der Zielvariablen liefern können. Außerdem liefern
die Auswertungsprogramme eine Streuungszerlegung, wie wir sie in der Varianzanalyse
kennengelernt haben. Damit können wir zum einen das Bestimmtheitsmaß bestimmen
und zum anderen einen Test auf die Güte des gesamten Regressionsmodells errechnen.

Beispiel 6.11 Signifikanztests Beispiel 6.8 (α = 0,05)


Wir wollen für Beispiel 6.8 die Regressionskoeffizienten auf Signifikanz testen, das
heißt, wir testen, ob sie gleich null sind. Es war a = 2,5 und b = 0,5625.

Wir hatten bereits in Beispiel 6.9 s ≈ 6,06 errechnet. Außerdem ist

t(1 − α/2; 8) = t(0,975; 8) = 2,306.

Es wird nun beim Signifikanzniveau α = 0,05 geprüft: H0 : β = 0. Wird die Hypothese


abgelehnt, besteht vermutlich zwischen x und y ein ausgeprägter linearer Zusammenhang.

Der Nichtablehnungsbereich für die Realisation der t-verteilten Prüfgröße ist

[−t(0,975; n − 2); t(0,975; 8)] = [−2,306; 2,306].


6.4 Schätzen und Testen im Zusammenhang mit mehreren Merkmalen 289

Der Prüfwert beträgt


b 0,5625
t= s = = 3,71.
 6,06

n √
(xi − x)2 1600
i=1

t liegt im Ablehnungsbereich. b ist also signifikant; zwischen x und y besteht vermutlich


ein ausgeprägter linearer Zusammenhang.

Es wird beim Signifikanzniveau α = 0,05 geprüft H0 : α = 0. Wird die Hypothese abge-


lehnt, gilt eine Existenz des Absolutglieds als gesichert.

Unser Nichtablehnungsbereich für die t-verteilte Prüfgröße ist wie oben

[−2,306; 2,306].

Der Prüfwert ist


a 2,5
t= & =  = 0,39.
' 
n 17 600
' x2i 6,06 ·
' 10 · 1600
' i=1
s·'
( 
n
n· (xi − x)2
i=1

t liegt nun im Nichtablehnungsbereich. a ist insignifikant, ein Absolutglied ist nicht ge-
sichert. Es könnte also auch ein Regressionsmodell der Art y = bx zur Erklärung von x
genügen.

Test auf Güte des Regressionsmodells

Bevor man die einzelnen Regressionskoeffizienten testet, kann es sinnvoll sein, zuerst
zu prüfen, ob das Regressionsmodell insgesamt tauglich ist. Wir erinnern uns, dass das
Bestimmtheitsmaß r2 ein Gütemaß für die Anpassung der Regressionsgeraden an die
Daten ist. Es stellt den Anteil der durch x erklärten Streuung an der Gesamtstreuung
von y dar, also
SSE
r2 = .
SST
Hergeleitet wurde das von der Streuungszerlegung SST = SSE + SSR. SST setzt sich
zusammen aus SSE und der nicht erklärbaren Reststreuung SSR. Wir prüfen die Null-
hypothese

H0 : Das Bestimmheitsmaß ist null.


290 6 Analyse mehrerer Merkmale

Wenn diese Hypothese abgelehnt wird, können wir davon ausgehen, dass unser Regres-
sionsmodell ŷ = a + bx die Daten y ausreichend mithilfe von x erklärt. Wir führen also
einen Signifikanztest durch.

Wann führt der erhaltene Prüfwert zur Ablehnung? Wenn SSE in Verhältnis zur SSR
groß ist: Es sollen bei einem guten Regressionsmodell SSE möglichst groß und SSR mög-
lichst klein sein. Wir könnten also einen Quotienten SSE
SSR verwenden. Allerdings können
wir für diesen Quotienten keine Verteilung angeben. Aber wir haben es mit Quadratsum-
men zu tun. Wenn wir diese nun noch durch die Zahl ihrer Freiheitsgrade teilen, erhalten
wir eine Prüfgröße
SSE
F = 1 . (6.49)
SSR
n−2
F ist F -verteilt mit einem und n − 2 Freiheitsgraden.

In den gängigen Statistikprogrammen erhält man beim Berechnen eines Regressionsmo-


dells unter anderem eine Tabelle, die die Streuungszerlegung zusammen mit den jeweili-
gen Freiheitsgraden aufführt. Sie wird meistens ANOVA-Tabelle genannt, wobei ANOVA
analysis of variance bedeutet, also die Analyse der beteiligten Varianzen bzw. Streuun-
gen. Die ANOVA-Tabelle ist im Allgemeinen aufgebaut wie Tabelle 6.19.

Tab. 6.19: ANOVA-Tabelle.

Quelle der Quadratsumme Freiheitsgrade mittlere f -Prüfwert


Streuung Quadratsumme
SSE SSE/1
Regression SSE 1
1 SSR/(n − 1)
SSR
Residuen SSR n−2
n−2
total SST n−1

Wir sehen Tabelle 6.19 aufgeteilt nach Quelle der Streuung, Zahl der jeweiligen Frei-
heitsgrade, mittlere Quadratsumme als Quadratsumme durch die Freiheitsgrade geteilt
und schließlich den Prüfwert f , die Realisation der Prüfgröße F (Formel 6.49). Das Tei-
len durch 1 bei SSE mutet seltsam an. Allerdings hat man bei Regressionsmodellen
mit mehr Regressoren auch eine größere Zahl von Freiheitsgraden. In unserem speziellen
Regressionsmodell könnten wir die Eins auch weglassen.

Wir gehen also bei der Hypothesenprüfung folgendermaßen vor:


6.4 Schätzen und Testen im Zusammenhang mit mehreren Merkmalen 291

Test des gesamten Regressionsmodells mithilfe der ANOVA-Tabelle

Die Streuungen aus der Streuungszerlegung von y liegen in einer ANOVA-Tabelle


wie Tabelle 6.19 vor.

Der Prüfwert für die Hypothese

H0 : Das Bestimmheitsmaß ist null.

ist der Quotient


SSE
f= . (6.50)
SSR
n−2
Die Nullhypothese wird abgelehnt, wenn f > f (1 − α; 1; n − 2) ist.

Dabei sind

f (1 − α; 1; n − 2) das (1 − α)-Quantil der F -Verteilung mit einem und n − 2


Freiheitsgraden,
SSE und SSR die durch x erklärte Streuung und die nicht erklärte Reststreuung
von y.

Der Test mithilfe der ANOVA-Tabelle ist eher für den Einsatz von Computern ge-
dacht. Diese Darstellung erleichtert uns aber die Erläuterung der Varianzanalyse in Ab-
schnitt 6.5. Weiter unten lernen wir noch, wie man den Test manuell durchführt.

Wir wollen nun auf unser Beispiel 6.8 zurückgreifen. Es soll bei einem Signifikanzniveau
von α = 0,025 die Hypothese getestet werden:

H0 : Das Bestimmheitsmaß ist null.

Die ANOVA-Tabelle (Tabelle 6.21) soll erstellt werden. Für die Berechnung der Qua-
dratsummen müssen wir aber erst eine Arbeitstabelle aufmachen (Tabelle 6.20). Wie wir
Tabelle 6.20 beispielsweise entnehmen können, sind die Summen und damit die arithme-
tischen Mittel von ŷ und y immer gleich. Außerdem ist d = 0 und damit (di − d)2 = d2i .
Das erleichtert die Berechnung der Tabellenwerte.

SSE ist die Summe der (ŷi − y)2 und SSR ist die Summe der d2i . Wir erhalten also
SSE = 506,25 und SSR = 293,75. SST ist die Summe SSE + SSR = 800. Ein Vergleich
mit Tabelle 6.16 zeigt, dass tatsächlich SST = 800 ist. Jetzt können wir Tabelle 6.21 mit
Leben füllen.

Die Nullhypothese wird abgelehnt, wenn f > f (1 − α; 1; n − 2) = f (0,975; 1; 8) = 7, 57


ist, wie uns ein Blick in die F -Verteilungstabelle A.3a (Seite 320) verrät. Der Prüfwert
292 6 Analyse mehrerer Merkmale

ist laut Tabelle 6.21 gleich 13,79. Dieser Wert ist größer als 7,57. Wir lehnen H0 al-
so ab, was bedeutet, dass unser Bestimmheitsmaß ausreichend groß ist. Das gewählte
Regressionsmodell kann als geeignet angesehen werden.

Tab. 6.20: Arbeitstabelle für die ANOVA-Tabelle.

i xi yi ŷi ŷi − ŷ (ŷi − y )2 di (di − d )2


= ŷi − y = di2
1 20 15 13,75 −11,25 126,5625 1,25 1,5625
2 50 35 30,625 5,625 31,640625 4,375 19,140625
3 30 15 19,375 −5,625 31,640625 −4,375 19,140625
4 50 25 30,625 5,625 31,640625 −5,625 31,640625
5 40 15 25 0 0 −10 100
6 40 25 25 0 0 0 0
7 40 35 25 0 0 10 100
8 50 35 30,625 5,625 31,640625 4,375 19,140625
9 20 15 13,75 −11,25 126,5625 1,25 1,5625
10 60 35 36,25 11,25 126,5625 −1,25 1,5625
Summe 400 250 250 506,25 0 293,75

Tab. 6.21: ANOVA-Tabelle.

Quelle der Quadrat- Freiheits- mittlere f -Prüfwert


Streuung summe grade Quadratsumme
293,75
Regression 506,25 1 506,25 ≈ 13,79
36,71875
293,75
Residuen 293,75 8 = 36,71875
8
total 800,00 9

Für die manuelle Durchführung des Tests ist die ANOVA-Tabelle weniger geeignet, da
die Ermittlung der Quadratsummen aufwendig ist. Wir können aber den Test auch in
eine Form bringen, die mathematisch das Gleiche ist, jedoch einfacher zu rechnen.

Hier wollen wir das Bestimmheitsmaß r2 explizit für den Test auf die Güte des gesamten
Regressionsmodells verwenden. Wir können nämlich f = (SSE)/( SSR n−2 ) umformen zu

r2
f= .
1 − r2
n−2
Die zu f gehörende Schätzfunktion F ist F -verteilt mit einem und n − 2 Freiheitsgraden.
6.5 Varianzanalyse 293

Wir gehen folgendermaßen vor:

Test des gesamten Regressionsmodells mit r 2

Der Prüfwert für die Nullhypothese ist

r2
f= . (6.51)
1 − r2
n−2
Die Hypothese H0 : Das Bestimmheitsmaß ist null wird abgelehnt, wenn f > f (1 −
α; 1; n − 2) ist.

Dabei ist

r2 das Bestimmheitsmaß,
f (1 − α; 1; n − 2) das (1 − α)-Quantil der F -Verteilung mit einem und n − 2
Freiheitsgraden.

Wir besorgen uns auf Seite 277 den Wert r2 = 0,6328 und berechnen für Beispiel 6.8 den
Prüfwert
r2 0,6328
f= = ≈ 13,79.
1 − r2 1 − 0,6328
n−2 8

Wir sehen, es ergibt sich derselbe Prüfwert. Da auch der Ablehnungsbereich gleich ge-
blieben ist, wird hier ebenfalls H0 abgelehnt.

Bemerkung: Im einfachen linearen Regressionsmodell ŷ = a + bx ist dieser F -Test äqui-


valent zum Signifikanztest des Steigungskoeffizienten β.

6.5 Varianzanalyse – Varianz heißt Information

6.5.1 Einfaktorielle Varianzanalyse

Betrachten wir zunächst ein Beispiel, um das Prinzip der Varianzanalyse zu illustrieren.

Beispiel 6.12 Fahrfehler beim Telefonieren am Steuer


Im Rahmen einer Studie wurde untersucht, inwieweit Telefonieren am Steuer die Fahr-
tüchtigkeit beeinträchtigt. Man organisierte für drei Gruppen Versuchspersonen und
ließ die Personen im Stadtverkehr und auf der Autobahn fahren. Die erste Gruppe
294 6 Analyse mehrerer Merkmale

hatte kein Telefon im Auto, in der zweiten Gruppe wurde mit Handy am Steuer te-
lefoniert und in der dritten Gruppe mit Freisprechanlage. In den Gruppen 1 und 2
befanden sich je zehn Personen, in der Gruppe 3 zwölf. Bei jeder Person wurden die
Fahrfehler gezählt, wobei nicht zwischen schweren Fehlern und kleineren Fehlleistungen
unterschieden wurde. In Tabelle 6.22 wurden die Ergebnisse zusammengefasst.

Tab. 6.22: Zahl der Fahrfehler beim Fahren ohne Telefonieren, mit Telefonieren mit Handy
oder mit Freisprechanlage.

Nummer ohne Handy Freisprech-


anlage
A B C
1 2 10 3
2 4 10 6
3 4 9 5
4 2 12 6
5 3 7 6
6 2 9 8
7 4 10 7
8 2 10 9
9 4 7 6
10 3 6 7
11 5
12 4
Summe 30 90 72

Wir sehen sofort, dass die meisten Fehler beim Telefonieren mit Handy gemacht wurden,
dass aber auch das Telefonieren mit Freisprechanlage die Fahrer abgelenkt hatte. Wir
berechnen für jede Gruppe das arithmetische Mittel, also
30
y1 = = 3,
10
entsprechend y 2 = 9 und y 3 = 6. Auch an den Mittelwerten erkennen wir Unterschiede
in den drei Gruppen.

Nun wollen wir das Modell abstrahieren. Die Zahl der Fahrfehler ist eine metrisch skalier-
te Variable y, die Zielvariable oder abhängige Variable genannt wird. Wir bezeichnen die
Art des Telefonierens als einen Faktor, der sich auf die Fahrfehler auswirkt. Der Faktor
teilt sich in drei Stufen 1, 2 und 3 auf. Für jede Stufe j liegen nj viele Beobachtungen i
(i = 1, . . . , nj ) vor. Ein Beobachtungswert wird somit als yij eindeutig bezeichnet.

Bemerkung: Häufig wird in der Literatur der Stufenindex j zuerst genannt, weil die
Stufenzugehörigkeit als wichtiger als die Nummer der Beobachtung angesehen wird.
6.5 Varianzanalyse 295

Wir erhalten jetzt die allgemeine Tabelle:

Beobachtung Faktorstufe
i 1 2 3
1 y11 y12 y13
2 y21 y22 y23
3 y31 y32 y33
4 y41 y42 y43
5 y51 y52 y53
6 y61 y62 y63
7 y71 y72 y73
8 y81 y82 y83
9 y91 y92 y93
10 y101 y102 y103
11 y113
12 y123
Summe y1 y2 y3

Die Auswertung geschieht mithilfe verschiedener Summen. Für die Summe über eine
Stufe j schauen wir uns Stufe 1 an: Für die erste Stufe erhalten wir

y1 = 2 + 4 + 4 + . . . + 3 = 30,

also

n1
y1 = y11 + y21 + y31 + . . . + y10 1 = yi1
i=1

und allgemein für die Summe einer Stufe j entsprechend


nj
yj = y1j + y2j + y3j + . . . + ynj j = yij . (6.52)
i=1

Wir bezeichnen die Summe der Beobachtungen eines Faktors j als yj .

Die Summe der y-Werte über alle n = n1 + n2 + n3 Beobachtungen ist


3 
3 
nj
y1 + y2 + y3 = yj = yij . (6.53)
j=1 j=1 i=1
296 6 Analyse mehrerer Merkmale

Summen und Mittelwerte der Beobachtungswerte

Gegeben ist eine metrisch skalierte Variable y. Auf diese Variable wirkt ein Faktor
ein. Der Faktor teilt sich in p Stufen j (j = 1, 2, . . . , p) auf. Für jede Stufe j liegen
nj viele Beobachtungen i (i = 1, . . . , nj ) als yij vor. Eine Stufe wird auch Gruppe
genannt.

Die Merkmalssumme in einer Gruppe j ist


nj
yj = yij
i=1

und das Gruppenmittel


yj
yj = .
nj

Das arithmetische Mittel aus allen yij berechnen wir als


p
yj
j=1
y= .
n

Bei diesem Modell haben wir es mit der einfaktoriellen Varianzanalyse zu tun, weil ein
Faktor auf die Beobachtungswerte einwirkt. Wir nennen es kurz ANOVA-Modell. Wir
kennen diese Bezeichnung schon von der Regressionsanalyse (Seite 290) her, denn die
Aufteilung der Streuung ist vergleichbar.

Nun überlegen wir uns, was wir statistisch mit den Daten anfangen können. Uns in-
teressiert bei unserem Beispiel vor allem, ob die Stufen des Faktors „Art des Telefonie-
rens“ die abhängige Variable „Fahrfehler“ unterschiedlich beeinflussen. Wir wollen also
einen Test machen. Dazu müssen wir uns nun mit den stochastischen Eigenschaften des
Varianzanalyse-Modells befassen.

Eine einfache Möglichkeit besteht darin, sich den stochastischen Ansatz der Regressi-
onsanalyse auszuleihen. Und man kann in der Tat das Varianzanalyse-Modell auch als
multiples Regressionsmodell auffassen. Aber die Ausführung als multiples Regressions-
modell führt hier zu weit.

Wir erinnern uns an das Modellprinzip der Regressionsanalyse:

Wir betrachten eine lineare Beziehung Y = α + β · x + ε. x ist fest vorgegeben, also


eine Konstante, die wir verändern können. Die Zufallsvariable Y lässt sich dann in
den konstanten, systematischen Part α + β · x und die Zufallsvariable ε zerlegen. Die
6.5 Varianzanalyse 297

Parameter α und β sind unbekannt, da ε die Zusammensetzung der beiden Parts


verschleiert.
Mit jeder Realisation von Y tritt also auch zugleich ε auf. Und jedes dieser ε hat
den Erwartungswert null und dieselbe Varianz σ 2 . Außerdem sind die ε untereinander
stochastisch unabhängig.
Y besitzt den Erwartungswert

E(Y ) = α + β · x.

Das heißt, wir schätzen eigentlich den Erwartungswert von Y für jeden Wert von x.
Für die Schätzung der Regressionskoeffizienten liegen n viele Wertepaare (xi ; yi ) (i =
1, . . . , n) vor. Damit werden die Parameter geschätzt.
Die gesamte Streuung SST der beobachteten y-Werte lässt sich zerlegen in die Streu-
ung SSE, die mithilfe von x erklärt wird, und die Reststreuung SSR der Residuen.
Wir können das Wort Streuung durch Information ersetzen.

Nun variieren wir dieses Modell, um es an die Varianzanalyse anzupassen. Als Referenz-
modell lehnen wir uns an Beispiel 6.12 an.

Wir haben drei Grundgesamtheiten j vorliegen. Die erste (j = 1) besteht aus allen
auftretenden Zahlen von Fahrfehlern beim Fahren ohne Telefonieren, die zweite (j = 2)
aus den Zahlen der Fahrfehler mit Handytelefonaten und die dritte (j = 3) aus den Zahlen
der Fahrfehler bei Verwenden der Freisprechanlage. So eine Grundgesamtheit nennen wir
auch Gruppe. Sie entspricht der Stufe j des Faktors. Jeder Grundgesamtheit j entstammt
eine Zufallsvariable Yj .

Der Erwartungswert einer Zufallsvariablen Yj ist E(Yj ) = μj . Der Wert μj ist also
der durchschnittliche Beitrag von Fahrfehlern in einer Stufe. Dieser Beitrag kann nicht
beobachtet werden, denn er wird durch eine Störgröße ε überlagert. Es lässt sich also
jedes Yj schreiben als

Y1 = μ1 + ε,

Y2 = μ2 + ε,

Y3 = μ3 + ε.

Mit jeder Realisation einer Zufallsvariablen Yj ist auch eine Realisation von ε verbunden.
In Abbildung 6.14 wird das veranschaulicht. Wir haben die Grundgesamtheiten der drei
Gruppen nebeneinander aufgeführt. Jede Gruppe besitzt einen unbekannten Parameter
μj . In diesen Gruppen können Zufallsvariablen Y beobachtet werden. Deren Erwartungs-
wert ist jeweils μj . Jede Zufallsvariable Y geht mit der Störgröße ε einher. Einige Y wur-
den zusammen mit ε exemplarisch hervorgehoben. Mal ist ε größer als null, mal kleiner,
sodass die Realisationen der Y mal das Niveau μj überragen, mal darunterbleiben.
298 6 Analyse mehrerer Merkmale

Gruppe 1 Gruppe 2 Gruppe 3


ohne Telefonieren Handy Freisprechanlage
Y Y
e Y e Y
e Y e
Y Y Y e
e e e
Y
e m2
m3
m1

Abb. 6.14: Drei Gruppen mit ihren Zufallsvariablen Yj .

Wie schätzen wir das mittlere Niveau μj einer Stufe? Wir erheben für jede Gruppe j
nj viele Beobachtungen yij , wie oben schon gezeigt. Es bietet sich an, dass man das
durchschnittliche Niveau μj mit dem Stichprobendurchschnitt y j schätzt.

Die Beobachtungswerte yij können analog zur Zufallsvariablen

Yj = μj + εj

zerlegt werden in den Gruppenmittelwert y j und den verbleibenden Rest eij , das Resi-
duum,

yij = y j + eij . (6.54)

Mit y j schätzen wir μj . Das Residuum eij entspricht der Störgröße ij . Wie wir aber
aus Abschnitt 6.3.1 der Regressionsanalyse wissen, kann man das Residuum nicht als
Schätzung bezeichnen, denn eine Zufallsvariable kann man eigentlich nicht schätzen.

Um etwa einen Test auf Gleichheit der μj durchführen zu können, müssen wir wieder wie
bei der Regressionsanalyse bestimmte Verteilungsvoraussetzungen verlangen:

Jede Zufallsvariable εij hat den Erwartungswert null.


Alle εij besitzen dieselbe Varianz σ 2 .
Alle εij sind paarweise stochastisch unabhängig.

Mit anderen Worten: Wie im Regressionsmodell soll die Störgröße keine systematische
Information mehr enthalten und nur noch zufällig streuen.

Wir benötigen außerdem noch eine Zusatzannahme für Schätz- und Testverfahren: Die ε
müssen normalverteilt sein.

In Beispiel 6.12 sind y 1 = 3, y 1 = 9 und y 3 = 6. Den gesamten Mittelwert y berechnen


wir, indem wir über alle yij summieren und dann durch n = 32 teilen. Es ist also
1
y= (30 + 90 + 72) = 6.
32
6.5 Varianzanalyse 299

y würde hier die durchschnittliche Zahl aller Fahrfehler angeben.

Ebenso können wir analog zur Regressionsanalyse für jeden Beobachtungswert yij einen
Schätzwert ŷij angeben. Der ist allerdings einfacher gestrickt und wird berechnet als

ŷij = y j . (6.55)

Ebenso errechnet sich das Residuum dann als eij

eij = yij − ŷij = yij − y j . (6.56)

Wir wollen unsere Folgerungen nun für Beispiel 6.12 anwenden. Die Schätzwerte ŷij
werden zusammen mit den Residuen eij in einer Arbeitstabelle (Tabelle 6.23) aufgeführt.

Wir kommen nun zur Streuungszerlegung von y, das heißt hier, der yij : Die gesamte
Streuung SST der beobachteten yij -Werte lässt sich zerlegen in die Streuung SSE, die
mithilfe der Gruppenmittelwerte erklärt wird, und die Reststreuung SSR der Residuen:

SST = SSE + SSR.

Für unsere Varianzanalyse bedeutet das, ganz allgemein ausgedrückt, zunächst das For-
melgrauen:

 
p nj
 
p nj
 
p nj
2 2
(yij − y) = (ŷij − ŷ) + (eij − e)2 . (6.57)
j=1 i=1 j=1 i=1 j=1 i=1

Wir haben jetzt aber schon so viele Erfahrungen gesammelt, dass wir uns von diesen
Monstern nicht mehr einschüchtern lassen. Zäumen wir das Monster von der Seite des
Beispiels her auf.

Wir greifen SST heraus: Das ist die Quadratsumme



(jedes y − Mittelwert aller y)2 .

Der Gesamtmittelwert war 6. Wir hatten ihn berechnet als


Summe aller y 192
y= = = 6.
Zahl aller Beobachtungen 32
Wenn wir die Stufenaufteilung miteinbeziehen, erhalten wir drei Summen, nämlich
 
SST = (jedes y der Stufe 1 − y)2 + (jedes y der Stufe 2 − y)2

+ (jedes y der Stufe 2 − y)2


10 
10 
12
= (yi1 − y)2 + (yi2 − y)2 + (yi3 − y)2
i=1 i=1 i=1
300 6 Analyse mehrerer Merkmale


n1 
n2 
n3
= (yi1 − y)2 + (yi2 − y)2 + (yi3 − y)2 .
i=1 i=1 i=1

Nun müssen wir nur noch die Stufen j in die Summation einbeziehen und erhalten somit


3 
nj
SST = (yij − y)2 ,
j=1 i=1

als allgemeingültige Formel


 
p nj
SST = (yij − y)2 .
j=1 i=1

Wir betrachten nun SSE. Wir berechnen es mithilfe der Schätzwerte als

(jedes ŷ − Mittelwert aller ŷ)2 .

Wie in der Regressionsanalyse ist der Mittelwert der ŷ

ŷ = y,
192
was wie oben 32 = 6 ist. Außerdem wissen wir, dass der Schätzwert in jeder Stufe j

ŷ = y j

ist. Wenn wir das mit der Stufenaufteilung vereinen, erhalten wir
 
SSE = (jedes ŷ der Stufe 1 − y)2 + (jedes ŷ der Stufe 2 − y)2

+ (jedes ŷ der Stufe 3 − y)2


10 
10 
12
= (y 1 − y)2 + (y 2 − y)2 + (y 3 − y)2 .
i=1 i=1 i=1

Ein Blick auf Tabelle 6.23 zeigt, dass beispielsweise die Summe


10
(y 1 − y)2 = 10 · (y 1 − y)2
i=1

ist, weil in der ersten Stufe y 1 zehnmal vorkommt. Wir erhalten also für die drei Stufen

SSE = 10 · (y 1 − y)2 + 10 · (y 2 − y)2 + 12 · (y 3 − y)2

= n1 · (y 1 − y)2 + n2 · (y 2 − y)2 + n3 · (y 3 − y)2 .


Allgemein ist nun

p
SSE = nj · (y j − y)2 .
j=1
6.5 Varianzanalyse 301

Tab. 6.23: Arbeitstabelle für die Streuungszerlegung

j i yi j ŷi j ei j (ŷi j − ŷ )2 (ei j − e i j )2 (yi j − y )2


= yj = yi j − ŷi j = (y j − y )2 = ei2j
1 1 2 3 −1 9 1 16
1 2 4 3 1 9 1 4
1 3 4 3 1 9 1 4
1 4 2 3 −1 9 1 16
1 5 3 3 0 9 0 9
1 6 2 3 −1 9 1 16
1 7 4 3 1 9 1 4
1 8 2 3 −1 9 1 16
1 9 4 3 1 9 1 4
1 10 3 3 0 9 0 9

2 1 10 9 1 9 1 16
2 2 10 9 1 9 1 16
2 3 9 9 0 9 0 9
2 4 12 9 3 9 9 36
2 5 7 9 −2 9 4 1
2 6 9 9 0 9 0 9
2 7 10 9 1 9 1 16
2 8 10 9 1 9 1 16
2 9 7 9 −2 9 4 1
2 10 6 9 −3 9 9 0

3 1 3 6 −3 0 9 9
3 2 6 6 0 0 0 0
3 3 5 6 −1 0 1 1
3 4 6 6 0 0 0 0
3 5 6 6 0 0 0 0
3 6 8 6 2 0 4 4
3 7 7 6 1 0 1 1
3 8 9 6 3 0 9 9
3 9 6 6 0 0 0 0
3 10 7 6 1 0 1 1
3 11 5 6 −1 0 1 1
3 12 4 6 −2 0 4 4
Summe 192 192 0 180 68 248
SSE SSR SST
302 6 Analyse mehrerer Merkmale

Uns fehlt nun noch SSR. Es ist



(jedes Residuum e − Mittelwert aller Residuen e)2

bzw.
 
SSR = (jedes Residuum e der Stufe 1−e)2 + (jedes Residuum e der Stufe 2−e)2

+ (jedes Residuum e der Stufe 3 − e)2 .
Wie können wir das möglichst schnell berechnen? Es ist zunächst e = 0. Außerdem gilt
eij = yij − ŷij = yij − y j . Wir erhalten nun


10 
10 
12
SSR = (yi1 − y 1 )2 + (yi2 − y 2 )2 + (yi3 − y 3 )2 ,
i=1 i=1 i=1

allgemeiner

n1 
n2 
n3
SSR = (yi1 − y 1 )2 + (yi2 − y 2 )2 + (yi3 − y 3 )2 .
i=1 i=1 i=1

Beziehen wir die Stufen in die Summation ein, können wir nun angeben

3 
nj
SSR = (yij − y j )2 ,
j=1 i=1

allgemeiner
 
p nj
SSR = (yij − y j )2 .
j=1 i=1

Streuungszerlegung der Beobachtungswerte

Für die Beobachtungwerte yij gilt die Streuungszerlegung

SST = SSE + SSR,

also
 
p nj

p
 
p nj
(yij − y)2 = nj · (y j − y)2 + (yij − y j )2 . (6.58)
j=1 i=1 j=1 j=1 i=1

Dabei ist

yij die i-te Beobachtung von y in der Stufe j,


y das Gesamtmittel über alle y-Werte,
y j das arithmetische Mittel der y-Werte einer Stufe j.
6.5 Varianzanalyse 303

Bemerkung: Häufig wird SSE als SSB und SSR als SSW bezeichnet. B bedeutet bet-
ween; es handelt sich also bei SSB um die Streuung zwischen den Mittelwerten der
Gruppen. W bedeutet within; es handelt sich also bei SSW um die Streuung innerhalb
der Gruppen. Um die Quadratsummen etwas übersichtlicher zu gestalten, fassen wir sie
wieder (wie in Tabelle 6.19) in einer ANOVA-Tabelle (Tabelle 6.24) zusammen.

Tab. 6.24: ANOVA-Tabelle.

Quelle der Quadratsumme Freiheitsgrade mittlere f -Prüfwert


Streuung Quadratsumme
SSE SSE/(p − 1)
Faktor SSE p-1
p−1 SSR/(n − p)
SSR
Residuen SSR n−p
n−p
total SST n−1

Wir kommen nun zum Testverfahren. Wir wollen wissen, ob deutliche Unterschiede in den
mittleren Beiträgen der Stufen zur Variablen y existieren. Um sicher zu sein, testen wir
wieder die entgegengesetzte Hypothese – wir machen einen Signifikanztest. Wir prüfen
für das Beispiel also die Nullhypothese

H0 : μ1 = μ2 = μ3 .

Die Alternativhypothese lautet: Mindestens ein Paar der μj sind ungleich. Wird H0 abge-
lehnt, können wir davon ausgehen, dass die durchschnittlichen Beiträge von mindestens
zwei Stufen unterschiedlich sind.

Wie auch in der Regressionsanalye ist SSE ein Maß für die Güte des Varianzanalyse-
Modells. Je weiter die Gruppenmittelwerte y j voneinander entfernt sind, desto größer
wird SSE. Und desto kleiner wird aufgrund der Streuungszerlegung SSR. Wir verwen-
den also wie in der Regressionsanalyse für die Prüfgröße den Quotienten der mittleren
Quadratsummen
SSE/(p − 1)
f= .
SSR/(n − p)
Die zu f gehörende Zufallsvariable F ist wieder F -verteilt mit p − 1 und n − p Freiheits-
graden. Wird der Quotient groß, führt das zur Ablehnung der Nullhypothese.

Prüfung der Erwartungswerte im einfaktoriellen Varianzanalyse-Modell

Gegeben ist eine metrisch skalierte abhängige Variable y, auf die ein Faktor einwirkt,
der in p Stufen, auch Gruppen genannt, aufgeteilt ist. Zu jeder Stufe j liegen nj
Beobachtungen von y vor.
304 6 Analyse mehrerer Merkmale

Es wird im einfaktoriellen Varianzanalyse-Modell die Nullhypothese

H0 : μ1 = μ2 = . . . = μp

geprüft. Der Prüfwert lautet

SSE/(p − 1)
f= . (6.59)
SSR/(n − p)

H0 wird abgelehnt, wenn f > f (1 − α; p − 1; n − p) ist.

Dabei ist f (1 − α; p − 1; n − p) das (1 − α)-Quantil der F -Verteilung mit p − 1 und


n − p Freiheitsgraden.

SSE und SSR werden anhand von Formel 6.58 ermittelt.

Wir wollen nun für Beispiel 6.12 den Signifikanztest durchführen. Wir wählen ein Signi-
fikanzniveau α = 0, 025. Der kritische Wert für die Ablehnung von H0 ist f (1 − α; p −
1; n − p) = f (0, 975; 2; 29) ≈ 4, 2.

Wir berechnen

p
SSE = nj · (y j − y)2
j=1

= 10 · (3 − 6)2 + 10 · (9 − 6)2 + 12 · (6 − 6)2 = 90 + 90 + 0 = 180


und
 
p nj
SSR = (yij − y j )2 = (2 − 3)2 + (3 − 3)2 + (4 − 3)2 + . . .
j=1 i=1

+(10 − 9)2 + (10 − 9)2 + . . . + (3 − 6)2 + (6 − 6)2 + . . . = 8 + 30 + 30 = 68.


Der Prüfwert ist nun
SSE/(p − 1) 180/(3 − 1)
f= = = 38, 38.
SSR/(n − p) 68/(32 − 3)
Dieser Wert ist signifikant größer als 4,2 und H0 wird abgelehnt. Die Art des Telefonierens
beeinflusst offensichtlich die Zahl der Fahrfehler.

Reparametrisierung

Wir wollen nun das Varianzanalyse-Modell aus einem weiteren Blickwinkel betrachten.
Wir können das Modell Yij = μj + ij auch etwas anders strukturieren, indem wir die
Abweichung αj = μj − μ einführen. Es folgt dann

Yij = μ + αj + ij . (6.60)


6.5 Varianzanalyse 305

μ enthält den allgemeinen Mittelwert der Grundgesamtheit. αj gibt den speziellen Ein-
fluss an, den die Stufe j auf die Zielvariable Y ausübt. Wir nennen αj einen Effekt.

Die Darstellung mit Effekten wird als Reparametrisierung der Gleichung Yji = μj + ji
bezeichnet. Es gilt übrigens


p
α1 + α2 + · · · = αj = 0. (6.61)
j=1

Positive und negative Effekte saldieren sich also. In der Stichprobe schätzen wir αj mit

aj = y j − y. (6.62)

Auch hier haben wir die Rechenregel


p
a1 + a2 + · · · = aj = 0. (6.63)
j=1

In unserem Beispiel sind a1 = 3 − 6 = −3, a2 = 9 − 6 = 3 und a3 = 6 − 6 = 0. Der


Effekt, nämlich der durchschnittliche Beitrag, der Stufe 1 zu den Fahrfehlern beträgt also
a1 = −3, und der Effekt der Stufe 2 ist +3.

Die Nullhypothese lautet

H0 : α1 = α2 = . . . αp = 0. (6.64)

Sie ist äquivalent zum Test der Gleichheit der μj und verwendet die gleiche Vorgehens-
weise.

6.5.2 Zweifaktorielle Varianzanalyse

Das einfache ANOVA-Modell von oben lässt sich beliebig erweitern. Die Varianzanalyse
erlaubt derartig viele Spielarten, dass darüber eigene Bücher geschrieben wurden. Ge-
meinsam ist diesen Modellen aber immer die Zerlegung der gesamten Streuung in die
jeweils benötigten Teilstreuungen.

Wir wollen eine weitere häufig verwendete Variante des Varianzanalyse-Modells betrach-
ten: die zweifaktorielle Varianzanalyse.

Es existieren zwei Faktoren A und B, die auf eine Zielvariable y einwirken. Faktor A hat
die Stufen j (j = 1, . . . , p), und Faktor B hat die Stufen k (k = 1, . . . , r). In jeder von
einer Stufe j und k gebildeten Gruppe liegen die gemeinsamen Beobachtungen i einer
Zielvariablen yijk vor.
306 6 Analyse mehrerer Merkmale

Aus methodischen Gründen sollten wir hier für jedes Stufenpaar (jk) die gleiche Zahl
von Beobachtungen njk = m festlegen. Es ist dann die Gesamtzahl der Beobachtungen
n = p · r · m. Wir haben also die Haupteffekte für die Stufen der Faktoren A und B, aber
auch Effekte von (AB-)Gruppen, sogenannte Interaktionen oder Wechselwirkungen. Wir
werden damit beispielsweise analysieren, ob zwei Faktorstufen sich verstärken oder ob
ihre Effekte möglicherweise unabhängig sind.

Beispiel 6.13 Zufriedenheit von Schülern


Franz ist ehemaliger Schüler des Marie-Curie-Gymnasiums. In seiner Bachelorarbeit
untersucht er Faktoren, die für das Wohlbefinden von Schülern an ihrer Schule ent-
scheidend sind. Er hat dafür einen Wohlfühlindex konstruiert, der von 0 bis 100 geht.
Je größer sein Wert, desto besser fühlt sich der Schüler oder die Schülerin an der Schu-
le aufgehoben. Die Werte entstammen einer normalverteilten Grundgesamtheit. Franz
vermutet, dass in der Regel die jüngeren Schüler zufriedener sind als die älteren und
dass die Mädchen tendenziell zufriedener sind als die Jungen. Er sucht sich aus den
Jahrgangsstufen 5, 7 und 9 je zehn Schüler und je zehn Schülerinnen zufällig aus.

In Tabelle 6.25 sind für die Faktoren Jahrgangsstufe und Geschlecht die beobachteten
Werte des Wohlfühlindex y aufgeführt. In den Zellen der Tabelle sind die beobachteten
Werte aufgeführt, rechts und unten stehen die Summen über Zeilen und Spalten.

Tab. 6.25: Wohlfühlindex von je zehn Schülern nach Jahrgangsstufe und Geschlecht.

Jahrgangstufe Faktor B
mit den Stufen
Faktor A 5. Jahrgangs- 7. Jahrgangs- 9. Jahrgangs- Summe
in den stufe stufe stufe
Stufen 1 2 3
männlich 1 48 81 69 69 50 37 62 67 43 50 52 71 43 48 71 1740
74 64 67 69 69 52 57 40 45 57 55 43 71 40 76
weiblich 2 33 67 48 48 62 62 40 74 43 48 42 62 62 69 57 1710
64 83 71 71 83 57 45 60 56 55 43 50 55 48 52
Summe 1290 1050 1110 3450

Wir benötigen analog zur einfaktoriellen Varianzanalyse vor allem Summen. Wir sum-
mieren also die Werte in den Zellen der Datentabelle 6.25 auf. Wir finden die Summen in
Tabelle 6.26. In den Zellen der Tabelle stehen die Summen für die Interaktionen. So ist
beispielsweise die Summe der Daten für die Jahrgangsstufe 9 und Schülerinnen y23 = 540.
Am Rand der Tabelle sind die Gesamtsummen für die Faktorstufen aufgeführt. So ist
zum Beispiel die Summe der Daten für die männlichen Schüler y1A = 1740. Bei kon-
kreten Daten müssen wir noch den Buchstaben des Faktors hinzufügen, damit klar ist,
6.5 Varianzanalyse 307

um welchen Faktor es sich handelt. In der Formel genügt die Angabe j oder k für eine
eindeutige Kennzeichnung des Faktors.

Tab. 6.26: Wohlfühlindex von je zehn Schülern nach Jahrgangsstufe und Geschlecht:
Mittelwerte.

Faktor B Summe
Faktor A 1 2 3
1 y11 = 660 y12 = 510 y13 = 570 y1A = 1740
2 y21 = 630 y22 = 540 y23 = 540 y2A = 1710
Summe y1B = 1290 y2B = 1050 y3B = 1110 y = 3450

Nun wollen wir die benötigten Mittelwerte berechnen. Wir können Mittelwerte erhalten
über die Stufen der Faktoren und auch für jede Stufenkombination der Faktoren A und
B, die Interaktionen. Die Mittelwerte berechnen sich wieder als Summe der beteiligten
Beobachtungen, geteilt durch ihre Anzahl. So ist beispielsweise
630
y 21 = = 63
10
und
1740
y 1A = = 58.
3 · 10
Der gesamte Mittelwert ist
3450
y= = 57,5.
6 · 10
Wir können also als Formel der Mittelwerte angeben

für die Stufen


1 
r 
m
yj = · yijk (denn wir summieren über r Spalten) und
r·m
k=1 i=1

1 
p

m
yk = · yijk (denn wir summieren über p Zeilen),
p·m
j=1 i=1

für die Interaktionen


1 
m
y jk = · yijk ,
m
i=1

für das gesamte Mittel

1 
p

r 
m
y= · yijk .
p·r·m
j=1 k=1 i=1
308 6 Analyse mehrerer Merkmale

Wir wollen uns aber von diesen Formeln nicht einschüchtern lassen und merken uns ein-
fach, dass ein arithmetisches Mittel immer die Zahl der entsprechenden Beobachtungen
geteilt durch ihre Anzahl ist. In Tabelle 6.27 sind die arithmetischen Mittel zusammenge-
fasst. Ein erster Blick verrät, dass ein sichtbarer Unterschied der Mittelwerte der ersten
Stufe von B zu den anderen Mittelwerten besteht. Die restlichen Mittelwerte unterschei-
den sich auf den ersten Blick nicht wesentlich. Ob bedeutsame Unterschiede vorliegen,
werden wir später sehen.

Tab. 6.27: Wohlfühlindex von je zehn Schülern nach Jahrgangsstufe und Geschlecht:
Mittelwerte.

Faktor B
Faktor A 1 2 3
1 y 11 = 66 y 12 = 51 y 13 = 57 y 1A = 58
2 y 21 = 63 y 22 = 54 y 23 = 54 y 2A = 57
y 1B = 64,5 y 2B = 52,5 y 3B = 55,5 y = 57,5

Gruppen und Mittelwerte

Gegeben ist eine metrisch skalierte abhängige Variable y, auf die zwei Faktoren A
und B einwirken. Der Faktor A hat die Stufen j (j = 1, . . . , p), und der Faktor
B hat die Stufen k (k = 1, . . . , r). Für jedes Paar zweier Stufen j und k, das wir
Gruppe nennen, liegen m Beobachtungen von y vor.

Der Mittelwert in einer Gruppe ist die Summe der Beobachtungen in dieser Grup-
pe geteilt durch m. Er heißt y jk .
Der Mittelwert in einer Stufe ist die Summe der Beobachtungen in dieser Gruppe
geteilt durch ihre Gesamtzahl. Er heißt je nach Faktor y jA oder y kB .
Der gesamte Mittelwert ist die Summe aller Beobachtungen geteilt durch die
Anzahl n aller Beobachtungen. Er heißt y.

Nun wollen wir das zweifaktorielle Varianzanalyse-Modell von der stochastischen Seite
angehen.

Wir betrachten eine Grundgesamtheit von Zufallsvariablen Y . Diese Gesamtheit lässt


sich in die von den gemeinsamen Faktorstufen jk gebildeten Gruppen zerlegen. Zu jeder
Teilgesamtheit gehört eine Zufallsvariable Y . Der Erwartungswert einer Zufallsvariablen
Y aus der Gruppe jk ist analog zu oben jeweils μjk . Der Wert μjk ist also der von
zwei Stufen gemeinsam verursachte durchschnittliche Beitrag zu Y . Dieser Beitrag kann
6.5 Varianzanalyse 309

nicht beobachtet werden, denn er wird durch eine Störgröße ε überlagert. Betrachten wir
Beispiel 6.13. Es lässt sich jedes Yjk schreiben als

Y11 = μ11 + ε,

Y12 = μ12 + ε,
..
.

Y23 = μ23 + ε.

Mit jeder Realisation einer Zufallsvariablen Yjk ist auch eine Realisation von ε verbunden.
Aus methodischen Gründen gelten für die zu Yijk gehörende Störgröße εijk folgende
Annahmen:

Alle εijk haben den Erwartungswert null.


Alle εijk haben die gleiche Varianz σ 2 .
Alle εijk sind paarweise stochastisch unabhängig.
Für Zwecke des Schätzens sollen die εijk normalverteilt sein.

Wie schätzen wir das mittlere Niveau μjk einer Stufenkombination jk? Wir erheben für
jede Gruppe jk m viele Beobachtungen yijk , wie oben schon gezeigt. Es bietet sich an,
dass man das durchschnittliche Niveau μjk mit dem Stichprobendurchschnitt y jk schätzt.

Neben den gruppenspezifischen Erwartungswerten μjk , die den gemeinsamen Einfluss der
beiden Stufen auf Y messen, betrachten wir noch stufenspezifische Erwartungswerte μj ,
die nur den durchschnittlichen Beitrag der Stufe j von Faktor A auf Y erfassen, entspre-
chend μk für den Faktor B. Außerdem definieren wir noch den allgemeinen Erwartungs-
wert μ, der das mittlere Niveau der Zufallsvariablen Y über die totale Grundgesamtheit
angibt.

Soweit ein kurzer Abriss der Modellkonzeption.

Nun werden wir das Varianzanalyse-Modell reparametrisieren, denn das erleichtert die
Analyse: Wir haben den allgemeinen Erwartungswert μ, die faktorspezifischen Erwar-
tungswerte μj und μk und die gruppenspezifischen Erwartungswerte μjk .

Die Effekte des Faktors A sind

αj = μj − μ (6.65)

und die des Faktors B

βk = μk − μ. (6.66)

Allen Zufallsvariablen gemeinsam ist der gesamte Mittelwert μ. Der Effekt ist der über
μ hinausgehende spezielle durchschnittliche Beitrag einer Stufe zur Zielvariablen.
310 6 Analyse mehrerer Merkmale

Die Interaktionseffekte (αβ)jk sind das, was von den Erwartungswerten in einer Gruppe
übrig bleibt, wenn das allgemeine Mittel und die Stufeneffekte entfernt werden, also

(αβ)jk = μjk − μ − (αj + βk ). (6.67)

Wir setzen αβ in Klammern, damit wir es nicht mit α · β verwechseln.

Es setzt sich jede Stichprobenvariable Yijk also zusammen aus den Erwartungswerten
und der zufällig schwankenden Störgröße ,

Yijk = μ + αj + βk + (αβ)jk + ijk . (6.68)

Was wollen wir nun hier testen? Wir möchten Folgendes wissen:

Sind Effekte des Faktors A unterschiedlich? Wir testen als Nullhypothese

H0 : α1 = α2 = . . . = αp = 0

mit der Alternativhypothese: Mindestens ein α = 0.


Sind Effekte des Faktors B unterschiedlich? Wir testen als Nullhypothese

H0 : β1 = β2 = . . . = βr = 0

mit der Alternativhypothese: Mindestens ein β = 0.


Liegen Interaktionseffekte vor? Wir testen als Nullhypothese

H0 : (αβ)jk = 0 für alle Paare jk

mit der Alternativhypothese: Mindestens ein H0 : (αβ)jk = 0.

Wir gehen wir praktisch vor? Wir brauchen für unsere Streuungszerlegung zunächst die
Schätzungen für die verschiedenen Erwartungswerte:

für μ das arithmetische Mittel über alle Beobachtungen

1 
p

r 
m
y= · yijk , (6.69)
p·r·m
j=1 k=1 i=1

für αj das Mittel der Beobachtungen in der Stufe j als Schätzung

1 
r 
m
aj = y j − y = · yijk − y, (6.70)
r·m
k=1 i=1

für βk das Mittel der Beobachtungen in der Stufe k als Schätzung

1 
p

m
bk = y k − y = · yijk − y, (6.71)
p·m
j=1 i=1
6.5 Varianzanalyse 311

für (αβ)jk das Mittel der Beobachtungen der Wechselwirkung jk als Schätzung

1 
m
(ab)jk = · yijk − aj − bk − y. (6.72)
m
i=1

Schätzung der Effekte

Der Effekt einer Stufe ist der spezielle Einfluss, den diese Stufe auf die Zielvariable
ausübt. Die Stufeneffekte werden berechnet mit

aj = y j − y

(j = 1, . . . , p) für die Stufen des Faktors A und mit

bk = y k − y

(k = 1, . . . , r) für die Stufen des Faktors B. Der Interaktionseffekt ist der spezi-
elle Einfluss, den eine Gruppe jk auf die Zielvariable ausübt. Dieser Effekt wird
berechnet mit

(ab)jk = y jk − aj − bk − y.

Damit können wir unsere Quadratsummen berechnen:

für αj

p
SSA = r · m · a2j , (6.73)
j=1

für βk

r
SSB = p · m · b2k , (6.74)
k=1

für (αβ)jk

p

r
SS(AB) = m · (ab)2jk . (6.75)
j=1 k=1

Analog zur einfaktoriellen Varianzanalyse setzt sich auch in der zweifaktoriellen die ge-
samte Streuung der Daten aus dem Part zusammen, der sich durch die unterschiedlichen
Effekte erklären lässt, und der Reststreuung SSR, die nicht weiter durch das Modell be-
schrieben werden kann. Erstere sind die oben genannten Quadratsummen. Wir können
also die gesamte Streuung SST zerlegen in

SST = SSA + SSB + SS(AB) + SSR. (6.76)


312 6 Analyse mehrerer Merkmale

Die gesamte Streuung SST ergibt sich aus der Varianz aller Daten yijk bezüglich y als


m 
p

r
SST = (yijk − y)2 . (6.77)
i=1 j=1 k=1

SSR erhalten wir, indem wir berechnen

SSR = SST − SSA − SSB − SS(AB). (6.78)

Streuungen

Nach dem Gesetz der Streuungszerlegung ist

SST = SSA + SSB + SS(AB) + SSR.

Die Quadratsummen werden folgendermaßen berechnet:

SSA ist die Summe der quadrierten Stufeneffekte aj des Faktors A, multipliziert
mit r · m.
SSB ist die Summe der quadrierten Stufeneffekte bk des Faktors B, multipliziert
mit p · m.
SS(AB) ist die Summe der quadrierten Interaktionseffekte (ab)jk zwischen den
Faktoren A und B, multipliziert mit m.
SST ist die Quadratsumme der Abweichungen aller Beobachtungswerte yijk vom
Gesamtmittel y.
SSR ist der Rest: SSR = SST − SSA − SSB − SS(AB).

Für die Durchführung der Tests nehmen wir wieder die Varianzanalyse-Tabelle, unsere
bekannte ANOVA-Tabelle, zuhilfe. Wir tragen in die Tabelle die einzelnen Streuungen
ein, ihre Freiheitsgrade und die mittleren Quadratsummen als Streuung/Freiheitsgrade.
Schließlich folgt die Prüfgröße, die sich analog zur Prüfgröße des einfaktoriellen Modells
berechnet. Tabelle 6.28 gibt das Schema der Varianzanalyse-Tabelle wieder.

Vorgehen bei Hypothesentests

Die Nullhypothese lautet: H0 : α1 = α2 = . . . = αp = 0.


Der Prüfwert ist
SSA p · r · (m − 1)
f= · . (6.79)
SSR p−1

H0 wird abgelehnt, wenn f > f (1 − α; p − 1; pr(m − 1)) ist.


Die Nullhypothese lautet: H0 : β1 = β2 = . . . = βr = 0.
6.5 Varianzanalyse 313

Der Prüfwert ist


SSB p · r · (m − 1)
f= · . (6.80)
SSR r−1
H0 wird abgelehnt, wenn f > f (1 − α; r − 1; pr(m − 1)) ist.
Die Nullhypothese lautet: H0 : (αβ)jk = 0 für alle Paare jk.
Der Prüfwert ist
SS(AB) p · r · (m − 1)
f= · . (6.81)
SSR (p − 1) · (r − 1)

H0 wird abgelehnt, wenn f > f (1 − α; (p − 1) · (r − 1); pr(m − 1)) ist.


Dabei sind
p die Anzahl der Stufen des Faktors A,
r die Anzahl der Stufen des Faktors B,
α das Signifikanzniveau,
f (1 − α; u; v) das (1 − α)-Quantil der F -Verteilung mit u und v Freiheitsgraden.

Tab. 6.28: Varianzanalysetabelle.

Quelle der Streuung Freiheitsgrade mittlere Prüfwert kritischer Wert


Streuung SS . . . df Streuung f = MS...
MSR fα
MS... = df
SS...

MSA
A SSA p−1 MSA f (1 − α; p − 1;
MSR
pr (m − 1))

MSB
B SSB r −1 MSB f (1 − α; r − 1;
MSR
pr (m − 1))

MS(AB)
(AB) SS(AB) (p − 1)(r − 1) MS(AB) f (1 − α;
MSR
(p − 1)(r − 1);
pr (m − 1))

Residuen SSR pr (m − 1) MSR


mit
SS(AB)
MSA = SSA
p−1
; MS(AB) = (p−1)(r −1)
; MSV = SSB
r −1
; MSR = SSR
pr (m−1)

Kehren wir wieder zu Beispiel 6.13 zurück. Wir wollen bei einem Signifikanzniveau α =
0,05 die Hypothesen testen, die im obigen Kasten aufgeführt sind. Dazu brauchen wir
zunächst die Mittelwerte von Tabelle 6.27, um die Effekte schätzen zu können. Wir
erhalten
314 6 Analyse mehrerer Merkmale

für die Stufe A nach der Formel aj = y j − y die Effekte

a1 = y 1A − y = 58 − 57,5 = 0,5,
a2 = y 2A − y = 57 − 57,5 = −0,5,

für die Stufe B nach der Formel bk = y k − y die Effekte

a1 = y 1B − y = 64,5 − 57,5 = 7,
a2 = y 2B − y = 52,5 − 57,5 = −5,
a3 = y 3B − y = 55,5 − 57,5 = −2,

für die Wechselwirkungen nach der Formel (ab)jk = y jk − y − aj − bk die Interaktions-


effekte

(ab)11 = y 11 − y − a1 − b1 = 66 − 57,5 − 0,5 − 7 = 1,


(ab)12 = y 12 − y − a1 − b2 = 51 − 57,5 − 0,5 − (−5) = −2,
(ab)13 = y 13 − y − a1 − b3 = 57 − 57,5 − 0,5 − (−2) = 1,
(ab)21 = y 21 − y − a2 − b1 = 63 − 57,5 − (−0,5) − 7 = −1,
(ab)22 = y 22 − y − a2 − b1 = 54 − 57,5 − (−0,5) − (−5) = 2,
(ab)23 = y 23 − y − a2 − b3 = 54 − 57,5 − (−0,5) − (−2) − 1.

Bemerkung: Wir können anhand der Berechnungen schön sehen, dass die Summe der
Effekte eines Faktors immer null ergibt. Das ist eine mathematische Folge der Repara-
metrisierung. Wir kennen das als die Rechenregel, dass die Summe von zentrierten Daten
null ergibt.

Nun ermitteln wir die Streuungen für die Prüfgrößen. Wir erhalten

p
für SSA nach der Formel SSA = r · m · a2j die Streuung
j=1

SSA = 3 · 10 · (0,52 + (−0,5)2 ) = 30 · (0,25 + 0,25) = 15,


p
für SSB nach der Formel SSB = p · m · b2k die Streuung
k=1

SSB = 2 · 10 · (72 + (−5)2 + (−2)2 ) = 20 · (49 + 25 + 4) = 1560,


p 
r
für SS(AB) nach der Formel SS(AB) = m · (ab)2jk die Streuung der Interakti-
j=1 k=1
onseffekte

SS(AB) = 10 · (12 + (−2)2 + 12 + (−1)2 + 22 + (−1)2 ) = 10 · (1 + 4 + 1 + 1 + 4 + 1) = 120.


6.5 Varianzanalyse 315

Die Gesamtstreuung SST ist die Summe der quadrierten Differenzen aller y-Werte vom
p r m
Gesamtmittel y. Daher erhalten wir wegen SST = (yijk − y)2
j=1 k=1 i=1

SST = (81−57,5)2 +(69−57,5)2 +(69−57,5)2 +. . .+(48−57,5)2 +(52−57,5)2 = 9141.

Für SSR bleibt dann übrig,

SSR = SST − SSA − SSB − SS(AB),

SSR = 9141 − 15 − 1560 − 120 = 7446.

Nun können wir die Varianzanalysetabelle 6.29 zusammenstellen.

Tab. 6.29: Varianzanalysetabelle für Beispiel 6.13.

Quelle der Streuung Freiheits- mittlere Prüfwert kritischer Wert


Streuung SS . . . grade Streuung f = MS...
MSR fα
df MS... = df
SS...

A 15 1 15 0,11 f (0,95; 1; 54) = 4,02


B 1560 2 780 5,66 f (0,95; 2; 54) = 3,12
(AB) 120 2 60 0,44 f (0,95; 2; 54) = 3,12
Residuen 7446 54 137,889
Summe 9141 59

Tabelle 6.29 zeigt, dass ein sehr großer Anteil der gesamten Information, die in den Daten
steckt, nicht mithilfe des Varianzanalyse-Modells erklärt werden kann. Die Reststreuung
SSR hat einen Anteil an der Gesamtstreuung von 7446 9141 ≈ 80 %. Nur 20 % der Information
in den Daten kann mithilfe der Varianzanalyse erklärt werden. Die Güte dieses Modells
ist daher eher zweifelhaft. Die Prüfwerte der Tests bezüglich der Gleichheit der Faktor-
stufen von A und der Interaktionen fallen in den Nichtablehnungsbereich. Unser Bachelor
Franz kann nicht davon ausgehen, dass Mädchen deutlich mehr oder deutlich weniger mit
der Schule zufrieden sind als Jungs. Auch scheint es keine Interaktionen zwischen den
Faktoren zu geben; die Zufriedenheit von Jungen und Mädchen teilt sich gleichmäßig auf
die Jahrgänge auf. Allerdings wird der Test auf Gleichheit der Stufen von B abgelehnt.
Der Zufriedenheitsindex ist nach Jahrgängen deutlich unterschiedlich.
A Verteilungstabellen

A.1 Standardnormalverteilung

Tabelle A.1 enthält für die Ausprägungen z die Verteilungswerte Φ(z) der Standard-
normalverteilung. Eine Ausprägung von Z setzt sich zusammen aus dem Wert am linken
Rand plus dem Wert in der obersten Zeile. Wo sich die betreffende Zeile und Spalte kreu-
zen, steht der Wert der dazugehörigen Verteilungsfunktion. Die vierstelligen Ziffern in
der Tabelle selbst stellen die zu z gehörigen Verteilungswerte dar, wobei „0,“ weggelassen
wurde. Da die Standardnormalverteilung symmetrisch bezüglich ihres Erwartungswertes
0 ist, genügt die Angabe für die positiven Werte von z. Beispielsweise ist

P (Z ≤ 1,32) = Φ(1,32) = 0,9066 und P (Z ≤ −2,13) = 1 − P (Z ≤ 2,13) = 1 − 0,9834.

A.2 χ2 -Verteilung

Tabelle A.2 enthält für ausgewählte Wahrscheinlichkeiten p die dazugehörigen p-Quantile


χ2 (p; n) der χ2 -Verteilung mit n Freiheitsgraden. Es ist beispielsweise bei n = 5 Freiheits-
graden P (Y ≤ 1,15) = 0,05 bzw. ist χ2 (0,05; 5) = 1,15. Für mehr als 30 Freiheitsgrade
siehe die Ausführungen auf Seite 154.

A.3 F -Verteilung

Tabelle A.3a+b enthält für die Wahrscheinlichkeiten 0,975 die dazugehörigen 97,5 %-
Quantile f (0,975; m; n) der F -Verteilung mit m (Zähler) und n (Nenner) Freiheitsgraden.
Es ist beispielsweise bei m = 5 und n = 6 Freiheitsgraden P (F ≤ 5,99) = 0,975 bzw. ist
1
f (0,975; 5; 6) = 5,99. Es gilt außerdem f (0,025; m; n) = f (0,975;n;m) .
318 A Verteilungstabellen

Tab. A.1: Tabelle der Standardnormalverteilung.

z 0,0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 5000 5040 5080 5120 5160 5199 5239 5279 5319 5359
0,1 5398 5438 5478 5517 5557 5596 5636 5675 5714 5753
0,2 5793 5832 5871 5910 5948 5987 6026 6064 6103 6141
0,3 6179 6217 6255 6293 6331 6368 6406 6443 6480 6517
0,4 6554 6591 6628 6664 6700 6736 6772 6808 6844 6879
0,5 6915 6950 6985 7019 7054 7088 7123 7157 7190 7224
0,6 7257 7291 7324 7357 7389 7422 7454 7486 7517 7549
0,7 7580 7611 7642 7673 7704 7734 7764 7794 7823 7852
0,8 7881 7910 7939 7967 7995 8023 8051 8078 8106 8133
0,9 8159 8186 8212 8238 8264 8289 8315 8340 8365 8389
1,0 8413 8438 8461 8485 8508 8531 8554 8577 8599 8621
1,1 8643 8665 8686 8708 8729 8749 8770 8790 8810 8830
1,2 8849 8869 8888 8907 8925 8944 8962 8980 8997 9015
1,3 9032 9049 9066 9082 9099 9115 9131 9147 9162 9177
1,4 9192 9207 9222 9236 9251 9265 9279 9292 9306 9319
1,5 9332 9345 9357 9370 9382 9394 9406 9418 9429 9441
1,6 9452 9463 9474 9484 9495 9505 9515 9525 9535 9545
1,7 9554 9564 9573 9582 9591 9599 9608 9616 9625 9633
1,8 9641 9649 9656 9664 9671 9678 9686 9693 9699 9706
1,9 9713 9719 9726 9732 9738 9744 9750 9756 9761 9767
2,0 9772 9778 9783 9788 9793 9798 9803 9808 9812 9817
2,1 9821 9826 9830 9834 9838 9842 9846 9850 9854 9857
2,2 9861 9864 9868 9871 9875 9878 9881 9884 9887 9890
2,3 9893 9896 9898 9901 9904 9906 9909 9911 9913 9916
2,4 9918 9920 9922 9925 9927 9929 9931 9932 9934 9936
2,5 9938 9940 9941 9943 9945 9946 9948 9949 9951 9952
2,6 9953 9955 9956 9957 9959 9960 9961 9962 9963 9964
2,7 9965 9966 9967 9968 9969 9970 9971 9972 9973 9974
2,8 9974 9975 9976 9977 9977 9978 9979 9979 9980 9981
2,9 9981 9982 9982 9983 9984 9984 9985 9985 9986 9986
3,0 9987 9987 9987 9988 9988 9989 9989 9989 9990 9990
3,1 9990 9991 9991 9991 9992 9992 9992 9992 9993 9993
3,2 9993 9993 9994 9994 9994 9994 9994 9995 9995 9995
3,3 9995 9995 9995 9996 9996 9996 9996 9996 9996 9997
3,4 9997 9997 9997 9997 9997 9997 9997 9997 9997 9998
A Verteilungstabellen 319

Tab. A.2: Tabelle der χ2 -Verteilung.

n 0,010 0,025 0,050 0,100 0,900 0,950 0,975 0,990

1 0,00 0,00 0,00 0,02 2,71 3,84 5,02 6,63


2 0,02 0,05 0,1 0,21 4,61 5,99 7,38 9,21
3 0,11 0,22 0,35 0,58 6,25 7,81 9,35 11,34
4 0,30 0,48 0,71 1,06 7,78 9,49 11,14 13,28
5 0,55 0,83 1,15 1,61 9,24 11,07 12,83 15,09
6 0,87 1,24 1,64 2,20 10,64 12,59 14,45 16,81
7 1,24 1,69 2,17 2,83 12,02 14,07 16,01 18,48
8 1,65 2,18 2,73 3,49 13,36 15,51 17,53 20,09
9 2,09 2,7 3,33 4,17 14,68 16,92 19,02 21,67
10 2,56 3,25 3,94 4,87 15,99 18,31 20,48 23,21
11 3,05 3,82 4,57 5,58 17,28 19,68 21,92 24,72
12 3,57 4,40 5,23 6,30 18,55 21,03 23,34 26,22
13 4,11 5,01 5,89 7,04 19,81 22,36 24,74 27,69
14 4,66 5,63 6,57 7,79 21,06 23,68 26,12 29,14
15 5,23 6,26 7,26 8,55 22,31 25,00 27,49 30,58
16 5,81 6,91 7,96 9,31 23,54 26,30 28,85 32,00
17 6,41 7,56 8,67 10,09 24,77 27,59 30,19 33,41
18 7,01 8,23 9,39 10,86 25,99 28,87 31,53 34,81
19 7,63 8,91 10,12 11,65 27,2 30,14 32,85 36,19
20 8,26 9,59 10,85 12,44 28,41 31,41 34,17 37,57
21 8,9 10,28 11,59 13,24 29,62 32,67 35,48 38,93
22 9,54 10,98 12,34 14,04 30,81 33,92 36,78 40,29
23 10,20 11,69 13,09 14,85 32,01 35,17 38,08 41,64
24 10,86 12,40 13,85 15,66 33,2 36,42 39,36 42,98
25 11,52 13,12 14,61 16,47 34,38 37,65 40,65 44,31
26 12,20 13,84 15,38 17,29 35,56 38,89 41,92 45,64
27 12,88 14,57 16,15 18,11 36,74 40,11 43,19 46,96
28 13,56 15,31 16,93 18,94 37,92 41,34 44,46 48,28
29 14,26 16,05 17,71 19,77 39,09 42,56 45,72 49,59
30 14,95 16,79 18,49 20,60 40,26 43,77 46,98 50,89
320 A Verteilungstabellen

Tab. A.3a: Tabelle der F -Verteilung I.

Freiheitsgrade des Nenners n


m 1 2 3 4 5 6 7 8 9 10 11 12 13

1 647,79 38,51 17,44 12,22 10,01 8,81 8,07 7,57 7,21 6,94 6,72 6,55 6,41
2 799,50 39,00 16,04 10,65 8,43 7,26 6,54 6,06 5,71 5,46 5,26 5,10 4,97
3 864,16 39,17 15,44 9,98 7,76 6,60 5,89 5,42 5,08 4,83 4,63 4,47 4,35
4 899,58 39,25 15,10 9,60 7,39 6,23 5,52 5,05 4,72 4,47 4,28 4,12 4,00
5 921,85 39,30 14,88 9,36 7,15 5,99 5,29 4,82 4,48 4,24 4,04 3,89 3,77
6 937,11 39,33 14,73 9,20 6,98 5,82 5,12 4,65 4,32 4,07 3,88 3,73 3,60
7 948,22 39,36 14,62 9,07 6,85 5,70 4,99 4,53 4,20 3,95 3,76 3,61 3,48
8 956,66 39,37 14,54 8,98 6,76 5,60 4,90 4,43 4,10 3,85 3,66 3,51 3,39
9 963,28 39,39 14,47 8,90 6,68 5,52 4,82 4,36 4,03 3,78 3,59 3,44 3,31
10 968,63 39,40 14,42 8,84 6,62 5,46 4,76 4,30 3,96 3,72 3,53 3,37 3,25
11 973,03 39,41 14,37 8,79 6,57 5,41 4,71 4,24 3,91 3,66 3,47 3,32 3,20
12 976,71 39,41 14,34 8,75 6,52 5,37 4,67 4,20 3,87 3,62 3,43 3,28 3,15
13 979,84 39,42 14,30 8,71 6,49 5,33 4,63 4,16 3,83 3,58 3,39 3,24 3,12
14 982,53 39,43 14,28 8,68 6,46 5,30 4,60 4,13 3,80 3,55 3,36 3,21 3,08
15 984,87 39,43 14,25 8,66 6,43 5,27 4,57 4,10 3,77 3,52 3,33 3,18 3,05
16 986,92 39,44 14,23 8,63 6,40 5,24 4,54 4,08 3,74 3,50 3,30 3,15 3,03
17 988,73 39,44 14,21 8,61 6,38 5,22 4,52 4,05 3,72 3,47 3,28 3,13 3,00
18 990,35 39,44 14,20 8,59 6,36 5,20 4,50 4,03 3,70 3,45 3,26 3,11 2,98
19 991,80 39,45 14,18 8,58 6,34 5,18 4,48 4,02 3,68 3,44 3,24 3,09 2,96
20 993,10 39,45 14,17 8,56 6,33 5,17 4,47 4,00 3,67 3,42 3,23 3,07 2,95
21 994,29 39,45 14,16 8,55 6,31 5,15 4,45 3,98 3,65 3,40 3,21 3,06 2,93
22 995,36 39,45 14,14 8,53 6,30 5,14 4,44 3,97 3,64 3,39 3,20 3,04 2,92
23 996,35 39,45 14,13 8,52 6,29 5,13 4,43 3,96 3,63 3,38 3,18 3,03 2,91
24 997,25 39,46 14,12 8,51 6,28 5,12 4,41 3,95 3,61 3,37 3,17 3,02 2,89
25 998,08 39,46 14,12 8,50 6,27 5,11 4,40 3,94 3,60 3,35 3,16 3,01 2,88
26 998,85 39,46 14,11 8,49 6,26 5,10 4,39 3,93 3,59 3,34 3,15 3,00 2,87
27 999,56 39,46 14,10 8,48 6,25 5,09 4,39 3,92 3,58 3,34 3,14 2,99 2,86
28 1000,22 39,46 14,09 8,48 6,24 5,08 4,38 3,91 3,58 3,33 3,13 2,98 2,85
29 1000,84 39,46 14,09 8,47 6,23 5,07 4,37 3,90 3,57 3,32 3,13 2,97 2,85
30 1001,41 39,46 14,08 8,46 6,23 5,07 4,36 3,89 3,56 3,31 3,12 2,96 2,84
40 1005,60 39,47 14,04 8,41 6,18 5,01 4,31 3,84 3,51 3,26 3,06 2,91 2,78
50 1008,12 39,48 14,01 8,38 6,14 4,98 4,28 3,81 3,47 3,22 3,03 2,87 2,74
100 1013,17 39,49 13,96 8,32 6,08 4,92 4,21 3,74 3,40 3,15 2,96 2,80 2,67
500 1017,24 39,50 13,91 8,27 6,03 4,86 4,16 3,68 3,35 3,09 2,90 2,74 2,61
A Verteilungstabellen 321

Tab. A.3b: Tabelle der F -Verteilung II.

Freiheitsgrade des Nenners n


m 14 15 16 17 18 19 20 30 40 50 100 500

1 6,30 6,20 6,12 6,04 5,98 5,92 5,87 5,57 5,42 5,34 5,18 5,05
2 4,86 4,77 4,69 4,62 4,56 4,51 4,46 4,18 4,05 3,97 3,83 3,72
3 4,24 4,15 4,08 4,01 3,95 3,90 3,86 3,59 3,46 3,39 3,25 3,14
4 3,89 3,80 3,73 3,66 3,61 3,56 3,51 3,25 3,13 3,05 2,92 2,81
5 3,66 3,58 3,50 3,44 3,38 3,33 3,29 3,03 2,90 2,83 2,70 2,59
6 3,50 3,41 3,34 3,28 3,22 3,17 3,13 2,87 2,74 2,67 2,54 2,43
7 3,38 3,29 3,22 3,16 3,10 3,05 3,01 2,75 2,62 2,55 2,42 2,31
8 3,29 3,20 3,12 3,06 3,01 2,96 2,91 2,65 2,53 2,46 2,32 2,22
9 3,21 3,12 3,05 2,98 2,93 2,88 2,84 2,57 2,45 2,38 2,24 2,14
10 3,15 3,06 2,99 2,92 2,87 2,82 2,77 2,51 2,39 2,32 2,18 2,07
11 3,09 3,01 2,93 2,87 2,81 2,76 2,72 2,46 2,33 2,26 2,12 2,02
12 3,05 2,96 2,89 2,82 2,77 2,72 2,68 2,41 2,29 2,22 2,08 1,97
13 3,01 2,92 2,85 2,79 2,73 2,68 2,64 2,37 2,25 2,18 2,04 1,93
14 2,98 2,89 2,82 2,75 2,70 2,65 2,60 2,34 2,21 2,14 2,00 1,89
15 2,95 2,86 2,79 2,72 2,67 2,62 2,57 2,31 2,18 2,11 1,97 1,86
16 2,92 2,84 2,76 2,70 2,64 2,59 2,55 2,28 2,15 2,08 1,94 1,83
17 2,90 2,81 2,74 2,67 2,62 2,57 2,52 2,26 2,13 2,06 1,91 1,80
18 2,88 2,79 2,72 2,65 2,60 2,55 2,50 2,23 2,11 2,03 1,89 1,78
19 2,86 2,77 2,70 2,63 2,58 2,53 2,48 2,21 2,09 2,01 1,87 1,76
20 2,84 2,76 2,68 2,62 2,56 2,51 2,46 2,20 2,07 1,99 1,85 1,74
21 2,83 2,74 2,67 2,60 2,54 2,49 2,45 2,18 2,05 1,98 1,83 1,72
22 2,81 2,73 2,65 2,59 2,53 2,48 2,43 2,16 2,03 1,96 1,81 1,70
23 2,80 2,71 2,64 2,57 2,52 2,46 2,42 2,15 2,02 1,95 1,80 1,68
24 2,79 2,70 2,63 2,56 2,50 2,45 2,41 2,14 2,01 1,93 1,78 1,67
25 2,78 2,69 2,61 2,55 2,49 2,44 2,40 2,12 1,99 1,92 1,77 1,65
26 2,77 2,68 2,60 2,54 2,48 2,43 2,39 2,11 1,98 1,91 1,76 1,64
27 2,76 2,67 2,59 2,53 2,47 2,42 2,38 2,10 1,97 1,90 1,75 1,63
28 2,75 2,66 2,58 2,52 2,46 2,41 2,37 2,09 1,96 1,89 1,74 1,62
29 2,74 2,65 2,58 2,51 2,45 2,40 2,36 2,08 1,95 1,88 1,72 1,61
30 2,73 2,64 2,57 2,50 2,44 2,39 2,35 2,07 1,94 1,87 1,71 1,60
40 2,67 2,59 2,51 2,44 2,38 2,33 2,29 2,01 1,88 1,80 1,64 1,52
50 2,64 2,55 2,47 2,41 2,35 2,30 2,25 1,97 1,83 1,75 1,59 1,46
100 2,56 2,47 2,40 2,33 2,27 2,22 2,17 1,88 1,74 1,66 1,48 1,34
500 2,50 2,41 2,33 2,26 2,20 2,15 2,10 1,81 1,66 1,57 1,38 1,19
322 A Verteilungstabellen

A.4 t-Verteilung

Tabelle A.4 enthält für ausgewählte Wahrscheinlichkeiten p die dazugehörigen p-Quantile


t(p; n) der t-Verteilung mit n Freiheitsgraden. Es ist beispielsweise bei n = 4 Freiheits-
graden P (T ≤ 2,776) = 0,975 bzw. ist t(0,975; 5) = 2,776. Da die Dichtefunktion der
zentralen t-Verteilung bezüglich der Null symmetrisch ist, gilt t(p; n) = −t(1 − p; n). Für
mehr als 30 Freiheitsgrade siehe die Ausführungen auf Seite 158.

A.5 Kritische Werte für den U-Test

Tabelle A.5 enthält für ausgewählte Stichprobenumfänge n1 und n2 die kritischen Werte
Uα für den U -Test bei α = 0,05. Die Hypothese auf Gleichheit zweier Verteilungen wird
abgelehnt, wenn U kleiner oder gleich dem tabellierten Wert ist. Es ist Uα von (n1 ; n2 )
derselbe wie von (n2 ; n1 ).

A.6 Kritische Werte für den Spearman’schen


Rangkorrelationskoeffizienten

In Tabelle A.6 sind die kritischen Werte des Spearman’schen Rangkorrelationskoeffizi-


enten für ein Signifikanzniveau α = 0,05 und ausgewählte Stichprobenumfänge n aufge-
führt. Die Werte der Website von Hole (s. Literaturverzeichnis) dienten als Grundlage
für die Tabelle.

Wenn

|rsp | ≥ rα

ist, wird die Hypothese: H0 : ρ = 0 abgelehnt.

Für n > 10 kann näherungsweise die t-Verteilung mit n − 2 Freiheitsgraden verwendet


werden.
A Verteilungstabellen 323

Tab. A.4: Tabelle der t-Verteilung.

0,900 0,950 0,975 0,990 0,995


1 3,078 6,314 12,706 31,821 63,657
2 1,886 2,920 4,303 6,965 9,925
3 1,638 2,353 3,182 4,541 5,841
4 1,533 2,132 2,776 3,747 4,604
5 1,476 2,015 2,571 3,365 4,032
6 1,440 1,943 2,447 3,143 3,707
7 1,415 1,895 2,365 2,998 3,499
8 1,397 1,860 2,306 2,896 3,355
9 1,383 1,833 2,262 2,821 3,250
10 1,372 1,812 2,228 2,764 3,169
11 1,363 1,796 2,201 2,718 3,106
12 1,356 1,782 2,179 2,681 3,055
13 1,350 1,771 2,160 2,650 3,012
14 1,345 1,761 2,145 2,624 2,977
15 1,341 1,753 2,131 2,602 2,947
16 1,337 1,746 2,120 2,583 2,921
17 1,333 1,740 2,110 2,567 2,898
18 1,330 1,734 2,101 2,552 2,878
19 1,328 1,729 2,093 2,539 2,861
20 1,325 1,725 2,086 2,528 2,845
21 1,323 1,721 2,080 2,518 2,831
22 1,321 1,717 2,074 2,508 2,819
23 1,319 1,714 2,069 2,500 2,807
24 1,318 1,711 2,064 2,492 2,797
25 1,316 1,708 2,060 2,485 2,787
26 1,315 1,706 2,056 2,479 2,779
27 1,314 1,703 2,052 2,473 2,771
28 1,313 1,701 2,048 2,467 2,763
29 1,311 1,699 2,045 2,462 2,756
30 1,310 1,697 2,042 2,457 2,750
50 1,299 1,676 2,009 2,403 2,678
100 1,290 1,660 1,984 2,364 2,626
324 A Verteilungstabellen

Tab. A.5: Tabelle für den U-Test.

n1
n2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
1 - - - - - - - - - - - - - - - - - - - -
2 - - - - - - 0 0 0 0 1 1 1 1 1 2 2 2 2
3 - - 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8
4 0 1 2 3 4 4 5 6 7 8 9 10 11 11 12 13 14
5 2 3 5 6 7 8 9 11 12 13 14 15 17 18 19 20
6 5 6 8 10 11 13 14 16 17 19 21 22 24 25 27
7 8 10 12 14 16 18 20 22 24 26 28 30 32 34
8 13 15 17 19 22 24 26 29 31 34 36 38 41
9 17 20 23 26 28 31 34 37 39 42 45 48
10 23 26 29 33 36 39 42 45 48 52 55
11 30 33 37 40 44 47 51 55 58 62
12 37 41 45 49 53 57 61 65 69
13 45 50 54 59 63 67 72 76
14 55 59 64 69 74 78 83
15 64 70 75 80 85 90
16 75 81 86 92 98
17 87 93 99 105
18 99 106 112
19 113 119
20 127

Tab. A.6: Tabelle des Rangkorrelationskoeffizienten.

n 5 6 7 8 9 10 12 14 16 18 20 30
rα 1 0,89 0,79 0,74 0,68 0,65 0,59 0,54 0,51 0,48 0,45 0,36
B Glossar

arithmetisches Mittel: Durchschnittswert aller Realisationen einer Zufallsvariablen oder


eines metrisch skalierten Merkmals. Bei Zufallsvariablen wird es Erwartungswert ge-
nannt.

Ausreißer: Datenwert, der weit entfernt von der Masse der Daten ist. Ausreißer beein-
trächtigen die Qualität von statistischen Auswertungen.

Bayes’sches Theorem: Ermöglicht die Berechnung einer bedingten Wahrscheinlichkeit


P (A|B) mithilfe einer bekannten bedingten Wahrscheinlichkeit P (B|A).

bedingte Wahrscheinlichkeit: P (A|B) ist die Wahrscheinlichkeit von A unter der Be-
dingung B. Sie kann als Anteil der Realisationen von A an B interpretiert werden.

Binomialverteilung: Ausgehend von einem Urnenmodell mit Zurücklegen und mit zwei
Sorten Kugeln ist die Zahl der Kugeln erster Sorte bei n Entnahmen binomial verteilt.

χ2 -, F - und t-Verteilung: Verteilungen, die sämtlich auf der Normalverteilung beruhen


und speziell für Schätzfunktionen angewendet werden.

deskriptive Statistik: Auswertung von real vorliegenden Daten, die auch Beobachtungs-
werte genannt werden.

Dichotome Grundgesamtheit: Bezeichnet beim Urnenmodell zwei Sorten Kugeln in der


Urne.

Dichtefunktion: Erste Ableitung der Verteilungsfunktion einer stetigen Zufallsvariablen.


Sie bestimmt die Form der Verteilung, ist aber keine Wahrscheinlichkeit.

diskret: Die Ausprägungen einer diskreten Variablen können durchnummeriert werden.


Man spricht von Abzählbarkeit der Ausprägungen.

Ereignis: Umfasst eines oder mehrere Ergebnisse eines Zufallsvorgangs und ist eine Teil-
menge der Ergebnismenge.

Ergebnis: Resultat eines Zufallsvorgangs. Alle möglichen Ergebnisse werden in der Er-
gebnismenge (auch Ergebnisraum) zusammengefasst.

gemeinsame Wahrscheinlichkeit: Wahrscheinlichkeit für das gleichzeitige Eintreten


zweier Ereignisse.
326 B Glossar

häufbares Merkmal: Die Ausprägungen des statistischen Merkmals treten mehrfach auf
und können in Häufigkeitstabellen zusammengefasst werden. Häufbar sind nominalska-
lierte, ordinalskalierte und metrisch diskrete Variablen.

Häufigkeit: In der deskriptiven Statistik gibt die absolute Häufigkeit die Zahl der Be-
obachtungen mit dem gleichen Wert an. Die relative Häufigkeit ist der Anteil dieser
Beobachtungen an allen Werten. In der Wahrscheinlichkeitstheorie ist letztere für eine
diskrete Zufallsvariable der Anteil der Realisationen einer Ausprägung an allen Realisa-
tionen. Das ist gleichbedeutend mit einer Wahrscheinlichkeit.

hypergeometrische Verteilung: Ausgehend von einem Urnenmodell ohne Zurücklegen


und mit zwei Sorten Kugeln ist die Zahl der Kugeln erster Sorte bei n Entnahmen
hypergeometrisch verteilt.

Hypothesentest: Damit wird die Hypothese über die Eigenschaft von Ereignissen über-
prüft. Meist handelt es sich dabei um Zufallsvariablen. Das Ergebnis der Prüfung hängt
von dem konkreten Stichprobenwert ab. Gegenstand des Hypothesentests sind häufig
Kennwerte von Verteilungen.

Interquartilsabstand: Distanz zwischen dem ersten und dritten Quartil einer Urliste. Er
wird als ausreißerresistenter Ersatz für die Standardabweichung verwendet.

Konfidenzintervall: Auf einer Stichprobe basierendenes Intervall, in dem ein unbekann-


ter Parameter einer Grundgesamtheit mit einer bestimmten Wahrscheinlichkeit liegt.
Grundlage des Konfidenzintervalls ist eine Stichprobe.

Korrelationsanalyse: Untersucht, ob zwischen zwei Variablen Linearität vorliegt. Ver-


wendet werden der Korrelationskoeffizient nach Pearson und der Spearman’sche Rang-
korrelationskoeffizient.

Korrelationskoeffizient: Maß für die Linearität zwischen zwei Variablen und liegt zwi-
schen −1 und 1. Grundlage für die Berechnung ist die Kovarianz, die ebenfalls diese
Linearität misst. Je weiter weg der Korrelationskoeffizient von null ist, desto ausgepräg-
ter ist die Linearität.

Lagemaß: Gibt das mittlere Niveau von Merkmalswerten einer statistischen Variablen
an. Beispiele sind arithmetisches Mittel, Median oder Modus.

Median: Er ist als 50 %-Quantil x(0,5) der Wert x, der die geordneten Realisationen
in zwei gleiche Anteile aufteilt. Der Median einer Zufallsvariablen ist die Ausprägung,
die zum Verteilungswert 0,5 gehört. Der Median z einer statistischen Variablen teilt die
geordneten Beobachtungswerte in zwei gleiche Hälften.

Merkmal oder (statistische) Variable: Interessierende Eigenschaft, die an einem Merk-


malsträger oder Objekt beobachtet werden kann.
B Glossar 327

Metrische Skala: Die Ausprägungen eines metrischen Merkmals können geordnet wer-
den. Die Abstände der Ausprägungen sind interpretierbar.

Nominalskala: Die Ausprägungen eines nominal skalierten Merkmals können nicht ge-
ordnet werden.

Normalverteilung: Stetige Verteilung mit einer Glockenform, die viele methodische Vor-
züge hat.

Ordinalskala oder Rangskala: Die Ausprägungen eines rangskalierten Merkmals können


geordnet werden, aber die Abstände der Ausprägungen sind nicht sinnvoll interpretierbar.

Parameter: Konstante, die eine gewisse Bedeutung hat, zum Beispiel der Verteilungspa-
rameter.

Possion-Verteilung: Die Zahl von bestimmten Ereignissen innerhalb einer Einheit ist
Poisson-verteilt.

Quantil: Ein Quantil q = x(p) ist der Wert q, der zu einem bestimmten Verteilungswert
F (q) = p gehört. Es wird auch p ∗ 100 %-Quantil genannt.

Quartile: Die Quartile Q1 = x(0,25), Q2 = x(0,5) und Q3 = x(0,75) teilen die Menge
der geordneten Realisationen in vier gleiche Anteile.

Realisation: Konkreter Wert, den eine Variable annimmt. In der Wahrscheinlichkeits-


theorie ist sie das Ergebnis eines Zufallsvorgangs. Hier tritt eine Realisation unendlich
oft auf. Bei einem Merkmal der deskriptiven Statistik ist sie ein konkret vorliegender
Datenwert.

Regressionsanalyse: Im einfachen linearen Regressionsmodell wird auf der Basis von


Stichprobenwerten für zwei Variablen x und y eine Regressionsgerade y = a + bx errech-
net. Von Interesse sind hier unter anderem die schätztheoretischen Eigenschaften. Im
multiplen Regressionsmodell wird eine Regressionshyperebene errechnet, bei der y von
mehreren unabhängigen Variablen abhängt.

Reproduktivität: Eine Verteilung ist reproduktiv, wenn die Summe von Zufallsvariablen
dieses Verteilungstyps wieder den gleichen Typ ergibt. Beispielsweise sind Normalvertei-
lung und Poisson-Verteilung reproduktiv.

Schätzen: Bezeichnet den Rückschluss auf den unbekannten Parameter einer Grundge-
samtheit mithilfe einer Stichprobe. Beispielsweise wird der Erwartungswert E(X) mit-
hilfe von x geschätzt. Die Schätzung ist selbst die Realisation einer Zufallsvariablen, die
Schätzfunktion heißt.

Signifikanzniveau (auch α-Fehler oder Fehler erster Art genannt): Das ist bei der Hy-
pothesenprüfung die Wahrscheinlichkeit, dass die Hypothese abgelehnt wird, obwohl sie
328 B Glossar

wahr ist. Dagegen gibt der β-Fehler oder Fehler zweiter Art die Wahrscheinlichkeit an,
dass die Hypothese beibehalten wird, obwohl sie falsch ist.

Stamm-Blätter-Diagramm: In diesem Diagramm werden die Beobachtungswerte einer


Urliste in einer baumähnlichen Struktur abgetragen.

stetig: Eine Variable ist stetig oder kontinuierlich, wenn sich in jedem Intervall der Aus-
prägungen unendlich viele Ausprägungen befinden.

Stochastische Unabhängigkeit: Zwei Ereignisse A und B sind stochastisch unabhängig,


wenn das Eintreten von A das Eintreten von B nicht beeinflusst und umgekehrt.

Streuungsmaß: Misst die Variabilität von Variablen. Häufig verwendet werden Varianz
und Interquartilsabstand.

Urliste: Liste von Beobachtungswerten eines statistischen Merkmals, die in der Reihen-
folge der Erhebung aufgeführt sind.

Urnenmodell: Veranschaulichung einer zufälligen Stichprobenauswahl, in der nachein-


ander Kugeln aus einer Urne gezogen werden. Von Interesse sind häufig Gruppen von
gleichartigen Kugeln in der Urne. Man unterscheidet ein Modell mit Zurücklegen, bei
dem nach jeder Ziehung die Kugel zurückgelegt wird, und ein Modell ohne Zurücklegen,
bei dem die Kugel nicht zurückgelegt wird.

Varianz: Mittlere Summe der quadrierten Abstände zwischen Realisation und arithme-
tischem Mittel. Man unterscheidet zwischen Varianz der Grundgesamtheit und Stichpro-
benvarianz. Die Wurzel aus der Varianz ist die Standardabweichung.

Varianzanalyse: Damit wird untersucht, ob bestimmte Werte eines Faktors einen deut-
lichen Einfluss auf eine stetige Variable haben. Die zweifaktorielle Varianzanalyse unter-
sucht, ob die Werte zweier Faktoren eine stetige Variable beeinflussen. Hier ist auch von
Interesse, ob sich die Faktoren in ihrem Einfluss gegenseitig verstärken.

Verteilung: Gibt an, wie sich Realisationen oder Beobachtungswerte einer Variablen
bezüglich der Ausprägungen aufteilen. Im engeren Sinn gibt die Verteilung den Anteil
F (a) der Realisationen an, die höchstens einen bestimmten Wert a annehmen.

verteilungsfreier Test: Hypothesentest, bei dem die Verteilung des Merkmals in der
Grundgesamtheit nicht bekannt ist.

Wahrscheinlichkeit: Anteil der Realisationen eines Ereignisses an allen Realisationen,


die ein Zufallsvorgang hervorbringt.

Wahrscheinlichkeitsfunktion: Die Wahrscheinlichkeiten für die Ausprägungen einer dis-


kreten Zufallsvariablen bilden die Wahrscheinlichkeitsfunktion. Sie wird häufig in einer
Wahrscheinlichkeitstabelle zusammengefasst.
B Glossar 329

zentraler Grenzwertsatz: Die Summe von Zufallsvariablen, die alle die gleiche Verteilung
haben, nähert sich mit wachsender Zahl der Summanden einer Normalverteilung.

Zufallsvariable: Besteht aus Ereignissen, die reelle Zahlen sind. Deren Wahrscheinlich-
keiten bilden die Verteilung einer Zufallsvariablen.

Zufallsvorgang (auch Experiment): bezeichnet das zufällige Zustandekommen eines


Ereignisses von Interesse.
C Literaturverzeichnis und
Quellenangaben

Bortz J. (2005) Statistik für Human- und Sozialwissenschaftler. Springer, Heidelberg.

Bortz J., Lienert G. und Boehnke, K. (2008) Verteilungsfreie Methoden in der Biosta-
tistik. Springer, Heidelberg.

Chambers J., Cleveland W., Kleiner B. und Tukey P. (1983) Graphical Methods for
Data Analysis. Chapman & Hall, New York.

Charité, (o. J.) http://www.charite.de/medsoz/mitarbeiter/dettmer/FB\_13.

Fahrmeir L., Künstler R., Pigeot I. und Tutz G. (2004) Statistik. Springer, Heidelberg.

Hartung J., Elpelt B.und Klösener K-H. (1995) Statistik. Oldenbourg, München.

Hole G. (o. J.) http://www.sussex.ac.uk/Users/grahamh/RM1web/Rhotable.htm.

Johnston, J. (1984) Econometric Methods. Mc-Graw-Hill, Singapur.

Schaich E., Köhle D., Schweitzer W. und Wegner F. (1982) Statistik II. Vahlen, Mün-
chen.

Schira J. (2003) Statistische Methoden der VWL und BWL. Pearson Studium, Mün-
chen.

Schwarze J. (1988) Grundlagen der Statistik II. Neue Wirtschaftsbriefe, Herne.

Statistisches Bundesamt (2007) Bettendichte nach Fachabteilungen und Län-


dern: Kinder, Jugendpsychiatrie und -psychotherapie, Fachserie 12, http://www.
stabu.de/jetspeed/portal/cms/Sites/destatis/Internet/DE/Content/Publikationen/
Fachveroeffentlichungen/Gesundheit/AlteAusgaben/GrunddatenKrankenhaeuserAlt,
templateId=renderPrint.psml.

Unicef (2009) Under-five mortality rankings, http://www.unicef.org/sowc09/statistics/


tables.php.

US Bureau of Justice Statistics (o. J.) http://bjsdata.ojp.usdoj.gov/dataonline/Search/


Crime/.

US Census Bureau (o. J.) http://quickfacts.census.gov/qfd/index.html.


Index

A Binomialkoeffizient, 88
abhängige Variable Binomialverteilung, 109, 133, 167, 178,
Regression, 266 201, 214, 228, 230
Varianzanalyse, 294 Boole’sche Algebra, 54
Abszisse, 33
abzählbar, 12, 55 C
Additionssatz, 57 χ2 -Koeffizient, 262
Annahmen des Regressionsmodells, χ2 -Test, 217, 220, 225
siehe Regression Freiheitsgrad, 220
ANOVA-Modell, 296 χ2 -Verteilung, 152, 206, 220, 225, 317
ANOVA-Tabelle
Regression, 290 D
Varianzanalyse, 303, 312 De Morgan’sche Regel, 57, 62, 65
Anteilswert, 167, 178, 179, 200, 201, Determinationskoeffizient, siehe
204, 214, 228 Regression
gepoolt, 214 dichotome Grundgesamtheit, 105, 111,
Approximation, 133 167, 200, 201, 204, 214, 228
t-Verteilung, 158 Dichtefunktion, 116, 125
Poisson-Verteilung, 136 disjunkt, 54, 57, 61
χ2 -Verteilung, 154 Dispersionsmaß, siehe Streuungsmaß
Binomialverteilung, 133 Dotplot, siehe Punktediagramm
arithmetisches Mittel, 38, 48, 150, 269
Varianzanalyse, 296 E
Ausgleichsgerade, siehe Einfallsklasse, 48
Regressionsgerade Einzelwahrscheinlichkeit, 139
Ausprägung elementfremd, siehe disjunkt
Merkmal, 10 endogene Variable, siehe abhängige
Zufallsvariable, 93 Variable
Ausreißer, 40, 46, 251, 256 Ereignis, 52, 56, 57
Elementarereignis, 53
B zusammengesetztes, 53
Bayes’sches Theorem, 76, 79 Ergebnis, 52, 99
Beobachtungswert, 10 Ergebnismenge, 52, 94
bester Schätzer, 164 diskrete, 55
Bias, siehe Verzerrtheit stetige, 55
334 Index

Ergebnisraum, siehe Ergebnismenge Höchsthypothese, 188


erklärende Variable, siehe unabhängige Mindesthypothese, 188
Variable Nullhypothese, 182, 194, 303, 310,
Erwartungstreue, 43, 162 312
Erwartungswert, 101, 125, 159, 165, Punkthypothese, 181, 185
166, 168, 173–176, 182, Hypothesentest, 181
196–199, 208, 210, 212, 213 Ablehnung, 185
Experiment, siehe Zufallsvorgang Ablehnungsbereich, 183
explorative Datenanalyse, 23 α-Fehler, 188, 194
β-Fehler, 189, 194
F Fehler erster Art, 188
F -Verteilung, 155, 216 Fehler zweiter Art, 189
Varianzanalyse, 303 konfirmatorischer Test, 195, 217
Fakultät, 88 konservatives Testen, 187, 234
Freiheitsgrad, 227 kritischer Wert, 188, 236, 304
F -Verteilung, 155 Nichtablehnungsbereich, 183
χ2 -Verteilung, 152 Operationscharakteristik, 191
t-Verteilung, 157 Signifikanzniveau, 183
Varianzanalyse, 312 Signifikanztest, 195, 279, 280,
287–289, 303
G Trennschärfe, 193
Gegenmenge, siehe Komplement verteilungsfreier Test, 228
getrimmtes Mittel, 41
Grundgesamtheit, 8, 9 I
Varianzanalyse, 297 Interquartilsabstand, 47
Intervallskala, 13
H
Häufigkeit J
absolut, 18, 244 Jittered Scatterplot, 246
beobachtet, 219, 224, 226, 262
erwartet, 218, 224, 226, 262 K
gemeinsam, 262 Kategorie, 218, 220
relativ, 18, 244 Klasse, 6, 14, 18, 220, 249
Häufigkeitstabelle, 5, 15, 48 Klassenbreite, 18
Häufigkeitsverteilung, 18 Klassenmitte, 18
Histogramm, 6, 15, 220 Kombinatorik, 234
hypergeometrische Verteilung, 105, 179 Komplement, 54, 194
Hypothese Konfidenzintervall, 170
Alternativhypothese, 183, 194, 303, Anteilswert, 178, 179
310 Erwartungswert, 168, 173–176
Bereichshypothese, 185 Intervallbreite, 171
Index 335

Regression, 281, 283, 284 Mittelwert, 38, 48


Signifikanzniveau, 170 Modell
Konfidenzkoeffizient, 170 mit Zurücklegen, 89, 109, 167, 178,
Kontingenzkoeffizient, 261, 262 200, 201, 214
korrigiert, 263 ohne Zurücklegen, 89, 105, 166, 175,
Kontingenztabelle, 65, 226, 244, 262 176, 179, 199, 204
Korrekturfaktor, 166, 175, 176, 179, 204 Modus, 39
Korrelationskoeffizient Multiplikationssatz der
Grundgesamtheit, 143, 279 Wahrscheinlichkeiten, 76, 87
Stichprobe, 251, 257
korreliert, siehe Korrelationskoeffizient N
Kovarianz, 252 nicht, siehe Komplement
Grundgesamtheit, 143 nichtzentral, 153, 158
Stichprobe, 252 Nominalskala, 11, 34, 40, 243, 262
Kreisdiagramm, 34 Normalverteilung, 28, 46, 124, 147, 159,
165–168, 173, 175, 182, 196,
L 197, 206, 212, 216, 221
Lage, siehe Lageparameter
Lagemaß, 38 O
Lageparameter, 100 oder, siehe Vereinigungsmenge
leere Menge, 53, 54 Ordinalskala, 12, 33, 35, 39, 243, 256
lineare Funktion, 147, 266 Ordinate, 33
Linearität, 250, 251, 261, 265
P
M Poisson-Verteilung, 112, 136
Median Potenzmenge, 53
Stichprobe, 30, 39, 48 Profil, 247
Test, 228 Punktediagramm, 23
Merkmal, 10
häufbar, 33, 47, 244, 248 Q
stetig, 247, 248 Quantil, 153
Merkmalsträger, 10 F -Verteilung, 155
Merkmalswert, siehe Beobachtungswert t-Verteilung, 158
Methode der kleinsten Quadrate, 268 Normalverteilung, 128
Normalgleichungen, 268 Stichprobe, 30
metrische Skala, 12, 37, 38, 243, 266, Zufallsvariable, 121
303 Quartil, 31, 47
diskret, 12, 33
stetig, 12 R
Minimum-Quadrat-Methode, siehe Randhäufigkeit, 262
Methode der kleinsten Quadrate Randwahrscheinlichkeit, 139
336 Index

Rang, 234, 257 Anteilswert einer dichotomen


Bindung, 238, 259 Grundgesamtheit, 167
mittlerer, 240 Erwartungswert, 159, 165, 166
Rangsumme, 235 Rangstatistik, 280
Rangkorrelationskoeffizient, 256 Regression, 281
Rangskala, siehe Ordinalskala Varianz der Störgröße, 281
Realisation, 10, 52 Varianz, 164
Varianzanalyse, 297 Varianzanalyse, 310
Regressand, siehe abhängige Variable Schätzstatistik, siehe Schätzfunktion
Regression, 265 Schnittmenge, 54
abhängige Variable, 266 Skalenniveau, 11
Absolutglied, 269 Spearman’scher
ANOVA-Tabelle, 290 Rangkorrelationskoeffizient,
siehe
Anpassung, 273
Rangkorrelationskoeffizient
Axiome, 267
Stabdiagramm, 37, 62
Bestimmtheitsmaß, 275
Stamm-Blätter-Diagramm, 23
Homoskedastizität, 267
Standardabweichung
Prognose, 271, 277
Grundgesamtheit, 126
Residuum, 267, 271
Stichprobe, 43
Störgröße, 266
Standardisieren, 129, 149, 185
Steigung, 269
Standardnormalverteilung, 126
unabhängige Variable, 266
Stetigkeitskorrektur, 134
Regressionsgerade, 265, 269
Stichprobe, 8, 9, 185
Regressionskoeffizient, 265, 268 Stichprobenumfang, 9
Regressionsmodell stochastische Unabhängigkeit, siehe
einfach, linear, 265 Unabhängigkeit
klassisch, linear, 267 Störgröße
multiples, 278 Regression, 266
Regressor, siehe unabhängige Variable Varianzanalyse, 297
Repräsentativität, 9 Streudiagramm, 247, 251, 265
Reproduktivität, 114, 132 Streuungsmaß, 41
Residuum Streuungszerlegung
Regression, 267 Regression, 276, 289
Varianzanalyse, 298 erklärte Streuung, 276
nichterklärte Streuung, 276
S totale Streuung, 276
Säulendiagramm, 5, 34, 245 Varianzanalyse, 299, 310, 312
Scatterplot, siehe Streudiagramm Summenfunktion, 26
Schätzer, siehe Schätzfunktion Summenhäufigkeit, 48
Schätzfunktion, 161 absolut, 21
Index 337

relativ, 21 Schätzfunktion, 162


Summenkurve, 22, 33 Stichprobe, 42, 49, 164, 174, 208,
Symmetrieprinzip, 58, 60, 280 210, 212
Informationsgehalt, 275
T Varianzanalyse
t-Verteilung, 157, 197, 210, 212, 322 SS(AB), 311
Test SSA, 311
Anteilswert, 200, 201, 204 SSB, 303, 311
Erwartungswert, 182, 196–199 SSE, 300, 302
Gleichheit von Verteilungen, 230, 234 SSR, 302, 311
Korrelationskoeffizient der SST , 299, 302, 311
Stichprobe, 279 SSW , 303
Median, 228 abhängige Variable, 303
Rangkorrelationskoeffizient, 280 ANOVA-Modell, 305
Regressionskoeffizient, 287 ANOVA-Tabelle, 303, 312
Regressionsmodell, 289 Effekt, 305, 309
U -Test, 234 einfaktoriell, 293
Unabhängigkeit, 225, 262 Faktor, 294, 305
Varianz, 206 Gütemaß, 303
Varianzhomogenität, 216 Gesamtmittel, 305, 309
Vergleich von Anteilswert, 214 Gruppe, 294
Vergleich von Erwartungswerten, Gruppenmittel, 296, 298
208, 210, 212, 213 Haupteffekt, 306
Vergleich von Varianzen, 216 Interaktion, 306, 310
Verteilung, 217, 220 Merkmalssumme, 296
Vorzeichentest, 228, 230 Reparametrisierung, 304, 309, 314
Residuum, 298
U Schätzfunktionen der Effekte, 310
überabzählbar, 13, 55 Schätzwert für yij , 299
unabhängige Variable Signifikanztest, 303
Regression, 266 Störgröße, 297
Unabhängigkeit, 81, 142, 225, 262 Streuungszerlegung, 299, 305, 310,
und, siehe Schnittmenge 312
Urliste, 11, 15, 26 Stufe, 294, 305
Urnenmodell, 89 Wechselwirkung, 306
zweifaktoriell, 305
V Varianzhomogenität, 216
Variable, siehe Merkmal Venn-Diagramm, 53, 54
Varianz, 101, 206, 216 Vereinigungsmenge, 54
gepoolt, 210 Verhältnisskala, 13
Grundgesamtheit, 101, 125 Verschiebungssatz
338 Index

Bestimmtheitsmaß, 276 W
Korrelationskoeffizient der Wahrscheinlichkeit, 53
Grundgesamtheit, 143 Axiome, 56
Korrelationskoeffizient der bedingte, 71, 72
Stichprobe, 253 gemeinsam, 65, 137
Steigung, 272 Rechenregeln, 57
Stichprobenvarianz, 45 Satz der totalen, 68, 69
Varianz der Grundgesamtheit, 104 Wahrscheinlichkeitsauffassung
Versuch, siehe Zufallsvorgang klassische, 58
Versuche statistische, 58
abhängige, 85 subjektivistische, 58
unabhängige, 83 Wahrscheinlichkeitsfunktion, 95
Verteilung, 217, 230 Wahrscheinlichkeitsraum, 53
Wahrscheinlichkeitstabelle, 62, 94
einer Zufallsvariablen, 93
eines statistischen Merkmals, 14
Z
linkssschief, 16
zentraler Grenzwertsatz, 125, 132, 154
multimodal, 17
Zentralwert, siehe Median
Parameter, 100
Zentrieren, 39, 42, 269, 314
rechtsschief, 16
Zielvariable, siehe abhängige Variable
symmetrisch, 16, 99, 124, 126 Zufallsintervall, 170
theoretisch, 105 Zufallsvariable, 93, 94
Verteilungsfunktion, 96, 117 diskret, 93, 218, 280
Vertrauensintervall, siehe stetig, 115, 220
Konfidenzintervall Zufallsvorgang, 52
Verzerrtheit, 162 zwei Sorten Kugeln, siehe dichotome
Grundgesamtheit

Das könnte Ihnen auch gefallen