Beruflich Dokumente
Kultur Dokumente
Stichproben
Methoden und praktische Umsetzung mit R
123
Göran Kauermann Helmut Küchenhoff
Universität Bielefeld Ludwig-Maximilians-Universität
Universitätsstraße 25 München
33615 Bielefeld Institut für Statistik
Deutschland Ludwigstraße 33
gkauermann@uni-bielefeld.de 80539 München
Deutschland
kuechenhoff@stat.uni-muenchen.de
ISSN 0937-7433
ISBN 978-3-642-12317-7 e-ISBN 978-3-642-12318-4
DOI 10.1007/978-3-642-12318-4
Springer Heidelberg Dordrecht London New York
Das vorliegende Buch führt in die Grundideen von Stichprobenziehung ein. Dabei
verfolgen wir einen bewusst nicht-technischen Zugang und versuchen sowohl durch
inhaltliche als auch durch einfache Zahlenbeispiele die Verfahren zu motivieren. Im
Rahmen von statistischer Beratung haben wir in zahlreichen Formen Stichproben-
pläne entworfen und zum großen Teil auch umgesetzt. Es zeigt sich, dass in der
konkreten Umsetzung von Stichprobenverfahren der Teufel, wie üblich, im Detail
steckt, so dass stets ein Kompromiss aus Theorie und Notwendigkeiten der An-
wendung gefunden werden muss. Wir bemühen uns in den dargestellten und jedes
Kapitel abschließenden Beispielen, diesen Kompromiss herauszuarbeiten. Unsere
generelle Intention ist es, dass der interessierte Leser die Idee der Stichproben-
planung versteht und direkt zur Anwendung bringen kann. Hierzu dient auch die
Beschreibung der numerischen Umsetzung mit R. Zur leichteren Realisierbarkeit
haben wir dazu das R-Paket samplingbook verfasst, welches von der Homepage
www.r-project.org heruntergeladen werden kann. Jedes Kapitel schließt mit ei-
ner Darstellung der numerischen Umsetzung mit R ab, getreu dem didaktischen
Prinzip „hands on“.
Dieses Buchprojekt hat sich über geraume Zeit hingezogen und wäre ohne die
tatkräftige Unterstützung durch Cornelia Oberhauser wohl nie zu einem Abschluss
gekommen. Ihr gebührt unser nachhaltiger Dank. Für Anregungen und Korrektu-
ren bedanken wir uns bei Ingrid Kreuzmair und Freia Decker. Ebenso sei Nina
Westerheide, Mark Hempelmann, Juliane Manitz und Manuel Wiesenfarth expli-
zit gedankt für ihre wertvollen Beiträge im Bereich der numerischen Umsetzung.
Letztlich danken wir natürlich auch den zahlreichen Studierenden, die uns immer
wieder auf Fehler und Unstimmigkeiten aufmerksam machten (und wahrscheinlich
machen werden).
Schließlich sei dem Team von Il Grappolo in München gedankt; die mittägliche
Verpflegung war immer aufbauend.
Uns hat die Arbeit an dem Buch viel Freude und Einsicht bereitet und wir hoffen,
dass sich diese auf unsere Leserinnen und Leser überträgt.
v
Inhaltsverzeichnis
1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Inhalt des Buches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Einfache Stichprobenverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Nicht-zufällige Auswahlverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1 „Auswahl auf’s Geratewohl“ . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.2 Typische Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.3 Quotenstichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Repräsentativität und Verzerrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.1 Gründe für Verzerrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Design einer Zufallsstichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5 Einfache Zufallsstichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.6 Statistische Inferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.6.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.6.2 Mittelwertschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.6.3 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6.4 Schätzung von Anteilen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.7 Ziehen mit Zurücklegen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.8 Bestimmung des Stichprobenumfangs . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.9 Systematische Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.10 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.11 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.12 Numerische Umsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.12.1 Ziehen einer einfachen Zufallsstichprobe . . . . . . . . . . . . . 47
2.12.2 Mittelwertschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.12.3 Anteilsschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.12.4 Bestimmung des Stichprobenumfangs
bei Mittelwertschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.12.5 Bestimmung des Stichprobenumfangs bei
Anteilsschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
vii
viii Inhaltsverzeichnis
3 Modellbasierte Stichprobenverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.1 Differenzenschätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.2 Quotientenschätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.3 Regressionsschätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.4 Zusammenhang der Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.5 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.5.1 Experiment: Geld in der Börse . . . . . . . . . . . . . . . . . . . . . . 79
3.5.2 Investitionswert Telefonnetz . . . . . . . . . . . . . . . . . . . . . . . . 80
3.6 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.7 Numerische Umsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4 Designbasierte Stichprobenverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.1 Horvitz-Thompson-Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.2 Größenproportionale Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
4.3 Praktische Umsetzung der PPS-Stichprobe . . . . . . . . . . . . . . . . . . . . . 107
4.3.1 Sampford-Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.3.2 Pareto-Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
4.3.3 Eliminierungsmethode von Tillé . . . . . . . . . . . . . . . . . . . . . 113
4.3.4 Splitting-Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.3.5 Methode von Madow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
4.4 Die Hansen-Hurwitz-Strategie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.5 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.6 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.7 Numerische Umsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.7.1 PPS-Auswahlwahrscheinlichkeiten . . . . . . . . . . . . . . . . . . 120
4.7.2 PPS-Ziehung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.7.3 PPS-Ziehung und Auswahlwahrscheinlichkeiten . . . . . . . 125
4.7.4 Horvitz-Thompson-Schätzer . . . . . . . . . . . . . . . . . . . . . . . . 131
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
Sachverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
Kapitel 1
Einführung
1.2 Notation
Zur Verbesserung der Übersichtlichkeit und der Lesbarkeit werden grundlegende
Begriffe der einzelnen Kapitel im Text hervorgehoben und die wesentlichen Inhalte
in Kästen zusammengestellt.
1.2 Notation 3
Passagen, die mit „Beispiel“ beginnen und mit einem Dreieck enden, kenn-
zeichnen Beispiele im Text.
Passagen, die mit „Herleitung“ beginnen und mit einem Kästchen enden, sind
eher technischer Natur und können nach Belieben übersprungen werden.
In der numerischen Umsetzung verwenden wir folgende Notation, wobei R-
relevante Inhalte in Schrift gleicher Zeichenbreite abgesetzt sind:
• Zeilen, die mit „#“ beginnen, kennzeichnen die relevanten Zeilen aus der R-Hilfe,
die durchgängig in Englisch gehalten sind, z.B.
# package the name of the package
• Zeilen, die mit „>“ beginnen, sind Befehlszeilen, die direkt in R eingegeben wer-
den, z.B.
> function(x)
• Zeilen ohne besonderes Zeilenanfangssymbol sind das Ergebnis, das R auf die
entsprechende Befehlszeile ausgibt.
Kapitel 2
Einfache Stichprobenverfahren
2.1 Grundbegriffe
Bei der Durchführung einer statistischen Erhebung besteht die Absicht, Informatio-
nen über eine (üblicherweise große) Menge von Individuen zu erhalten. So kann
ein Unternehmen Interesse daran haben, sich einen Überblick über die Kundenzu-
friedenheit zu verschaffen oder ein Meinungsforschungsinstitut möchte im Auftrag
einer Fernsehanstalt Informationen über die politische Stimmung in einem Land er-
halten. Bei der Durchführung der Erhebung muss zuerst die Menge der Individuen,
über die eine Aussage getroffen werden soll, bestimmt und abgegrenzt werden. Die-
se Menge besteht bei Umfragen in der empirischen Sozialforschung typischerweise
aus der Bevölkerung eines Landes oder einer Untergruppe daraus, wie z.B. aus den
wahlberechtigten Bürgern. Daher wird in der Stichprobentheorie und nachfolgend
in diesem Buch der Begriff Population für diese abgegrenzte Menge von Individu-
en verwendet. Im deutschsprachigen Raum wird diese auch als Grundgesamtheit
bezeichnet.
• Die Population oder Grundgesamtheit ist die Menge aller Individuen oder Ob-
jekte, über die eine Aussage getroffen werden soll.
Die Grundgesamtheit muss nicht zwingend aus Personen bestehen. Bei einer
ökologischen Fragestellung kann sie z.B. aus Planquadraten einer Fläche oder aus
Seen eines Landes bestehen. Wir definieren daher allgemein die Elemente der Po-
pulation wie folgt.
Der Bezug zur inhaltlichen Fragestellung wird durch den Begriff des Merkmals
hergestellt.
• Merkmale sind die Eigenschaften der statistischen Einheiten, die untersucht, be-
obachtet oder gemessen werden sollen.
Generell unterscheidet man zwei Arten von Stichproben, zufällige und nicht-
zufällige Verfahren. In diesem Buch werden wir uns fast ausschließlich mit zufäl-
ligen Verfahren beschäftigen. Bei den nicht-zufälligen Stichprobenverfahren ist der
Prozess der Auswahl weder kontrollierbar noch kann er mit statistischen Modellen
beschrieben werden. Daher gibt es auch keine theoretische Grundlage für diese Ver-
fahren. Wir diskutieren die Problematik kurz anhand der wichtigsten in der Praxis
verwendeten nicht-zufälligen Stichprobenverfahren.
Markt kommen. Die Konsumenten in Haßloch dienen somit als typische Stich-
probe für die bundesdeutsche Bevölkerung im Hinblick auf den Konsum von
Lebensmitteln.
2.2.3 Quotenstichprobe
Dieses Verfahren wird hauptsächlich bei Umfragen verwendet. Die Idee besteht dar-
in, ein möglichst gutes Abbild der Population (Bevölkerung) in der Stichprobe zu
bekommen. Dies wird dadurch erreicht, dass zunächst gewisse Quotenmerkmale
(z.B. Geschlecht, Altersgruppe, Berufstätigkeit) festgelegt werden, deren Verteilun-
gen in der Population bekannt sind. Anschließend wird die Stichprobe so gezogen,
dass die Anteile dieser Merkmale in der Stichprobe genau denen in der Population
entsprechen. Eine Befragung von 1 000 Personen ist dann zum Beispiel so zu or-
ganisieren, dass 500 Personen weiblich sind, dass 200 Personen zwischen 21 und
30 Jahren alt sind usw. In der Praxis wird das so erreicht, dass jeder beteiligte
Interviewer genaue Vorgaben erhält, sich Personen mit bestimmten Eigenschaften
bezüglich der Quotenmerkmale zu suchen.
Die Diskussion über Vor- und Nachteile einer Quotenauswahl war für die Ent-
wicklung der Statistik sehr nützlich, siehe dazu z.B. Noelle-Neumann (2000) und
Quatember (1996). Wesentliches Argument für die Quotenstichprobe ist die Kon-
trolle relevanter Störgrößen. Hier gibt es Ähnlichkeiten zur Strategie der geschich-
teten Stichprobe, siehe dazu Abschn. 5.1. Allerdings handelt es sich bei der Auswahl
innerhalb der Quoten wieder um eine Auswahl auf’s Geratewohl. Daher ist auch für
eine Quotenstichprobe eine zuverlässige Abschätzung der Genauigkeit problema-
tisch. Verfahren zur Genauigkeitsabschätzung basieren in der Regel auf der Annah-
me, dass eine Quotenstichprobe ähnliche Eigenschaften wie eine Zufallsstichprobe
aufweist.
aufweisen. Nach obiger Definition wären die Bürger der Gemeinde A also eine
repräsentative Stichprobe für den gesamten Landkreis. Befragt man diese nach
ihren Konsumgewohnheiten, ist das Ergebnis von Gemeinde A vermutlich auf
den Landkreis übertragbar.
Das Ergebnis der Frage nach der Parteipräferenz für die Partei S bei der näch-
sten Kommunalwahl könnte sich aber in der Gemeinde A von dem Ergebnis im
Landkreis deutlich unterscheiden, wenn die Gemeinde A beispielsweise einen
besonders beliebten Bürgermeister aus der Partei S hat. Insofern sind Schlüsse
auf die Grundgesamtheit bezüglich des Konsumverhaltens möglich, aber nicht
bezüglich der Parteipräferenz.
Das Beispiel zeigt die Problematik des Begriffs der repräsentativen Stichprobe.
Die grundsätzliche Frage ist, ob Schlüsse von der Stichprobe auf die Grundgesamt-
heit zulässig sind. Das lässt sich bei nicht-zufälligen Stichproben kaum allgemein
beantworten. Wir ziehen daher vor, den Begriff der Repräsentativität eher als die
Zulässigkeit von Schlüssen auf die Grundgesamtheit zu definieren. Dabei gehört
zu dem Begriff der Bezug zu den Merkmalen. Im obigen Beispiel ist die Gemein-
de A eine repräsentative Stichprobe bezüglich des Konsumverhaltens, aber nicht
bezüglich der Parteipräferenz. Man spricht im letzteren Fall von einer verzerrten
Stichprobe oder von einer Stichprobe mit systematischem Fehler, auch Bias ge-
nannt. Dieser Begriff wird später exakt definiert und diskutiert. Wir wollen hier noch
analysieren, wie es zu einer Verzerrung kommt.
Eine naheliegende Möglichkeit ist es, allen 10 Stichproben die gleiche Wahr-
scheinlichkeit zuzuordnen. Jede Stichprobe hat somit die Wahrscheinlichkeit
1/10. Dieses Design wird als einfache Zufallsstichprobe bezeichnet. Es können
aber auch andere Strategien verfolgt werden. Beispielsweise könnten wir verlan-
gen, dass in der Stichprobe ein Konsonant und ein Vokal vorkommen, womit nur
die folgenden Stichproben
zulässig wären. Diesen ordnet man dann jeweils die Wahrscheinlichkeit 1/6 zu.
Ein derartiges Design werden wir als geschichtete Stichprobe kennen lernen. Wei-
ter nehmen wir an, dass das Element A besonders wichtig sei und man deswegen
eine Stichprobe ziehen möchte, in der A ein höheres Gewicht bekommt, d.h. dass
alle Stichproben, die A enthalten, eine größere Wahrscheinlichkeit erhalten. Die
Wahrscheinlichkeiten für die einzelnen Stichproben könnten wie folgt gesetzt
werden:
12 2 Einfache Stichprobenverfahren
2 1
P(S1 ) = . . . = P(S4 ) = , P(S5 ) = . . . = P(S10 ) = .
14 14
Auch solche Designs werden wir in diesem Buch betrachten. Wir werden
sie als Ziehen proportional zur Größe (oder englisch „probabilities proportional
to size“, kurz PPS) bezeichnen. Wir fassen die angesprochenen Designs in
Tabelle 2.1 zusammen. Diese gibt die Wahrscheinlichkeiten für die einzelnen
Stichproben wieder:
Der wesentliche Vorteil von Zufallsstichproben besteht darin, dass mit Hilfe
der Wahrscheinlichkeitsrechnung unter Berücksichtigung des Designs statistische
Schlüsse auf die Population gezogen werden können. Insbesondere ist es möglich,
neben Schätzungen für die interessierenden Größen der Grundgesamtheit, Angaben
zur Genauigkeit der Schätzung zu machen. Die Genauigkeit hängt dabei von dem
gewählten Design, vom Stichprobenumfang und von den Verhältnissen in der Popu-
lation ab. Wir beginnen in diesem Kapitel mit dem einfachsten und am häufigsten
verwendeten Design der einfachen Zufallsstichprobe. In den nachfolgenden Kapi-
teln diskutieren wir dann komplexere Designs.
P(s) = 1 ,
N
n
für alle Stichproben (Teilmengen von G) vom Umfang n.
Da bei der Ziehung kein Element der Population bevorzugt wird, hat jedes Ele-
ment der Grundgesamtheit die gleiche Wahrscheinlichkeit, in die Stichprobe gezo-
gen zu werden. Diese Wahrscheinlichkeit beträgt π = n/N und wird als Auswahl-
wahrscheinlichkeit bezeichnet. Intuitiv lässt es sich damit begründen, dass wir n
Elemente aus N verfügbaren Elementen ziehen. Greifen wir dazu das Beispiel 2.8
mit Design 1 nochmals auf. In Tabelle 2.1 sind die Wahrscheinlichkeiten für je-
de mögliche Zufallsstichprobe vom Umfang n = 2 aus der Grundgesamtheit vom
Umfang N = 5 gegeben. Wir betrachten Design 1. Es ist ersichtlich, dass z.B. der
Buchstabe A in 4 Stichproben vorkommt. Also ist die Auswahlwahrscheinlichkeit
für A gerade 4/10 = 2/5.
Die Anzahl der „günstigen“ Stichproben geteilt durch die Anzahl aller möglichen Stich-
proben, liefert die Wahrscheinlichkeit für ein Individuum, in die Stichprobe vom Umfang n zu
gelangen.
Wir wollen uns an dieser Stelle Gedanken darüber machen, wie eine einfache
Zufallsstichprobe praktisch vollzogen werden kann. Um die Zufallsauswahl durch-
zuführen, könnten aus einer Urne mit N Losen n Lose gezogen werden, wie dies
z.B. bei der Ziehung der Lottozahlen durchgeführt wird. In der Praxis werden dazu
heutzutage Computerprogramme benutzt. Man bezeichnet sie als Zufallsgenerato-
ren. Auf technische Aspekte und die Realisierung in Programmpaketen gehen wir in
Abschn. 2.12 ein. An dieser Stelle wollen wir ein anderes Problem bei der Umset-
zung von Stichproben ansprechen. Die Frage ist, wie eine numerische Zufallszahl
mit den Individuen der Population in Verbindung zu bringen ist. Dazu nehmen wir
an, dass die Elemente der Grundgesamtheit durchnummeriert sind. Wir haben also
eine Liste der Zahlen 1 bis N vorliegen, von denen jeder Eintrag exakt einem Merk-
malsträger der Grundgesamtheit zugeordnet wird. Exemplarisch ist dies in Abb. 2.1
dargestellt. Wir bezeichnen die Liste im Folgenden auch als Populationsliste. Für
eine einfache Zufallsstichprobe ziehen wir nun n Zufallszahlen aus der Populations-
liste. Da jede Zahl in der Liste exakt einem Merkmalsträger in der Grundgesamtheit
entspricht, haben wir somit eine einfache Zufallsstichprobe gezogen.
Auch wenn sich das Verfahren im Prinzip einfach anhört, so sind mit der Rea-
lisation durchaus große Schwierigkeiten verbunden. Wie kann man zum Beispiel
auf einfache Weise eine derartige numerische Populationsliste erstellen oder wie
kann man auf vorhandene Listen zurückgreifen? Betrachten wir dazu das folgende
Beispiel.
Das Beispiel zeigt, dass in vielen Fällen, in denen eine einfache Zufallsstich-
probe gezogen werden soll, Elemente in der Population existieren können, die eine
Wahrscheinlichkeit von 0 besitzen, in die Stichprobe gezogen zu werden. Wir un-
terscheiden daher zwischen Population und Studienpopulation. Graphisch ist dies in
Abb. 2.2 dargestellt.
• Die Studienpopulation ist die Teilmenge der Population, die eine echt positive
Wahrscheinlichkeit hat, in die Stichprobe gezogen zu werden. Allgemein gilt,
dass wir generell nur eine Aussage über die Studienpopulation treffen können.
Bestehen also zwischen Population und Studienpopulation relevante Unter-
schiede bezüglich des oder der interessierenden Merkmale, so ist die Stich-
probenziehung basierend auf der gewählten Studienpopulation als kritisch zu
betrachten.
Beispiel 2.10: Ein Internetversandhaus möchte eine Untersuchung zum Zah-
lungsverhalten der Kunden durchführen, bei der die Zeit zwischen Versand und
Bezahlung als interessierende Variable erhoben werden soll. Als Population,
sprich Menge der interessierenden Objekte, definiert man daher die Bestellungen
beim Versandhaus. Nun will das Unternehmen natürlich nicht nur rückblickend,
sondern auch vorausschauend die Ergebnisse der Untersuchung nutzen. Das be-
deutet inhaltlich, dass die Population aus bisherigen und zukünftigen Bestellun-
gen bestehen soll. Die Stichprobenziehung kann sich aber nur auf abgeschlossene
Bestellungen beziehen. Das heißt, die Studienpopulation (bestehend aus den ab-
geschlossenen Bestellungen) ist nur eine Teilmenge der Bestellungen bei dem
Unternehmen, über die eine Aussage getroffen werden soll.
2.6.1 Notation
Wir wollen nun den Informationsgehalt einer einfachen Zufallsstichprobe mit sta-
tistischem Instrumentarium bewerten. Hierzu führen wir im Folgenden eine Nota-
tionskonvention ein, um die Population zu beschreiben. Wir gehen zunächst von
einem Merkmal Y aus. Die Größen Y1 , . . . , Y N sind die Merkmalsausprägungen in
der Grundgesamtheit, das heißt Yi ist beispielsweise das Alter oder das monatliche
Einkommen der i-ten Person in der Population. Wir interessieren uns in der Regel
für die Werte, die aus den Yi abgeleitet werden, wie z.B. den Mittelwert oder die
Varianz in der Population, also das mittlere Alter oder das mittlere Einkommen
als Beispiele für Mittelwerte. Solche abgeleiteten Größen bezeichnen wir als Para-
meter. Ziel einer statistischen Erhebung ist es, diese Parameter zu schätzen. Dazu
nutzen wir die Merkmalsausprägungen in der Stichprobe. Diese bezeichnen wir mit
kleinen Buchstaben, also mit y1 , . . . , yn , und nennen sie Beobachtungen. Damit ist
yk beispielsweise das Alter oder das Monatseinkommen der k-ten befragten und in
die Stichprobe aufgenommenen Person. Aus der Stichprobe leiten wir sogenannte
Statistiken oder Schätzer her, wie zum Beispiel den Mittelwert oder die Varianz
in der Stichprobe. Somit beziehen sich große Buchstaben auf die Population, kleine
Buchstaben sind Größen der Stichprobe. Schematisch ist dies in Abb. 2.3 dargestellt.
Schätzer von Parametern einer Population notieren wir nachfolgend auch mit einem
Dach .
2.6 Statistische Inferenz 17
Für unsere weiteren Betrachtungen werden wir die folgende Notation verwen-
den. Auf die jeweiligen Größen wird in den nachfolgenden Abschnitten näher ein-
gegangen.
Größe Bedeutung
In der Population:
In der Stichprobe:
n
s2 = 1
n−1 k=1 (yk − ȳ)2 Varianz des Merkmals in der Stichprobe
Ȳ Schätzer für den Mittelwert in der Population
Wir verwenden im Folgenden in der Regel die Indizes i und j für Größen, die
sich auf die Population beziehen und k und l als Indizes für die Variablen der
Stichprobe.
2.6.2 Mittelwertschätzung
Um mit den eingeführten Begriffen vertraut zu werden und um verschiedene Eigen-
schaften zu veranschaulichen, betrachten wir zunächst ein kleines Beispiel.
Beispiel 2.11: Wir stellen uns eine kleine Population vom Umfang N = 5 vor.
Das interessierende Merkmal hat die Ausprägungen
Der interessierende Parameter ist der Mittelwert der Y -Werte. Hier ist Ȳ = 14.
Um diesen Wert zu schätzen, ziehen wir eine einfache Zufallsstichprobe vom
Umfang n = 3 ohne Zurücklegen. Die Definition der einfachen Zufallsstichprobe
besagt, dass jede mögliche
Stichprobe mit gleicher Wahrscheinlichkeit auftritt.
Es ergeben sich Nn = 53 = 5!/(2! 3!) = 10 mögliche Stichproben, von denen
jede mit gleicher Wahrscheinlichkeit, nämlich 1/10 auftritt. Damit erhalten wir
folgende Schätzer und die Wahrscheinlichkeitsverteilung für den Mittelwert ȳ
der Stichprobe.
Wir können nun den Erwartungswert, d.h. den mittleren Wert über alle mögli-
chen Stichproben, und die Streuung des Schätzers in Form der Varianz berechnen.
Es ergibt sich als Erwartungswert
1 1 1
E( ȳ) = 10, 00 + 12, 33 + . . . + 17, 00 = 14, 00
10 10 10
2.6 Statistische Inferenz 19
und als Varianz, d.h. als mittlere quadratische Abweichung vom Mittelwert
1 1
Var( ȳ) = (10, 00 − 14, 00)2 + (12, 33 − 14, 00)2 + . . .
10 10
1
+ (17, 00 − 14, 00)2
10
= 4, 33.
Allgemein nehmen wir zunächst an, dass das interessierende Merkmal Y me-
trisch ist, also beispielsweise das Alter oder das Einkommen einer Person. Wie in
obigem Beispiel ist man hierbei am Mittelwert der Merkmale Yi , i = 1, . . . , N
interessiert. Wir unterscheiden dabei Größen der Population und Größen der Stich-
probe. Den Mittelwert der Population erhalten wir durch
N
Ȳ = Yi ,
N
i=1
n
Ȳ E S = ȳ = yk
n
k=1
liefert. Dabei ist die Größe Ȳ der gesuchte und unbekannte Mittelwert in der Popu-
lation, der durch Ȳ E S als Stichprobenmittelwert geschätzt werden kann. Der Index
E S steht für Einfache Stichprobe. Man beachte, dass Ȳ ein (unbekannter) fester
Wert ist, während Ȳ E S eine Zufallsgröße ist, da diese von der Stichprobe abhängt.
Wir stellen uns nun die Frage welche Eigenschaften der Schätzer Ȳ E S hat. Ganz
allgemein bewertet man einen Schätzer nach dem Schätzfehler. Dabei unterschei-
det man zwischen dem systematischen und dem zufälligen Schätzfehler. Den sy-
stematischen Schätzfehler bezeichnen wir im Folgenden als Bias, den zufälligen
Fehler messen wir in Form der Varianz. Diese Gütekriterien werden im Folgenden
definiert.
Betrachten wir zuerst die Definition des Bias. Hierzu berechnen wir den Er-
wartungswert des Schätzers. Wir notieren den Erwartungswert mit E(·). Für die
einfache Zufallsstichprobe gilt (Herleitung folgt später)
E Ȳ E S = Ȳ ,
20 2 Einfache Stichprobenverfahren
und somit Bias Ȳ E S = 0. Also liefert im Mittel das arithmetische Mittel der
Stichprobe den gesuchten Parameter Ȳ der Population. Wir haben diesen Sachver-
halt schon in dem kleinen Beispiel oben überprüft. Salopp gesprochen können wir
sagen, dass wir im Mittel mit unserer Stichprobe richtig liegen.
Allerdings kann der Wert von Ȳ E S von dem wahren Wert Ȳ je nach gezoge-
ner Stichprobe abweichen. Diese zufällige Abweichung wird durch die Varianz des
Schätzers quantifiziert. Sie hängt von der Varianz der Variablen in der Population
und dem Stichprobenumfang ab. Die Varianz in der Population ist ein Maß für die
Streuung der einzelnen Yi -Werte, i ∈ {1, . . . , N }, und ist definiert durch
N
S2 = (Yi − Ȳ )2 .
N
i=1
n
s2 = (yk − ȳ)2 .
n−1
k=1
Die Größe S 2 ist die Varianz von Y in der Population, die wir gelegentlich auch
mit SY2 notieren. Diese ist, genau wie Ȳ , unbekannt. Basierend auf einer Stichprobe
kann s 2 als Schätzer für S 2 herangezogen werden. Wie in den Herleitungen später
gezeigt wird, führt die Division durch n − 1 (statt n) zu einem annähernd unverzerr-
ten Schätzer. Man achte an dieser Stelle auch auf die gewählte Notationskonvention,
bei der Größen der Population mit großen Buchstaben notiert werden, wohingegen
kleine Buchstaben für Größen der Stichprobe stehen.
Sofern der Stichprobenumfang kleiner ist als die Populationsgröße (n < N ), das
heißt, sofern keine Vollerhebung (Zensus) durchgeführt wird, liefert eine Stichprobe
nicht das exakte Ergebnis. Wir berechnen daher die Varianz des Schätzers als Maß
für die Genauigkeit. Wie die weiter unten folgende Herleitung zeigt, gilt
S2 N − n
Var Ȳ E S = .
n N −1
S N −n
STD Ȳ E S = √ .
n N −1
Nun ist S 2 nicht bekannt, kann aber durch s 2 geschätzt werden, was zur geschätz-
ten Varianz führt:
s2 N − n
Var Ȳ E S = .
n N
2.6 Statistische Inferenz 21
Ȳ = Var
STD Ȳ .
Es gilt allgemein:
2
MSE
Ȳ = Var
Ȳ + Bias
Ȳ .
Insbesondere sind also Var
Ȳ und MSE Ȳ für unverzerrte
Schätzer identisch.
22 2 Einfache Stichprobenverfahren
Aus den Formeln ist ersichtlich, dass die Standardabweichung des Schätzers
direkt proportional zur Standardabweichung des Merkmals in der Grundgesamt-
heit ist. Weiterhin ist bei der Standardabweichung die √ Abhängigkeit vom Stichpro-
benumfang im Wesentlichen durch den Faktor 1/ n gegeben. Im Gegensatz zur
konventionellen Statistik taucht in den Formeln ein zusätzlicher Faktor der Form
(N − n)/N = 1 − (n/N ) auf. Dieser Faktor wird auch als Korrekturfaktor für
endliche Populationen bezeichnet und n/N nennt man auch Auswahlsatz. Insbe-
sondere bewirkt der Korrekturfaktor, dass für n = N die Varianz des Schätzers 0
ist. Das macht Sinn, bedeutet doch n = N , dass alle Elemente der Population in die
Stichprobe aufgenommen werden, was inhaltlich einer Vollerhebung gleichkommt.
Somit folgt für n = N , dass ȳ = Ȳ ist, also weist
Ȳ E S eine Varianz von 0 auf. Ganz
allgemein wird die Varianz des Mittelwertschätzers mit steigendem Auswahlsatz
n/N kleiner. Der Korrekturfaktor ist notwendig, da jeder Merkmalsträger höchstens
einmal in die Stichprobe gezogen wird, was wir als Ziehen ohne Zurücklegen be-
zeichnen. Wir greifen diesen Punkt in Abschn. 2.7 nochmal auf.
Es ist an dieser Stelle wichtig zu bemerken, dass gebräuchliche Softwarepakete
den Korrekturfaktor vernachlässigen. Dies ist gerechtfertigt, wenn der Stichproben-
umfang im Vergleich zum Populationsumfang klein ist, das heißt, wenn n << N . In
diesem Fall ist (N − n)/N ≈ 1. Möglichkeiten, diese Korrektur softwaretechnisch
einzubauen, werden in Abschn. 2.12 aufgezeigt.
n
Ȳ E S = ȳ = 1
n yk .
k=1
n
2
Var Ȳ E S = N −n 1
N n(n−1) yk −
Ȳ E S .
k=1
Herleitung: Nachfolgend leiten wir den Erwartungswert und die Varianz des Schätzers einer
einfachen Zufallsstichprobe her. Um die folgenden Berechnungen sinnvoll durchführen zu kön-
nen, gehen wir zu einer nach der Reihenfolge der Ziehung geordneten Stichprobe (y1 , . . . , yn )
2.6 Statistische Inferenz 23
über. Diese entspricht genau der Vorstellung vom Ziehen ohne Zurücklegen. Da die Reihenfolge
berücksichtigt wird, hat jede geordnete Stichprobe die Wahrscheinlichkeit
1 1
= .
N (N − 1) . . . (N − n + 1) N
n!
n
Wir beginnen mit der Wahrscheinlichkeitsverteilung der ersten gezogenen Einheit y1 . Da
alle Einheiten der Population die Wahrscheinlichkeit 1/N haben, im ersten Zug gezogen zu
werden, gilt
1
P(y1 = y) = {i|Yi = y}.
N
Dabei bedeutet das Zeichen die Anzahl der Elemente der entsprechenden Menge. Die
Wahrscheinlichkeit für y ist also die relative Häufigkeit von y in der Grundgesamtheit. Damit
entspricht die Wahrscheinlichkeitsverteilung von y1 der festen, im Allgemeinen unbekannten
empirischen Verteilung des Merkmals Y in der Population. Dieser einfache Zusammenhang
bildet die Basis für die statistische Analyse der einfachen Zufallsstichprobe. Als erste Folgerung
ergibt sich
N
E(y1 ) = Yi = Ȳ .
N
i=1
Im zweiten Schritt zeigen wir, dass die Wahrscheinlichkeitsverteilung von yk für alle k
identisch ist. Das heißt insbesondere, dass die Wahrscheinlichkeitsverteilung des k-ten Zuges
gleich der Wahrscheinlichkeitsverteilung des ersten Zuges ist. Man beachte, dass es sich da-
bei um die Verteilung von yk ohne Betrachtung der vorherigen Ziehungen handelt. Wenn die
Ziehungen vor k bekannt sind, ist die obige Aussage nicht mehr gültig. Intuitiv lässt sich die
Aussage damit begründen, dass das Ziehen ohne Zurücklegen im Prinzip auch in einem Schritt
erfolgen kann. Damit ist die Nummerierung der gezogenen Elemente eigentlich unerheblich
und hat daher keinen Einfluss auf die Verteilung. Dieses Argument kann wie folgt formalisiert
werden:
(i 1 , i 2 , . . . , i n )|yik = y, i k , il {1, . . . , N }, i k = il für k = l
P(yk = y) = N .
n n!
Die Wahrscheinlichkeit entspricht also der Zahl aller Stichproben, bei denen an der k-ten
Stelle ein Element mit der Ausprägung y gezogen wird, geteilt durch die Gesamtzahl aller
Stichproben. Die Anzahl im Zähler ist offensichtlich nicht vom Index k abhängig. Daher gilt
P(yk = y) = P(y1 = y).
Damit entsprechen auch die Verteilungen der anderen Züge der empirischen Verteilung des
Merkmals in der Population. Somit können wir auf einfache Weise den Erwartungswert des
Stichprobenmittels berechnen:
1
n
1
n
1
E Ȳ E S = E yk = E(yk ) = n E(y1 ) = Ȳ .
n n n
k=1 k=1
n
1 n n 1
n
Var Ȳ E S = Var yk = 2 Cov(yk , yl ) + 2 Var(yk ).
n n k=1 l=1 n
k=1 k=1
k=l
24 2 Einfache Stichprobenverfahren
1
2
N
Var(yk ) = Var(y1 ) = E y12 − (E(y1 ))2 = Yi − Ȳ 2 = S 2 .
N
i=1
Zur Berechnung der Kovarianzen Cov(yk , yl ) benutzen wir wie oben die Symmetrieeigen-
schaft des Ziehens ohne Zurücklegen. Es gilt für k = l:
(i1 , . . . , i n )|yik = y (1) , yil = y (2) , i k , il {1, . . . , N }, i k = il für k = l
P(yk = y (1) , yl = y (2) ) = N .
n n!
Auch hier ist diese Wahrscheinlichkeit nicht von den Indizes k und l abhängig. Damit ist die
gemeinsame Wahrscheinlichkeitsverteilung von yk und yl identisch mit der von y1 und y2 und
es gilt
Cov(yk , yl ) = Cov(y1 , y2 ).
N
E(y1 y2 ) = Yi Y j
N (N − 1)
i=1 j=1
i= j
N
1
N
= Yi Y j − Yi2
N (N − 1) N (N − 1)
i=1 j=1 i=1
N2 1
N
= Ȳ 2 − Yi2 .
N (N − 1) N (N − 1)
i=1
Cov(y1 , y2 ) = E(y1 y2 ) − E(y1 ) E(y2 )
1
2
N
1 1
= Ȳ 2 − Yi
N −1 N −1 N
i=1
1
=− S2.
N −1
1 1 1
Var Ȳ E S = 2 · n (n − 1) · − S2 + 2 n S2
n N −1 n
S2 n−1
= 1−
n N −1
S2 N − n
= .
n N −1
2.6 Statistische Inferenz 25
1
n
E(s 2 ) = E (yk − ȳ)2
n−1
k=1
n
1
= E yk2 − n ȳ 2
n−1
k=1
1
= n (Y¯2 ) − n (E( ȳ))2 + Var( ȳ)
n−1
1 1 N −n 2
= n (Y¯2 ) − n Ȳ 2 − n S
n−1 n N −1
1 N −n 2
= nS 2 − S
n−1 N −1
N
= S2 .
N −1
Aus E(s 2 ) = S 2 NN−1 folgt nun unmittelbar
E Var Ȳ E S = Var Ȳ E S .
2.6.3 Konfidenzintervalle
Die Varianz (bzw. die Standardabweichung) ist nur ein mögliches Maß, um die Un-
sicherheit des Schätzers anzugeben. Eine anschauliche und in der Praxis verbrei-
tete Alternative dazu ist die Angabe eines Bereiches (eines Intervalls), in dem der
wahre Wert liegen soll. Man spricht im Allgemeinen von „Intervallschätzung“ und
verlangt, dass dieser Bereich den wahren Wert mit einer vorgegebenen Wahrschein-
lichkeit von 95 bzw. 99% (auch andere Werte sind möglich) enthält. Um ein solches
Intervall zu erhalten, benötigt man die Verteilung des Schätzers. Hierzu benutzt man
das Konzept des Zentralen Grenzwertsatzes.
In seiner einfachsten Form besagt der Zentrale Grenzwertsatz, dass die Summe
von unabhängigen und identisch verteilten Zufallsgrößen für wachsenden Stichpro-
benumfang approximativ normalverteilt ist. Diese Aussage lässt sich auf den Fall
einer Stichprobe aus einer endlichen Grundgesamtheit übertragen. Hier haben wir
jedoch mit der zusätzlichen Hürde zu kämpfen, dass der Ziehungsprozess ohne Zu-
rücklegen erfolgt und somit die gezogenen Elemente (und damit die Zufallsgrößen
yk ) nicht unabhängig sind. Allerdings lässt sich unter weiteren technischen Voraus-
setzungen eine asymptotische Theorie für Stichprobenszenarien entwickeln, aus der
auch die approximative Normalverteilung des Stichprobenmittels für große Stich-
proben und große Grundgesamtheiten folgt, siehe dazu etwa Thompson (2002).
Weiter wurde in verschiedenen Simulationsstudien gezeigt, dass die asymptotische
Normalverteilung in vielen praktischen Fällen angemessen erscheint, siehe dazu et-
wa Cochran (1977). Wir veranschaulichen die asymptotische Normalität an einem
kleinen Simulationsbeispiel.
Beispiel 2.12: Nehmen wir an, unsere Population bestehe aus den 100
Elementen
26 2 Einfache Stichprobenverfahren
√ √ √ √
Y1 = 1, Y2 = 2, ..., Y99 = 99, Y100 = 100.
Wir ziehen nun eine einfache Zufallsstichprobe vom Umfang n, wobei wir ex-
emplarisch n = 5, 10 bzw. 20 setzen, was einem Auswahlsatz von 5, 10 bzw. 20%
entspricht. In Abb. 2.4 zeigen wir die Verteilung von Yi in der Population und von
Ȳ E S , basierend auf 20 000 simulierten Stichproben. Es ist ersichtlich, dass die
Verteilung von Ȳ E S schon bei kleinem Stichprobenumfang einer Normalvertei-
lung folgt, welche in den Graphiken als klassische Glockenkurve eingezeichnet
ist.
Wir erweitern die Simulation auf den Fall einer kleineren Population und da-
mit auf einen veränderten Auswahlsatz. Hierzu reduzieren wir N auf 25 mit den
Werten
√ √ √ √
Y1 = 1, Y2 = 2, ..., Y24 = 24, Y25 = 25.
Population
Population
0.0 0.4 0.8
2 4 6 8 10
Y
n=5
0.4
Histogramm
0.2
0.0
2 4 6 8 10
arithmetisches Mittel
n=10
Histogramm
0.3
0.0
2 4 6 8 10
arithmetisches Mittel
n=20
0.8
Histogramm
0.4
0.0
2 4 6 8 10
arithmetisches Mittel
Population
Population
0.0 0.4 0.8
1 2 3 4 5
Y
n=5
0.0 0.4 0.8
Histogramm
1 2 3 4 5
arithmetisches Mittel
n=10
Histogramm
0.0 0.6 1.2
1 2 3 4 5
arithmetisches Mittel
n=20
Histogramm
0 1 2 3
1 2 3 4 5
arithmetisches Mittel
Mit dieser Verteilungsannahme berechnen wir nun ein Intervall, das den ge-
suchten Parameter mit vorgegebener Wahrscheinlichkeit enthält. Dieses sogenannte
Konfidenzintervall ist bestimmt durch
Ȳ − 1, 96 Var Ȳ , Ȳ + 1, 96 Var Ȳ .
Der Faktor 1,96 wird aus der Normalverteilungsannahme und der geforderten
Überdeckungswahrscheinlichkeit abgeleitet, die konventionell auf 95% gesetzt ist.
Somit können wir sagen, dass
P Ȳ Ȳ ± 1, 96 Var Ȳ ≈ 0, 95.
Konfidenzintervall
wobei z 1− α2 das 1 − α2 -Quantil der Standardnormalverteilung ist.
N
P= Yi ,
N
i=1
der dem arithmetischen Mittel der Yi entspricht. Die Größe P ist somit der (un-
bekannte) Anteil der Studierenden, die keine Einwände gegen die Einführung von
Studiengebühren haben.
In der Grundgesamtheit sind also N · P Personen mit Yi = 1 und N · (1 − P)
Personen mit Yi = 0. Da wir bisher keine Voraussetzungen an die möglichen Werte
Y gestellt haben, können die bisherigen Überlegungen auch auf diesen Fall ange-
wendet werden. Durch die besonders einfache Struktur ergeben sich zusätzliche
Möglichkeiten der Inferenz. Für die Varianz in der Grundgesamtheit gilt:
N
1
S2 = (Yi − Ȳ )2 = N P(1 − P)2 + N (1 − P)(0 − P)2 = P(1 − P).
N N
i=1
n
E S = p = 1
P yk .
n
k=1
Insbesondere hängt die Varianz von p vom unbekannten Anteil P ab. Dieser
kann wiederum geschätzt werden und man erhält die geschätzte Varianz
p(1 − p) N − n
Var
Ȳ E S = Var( p) = . (2.1)
n−1 N
Das Vorgehen bei der Anteilsschätzung entspricht dem Vorgehen bei der Mittel-
wertschätzung eines mit den Werten 0 und 1 kodierten Merkmals. Die Varianzschät-
30 2 Einfache Stichprobenverfahren
n
E S = p =
P 1
yk .
n
k=1
E S = p(1− p) N −n
Var P n−1 N .
n
m n−m
P yk = m = N .
k=1 n
Im Zähler steht genau die Anzahl der Stichproben, die zum Wert nk=1 yk = m
führt. Für Erwartungswert und Varianz der hypergeometrischen Verteilung gilt
n
E yk = n P,
k=1
n
N −n
Var yk = n P (1 − P) .
N −1
k=1
2.6 Statistische Inferenz 31
Nach Division durch n erhält man die entsprechenden Werte für die Anteilsschät-
zung. Um ein (1 − α)-Konfidenzintervall zu erhalten, setzen wir nk=1 yk = m und
wählen nun als untere beziehungsweise obere Grenze für das unbekannte M die
Größen U und O, so dass gilt
m O N −O
r n−r
N = α1 , (2.2)
r =0 n (2.3)
U N −U
r
n
n−r
N = α2 . (2.4)
r =m n
α1 + α2 ≤ α.
wobei z 1− α2 das 1 − α2 -Quantil der Standardnormalverteilung ist.
U
Ein exaktes (1 − α)-Konfidenzintervall ist gegeben durch N; N
O
. falls gilt
m −O
(Or ) ( Nn−r )
= α1 ,
r =0 (n )
N
n −U
(Ur ) ( Nn−r )
= α2 ,
r =m (n )
N
α1 + α2 ≤ α.
32 2 Einfache Stichprobenverfahren
Auch wenn das Konzept der Bestimmung des exakten Konfidenzintervalls relativ
einfach ist (siehe dazu auch Thompson 2002), ist die konkrete Umsetzung nur in
einfachen Beispielen ohne den Einsatz eines Computers realisierbar. Zur numeri-
schen Umsetzung siehe Abschn. 2.12.3. Weitere Probleme liegen in der Wahl von
α1 und α2 . Zunächst wäre die Wahl von α1 = α2 = α/2 eine sinnvolle Wahl.
Allerdings lassen sich auf Grund der Beschränkung auf ganze Zahlen U und O nicht
so bestimmen, dass die beiden obigen Gleichungen exakt erfüllt sind. Also wird in
den meisten Fällen α1 + α2 < α gewählt, was letztendlich zu einem Konfidenzin-
tervall führt, dass ein höheres Konfidenzniveau hat. Wir illustrieren dies an einem
Beispiel.
Beispiel 2.13: In einem Betrieb mit N = 300 Mitarbeitern möchte die Fir-
menleitung von ihren Angestellten wissen, welche Maßnahmen diese zur Ver-
besserung des Betriebsklimas für geeignet halten. Dabei wurden unter anderem
die folgenden zwei Fragen gestellt, welche mit ja oder nein beantwortet werden
konnten: „Wünschen Sie sich flexiblere Arbeitszeiten?“ und „Wünschen Sie sich
einen Betriebskindergarten?“. Es wurden n = 100 Personen befragt. Die Firmen-
leitung interessiert sich für die Anteilswerte P1 und P2 der zwei Fragen. Frage
1 wurde von m 1 = 45 Personen und Frage 2 von m 2 = 2 Personen mit „Ja“
beantwortet. Die Anteilsschätzungen sind nun
45
p1 = = 0, 45
100
2
p2 = = 0, 02.
100
Die entsprechenden Konfidenzintervalle nach der approximativen Methode
werden wie folgt berechnet
annimmt. Das zweite Konfidenzintervall hat eine negative untere Grenze, was
klarerweise wenig informativ ist. Eine Korrektur dieser Grenze auf 0 ist insofern
2.6 Statistische Inferenz 33
auch nicht sehr hilfreich, da in der Stichprobe bereits 2 Personen sind, die die
Frage 2 mit „Ja“ beantworten. Daher ist der gesuchte Anteil p2 in der Population
mindestens 2/300, also größer als 0.
Die Berechnung des exakten Konfidenzintervalls liefert (siehe dazu numeri-
sche Umsetzung in 2.12) das exakte 95%-Konfidenzintervall für p1 zu
bzw.
E S − z 1−α ·
P V ar E S ; 1 .
P
34 2 Einfache Stichprobenverfahren
ziehen wir nun mit Zurücklegen, d.h. ist ein Individuum gezogen, so wird der
Wert von Y notiert und das Individuum wird in die Population „zurückgelegt“.
Im nächsten Zug kann es somit noch einmal gezogen werden. Im Falle von Zie-
hen mit Zurücklegen ergeben sich damit die folgenden Stichproben, wobei die
Reihenfolge der Ziehung berücksichtigt wird:
1 1 1 9,00 1/125
1 1 2 9,33 1/125
1 1 3 9,67 1/125
1 1 4 12,00 1/125
1 1 5 13,33 1/125
··· ··· ···
5 5 1 17,67 1/125
5 5 2 18,00 1/125
5 5 3 18,33 1/125
5 5 4 20,67 1/125
5 5 5 22,00 1/125
0.12
Wahrscheinlichkeit
0.08
0.04
0.0
10 12 14 16 18 20 22
Schaetzer
Ziehen mit Zuruecklegen
0.12
Wahrscheinlichkeit
0.08
0.04
0.0
10 12 14 16 18 20 22
Schaetzer
S2
Var Ȳ M Z = .
n
Diese kann geschätzt werden durch
n
Ȳ M Z = ȳ = 1
n k=1 yk .
n 2
Var Ȳ M Z = 1
n (n−1) k=1 yk −
Ȳ M Z .
36 2 Einfache Stichprobenverfahren
1
n
2
Var Ȳ M Z = yk −
Ȳ M Z .
n (n − 1)
k=1
Ein Vergleich der Varianzen mit und ohne Zurücklegen zeigt, dass die Varianz
beim „Ziehen mit Zurücklegen“ größer ist. Allgemein ist sie um den Faktor (N −1)/
(N − n) größer, der sich aus den zugrunde liegenden Verteilungsmodellen ergibt.
Im Fall der Schätzung eines Anteils erhält man eine Binomialverteilung.
n
Die Anzahl der Einsen y = yi in der Stichprobe
i=1
ist binomialverteilt mit den Parametern
E(y) = n P,
Var(y) = n P(1 − P).
n
M Z =
P 1
yk .
n
k=1
Die Konfidenzintervalle ergeben sich analog zu dem Fall ohne Zurücklegen als
M Z − z 1− α ·
P 2
Var M Z ; P
P M Z + z 1− α ·
2
Var M Z .
P
Als Beispiel wollen wir ein Ergebnis der Sonntagsfrage aus dem Jahr 2009 ana-
lysieren.
Es werden in der Literatur auch andere Verfahren zur Bestimmung von Konfi-
denzintervallen diskutiert, siehe dazu z.B. Held (2008). Für kleine Anteile und/oder
kleine Stichproben können auch die exakten Konfidenzintervalle nach Clopper-
Pearson genutzt werden, siehe dazu z.B. Fleiss, Levin und Paile (2003). Eine gute
Alternative ist das Konfidenzintervall nach Wilson, das auf dem Score-Test basiert
und auch für kleine Anteile gut geeignet ist, siehe dazu auch Agresti und Coull
(1998). In der Praxis wird das Ziehen mit Zurücklegen kaum angewendet. Aller-
dings sind bei großen Grundgesamtheiten Ziehen mit und ohne Zurücklegen prak-
tisch identisch. Da insbesondere bei modellbasierten Schätzmethoden, wie wir sie
später im Buch behandeln, die Berechnung der Varianz im Falle des Ziehens mit
Zurücklegen wesentlich einfacher ist, wird diese bei entsprechend großen Popula-
tionen auch der Einfachheit halber angewendet. Man beachte, dass bei der Parame-
terschätzung der Umfang N der Grundgesamtheit nicht eingeht.
Betrachtet man die Varianz des Schätzers Ȳ E S , so stellt man fest, dass diese mit
wachsendem Stichprobenumfang abnimmt. Dies bedeutet insbesondere, dass Konfi-
denzintervalle mit wachsendem Stichprobenumfang kleiner werden. Inhaltlich lässt
sich dies folgendermaßen interpretieren: Das Ergebnis der Stichprobe wird mit
wachsendem Stichprobenumfang genauer. Wir können nun anders herum fragen,
wie groß eine Stichprobe mindestens sein muss, um eine gewisse Genauigkeit zu
erfüllen. Wir wollen also nun eine gewünschte Genauigkeit vorgeben und damit den
erforderlichen Stichprobenumfang berechnen. Es soll somit der Stichprobenumfang
n so gewählt werden, dass der Schätzwert mit einer vorgegebenen Wahrscheinlich-
keit 1 − α einen Abstand kleiner als e vom wahren Wert hat. Dabei ist e eine
vorgegebene Genauigkeit und 1 − α das Sicherheitsniveau bzw. α die Fehlerwahr-
scheinlichkeit. Als Formel geschrieben heißt das
38 2 Einfache Stichprobenverfahren
P Ȳ E S − Ȳ < e ≥ 1 − α,
wobei z 1− α2 das 1 − α2 -Quantil der Standardnormalverteilung ist. Für die vorge-
α=
gebene Fehlerwahrscheinlichkeit 0, 05 erhalten wir z 1−0,05/2 = z 0,975 = 1, 96.
Einsetzen der Formel für Var Ȳ und quadrieren liefert unter Verwendung von
ES
N −n N −n
≈
N −1 N
e2
≥ z2 α . (2.5)
S2 N − n 1−
2
n N
Lösen wir (2.5) nach n auf, so erhalten wir
S2
n≥ . (2.6)
e2 /z 1−
2
α + S /N
2
2
Ist die Population im Vergleich zur Stichprobe groß, so können wir den Korrek-
turfaktor NN−n für endliche Populationen ignorieren und erhalten die Näherungslö-
sung
S2
n ≥ z 1−
2
α . (2.7)
2 e2
Die übliche Wahl α = 0, 05 ergibt mit z 1−α/2 = 1, 96 ≈ 2 die Faustregel
2
n 4 · Se . Man benötigt also bei großen Populationen nur das Verhältnis S/e,
um den Stichprobenumfang näherungsweise zu bestimmen.
Ein anderer Ansatz zur Bestimmung des notwendigen Stichprobenumfangs ist
es, die erwartete Länge des Konfidenzintervalls vorzugeben. Aus der Form
2.8 Bestimmung des Stichprobenumfangs 39
Ȳ E S − z 1− α2 Var Ȳ E S ,
Ȳ E S + z 1− α2 Var Ȳ E S
Da die Größe s 2 aus der Stichprobe berechnet wird, ist die Länge des Konfi-
denzintervalls zufällig und nicht im Vorfeld bestimmbar. Daher kann man sinnvol-
lerweise auch nur die erwartete
Länge l des Konfidenzintervalls vorgeben. Unter
Berücksichtigung von E s 2 NN−n = S 2 NN −n−1 erhält man
%
S2 N − n
l ≈ 2 z 1− α2 .
n N −1
Damit berechnen wir bei vorgegebener maximaler erwarteter Länge l den not-
wendigen Stichprobenumfang mit der Formel
S2
n ≥ 2 , (2.8)
l
2 /z 1−
2
α + S /N
2
2
Szenario. Dieses kann wiederum genutzt werden, um eine Obergrenze des Stich-
probenumfangs festzulegen. Aus der Formel (2.7) ist ersichtlich, dass der Stichpro-
benumfang umgekehrt proportional zum Quadrat der geforderten Genauigkeit e ist.
Das bedeutet, dass man eine Halbierung der Länge des Konfidenzintervalls mit einer
Vervierfachung des Stichprobenumfangs „bezahlen“ muss.
S2
n≥ .
e2 /z 1−
2
α +S /N
2
2
S2
n ≥ z 1−
2
α
e2
.
2
P(1−P)
n≥ ,
e2 /z 1−
2
α +P(1−P)/N
2
bzw.
P(1−P)
n ≥ z 1−
2
α
e2
.
2
Für P verwendet man bei fehlendem Vorwissen den worst case 0,5.
Ist hingegen bekannt, dass P einen Wert Ppriori < 0, 5 unterschreitet
bzw. einen Wert Ppriori > 0, 5 überschreitet,
so kann man diesen Wert als a priori bekannte Grenze in die Formel einsetzen.
Ist die interessierende Größe ein Anteilswert P, so ergibt sich der Stichprobe-
numfang ebenfalls aus Formel (2.6). In diesem Falle ersetzt man jedoch S 2 durch
P(1 − P), so dass sich ergibt
2.8 Bestimmung des Stichprobenumfangs 41
P(1 − P)
n≥ , (2.9)
e2 /z 1−
2
α+ P(1 − P)/N
2
Tabelle 2.2 Notwendiger Stichprobenumfang bei einer geforderten Genauigkeit von e = 0, 1 für
den Anteilswert
P N = 10 N = 100 N = 1 000 N = 10 000
0,2 9 39 58 62
0,3 9 45 75 81
0,4 10 48 85 92
0,5 10 49 88 96
Stichprobenumfang n
80
60
P=0.5
40
P=0.4
P=0.25
20
P=0.1
e=0.02
e=0.05
0 200
e=0.10
Abb. 2.7 Stichprobenumfang in Abhängigkeit von der Populationsgröße für verschiedene Werte
von P und e
insbesondere dann von Vorteil ist, wenn die Population mit einer Ordnung oder Ab-
hängigkeitsstruktur versehen ist. Wir ziehen in diesem Falle nicht mehr n Elemente
zufällig aus der Population, sondern wenden eine Systematik an, indem wir jedes
p-te Individuum der Population in die Stichprobe aufnehmen. Zur Ziehung einer
systematischen Stichprobe muss damit eine Zufallszahl aus den Zahlen 1 bis p mit
p = N /n gezogen werden, wobei der Einfachheit halber angenommen wird, dass
N /n ganzzahlig ist. Diese Zufallszahl gibt das erste zu ziehende Element an und
entsprechend ist die zu ziehende Stichprobe vollständig bestimmt. Wir wollen dazu
ein einfaches Beispiel betrachten.
Beispiel 2.17: Nehmen wir an, eine Population bestehe aus den Werten
und wir ziehen eine systematische Stichprobe vom Umfang n = 2. Wir wählen
dabei p = 3 und ziehen eine Zufallszahl j aus den Werten 1 bis p mit einer
Gleichverteilung. Die Stichprobe ergibt sich dann gemäß Y j , Y j+ p (im Allgemei-
nen gemäß Y j , Y j+ p , . . . , Y j+(n−1) p ). Wir erhalten somit die folgenden mögli-
chen Stichproben
Eine wichtige Eigenschaft bei systematischen Stichproben ist, dass die Anzahl
der möglichen Stichproben klein ist, nämlich genau p. Als Schätzer für den Mittel-
wert ergibt sich bei der systematischen Stichprobe in allgemeiner Form
n
Ȳ syst = Y j+(k−1) p ,
n
k=1
wobei wir, wie schon gesagt, der Einfachheit halber annehmen, dass N /n eine ganze
Zahl ist, so dass n = N / p gilt. Zur Bestimmung der Varianz von Ȳ syst gehen wir
weiter davon aus, dass die Ordnung der Elemente zufällig ist. In diesem Fall können
wir die Varianz schätzen durch
s2 N − n
Var Ȳ syst = ,
n N
was der Varianz einer einfachen Zufallsstichprobe entspricht. Die Voraussetzung,
dass die Elemente der Population zufällig geordnet sind, ist dabei essentiell. Ist diese
Voraussetzung verletzt, hängt es entscheidend von der tatsächlichen Ordnung ab, ob
die oben gegebene Varianz eine Über- oder Unterschätzung liefert. Da wir aber im
44 2 Einfache Stichprobenverfahren
Allgemeinen keine Information über die Ordnung haben, ist die obige Varianzbe-
rechnung durchaus gerechtfertigt. Im Prinzip kann eine systematische Stichprobe
auch als eine Cluster-Stichprobe aufgefasst werden, wie sie in Abschn. 5.2 vorge-
stellt wird. Wir werden diesen Punkt dort noch einmal aufgreifen.
Systematische Stichprobe
n
Ȳ syst = 1
n Y j+(k−1) p .
k=1
n
2
Var Ȳ syst = N −n 1
N n(n−1) Y j+(k−1) p −
Ȳ syst .
k=1
Beispiel 2.19: Ein großes Gewässer soll bezüglich seines Schadstoffgehalts un-
tersucht werden. Dazu wird das Gewässer in Planquadrate eingeteilt, die von 1 bis
N durchnummeriert werden. Der Einfachheit halber betrachten wir nur die Plan-
quadrate, die vollständig über dem See verteilt liegen. Aus diesen Planquadra-
ten werden n zufällig ausgewählt und anschließend per Wasserprobe untersucht.
Schematisch lässt sich dies wie in der linken Graphik in Abb. 2.8 darstellen. Die
zufällig gewählten Planquadrate sind dabei schraffiert dargestellt. Die Wahl der
Planquadrate ist zufällig, und ebenso zufällig kann es zu einer Gruppierung von
benachbarten Planquadraten kommen. Die gezogene Stichprobe erscheint unvor-
teilhaft, insbesondere da davon auszugehen ist, dass die Wasserqualität in einem
Planquadrat ähnlich ist zu denen der Nachbarplanquadrate, das heißt zwischen
den Messungen in benachbarten Planquadraten kann eine Abhängigkeit bestehen.
Um diesen Punkt zu berücksichtigen, wollen wir eine systematische Stichprobe
ziehen. Hierbei wählt man die Planquadrate in einer systematischen Form aus.
2.10 Beispiel 45
Die Zufälligkeit besteht nun darin, das erste Planquadrat auszuwählen, die ver-
bleibenden Planquadrate sind damit durch das systematische Muster bestimmt.
Schematisch ist dies in der rechten Skizze von Abb. 2.8 gezeigt, wobei wir hier
jedes 4-te Planquadrat in die Stichprobe aufnehmen. Je nachdem welches Plan-
quadrat der ersten vier Planquadrate gezogen wird (1, 2, 3 oder 4) ist der Rest der
Stichprobe systematisch bestimmt. Die Zufälligkeit besteht also in der Auswahl
des ersten Quadrats.
Abb. 2.8 Einfache Zufallsstichprobe (links) und systematische (zufällige) Stichprobe (rechts), ge-
zogene Planquadrate sind jeweils schraffiert.
2.10 Beispiel
Wir besprechen nun ein Beispiel aus der Praxis, um die Methoden des Kapitels
zu veranschaulichen. Das Beispiel bezieht sich auf eine große Population und wir
werten es nach dem Prinzip einer Ziehung mit Zurücklegen aus.
Beispiel 2.20: Im Rahmen der Diskussion um die Finanzierung der baye-
rischen Hochschulen kam es 2004 nach den Kürzungsbeschlüssen der Baye-
rischen Staatsregierung zu Demonstrationen und anderen Formen des Protests
von Studierenden in Bayern. Um die Wirkung der Proteste und die Meinung der
Münchener Bevölkerung zu einigen damit verbundenen Themen in Erfahrung zu
bringen, wurde von der Fachschaft Statistik der Ludwig-Maximilians-Universität
München eine telefonische Befragung durchgeführt. Die Auswahl wurde mit zu-
fälliger Wahl von Telefonnummern realisiert. Insgesamt wurden 251 Personen
befragt.
Damit lassen sich zu den einzelnen Fragen die entsprechenden Anteile in
der Münchener Bevölkerung hochrechnen. In der folgenden Tabelle sind die Er-
gebnisse für die einzelnen Fragen zusammengestellt. Dabei wurden jeweils die
Konfidenzintervalle mit der Normalverteilungsapproximation verwendet. Da die
zugrunde liegende Population groß genug ist, kann auf die Korrektur für endliche
46 2 Einfache Stichprobenverfahren
2.11 Literatur
Eine Einführung in die nötigen Kenntnisse der Statistik findet man in Fahrmeir,
Künstler, Pigeot, und Tutz (2009) oder Mosler und Schmid (2004). Eine umfang-
reiche Einführung in Stichprobenverfahren liefert Cochran (1977), der generell als
2.12 Numerische Umsetzung 47
Standardwerk herangezogen werden kann. (Man beachte, dass das Buch in deut-
scher Übersetzung als Cochran (1972) vorliegt). Ebenfalls als deutschsprachige Li-
teratur verweisen wir auf Kreienbrock (2004) oder Schwarz (1975). Empfehlens-
wert ist außerdem Scheaffer, Mendenhall und Ott (1995) und Leiner (1989). Dort
wird eine elementare Einführung in die wichtigen Kapitel der Stichprobenverfahren
gegeben. Umfassendes Material wird außerdem bereitgestellt in Thompson (2002)
oder Levy und Lemeshow (1999), wobei Levy und Lemeshow praktische Aspekte
deutlicher in den Vordergrund stellen.
> library(samplingbook)
geladen und auf diese Weise die darin enthaltenen Funktionen und Datensätze ver-
fügbar gemacht werden.
In den folgenden Abschnitten werden das Ziehen einer einfachen Zufallsstich-
probe, sowohl aus einem Vektor als auch aus einem Datensatz, die Mittelwert- und
Anteilsschätzung für einfache Zufallsstichproben und die Bestimmung des Stich-
probenumfangs zur Mittelwert- bzw. Anteilsschätzung dargestellt.
Die Funktion sample(·) zieht eine Stichprobe festgelegter Größe size aus den
Elementen des Vektors x, je nach Bedarf mit oder ohne Zurücklegen. Die Funk-
tion zieht standardmäßig ohne Zurücklegen (replace=FALSE). Mit der Option
replace=TRUE kann aber auch eine Stichprobe mit Zurücklegen gezogen werden.
Mit prob können den einzelnen Elementen unterschiedliche Ziehungwahrschein-
lichkeiten zugewiesen werden. Dies ist bei dieser Prozedur nur für das Ziehen mit
Zurücklegen sinnvoll. Für das Ziehen ohne Zurücklegen liefert diese Option keine
sinnvollen Ergebnisse, siehe dazu Kap. 4.
Da wir eine einfache Zufallsstichprobe ziehen wollen, ist für uns die Standard-
einstellung des Ziehens ohne Zurücklegen bereits richtig voreingestellt. Außerdem
sollen alle Elemente der Grundgesamtheit die gleiche Wahrscheinlichkeit besitzen,
in die Stichprobe zu gelangen, weshalb wir auch die Option prob=NULL unverändert
übernehmen können. Diese beiden Optionen können somit in der Syntax weggelas-
sen werden.
Folglich müssen wir nur den Vektor x, aus dem die Zufallsstichprobe gezogen
werden soll, und die Stichprobengröße size spezifizieren. Wollen wir beispielswei-
se eine Stichprobe vom Umfang n = 100 aus einer Grundgesamtheit vom Umfang
N = 2 000 ziehen, kann dies mit folgender Syntax realisiert werden:
[1] 1093 538 932 110 796 322 187 1947 1981 740 1045 30
[13] 494 1846 1883 1446 1667 1322 1219 1712 1576 1874 261 904
[25] 1291 1033 1150 323 125 1135 687 1844 659 1145 936 1163
[37] 398 914 1544 1614 1248 850 861 1752 680 973 463 1198
[49] 1526 1905 848 1196 600 1513 146 862 1102 1162 392 531
[61] 817 769 708 841 665 1201 1413 337 1281 646 1984 1206
[73] 1414 1270 240 858 550 1059 652 778 795 1994 1224 27
[85] 1359 199 719 1493 1719 982 430 955 438 1042 382 672
[97] 662 728 855 1754
Wir nehmen dabei an, dass die Populationsliste von 1 bis N läuft und die gezoge-
nen Werte den Identifikationsnummern der gezogenen Individuen entsprechen. Um
das Ergebnis reproduzierbar zu machen, setzen wir unter Verwendung der Funkti-
on set.seed(·) einen Startwert für den Algorithmus. Das Ergebnis kann in einen
neuen Vektor, beispielsweise mit Namen sample1 gespeichert werden. Außerdem
können die gezogenen Zahlen mit sort(·) sortiert werden. Durch Eingabe von
sample1 kann das Ergebnis am Bildschirm ausgegeben werden.
2.12 Numerische Umsetzung 49
[1] 31 32 96 121 152 165 205 211 215 251 262 265
[13] 281 282 285 292 308 310 338 388 394 410 418 419
[25] 431 443 456 485 487 513 534 543 558 559 565 622
[37] 645 666 717 719 750 761 766 776 791 809 824 839
[49] 867 875 879 894 924 946 986 993 1020 1027 1030 1031
[61] 1077 1095 1104 1122 1141 1197 1233 1240 1242 1258 1270 1273
[73] 1328 1361 1364 1383 1402 1409 1433 1460 1478 1538 1568 1578
[85] 1591 1592 1603 1631 1679 1701 1715 1718 1742 1768 1813 1861
[97] 1863 1932 1942 1948
Der Aufruf von sample(·) liefert jedoch bei jedem Durchlauf ein anderes, zu-
fälliges Ergebnis. Um die Ziehung reproduzierbar zu machen, empfiehlt es sich, mit
einem sogenannten „seed“, einem Startwert für den Algorithmus (in diesem Fall
zum Ziehen von Zufallszahlen), zu arbeiten. Dadurch wird sichergestellt, dass bei
einem erneuten Ausführen die gleiche Stichprobe gezogen wird. Dieser Startwert
kann festgelegt werden, indem man eine beliebig gewählte Zahl als Startwert defi-
niert.
Manchmal will man jedoch nicht eine Zufallsstichprobe aus einer geordneten
Liste, sondern aus einem vorhandenen Datensatz ziehen. Zur Illustration verwen-
den wir als Datenbasis eine imaginäre Liste, welche vom Paket samplingbook
bereitgestellt wird. Über die folgenden Befehle wird der Datensatz geladen und am
Bildschirm ausgegeben. Der Datensatz ist nun im Objekt pop gespeichert.
> data(pop)
> print(pop)
id X Y
1 1 11 9
2 2 11 10
3 3 11 11
4 4 21 18
5 5 21 22
50 2 Einfache Stichprobenverfahren
Die Populationsliste ist bestimmt durch die Spalte id, denn jede ID ist exakt
einer Person zugeordnet und umgekehrt. Nun gilt es, eine Stichprobe vom Umfang
n zu ziehen, das heißt es sollen n ID-Nummern gewählt werden, um die zugehöri-
gen Personen beispielsweise in eine Umfrage einzuschließen. Die entsprechenden
zufällig gezogenen ID-Nummern erhält man mit
> n <- 3
> set.seed(93456)
> idsample <- sample(x=pop$id, size=n)
wobei die Stichprobengröße hier exemplarisch auf 3 festgelegt ist. Die ausgewählten
ID-Nummern werden mit
> idsample
[1] 1 2 4
ausgegeben. Die Elemente der Stichprobe sind damit gezogen und können somit
befragt werden. Auch hier kann man unter Verwendung eines Startwertes für den
Algorithmus die Stichprobenziehung reproduzierbar gestalten.
Alternativ kann die bereits in R zur Verfügung gestellte Funktion subset(·) ver-
wendet werden, welche aus einem gegebenen Datensatz eine Teilmenge von Zeilen
auswählt.
Weiterhin ist es möglich, direkt eine Stichprobe aus den Zeilen zu ziehen. In diesem
Fall wird die bisher vorangegangene, separate Stichprobenziehung direkt integriert.
> sample3 <- pop[sample(1:nrow(pop), size=n),]
2.12.2 Mittelwertschätzung
In dem zu dem Buch gehörigen R-Paket samplingbook sind die Formeln zur
Mittelwertschätzung und zur Bestimmung der Konfidenzintervalle umgesetzt. Die
Funktion Smean(·) erlaubt diese Berechnungen bei Bedarf inklusive der Korrektur
für endliche Populationen.
Der Datenvektor y muss übergeben werden, die anderen beiden Angaben sind
optional. Mit N kann der Populationsumfang übergeben werden, mit level die
Überdeckungswahrscheinlichkeit des Konfidenzintervalls. Wird der Funktion kein
Populationsumfang übergeben, wird N=Inf gesetzt und somit bei der Berechnung
auf den Korrekturfaktor für endliche Populationen verzichtet. Dies ist sinnvoll, falls
der Umfang der Grundgesamtheit sehr groß ist. Bei kleinen Grundgesamtheiten soll-
te der Populationsumfang übergeben werden. In letzterem Fall wird die Korrektur
mit dem Faktor (N −n)/N bei der Berechnung der Varianz durchgeführt. Die Über-
deckungswahrscheinlichkeit für das Konfidenzintervall ist mit 95% voreingestellt,
kann aber bei Bedarf geändert werden.
> data(pop)
> Y <- pop$Y
> Y
[1] 9 10 11 18 22
> set.seed(93456)
> y <- sample(x=Y, size=3)
> y
[1] 9 10 18
2.12.3 Anteilsschätzung
Die Funktion Sprop(·), ebenfalls aus dem Paket samplingbook, gibt die entspre-
chenden Werte bei der Anteilsschätzung zurück. Hierbei werden unter anderem die
in Abschn. 2.6.4 dargestellten Prozeduren realisiert.
Mit y kann der Datenvektor übergeben werden. Dieser muss dazu dummykodiert
sein, d.h. er darf nur Nullen und Einsen enthalten, wobei die „ja“-Antworten typi-
scherweise mit „1“ kodiert sind. Alternativ können m, die Anzahl an „ja“-Antworten
bzw. „positiven Ereignissen“, und der Stichprobenumfang n übergeben werden.
Werden m und y gleichzeitig angegeben, so muss m der Anzahl an Einsen im Da-
tenvektor y entsprechen. Mit N kann wiederum die Größe der Grundgesamtheit
angeben werden. Die Angabe der Überdeckungswahrscheinlichkeit des Konfidenz-
intervalls ist mit 95% vorbelegt.
Die Ausgabe hängt von der Vorgabe für N ab. Bei einer endlichen Grundgesamt-
heit werden neben der Schätzung zwei Konfidenzintervalle ausgegeben. Das Erste
basiert auf der approximativen Normalverteilung und benutzt die Varianz Var E S
P
aus Formel (2.1). Weiter wird das exakte Konfidenzintervall aus den Formeln (2.2)
und (2.4) berechnet. Im Fall von großen Grundgesamtheiten (ab N > 100 000)
wird N = Inf gesetzt, da eine exakte Berechnung sehr aufwendig wäre. Für diese
Einstellung werden die in Abschn. 2.7 diskutierten Konfidenzintervalle berechnet.
Das erste Intervall wird basierend auf der Normalverteilungsannahme berechnet,
das zweite Intervall basiert ebenfalls auf der Normalverteilungsannahme, benutzt
aber eine von Agresti und Coull (1998) vorgeschlagene Korrektur. Das Konfidenz-
intervall nach Clopper-Pearson stellt das exakte Konfidenzintervall dar.
Zur Illustration verwenden wir die Daten aus Beispiel 2.13. Dort wurden n = 100
von N = 300 Beschäftigten eines Betriebes zwei Fragen gestellt, wobei die erste
Frage von m 1 = 45 Personen und die zweite Frage von m 2 = 2 Personen mit
„Ja“ beantwortet wurde. Mit diesen Angaben können die geschätzten Anteile und
die zugehörigen asymptotischen und exakten Konfidenzintervalle berechnet werden.
Für die erste Frage ergibt sich:
Somit liegt der erwartete Stimmenanteil nach der Methode von Wilson für die
SPD zwischen 22, 6 und 27, 6% und für die Grünen zwischen 9, 3 und 13, 0%.
Als Beispiel betrachten wir den Fall, dass bei einer endlichen Grundgesamtheit
von N = 300 und einer Standardabweichung von S = 10 eine Genauigkeit von
e = 4 (bzw. e = 1) erreicht werden soll. Das Konfidenzniveau soll jeweils 95%
betragen. Für eine Genauigkeit von e = 4 ergibt sich:
Die Genauigkeit e muss der Funktion übergeben werden, die Angaben zum An-
teil an „Ja“-Antworten bzw. positiven Ereignissen P, zum Populationsumfang N und
zur Überdeckungswahrscheinlichkeit des Konfidenzintervalls sind optional. Für den
Anteil an „Ja“-Antworten bzw. positiven Ereignissen ist das „Worst Case“ Szenario
von P=0.5 voreingestellt. Alternativ kann man für P eine obere Abschätzung für
Anteile kleiner 0.5 bzw. eine untere Abschätzung für Anteile größer 0.5 angeben.
Zunächst wollen wir uns mit der benötigten Stichprobengröße für Wahlprogno-
sen wie in Beispiel 2.16 beschäftigen. Kurz vor der Bundestagswahl 2005 ist eine
größere Genauigkeit der Prognosen für die einzelnen Parteien äußerst wichtig. Des-
halb möchte ein Meinungsforschungsinstitut eine Stichprobe ziehen, mit der die
Anteile der einzelnen Parteien mit einer Genauigkeit von e = 0.01 geschätzt wer-
den können. Will man die Anteile für alle Parteien mit dieser Genauigkeit schätzen,
sollte man wieder P = 0.5 wählen.
Weiterhin betrachten wir nochmal das Beispiel 2.13 auf S. 32 zur Umfrage zur
Verbesserung des Betriebsklimas in einem Betrieb mit N = 300 Mitarbeitern. Die
flexibleren Arbeitszeiten wurden erfolgreich umgesetzt. Nach einem Jahr sollen die-
se mit der Frage „Sind Sie mit der neuen Arbeitszeitregelung zufrieden?“
(Ja/Nein) evaluiert werden.
Die Umfrage soll dabei möglichst effizient sein, weshalb man den Stichproben-
umfang diesmal im Vorhinein berechnen will. Deshalb werden die zwei Genauig-
keiten e = 0.05 und e = 0.1 zur Auswahl gestellt, wobei als Wahrscheinlichkeit
P = 0.5 gewählt wurde, da zu der aktuellen Einschätzung noch kein Vorwissen
vorhanden ist. Für eine Genauigkeit von e = 0.05 ergibt sich:
Entsprechend lassen sich die Werte aus den Tabellen 2.2 und 2.3 mit der Funkti-
on sample.size.prop(·) erzeugen. Die erste Spalte von Tabelle 2.2 ergibt sich
durch:
Die Werte in den weiteren Spalten und in Tabelle 2.3 erhält man analog.
Kapitel 3
Modellbasierte Stichprobenverfahren
In den bisherigen Anwendungen sind wir davon ausgegangen, dass es eine in-
teressierende Größe Y gibt und wir darüber hinaus keine weiteren Informationen
erheben. In vielen praktischen Anwendungen liegen jedoch über die Population
weitere Informationen vor. Wir wollen in diesem Kapitel zeigen, wie man die-
se bereits vorliegenden Informationen nutzen kann, um bessere Schätzungen zu
erhalten.
Betrachten wir zunächst die Struktur des obigen Beispiels genauer. Zusätzlich zu
der interessierenden Variablen Y steht uns weitere Information zur Verfügung, in
diesem Fall das Wahlverhalten bei der letzten Wahl. Diese Information bezeichnen
wir im Folgenden als Sekundärinformation oder auch Hilfsvariable und notie-
ren sie mit X . Die interessierende Größe Y nennen wir in diesem Fall auch Pri-
märinformation oder Zielvariable. Sekundärinformation kann sinnvoll eingesetzt
werden, wenn sie folgende Eigenschaften aufweist:
3.1 Differenzenschätzer
Wir betrachten zunächst die Situation, dass neben dem interessierenden Merkmal
Y eine Hilfsvariable X vorliegt. Es soll der Populationsmittelwert Ȳ geschätzt wer-
den, wobei gleichzeitig der Mittelwert X̄ in der Population bekannt ist. Wir gehen
weiter davon aus, dass der Unterschied zwischen den beiden Merkmalen gering ist
oder genauer gesagt, dass die Differenz zwischen beiden Merkmalen eine geringe
Streuung aufweist. Inhaltlich gesprochen heißt dies, dass X und Y ähnliche Werte
annehmen. Wir analysieren daher das Merkmal
Di = Yi − X i ,
das heißt die Differenz zwischen Primär- und Sekundärinformation. In der Popula-
tion gilt nun die Beziehung
Ȳ = X̄ + D̄, (3.1)
3.1 Differenzenschätzer 63
N
wobei D̄ = i=1 Di /N ist. Betrachtet man die rechte Seite von (3.1) so zeigt
sich, dass X̄ bekannt ist, wohingegen D̄ unbekannt ist. Da in der Stichprobe beide
Merkmale erhoben werden, kann der (unbekannte) Mittelwert D̄ der Differenz wie
folgt geschätzt werden:
1
1
n n
D̄ = d̄ = dk = (yk − xk ) = ȳ − x̄.
n n
k=1 k=1
Damit erhalten wir unmittelbar eine Schätzung für Ȳ , indem wir in Formel (3.1)
D̄ durch d̄ schätzen. Dies liefert den Differenzenschätzer:
Ȳ D := X̄ + d̄. (3.2)
Zu beachten ist, dass neben der Schätzung der Differenz d̄ der aus der Grundge-
samtheit bekannte Mittelwert X̄ in die Formel eingeht. Zu einer anderen Interpreta-
tion des Differenzenschätzers gelangt man durch folgende einfache Umformung:
Ȳ D = ȳ + ( X̄ − x̄).
Beispiel 3.2: Wir betrachten exemplarisch eine kleine Population mit folgender
Primär- und Sekundärinformation:
Wir erhalten E
Ȳ D = Ȳ = 14, d.h. der Differenzenschätzer ist erwartungstreu.
Dasist nicht
sonderlich überraschend, weil E(d̄) = D̄ gilt. Weiter erhält man
Var Ȳ D = 0, 33. Von Interesse ist nun die Frage, ob und warum sich die An-
wendung des Differenzenschätzers lohnt, insbesondere im Vergleich zur bisher
behandelten einfachen Zufallsstichprobe. Vergleicht man die Varianz des Diffe-
renzenschätzers mit der einer einfachen Zufallsstichprobe (siehe dazu Abschn.
2.6.2, Beispiel 2.11),
so
zeigt sich, dass die einfache Zufallsstichprobe mit einer
Varianz von Var Ȳ E S = 4, 33 ein weitaus ungenaueres Ergebnis liefert.
Wir erhalten also durch die Verwendung des Differenzenschätzers eine deut-
liche Reduktion der Varianz und damit eine höhere Genauigkeit des Schätzers.
Bildlich ist dies in Abb. 3.1 gezeigt. Linkerhand sieht man Sekundär- und Primär-
information gegeneinander aufgetragen. Die mittlere Graphik zeigt die Ausprä-
gungen des einfachen arithmetischen Mittels Ȳ E S basierend auf den in der obigen
Tabelle gezogenen Stichproben. Rechterhand sieht man die Ausprägungen des
zugehörigen Differenzenschätzers Ȳ D . Die Varianzreduktion ist klar ersichtlich,
denn die Ausprägungen des Differenzenschätzers schwanken deutlich weniger
um den wahren Mittelwert Ȳ = 14.
16
18
14
14
Y
14
12
12
10
10
10
12 14 16 18 20 2 4 6 8 10 2 4 6 8 10
X mögliche Stichprobe mögliche Stichprobe
N − n SD 2
Var
Ȳ D = Var(d̄) = ,
N −1 n
1
N
2
mit S D := (Di − D̄)2 .
N
i=1
Wir erhalten damit eine Schätzung für die Varianz unter Ausnutzung der Formeln
für die einfache Zufallsstichprobe:
2
N − n sD
Var Ȳ D = Var(d̄) = ,
N n
1
n
mit s D :=
2
(dk − d̄)2 .
n−1
k=1
Ȳ D − z 1− α2 Var Ȳ D , Ȳ D + z 1− α2 Var Ȳ D ,
wobei z 1− α2 das 1 − α2 -Quantil der Standardnormalverteilung ist.
Differenzenschätzer
n
Ȳ D = X̄ + (yk − x k ).
n
k=1
N −n 1
n
Var
Ȳ D = {(yk − x k ) − ( ȳ − x̄)}2 .
N n(n − 1)
k=1
66 3 Modellbasierte Stichprobenverfahren
Wir wollen nun die Eigenschaften des Differenzenschätzers und des Schätzers
der einfachen Zufallsstichprobe Ȳ E S theoretisch miteinander vergleichen. Wegen
der Unverzerrtheit von d̄ ist auch
Ȳ D unverzerrt. Die beiden Schätzer unterscheiden
sich somit nur in ihren Varianzen. Bei der Varianz des Differenzenschätzers ist nur
die Streuung des Merkmals D relevant, wohingegen es bei der Varianz von Ȳ E S
auf die Streuung von Y in der Population ankommt. Es gilt
Var Ȳ D S2
= D2 ,
Var Ȳ E S SY
2 =
N
i=1 (Di − D̄) /N . D.h. die Varianz des Differenzenschätzers ist kleiner,
mit S D 2
wenn die Varianz von D die Varianz von Y in der Population unterschreitet. Unter
Ausnutzung der Definition von Di = Yi − X i lässt sich die Populationsvarianz S D 2
einfachen Umformungen ergibt sich folgende Bedingung zum Vergleich der beiden
Schätzer:
SX Y 1
Ȳ D ≤ Var
Var Ȳ E S ⇐⇒ 2 ≥ .
SX 2
Beispiel 3.3: (Hochrechnung bei einer Wahl): Wir setzen das Beispiel 3.1 zur
Wählerumfrage fort und nehmen an, dass wir an dem Wähleranteil PY für ei-
ne Partei ABC interessiert sind. Dazu bezeichnen wir mit Y das entsprechende
Merkmal, d.h. Yi = 1, wenn der i-te Wähler die entsprechende Partei wählen
wird und Yi = 0 sonst. Wir ziehen eine einfache Zufallsstichprobe und erhal-
ten die Beobachtungen y1 , . . . , yn . Bei einer einfachen Hochrechnung aufgrund
einer Zufallsstichprobe unter Vernachlässigung von Sekundärinformation ergibt
sich der Schätzer PY = ȳ mit einer Varianz von PY · (1 − PY )/n. Da es sich
angenommenerweise um eine große Population handelt, wird der Korrekturfaktor
(N − n)/N vernachlässigt. Wir vergleichen nun das Vorgehen mit der Differen-
zenschätzung. Hierzu erheben wir zusätzlich das Merkmal X i , welches angibt,
ob die befragte Person die Partei ABC bei der letzten Wahl gewählt hat, ebenfalls
3.1 Differenzenschätzer 67
kodiert mit X i = 1, falls der i-te Wähler die Partei gewählt hat, und X i = 0
andernfalls. Für die Ausprägungen von X und Y ergibt sich folgende Tabelle:
Y
0 1 Gesamt
0 P00 P01 1 − PX
X
1 P10 P11 PX
Gesamt 1 − PY PY 1
Dabei ist P01 der Anteil der Wähler, die die Partei ABC wählen werden, obwohl
sie diese bei der letzten Wahl nicht gewählt haben und P10 der Anteil der Wähler,
die die Partei ABC nicht wählen werden, obwohl sie es bei der letzten Wahl getan
haben. Analog dazu ist P11 der Anteil der treuen Wähler der Partei ABC und P00
der Anteil der Wähler, die weder früher noch heute ihre Sympathien bei Partei
ABC haben.
Wir definieren das Merkmal D = Y − X mit den Ausprägungen {−1, 0, 1} und
den zugehörigen Wahrscheinlichkeiten P10 , P00 + P11 und P01 . Zur Berechnung
der Varianz des Differenzenschätzers benötigen wir die Varianz von D, d.h. S D2.
Y , wenn S 2 ≤
Wir erhalten somit eine Varianzreduktion im Vergleich zu P X
2S X Y , also wenn
PX (1 − PX ) ≤ 2 (P11 − PX PY )
P11
⇔ (1 − PX ) ≤ 2 − PY .
PX
Dabei ist P11 /PX der Anteil der Wiederwähler der Partei ABC. Ist dieser hoch,
so ist mit dem Differenzenschätzer eine Varianzreduktion möglich. Ist hingegen
68 3 Modellbasierte Stichprobenverfahren
die Wiederwahl einer Partei unabhängig von der vorherigen Wahl, das heißt ist
P11 = PX PY , so liefert der Differenzenschätzer keine Varianzreduktion. In die-
sem Falle zahlt sich die Ausnutzung der Sekundärinformation nicht aus.
Beispielhaft sei hier die Varianz des Differenzenschätzers für folgendes Sze-
nario berechnet: Eine einfache Zufallsstichprobe vom Umfang n = 1 000 ergab
folgende Werte:
Y
0 1 Gesamt
0 570 10 580
X
1 80 340 420
Von der letzten Wahl ist bekannt, dass Partei ABC mit 40% der Stimmen abge-
schnitten hat, d.h. PX = 0, 4. Als Wahlprognose für PY ergibt sich ohne Ausnut-
zung der Sekundärinformation X :
Die Konfidenzgrenzen
√ ergeben sich dabei gemäß der Berechnung 0, 030 ≈
1, 96 0, 35 · 0, 65/999. Nutzt man hingegen die erfragte Information über X
aus und korrigiert bezüglich PX (man beachte, dass von den 1 000 Befragten
42% angaben, Partei ABC bei der letzten Wahl gewählt zu haben, wohingegen
der wahre Wähleranteil nur bei 40% lag), so ergibt sich der Differenzenschät-
zer
Ȳ D = 0, 35 + (0, 40 − 0, 42) = 0, 33. Die Varianz wird geschätzt aus der
beobachteten Verteilung von dk = yk − x k , welche die folgenden Häufigkeiten
aufweist:
dk −1 0 1
Häufigkeit 80 910 10
3.2 Quotientenschätzer
Ähnlich wie beim Differenzenschätzer nutzen wir beim Quotientenschätzer aus,
dass die Sekundärinformation X i als Approximation für Yi gelten kann. Die Grun-
didee ist dabei, dass X i proportional zu Yi ist, d.h. R X i ≈ Yi , wobei R ein
Proportionalitätsfaktor ist (R steht für engl.: ratio). Dabei ist R definiert als
Quotient
N
Yi
i=1 Ȳ
R= = . (3.4)
N X̄
Xi
i=1
Ȳ = R X̄ . (3.5)
Betrachtet man die rechte Seite von (3.5) so wird ersichtlich, dass der Quotient R
unbekannt ist, da Ȳ unbekannt ist und durch eine Stichprobe geschätzt werden soll.
Der Mittelwert der Sekundärinformation X̄ wird hingegen als bekannt angenom-
men. Wir ziehen nun eine einfache Zufallsstichprobe und erheben yk , k = 1, . . . , n
zusammen mit der zugehörigen Sekundärinformation xk , k = 1, . . . , n. Hieraus be-
rechnen wir einen Schätzer für den Quotienten R durch
n
yk
= r = k=1 ȳ
R = .
n x̄
xk
k=1
Aufgrund der Beziehung (3.5) in der Population ergibt sich der Quotienten-
schätzer, indem wir den unbekannten Faktor R durch seinen Schätzer ersetzen und
wir erhalten
X̄ .
Ȳ Q S = R
Ein Vergleich mit dem Differenzenschätzer zeigt, dass Quotienten- und Differen-
zenschätzer in diesem Beispiel recht ähnliche Ergebnisse liefern. Dies ist gra-
phisch in Abb. 3.2 dargestellt.
Wir wollen nun die Eigenschaften des Quotientenschätzers näher betrachten. Zu-
nächst ist festzuhalten, dass der Quotientenschätzer nicht unverzerrt ist. Dies gilt,
obwohl x̄ und ȳ beide unverzerrt sind. Der Quotient zweier unverzerrter Schätzer
ist jedoch im Allgemeinen nicht unverzerrt. Der Quotientenschätzer ist jedoch ap-
proximativ unverzerrt und die Verzerrung soll daher im Folgenden vernachlässigt
werden. Die Varianz des Schätzers ergibt sich approximativ zu (Herleitung siehe
unten)
2
N − n SQ S
Var Ȳ Q S = ,
N −1 n
mit
S = (Yi − R X i )2 .
2
SQ
N
i=1
16
16
18
14
14
Y
14
12
12
10
10
10
12 14 16 18 20 2 4 6 8 10 2 4 6 8 10
X mögliche Stichprobe mögliche Stichprobe
2 ist dabei nicht bekannt, da Y nicht bekannt ist. Somit muss zur
Die Größe S Q S i
Berechnung von Konfidenzintervallen S Q2 geschätzt werden. Als Schätzer bietet
S
sich an:
S = (yk − r xk )2 ,
2
sQ
n−1
k=1
2
N − n sQ S
Var Ȳ Q S = · . (3.6)
N n
Das (1 − α)-Konfidenzintervall hat die Form
Ȳ − z 1− α2 Var Ȳ Q S ,
Ȳ Q S + z 1− α2 Var Ȳ Q S ,
QS
wobei z 1− α2 das 1 − α2 -Quantil der Standardnormalverteilung ist.
Da der Schätzer für kleine Stichproben recht variabel ist und insbesondere von
den gezogenen Werten xi abhängt, wurde folgender modifizierter Schätzer als Al-
ternative vorgeschlagen (siehe Cochran 1977):
X̄
Varmod Ȳ Q S = Var Ȳ Q S .
x̄
Da x̄ und ȳ für großes n nahe bei den wahren Werten Ȳ und X̄ liegen, wählen wir (x0 , y0 ) =
( X̄ , Ȳ ) und erhalten:
72 3 Modellbasierte Stichprobenverfahren
ȳ Ȳ Ȳ 1
r= = g(x̄, ȳ) ≈ − 2 (x̄ − X̄ ) + ( ȳ − Ȳ ).
x̄ X̄ X̄ X̄
Nun können wir Erwartungswert und Varianz von r approximativ bestimmen. Zu berück-
sichtigen ist dabei, dass Ȳ eine unbekannte, jedoch feste Größe ist. Ebenso ist X̄ fest. Es ist
E(r ) ≈ ȲX̄ , d.h. r ist approximativ erwartungstreu, und damit gilt dies auch für
Ȳ Q S :
Ȳ
E Ȳ Q S ≈ X̄ = Ȳ .
X̄
Für die Varianz von r ergibt sich (da X̄ und Ȳ konstant sind):
Ȳ Ȳ 1
Var(r ) ≈ Var − (x̄ − X̄ ) + ( ȳ − Ȳ )
X̄ X̄ 2 X̄
1 Ȳ 1
= Var − x̄ + ȳ = Var( ȳ − R x̄)
X̄ X̄ X̄ 2
1
= Var(y − Rx),
X̄ 2
n
mit y − Rx = 1/n k=1 yk − Rxk . Für
Ȳ Q S ergibt sich damit
N −n 1 1
N
Var Ȳ Q S = Var(r X̄ ) = Var(y − Rx) = (Yi − R X i )2 .
N −1 n N
i=1
Ähnlich wie beim Differenzenschätzer wollen wir untersuchen, wann die Ver-
wendung des Quotientenschätzers von Vorteil ist im Vergleich zum Schätzer einer
einfachen Zufallsstichprobe. Wenn wir die Sekundärinformation unberücksichtigt
lassen und Ȳ durch ȳ schätzen, so erhalten wir die Varianz
N − n SY2
Var Ȳ E S = Var ( ȳ) = · .
N −1 n
2 <
Das bedeutet, der Quotientenschätzer besitzt eine kleinere Varianz, wenn S Q S
2 etwas genauer. Die Terme (Y − R X )2 sind die
SY2 gilt. Betrachten wir also S Q S i i
quadratischen Abstände der Y -Werte zu einer Geraden durch den Ursprung mit der
Steigung R, also Y = R X . Je besser der Zusammenhang zwischen Y und X durch
eine solche Gerade durch den Ursprung beschrieben werden kann, desto geringer ist
die Varianz des Quotientenschätzers. Kann der Zusammenhang zwischen Y und X
besser durch eine Gerade beschrieben werden, die nicht durch den Ursprung geht,
so ist der Regressionsschätzer, den wir im folgenden Abschnitt betrachten, besser
geeignet.
3.3 Regressionsschätzer 73
Quotientenschätzer
Y = R X.
ȳ
Ȳ Q S = X̄ .
x̄
n
2
N −n 1 ȳ
Var Ȳ Q S = yk − x k .
N n (n − 1) x̄
k=1
3.3 Regressionsschätzer
Wir haben beim Differenzen- und Quotientenschätzer ausgenutzt, dass die Sekun-
därinformation als Approximation für die Primärinformation dienen kann. Beim
Quotientenschätzer bedeutet das, dass X und Y annähernd proportional sind. Diese
Annahme soll nun dahingehend verallgemeinert werden, dass wir annehmen, dass
die Sekundärinformation X einen Einfluss auf die interessierende Variable Y hat.
Diesen Einfluss modellieren wir in Form einer Regression und nehmen somit an,
dass A + B X als Approximation für Y dienen kann.
Beispiel 3.5: Ein Unternehmen plant, ein neues Produkt einzuführen und möch-
te hierzu eine Marktanalyse vornehmen. Es wird vermutet, dass das Produkt in
verschiedenen Altersgruppen unterschiedlich angenommen wird. Ferner scheint
es plausibel, dass Frauen dem Produkt anders gegenüberstehen als Männer. Das
Unternehmen besitzt Sekundärinformationen über die Population (beispielsweise
74 3 Modellbasierte Stichprobenverfahren
N
X̄ = Xi .
N
i=1
Wir nehmen weiter an, dass sich die Zielgröße Y als lineares Regressionsmodell
beschreiben lässt in der Form
Yi = A + B X i + E i ,
wobei Ei als Residuum bezeichnet wird. Für das Residuum E i soll gelten, dass es
im Mittel den Wert 0 annimmt, das heißt
N
Ē = E i = 0.
N
i=1
Durch A und B ist somit die Regressionsgerade von Y auf X in der Grundge-
samtheit gegeben. Man beachte, dass weder Yi noch A, B und E i bekannt sind.
Gemäß dem Prinzip der kleinsten Quadrate sind A und B definiert durch
N
X i − X̄ Yi − Ȳ
i=1
B= , A = Ȳ − B X̄ . (3.7)
N
2
X i − X̄
i=1
Aus der Formel für A ergibt sich insbesondere, dass sich der interessierende Mit-
telwert Ȳ berechnen lässt durch
Ȳ = A + B X̄ . (3.8)
3.3 Regressionsschätzer 75
Wir ziehen nun eine einfache Zufallsstichprobe vom Umfang n und erhalten die
Datenpaare (xk , yk ), k = 1, . . . , n. Basierend auf diesen Datenpaaren schätzen wir
A und B durch
n
(xk − x̄) (yk − ȳ)
B=
k=1
, = ȳ −
A B x̄.
n
(xk − x̄) 2
k=1
Nun können wir Gl. (3.8) ausnutzen, indem wir wie gehabt die unbekannten
Größen durch deren Schätzer ersetzen. Auf diese Weise erhalten wir den Regressi-
onsschätzer durch
+
Ȳ R E G = A B X̄ . (3.9)
Setzt man die Schätzer in die obige Gleichung ein, so lässt sich der lineare
Regressionsschätzer auch schreiben als:
Ȳ R E G = ȳ +
B X̄ − x̄ .
Diese Form weist starke Parallelen zum Differenzenschätzer auf. Der Unter-
schied besteht darin, dass beim Differenzenschätzer
B = 1 gesetzt wird, wohin-
gegen beim Regressionsschätzer der Koeffizient B aus den Daten geschätzt wird.
Somit korrigiert der Regressionsschätzer das arithmetische Mittel ȳ mit Hilfe der
Sekundärinformation. Als approximative Varianz ergibt sich
N −n 1 1
N
N −n 1
Var Ȳ R E G = (Yi − A − B X i )2 = · S E2 ,
N −1 n N N −1 n
i=1
N
mit S E2 als Varianz der Residuen E i , das heißt S E2 = i=1 E i2 /N . Die Varianzfor-
2
mel kann in dieser Form nicht direkt genutzt werden, weil S E unbekannt ist. Deshalb
wird S E2 aus den Residuen der Stichprobe geschätzt durch
1
n
2
&
S E2 = −
yk − A Bxk .
(n − 2)
k=1
Dabei wird wie in der Regression üblich durch den Faktor (n − 2) dividiert,
da zwei Parameter ( A und B) zu schätzen sind. In der Stichprobenliteratur findet
man aber auch die Division durch (n − 1). Für Stichproben üblicher Größe ist der
Unterschied jedoch vernachlässigbar. Insgesamt schätzt man die Varianz durch
76 3 Modellbasierte Stichprobenverfahren
N −n 1 &
Var Ȳ R E G = S2
N n E
N −n 1 1
n
2
= −
yk − A Bxk
N n (n − 2)
k=1
N −n 1 1
n
2
= (yk − ȳ) −
B(xk − x̄) .
N n (n − 2)
k=1
wobei z 1− α2 das 1 − α2 -Quantil der Standardnormalverteilung ist.
Wir wollen der Frage nachgehen, ob sich der Einsatz eines Regressionsschät-
zers lohnt im Vergleich zur einfachen Zufallsstichprobe. Wir erhalten Var Ȳ E S ≥
Var Ȳ
REG genau dann, wenn S 2 ≥ S 2 . Einfache Umformungen und die Ausnut-
Y E
zung der Definition von A und B in (3.7) liefern
N
SY2 = (Yi − Ȳ )2
N
i=1
1
N
2
= Yi − Ȳ − B X̄ − B X̄
N
i=1
1
N
2
= Yi − A − B X i + B X i − X̄
N
i=1
= S E2 + B 2 S X2 . (3.10)
N
Wir schreiben B als S X Y /S X2 mit S X Y = i=1 (X i − X̄ )(Yi −Ȳ )/N . Man beachte,
dass ρ = S X Y /(S X SY ) die Korrelation zwischen X und Y wiedergibt. Wir erhalten
indem wir (3.10) durch SY2 teilen
S E2 S E2
1= + ρ2 ⇔ = (1 − ρ 2 ).
SY2 SY2
Wir können somit festhalten: Je größer die Korrelation zwischen X und Y , desto
vorteilhafter ist die Benutzung des Regressionsschätzers. Die Größe ρ 2 wird auch
als Bestimmtheitsmaß einer Regression bezeichnet.
3.3 Regressionsschätzer 77
Herleitung: Nachfolgend ist die Herleitung der Varianz des Regressionsschätzers geliefert.
Var Ȳ R E G = Var Ȳ R E G − Ȳ =
+
= Var( A B X̄ − Ȳ )
= Var( ȳ − B x̄ +
B X̄ − Ȳ )
≈∗ Var( ȳ − B x̄ + B X̄ − Ȳ )
= Var( ȳ − A − B x̄)
n
1
Aus der Herleitung ist ersichtlich, dass die Approximation ∗ darauf basiert, dass die Unge-
nauigkeit der Schätzung in dem Parameter B unberücksichtigt bleibt.
Eine andere Möglichkeit der Herleitung kann ähnlich wie beim Quotientenschätzer mit Hilfe
einer Taylorreihenentwicklung durchgeführt werden (siehe z.B. Särndal, Swenson & Wretman
1992).
Regressionsschätzer
Ȳ R E G = ȳ +
B( X̄ − x̄),
mit
n
(xk − x̄) (yk − ȳ)
B= k=1
.
n
(xk − x̄) 2
k=1
N −n 1
n
2
Var Ȳ R E G = (yk − ȳ) −
B(x k − x̄) .
N n (n − 2)
k=1
78 3 Modellbasierte Stichprobenverfahren
Die Idee des Regressionsschätzers lässt sich direkt auf den Fall mehrerer Sekun-
därvariablen erweitern. Seien dazu X und Z zwei Variablen, die die Sekundärinfor-
mation zu Y darstellen. Beispielsweise ist X das Alter und Z das Geschlecht. Wir
nehmen an, dass
Y = A + B X X + B Z Z + E.
⎛ ⎞ ⎛ ⎛ ⎞ ⎞−1 ⎛ ⎛ ⎞ ⎞
A
n 1
n 1
BX ⎠ = ⎝
⎝ ⎝ xk ⎠ (1, xk , z k )⎠ ⎝ ⎝ x k ⎠ yk ⎠ .
BZ k=1 zk k=1 zk
+
Ȳ R E G = A B X X̄ + B Z Z̄
= ȳ + B X ( X̄ − x̄) +
B Z ( Z̄ − z̄).
k = yk − A
Die Varianz ergibt sich ebenfalls analog. Es sei E − B X xk −
BZ zk
das geschätzte Residuum. So ergibt sich die Schätzung für die Varianz gemäß
N −n 1 1
n
Var Ȳ R E G = k2 .
E
N n (n − 3)
k=1
Modellbasierte Stichprobenverfahren bauen auf Modellen auf, die den Einfluss der
Sekundärinformation X auf Y beschreiben. Das globale Modell ist dabei ein Re-
gressionsmodell, d.h. Y ergibt sich als lineare Approximation von X . Im Falle, dass
diese lineare Approximation, dargestellt als Gerade, durch den Ursprung geht, ergibt
sich der Quotientenschätzer. Fordert man stattdessen, dass die Gerade die Steigung 1
hat, so resultiert der Differenzenschätzer. Somit stellt das lineare Regressionsmodell
den Kern von modellbasierten Verfahren dar. Die zu Grunde liegenden Modelle der
einzelnen Schätzer lassen sich somit wie folgt schreiben:
3.5 Beispiel 79
Regressionsschätzer : Yi = A + B X i
Quotientenschätzer : Yi = A + B X i mit A = 0
Differenzenschätzer : Yi = A + B X i mit B = 1.
Es ist zu beachten, dass die Herleitung der Schätzverfahren nicht auf der Gül-
tigkeit eines linearen Regressionsmodells als datengenerierendem Prozess basiert,
sondern nur die Regressionsgerade der Grundgesamtheit als Hilfsmittel benutzt.
Da das lineare Regressionsmodell hier nicht mit den üblichen Modellannahmen
verwendet wird, sind wir auf diese auch nicht näher eingegangen. Särndal et al.
(1992) verwenden daher als Konsequenz nicht den Begriff modellbasiert, sondern
den Begriff der „modellunterstützten“ (model assisted) Schätzung.
3.5 Beispiel
X i = 30; 18; 29; 100; 25; 35; 30; 9; 7; 18; 40; 15; 6
undsomit X̄ = 27, 85.
Nun erzeugen wir eine Populationsliste, indem wir jedem Studenten der Klasse
eine eindeutige Nummer von 1 bis N geben. Aus dieser Liste ziehen wir zufällig n
Elemente und bitten die zugehörigen Studenten, das Geld in ihrer Geldbörse exakt
zu zählen. Wir erhalten damit neben der Sekundärinformation xk die zugehörige
Primärinformation yk , k = 1, . . . , n. In unserer konkreten Klasse erhalten wir fol-
gendes Ergebnis:
yk = 45, 04; 28, 28; 8, 68; 53, 61; 30, 66; 45, 50; 19, 77
xk = 30; 25; 7; 30; 29; 35; 18
undsomit x̄ = 24, 86.
80 3 Modellbasierte Stichprobenverfahren
50
40
y
30 20
x X
10
10 15 20 25 30 35
x
Abb. 3.3 Ergebnis der Stichprobe zum „Geld in der Geldbörse“
Die erhobenen Paare (x k , yk ) sind in Abb. 3.3 dargestellt. Vertikal sind die Werte
für X̄ und x̄ markiert. Wir können nun die zugehörigen Schätzer für Ȳ basierend auf
den oben vorgestellten modellbasierten Verfahren berechnen. Graphisch ist dies in
Abb. 3.4 gezeigt. Die Varianzreduktion wird offensichtlich.
45
40
35
Schaetzer
30
25
Abb. 3.4 Verschiedene Schätzer zum „Geld in der Geldbörse“. Die Kästen entsprechen den je-
weiligen 95%-Konfidenzintervallen. Beim Quotientenschätzer wurde zusätzlich die modifizierte
Varianzschätzung benutzt, die durch die gestrichelte Linie dargestellt ist
Die (geschätzte) Varianz des Regressionsschätzers ist mit Var Ȳ R E G = 94, 01
ebenfalls deutlich geringer als die der einfachen Zufallsstichprobe mit Var Ȳ E S =
434, 15. Der Vergleich der beiden 95%-Konfidenzintervalle zeigt den Effizienzge-
winn durch die Verwendung der Zusatzinformation Kabellänge.
Konfidenzintervall basierend auf dem einfachen Mittelwertschätzer:
Ȳ E S − 1, 96 Var Ȳ E S ; Ȳ E S + 1, 96 Var Ȳ E S
= 465, 95 − 1, 96 434, 15; 465, 95 + 1, 96 434, 15
= 465, 95 − 1, 96 · 20, 84; 465, 95 + 1, 96 · 20, 84
= 425, 10; 506, 80 .
Ȳ R E G − 1, 96 Var Ȳ R E G ; Ȳ R E G + 1, 96 Var Ȳ R E G
= 405, 67 − 1, 96 94, 01; 405, 67 + 1, 96 94, 01
= 405, 67 − 1, 96 · 9, 70; 405, 67 + 1, 96 · 9, 70
= 386, 66; 424, 68 .
ȳ 465, 95
Ȳ Q S = X̄ = · 9, 97 = 38, 57 · 9, 97 = 384, 54.
x̄ 12, 08
3.6 Literatur
Regressionsmodelle als solche werden ausführlich besprochen in Rao (1973) oder
Fahrmeir, Hamerle, und Tutz (1996). Neuere Ansätze finden sich auch in Fahrmeir,
Kneib, und Lang (2007). Regressionsmodelle in Kombination mit Stichproben-
verfahren werden besprochen in Cochran (1972) oder Thompson (2002) und den
dort angegebenen Referenzen. Umfangreiches Material im Bereich modellbasierter
Stichprobenverfahren findet man in Särndal et al. (1992).
Die Anwendungsmöglichkeiten des Regressionsschätzers sind sehr vielfältig, da
er es erlaubt, das ganze Instrumentarium der modernen Regressionstheorie anzu-
wenden, siehe dazu z.B. Fahrmeir et al. (2007). Voraussetzung für die Schätzung
ist dabei allerdings, dass jeweils die Mittelwerte der in dem Modell verwendeten
Hilfsgrößen in der Grundgesamtheit bekannt sind.
Neuere Ansätze für modellbasierte Stichprobenverfahren beruhen auf der Idee,
dass die lineare Struktur durch komplexere Funktionen ersetzt werden kann. Einfa-
che Umformulierung erlaubt es, den Regressionsschätzer wie folgt zu schreiben
1
1
n N
Ȳ R E G = (yk −
μ(xk )) +
μ(X i ), (3.11)
n N
k=1 i=1
wobei μ(X ) = A + B X das lineare Modell wiedergibt, das durch μ(X ) = A+ BX
geschätzt wird. Die Funktion μ(x) gibt somit den Modellansatz an. In den letz-
ten Jahren hat sich im Bereich der Statistik dabei durchgesetzt, lineare oder para-
metrische Modelle für μ(x) durch sogenannte glatte, nicht-parametrische Model-
le zu ersetzen. Als einführendes Werk sei hier auf Hastie und Tibshirani (1990)
oder Ruppert, Wand und Carroll (2003) verwiesen. Die gleiche Idee lässt sich auf
modellbasierte Verfahren übertragen. Das bedeutet, wir ersetzen die lineare Struktur
durch eine flexiblere Form indem wir fordern, dass μ(x) eine glatte, sprich differen-
zierbare Funktion in X ist. Die explizite Form von μ(x) bleibt aber unspezifiziert.
Dieser Ansatz ist natürlich nur sinnvoll für ein metrisches Merkmal X . Die Funktion
μ(x) kann nun aus den Daten (yk , xk ), k = 1, . . . , n, geschätzt werden. Grundle-
gende Ideen und Eigenschaften dieser Methode sind in Breidt und Opsomer (2000)
vorgestellt.
Auch wenn dieser Ansatz flexibel ist, so hat er numerisch eine Hürde. Für ein
lineares Modell μ(X ) = A + B X gilt
N
μ̄ = μ(X i ) = A + B X̄ = μ( X̄ ).
N
i=1
Das heißt, für die Berechnung des zweiten Ausdrucks in (3.11) ist es nicht not-
wendig die Sekundärinformation X i explizit für alle Individuen der Population zu
kennen. Es reicht aus, Kenntnis über X̄ zu haben. Für eine beliebige Funktion μ(X )
gilt hingegen im Allgemeinen μ̄ = μ( X̄ ) und somit ist für die Berechnung von μ̄
84 3 Modellbasierte Stichprobenverfahren
die Kenntnis aller X i -Werte notwendig. Ebenso können die Modelle beliebig erwei-
tert werden, um nicht normalverteilte Y -Werte zu behandeln (siehe beispielsweise
Opsomer, Breidt, Moisen, & Kauermann 2005).
> library(samplingbook)
> mbes(formula, data, aux, N = Inf, method = 'all', level = 0.95, ...)
Dabei steht formula für das zugrunde liegende Modell in der in R üblichen
Notation (siehe Dalgaard 2002). Wird Variable x als Sekundärinformation für y
gesehen, so setzen wir für formula das Modell y∼x ein. Ferner geben wir mit
data den Datensatznamen an und mit aux den bekannten Mittelwert der Sekun-
därinformation (auxiliary information) in der Grundgesamtheit. Unserer Notation
folgend ist dies X̄ . Wird keine Angabe für aux gemacht, gibt R eine Fehlermeldung
3.7 Numerische Umsetzung 85
aus, die besagt, dass in diesem Fall mbes nicht geeignet ist, da die Sekundärinfor-
mation nicht adäquat genutzt werden kann. Bei der Berechnung der Varianz wird
davon ausgegangen, dass X̄ bekannt ist. Mit N wird der Populationsumfang für den
Korrekturfaktor (N −n)/N bei endlicher Grundgesamtheit angegeben. Erfolgt keine
Angabe, so wird N=Inf gesetzt. Eine weitere Angabe in mbes(·) ist method, welche
den gewünschten Schätzer angibt. Zur Verfügung stehen: simple (einfaches arith-
metisches Mittel Ȳ E S ), diff (Differenzenschätzer
Ȳ D ), ratio (Quotientenschätzer
Ȳ Q S ) und regr (Regressionsschätzer Ȳ R E G ). Ferner liefert die Angabe all alle
vorgestellten modellbasierten Schätzer. Schließlich kann mit level das Niveau des
Konfidenzintervalls angegeben werden und mit „...“ können weitere Parameter für
das lineare Regressionsmodell übergeben werden.
Nehmen wir exemplarisch die imaginären Daten aus Beispiel 3.2, welche vom
Paket bereitgestellt werden. Wir gehen nun davon aus, dass eine Stichprobe mit
den Einheiten 1, 2 und 5 gezogen wurde und dass der Mittelwert X̄ = 15 aus der
Grundgesamtheit bekannt ist. Die Daten sind also in der Form
id x y
1 1 11 9
2 2 11 10
5 5 21 22
im Datensatz data gegeben. Für unser Beispiel bestimmen wir somit den Differen-
zenschätzer wie folgt.
Das 95% Konfidenzintervall ergibt sich demnach zu [13.24; 15.43], der Differen-
zenschätzer hat den Wert 14.33. In analoger Weise erhalten wir den Quotienten-
schätzer.
86 3 Modellbasierte Stichprobenverfahren
----------------------------------------------------------------
Linear Regression Model:
Call:
lm(formula = formula, data = data)
Residuals:
1 2 5
-5.00e-01 5.00e-01 8.12e-17
3.7 Numerische Umsetzung 87
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.2500 1.3067 -3.252 0.190
x 1.2500 0.0866 14.434 0.044 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> data(money)
> print(money)
id X y
1 1 30 45.04
2 2 18 NA
3 3 29 30.66
4 4 100 NA
5 5 25 28.28
6 6 35 45.50
7 7 30 53.61
8 8 9 NA
9 9 7 8.68
10 10 18 19.77
11 11 40 NA
12 12 15 NA
13 13 6 NA
----------------------------------------------------------------
Difference Estimate
----------------------------------------------------------------
Ratio Estimate
----------------------------------------------------------------
Linear Regression Estimate
----------------------------------------------------------------
Linear Regression Model:
Call:
lm(formula = formula, data = data)
Residuals:
1 2 3 4 5 6 7
4.239 -8.640 -5.012 -2.811 12.809 2.423 -3.008
3.7 Numerische Umsetzung 89
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.2571 8.8633 -0.480 0.6513
x 1.5020 0.3362 4.467 0.0066 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> data(election)
> N <- nrow(election)
> set.seed(67396)
> sample <- election[sort(sample(1:N, size=20)),]
> X.mean <- mean(election$SPD_02)
> mbes(SPD_05 ~ SPD_02, data=sample, aux=X.mean, N=N,
+ method="regr")
----------------------------------------------------------------
Linear Regression Model:
Call:
lm(formula = formula, data = data)
Residuals:
Min 1Q Median 3Q Max
-0.06312 -0.01003 0.01472 0.01881 0.04947
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.02110 0.04777 -0.442 0.664
SPD_02 0.91999 0.11896 7.734 3.96e-07 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Das Ergebnis kann nun mit dem „wahren“ Stimmenanteil für die SPD verglichen
werden.
> mean(election$SPD_05)
[1] 0.3426949
----------------------------------------------------------------
Linear Regression Model:
Call:
lm(formula = formula, data = data)
Residuals:
Min 1Q Median 3Q Max
-0.0382967 -0.0226654 0.0002126 0.0181809 0.0598151
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.07526 0.04152 -1.813 0.08761 .
SPD_02 0.92815 0.09520 9.749 2.24e-08 ***
GREEN_02 0.74753 0.22414 3.335 0.00392 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Die Berücksichtigung der Anteile der Grünen führt zu einer Verbesserung der
Schätzung.
Kapitel 4
Designbasierte Stichprobenverfahren
Im vorherigen Kapitel haben wir die Sekundärinformation mit Hilfe eines Modells
ausgenutzt, um den Schätzer für die Primärinformation zu verbessern. Die gezogene
Stichprobe war jedoch eine einfache Zufallsstichprobe und das Stichprobendesign
blieb somit unverändert. Dadurch hatte jedes Individuum der Population die gleiche
Wahrscheinlichkeit, in die Stichprobe zu gelangen. Wir wollen dieses Konzept nun
aufgeben und die Sekundärinformation schon bei dem Auswahlverfahren, d.h. bei
der Wahl des Stichprobendesigns, ausnutzen. Das führt in der Regel dazu, dass die
Individuen der Population unterschiedliche Wahrscheinlichkeiten erhalten, in die
Stichprobe zu gelangen.
Beispiel 4.1: Auf einem ehemalig industriell genutzten Gebiet soll eine Altlas-
tensanierung durchgeführt werden. Um die Kosten dafür abschätzen zu können,
soll eine Teilerhebung der Schadstoffbelastung des Bodens erfolgen. Dazu wird
die Fläche in Planquadrate geeigneter Größe eingeteilt. Ohne weitere Zusatzinfor-
mation scheint es sinnvoll, eine einfache Zufallsstichprobe aus den Planquadraten
zu ziehen, d.h. n Planquadrate zufällig auszuwählen und hier Bodenproben zu
nehmen. In dem konkreten Fall liegen jedoch vor der Stichprobenziehung Sekun-
därinformationen vor. So ist bekannt, dass bestimmte Teilflächen des Gebietes
besonders belastet sind (z.B. der ehemalige Standort einer Fabrik), andere Flä-
chen hingegen weniger. Folglich ist man an der Untersuchung der stark belasteten
Flächen besonders interessiert. Daher kann man das Design so modifizieren, dass
die vermutlich hochbelasteten Teilflächen eine höhere Auswahlwahrscheinlich-
keit erhalten. Eine andere Möglichkeit besteht darin, die Grundgesamtheit auf-
grund der Vorinformation in mehrere Regionen aufzuteilen („geringe Belastung“,
„mittlere Belastung“, „hohe Belastung“) und dann aus den jeweiligen Regionen
eine einfache Zufallsstichprobe zu ziehen.
In diesem Kapitel geht es also um die Frage, wie durch die Wahl eines geeig-
neten Stichprobendesigns die Schätzung der relevanten Größen verbessert werden
kann. Dabei soll die vorhandene Sekundärinformation genutzt werden, um Schät-
zer mit möglichst kleiner Varianz zu erhalten. Geht man davon aus, dass jedes in
die Stichprobe aufgenommene Individuum die gleichen Kosten verursacht, so wird
man geneigt sein, Individuen mit höherem Informationsgehalt eher in die Stichprobe
aufzunehmen als weniger informative Individuen. Wie dies realisiert werden kann,
wollen wir nachfolgend beschreiben.
Die Wahl von anderen Stichprobendesigns erfordert aber auch ein anderes Vor-
gehen bei der Schätzung des Populationsmittelwertes. Es stellt sich heraus, dass die
bisher diskutierten Schätzer in der Regel bei anderen Stichprobendesigns verzerrt
sind, d.h. einen systematischen Fehler aufweisen. Daher wenden wir uns zunächst
der Frage der Parameterschätzung bei allgemeinen Stichprobendesigns zu.
4.1 Horvitz-Thompson-Schätzer
In ihrer Arbeit „A generalization of sampling without replacement from a finite
universe“ haben die beiden Statistiker D.G. Horvitz und D.J. Thompson einen all-
gemeinen Mittelwertschätzer für eine große Klasse von Stichprobendesigns vor-
geschlagen (Horvitz & Thompson 1952). Dieser Schätzer wird üblicherweise als
Horvitz-Thompson-Schätzer bezeichnet und ist für alle Stichprobendesigns an-
wendbar, bei denen es nicht zulässig ist, dass ein Element mehrfach in die Stichpro-
be gelangt. Diese Voraussetzung ist in den meisten praktisch verwendeten Designs
erfüllt. Eine Ausnahme bilden nur Designs „mit Zurücklegen“.
Beispiel 4.2: In einem Landkreis soll der Baumbestand geschätzt werden. Da-
zu wird ein Raster bestehend aus Planquadraten, jedes ca. 100 mal 100 Meter
groß, über den Landkreis gelegt. Nachfolgend werden zufällig 1 000 der resultie-
renden Planquadrate (= 1 Hektar) gezogen und per Feldversuch bezüglich des
Baumbestandes untersucht. Einige dieser gezogenen Hektar fallen zufälligerwei-
se in städtisches Gebiet, wobei im Vorhinein klar ist, dass der Baumbestand dort
von vernachlässigbarer Größe ist. Somit ist also ein Planquadrat in städtischen
Gebieten für die Erhebung des Baumbestandes von wenig Information. Andere
Planquadrate fallen in bewaldetes Gebiet. Derartige Planquadrate sind für die
Bestimmung des Baumbestandes von großem Informationsgehalt. Es drängt sich
somit die Frage auf, ob wir informative Planquadrate eher, sprich mit größerer
Wahrscheinlichkeit ziehen sollten als weniger informative. Es liegt nahe, den
Baumbestand eher in Waldgebieten als in bebauten oder landwirtschaftlich ge-
nutzten Bereichen zu untersuchen. Aus Sicht der Stichprobenziehung scheint es
sinnvoll zu sein, Planquadrate, die in Waldbezirken liegen, mit höherer Wahr-
scheinlichkeit zu ziehen als Bereiche in städtischen Gebieten. Bei Verwendung
des einfachen Stichprobenmittels wird man dann aber den Baumbestand syste-
matisch überschätzen. Dieser Bias lässt sich korrigieren, wie wir nachfolgend
sehen werden.
1
yk
n
Ȳ H T = . (4.1)
N πk
k=1
Auswahlwahrscheinlichkeit
N
πi = n.
i=1
Beispiel 4.3: Nehmen wir an, unsere Population bestehe aus 4 Elementen und
sehe wie folgt aus:
ȳ 15 45 50 55 85
,
P( ȳ) 1/6 1/6 2/6 1/6 1/6
i 1 2 3 4
.
πi 2/4 2/4 2/4 2/4
Man beachte, dass die Werte von πi für jedes einzelne Individuum zwar eine
Wahrscheinlichkeit darstellen, die πi über die Individuen betrachtet
N jedoch keine
Wahrscheinlichkeitsverteilung
wiedergeben. Es gilt vielmehr i=1 πi = n. Be-
4
trachtet man die 6 = möglichen Stichproben, so sieht man, dass die Ele-
2
mente i und j (i = j) jeweils nur in einer der 6 Stichproben gemeinsam vorkom-
men. Als Auswahlwahrscheinlichkeiten zweiter Ordnung πi, j ergeben sich dem-
nach die Werte 1/6 für alle Kombinationen von i und j. Als Tabelle geschrieben
erhält man also:
πi, j 1 2 3 4
1 · · · ·
2 1/6 · · ·
3 1/6 1/6 · ·
4 1/6 1/6 1/6 ·
Wir geben nun die Annahme auf, dass jedes Individuum die gleiche Wahr-
scheinlichkeit hat, gezogen zu werden. Stattdessen soll beispielsweise das vier-
te Individuum eine größere Wahrscheinlichkeit erhalten, in die Stichprobe zu
gelangen. Wir wollen dies technisch wie folgt umsetzen. Die Auswahl der In-
dividuen bei einer einfachen Zufallsstichprobe kann man sich (zumindest ge-
danklich) so vorstellen: In einer Urne befinden sich N unterscheidbare Kugeln
mit den Aufdrucken 1, 2, 3, . . . , N . Aus diesen N Kugeln ziehen wir n Kugeln
ohne Zurücklegen. Wird die Kugel mit Aufdruck i gezogen, so wird entspre-
chend Individuum i in die Stichprobe aufgenommen. Für unser Beispiel besteht
4.1 Horvitz-Thompson-Schätzer 97
die Urne aus N = 4 Kugeln mit den Aufdrucken 1, 2, 3, 4. Wir legen nun eine
zusätzliche Kugel mit Aufdruck 4 in die Urne, so dass sich nun 5 Kugeln mit den
Aufdrucken 1, 2, 3, 4, 4 in der Urne befinden. Nun ziehen wir ohne Zurücklegen
n = 2 mal, wobei Züge, bei denen beide Kugeln mit Aufdruck 4 gezogen werden,
nicht zählen. Das heißt insbesondere, wird eine der beiden Kugeln mit Aufdruck
4 beim ersten Zug gezogen, so entfernen wir die verbleibende zweite Kugel mit
Aufdruck 4 aus der Urne. Dieses Prinzip garantiert, dass die gezogenen Kugeln
stets unterschiedliche Aufdrucke haben. Entsprechend den Aufdrucken nehmen
wir die Individuen in die Stichprobe auf und erhalten damit die folgenden mögli-
chen Ergebnisse:
Herleitung: Die Wahrscheinlichkeiten ergeben sich dabei wie folgt. Die erste Stichprobe
erhalten wir, indem wir erst Individuum 1 und dann Individuum 2 ziehen oder umgekehrt.
Betrachten wir erst den Fall, dass wir Individuum 1 zuerst ziehen. Die verbleibenden Indi-
viduen 2, 3 und 4 erhalten für den zweiten Zug die Wahrscheinlichkeiten 1/4, 1/4 und 2/4,
d.h. die Restwahrscheinlichkeit wird auf die 3 verbleibenden Individuen aufgeteilt, nachdem
Individuum 1 gezogen wurde. Somit ergibt sich die Wahrscheinlichkeit 1/4 für Individuum
2 gezogen zu werden. Die anderen Wahrscheinlichkeiten ergeben sich analog.
Für das arithmetische Mittel ergibt sich damit die Verteilung zu:
ȳ 15 45 50 55 85
.
P( ȳ) 1/10 1/10 1/3 7/30 7/30
Berechnet man daraus den Erwartungswert, so ergibt sich E( ȳ) = 55, 33.
Nicht überraschend ist der Erwartungswert größer als der Mittelwert der Popu-
lation, d.h. ȳ ist verzerrt. Das liegt daran, dass Individuum 4 mit einer größeren
Wahrscheinlichkeit als die anderen Individuen gezogen wird. Wir wollen diese
Verzerrung nun korrigieren, was zum Horvitz-Thompson-Schätzer führt.
i 1 2 3 4
.
πi 13/30 13/30 13/30 21/30
98 4 Designbasierte Stichprobenverfahren
πi, j 1 2 3 4
1 · · · ·
2 1/10 · · ·
3 1/10 1/10 · ·
4 7/30 7/30 7/30 ·
Gezogene Individuen
Ȳ H T Wahrscheinlichkeit
1 2 17,31 1/10
1 3 51,92 1/10
1 4 37,91 7/30
2 3 57,69 1/10
2 4 43,68 7/30
3 4 78,30 7/30
Ȳ H T 17,31 37,91 43,68 51,92 57,69 78,30
P Ȳ H T 1/10 7/30 7/30 1/10 1/10 7/30
Einfache Berechnung zeigt nun E Ȳ H T = 50, d.h. der Schätzer ist erwartungs-
treu.
n Yi
πi = . (4.2)
N Ȳ
i 1 2 3 4
.
πi 0,1 0,2 0,8 0,9
Ziehen wir nun basierend auf den Stichprobengewichten eine Stichprobe und
berechnen den Horvitz-Thompson-Schätzer Ȳ H T , so zeigt sich, dass in diesem
Fall
1
yk 1
yk
n n
Ȳ H T = = N Ȳ = Ȳ .
N πk nN yk
k=1 k=1
Das bedeutet, unabhängig von der realisierten Stichprobe liefert der Schätzer
das arithmetische Mittel der Population. Das impliziert aber andererseits, dass
die Varianz des Schätzers in diesem Fall gleich 0 ist, d.h. der Schätzer weist keine
Streuung auf. Dies klingt nach Zauberei, und es taucht die Frage auf: Wo ist
der Haken? Die Antwort ist einfach. Die Stichprobengewichte πi nach Formel
(4.2) hängen von Yi ab, also von dem Variablenwert des i-ten Individuums in der
Grundgesamtheit. Dieser ist generell unbekannt, denn genau deswegen ziehen wir
ja eine Stichprobe. Somit sind in der Praxis die Gewichte in Form von (4.2) nicht
wählbar. Dennoch ist das Beispiel hilfreich. Es zeigt nämlich, selbst wenn man
die optimalen Gewichte nicht nutzen kann, so sollten die Auswahlwahrschein-
lichkeiten πi die folgende Eigenschaft aufweisen: πi sollte groß sein, wenn (das
unbekannte) Yi als groß vermutet wird.
Das Beispiel hat die grundlegenden Vorteile einer Stichprobe gezeigt, in der
die Auswahlwahrscheinlichkeiten πi in geeigneter Form proportional zu den (vor
Stichprobenziehung unbekannten) Yi gewählt werden. Eine derartige Stichproben-
ziehung wird als größenproportionale Stichprobe bezeichnet und wird in Abschn.
4.2 ausführlich behandelt. Zunächst wollen wir aber die Varianz des Horvitz-
100 4 Designbasierte Stichprobenverfahren
N
π (1 − π )
N
π − π π
Var Ȳ H T = 2 ⎣ Yi Y j ⎦ .
i i i, j i j
Yi2 +
N πi2 πi π j
i=1 i=1 j=1
i= j (4.3)
wobei dieser Schätzer eklatante Nachteile aufweist, wie wir später zeigen werden.
Wir sehen, dass der Horvitz-Thompson-Schätzer ein recht allgemeingültiges Kon-
zept widerspiegelt. Insbesondere kann das Design der einfachen Zufallsstichprobe
als Spezialfall angesehen werden. Hier gilt πi = n/N für alle Individuen und die
Varianzformel des Horvitz-Thompson-Schätzers vereinfacht sich in diesem Fall zu
den Ergebnissen, wie wir sie in Abschn. 2.6 hergeleitet haben. Man beachte, dass der
Horvitz-Thompson-Schätzer nur auf zwei Eigenschaften des Stichprobenverfahrens
beruht:
1
yk 1
Yi Ii
n N
Ȳ H T = = .
N πk N πi
k=1 i=1
Bilden wir nun den Erwartungswert, so ist nur Ii zufällig und es folgt
1
Yi E(Ii )
N
E Ȳ H T = = Ȳ ,
N πi
i=1
woraus die Varianz direkt folgt. Die Varianz ist dabei abhängig von den unbekannten Ausprä-
gungen Y1 , . . . , Y N , so dass wir eine entsprechende Schätzung für die praktische Anwendung
benötigen. Ein erwartungstreuer Schätzer ergibt sich, indem wir die Summen über alle Indi-
viduen durch die Summen über die in der Stichprobe enthaltenen Individuen ersetzen. Dabei
kann die Unverzerrtheit des Varianzschätzers leicht gezeigt werden. Man beachte, dass unter
der Voraussetzung πi, j = 0 für alle i, j
⎡ ⎤
1 ⎣
1 − πi 2
N
N
N
πi, j − πi π j
Var Ȳ H T = 2 Yi Ii + Yi Y j Ii I j ⎦ ,
N πi2 πi, j πi π j
i=1 i=1 j=1
i= j
wobei nun Ii und I j die Zufallsgrößen sind. Setzt man nun für E(Ii ) = πi und E(Ii I j ) = πi, j ,
so folgt E Var Ȳ H T = Var Ȳ H T .
Die Schätzung der Varianz gemäß (4.4) ist zwar erwartungstreu, sprich liefert im
Mittel die Varianz (4.3), es ist aber nicht garantiert, dass die Varianzschätzung nach
(4.4) positiv ist, sprich negative Werte können auftreten, was natürlich nicht sinnvoll
ist. Aus diesem Grund sind verschiedene Alternativen vorgeschlagen worden, die
sich im praktischen Einsatz als weitaus sinnvoller erwiesen haben. Wir verweisen
hier auf den Ansatz von Yates und Grundy (1953) (siehe auch Sen 1953). Dazu
schreiben wir Formel (4.3) um und erhalten (Herleitung siehe unten)
1 1
N N
Yi Yj 2
VarY G Ȳ H T = 2 · πi π j − πi, j − . (4.5)
N 2 πi πj
i=1 j=1
i= j
Voraussetzung ist hierbei, dass der Stichprobenumfang fest steht. An dieser Dar-
stellung (4.5) wird deutlich, dass für die Streuung hauptsächlich die Varianz von πYii
102 4 Designbasierte Stichprobenverfahren
relevant ist. Für den Fall πYii = π jj ergibt sich unmittelbar VarY G
Y
Ȳ H T = 0, was
wir oben schon als optimale Auswahlwahrscheinlichkeiten herausgearbeitet hatten.
Weiter ist zu bemerken, dass Differenzen der Paare für die πi, j = πi π j gilt, die
also unabhängig voneinander gezogen werden, nicht in die Summe eingehen. Der
theoretischen Form (4.5) folgend kann man nun die Varianz schätzen durch
1 1
πk πl − πk,l yk
n n
yl 2
VarY G Ȳ H T = 2 · − . (4.6)
N 2 πk,l πk πl
k=1 l=1
k=l
Diese Formel für die Varianzschätzung stammt von Yates und Grundy (1953),
was als Index Y G vermerkt ist. Der ursprüngliche Varianz-Schätzer stammt von
Horvitz und Thompson (1952). Wie aus der folgenden Herleitung hervorgeht, er-
gibt sich für die theoretische Varianz von
Ȳ H T durch die Formeln (4.5) und (4.3)
ein identischer Wert. Allerdings sind die dazugehörigen Schätzer (4.4) und (4.6)
verschieden. In Simulationsstudien und theoretischen Arbeiten wurde gezeigt, dass
die Varianzschätzung (4.6) nach Yates und Grundy dem Schätzer (4.4) vorzuziehen
ist (siehe bspw. Godambe & Joshi 1965; Lanke 1974; Rao & Singh 1973, oder
Vijayan 1975). In manchen Fällen tritt das Problem von negativen Varianzschätzern
auf. Dies kann durch die Wahl des Designs für (4.6) vermieden werden, falls für alle
Paare k, l die Bedingung πk πl − πk,l > 0 gilt.
Herleitung: Um Formel (4.5) herzuleiten, zeigen wir zunächst zwei Identitäten der Auswahl-
wahrscheinlichkeiten:
N
Es gilt πi = n, da Ii = n und somit E Ii = E (Ii ) = πi = n.
i=1 i=1 i=1 i=1 i=1
N
(πi π j − πi, j ) = πi (1 − πi ) .
j=1
j =i
Man erhält diese durch Verwendung des festen Stichprobenumfangs n. Für festes i gilt daher
N
N
N
n= Ij = I j + Ii und damit I j = n − Ii . Daraus folgt:
j=1 j=1,i= j j=1,i= j
N
N
= −Cov ⎝ Ii , Ij⎠ = − Cov Ii , I j = − πi, j − πi π j .
j=1 j=1 j=1
j =i j =i j =i
Wir formen die rechte Seite von (4.5) durch Auflösen des quadratischen Terms um:
4.1 Horvitz-Thompson-Schätzer 103
1 1
N N
Yi Yj 2
· π i π j − πi, j −
N2 2 πi πj
i=1 j=1
i= j
1
N N N N
Y2 Yi Y j
= 2 πi π j − πi, j i2 − 2 πi π j − πi, j
N πi
N πi π j
i=1 j=1 i=1 j=1
i= j i= j
1
Yi2
1
πi, j − πi π j
N N N N
= 2 π i π j − πi, j + Yi Y j
N π2 N2 πi π j
i=1 i j=1 i=1 j=1
j=i i= j
1
πi (1 − πi ) 2 1
πi, j − πi π j
N N N
= 2 Yi + 2 Yi Y j
N πi
2 N πi π j
i=1 i=1 j=1
i= j
= Var Ȳ H T .
Horvitz-Thompson-Schätzer
Gegeben sei ein Stichprobendesign, bei dem jedes Element nur einmal
in die Stichprobe gelangen kann. Seien πi und πi, j die
Auswahlwahrscheinlichkeiten erster und zweiter Ordnung.
Weiter gelte πi > 0 für alle i.
1 N −n 2
= S .
n N −1
merkmal oder auch Sekundärinformation angesehen werden, welche für die Grund-
gesamtheit als bekannt vorausgesetzt wird. Die Stichprobenziehung wird nun so
durchgeführt, dass die einzelnen Auswahlwahrscheinlichkeiten proportional zur
Größe der Sekundärinformation sind. Wir sprechen vom Design der größenpro-
portionalen Stichprobe, die wir nach der englischen Bezeichnung („probabilities
proportional to size“) PPS-Stichprobe nennen.
Im vorigen Abschnitt haben wir gesehen, dass der Horvitz-Thompson-Schätzer
die Varianz 0 besitzt, falls die Auswahlwahrscheinlichkeiten proportional zu Y sind.
Vor diesem Hintergrund ist die PPS-Stichprobe sinnvoll und verspricht eine kleine
Varianz des resultierenden Schätzers, wenn die Sekundärinformation proportional
zur Primärinformation ist. Es ist im oben genannten Beispiel zu erwarten, dass der
Marketing-Etat für größere Städte größer ist als der für kleine Städte. Daher kann
die PPS-Stichprobe als Approximation der idealen Horvitz-Thompson-Stichprobe
angesehen werden. Allgemein benötigt man also ein Hilfsmerkmal, im Folgenden
mit Z bezeichnet, das möglichst proportional zum Zielmerkmal Y ist. Die Auswahl-
wahrscheinlichkeit soll proportional zu Z sein.
Bevor wir die Frage diskutieren, wie das PPS-Design realisiert werden kann,
wollen wir uns der Schätzung zuwenden. Wir gehen also von einer PPS-Stichprobe
vom Umfang n aus und verwenden das Hilfsmerkmal Z. Die zu Z proportionalen
Auswahlwahrscheinlichkeiten ergeben sich dann zu
Zi
πi = n N . (4.7)
j=1 Zj
NDies ergibt sich direkt aus der Forderung der Proportionalität und der Eigenschaft
j=1 π j = n. Die Mittelwertschätzung erfolgt nun durch
N
1
yk Zj 1
1
yk
n n n
yk
Ȳ P P S =
j=1
Ȳ H T = = = Z̄ .
N πk N n zk n zk
k=1 k=1 k=1
Im obigen Beispiel hat der PPS-Schätzer folgende Interpretation: Hier sind die yk
die Gesamtausgaben für Marketingmaßnahmen eines Kreises bzw. einer Stadt und
z k ist die Einwohnerzahl. Damit entspricht der Term n1 nk=1 zykk einer Schätzung
der durchschnittlichen Pro-Kopf-Ausgaben
N für Marketing. Wenn man diese mit der
Gesamteinwohnerzahl i=1 Z i multipliziert und durch die Anzahl der Kreise und
Städte N dividiert, ergibt sich eine plausible Schätzung für den gesuchten durch-
schnittlichen Marketing-Etat der Kreise bzw. Städte.
Wir wollen den Schätzer Ȳ P P S kurz mit dem Schätzer der einfachen Zufalls-
stichprobe vergleichen, d.h. mit
n
Ȳ E S = yk .
n
k=1
106 4 Designbasierte Stichprobenverfahren
Für die Varianz des Schätzers ist jeweils die Streuung der Werte in der Summe
entscheidend. Hier zeigen sich die Vorteile des PPS-Schätzers. Falls die Streuung
der Yi größer ist als die der Yi /Z i , so hat der PPS-Schätzer eine kleinere Varianz.
Dies ist erfüllt, wenn Z i proportional zu Yi ist. In dem obigen Beispiel ist dies
sicherlich der Fall, da die Pro-Kopf-Ausgaben in der Regel eine geringere Streu-
ung aufweisen als die absoluten Gesamtausgaben für Marketingmaßnahmen. Diese
Überlegung kann generell als eine Art Richtlinie angesehen werden, ob eine PPS-
Stichprobe im Vergleich zu einer einfachen Zufallsstichprobe lohnenswert ist.
Wenn auch das Ziehen einer PPS-Stichprobe am häufigsten mit dem Hilfsmerk-
mal „Größe“ erfolgt, lässt sich dieses Design mit beliebigen Hilfsmerkmalen durch-
führen. Voraussetzung ist dabei jedoch, dass das Hilfsmerkmal nur positive Werte
annimmt. Da der Stichprobenumfang n bei dem PPS-Design fest vorgegeben ist, er-
folgt die Schätzung der Varianz mit Hilfe des Ansatzes von Yates und Grundy (siehe
Formel (4.6)). Allerdings ist es hier notwendig, die Auswahlwahrscheinlichkeiten
zweiter Ordnung πi, j zu kennen. Diese sind von der Ziehungsstrategie abhängig,
die wir im Folgenden diskutieren wollen.
Zi
πi = n N
j=1 Zj
N
n Zi < Z j.
j=1
1 1
πk πl − πk,l yk
n n
yl 2
VarY G Ȳ H T = 2 · − .
N 2 πk,l πk πl
k=1 l=1
k=l
4.3 Praktische Umsetzung der PPS-Stichprobe 107
2 10 5 2 1
20 20 20 20 20
0 1
Abb. 4.1 Ziehen einer PPS-Stichprobe vom Umfang n = 1 aus einer Grundgesamtheit mit N = 5
Elementen mit den Ausprägungen Z 1 = 2, Z 2 = 10, Z 3 = 5, Z 4 = 2 und Z 5 = 1
N
= pi + P(i im zweiten, j im ersten Zug)
j=1
j=i
N
p j pi
= pi + .
(1 − p j )
j=1
j=i
Der Index gibt dabei die gewählte Größe der Stichprobe an, hier ist n = 2. In
analoger Form können nun die Auswahlwahrscheinlichkeiten für größere Stich-
proben berechnet werden. Für eine Stichprobe vom Umfang n = 3 ergibt sich
beispielsweise
⎛ ⎞
(n=3)
N
pj
N
p j pk
πi = pi ⎝1 + + ⎠.
1 − pj 1 − p j − pk
j=1 j=1 k=1
j=i j=k=i
(n)
Es zeigt sich, dass πi sich auf recht komplexe Weise aus pi ergibt. Es gi-
(n)
lt im Allgemeinen nicht πi = npi , was die eigentliche Vorgabe wäre. Somit ist die
Berechnung von πi bei gegebenem pi numerisch komplex. Fordert man andererseits
an die Stichprobe gewisse Auswahlwahrscheinlichkeiten πi , so lässt sich die Ein-
Zug-Auswahlwahrscheinlichkeit pi daraus nur für kleine Populationen analytisch
herleiten, indem obige Berechnungsvorschriften invertiert werden.
4.3 Praktische Umsetzung der PPS-Stichprobe 109
4.3.1 Sampford-Methode
Eine Alternative zu der oben angesprochenen nicht erfolgreichen Strategie, sukzes-
sive die Ein-Zug-Auswahlwahrscheinlichkeiten zu ändern, ist die sogenannte Ver-
werfungsstichprobe. Im einfachsten Fall ziehen wir eine Stichprobe vom Umfang
n mit Zurücklegen und den Ein-Zug-Auswahlwahrscheinlichkeiten pi . Sind alle n
Elemente der Stichprobe verschieden, so wird die Stichprobe akzeptiert. Ansonsten
wird sie verworfen und es wird eine neue Stichprobe gezogen. Dieses Vorgehen wird
so lange wiederholt, bis die erste Stichprobe akzeptiert wird. Es stellt sich heraus,
dass für die Auswahlwahrscheinlichkeiten (insbesondere bei großen Grundgesamt-
heiten) zwar approximativ πi ≈ npi gilt, dass diese Beziehung aber nicht exakt ist.
Eine geringfügige Veränderung dieser Strategie, die exakt zu πi = npi führt, wurde
von Sampford (1967) vorgeschlagen. Die Sampford-Methode ist insofern attrak-
tiv, als dass sie die Berechnung der Auswahlwahrscheinlichkeiten zweiter Ordnung
πi, j erlaubt. Die numerische Umsetzung dazu wird in Abschn. 4.7 vorgestellt. Die
Idee der Sampford-Methode ist es, das erste Element der Stichprobe mit der Ein-
Zug-Auswahlwahrscheinlichkeit pi = πi /n zu ziehen. Die verbleibenden n − 1
Elemente der Stichprobe werden nun als Verwerfungsstichprobe gezogen, wobei
jedes Element die Ein-Zug-Auswahlwahrscheinlichkeit
πi /(1 − πi )
p̃i = (4.8)
N
π j /(1 − π j )
j=1
erhält.
Beispiel 4.5: Wir verfolgen das Zahlenbeispiel aus Beispiel 4.3 weiter, das heißt
wir betrachten die Population
aus der eine PPS-Stichprobe vom Umfang n = 2 gezogen werden soll. Die Aus-
wahlwahrscheinlichkeiten sollen dabei proportional sein zu
Z 1 = 13, Z 2 = 13, Z 3 = 13, Z 4 = 21,
N
was den Auswahlwahrscheinlichkeiten πi = n Z i / j=1 Z j des Beispiels ent-
spricht, nämlich
13 13 13 21
π1 = 2 ∗ , π2 = 2 ∗ , π3 = 2 ∗ , π4 = 2 ∗ .
60 60 60 60
Im ersten Zug werden demnach die Elemente mit den Ein-Zug-Auswahlwahr-
scheinlichkeiten pi = πi /2 gezogen. Die Ein-Zug-Auswahlwahrscheinlichkeiten
für den zweiten Zug ergeben sich durch (4.8) zu
p̃1 = 0, 165, p̃2 = 0, 165, p̃3 = 0, 165, p̃4 = 0, 505.
110 4 Designbasierte Stichprobenverfahren
N
Gegeben seien die Auswahlwahrscheinlichkeiten πi mit i=1 πi = n.
Eine Stichprobe s vom Umfang n kann dann wie folgt gezogen werden:
N
πj
(1 − π j )
j=1
pj
n
pi 1
πi, j = K · · t − πi − π j Ln−t (i j) t−2 ,
1 − πi 1 − π j n
t=2
mit
1 πl /n
Lm := ,
1 − πl
s|s hat die Länge m l∈s
1 πl / n
Lm (i j) := ,
1 − πl
s|s hat die Länge m und enthält nicht i,j l∈s
−1
n
K := t · Ln−t / n t
.
t=1
Herleitung: Wir zeigen, dass die Sampford-Methode tatsächlich die geforderten Auswahl-
wahrscheinlichkeiten liefert. Dazu beginnen wir mit dem Nachweis für den Fall n = 2. Die
Wahrscheinlichkeit, dass das Element i in der Stichprobe s ist, wird wie folgt berechnet:
P(i wird gezogen und s wird nicht abgelehnt)
P(i ∈ s) = . (4.9)
P(s wird nicht abgelehnt)
Dabei wird i im ersten oder im zweiten Zug gezogen, was es erlaubt (4.9) wie folgt zu
vereinfachen
⎛ ⎞
⎜ N ⎟
⎜
π πj
πj πi ⎟
⎜ i ⎟
P(i ∈ s) = ⎜ · · C2 + · · C2 ⎟ · C1 ,
⎜ n 1 − πj n 1 − πi ⎟
⎝j =1 j =i ⎠
j = i
mit ⎛ ⎞−1
N
πj
C1 = (P(s wird nicht abgelehnt)) −1
, C2 = ⎝ ⎠ .
1 − πj
j=1
N
Wir setzen nun C = C1 · C 2 /n und nutzen j=1 π j = 2 aus. Damit gilt
⎛ ⎞
πj
π
P(i ∈ s) = C · ⎝ πi · + πj ·
i ⎠
1 − πj 1 − πi
j=i j=i
⎛ ⎞
πj πi
⎠
= C · ⎝π i · + πj
1 − πj 1 − πi
j=i j=i
⎛ ⎞
πj πi
= C · ⎝πi · + · (2 − πi )⎠
1 − πj 1 − πi
j=i
⎛ ⎞
N
πj πi πi
= C · ⎝πi · − · πi + (2 − πi )⎠
1 − πj 1 − πi 1 − πi
j=1
⎛ ⎛ ⎞⎞
N
πj
= C · ⎝πi · ⎝ + 2⎠⎠ .
1 − πj
j=1
N
πi
P(i ∈ s) = πi · C
mit C
= C ⎝ + 2⎠ .
1 − πj
j=1
Die Wahrscheinlichkeit, dass Individuum i in der Stichprobe ist, ist somit proportional zu πi
und aus πi = n folgt unmittelbar C
= 1 und damit P(i ∈ s) = πi .
Die Berechnung im allgemeinen Fall ist sehr viel komplizierter. Wir wollen aber dem ma-
thematisch interessierten Leser den Beweis, der von Hajek (1981) brillant dargestellt wird, nicht
vorenthalten.
Wir bezeichnen die Elemente, die nicht in der Stichprobe sind, mit s c und benutzen die
Identität
112 4 Designbasierte Stichprobenverfahren
N
(1 − πi ) = πi , die unmittelbar aus πi = n folgt.
i∈s i∈s c i=1
Um die Wahrscheinlichkeit einer Stichprobe zu bestimmen, müssen wir nach dem gezoge-
nen ersten Element unterscheiden:
1 πj
P(s, erstes Element von s ist k) = C · πk ·
1 − πj
j ∈s
j = k
1 πj
= C · (1 − πk ) · .
1 − πj
j∈s
Die Konstante C ergibt sich aus der Wahrscheinlichkeit, eine gültige Stichprobe zu erhalten.
Damit ergibt sich für die ungeordnete Stichprobe s
1 πj
P(s) = C · (1 − πk )
1 − πj
k∈s j∈s
1 πj
=C· πk · .
1 − πj
k∈s c j∈s
Nun betrachten wir Stichproben, die ein festes Element i enthalten. Wir bezeichnen die
Stichprobe, bei der wir das Element i durch das Element k ∈ s c ersetzen mit sik . Es gilt dann:
⎛ ⎞
1 πj
P(s) = C · ·πk · ⎝ ⎠ · πi · 1 − πk
c
1 − πj 1 − πi πk
k∈s j∈sik
πi
1 πj
=C· (1 − πk ) · .
1 − πi c
1 − πj
k∈s j∈sik
Nun erhalten wir die Wahrscheinlichkeit für i ∈ s als Summe über die Wahrscheinlichkeiten
von Stichproben s, die i enthalten.
P(i ∈ s) = P(s)
s,i∈s
πi
1 πj
= C· (1 − πk )
1 − πi 1 − πj
s,i∈s k∈s c j∈sik
πi
1 πj
(∗ ) = C · (1 − πk )
1 − πi 1 − πj
r,i∈r k∈r j∈r
πi
= · P(r )
1 − πi
r,i∈r
πi
⇒ P(i ∈ s) = (1 − P(i ∈ s))
1 − πi
⇒ P(i ∈ s) = πi .
Die Identität (∗ ) folgt aus der Überlegung, dass die Summierung aller Einheiten, die nicht in
den Stichproben mit i ∈ s enthalten sind, auch über alle Einheiten von Stichproben, die i nicht
enthalten, erfolgen kann. Die erste Summe besteht aus
N −1
· (N − n)
n−1
4.3 Praktische Umsetzung der PPS-Stichprobe 113
Summanden, die zweite Summe enthält (N − 1) · n, woraus sich jeweils die identische Anzahl
(N −1)
(N −1−n)(n−1) ergibt.
4.3.2 Pareto-Sampling
Von Rosén (1997) stammt das sogenannte Pareto-Sampling. Dazu zieht man für die
ganze Grundgesamtheit gleichverteilte Zufallszahlen Ui , i = 1, . . . , N und definiert
Ui / (1 − Ui )
Qi = .
πi / (1 − πi )
Anschließend werden die Elemente mit den n kleinsten Werten von Q i gezo-
gen. Diese ebenso einfache wie originelle Methode liefert approximativ eine Zie-
hung mit Auswahlwahrscheinlichkeiten πi . Die Idee, die hinter dieser Methode
steht, ist, dass die Division durch kleine Wahrscheinlichkeiten πi zu hohen Wer-
ten von Q i führt und damit die Auswahlwahrscheinlichkeiten reduziert. Kürzlich
wurde diese Methode so modifiziert, dass sie genau der Sampford-Methode ent-
spricht, aber sehr viel weniger Rechenzeit als diese benötigt, siehe Bondesson et al.
(2006).
−n
N1
πi = (1 − rki ).
k=1
114 4 Designbasierte Stichprobenverfahren
4.3.4 Splitting-Methoden
Die zu Grunde liegende Idee dieser Methoden ist, den Ziehungsvorgang zu zerlegen
(„Splitting“). Seien zwei Ziehungsstrategien gegeben mit Auswahlwahrscheinlich-
keiten π (1) und π (2) . Wir führen unsere Ziehung nun so durch, dass im ersten Schritt
gelost wird, welche der beiden Strategien zum Einsatz kommt. Die Wahrscheinlich-
keit für Strategie (1) sei dazu λ und für Strategie (2) entsprechend 1 − λ. Insgesamt
ergeben sich dann die Auswahlwahrscheinlichkeiten durch
(1) (2)
N
(1)
N
(2)
0 ≤ πi ≤ 1, 0 ≤ πi ≤ 1 und πi = πi = n.
i=1 i=1
(1) (2)
Das bedeutet, dass sowohl πi als auch πi Auswahlwahrscheinlichkeiten dar-
stellen. Die Methode ist so konstruiert, dass Individuum i mit Wahrscheinlichkeit λ
(1)
die Auswahlwahrscheinlichkeit πi und mit Wahrscheinlichkeit (1 − λ) die Aus-
wahlwahrscheinlichkeit πi(2) hat, was mit (4.10) die resultierende Auswahlwahr-
scheinlichkeit von πi ergibt. Ziel dieser Zerlegung ist es nun, dass aus den einzel-
nen πi(1) und πi(2) leichter eine Stichprobe zu ziehen ist. Dies ist möglich, wenn
(1)
beispielsweise πi = n/N ist, was einer einfachen Zufallsstichprobe entspricht,
die natürlich leicht realisiert werden kann.
(1)
Deville und Tillé (1998) zeigen, dass es möglich ist, πi = Nn zu wählen.
Gleichzeitig kann Strategie (2) so gewählt werden, dass für mindestens ein Element
(2) (2)
der Grundgesamtheit πi = 0 oder πi = 1 gilt. Damit ist die Übertragung des
Problems auf die Auswahl einer Stichprobe aus einer um 1 reduzierten Population
gelungen. Das Verfahren wird nun iteriert, d.h. Strategie (2) wird wieder aufgeteilt in
eine einfache Zufallsstichprobe und in eine Ziehungsstrategie mit einer Population
vom Umfang N − 2.
Eine andere Variante des Splittings wurde von Midzuno (1952) vorgeschlagen.
Hier wird eine Aufteilung in N mögliche Ziehungsstrategien vorgenommen. Im
ersten Schritt wird gelost, welche der N Strategien zum Einsatz kommt. Hierbei
kommt Strategie j mit Wahrscheinlichkeit
4.3 Praktische Umsetzung der PPS-Stichprobe 115
N −1 n−1
λj = πj · −
N −n N −n
Die Strategie j beinhaltet, dass das Element j gezogen wird und eine einfache
Zufallsstichprobe vom Umfang n − 1 aus den übrigen N − 1 Elementen gezo-
gen wird. Damit werden auch entsprechende Auswahlwahrscheinlichkeiten zweiter
Ordnung hergeleitet, die sich ergeben zu
n−1 n
πk,l = πk + πl + .
N −2 N −1
Als Voraussetzungen für die einfache Anwendung benötigt man πi > (n − 1)/
(N − 1). Ist dies nicht erfüllt, so kann eine Verallgemeinerung des Verfahrens ange-
wendet werden. Details hierzu finden sich in Deville und Tillé (1998).
wobei W0 = 0 gesetzt wird. Das Verfahren ist numerisch leicht zu realisieren und
liefert wie in Madow (1949) gezeigt eine Stichprobe mit den gewünschten Auswahl-
116 4 Designbasierte Stichprobenverfahren
1
yk
n
Ȳ H H = .
Nn pk
k=1
1
yk
n
Ȳ H H = .
Nn pk
k=1
n 2
1 yk
Var Ȳ H H = −
Ȳ H H .
n(n − 1) N pk
k=1
1
Yi
N
1 yk
E Ȳ H H = E = pi = Ȳ .
N pk N pi
i=1
Für die Varianz gilt wegen der Unabhängigkeit der Züge, die sich gemäß dem Ziehen mit
Zurücklegen ergibt
1 1 yk
Var Ȳ H H = 2 Var
N n pk
2
1 1 yk
= 2 E − N Ȳ
N n pk
N 2
1
Yi
= − Ȳ pi .
n pi N
i=1
ein erwartungstreuer Schätzer für die Varianz ist. Wir definieren dazu das Hilfsmerkmal V mit
n
yk
vk = Nypk k und v̄ = N1n . Damit ist aber
pk
k=1
118 4 Designbasierte Stichprobenverfahren
1
n
E Var Ȳ H H = E (vk − v̄)2
n(n − 1)
k=1
1
= Var(V ) = Var Ȳ H H .
n
4.5 Beispiel
Bei einer Fischereistudie in England, siehe Cotter, Course, Buckland, und Garrod
(2002), sollte die Anzahl gefangener Fische geschätzt werden. Dabei wurden Ka-
beljau, Schellfisch und Weißfisch in der Nordsee in den Jahren von 1997 bis 1998
betrachtet. Da die Gesamtzahlen nur sehr schwer zu erheben sind, wurde eine Erhe-
bung auf verschiedenen Fischerbooten durchgeführt. Die Untersuchungseinheiten
sind also die in dem jeweiligen Zeitraum eingesetzten Fischerboote.
Da sich die Boote in ihrer Kapazität und Fangstrategie stark unterscheiden, kam
eine PPS-Stichprobe zur Anwendung. Die Größe Yk sind die in einem bestimmten
Zeitraum auf dem Boot k gefangenen Fische. Nun unterscheiden sich die Boote
stark in ihrer Kapazität und ihrer Fangstrategie. Dies führt zu einer hohen Streuung
der Yk und damit wäre eine Schätzung basierend auf einer einfachen Zufallsstich-
probe der Boote nur sehr ungenau. Eine Verbesserung der Genauigkeit kann dadurch
erreicht werden, dass ein Hilfsmerkmal definiert wird, das möglichst proportional
zu den gefangenen Fischen Yk ist. Wichtig ist dabei, dass das Hilfsmerkmal vor der
Stichprobenziehung bekannt ist. Die Autoren der Studie wählten
VCU · Aufwand
Z=
durchschnittliche Dauer der Ausfahrten in Tagen
Die Einheit VCU („vessel capacity unit“) beschreibt die Kapazität der Schiffe. Der
Aufwand wurde durch die Stunden, die das Boot in den früheren Jahren unterwegs
war, gemessen. Die Dauer der Ausfahrten ist indirekt proportional, da eine kürzere
Zeitspanne mehr Ausfahrten erlaubt.
Um die Berechnung einfach zu halten, wurde hier das Ziehen der Boote mit Zu-
rücklegen und der Hansen-Hurwitz-Schätzer angewendet. Da sich die Boote erheb-
lich in ihren Fängen unterschieden, führte die PPS-Strategie hier zu einem erheb-
lichen Effizienzgewinn. Weitere Detailfragen, wie Messfehler und fehlende Werte
werden in Cotter et al. (2002) diskutiert.
4.6 Literatur
Designbasierte Verfahren beruhen auf dem Horvitz-Thompson-Theorem, welches
in seiner Form einfach und flexibel ist. Problematischer ist die konkrete Anwen-
dung des Theorems. Dies fängt beispielsweise bei der Schätzung der Varianz des
4.6 Literatur 119
N
N
Yi Yj 2
Var J Ȳ H T = W̄ − ,
πi πj
i=1 j>i
N
n − i=1 πi2
mit W̄ = .
N (N − 1)
1 N (N − 1)
yk
yl 2
Var J Ȳ H T = 2 W̄ − ,
N n n−1 πk πl
i∈s j∈s, j<i
wobei s die Stichprobe, sprich die Indexmenge der gezogenen Individuen ist. Dieser
Schätzer benötigt keine Auswahlwahrscheinlichkeiten zweiter Ordnung. Es zeigt
sich jedoch in Simulationsstudien (Westerheide 2006), dass der Schätzer dazu neigt,
die Varianzen zu unterschätzen, was natürlich aus statistischer Sicht kritisch ist.
Als weitere Alternative zum Horvitz-Thompson-Schätzer bietet sich der Hansen-
Hurwitz-Schätzer an. In diesem Fall setzt man pi = πi /n und wendet entsprechen-
de Varianzformeln des Hansen-Hurwitz-Schätzers an. Hierbei wird üblicherweise
die Varianz überschätzt, was aufgrund der angenommenen Ziehung mit Zurück-
legen resultiert. Ein ähnliches Phänomen hatten wir schon in Abschn. 2.5 gesehen.
Zur Umgehung der Berechnung der Auswahlwahrscheinlichkeiten zweiter Ordnung
bietet sich die Idee von Hajek (1981) an, der vorschlägt, die Auswahlwahrschein-
lichkeiten zweiter Ordnung zu approximieren durch
πi, j ≈ πi π j 1 − (1 − πi )(1 − π j )d −1 , (4.11)
N
mit d = i=1 πi (1 − πi ). Diese Approximation zeigt sich in der Praxis als durch-
aus gebrauchsfähig (siehe Berger 1998) und wird beispielsweise von statistischen
120 4 Designbasierte Stichprobenverfahren
Ämtern in Schweden und Frankreich benutzt (siehe Andersson & Norberg 1994,
und Berger 2004). Neuere Ansätze zur Varianzschätzung bei Vermeidung der Be-
rechnung von Auswahlwahrscheinlichkeiten zweiter Ordnung finden sich in Berger
und Skinner (2005).
Neben der Berechnung von Auswahlwahrscheinlichkeiten zweiter Ordnung ist
der explizite Ziehungsprozess von Bedeutung. Eine aktuelle Diskussion ist im
schon erwähnten Buch von Tillé (2006) oder in Brewer (2002) zu finden. Der
Vergleich von Alternativen zielt dabei auf die Varianz des Schätzers ab, das heißt
der Ziehungsalgorithmus sollte zu einer möglichst kleinen Varianz des resultieren-
den Schätzers führen, insbesondere im Vergleich zur gängigen Sampford-Methode.
Theoretische Ergebnisse in diese Richtung finden sich zum Beispiel in Gabler
(1981) und Gabler (1984).
4.7.1 PPS-Auswahlwahrscheinlichkeiten
> library(pps)
und
> library(sampling)
> inclusionprobabilities(a, n)
Diese zieht aus einem Vektor a mit positiven Zahlen eine PPS-Stichprobe der
Größe n.
Zur Veranschaulichung nehmen wir an, dass die Sekundärinformation, die zur
Stichprobenziehung gemäß dem PPS-Ansatz benutzt werden soll, in folgendem Da-
tensatz vorliegt:
> data
id z
1 1 1.8
2 2 2.0
3 3 3.2
4 4 2.9
5 5 1.5
6 6 2.0
7 7 2.2
Das heißt, zu Grunde liegt eine Population vom Umfang N = 7 mit Sekundär-
information Z , welche die Auswahlwahrscheinlichkeiten bestimmen soll. Nehmen
wir an, wir wollen eine Stichprobe vom Umfang n = 2 ziehen. Die Auswahlwahr-
scheinlichkeiten sollen dabei proportional zur Größe Z sein.
> n <- 2
> z <- data$z
> pik <- inclusionprobabilities(a=z,n=n)
> pik
Dies sind somit die Werte πi . Die Stichprobengröße n entspricht der Summe der
Auswahlwahrscheinlichkeiten aus pik.
122 4 Designbasierte Stichprobenverfahren
Zur Berechnung der Varianz des Horvitz-Thompson Schätzers benötigen wir au-
ßerdem die Auswahlwahrscheinlichkeiten zweiter Ordnung πi, j . Diese hängen vom
verwendeten Algorithmus ab.
Für eine Auswahl basierend auf dem Sampford Algorithmus erhält man diese
durch die Funktion sampfordpi(·) im Paket pps.
> sampfordpi(sizes, n)
Die Funktion berechnet somit für eine Stichprobe vom Umfang n die Auswahl-
wahrscheinlichkeiten zweiter Ordnung für einen Vektor sizes, der die Hilfsgrößen
Z der einzelnen Einheiten in der Population enthält, zu denen die Auswahlwahr-
scheinlichkeiten proportional sind.
Angewendet auf unser Datenbeispiel ergibt sich mit der Methode nach Sampford:
Es ergibt sich eine symmetrische Matrix, wobei auf der Diagonalen die Auswahl-
wahrscheinlichkeiten πi aufgetragen sind.
Wir betrachten als Alternative die Eliminierungsmethode von Tillé, die Midzuno
Methode und die Methode nach Madow, welche im R-Paket sampling implemen-
tiert sind.
> UPtillepi2(pik)
> UPmidzunopi2(pik)
> UPsystematicpi2(pik)
Für unsere Beispieldaten erhält man nach der Eliminierungsmethode von Tillé
folgende Auswahlwahrscheinlichkeiten zweiter Ordnung:
Hier fällt auf, dass die Matrix zu der der Eliminierungsmethode identisch ist.
Dies gilt nach Deville und Tillé (1998) allgemein.
Man beachte, dass der Ziehungsprozess der Methode nach Madow Ähnlich-
keit hat mit dem Ziehungsprozess einer systematischen Stichprobe, wie sie in Ab-
schn. 2.9 behandelt wurde. Dies spiegelt sich im Namen der R-Prozedur wider.
4.7.2 PPS-Ziehung
Im nächsten Schritt wird mit den vier vorgestellten Methoden eine Stichprobe ge-
zogen. Verfolgen wir zunächst die Sampford-Methode. Wir ziehen hier n Elemente
aus der Menge 1, . . . , N , wobei das Element i mit der Auswahlwahrscheinlichkeit
πi gezogen wird. Die Wahrscheinlichkeit πi ist dabei durch das Sekundärmerkmal
Z i bestimmt durch Formel (4.7)
Zi
πi = n .
N
Zj
j=1
Diese Stichprobe kann mit dem Befehl sampford(·) aus dem Paket pps reali-
siert werden.
> sampford(size, n)
Es werden also dieselben Argumente wie bei der Funktion sampfordpi(·) über-
geben. Basierend auf dem obigen Datensatz ergibt sich:
> set.seed(178209)
> index_sampford <- sampford(size=z,n=n)
> index_sampford
[1] 3 7
> UPtille(pik)
> UPmidzuno(pik)
> UPsystematic(pik)
Auch hier werden also dieselben Argumente wie bei den obigen Funktionen
übergeben. Als Ergebnis wird ein Vektor der Länge N zurückgegeben, der n
Einträge mit der Zahl 1 beinhaltet, die die zu ziehenden Individuen widerspie-
gelt, und N − n Einträge mit der Zahl 0, die die nicht ausgewählten Individuen
angibt.
Angewendet auf unser Datenbeispiel ergibt sich:
[1] 1 0 1 0 0 0 0
> set.seed(178209)
> index_midzuno <- UPmidzuno(pik)
> print(index_midzuno)
[1] 0 0 1 1 0 0 0
> set.seed(178209)
> index_madow <- UPsystematic(pik)
> print(index_madow)
[1] 0 0 1 0 0 1 0
Hier werden bei Anwendung der Methode von Tillé die Individuen 1 und 3 aus-
gewählt, bei Anwendung der Methode von Midzuno die Individuen 3 und 4 und bei
Anwendung der Methode von Madow die Individuen 3 und 6.
> set.seed(178209)
> pps.sample_sampford <- pps.sampling(z=data$z, n=2,
+ method="sampford")
> pps.sample_sampford
PPS sample:
[1] 3 7
4.7 Numerische Umsetzung 127
Sample probabilities:
[,1] [,2]
[1,] 0.41025641 0.07281474
[2,] 0.07281474 0.28205128
Als Ergebnis erhält man einerseits die gezogene Stichprobe durch Angabe der
ausgewählten Indizes der Menge 1 bis N und andererseits die Auswahlwahrschein-
lichkeiten erster Ordnung der in die Stichprobe gezogenen Individuen. In dem Bei-
spiel sind dies die Individuen 3 und 7.
Die Stichproben und Auswahlwahrscheinlichkeiten nach den Methoden von
Tillé, Midzuno und Madow erhält man, indem man die Option method geeignet
wählt.
> set.seed(178209)
> pps.sample_tille <- pps.sampling(z=data$z, n=2, method="tille")
> pps.sample_tille
PPS sample:
[1] 1 3
Sample probabilities:
[,1] [,2]
[1,] 0.23076923 0.05955335
[2,] 0.05955335 0.41025641
> set.seed(178209)
> pps.sample_midzuno <- pps.sampling(z=data$z, n=2, method="midzuno")
> pps.sample_midzuno
PPS sample:
[1] 3 4
Sample probabilities:
[,1] [,2]
[1,] 0.41025641 0.08974359
[2,] 0.08974359 0.37179487
128 4 Designbasierte Stichprobenverfahren
> set.seed(178209)
> pps.sample_madow <- pps.sampling(z=data$z, n=2, method="madow")
> pps.sample_madow
PPS sample:
[1] 3 6
Sample probabilities:
[,1] [,2]
[1,] 0.4102564 0.2307692
[2,] 0.2307692 0.2564103
> data(influenza)
> set.seed(108506)
> pps <- pps.sampling(z=influenza$population, n=20,
+ method='midzuno')
Dies ergibt:
> pps
Method of Midzuno:
PPS sample:
[1] 35 83 107 109 130 140 157 210 219 223 257 273 290 294 324
[16] 342 361 371 418 423
4.7 Numerische Umsetzung 129
Sample probabilities:
4.7.4 Horvitz-Thompson-Schätzer
Der Horvitz-Thompson-Schätzer kann im Prinzip mit der Funktion HTestimator(·)
im Paket sampling berechnet werden. Diese beinhaltet jedoch keine Varianzschät-
zung, so dass wir auf diese Funktion nicht weiter eingehen wollen.
Stattdessen benutzen wir die Funktion htestimate(·) aus unserem Paket
samplingbook.
# y vector of observations
# N integer for population size
# PI square matrix of second order inclusion probabilities
# with n rows and cols. It is necessary to be specified
# for variance estimation by methods 'ht' and 'yg'.
# pk vector of first order inclusion probabilities of
# length n for the sample elements. It is necessary to
# be specified for variance estimation by methods
# 'hh' and 'ha'.
# pik an optional vector of first order
# inclusion probabilities of length N for the population
# elements. It can be used for variance estimation by
# method 'ha'.
# method method to be used for variance estimation.
# Options are 'yg' (Yates and Grundy) and 'ht'
# (Horvitz-Thompson), approximative options are
# 'hh' (Hansen-Hurwitz) and 'ha' (Hajek).
Mit y wird der aus der Stichprobe resultierende Vektor der Beobachtungen und
mit N die Größe der Grundgesamtheit übergeben. Die Auswahlwahrscheinlichkeiten
zweiter Ordnung PI werden in Form einer Matrix der Dimension n × n übergeben,
die Auswahlwahrscheinlichkeiten erster Ordnung in der Stichprobe pk in Form ei-
nes Vektors der Länge n bzw. bei der Methode nach Hajek optional zusätzlich die
Auswahlwahrscheinlichkeiten erster Ordnung in der Grundgesamtheit pik in Form
eines Vektors der Länge N . Für die Varianzschätzung stehen vier Methoden zur Ver-
fügung, die mit der Option method gewählt werden. Optionen sind ’yg’ (Yates und
Grundy), ’ht’ (Horvitz-Thompson), ’hh’ (Hansen-Hurwitz) und ’ha’ (Hajek). Die
Voreinstellung der Prozedur ist die Methode ’yg’, also die Verwendung des Varianz-
132 4 Designbasierte Stichprobenverfahren
schätzers VarY G Ȳ H T , siehe Formel (4.6). Dieser kann nur bei festem Stichpro-
benumfang verwendet werden. Weiterhin ist die Verwendung des Varianzschätzers
Var Ȳ
HT nach Formel (4.4) möglich. Dieser kann allerdings in bestimmten Fällen
negative Werte annehmen. Für beide Verfahren müssen die Auswahlwahrschein-
lichkeiten zweiter Ordnung bekannt sein und durch Angabe von PI der Funktion
übergeben werden. Sind diese nicht bekannt, so können zwei alternative Methoden
verwendet werden, nämlich die Varianzschätzung nach Hansen-Hurwitz (siehe Ab-
schn. 4.4) und nach Hajek, siehe S. 119. In letzteren beiden Fällen ist nur die Angabe
der Auswahlwahrscheinlichkeiten erster Ordnung notwendig. Um eine approxima-
tive Varianzschätzung zu erhalten, werden die Auswahlwahrscheinlichkeiten erster
Ordnung nur für die Stichprobe benötigt und mit pk übergeben. Um eine besse-
re Varianzschätzung zu erhalten, können für die Methode nach Hajek zusätzlich
die Auswahlwahrscheinlichkeiten erster Ordnung für die Grundgesamtheit mit pik
übergeben werden.
Nun wollen wir diese Funktion auf die bereits oben verwendeten Daten der
Grippeerkrankungen der Stadt- und Landkreise anwenden.
> data(influenza)
> head(influenza)
Die Variable district enthält die Namen der Stadt- bzw. Landkreise, die
Variable population die Einwohnerzahl, und cases die Anzahl der Influenza-
Erkrankungen aus dem Jahr 2007.
Wir wollen nun anhand einer Stichprobe die Anzahl der Influenza-Fälle für ganz
Deutschland schätzen. Dazu schätzen wir zuerst den Mittelwert der Influenza-Fälle
mit allen vier Methoden der Varianzschätzung.
Zunächst wird wie in Abschn. 4.7.4 eine Ziehung nach dem PPS-Design mit der
Methode von Midzuno vorgenommen. Als Hilfsgröße wird die Einwohnerzahl der
Landkreise verwendet.
> set.seed(108506)
> pps <- pps.sampling(z=influenza$population, n=20,
+ method='midzuno')
> sample <- influenza[pps$sample,]
> N <- nrow(influenza)
> N
4.7 Numerische Umsetzung 133
[1] 424
Man erkennt, dass sich die beiden Arten der Varianzschätzung kaum unterschei-
den. Im Allgemeinen sollte die Varianzschätzung nach Horvitz-Thompson nur ver-
wendet werden, wenn der Stichprobenumfang bei einer Erhebung nicht a priori
feststeht.
Als dritte Variante wird die Methode nach Hansen-Hurwitz illustriert. Hier be-
nötigt man nur die Ziehungswahrscheinlichkeiten erster Ordnung. Diese werden
mit dem Vektor pk übergeben, der beim Aufruf von pps.sampling in das oben
definierte Objekt pps gespeichert wurde.
Man erkennt, dass die Varianzschätzung nur geringfügig größer ist als die nach
Yates und Grundy. Dies lässt sich mit dem relativ hohen Umfang der Grundgesamt-
heit erklären. Diese Varianzschätzung wird angewendet, wenn die Auswahlwahr-
scheinlichkeiten zweiter Ordnung nicht bekannt sind und der Auswahlsatz klein
(< 5%) ist.
Schließlich wird noch die Varianzschätzung mit der Methode von Hajek durch-
geführt. Hierzu kann die Kenntnis der Auswahlwahrscheinlichkeiten erster Ordnung
in der Grundgesamtheit verwendet werden, siehe Formel (4.11) auf S. 119, um
eine genauere Schätzung zu erhalten. Diese wird zusätzlich in der Variablen pik
übergeben und damit werden die Auswahlwahrscheinlichkeiten zweiter Ordnung
approximiert.
N n
Alternativ kann die Größe d = i=1 πi (1 − πi ) durch die Größe l=1 (1 − πl )
aus der Stichprobe geschätzt werden. Dies wird von htestimate(·) durchgeführt,
wenn die Variable pik nicht übergeben wird.
> est.yg$mean*N
[1] 17115.89
Durch Multiplikation der Standardfehler mit der Anzahl der Kreise lässt sich ein
Konfidenzintervall für die Gesamtanzahl der Krankheitsfälle bestimmen.
Vergleicht man das Konfidenzintervall für diese Anzahl mit der tatsächlichen
Anzahl der Krankheitsfälle, so zeigt sich, dass es den wahren Wert von 18 900
überdeckt. Allerdings ist das Konfidenzintervall aufgrund des geringen Stichprobe-
numfangs sehr breit. Insgesamt ist also mit der sehr kleinen Stichprobe nur eine
grobe Abschätzung möglich.
Kapitel 5
Gruppierung der Population
In vielen Anwendungen ist die Population recht umfangreich und das Ziehen ei-
ner einfachen Zufallsstichprobe erweist sich schon aus praktischen Gesichtspunk-
ten als schwierig. Die Population zerfällt jedoch in den meisten Anwendungen
ganz natürlich in einzelne Gruppen. Das Gebiet der Bundesrepublik Deutsch-
land zerfällt im Jahr 2007 in 424 Kreise und kreisfreie Städte: Die Bürger der
Bundesrepublik als Population betrachtet zerfallen somit in 424 nicht überlap-
pende Gruppen (nimmt man den Erstwohnsitz als Zuordnung zu einem Kreis).
Eine gröbere Zerlegung ergibt sich über Bundesländer, eine feinere über Post-
zustellbezirke basierend auf der Postleitzahl. Ein anderes Gruppierungsmerkmal
für die Population ist das Geschlecht oder das Alter einer Person. Je nach-
dem welches Kriterium zur Gruppierung herangezogen wird, zerfällt die Popu-
lation in in sich homogene oder heterogene Gruppen. Betrachtet man die Krei-
se als Gruppierung, so ist die Bevölkerung innerhalb eines Kreises zumindest
in gewissem Rahmen heterogen. Das soll heißen in jedem Kreis gibt es Indi-
viduen verschiedenen Geschlechts, verschiedenen Alters, verschiedenen Berufs
etc. Zerlegt man die Population hingegen nach ihrem Alter, so sind die Sub-
gruppen zumindest bezüglich altersabhängiger Merkmale in gewissem Rahmen
homogen.
Wir werden im Folgenden Stichprobenverfahren entwickeln, die auf einer Zer-
legung der Population beruhen. Je nach Verfahren werden unterschiedliche Zie-
hungsmethoden angewendet. Insbesondere werden wir die Gruppen der Population
Schichten oder Cluster nennen. Die zugehörigen Stichproben werden mit geschich-
teter Stichprobe oder Cluster-Stichprobe bezeichnet.
Schichten jeweils getrennt eine Stichprobe zieht und die damit erhobenen Daten
dann erst zur Auswertung zusammenführt, spricht man von einer geschichteten
Stichprobe.
Im obigen Beispiel können wir die Information zur Aufteilung der Stadt in drei
Regionen als Sekundärinformation X ansehen. Wir nutzen die Information aus dem
Merkmal „Region“ beim Stichproben-Design. Wir bezeichnen X in diesem Zusam-
menhang als Schichtungsmerkmal. In der Praxis sind verschiedene Schichtungs-
merkmale möglich. So könnte die Wohnungsgrößenklasse im obigen Beispiel eben-
so als Schichtungsmerkmal dienen. Um das Verfahren der geschichteten Stichprobe
jedoch praktisch durchführen zu können, ist es nötig, die Schichtzugehörigkeit und
den Umfang der Schichten in der Grundgesamtheit zu kennen. Die geschichtete
Stichprobe ist das in der Praxis am häufigsten verwendete Design. Dafür gibt es im
Wesentlichen drei Gründe:
1. Eine getrennte Auswertung der Daten innerhalb der einzelnen Schichten ist
möglich. Während es bei einer einfachen Zufallsstichprobe passieren kann, dass
einzelne Schichten nur sehr wenige Elemente in der Stichprobe haben, wird der
Stichprobenumfang bei der geschichteten Stichprobe für jede Schicht einzeln
festgelegt.
2. Unter bestimmten Bedingungen, die wir im Folgenden diskutieren werden, kann
man bei der Schätzung des Gesamtmittelwertes einen erheblichen Effizienzge-
winn erreichen. Das bedeutet, dass die Varianz des entsprechenden Schätzers
geringer wird. Dies ermöglicht einen detaillierteren Einblick in die Verteilung
des interessierenden Merkmals.
3. Wenn man die Stichprobenumfänge innerhalb der Schichten proportional zu
den Schichtgrößen in der Grundgesamtheit wählt, so entspricht die Stichprobe
dem Ideal der Repräsentativität bezüglich des Schichtmerkmals. Hier ist mit
Repräsentativität gemeint, dass die Stichprobe ein möglichst gutes Abbild der
Grundgesamtheit sein soll. Wählt man z.B. 10 Schichten, die durch 5 Altersgrup-
pen und das Geschlecht definiert sind, und zieht aus jeder Schicht entsprechend
den Anteilen an der Gesamtbevölkerung, so stimmt die Alters- und Geschlechts-
verteilung in der geschichteten Stichprobe mit der aus der Population überein.
5.1 Geschichtete Stichprobe 139
Der letztgenannte Grund gilt allerdings nur für die geschichtete Stichprobe mit
proportionaler Aufteilung. Wir werden allgemeiner Stichproben betrachten, bei
denen eine nicht-proportionale Aufteilung sinnvoller sein kann. Auch hier sind
unverzerrte Schlüsse auf die Grundgesamtheit möglich. So ist beispielsweise das
Wahlverhalten in den alten Bundesländern der Bundesrepublik Deutschland mehr
oder minder stabil, soll heißen, auch mit einer relativ kleinen Stichprobe erzielt man
(auch basierend auf Vorwissen aus der vorherigen Wahl) recht genaue Ergebnis-
se. In den neuen Bundesländern hingegen ist die Wahlkontinuität weitaus weniger
ausgeprägt. Um also eine ebenfalls verlässliche Aussage über das Wahlverhalten zu
erhalten, ist eine größere Stichprobe in den neuen Bundesländern sinnvoll. Diese un-
gleiche Gewichtung muss korrigiert werden, was, wie wir sehen werden, nichts an-
deres ist als die Anwendung des oben besprochenen Horvitz-Thompson-Schätzers.
Schematisch ist eine geschichtete Stichprobe in Abb. 5.1 gezeigt.
Beispiel 5.2: Eine Untersuchung soll Aufschluss über den durchschnittlichen
Wohnraum einer Familie in einer Stadt geben. Dazu sollen 100 Familien zufällig
ausgewählt und befragt werden. Für die geplante Untersuchung liegt Sekundärin-
formation vor und es erscheint sinnvoll, diese zu nutzen. Man beachte beispiels-
weise, dass Wohnungen in wohl situierten Vororten vermutlich größer sind als
Wohnungen in Arbeitergegenden. Diese Information soll bei der Stichproben-
ziehung genutzt werden. Die Idee ist, anstelle einer einfachen Zufallsstichprobe
ein anderes Design zu verwenden, welches garantiert, dass Haushalte sowohl
in den noblen Vororten als auch in Arbeitergegenden betrachtet werden und in
die Stichprobe gelangen. Damit kann sowohl durch getrennte Auswertungen die
Frage nach dem durchschnittlichen Wohnraum in den verschiedenen Stadtvier-
140 5 Gruppierung der Population
teln beantwortet werden, als auch ein Effizienzgewinn durch die Verringerung
der Varianz bei dem entsprechenden Schätzer für den Gesamtmittelwert erreicht
werden.
Beispiel 5.3: Eine Universität möchte herausfinden, wie oft und in welchem
Umfang Studierende die Lesetische und Studierräume der Bibliothek nutzen.
Hierzu soll eine Stichprobe gezogen werden. Schon vor der Stichprobenziehung
liegt jedoch Sekundärinformation vor. Studierende in niedrigeren Semestern sind
vermutlich weitaus weniger in der Bibliothek zu finden als solche kurz vor ihrem
Examen. Zieht man also eine einfache Zufallsstichprobe, so kann es rein zufäl-
lig geschehen, dass überwiegend Studenten in niedrigeren Semestern ausgewählt
werden. Die Konsequenz ist, dass die Benutzung der Bibliothek unterschätzt
wird. Dies geschieht, wie gesagt, rein zufällig durch die zufällige Auswahl der
Studenten. Ebenso kann es rein zufällig passieren, dass überwiegend Studierende
höherer Semester befragt werden und die Bibliotheksnutzung überschätzt wird.
Diesen Aspekt der Variabilität können wir durch das Design der geschichteten
Stichprobe verkleinern.
Das Design einer geschichteten Stichprobe und deren Vorteile sollen anhand des
folgenden Beispiels veranschaulicht werden. Wir betrachten dazu eine Population
mit N = 5 Elementen.
Zunächst soll aus der Population eine einfache Zufallsstichprobe vom Umfang
n = 3 gezogen werden und wir erhalten die möglichen Stichproben, wie sie in
Abschn. 2.6 aufgelistet sind. Da jede Stichprobe mit gleicher Wahrscheinlichkeit
auftritt, ergibt sich für ȳ die Wahrscheinlichkeitsverteilung:
Berechnet man aus obiger Verteilung den Erwartungswert und die Varianz, so
ergibt sich
Wir wollen nun der Frage nachgehen, wie wir die Varianz verringern können,
indem wir „geschickt“ n = 3 Merkmalsträger ziehen. Nehmen wir dazu an, dass
wir als Sekundärinformation wissen, dass die Population in 2 Gruppen geteilt ist.
Die erste Gruppe besteht dabei aus Y1 , Y2 und Y3 , die zweite aus Y4 und Y5 . Die
vorgeschlagene Teilung der Population zeichnet sich dadurch aus, dass in jeder
Gruppe die Variable Yi annähernd gleiche Werte annimmt, also das Niveau von Y
stark von der jeweiligen Gruppe abhängt. Wir bezeichnen eine Zerlegung der Popu-
lation in Untergruppen als Schichtung oder Stratifizierung und die entsprechenden
5.1 Geschichtete Stichprobe 141
Gruppen als Schichten oder Strata. Wir ziehen nun aus jeder Schicht eine einfache
Zufallsstichprobe. Ein derartiges Vorgehen bezeichnet man als geschichtete Stich-
probe oder auch stratifizierte Stichprobe.
Wir verfolgen obiges Beispiel weiter und nehmen an, die Schichten seien wie
folgt definiert:
Nun ziehen wir aus der ersten Schicht zwei und aus der zweiten Schicht ein
Element jeweils durch eine einfache Zufallsstichprobe. Damit erhalten wir die fol-
genden möglichen Stichproben.
Schicht 1 Schicht 2
Gezogene Mittelwert der Gezogene Mittelwert der
Einheiten Stichprobe Einheit Stichprobe
1 2 9,5 4 18
1 3 10 5 22
2 3 10,5
Die Frage ist nun, wie wir die Mittelwerte der beiden Schichten zu einem ge-
meinsamen Schätzer verbinden können, der das Populationsmittel Ȳ schätzt. Die
Antwort hierfür liefert das Horvitz-Thompson-Theorem, wie wir es in Abschn. 4.1
kennengelernt haben. Wir müssen somit nur die Auswahlwahrscheinlichkeiten der
einzelnen Individuen bestimmen und damit dann den Horvitz-Thompson-Schätzer
berechnen. Dazu verwenden wir folgende Notation:
Geschichtete Stichprobe
Größe Bedeutung
In der Population:
In der Stichprobe:
Inhaltlich bedeutet eine geschichtete Stichprobe nichts anderes, als dass unab-
hängig voneinander M einfache Zufallsstichproben in den M sich nicht überlappen-
den Schichten gezogen werden. Damit beträgt die Wahrscheinlichkeit, dass ein Indi-
viduum aus der h-ten Schicht gezogen wird n h /Nh , das heißt, für das i-te Individu-
um aus der h-ten Schicht ergibt sich die Auswahlwahrscheinlichkeit πhi = n h /Nh .
Setzen wir dies in die Formel des Horvitz-Thompson-Schätzers ein, so erhält man
den Schätzer für die geschichtete Stichprobe gemäß
M nh M
yhk Nh
Ȳ G S = = ȳh , (5.1)
N πhk N
h=1 k=1 h=1
n h
wobei ȳh = k=1 yhk /n h der Schätzer für den Mittelwert in der h-ten Schicht ist.
Der Horvitz-Thompson-Schätzer für die geschichtete Stichprobe ergibt sich also
als gewichtetes Mittel der Mittelwerte in den einzelnen Schichten. Wir bezeichnen
diesen Schätzer auch als geschichteten Schätzer, da er sich aus den Mittelwert-
5.1 Geschichtete Stichprobe 143
E( ȳh ) = Ȳh
M
Nh
und Ȳ = · Ȳh . (5.2)
N
h=1
Hieraus erkennt man das Prinzip des geschichteten Schätzers: Zunächst werden
die Mittelwerte der einzelnen Schichten mit Hilfe einer einfachen Zufallsstichprobe
geschätzt. Dann wird der Schätzer für den Gesamtmittelwert mit Hilfe der Gl. (5.2)
bestimmt.
Wir setzen obiges Beispiel fort. Für die Stichprobe mit gezogenen Einheiten 1
und 2 für Schicht 1 und gezogener Einheit 4 für Schicht 2 ergibt sich exemplarisch
der Schätzer
3 (9 + 10) 2
Ȳ G S = + 18 = 12, 9.
5 2 5
Als mögliche Stichproben in beiden Schichten erhalten wir
Gezogene Gezogene
Einheiten Einheit
Schicht 1 Schicht 2 ȳ1 ȳ2
Ȳ G S
1 2 4 9,5 18 12,9
1 3 4 10 18 13,2
2 3 4 10,5 18 13,5
1 2 5 9,5 22 14,5
1 3 5 10 22 14,8
2 3 5 10,5 22 15,1
Wir sehen, dass der geschichtete Schätzer erwartungstreu ist. Auffallend und er-
freulich ist weiter, dass die Varianz des Schätzers mit 0, 7 deutlich geringer ist als
die für die einfache Zufallsstichprobe erhaltene Varianz von 4, 33. Die Reduktion
der Varianz konnte erzielt werden, weil die Schichten so gewählt wurden, dass
Schicht 1 die kleinen Y -Werte und Schicht 2 die großen Y -Werte beinhaltet. Das
heißt, die Elemente innerhalb der Schichten waren ähnlich, wohingegen die ein-
zelnen Schichten untereinander unterschiedlich waren. Diese Eigenschaft lässt sich
generell formulieren und wird als sogenanntes Schichtungs-Prinzip bezeichnet.
144 5 Gruppierung der Population
Schichtungs-Prinzip:
Die Schichten sollen so gewählt werden, dass die Variablen (oder Merkmals-
träger) innerhalb einer Schicht so ähnlich wie möglich sind. Die einzelnen
Schichten sollten sich untereinander so weit wie möglich unterscheiden.
Nh − n h Sh2
Nh
(Yhi − Ȳh )2
Var( ȳh ) = mit Sh2 = .
Nh − 1 n h Nh
i=1
Der geschichtete Schätzer ergibt sich nun als gewichtete Summe von ȳh , h =
1, . . . , M, wobei die Schätzer der Mittelwerte in den einzelnen Schichten unab-
hängig sind. Die Varianz ergibt sich damit als gewichtete Summe der einzelnen
Schichtvarianzen. Wir erhalten
M
Nh 2
Var Ȳ G S = Var( ȳh )
N
h=1
M
Nh 2 Nh − n h Sh2
= . (5.3)
N Nh − 1 n h
h=1
Die Streuung der einzelnen Schichten Sh2 ist nicht bekannt und muss wie gehabt
durch sh2 geschätzt werden. Dies führt zur geschätzten Varianz
5.1 Geschichtete Stichprobe 145
M
nh
Nh 2 Nh − n h sh2 (yhk − ȳh )2
Var Ȳ G S = mit sh2 = . (5.4)
N Nh nh (n h − 1)
h=1 k=1
Die Varianz ergibt sich als gewichtete Summe der Schichtvarianzen Sh2 . Somit
hat der geschichtete Schätzer eine geringere Varianz als Ȳ E S , wenn die Größen Sh2
klein sind. Das heißt aber, dass geringe Streuung innerhalb der Schichten zu einer
geringen Varianz des geschichteten Schätzers führt. Dies ist genau die Eigenschaft,
die wir als Schichtungsprinzip formuliert hatten. Diesen Punkt werden wir später
noch einmal aufgreifen, wenn wir die Varianz von Ȳ G S mit der Varianz des Schät-
zers einer einfachen Zufallsstichprobe Ȳ E S vergleichen werden.
In verschiedenen Anwendungen ist die Populationsgröße der einzelnen Schich-
ten nicht bekannt. Dies tritt auf, wenn die Population recht groß ist und damit die
genaue absolute Größe einer Schicht unbekannt ist. Beispielsweise muss in einer
großen Population nicht bekannt sein, wie viele Frauen oder Männer als Schich-
ten betrachtet in einer Population sind. Sofern jedoch die relative Schichtengröße
Nh /N bekannt ist, kann der geschichtete Schätzer zum Einsatz kommen, allerdings
unter Vernachlässigung des Korrekturfaktors für endliche Populationen. Letzterer ist
vernachlässigbar, wenn, wie gesagt, die Population und damit die einzelnen Schich-
ten groß sind. In diesem Fall ergibt sich der Varianzschätzer zu
M
Nh 2 sh2
V ar Ȳ G S ≈ .
N nh
h=1
Geschichtete Stichprobe
M
Nh
Ȳ G S = ȳh ,
N
h=1
146 5 Gruppierung der Population
wobei ȳh der Mittelwert der Stichprobe in der h-ten Schicht ist.
Die Varianz kann geschätzt werden durch
M
Nh 2 Nh − n h sh2
Var Ȳ G S = ,
N Nh nh
h=1
Herleitung: Wir wollen zeigen, dass sich die Varianzformel 5.3 direkt aus der Darstellung 4.5
ergibt. Für die Auswahlwahrscheinlichkeiten der geschichteten Stichprobe gilt:
nh
πhi = , h = 1, . . . , M , i = 1, . . . , Nh ,
Nh
n h (n h − 1)
πhi,h j = , i = j , i, j = 1, . . . , Nh .
Nh (Nh − 1)
Diese beiden Identitäten ergeben sich, da bei der geschichteten Stichprobe innerhalb der
Schichten eine einfache Zufallsstichprobe gezogen wird. Für die Auswahlwahrscheinlichkeiten
zweiter Ordnung bei Elementen aus verschiedenen Schichten gilt aufgrund der Unabhängigkeit
der einzelnen Ziehungen:
πh 1 i,h 2 j = πh 1 i · πh 2 j , h 1 = h 2 , i = 1, . . . , Nh 1 , j = 1, . . . , Nh 2 .
M Nh M Nh
1 1
1
2 Yh 1 i Yh j 2
Var Ȳ G S = 2 · πh 1 i πh 2 j − πh 1 i,h2 j − 2
N 2 πh 1 i πh 2 j
h 1 =1 i=1 h 2 =1 j=1
(h 1 ,i)=(h 2 , j)
1 1
2 1
M Nh
Nh
nh 2 n h (n h − 1) Yhi Yh j 2
= · N h · − −
N2 2 Nh2 i=1 j=1 Nh Nh (Nh − 1) πh πh
h=1
i= j
1
2
M
= 2 Nh · Var ( ȳh ) .
N
h=1
Die erste Umformung erhält man, da alle Terme aus unterschiedlichen Schichten wegen
πh 1 i πh 2 j − πh 1 i,h2 j = 0 wegfallen. Die letzte Umformung ergibt sich durch Anwendung von
4.5 auf die einzelnen Summanden (Schichten). Der Schichtmittelwert ȳh wird dabei als Horvitz-
Thompson-Schätzer für Ȳh angesehen.
5.1 Geschichtete Stichprobe 147
Nh
n h, pr op = n · , (5.5)
N
wobei die eckigen Klammern n · NNh hier die nächst gelegene ganze Zahl liefern,
sprich das gerundete Ergebnis. Man beachte, dass der Gesamtstichprobenumfang, je
nach Rundung, geringfügig größer oder kleiner als n sein kann. Wir ignorieren diese
Feinheit, da sie in den meisten Fällen irrelevant ist. Die proportionale Aufteilung
wird am häufigsten verwendet und wir werden später noch einige Argumente für sie
anführen. Dennoch ist sie hinsichtlich der Genauigkeit nicht notwendigerweise op-
timal. Betrachtet man die Varianzformel genauer, so erkennt man, dass die Varianz
des geschichteten Schätzers sowohl von Nh als auch von Sh , der Streuung innerhalb
einer Schicht, abhängt. Dies legt es nahe, in Schichten mit einer geringeren Streuung
eine kleinere Stichprobe zu ziehen. Ist die Streuung in einer Schicht dagegen groß,
so sollte der Stichprobenumfang in dieser Schicht erhöht werden. Dies führt zur
optimalen Aufteilung. Vernachlässigt man der Einfachheit halber den Korrektur-
faktor (Nh − n h )/(Nh − 1), so ist die Varianz bestimmt durch
M
Nh 2 Sh2
Var Ȳ G S = ,
N nh
h=1
d.h. je größer Nh · Sh , desto größer die Varianz des Schätzers. Wir wählen daher n h
proportional zu Nh · Sh , was die optimale Aufteilung oder auch Varianz-optimale
Aufteilung liefert:
• Optimale Aufteilung:
Nh · Sh
n h,opt = n M , (5.6)
h
=1 Nh
Sh
wobei die Klammern [ · ] wiederum die gerundete ganze Zahl liefern. Die genaue
Herleitung folgt aus S. 150.
148 5 Gruppierung der Population
Betrachten wir exemplarisch die optimale Aufteilung für unser obiges kleines
Zahlenbeispiel. Bei der gewählten Schichtung
ergibt sich S12 = 2/3 und S22 = 4. Damit folgt die optimale Aufteilung
√
3 · 2/3
n1 = 3 · √ √ = 1,
3 · 2/3 + 2 · 4
√
2· 4
n2 = 3 · √ √ = 2,
3 · 2/3 + 2 · 4
Gezogene Gezogene
Einheiten Einheit
Schicht 1 Schicht 2 ȳ1 ȳ2
Ȳ G S
1 4 5 9 20 13,4
2 4 5 10 20 14
3 4 5 11 20 14,6
Beispiel 5.4: In der bereits in Beispiel 3.5.2 besprochenen Studie sollte der
mittlere Investitionswert pro Teilnehmeranschlussleitung in einem großen Tele-
fonnetz bestimmt werden. Dazu wurde das Telefonnetz in 7 319 Anschlussbe-
reiche (AsB) aufgeteilt. Daraus wurde zuerst eine einfache Zufallsstichprobe
vom Umfang n = 287 gezogen. Um die Genauigkeit der Schätzung zu erhö-
hen, sollte anschließend mit Hilfe von Informationen aus dieser ersten Stich-
probe eine geschichtete Stichprobe vom Umfang n = 600 gezogen werden.
Die Stichprobenumfänge in den Schichten sollten dabei (Varianz-)optimal ge-
wählt werden. Aus dieser zweiten Stichprobe sollte erneut der Gesamtinvesti-
tionswert bestimmt werden. Durch Division durch die (bekannte) Anzahl der
Teilnehmeranschlussleitungen ergibt sich eine Schätzung für den gewünschten
mittleren Investitionswert.
Zur Schichtung sind solche Merkmale geeignet, die die Grundgesamtheit in
möglichst homogene Teile aufspalten. Da es keine Anhaltspunkte gibt, dass der
Investitionswert eines Anschlussbereiches stark von der Region abhängt, ist eine
Schichtung nach räumlichen Merkmalen nicht sinnvoll. Als viel besser geeignet
erwies sich das Schichtungsmerkmal „Leitungslänge im AsB“. Dieses Merkmal
ist ein Maß für die Größe des AsB und steht natürlicherweise in einem starken
Zusammenhang zur Zielgröße. Die Grundgesamtheit wurde (aufgrund von Er-
gebnissen aus der ersten Stichprobe) in die folgenden 4 Schichten eingeteilt.
Da aus der ersten Erhebung neben den Schichtumfängen auch Schätzungen für
die Standardabweichungen in den einzelnen Schichten zur Verfügung standen,
kann die optimale Aufteilung der Stichprobe gewählt werden, d.h.
n1 : n2 : n3 : n4
= N1 S1 : N2 S2 : N3 S3 : N4 S4
= 4 008 ∗ 116 : 1 667 ∗ 176 : 1 179 ∗ 215 : 465 ∗ 332
= 464 928 : 293 392 : 253 485 : 154 380
= 0, 3986743 : 0, 2515827 : 0, 2173626 : 0, 1323804
= 239, 20459 : 150, 94963 : 130, 41756 : 79, 42822.
150 5 Gruppierung der Population
Da die Stichprobe 600 AsB enthalten sollte, wurden die Zahlen in der letzten
Zeile geeignet gerundet. Dabei wurden die beiden Zahlen mit den größten Nach-
kommastellen aufgerundet und die beiden anderen abgerundet. Somit ergab sich
folgender Stichprobenplan:
Herleitung: Wir zeigen, dass die Aufteilung (5.6) zur Minimierung der Varianz bei festem
Gesamtstichprobenumfang n führt. Man betrachte die Varianzformel (ohne den Korrekturfaktor
(Nh − n h )/(Nh − 1)) als Funktion von n h , h = 1, . . . , M, das heißt
M
Nh 2 Sh2
f (n 1 , . . . , n M ) = ,
N nh
h=1
M
wobei h=1 n h = n. Formuliert man die Nebenbedingung als Lagrange Multiplikator in funk-
M
tionaler Form g(n 1 , . . . , n M ) = h=1 n h − n so gilt es f (n 1 , . . . , n M ) + λ g(n 1 , . . . , n M ) zu
minimieren. Differentiation bezüglich n h und λ liefert
∂ f (n 1 , . . . , n M ) ∂λg(n 1 , . . . , n M )
O = +
∂n h ∂n h
1 Nh2 Sh2
=− +λ,
N 2 n 2h
5.1 Geschichtete Stichprobe 151
wobei die Differentiation nach λ die Nebenbedingung liefert. Löst man die Gleichung nach n h
auf und beachtet die Nebenbedingung, so folgt
Nh Sh
nh = · n.
M
Nh
Sh
h
=1
Die Kontrolle der zweiten Ableitung zeigt, dass ein Minimum vorliegt.
Neben der Homogenität der einzelnen Schichten spielen die Kosten der Infor-
mationsgewinnung eine wichtige Rolle. So kann die Erhebung in den einzelnen
Schichten unterschiedlich teuer sein und es empfiehlt sich eine sogenannte Kosten-
optimale Aufteilung. Wir nehmen dazu an, dass die Kosten, um Information über
ein Individuum aus der h-ten Schicht zu erhalten, bei kh liegen, h = 1, . . . , M. Die
Gesamtkosten der geschichteten Stichprobe belaufen sich damit auf
K = k0 + k1 n 1 + . . . + k M n M ,
wobei k0 die Fixkosten des Verfahrens sind. Die Kosten-optimale Aufteilung ergibt
sich damit durch
• Kosten-optimale Aufteilung:
⎡ ⎤
⎢ ⎥
⎢ Nh Sh / kh ⎥
⎢ ⎥
n h,kostenopt = ⎢n ⎥. (5.7)
⎢
M ⎥
⎣
Nh
Sh
/ kh
⎦
h
=1
Beispiel 5.5: In einer Umfrage zur Beurteilung von Risiko und Erfolgsfakto-
ren von neuen Unternehmen wurde in der sogenannten Münchner Gründerstudie
(siehe Brüderl, Preisendörfer, & Ziegler 1992) eine Stichprobe aus Unternehmen
gezogen, die Mitte der 80er Jahre in München und Umgebung ihr Gewerbe ange-
meldet haben. Die Stichprobe wurde dabei Anfang der 90er Jahre gezogen und die
Unternehmensgründer wurden retrospektiv nach Erfolg oder Misserfolg befragt.
Da man davon ausgegangen ist, dass Unternehmer von gescheiterten Unterneh-
men, die in den ersten fünf Jahren Konkurs angemeldet haben, weniger Willens
sind, über ihren Misserfolg Auskunft zu geben als diejenigen, deren Unternehmen
noch aktiv ist, wurde die Population in zwei Schichten geteilt, die erfolgreichen
und die erfolglosen Unternehmen. Aus der letzteren Schicht wurden überpropor-
tional viele Unternehmen gezogen, um das erwartete zurückhaltende Antwortver-
halten auszugleichen.
S2
Var Ȳ E S ≈ ,
n
M
Nh 2 Sh2
Var Ȳ G S ≈ .
N nh
h=1
M
Nh 2 Sh2
Var Ȳ G S,prop ≈ Nh
N
h=1 N n
1
Nh
M
= Sh2 . (5.8)
n N
h=1
M
Nh 2
N h
M
2
S = 2
S + Ȳh − Ȳ (5.9)
N h N
h=1 h=1
M
2
⇔ NS = 2
Nh Sh2 + Nh Ȳh − Ȳ .
h=1 h=1
Dies entspricht der Zerlegung, wie sie auch in der Varianzanalyse verwendet
wird. Die Gesamtvarianz (Sum of Squares Total) setzt sich zusammen aus der ge-
wichteten Summe der Varianzen innerhalb der Schichten (Sum of Squares Within)
und der Varianz zwischen den Schichten (Sum of Squares Between). Wir notieren
dies auch als
N S 2 = SST = SSW + SS B.
Die Varianz des geschichteten Schätzers hängt nur von der Varianz innerhalb der
Schichten ab und aus Formel (5.8) lässt sich der Design-Effekt direkt herleiten. Es
gilt:
Var Ȳ G S,prop SSW SSW
≈ = .
Var Ȳ E S SST SSW + SS B
Der Schätzer der geschichteten Stichprobe hat also generell eine kleinere Vari-
anz als der Schätzer der einfachen Zufallsstichprobe. Der Schichtungsgewinn lässt
sich durch das Verhältnis der Varianz innerhalb der Schichten zur Gesamtvarianz
quantifizieren. Dies entspricht dem schon erwähnten Schichtungsprinzip, also je
geringer die Streuung innerhalb der Schichten (SSW) im Vergleich zur Gesamtstreu-
ung (SST), desto besser ist die geschichtete Stichprobe im Vergleich zur einfachen
Zufallsstichprobe.
Für die optimale Aufteilung erhalten wir unter Berücksichtigung von
Nh Sh
nh = · n,
M
Nh
Sh
h
=1
154 5 Gruppierung der Population
M
Nh 2 Sh2
Var Ȳ G S,opt ≈
N nh
h=1
M
M
Nh 2 1
= Sh2 Nh
Sh
N n Nh Sh
h=1 h =1
M M
1
Nh
Nh
= Sh Sh
n N N
h=1 h
=1
M 2
1
Nh
= Sh .
n N
h=1
Damit lässt sich der Gewinn einer optimalen Aufteilung im Vergleich zur pro-
portionalen Aufteilung schreiben als:
2
1
Nh 2 1
M
M
Nh
Var Ȳ G S,prop − Var Ȳ G S,opt = S − Sh
n N h n N
h=1 h=1
1
Nh
M
2
= Sh − S̄ ,
n N
h=1
M Nh
mit S̄ = h=1 N Sh . Die Varianzreduktion ist folglich umso besser, je größer die
Streuung der Schicht-Standardabweichungen ist. Falls die Standardabweichungen
innerhalb der Schichten ähnliche Werte annehmen, so ist die proportionale Auftei-
lung annähernd optimal.
Die Berechnungen zur Varianz der Schätzer Ȳ G S,prop und
Ȳ G S,opt lassen sich
auch dazu nutzen, den Gesamtstichprobenumfang n aus einer Genauigkeitsanforde-
rung zu bestimmen. Dies kann z.B. bei der proportionalen Aufteilung mit Hilfe der
in Abschn. 2.8 diskutierten Methodik unter Verwendung der Formel (5.8) gesche-
hen. Auch hier ist die Kenntnis der Schichtvarianzen Sh nötig. Daraus ergeben sich
die Stichprobenumfänge der einzelnen Schichten nach Formel (5.5). In der Praxis
benötigt man in vielen Fällen zusätzlich auch Schätzungen für die Schichtmittel-
werte mit einer vorgegebenen Genauigkeit. In diesem Fall berechnet man zusätzlich
die nötigen Stichprobenumfänge für die einzelnen Schichten wie in Abschn. 2.8
beschrieben. Falls der benötigte Stichprobenumfang in einzelnen Schichten den der
proportionalen Aufteilung übersteigt, so wird dieser entsprechend erhöht.
Beispiel 5.6: In einer Umfrage soll herausgefunden werden, wieviel Zeit pro
Woche Studenten im Rahmen ihres Studiums vor dem Rechner verbringen. Zu
diesem Zweck wird eine einfache Zufallsstichprobe gezogen. Bei der Auswer-
tung der Daten zeigt sich, dass ein deutlicher Geschlechtsunterschied besteht,
da männliche Studenten weitaus mehr Zeit vor dem Rechner verbringen als
ihre weiblichen Kommilitoninnen. Nehmen wir weiter an, dass der Anteil der
männlichen Studierenden bei 50% liegt, in der Stichprobe hingegen befinden
sich (bedingt durch die zufällige Auswahl) 60% Männer. Ignoriert man den ge-
schlechtsspezifischen Effekt, so wird die Zeit, die Studenten vor dem Rechner
verbringen, in diesem Fall möglicherweise überschätzt. Der Schätzer kann je-
doch unter Verwendung der Zusatzinformation zur Geschlechtsverteilung korri-
giert werden, wie wir nachfolgend demonstrieren werden.
M
Nh
Ȳ G S,post = ȳh , (5.10)
N
h=1
wobei ȳh wie gehabt der Mittelwert in der h-ten Schicht ist. Man beachte, dass nicht
die expliziten Schichtgrößen Nh , h = 1, . . . , M bekannt sein müssen, sondern nur
die relativen Schichtgrößen Nh /N .
A posteriori Schichtung ist auch bekannt als Umgewichtung und ein häufig ver-
wendetes Mittel in Befragungen. Typisch ist dabei die Verwendung von Merkmalen
wie Geschlecht, soziale Schicht oder Wohnort (Stadt/Land). Wir diskutieren diesen
Aspekt in Kap. 7 ausführlicher. Bei all diesen Merkmalen ist die Zusammensetzung
in der Grundgesamtheit bekannt. Inhaltlich entspricht die a posteriori Schichtung
einer Höhergewichtung der Individuen, die in der Stichprobe bezüglich der Schich-
tungsmerkmale unterrepräsentiert sind.
Wir wollen den Effekt von a posteriori Schichtung an unserem obigen Beispiel
demonstrieren. Wir ziehen hierzu eine einfache Zufallsstichprobe vom Umfang
n = 3 aus der bisherigen Population Y1 = 9, Y2 = 10, Y3 = 11, Y4 = 18
und Y5 = 22. Nachträglich wird nun eine a posteriori Schichtung vorgenommen,
156 5 Gruppierung der Population
wobei die Schichten als Schicht 1 mit den Individuen 1, 2 und 3 und Schicht 2
mit den Individuen 4 und 5 angenommen sind. Wir erhalten je nach Stichprobe die
folgenden Ergebnisse.
Es ergibt sich
E Ȳ G S,post = 14, Var Ȳ G S,post = 0, 55.
Es zeigt sich eine Reduktion der Varianz im Vergleich zur Varianz der einfachen
Zufallsstichprobe (Var( ȳ) = 4, 33, siehe oben). A posteriori Schichtung ist also in
diesem Beispiel sinnvoll.
Die allgemeine Berechnung der Eigenschaften des Schätzers Ȳ G S,post ist nicht
ganz einfach. Dies liegt daran, dass die Aufteilung der Stichprobe auf die Schichten
zufällig ist, denn die Schichtumfänge in den einzelnen Schichten wurden nicht vor
Stichprobenziehung explizit festgelegt, sondern ergeben sich erst im Nachhinein
mit der realisierten Stichprobe. Diese Zufälligkeit muss bei der Varianzschätzung
berücksichtigt werden. Weiter können wir das Horvitz-Thompson-Theorem hier
nicht anwenden, da die Gewichtung nicht durch die Auswahlwahrscheinlichkeiten,
sondern durch die Schichtgrößen in Stichprobe und Grundgesamtheit erfolgt.
Herleitung: Wir benötigen daher zur Analyse des Schätzers die Technik der bedingten Erwar-
tung und der bedingten Varianz.
E Y (Y ) = E X (E Y (Y |X )) , (5.11)
VarY (Y ) = Var X (E Y (Y |X )) + E X (VarY (Y |X )) . (5.12)
5.1 Geschichtete Stichprobe 157
Bei den folgenden Herleitungen bleiben die Fälle der Nicht-Existenz (d.h. mindestens eine
Schicht in der Stichprobe hat den Umfang 0) unberücksichtigt, da in einem solchen Fall die a
posteriori Schichtung nicht anwendbar ist.
Wir betrachten nun die M-dimensionale Zufallsgröße n = (n 1 , . . . , n M ), die die M Schich-
tumfänge in der Stichprobe charakterisiert. (Diese besitzt eine verallgemeinerte hypergeome-
trische Verteilung.) Wir berechnen nun den Erwartungswert von Ȳ G S,post bei gegebenem n. Es
gilt:
E Ȳ G S,post |n = Ȳ . (5.13)
Diese Eigenschaft folgt, da die Verteilung von Ȳ G S,post bei gegebenem n (unter der Annah-
me, dass alle Komponenten von n positiv sind) der Verteilung des Schätzers einer geschichteten
Stichprobe mit Aufteilung n entspricht. Da der geschichtete Schätzer (bei bekannten Schicht-
umfängen in der Stichprobe) erwartungstreu ist, folgt Formel (5.13). Damit gilt nach Formel
(5.11):
E Ȳ G S,post = En E Ȳ G S,post |n = En Ȳ = Ȳ .
= En Var Ȳ G S,post |n
M
Nh 2 Nh − n h S 2
=E h
.
N Nh − 1 n h
h=1
Der erste Term in der Berechnung entfällt, da E Ȳ G S,post |n = Ȳ konstant ist. Der zweite
Term ist schwierig zu handhaben, da die Zufallsgrößen n h , h = 1, . . . , M im Nenner stehen. Es
lässt sich jedoch eine Approximation durch eine Taylorreihe angeben:
M
N − n
Nh 1 N − n
N − Nh
M
Var Ȳ G S,post ≈ · Sh2 + 2 · Sh2 . (5.14)
n·N N n N −1 N
h=1 h=1
Der erste Teil der Varianz ergibt sich als Varianz eines geschichteten Schätzers mit propor-
tionaler Aufteilung, d.h. n h = n · Nh /N . Der zweite Teil in obiger Varianzformel resultiert
aus der Tatsache, dass n h nicht fix gewählt ist, sondern sich zufällig ergibt. Man beachte, dass
E(n h ) = n Nh /N ist. Also ist im Mittel die zufällige Aufteilung proportional zur Schichtgröße
in der Population. Ein Vergleich von (5.14) und (5.3) zeigt, dass a posteriori Schichtung eine
höhere Varianz hervorruft als eine proportional aufgeteilte geschichtete Stichprobe. D.h. eine
(im vorhinein) geschichtete Stichprobe ist einer a posteriori geschichteten Stichprobe vorzu-
ziehen. Dennoch kann a posteriori Schichtung die Varianz des Schätzers im Vergleich zum
arithmetischen Mittel für einfache Zufallsstichproben reduzieren.
Obwohl der Ausdruck für die Varianz des Schätzers komplex ist, lässt er sich erwartungstreu
schätzen durch:
M
Nh 2 Nh − n h sh2
Var
Ȳ G S,post = . (5.15)
N Nh nh
h=1
158 5 Gruppierung der Population
Die Erwartungstreue folgt wieder aus dem Satz vom iterierten Erwartungswert:
E Var
Ȳ G S,post = En E Var
Ȳ G S,post |n = En Var Ȳ G S,post |n .
Die letzte Umformung ergibt sich aus der Erwartungstreue des Varianzschätzers in der ge-
schichteten Stichprobe.
Insgesamt können also für den Schätzer aus der nachträglich geschichteten Stichprobe die
Formeln des oben behandelten geschichteten Schätzers verwendet werden. Eine in der Literatur
vorgeschlagene Alternative ist die Verwendung von Formel (5.14), wobei Sh2 , h = 1, . . . , M
durch die entsprechenden Schätzer ersetzt wird.
A posteriori Schichtung
(Nachträgliche Schichtung)
M
Nh
Ȳ G S,post = ȳh ,
N
h=1
M
Nh 2 Nh − n h sh2
Var Ȳ G S,post = .
N Nh nh
h=1
Beispiel 5.7: Zur Illustration der nachträglichen Schichtung greifen wir auf
Beispiel 3.5.2 zurück. In der dort beschriebenen Studie sollte der mittlere In-
vestitionswert pro Teilnehmeranschlussleitung in einem großen Telefonnetz be-
stimmt werden. Dazu wurde das Telefonnetz in 7 319 Anschlussbereiche (AsB)
aufgeteilt. Aus diesen AsB wurde eine einfache Zufallsstichprobe vom Umfang
5.1 Geschichtete Stichprobe 159
n = 287 gezogen. (Esergabsich daraus eine Schätzung von Ȳ E S = 465, 95 mit
einer Varianz von Var Ȳ E S = 434, 15.)
Nun soll der Mittelwertschätzer mit Methoden der nachträglichen Schichtung
geschätzt werden. Als geeignetes Schichtungsmerkmal wird die Leitungslänge
verwendet. Die Zuordung der gezogenen AsB zu den Schichten wurde wie in
Beispiel 3.5.2 nach folgender Tabelle vorgenommen.
Schichtdefinition über
Leitungslänge (LL) Standard-abweichung
Schicht in Metern Anzahl AsB in GG in Tausend
1 LL 8 Mio. 4 008 116
2 8 Mio. < LL 15 Mio. 1 667 176
3 15 Mio. < LL 26 Mio. 1 179 215
4 26 Mio. < LL 465 332
Gesamt 7 319
Um die Schätzungen Ȳ G S,post und Var
Ȳ G S,post zu erhalten, werden folgende
Größen aus der Stichprobe berechnet.
(zufällige)
Anzahl Relative Standard-
gezogener Anzahl AsB in Schicht-größen Mittelwert in abweichung
Schicht Schicht AsB n h der GG Nh Nh /N Tausend ȳh in Tausend sh
1 136 4 008 0,5476 206 116
2 69 1 667 0,2278 498 176
3 48 1 179 0,1611 669 215
4 34 465 0,0635 1 154 332
Gesamt 287 7 319 1 407,32
M
Nh
Ȳ G S,post = ȳh = 407, 32
N
h=1
und
M
Nh 2 Nh − n h sh2
Var
Ȳ G S,post = = 87, 09.
N Nh nh
h=1
ein sehr ähnlicher Schätzwert für den Mittelwert und die Varianz. Dies lässt
sich dadurch erklären, dass im Prinzip ähnliche Zusatzinformation zur Schätzung
herangezogen wird. Bei der nachträglichen Schichtung wird die Kabellänge als
kategoriales Merkmal in 4 Ausprägungen genutzt, während sie beim Regressi-
onsschätzer direkt eingeht. In beiden Fällen wird die entsprechende Information
aus der Grundgesamtheit (Mittelwert der Kabellänge beim Regressionsschätzer
bzw. Häufigkeiten der Kategorien in der Grundgesamtheit bei der nachträglichen
Schichtung) genutzt.
5.1.4 Zusammenfassung
Fassen wir die wichtigsten Kriterien und Eigenschaften des geschichteten Schät-
zers nochmals zusammen, um der Wichtigkeit dieses Stichprobendesigns genü-
gend Rechnung zu tragen. Durch Schichtung kann die Varianz des Schätzers für
Ȳ reduziert werden. Voraussetzung für die Varianzreduktion ist, dass die einzelnen
Schichten bezüglich des zu erhebenden Merkmals recht homogen sind, einzelne
Schichten sich aber untereinander unterscheiden. Diese Eigenschaft hatten wir auch
als Schichtungsprinzip bezeichnet. Sind die Schichten definiert, gilt es den Stich-
probenumfang auf die Schichten aufzuteilen. Bei der Aufteilung sollte in größeren
Schichten und in Schichten mit größerer Merkmalsvariabilität ein größerer Stich-
probenumfang vorliegen. Die Vorteile der geschichteten Stichprobe können auch
im nachhinein genutzt werden. Auch wenn keine geschichtete Stichprobe durch-
geführt wurde, so kann eine a posteriori Schichtung von Vorteil sein. Vorausset-
zung ist hierbei, dass die relativen Schichtgrößen Nh /N in der Grundgesamtheit
bekannt sind.
5.2 Cluster-Stichprobe
Dem Beispiel folgend nehmen wir an, dass sich die Elemente der Grundgesamt-
heit (die Schüler) in natürlicher Weise in sich nicht überlappende Gruppen (die
Klassen) zusammenfassen lassen, die wir nachfolgend als Cluster oder Klumpen
bezeichnen. Die Idee der Cluster- oder Klumpenstichprobe besteht nun darin, eine
Zufallsstichprobe aus den Clustern zu ziehen und innerhalb der gezogenen Cluster
eine Vollerhebung durchzuführen. Die Ziehung findet somit nicht auf den Elemen-
ten der Population statt, sondern auf den Clustern. Schematisch ist dies in Abb. 5.2
gezeigt.
Das Vorgehen bei der Cluster-Stichprobe hat eine weitreichende praktische Kon-
sequenz. Die bisher besprochenen Verfahren der Zufallsauswahl basieren auf einer
Populationsliste, in der jeder Eintrag exakt einem Element der Grundgesamtheit ent-
spricht. Dies kann in praktischen Anwendungen sehr schwierig oder auch gar nicht
realisierbar sein. Erfolgt die Ziehung jedoch auf der Ebene der Cluster, so ist zur
praktischen Durchführung nur eine Liste der Cluster in der Population erforderlich.
Im obigen Beispiel ist es offensichtlich viel einfacher, eine Liste der Schulklassen
oder auch Schulen zu erhalten als eine Liste aller Schülerinnen und Schüler der
8. Klassen. Diese Einfachheit ist überzeugend, es ist aber festzustellen, dass Clu-
sterbildung nicht notwendigerweise zu einer genaueren Stichprobe im Sinne einer
reduzierten Varianz führt.
Um den Effekt der Cluster-Stichprobe auf die Varianz des Schätzers zu verdeut-
lichen, betrachten wir als Beispiel eine kleine Population bestehend aus N = 9
Elementen. Die Elemente Y weisen dabei folgende Werte auf:
1 3 5
1 3 5
1 3 5.
Eine einfache Zufallsstichprobe vom Umfang 3 liefert E( ȳ) = 3 und Var( ȳ) =
0, 67. Wir teilen nun die Population in Cluster auf, sprich in sich nicht überlappende
Gruppen. Nehmen wir beispielsweise die Zeilen der obigen Matrix als Cluster, so
erhalten wir die folgende Aufteilung:
Cluster 1: 1 3 5
Cluster 2: 1 3 5
Cluster 3: 1 3 5.
Gemäß dem Prinzip der Cluster-Stichprobe ziehen wir nun zufällig aus den 3
Clustern eine Stichprobe und führen in den gezogenen Clustern eine Vollerhebung
durch. Um auf einen Stichprobenumfang von 3 zu kommen sei hier exemplarisch
nur eins der drei Cluster gewählt. Unabhängig von der Wahl des Clusters erhalten
wir einen Schätzer für Ȳ mit dem Wert 3. Das heißt aber der resultierende Schät-
zer hat die Varianz 0. Eine Cluster-Stichprobe liefert somit ein deutlich genaueres
Ergebnis als eine einfache Zufallsstichprobe. Im Prinzip war die Wahl der Cluster
willkürlich und wir hätten auch die Cluster spaltenweise bestimmen können, als
gemäß
Cluster 1: 1 1 1
Cluster 2: 3 3 3
Cluster 3: 5 5 5.
Dem Prinzip der Cluster-Stichprobe folgend wählt man nun wieder zufällig (per
einfacher Stichprobe) ein Cluster aus und führt dann eine Vollerhebung durch. Als
Schätzer für Ȳ erhalten wir somit die Größen 1, 3 und 5, je nach gezogenem Clu-
ster, mit einer Wahrscheinlichkeit von je 1/3. Der Schätzer liefert damit im Mittel
den wahren Wert Ȳ = 3, jedoch mit einer Varianz von 2,66. Im diesem Fall ist
die Cluster Stichprobe schlechter als die einfache Zufallsstichprobe, sofern man die
Varianzen vergleicht.
Aus diesem zunächst nur beispielhaften Vergleich leiten wir das sogenann-
te Cluster-Prinzip ab. Eine Cluster-Stichprobe ist dann besonders effizient, wenn
die einzelnen Cluster jeweils näherungsweise ein Abbild der Grundgesamtheit
darstellen.
5.2 Cluster-Stichprobe 163
Clusterprinzip:
Beispiel 5.9: Die Stadt Haßloch in Rheinland-Pfalz dient als Test- und Pro-
bemarkt für neue Produkte, die deutschlandweit auf den Markt kommen sollen
(vergleiche auch Süddeutsche Zeitung vom 29.01.2005). Von den knapp 10 000
privaten Haushalten in Haßloch sind ca. 3 000 registriert und nehmen an der
Studie teil. Die Gesellschaft für Konsumforschung betreibt seit 1988 in Haß-
loch einen Testmarkt. Bei jedem Einkauf legen die registrierten Haushalte eine
Chipkarte vor, und es wird registriert, welche Produkte gekauft werden. Eben-
so wird in Haßloch lokal geworben, so dass Fernsehspots für ein neues Produkt
nur in Haßloch gezeigt werden. Damit kann getestet werden, ob für ein Produkt
hinreichend Nachfrage besteht, bevor es, gegebenenfalls deutschlandweit auf den
Markt gebracht wird. Die Auswahl der 3 000 registrierten Einwohner wurde dabei
so vorgenommen, dass diese etwa der Population der Bundesrepublik entspre-
chen, was Altersstruktur und sonstige Merkmale betrifft. Haßloch kann somit als
Cluster-Stichprobe (vom Umfang 1) angesehen werden.
Beachtet werden sollte, dass das Clusterprinzip das Gegenteil zum Schichtungs-
Prinzip bildet. Genau hier liegt jedoch auch eine Schwierigkeit des Verfahrens.
Cluster werden häufig als lokale Gruppen gewählt, seien es beispielsweise Stra-
ßenzüge, Gemeinden oder Schulen wie im Eingangsbeispiel. Einzelne Straßenzüge,
Gemeinden oder Schulen sind damit im Sinne einer Cluster-Stichprobe zu ziehen
und, wenn gezogen, per Vollerhebung aufzunehmen. Hierbei ist jedoch kritisch zu
hinterfragen, ob die so gewählten Cluster dem Cluster-Prinzip entsprechen. Es ist
eher anzunehmen, dass die Bewohner einer Straße homogen sind, wohingegen die
Straßen einer Stadt von Seiten der Bevölkerungsstruktur her heterogen sind. Ebenso
sind Gemeinden (oder Schulen) in sich homogen und unterscheiden sich von ande-
ren Gemeinden (oder Schulen). Die praktischen Vorteile einer Cluster-Stichprobe
können somit in Widerspruch zum Clusterprinzip stehen, was bedeutet, dass bei der
Durchführung einer Cluster-Stichprobe nicht mit einer Varianzreduktion im Ver-
gleich zur einfachen Stichprobe mit gleichem Stichprobenumfang gerechnet wer-
den kann. Daher wird das Design der Cluster-Stichprobe vor allem aufgrund der
einfachen Umsetzbarkeit gewählt.
Zur Herleitung der Schätzer für eine Cluster-Stichprobe benötigen wir die fol-
gende Notation.
164 5 Gruppierung der Population
Cluster-Stichprobe
Größe Bedeutung
In der Population:
In der Stichprobe:
M 1
M 1
m Nl m Nl m Nl m
yli M
Ȳ C L = = yli = yli = yT,l .
N πli N m N m N m
l=1 i=1 l=1 i=1 l=1 i=1 l=1
Der Schätzer kann auch auf eine andere Art motiviert werden, welche zum Ver-
ständnis des Cluster-Schätzers sehr nützlich ist. Wir können das Populationsmittel
Ȳ auch schreiben als
M Nh M
M
Ȳ = Yhi = YT,h = ȲT,· ,
N N N
h=1 i=1 h=1
wobei ȲT,· der Mittelwert der Clustersummen (Clustertotalen) YT,h ist. Wir können
also das Populationsmittel als Mittelwert der Clustersummen schreiben. Mit diesem
kleinen Trick sind wir in der Lage, die Theorie der einfachen Zufallsstichprobe
und damit die Ergebnisse aus Abschn. 2.5 anzuwenden. Wir betrachten dazu die
Grundgesamtheit der M Cluster und als Merkmal des h-ten Clusters die Cluster-
summen YT,h . Da unsere mStichprobenziehung auf der Ebene der Cluster erfolgt, kön-
nen wir ȲT,· durch m1 l=1 yT,l direkt schätzen. Daraus ergibt sich unmittelbar der
Schätzer:
m
yT,l
M l=1 M
Ȳ C L = = ȳT,· . (5.16)
N m N
M2 M2 M − m 1 1
M
2
Var Ȳ C L = 2 Var( ȳT,· ) = 2 YT,h − ȲT,· . (5.17)
N N M −1 m M
h=1
M2 M − m 1
m
2
Var Ȳ C L = 2 yT,l − ȳT,· . (5.18)
N M m (m − 1)
l=1
Man kann die beiden obigen Formeln auch direkt aus dem Horvitz-Thompson-
Theorem herleiten, was allerdings von der Notation her etwas komplizierter ist.
Cluster-Stichprobe
m
yT,l
M M l=1
Ȳ C L = ȳT,· = ,
N N m
wobei yT,l die Clustersumme (Totale) des l-ten gezogenen Clusters bezeichnet.
M2 M − m 1
m
2
Var Ȳ C L = 2 yT,l − ȳT,· .
N M m (m − 1)
l=1
m
yT,l
1
m
M l=1
Ȳ C L = = yT,l = ȳ .
N m N1 m
l=1
Der Cluster-Schätzer ist also genau das arithmetische Mittel der Beobachtungen.
Für die Varianz ergibt sich unter Berücksichtigung der gleichen Clustergrößen
5.2 Cluster-Stichprobe 167
1 M − m 1 1
M
2
Var Ȳ C L = 2 YT,h − ȲT,·
N1 M − 1 m M h=1
M − m 1 1
M
2
= Ȳh − Ȳ
M −1 m M
h=1
M −m 1 1
M
2
= N1 Ȳh − Ȳ
M −1 m N
h=1
M −m 1 1
= SS B.
M −1 m N
Dabei ist SS B die Quadratsumme zwischen den Clustern, siehe dazu auch
Formel (5.9), die bei der geschichteten Stichprobe als Quadratsummenzerlegung
verwendet wurde. Wir vergleichen nun die Varianz der Cluster-Stichprobe mit der
Varianz der einfachen Zufallsstichprobe bei gleichem Stichprobenumfang n = m N1
und erhalten
N −n 1 1
Var Ȳ E S = SST.
N − 1 m N1 N
Aus der Formel (5.19) erkennt man deutlich den sogenannten Design-Effekt der
Cluster-Stichprobe. Es zeigt sich, dass je kleiner die Varianz zwischen den Clustern
ist, d.h. je kleiner SSB, desto effizienter ist die Anwendung des Cluster-Schätzers.
Dies entspricht aber genau dem oben formulierten Cluster-Prinzip. Weiter nimmt
die Effizienz bei steigender Clustergröße ab. Bei dem aufgestellten Vergleich ist
allerdings zu beachten, dass die Kosten für eine einfache Zufallsstichprobe in der
Regel sehr viel höher sind als die einer Cluster-Stichprobe vom gleichen Umfang
und wir hier Kostengesichtspunkte unberücksichtigt gelassen haben.
Aus Formel (5.17) erkennt man, dass die Varianz des einfachen Cluster-Schätzers
von der Varianz der Clustersummen in der Grundgesamtheit abhängt. Da die Clu-
stersummen im Gegensatz zu den Clustermittelwerten stark von den Clustergrößen
168 5 Gruppierung der Population
abhängen, ist der einfache Cluster-Schätzer für stark ungleiche Clustergrößen nicht
notwendigerweise optimal. In diesem Fall sollten alternative, modellbasierte Schät-
zer bzw. das PPS-Design gewählt werden, wie wir in den folgenden Abschnitten
vorstellen werden.
YT,h ≈ R Nh ,
Nh
YT,h Yhi
h=1 h=1 i=1
R= = = Ȳ .
M N
Nh
h=1
Damit kann die Schätzung von Ȳ als Schätzung von R betrachtet werden. Wir
können also den in Abschn. 3.2 eingeführten Quotientenschätzer nutzen und erhal-
ten den Quotienten-Cluster-Schätzer
m
yT,l
=
Ȳ C L ,Q S = R
l=1
= ȳ. (5.20)
m
Nl
l=1
Der Schätzer vereinfacht sich zum einfachen arithmetischen Mittel der gezo-
genen Elemente der Stichprobe, welches somit auch als Schätzer für die Cluster-
Stichprobe geeignet ist. Da alle Elemente bei der einfachen Cluster-Stichprobe die
5.2 Cluster-Stichprobe 169
gleiche Auswahlwahrscheinlichkeit haben, ist dies auch plausibel. Allerdings ist der
Quotientenschätzer nicht erwartungstreu, wie schon in Abschn. 3.2 gezeigt wurde.
Die Verzerrung ist jedoch vernachlässigbar, sofern die Anzahl der gezogenen Clu-
ster groß ist. Als Varianz ergibt sich näherungsweise
1 M −m 1
M
2
Var Ȳ C L ,Q S ≈ 2 YT,h − Nh Ȳ .
N̄ M − 1 m M h=1
2
Aus der Formel erkennt man, dass die Varianz von den Termen YT,h − Nh Ȳ =
2
Nh2 Ȳh − Ȳ abhängt. Damit ist für den Quotienten-Cluster-Schätzer die Varianz
der Clustermittelwerte und nicht wie beim einfachen Cluster-Schätzer die Varianz
der Clustersummen von Bedeutung. Man hat somit den Effekt ungleicher Cluster-
größen bereinigt. Die Varianz kann geschätzt werden durch
1 M −m 1
m 2
Var
Ȳ C L ,Q S = yT,l − Nl
Ȳ C L ,Q S . (5.21)
N̄ 2 M m (m − 1)
l=1
m
yT,l
Ȳ C L ,Q S = l=1
.
m
Nl
l=1
Die Varianz kann geschätzt werden durch
1 M −m 1
m 2
Var
Ȳ C L ,Q S = 2 yT,l − Nl
Ȳ C L ,Q S ,
N̄ M m (m − 1)
l=1
mit N̄ = N /M.
Falls N̄ unbekannt ist, wird es durch den Stichprobenwert
1
m
n̄ = Nl
m
l=1
ersetzt.
170 5 Gruppierung der Population
Bei der Schätzung in Formel (5.20) sind keine Informationen zu der Cluster-
größe in der Grundgesamtheit erforderlich. Allerdings wird zur Varianzschätzung
in Formel (5.21) die durchschnittliche Clustergröße N̄ benötigt. In der Praxis kann
es aber vorkommen, dass diese nicht bekannt ist, beispielsweise wenn man bei ei-
ner Erhebung von Schulklassen zwar die Anzahl der Klassen kennt, aber nicht die
Gesamtzahl der Schüler. In diesem Fall wird dann in der Formel (5.21) die durch-
schnittliche Clustergröße
m in der Grundgesamtheit durch die entsprechende Schät-
zung n̄ = m1 l=1 Nl aus der Stichprobe ersetzt.
Nl
πl = m .
N
Voraussetzung ist hierbei, dass die Clustergröße je Cluster bekannt ist. Außerdem
gehen wir davon aus, dass πl < 1 für alle Cluster gilt. Durch die Stichprobe er-
hält man die Beobachtungen yT,1 , . . . , yT,m , also die Clustertotalen der gezogenen
Cluster. Diese werden dem Horvitz-Thompson Ansatz folgend genutzt und man
erhält den designbasierten Cluster-Schätzer
M 1
yT,l 1
yT,l 1
m m m
Ȳ C L ,P P S = = = ȳl .
N M πl m Nl m
l=1 l=1 l=1
πl = m NNl
m
Ȳ C L ,P P S = ȳl ,
m
l=1
Nl
mit ȳl = i=1 yli /Nl .
m
πl,k − πl πk
Var Ȳ C L ,P P S = 2 yT,l + yT,l yT,k .
N πl2 πl,k πl πk
l=1 l=1 k=1
l=k
172 5 Gruppierung der Population
{Y j+(k−1) p | k ∈ N} ,
5.3 Beispiel
• N1 = 15 201 Studierende
• N2 = 2 003 wissenschaftliches Personal
• N3 = 1 007 nicht-wissenschaftliches Personal
• n 1 = 401 Studierende
• n 2 = 65 wissenschaftliches Personal
• n 3 = 58 nicht-wissenschaftliches Personal
Das Gesamtergebnis in Bezug auf die gestellte Frage des Rauchverbots ergab
sich wie folgt.
Damit ergibt sich der geschichtete Schätzer für den Anteil der Uni-Nutzer, die
ein Rauchverbot präferieren, gemäß
Die Varianz des Schätzers ergibt sich nach Formel (5.3), wobei, basierend auf
dem binären Merkmal
1 wenn i-tes Individum in h-ter Schicht für Rauchverbot
Yhi =
0 sonst
Sh2 durch Sh2 = Ȳh (1 − Ȳh ) berechnet werden kann. Daraus ergibt sich das 99%-
Konfidenzintervall für den Anteil der Rauchverbotbefürworter zu [62, 73%].
Die Auswertung der Studie kann nun in verschiedener Weise hinterfragt werden.
Die geringe Rücklaufquote beispielsweise ist durchaus problematisch, da von den
900 angeschriebenen Studierenden nur 401 (also 44,6%) geantwortet haben. Dies
gilt insbesondere dann, wenn die Bereitschaft zum Antworten mit dem Zielmerk-
mal (Frage) zusammenhängt. Es ist denkbar, dass die Antwortbereitschaft und die
Beantwortung der Frage vom Rauchverhalten des Befragten abhängt. Ein Raucher
mag dazu neigen, ein Rauchverbot weniger attraktiv zu finden als ein Nichtraucher.
Deshalb wurde in dem Fragebogen zusätzlich die Frage gestellt, ob der/die Befragte
raucht. Als Ergebnis erhielt man, dass 17,3% der Individuen der Stichprobe Raucher
waren, 23% waren Ex- bzw. Gelegenheitsraucher und 59,7% Nichtraucher. Will
man diese Daten zur Korrektur des Schätzers im Sinne einer a posteriori Schichtung
nutzen, so benötigt man die relativen Schichtgrößen von Rauchern/Nichtrauchern an
der Universität Bielefeld. Diese sind nicht bekannt, weshalb eine exakte a posteriori
Schichtung nicht möglich ist.
174 5 Gruppierung der Population
Basierend auf dem Mikrozensus 2005 sind jedoch Daten des statistischen Bun-
desamtes verfügbar, wonach 54% der Bevölkerung über 15 Jahre Nichtraucher,
19% Ex- bzw. Gelegenheitsraucher und 27% Raucher sind (Statistisches Bundesamt
Deutschland 2006). Dies legt nahe, dass die Raucher und Ex- und Gelegenheitsrau-
cher in der Stichprobe unterrepräsentiert sind. Auch wenn eine Korrektur basierend
auf den Daten des statistischen Bundesamtes ungenau erscheint, da sich die beob-
achtete Raucherquote bei wissenschaftlichem und nicht-wissenschaftlichem Perso-
nal deutlich unterscheidet, wollen wir dennoch einen Schätzer ausrechnen. Berück-
sichtigt man, dass die Raucher (inklusive Ex- und Gelegenheitsraucher) als Gruppe
zu 42,9% für ein Rauchverbot und die Nichtraucher zu 82,5% für ein Rauchverbot
sind, so ergibt sich nach dem Prinzip der nachträglichen Schichtung ein Schätzer
für den Anteil der Rauchverbotbefürworter gemäß
Ȳ G S = 82, 5% · 0, 54 + 42, 9% · (0, 27 + 0, 19) = 64, 3%.
Somit scheint das ursprüngliche Ergebnis von 67.5% eher Nichtraucher freund-
lich, aber selbst unter Berücksichtigung der (aus genannten Gründen sehr groben)
Korrektur wird der Anteil der Rauchverbotsbefürwortet auf über 60% geschätzt.
Basierend auf diesen Überlegungen wurde ein sofortiges Rauchverbot an der Uni-
versität Bielefeld umgesetzt.
5.3.2 Cluster-Stichprobe
Im Rahmen des Programms „Jedem Kind sein Instrument“ (www.jedemkind.de)
soll jedem Grundschulkind des Ruhrgebiets die Möglichkeit offen stehen ein Mu-
sikinstrument zu erlernen. Im Schuljahr 2009/10 sollen 27 700 Erstklässler in das
Programm aufgenommen werden. Im Rahmen eines Forschungsprojektes soll der
Erfolg und die Akzeptanz des Projektes beurteilt werden. Hierzu soll eine Stich-
probe gezogen werden und es sollen Eltern von Kindern im Programm einen Fra-
gebogen beantworten. Da eine Liste der Eltern rein aus Datenschutz rechtlichen
Gründen nicht vorliegt, wird zur Stichprobenziehung auf eine Cluster-Stichprobe
zurückgegriffen. Statt die Eltern als Stichprobenliste zu betrachten, wird eine Stich-
probenliste aus den beteiligten Schulen gezogen. Im Jahr 2009/10 sind dies 522 im
Programm kooperierende Grundschulen. Die Grundschulen selbst werden anschlie-
ßend per Vollerhebung erfasst, sprich alle Eltern der ausgewählten Schulen erhalten
einen Fragebogen zur Beteiligung an der Stichprobe. Die Ziehung der Schulen kann
daher als einfache Zufallsstichprobe vollzogen werden. Genauere Ergebnisse kön-
nen erzielt werden, wenn man berücksichtigt, dass verschiedene Grundschulen eine
recht unterschiedliche Zusammensetzung und Sozialstruktur von Schülern haben.
Als Information je Schule kann die Übergangsquote zum Gymnasium genutzt wer-
den, das heißt der Anteil der Schüler, die nach der Grundschule zum Gymnasium
bzw. zu einer äquivalenten Schule gehen. Diese Quote kann genutzt werden, um
Schichten zu bilden und die Schulen, je nach Quote, in die Schichten einzuteilen und
5.5 Numerische Umsetzung 175
sodann die Schulen (Cluster) als geschichtete Stichprobe zu ziehen. Alternativ kann
die geographische Lage der Schulen genutzt werden, oder die Größe der Schule,
wie in Abschn. 5.2 dargestellt.
5.4 Literatur
Die geschichtete Stichprobe und die Cluster-Stichprobe werden in fast allen ein-
schlägigen Lehrbüchern ausführlich behandelt, siehe z.B. Levy und Lemeshow
(1999) oder Lohr (1999). Weitere theoretische Aspekte und Details insbesondere
zu design-basierten Clusterverfahren finden sich in Särndal, Swenson und Wretman
(1992). Neuere Aspekte wie z.B. die sogenannte adaptive Cluster-Stichprobe (Ad-
aptive Cluster Sampling) werden von Thompson (2002) diskutiert. Hierbei geht es
um räumliche Stichproben, bei denen z.B. nach bestimmten Schadstoffen in einer
Fläche gesucht wird. Zuerst wird eine einfache Zufallsstichprobe gezogen und falls
in einem Planquadrat eine hohe Konzentration gefunden wird, wird ein Cluster rund
um diesen Punkt gezogen. Da hier die Ziehung weiterer Einheiten von dem Ergebnis
vorheriger Ziehungen abhängt, spricht man von adaptiven Stichprobenverfahren.
Diese erfordern spezielle Strategien der Auswertung, die von Thompson (2002)
ausführlich dargestellt werden.
> library(survey)
geladen. Dieses Paket ist sehr allgemein für komplexe designbasierte Stichproben
konzipiert. Es muss zuerst das Stichprobendesign festgelegt werden. Anschließend
kann der Mittelwert geschätzt werden.
Mit x wird ein Formelobjekt übergeben, das im einfachsten Fall die Form ∼y hat.
Details hierzu werden nachfolgend gegeben. Mit design wird das vorher definierte
Stichprobendesign übergeben.
Im Folgenden werden beide Schritte nochmal getrennt für geschichtete Stichpro-
ben und Cluster-Stichproben gezeigt.
geteilt, aus denen eine geschichtete Stichprobe gezogen worden ist. Wir stellen den
Datensatz resultierend aus der Stichprobe wie folgt auf:
Dabei ist id die zum Individuum gehörige Identifizierung, die der Einfachheit
halber von 1 bis n 1 und fortlaufend von n 1 + 1 bis n durchnummeriert werden kann.
Sie gibt an, dass jede Zeile im Datensatz ein neues Element der Stichprobe bein-
haltet. Der Prozess der zufälligen Auswahl ist somit über id gelaufen. Die Variable
stratum gibt an, zu welcher Schicht die entsprechende Beobachtung zählt, wohin-
gegen nh und Nh die Stichprobengröße je Schicht beziehungsweise die Schichtgröße
selbst angeben.
In verschiedenen Anwendungen ist die Populationsgröße der einzelnen Schich-
ten nicht bekannt. Beispielsweise muss in einer großen Population nicht bekannt
sein, wie viele Frauen oder Männer als Schichten betrachtet in einer Population sind.
Sofern jedoch die relative Schichtengröße Nh /N bekannt ist, kann der geschichtete
Schätzer zum Einsatz kommen, allerdings unter Vernachlässigung des Korrektur-
faktors für endliche Populationen. In diesem Fall bedienen wir uns eines kleinen
Tricks, um die bereitgestellten Funktionen aus dem survey Paket anwenden zu
können. Wir arbeiten in diesem Fall mit einem fiktiven Populationsumfang in den
einzelnen Schichten, so dass n h << Nh , das heißt n h ist ein vernachlässigbarer
Bruchteil von Nh . Dies erreicht man, indem die bekannten relativen Schichtgrößen
Nh /N mit einem hinreichend großen Faktor multipliziert werden, beispielsweise
Nh /N · 1e8. Der Datensatz hat in diesem Fall die Struktur
Tabelle 5.2 Datensatz resultierend aus einer geschichteten Stichprobe bei unbekannter Schicht-
größe
stratum id y nh Nh
1 1 y11 n1 N1 /N · 1e8
.. .. .. .. ..
. . . . .
1 n1 y1n1 n1 N1 /N · 1e8
2 n1 + 1 y21 n2 N2 /N · 1e8
.. .. .. .. ..
. . . . .
2 n y2n1 n2 N2 /N · 1e8
178 5 Gruppierung der Population
Wie wir oben hergeleitet haben, ist der geschichtete Schätzer auch über den
Horvitz-Thompson Schätzer motivierbar. Dazu ist es nötig die Auswahlwahrschein-
lichkeiten anzugeben. Im Fall einer geschichteten Stichprobe ist diese n h /Nh . Die
inverse Auswahlwahrscheinlichkeit, wie sie in der Formel des Horvitz-Thompson
Schätzers auftaucht, ist somit Nh /n h . Mit Kenntnis dieser Größe kann der geschich-
tete Schätzer berechnet werden. Anstatt im Datensatz der Stichprobe explizit die
Schichtgröße Nh und die Stichprobengröße n h aufzuführen kann auch direkt die
inverse Auswahlwahrscheinlichkeit als Gewicht angegeben werden. Der Datensatz
muss in diesem Fall wie in Tabelle 5.3 gezeigt angegeben werden, wobei die Ge-
wichte (weights) durch wh = Nh /n h gegeben sind.
Tabelle 5.3 Datensatz einer geschichteten Stichprobe gewichtet mit inversen Auswahlwahrschein-
lichkeiten
stratum id y weight
1 1 y11 w1
.. .. .. ..
. . . .
1 n1 y1n1 w1
2 n1 + 1 y21 w2
.. .. .. ..
. . . .
2 n y2n1 w2
Der Datensatz kann nun wie gehabt eingelesen werden. Exemplarisch arbeiten
wir mit folgenden Daten
> data
stratum id weight nh Nh y
1 1 1 3 5 15 23
2 1 2 3 5 15 25
3 1 3 3 5 15 27
4 1 4 3 5 15 21
5 1 5 3 5 15 22
6 2 6 4 3 12 77
7 2 7 4 3 12 72
8 2 8 4 3 12 74
Vor der Berechnung eines Schätzers muss nun unter R das angewandte Stich-
probendesign definiert werden. Hierzu benutzt man die bereitgestellte Funktion
svydesign(·). Unabhängig von der gewählten Representation des Datensatzes,
also gemäß Tabelle 5.1, 5.2 oder 5.3 wird das Design einer geschichteten Stichprobe
bestimmt durch
> library(survey)
> design <- svydesign(ids=~id, strata=~stratum, data=data)
5.5 Numerische Umsetzung 179
Der Befehl library(survey) bindet, wie oben schon erwähnt, das entspre-
chende R-Paket ein, mit dem Befehl svydesign definiert man das Design der ge-
zogenen Stichprobe. Dabei werden die Schichten mit strata=∼stratum definiert,
wobei stratum der entsprechende Variablenname im Datensatz ist, der die Schich-
ten angibt und id der Variablenname, der die Indivuduen angibt. Der obige Aufruf
wird begleitet von der Warnmeldung
Warning message:
In svydesign.default(ids = ~id, strata = ~stratum, data = data) :
No weights or probabilities supplied, assuming equal probability
> summary(design)
Mit Aufruf der summary(·) Funktion werden unter Stratum Sizes die Größe
der Schichten in der Stichprobe anzugeben. Von Interesse soll für uns hier vorerst
nur die explizite Beobachtungszahl obs sein. Die Definition von design liefert kei-
ne Angabe darüber, welche Auswahlsätze in den einzelnen Schichten verfolgt wur-
den. Zur Berechnung des geschichteten Schätzers ist jedoch die Kenntnis von Nh /N
notwendig (siehe Formel 5.1). Geht man jedoch von einer proportionalen Auftei-
lung auf die Schichten aus, so sind n h /n und Nh /N (approximativ) gleich. Die
Standardeinstellung bei der Funktion svydesign(·) ist nun, dass ohne Angabe der
Auswahlsätze von proportionaler Aufteilung ausgegangen wird und Nh /N = n h /n
180 5 Gruppierung der Population
gesetzt wird. Dies ist die Information, die in oben aufgelisteter Warnmeldung ex-
plizit gegeben wird. Der Schätzer der geschichteten Stichprobe (5.1) wird somit
berechnet gemäß
M
nh
Ȳ G S = ȳh
n
h=1
mean SE
y 42.625 0.866
oder alternativ
Beide Angaben sind inhaltlich und technisch äquivalent. Im ersten Fall geben wir
ein Gewicht an, im zweiten Fall geben wir direkt die Auswahlwahrscheinlichkeiten
an. Die Bedeutung der Notation I(·) ist in R aus technischen Gründen nötig. Es
besagt, dass die im Argument von I(·) stehende Funktion erst berechnet wird bevor
die Größe weiter verarbeitet wird. Liegen die Gewichte im Datensatz explizit vor,
wie in der Form gemäß Tabelle 5.3, so erfolgt die Definition des Stichprobendesign
über
Das Design kann nun wieder mit der Funktion summary(·) angezeigt werden.
Wir zeigen hier exemplarisch den ersten Fall der obigen drei Beispiele.
> summary(design2)
Den Schätzer der geschichteten Stichprobe (5.1) erhalten wir durch den Befehl
svymean(∼y,design2).
mean SE
y 46.148 0.8804
Die Bedeutung von weights oder alternativ prob liefert den Horvitz-Thompson
Schätzer. Bei der Berechnung der Varianz wird der Korrekturfaktor für endliche
Populationen vernachlässigt. Dies ist akzeptabel, wenn die Population groß ist oder
wenn die Schichtgrößen unbekannt sind und nur die relativen Schichtengrößen
Nl /N verfügbar sind. Soll hingegen der Korrekturfaktor explizit bei der Berechnung
der Varianz berücksichtigt werden, so müssen wir ein entsprechendes Stichproben-
design definieren. Nehmen wir dazu an, der Datensatz liegt in Form von Tabelle
5.1 vor (man beachte, dass für Datensätze der Form gemäß Tabelle 5.2 und 5.3
eine hinreichend große Population angenommen war, so dass die Benutzung einer
Korrektur für keine Populationen nicht nötig ist). Wir definieren das Design der
geschichteten Stichprobe nun durch
Mit fpc wird damit die „finite population correction“ definiert. In diesem Fall
brauchen keine Gewichte angegeben werden, da diese bei Angabe der Schichtgröße
182 5 Gruppierung der Population
berechnet werden können. Der Befehl summary(·) zeigt die Komponenten des ge-
wählten Stichprobendesigns.
> summary(design3)
Der geschichtete Schätzer ist nun völlig analog zum bisherigen erhältlich durch
den Befehl svymean(·).
> svymean(~y,design3)
mean SE
y 46.148 0.7426
Im Vergleich mit dem Ergebnis bei design2 zeigt sich der gleiche Schätzwert,
jedoch mit reduzierter Varianz beziehungsweise Standardabweichung. Dies spiegelt
genau den Effekt der Korrektur für endliche Populationen wider.
5.5.2 Cluster-Stichprobe
Erinnern wir uns, dass bei einer Cluster-Stichprobe die zufälligen Elemente in der
Stichprobe ganze Cluster sind. Dies wird für die Berechnung der Varianz des Schät-
zers noch von Bedeutung sein und muss numerisch berücksichtigt werden. Nehmen
wir aber zunächst folgendes Szenario für unsere Stichprobe an, um die Benutzung
der Prozeduren im Paket survey zu verdeutlichen. In einer Population seien M
Cluster, aus denen wir m Cluster gezogen haben. Die Clustergrößen Nh variieren
und werden im Datensatz mit Nl bezeichnet. Je Cluster wird eine Vollerhebung
durchgeführt, so dass die Stichprobengröße je Cluster nl = Nl beträgt. Die Struktur
des Datensatzes ist in Tabelle 5.4 dargestellt.
5.5 Numerische Umsetzung 183
> data
cluster id y M
1 1 1 23 10
2 1 2 24 10
3 1 3 33 10
4 1 4 77 10
5 2 1 25 10
6 2 2 35 10
7 2 3 74 10
8 3 1 27 10
9 3 2 72 10
Wird das Argument fpc=∼M nicht gegeben, so werden die Schätzer ohne Kor-
rekturfaktor für endliche Populationen berechnet, das heißt in der Varianzformel
(5.18) wird (M − m)/M durch den Wert 1 ersetzt.
Die Berechnung eines einfachen Cluster-Schätzers mit Hilfe der in survey
bereitgestellten Routinen ist etwas mühselig, da die Funktion svymean(·) einen
modellbasierten Ansatz verfolgt. Beachtet man jedoch, dass der einfache Cluster-
Schätzer sich aus dem arithmetischen Mittel der Clustertotalen ergibt, siehe (5.16),
so liegt es nahe, den Schätzer über die Totale zu berechnen. Wir schätzen somit
M Nh
YT = h=1 i=1 Yhi . Dies kann mit Hilfe der Funktion svytotal(·) geschehen,
wobei wir nur auf die im Folgenden verwendeten Optionen weiter eingehen werden.
Mit x wird ein Formelobjekt, ein Vektor oder eine Matrix und durch design das
vorher definierte Stichprobendesign übergeben. Durch die Eigenschaft Ȳ = N Ȳ
bzw. Ȳ = YT /N ergeben sich Schätzer und Varianz leicht, indem der resultierende
Schätzwert und die Standardabweichung für die Totale durch N geteilt wird. Al-
ternativ kann dies numerisch durch einen kleinen Trick geschehen, indem wir alle
beobachteten Werte von Y durch N teilen, was wir im Folgenden mit Ỹhi = Yhi /N
bezeichnen. Man beachte, dass
Nh
Nh
Ȳ = YT /N = YT,h /N = Yhi /N = Ỹhi
h=1 h=1 i=1 h=1 i=1
mit Ỹhi = Yhi /N . Das bedeutet, dass Ȳ = ỸT , also das arithmetische Mittel Ȳ ist
gleich der Totalen der Ỹhi . Somit gilt es Ỹhi zu bestimmen und die Totale von Ỹhi
5.5 Numerische Umsetzung 185
zu schätzen. Der zugehörige Schätzer ist dann äquivalent zum einfachen Cluster-
Schätzer. Für das Zahlenbeispiel erhalten wir somit T /N , was durch die
Ȳ Cl = Y
folgenden Befehle in R realisierbar ist.
> N <- 32
> data$y.tilde <- data$y/N
> design4 <- svydesign(ids=~cluster, data=data, fpc=~M)
> svytotal(~y.tilde, design=design4)
total SE
y.tilde 40.625 4.4087
mean SE
y 43.333 2.3743
Bei der Prozedur wird keine Angabe zur durchschnittlichen Clustergröße in der
Grundgesamtheit benötigt, da diese bei der Varianzschätzung mit der geschätzten
durchschnittlichen Clustergröße aus der Stichprobe arbeitet, siehe Kasten S. 169.
Die Varianzschätzung notieren wir in diesem Fall als
m
2
1 M −m 1
Var
Ȳ C L ,Q S = 2 yT,l − Nl
Ȳ C L ,Q S . (5.22)
n̄ m m(m − 1)
l=1
n̄ 2
Ȳ C L ,Q S = 2 Var
Var Ȳ C L ,Q S .
N̄
Im konkreten Beispiel ist der oben errechnete Standardfehler von 2, 3743 zu er-
setzen durch 2, 3743 · 3/3, 2 = 2, 225935. In allgemeiner Form können die nach-
folgenden R Befehle für beliebige Clusterdesigns genutzt werden. Wir benutzen die
Funktion SE(·), die den Standardfehler, also die Wurzel aus der Varianz, berechnet.
186 5 Gruppierung der Population
Dieser muss mit n̄/ N̄ multipliziert werden. Für beliebige Designs erhalten wir dies
wie folgt.
[1] 1 1 1 1 2 2 2 3 3
[1] 9
[1] 3
[1] 3
y
2.225935
> data
cluster id y weight M
1 1 1 23 0.3750 10
2 1 2 24 0.3750 10
3 1 3 33 0.3750 10
4 1 4 77 0.3750 10
5 2 1 25 0.2813 10
6 2 2 35 0.2813 10
7 2 3 74 0.2813 10
8 3 1 27 0.1875 10
9 3 2 72 0.1875 10
mean SE
y 42.345 2.5716
Wir vermerken nochmals, dass die Varianzberechnung auf der Annahme beruht,
dass mit Zurücklegen gezogen wurde, was natürlich unzutreffend ist. Dennoch er-
scheint es sinnvoll diese Annahme zu treffen, um die Numerik zu vereinfachen, auch
vor dem Hintergrund, dass die Varianz damit überschätzt wird, man aus statistischer
Sicht im Mittel somit eine größere Streuung angibt als vorhanden ist.
Für die Anwendung anderer Verfahren kann man die Daten so umstrukturieren,
dass die Cluster als Untersuchungseinheiten und die Clustersumme als Merkmal
betrachtet werden kann. Dann lassen sich im Prinzip die in Kap. 4 beschriebe-
nen Verfahren anwenden. Wir wollen dies im Detail allerdings hier nicht weiter
ausführen.
Kapitel 6
Mehrstufige und mehrphasige Verfahren
Bei großen Populationen sind die bisher besprochenen Verfahren der Stichproben-
ziehung oft schwer umzusetzen. Deshalb wollen wir sie im nachfolgenden Kapitel
kombinieren und verallgemeinern. Dabei erfolgt die Zufallsauswahl typischerweise
in mehreren Schritten. Von zweistufigen Verfahren spricht man, wenn zunächst
eine Auswahl von Gruppen von Elementen (Clustern) erfolgt und in einem zweiten
Schritt aus den ausgewählten Clustern gezogen wird.
Beispiel 6.1: Bei einer Erhebung zum ökologischen Zustand des Waldes eines
Bundeslandes wird die gesamte Waldfläche des Landes in einzelne Planquadra-
te aufgeteilt. Nun wäre es sehr aufwendig, eine einfache Zufallsstichprobe der
Planquadrate zu ziehen. Die gezogenen Planquadrate können weit verstreut lie-
gen, was den Aufwand der Erhebung vergrößert. Man kann den Aufwand jedoch
verringern, indem man die Planquadrate zu Gruppen zusammenfasst, also z.B.
alle Planquadrate, die dem gleichen (Land-)Kreis angehören, zu einer Gruppe
zusammenfasst. Dann zieht man zunächst eine Zufallsstichpobe der Kreise. An-
schließend wird aus den gezogenen Kreisen jeweils eine Zufallsstichprobe von
Planquadraten gezogen.
Im Gegensatz dazu wird bei zweiphasigen Verfahren zunächst eine große Zu-
fallsstichprobe gezogen und aus dieser wird in der zweiten Phase eine (kleinere)
Stichprobe gezogen.
vollzieht sich somit in mehreren Stufen, wobei auf jeder Stufe aus einer Population
eine Zufallsstichprobe gezogen wird. Die Population verfeinert sich mit jeder Stufe,
wie es in Abb. 6.1 dargestellt ist.
Beispiel 6.2: Der Verband der Einzelhändler möchte eine Befragung seiner
Mitglieder durchführen. Hierzu sollen m = 100 Betriebe ausgewählt und besucht
werden. Sinnvollerweise bietet sich eine Schichtung in Ost- und Westdeutsch-
land an, wobei die Stichprobe im Verhältnis 30/70 auf Ost und West aufgeteilt
werden soll. Nach Ziehung der Stichprobe stellt sich heraus, dass die 100 ge-
wählten Unternehmen quer über die ganze Republik verteilt sind, was zu einem
hohen Reiseaufwand führt. Es stellt sich somit die Frage, ob kosteneffizient vor-
gegangen werden kann. Der Verband der Einzelhändler hält folgendes Vorgehen
für praktikabel: Es sollen zunächst zufällig Land-, Stadt- oder Regierungskreise
ausgewählt werden. Aus den ausgewählten Kreisen sollen dann zufällig einzelne
Betriebe ausgewählt und befragt werden.
Die zweistufige Stichprobe ist eine Kombination aus Cluster- und geschichteter
Stichprobe. Bei reinen Cluster-Stichproben wählt man zufällig einige Cluster aus
und führt in diesen eine Vollerhebung durch. Im Gegensatz dazu zieht man bei
einer geschichteten Stichprobe aus allen Schichten zufällig die Merkmalsträger. Zur
statistischen Analyse führen wir die folgende Notation ein.
Abb. 6.1 Schematische Darstellung einer zweistufigen Stichprobenziehung. Die Gruppen entspre-
chen den Einheiten erster Stufe
6.1 Zweistufige Stichprobenverfahren 191
Zweistufige Stichprobenverfahren
Größe Bedeutung
In der Population:
In der Stichprobe:
T,l = Nl ȳl
Y geschätzte Summe (Totale) in der l-ten gezo-
genen Gruppe
¯ = m
Y T,·
1
l=1 YT,l Mittelwert der geschätzten Gruppensummen
m
1 M
Nl
m nl m nl
ylk
Ȳ 2S = = ylk (6.1)
N πlk N m nl
l=1 k=1 l=1 k=1
1 M
1 M
m m
= Nl ȳl = YT,l .
N m N m
l=1 l=1
6.1 Zweistufige Stichprobenverfahren 193
Der Schätzer kann auf folgende Weise interpretiert werden: Aus den Stichproben
in den einzelnen Gruppen wird zunächst die Gesamtsumme (Totale) der Gruppe
geschätzt. Die Schätzung ist
nl
T,l = Nl 1
Y ylk .
nl
k=1
der gezogenen Gruppen (Einheiten erster Stufe) ab. Beim zweiten Summanden in
Formel (6.2) sind die Varianzen innerhalb der Gruppen Sh2 und die zugehörigen
Stichprobenumfänge n h von Bedeutung. Damit entsprechen die beiden Summanden
genau den beiden Stufen der Ziehung. Dies wird durch die folgende Herleitung von
Formel (6.2) verdeutlicht.
Herleitung: Um das zweistufige Vorgehen zu berücksichtigen, benötigen wir die Eigenschaf-
ten von bedingten Erwartungswerten und Varianzen, wie sie in Kap. 5 in den Formeln (5.11)
und (5.12) angegeben wurden.
Obwohl die Erwartungstreue von Ȳ 2S bereits durch das Horvitz-Thompson-Theorem gesi-
chert ist, zeigen wir diese zur Illustration mit dem Satz vom iterierten Erwartungswert. Nehmen
wir dazu an, dass in der ersten Stufe die Gruppen G 1 , . . . , G m gewählt wurden. Betrachtet man
nun die ausgewählten Gruppen als gegeben, so können wir die Vereinigung der Gruppen als
neue Population ansehen. In diesem Fall können wir auf Ergebnisse der geschichteten Stichpro-
be zurückgreifen, denn für gegebenes G = {G 1 , . . . , G m }, also in der zweiten Stufe, entspricht
die Ziehung der einer geschichteten Stichprobe.
Für den bedingten Erwartungswert ergibt sich:
1 M
m
E Ȳ 2S |G = ȲG = Nl Ȳl .
N m
l=1
Dies folgt, da
Ȳ 2S für gegebenes G einem geschichteten Stichprobenschätzer gleicht und
dieser erwartungstreu für die ausgewählte (gezogene) Population G ist. Im nächsten Schritt
bilden wir den Erwartungswert über die erste Stufe, das heißt über alle möglichen gewählten
Gruppen G. Dabei ist zu beachten, dass Nl und Ȳl als Zufallsvariablen betrachtet werden, weil
die Gruppe zufällig gezogen werden. Wir müssen also den Erwartungswert über alle möglichen
Ziehungen G berechnen. Es gilt nach den Regeln der einfachen Zufallsstichprobe:
194 6 Mehrstufige und mehrphasige Verfahren
M
E Nl Ȳl = Nh Ȳh für l = 1, . . . , m .
M
h=1
m
E Ȳ 2S = E E Ȳ 2S |G = ME Nl Ȳl
N m
l=1
M
1 1 1
= M m E Nl Ȳl = M Nh Ȳh = Ȳ .
N m N M
h=1
Im nächsten Schritt leiten wir nun die Varianz her. Dazu nutzen wir die allgemeine Varianz-
zerlegung, siehe Formel (5.12):
Var Ȳ 2S = EG Var Ȳ 2S |G + VarG E Ȳ 2S |G . (6.3)
Für die zweite Stufe, das heißt unter der Annahme, dass G gegeben ist, ergibt sich für
Ȳ 2S
die Varianz
M 2 1
m
Var Ȳ 2S |G = Var Nl ȳl |G
N m
l=1
2
1 1
2 Nl − nl Sl2
m
M
= · Nl .
N m m Nl − 1 nl
l=1
Dabei ist G wiederum zufällig, was bedeutet, dass Nl und Sl durch die Auswahl der Gruppen
zufällig sind. Bildet man nun den Erwartungswert und betrachtet das Merkmal
Nh − n h Sh2
Nh2
Nh − 1 n h
M 2 1 1
M
Nh − n h Sh2
EG Var Ȳ 2S |G = Nh2 .
N m M Nh − 1 n h
h=1
Damit ist der zweite Teil in der Varianzformel (6.2) hergeleitet. Der erste Teil folgt nun mit
(5.12) und wir erhalten wegen der oben bewiesenen Erwartungstreue:
VarG E Ȳ 2S |G = Var ȲG
2
1
m
M
= Var YT,l
N m
l=1
2
M M − m SGr 2
= .
N M −1 m
Die letzte Umformung ergibt sich wiederum nach den Regeln der einfachen Zufallsstich-
probe mit dem Merkmal YT,h . Damit ist die Varianzformel unter Benutzung von Formel (6.3)
gezeigt.
6.1 Zweistufige Stichprobenverfahren 195
Zweistufige Stichprobe
1 M
m
Ȳ 2S = Nl ȳl .
N m
l=1
Man erhält die Schätzung der Varianz jeweils durch die entsprechenden Werte
aus der Stichprobe. Im ersten Teil wird dabei die Varianz der Gruppensummen durch
die Varianz der entsprechenden Schätzungen ersetzt. Im zweiten Teil wird die Streu-
ung innerhalb der Gruppen jeweils durch die empirische Streuung geschätzt. Der
Nachweis der Erwartungstreue von Var Ȳ erfolgt wiederum mit dem Satz vom
2S
iterierten Erwartungswert. Wir wollen die Varianzzerlegung anhand eines Beispiels
veranschaulichen.
Beispiel 6.3: Eine Population vom Umfang N = 16 sei gegeben durch die
folgenden Größen.
1 2 3 4
1 2 3 4
1 2 3 4
1 2 3 4
Wir wollen eine zweistufige Stichprobe ziehen, indem wir zwei Gruppen wäh-
len, woraus in der zweiten Stufe je zwei Elemente gezogen werden. Die Gruppen-
einteilung kann nun unterschiedlich vorgenommen werden. Wir wählen zuerst die
Einteilung
196 6 Mehrstufige und mehrphasige Verfahren
1 2 3 4
1 2 3 4
(6.4)
1 2 3 4
1 2 3 4
Da zwischen den Gruppen keinerlei Variation besteht, wir also perfekte Cluster
2 = 0. Die Variation des zweistufigen Schätzers basiert gänzlich auf
haben, ist SGr
der Variation innerhalb der Gruppen. Wählt man dagegen die Gruppen wie folgt
1 2 3 4
1 2 3 4
(6.5)
1 2 3 4
1 2 3 4
Aus der Varianzzerlegung nach dem obigen Beispiel lässt sich eine Strategie zur
Wahl der Größen m und n h ableiten: Falls die Schwankung der Gruppensumme
groß ist, muss der Umfang m bei der ersten Ziehung tendenziell größer gewählt
werden. Wenn die Streuung innerhalb der Gruppen groß ist, sollten entsprechend
die Umfänge n h nicht zu klein gewählt werden. Eine genaue Planung kann analog
zu dem in Kap. 2 beschriebenen Vorgehen durchgeführt werden. Man benötigt dazu
entsprechende Annahmen für die Varianzen SGr2 und S 2 .
h
6.1 Zweistufige Stichprobenverfahren 197
M
YT,h
h=1
R=
M
Nh
h=1
m
T,l
Y Nl ȳl
Ȳ 2S,Q S =
l=1
=
l=1
. (6.6)
m
m
Nl Nl
l=1 l=1
1
M 2 1 M − m
Var Ȳ 2S,Q S = YT,h − Nh
Ȳ 2S,Q S / N̄ 2 (6.7)
M m M −1
h=1
1
Nh − n h Sh2 2
M
+ N / N̄ 2 .
mM Nh − 1 n h h
h=1
Die Schätzung der Varianz ergibt sich durch geeignetes Ersetzen der Populati-
onsgrößen durch die entsprechenden Stichprobengrößen. Der Nachweis der appro-
ximativen Erwartungstreue erfolgt durch den Satz vom iterierten Erwartungswert
(5.11) und analog zum Vorgehen bei einfachen Quotientenschätzern, siehe Abschn.
3.2. Der Quotientenschätzer ist besonders dann empfehlenswert, wenn die Grup-
pengrößen stark unterschiedlich sind.
198 6 Mehrstufige und mehrphasige Verfahren
Zweistufiger Quotientenschätzer
Gegeben sei eine zweistufige Stichprobe mit dem Design der einfachen
Zufallsstichprobe auf jeder Stufe.
m
T,l
Y Nl ȳl
Ȳ 2S,Q S =
l=1
=
l=1
.
m
m
Nl Nl
l=1 l=1
1
m
2 1 M − m
Var
Ȳ 2S,Q S = yT,l − Nl
Ȳ 2S,Q S / N̄ 2
m−1 m M
l=1
1 1
m
Nl − nl sl2 2
+ N / N̄ 2 .
m m−1 Nl nl l
l=1
Eine andere Form der Ziehung einer zweistufigen Stichprobe besteht in der Wahl
eines PPS-Designs in der ersten Stufe. Die Gruppen werden also proportional zu
ihrer Größe gezogen. Mit Hilfe des Horvitz-Thompson-Theorems kann man einen
erwartungstreuen Schätzer bestimmen. Es gilt dann für die Auswahlwahrscheinlich-
keiten
Nh m n h
πhi = M
N
h=1 N h h
m nl m
N
Ȳ 2S,P P S = ylk = ȳl . (6.8)
N nl m m
l=1 k=1 l=1
Falls in den einzelnen Gruppen gleich viele Elemente gezogen werden, verein-
facht sich der Schätzer (6.8) zu dem (ungewichteten) Mittelwert. Man spricht dann
von einer selbstgewichteten Stichprobe.
Die Berechnung der Varianz kann entweder direkt über die allgemeine Formel für
Horvitz-Thompson-Schätzer oder mit Hilfe der Varianzzerlegung bestimmt werden.
6.1 Zweistufige Stichprobenverfahren 199
Nh n h nh
phi = = . (6.9)
N Nh N
m
Ȳ 2S,H H = ȳl . (6.10)
m
l=1
Der Schätzer ergibt sich somit als arithmetisches Mittel der Mittelwerte der ge-
zogenen Gruppen. Es ist nicht schwierig zu zeigen, dass der Schätzer erwartungs-
treu ist. Der Beweis läuft analog zum Beweis wie wir ihn zur Erwartungstreue des
Hansen-Hurwitz Schätzers angewandt haben. Ebenso erhält man unter Anwendung
der iterierten Erwartung die Varianzformel
1
Nh
M
2 1
Nh − n h Nh Sh2
M
Var Ȳ 2S,H H = Ȳh − Ȳ + . (6.11)
m N m Nh − 1 N n h
h=1 h=1
1
m
2
Var
Ȳ 2S,H H = ȳl −
Ȳ 2S,P P S (6.12)
m(m − 1)
l=1
Diese Strategie der Varianzschätzung hat den Vorteil, dass bei der Berechnung
nur die Streuung auf der obersten Stufe eingeht, was die konkrete Berechnung stark
vereinfacht. Das gilt insbesondere für Verallgemeinerungen des Designs auf mehr
200 6 Mehrstufige und mehrphasige Verfahren
als zwei Stufen. Der Grund dafür, dass Formel (6.12) eine korrekte, erwartungstreue
Varianzschätzung liefert, liegt darin, dass in der Streuung der Mittelwerte ȳl implizit
die Varianz der Ziehung der Stufe mit eingeht und daher kein Zusatzterm berück-
sichtigt werden muss. Da es sich um ein wichtiges Grundprinzip handelt, geben wir
für diesen Fall die Herleitung an.
Herleitung: Die Ziehung mit Zurücklegen liefert unabhängig identisch verteilte Zufallsgrößen
ȳl für l = 1, . . . , m. Es gilt
M
Nh
Zweistufiger Hansen-Hurwitz-Schätzer
m
Ȳ 2S,H H = ȳl .
m
l=1
Die Varianz kann unter der Annahme des Ziehens mit Zurücklegen
erwartungstreu geschätzt werden durch
1
m
2
Var
Ȳ 2S,H H = ȳl −
Ȳ 2S,P P S .
m(m − 1)
l=1
6.1.3 Erweiterungen
Die oben besprochenen Verfahren können auf mehrere Stufen und auf andere Aus-
wahlverfahren verallgemeinert werden.
Beispiel 6.4: (ADM-Stichprobe)
In Deutschland gibt es keine allgemein zugängliche Liste aller Privathaushal-
te. Die Verzeichnisse der kommunalen Ämter sind aus Gründen des Daten-
6.2 Zweiphasige Stichprobenverfahren 201
me aufgeben und annehmen, dass wir X ebenfalls durch eine Stichprobe erheben.
Der Unterschied zwischen der Primärinformation Y und der Sekundärinformation
X besteht dabei darin, dass eine Stichprobe zur Einholung von Information über
X einfach, billig und/oder schnell ist, wohingegen die Einholung von Y aufwendig,
teuer und/oder zeitintensiv ist. Die Information, die wir in der Stichprobe bezüg-
lich X erhalten, wird genutzt um aus dieser Stichprobe eine zweite Stichprobe be-
züglich des Merkmals Y zu ziehen. Die zweite Stichprobe ist dabei üblicherweise
kleiner als die erste und erlaubt es, einen modellbasierten Schätzer zu berechnen.
Diese zwei Phasen der Stichprobenziehung führen zu sogenannten Zwei-Phasen-
Schätzern.
Um die Parameter aus der ersten und zweiten Phase in der Notation unterschei-
den zu können, verwenden wir in der ersten Phase die „Strichnotation“, d.h. z.B. n
Zweiphasige Stichprobenverfahren
Größe Bedeutung
In der Population:
N Populationsumfang
X i , i = 1, . . . , N Sekundärinformation
Yi , i = 1, . . . , N Primärinformation
n
Stichprobenumfang in der ersten Phase
xk
, k
= 1, . . . , n
erhobene Sekundärinformation in der ersten Phase
x̄
= n1
nk
=1 xk
Mittelwert der Sekundärinformation in der ersten
Phase
6.2 Zweiphasige Stichprobenverfahren 203
Ȳ = A + B X̄ .
Die Größen auf der rechten Seite der Gleichung werden jetzt stichprobenbasiert
geschätzt. Dabei schätzt man X̄ durch die erste Phase der Stichprobe gemäß
x̄ =
xk
.
n
k =1
Die Größen A und B werden nun aus der zweiten Phase der Stichprobe geschätzt,
d.h. aus den gezogenen Paaren (xk , yk ), k = 1, . . . , n. Man erhält
204 6 Mehrstufige und mehrphasige Verfahren
n
(xk − x̄)(yk − ȳ)
B=
k=1
, = ȳ −
A B x̄ ,
n
(xk − x̄) 2
k=1
mit x̄ = nk=1 xk /n als Mittelwert der Sekundärinformation in der zweiten Phase.
Der zweiphasige Regressionsschätzer ergibt sich somit zu
+
Ȳ 2P,R E G = A B x̄
= ȳ +
B(x̄
− x̄) .
n
− n S2 N − n
SY2
Var Ȳ 2P,R E G =
REG
+
n −1 n N − 1 n
mit
N
S 2R E G = (Yi − A − B X i )2 /N .
i=1
S2
Die Varianz besteht aus zwei Komponenten. Die erste Komponente nn
−n −1
REG
n
spiegelt die Unsicherheit des Regressionsschätzers bezüglich der zweiten Phase wi-
S2
der. Die Komponente NN−n Y
−1 n
entspricht der Varianz einer Mittelwertschätzung mit
Hilfe einer Stichprobe vom Umfang n
der Y -Werte. Diese korrespondiert zu der
Ziehung in der ersten Phase. Die Varianzen können wie gehabt geschätzt werden,
indem S 2R E G und SY2 durch entsprechende empirische Größen s 2R E G und sY2 ersetzt
werden.
Zweiphasiger Regressionsschätzer
Ȳ 2P,R E G = ȳ +
B(x̄
− x̄),
1
1
n n
mit x̄
=
xk
und x̄ = xk .
n
n
k =1 k=1
n
− n s 2 N − n
sY2
Var
Ȳ 2P,R E G = REG
+ ,
n
n N n
mit
1
n
2
s 2R E G = −
yk − A Bxk ,
n−2
k=1
n
sY2 = (yk − ȳ)2 .
n−1
k=1
Herleitung: Die Herleitung der Varianz vollzieht sich wieder mit dem Satz vom iterierten
Erwartungswert aus dem vorherigen Kapitel. Hierdurch ergibt sich
Var Ȳ 2P,R E G = En
Var Ȳ 2P,R E G |1.Phase
+Varn
E Ȳ 2P,R E G |1.Phase . (6.13)
Dabei bezeichnen E
(·) und Var
(·) den Erwartungswert und die Varianz basierend auf der
ersten Phase, d.h. auf der Stichprobe x k
mit k
= 1, . . . , n
. Bedingt man auf diese Stichprobe,
d.h. betrachtet man (x k
, yk
) als Population, so lassen sich der innere Erwartungswert und die
innere Varianz berechnen, indem alle Ergebnisse aus Abschn. 3.3 genutzt werden. Konkret ist
n
− n S
2
Var Ȳ 2P,R E G |1.Phase = REG
,
n−1 n
n
mit S
2
REG =
2
k
=1 (yk
− A − Bx k
) /n . Nun ist S R E G eine zufällige Größe, da die Stich-
2
probe bezüglich n zufällig ist. Es ist jedoch nicht schwierig zu zeigen, dass
En
S
2R E G = SR E G
2
N
gilt mit S 2R E G = i=1 (Yi − A − B X i )2 /N . Somit verbleibt die Berechnung der zweiten Kom-
ponente in Formel (6.13). Bedingen wir wieder auf die erste Phase, d.h. betrachten wir (x k
, yk
)
als Population, k
= 1, . . . , n
, so ist der Regressionsschätzer erwartungstreu und wir erhalten
E Ȳ 2P,R E G |1.Phase = ȳ
,
206 6 Mehrstufige und mehrphasige Verfahren
mit ȳ
= nk
=1 yk
/n
. Man beachte, ȳ
ist das arithmetische Mittel einer einfachen Zufalls-
stichprobe vom Umfang n
. Mit den Ergebnissen über einfache Zufallsstichproben erhalten wir
somit
N − n
SY2
Varn
ȳ
=
N − 1 n
N
mit SY2 = i=1 (Yi − Ȳ )2 /N . Ersetzt man nun S 2R E G und SY2 durch entsprechende Schätzer, so
folgt die oben gegebene Varianzformel.
Ȳ 2P,D = ȳ + (x̄
− x̄)
Zweiphasiger Quotientenschätzer
· x̄
,
Ȳ 2P,Q S = R
n
yk
1
n
mit x̄
=
= k=1
xk
und R .
n
n
k =1 xk
k=1
n
− n 1
n
2 N − n
sY2
Var
Ȳ 2P,Q S = · yk −
Rx k +
n
n(n − 1) N n
k=1
6.2 Zweiphasige Stichprobenverfahren 207
Beispiel 6.6: Ein Unternehmen stellt technische Produkte her, die einer Qua-
litätskontrolle unterliegen sollen. Dazu stehen zwei Produkttests zur Verfügung:
Eine einfache Kontrolle, die schnell und wenig zeitaufwendig durchführbar ist,
und eine aufwendige, jedoch sehr akkurate Methode. Das Unternehmen möchte
einen Schätzer für die Ausschussproduktion erhalten. Dazu werden n
= 1 000
Produkte mit der einfachen Kontrolle beurteilt. Es wurden 80 fehlerhafte Geräte
gefunden. Von den 1 000 ausgewählten Geräten werden 100 zufällig ausgewählt
und der aufwendigen Kontrolle unterworfen. Es ergaben sich folgende Anzahlen:
Wir kodieren die Ergebnisse wie folgt. Es sei X ein Indikator ob ein Produkt in
der ersten Phase als defekt befunden wurde (X = 1) oder nicht (X = 0). Damit
erhalten wir in der Stichprobe der ersten Phase x̄
= 0, 08. Weiter notieren wir
mit Y , ob ein Produkt in der zweiten Phase als defekt befunden wurde (Y =
1) oder nicht (Y = 0). Basierend auf der Stichprobe erhalten wir ȳ = 0, 15.
Wir modellieren eine Proportionalität zwischen X und Y und wollen daher den
zweiphasigen Quotientenschätzer zur Anwendung bringen mit
= 15 = 1, 5.
R
10
Ȳ 2P,Q S = 1, 5 · x̄
= 1, 5 · 0, 08 = 0, 12.
Zur Berechnung der Varianz nehmen wir an, dass die Population sehr groß ist,
d.h. wir können den Korrekturfaktor (N − n
)/N vernachlässigen. Somit lässt
sich die Varianz schätzen durch
n
− n 1
n
s2
Var
Ȳ 2P,Q S = · yk − k 2+ Y
Rx
n
n(n − 1) n
k=1
erhält man
0, 128
Var
Ȳ 2P,Q S = 0, 000682 + = 0, 00081.
1 000
208 6 Mehrstufige und mehrphasige Verfahren
Als Standardabweichung folgt Var
Ȳ 2P,Q S = 0, 028. Dies resultiert in
dem 95%- Konfidenzintervall
0, 12 ± 1, 96 · 0, 028 = 0, 12 ± 0, 055.
Nehmen wir an, wir teilen die erste Stichprobe vom Umfang n
in die Schichten 1
bis M mit beobachtetem Schichtumfang n
h , h = 1, . . . , M. Eine zweite Stichprobe
6.2 Zweiphasige Stichprobenverfahren 209
vom Umfang n wird geschichtet gezogen mit Stichprobenumfang n h für die h-te
Schicht. Der zweiphasige geschichtete Schätzer ergibt sich zu
M
n
Ȳ 2P,G S = h
ȳh ,
n
h=1
n h
mit ȳh = k=1 yhk /n h als arithmetischem Mittel der h-ten Schicht und yhk als k-te
Beobachtung in der h-ten Schicht. Der Schätzer ist erwartungstreu und die Varianz
ergibt sich zu
N − n
SY2
Nh 1 n
h
M
Var Ȳ 2P,G S = · + − 1 · Sh2 .
N − 1 n
N n
nh
h=1
Die Varianz kann dabei durch die empirischen Größen der Stichprobe geschätzt
werden.
Herleitung: Man kann wie zuvor durch die Technik des Bedingens auf die erste Phase die
Eigenschaften des Schätzers
Ȳ 2P,G S ableiten. Es gilt
E Ȳ 2P,G S = E E Ȳ 2P,G S |1.Phase = E ȳ
= Ȳ .
Hierbei wurde genutzt, dass das Design der geschichteten Stichprobe in der neuen Grund-
gesamtheit einen erwartungstreuen Schätzer liefert. Zur Bestimmung der Varianz von Ȳ 2P,G S
bestimmen wir zunächst die bedingte Varianz des geschichteten Schätzers:
M
2
nh n
h − n h sh
2
Var Ȳ 2P,G S |1.Phase = ·
n
n
h − 1 n h
h=1
M
2
n 1 n
h
= h
· · − 1 · sh
2
n
n
h nh
h=1
M
n 1 n
h
= h
· · − 1 · sh
2 ,
n
n
nh
h=1
n
h 2
mit sh
2 = i=1 yhi − ȳh
/ n
h − 1 . Wir nehmen an, dass die Quotienten n
/n und n
h /n h
für h = 1, . . . , M vor Stichprobenziehung fixiert wurden, beispielsweise soll die zweite Stich-
probe aus 10% der ersten Stichprobe bestehen. Ferner ist n
als der Gesamtstichprobenumfang
der ersten Stichprobe bekannt. Somit sind nur n
h /n und sh
2 zufällig und es folgt
Nh 1 n
h
M
E Var Ȳ 2P,G S |1.Phase = − 1 · Sh2 ,
N n
nh
h=1
Nh
mit Sh2 = (Yhi − Ȳh )2 .
Nh − 1
i=1
Da der geschichtete Schätzer erwartungstreu ist, ergibt sich weiter
210 6 Mehrstufige und mehrphasige Verfahren
N − n
SY2
Var E Ȳ 2P,G S |1.Phase = Var( ȳ
) = · .
N − 1 n
Nh 1 n
h
M
N − n
SY2
Var Ȳ 2P,G S = ·
+ − 1 · Sh2 .
N −1 n N n
nh
h=1
M
n
Ȳ 2P,G S = h
ȳh ,
n
h=1
mit
nh
yhk
ȳh = .
nh
k=1
N − n
sY2
n
h n
h
M
Var Ȳ2P,G S = ·
+ − 1 · sh2 ,
N n n
2 nh
h=1
mit
1
h n
sh2 = (yhk − ȳh )2 ,
nh − 1
k=1
1
n
sY =
2 (yk − ȳ)2 .
n−1
k=1
6.3 Zweiphasige Stichprobe zum Umgang mit Non-Respondern 211
n
n
Ȳ G S = 1
ȳ1 + 2
ȳ2 ,
n n
N − n
n
2 − n 2 n
2 2
Var Ȳ G S = · S 2
+ S .
(N − 1) n
Y
(n
− 1) n 2 n
2
Man beachte, dass wir in Schicht 1, der Schicht der Responder, in der zwei-
ten Phase formal eine Vollerhebung durchführen. Somit ist der Beitrag zur zweiten
Komponente der Varianz gleich 0.
In der Praxis ist dieser Umgang mit Non-Respondern nicht immer sinnvoll durch-
zuführen. Typischerweise werden auch im zweiten Versuch viele Befragte keine
Antwort geben. Dies führt dann eventuell zu einer noch stärkeren Verzerrung als bei
einer einfachen Zufallsstichprobe, bei der nur die Responder berücksichtigt wer-
den. Andere Möglichkeiten des Umgangs mit Non-Respondern werden in Kap. 7
diskutiert.
212 6 Mehrstufige und mehrphasige Verfahren
= M· n.
N
m
Die Varianz des Schätzers ergibt sich mit Hilfe der Delta-Methode und der Vari-
anz der hypergeometrischen Verteilung. Man erhält als Schätzer:
Var( ) = M n (M − m) (n − m) .
N
m3
Capture-Recapture Stichprobe
= M·
m.
n
N
Var( ) = M n (M − m) (n − m) .
N
m3
6.5 Beispiel 213
Diese Methode wurde ursprünglich bei der Zählung von Wildpopulationen an-
gewendet. Aktuell wird sie auch in der medizinischen und sozialwissenschaftlichen
Forschung benutzt.
6.5 Beispiel
1 1
pi = pb · · .
Anzahl der HH in einem Gebäude Anzahl der Personen im Haushalt
Weiter ist zu beachten, dass ein relevanter Teil der Bevölkerung in Deutschland
in Institutionen lebt (Altersheime, Studentenwohnheime, Bundeswehr, etc.). Diese
müssen bei der Ziehung ebenfalls berücksichtigt werden. Dies ist einfach durch Ein-
ordnen der Institutionen als den Gebäuden entsprechenden Einheiten zu erreichen.
Weitere Details finden sich in Schnell (2008).
214 6 Mehrstufige und mehrphasige Verfahren
In der dritten Stufe wird dann aus den gezogenen Haushalten die gewünschte
Menge an Individuen per einfacher Zufallsauswahl gezogen. Die praktische Um-
setzung erfolgte durch eine Tabelle, in der abhängig von der Anzahl der relevanten
Personen im Haushalt die Nummer des zu ziehenden Elements steht. Man spricht
bei diesem Verfahren auch von einem „Schwedenschlüssel“, engl. „kish-selection-
grid“.
6.6 Literatur
Da die mehrstufigen Auswahlverfahren in der Praxis sehr häufig angewendet wer-
den, bezieht sich ein großer Teil der aktuellen Forschungsliteratur auf solche Desi-
gns. Im Jahr 2007 wurde sogar eine im Internet frei verfügbare Zeitschrift gegrün-
det, die Zeitschrift „Survey Research Methods“, siehe Lynn und Schnell (2007).
Die mehrstufigen Verfahren zur Bestimmung von Populationsgrößen, die in der
Ökologie angewendet werden, wie z.B. Capture-Recapture Verfahren, werden in
dem Buch „Advanced Distance Sampling“ von Buckland, Anderson, und Burhham
(2008) ausführlich behandelt.
Eine aktuelle Zusammenfassung bieten zwei Sammelbände aus der Reihe Hand-
book of Statistics (Band 29A, 29B). Hier sind insbesondere Abschnitte über kom-
plexe Designs (Berger & Tillé, 2009) und über mehrphasige Stichproben (Legg &
Fuller, 2009) zu finden. Mit Erweiterungen von Regressionsschätzern auf komplexe-
re Designs haben sich Opsomer (2009) und Breidt und Oposmer (2009) beschäftigt.
Die Umsetzung mit R wird in dem Buch von Lumley (2010) behandelt.
Wesentlich ist die Variable ids, mit der die Struktur, d.h. die Stufen der Ziehung
angegeben wird. Mit der Variable probs können die Auswahlwahrscheinlichkeiten
angegeben werden. Schließlich liefert die Variable data die Verbindung zu dem
entsprechenden Datensatz.
Die Schätzung erfolgt wieder durch die Funktion svymean(·).
Mit x wird ein Formelobjekt übergeben, das im einfachsten Fall die Form ∼y
hat. Mit design wird das vorher definierte Stichprobendesign übergeben.
Wir betrachten eine zweistufige Stichprobe mit dem interessierenden Merkmal
y. Die Daten seien wie folgt gegeben.
> print(data)
cluster id nl Nl M y
1 1 1 4 100 23 23
2 1 2 4 100 23 33
3 1 3 4 100 23 24
4 1 4 4 100 23 25
5 2 1 3 50 23 72
6 2 2 3 50 23 74
7 2 3 3 50 23 71
8 3 1 2 75 23 37
9 3 2 2 75 23 42
Die Einheiten erster Stufe werden durch die Variable cluster definiert. Hier
wurden 3 Gruppen von insgesamt M = 23 Gruppen gezogen. Die Variable M wird
für die weitere Berechnung benötigt und ist daher in dem Datensatz als eigene Va-
riable gegeben. Weiter sind die Einheiten innerhalb der Gruppen mit der Variablen
id gekennzeichnet. Zusätzlich sind der jeweilige Stichprobenumfang und der Ge-
samtumfang der Gruppen durch die Variablen nl bzw. Nl gegeben.
Wir gehen zunächst von einer einfachen Zufallsstichprobe auf beiden Stufen aus
und berechnen den Quotientenschätzer Ȳ 2S,Q S nach Formel (6.6). Es gilt hierzu
das Stichprobendesign zu definieren. In der Variablen ids wird die Formel sequen-
216 6 Mehrstufige und mehrphasige Verfahren
tiell mit cluster+id angegeben. Die Variable cluster bezeichnet die Gruppen
(1. Stufe) und die Variable id die Individuen (2. Stufe). Entsprechend werden die
Populationsgrößen für den Korrekturfaktor für endliche Populationen angegeben.
Die Populationsgröße beträgt auf der ersten Stufe M, auf der zweiten Stufe Nl. Auch
dies wird sequentiell notiert als additive Formel M+Nl.
Da die Ziehung nach dem Prinzip der einfachen Zufallsstichprobe erfolgt, sind
keine weiteren Angaben zu der Variablen probs nötig. Das Stichprobendesign wird
folgendermaßen definiert.
Durch die summary(·)-Funktion wird das Design dargestellt, was zur Kontrol-
le sehr hilfreich ist. Sie liefert neben der Bezeichnung des Designs (hier 2-level
Cluster design) eine Beschreibung der Verteilung der Ziehungswahrscheinlichkei-
ten. In unserem Beispiel sind diese Nl nl
· 23
3
. Den kleinsten Wert erhält man für die
Untersuchungseinheiten 8 und 9. Da mit den inversen Auswahlwahrscheinlichkei-
ten gewichtet wird, können kleine Auswahlwahrscheinlichkeiten oder eine starke
Streuung der Auswahlwahrscheinlichkeiten zu Problemen führen.
Nach Definition des Designs kann nun der Schätzer für den Mittelwert der in-
teressierenden Größe wie schon im letzten Kapitel mit der Funktion svymean(·)
berechnet werden.
mean SE
y 40.907 10.931
Die Varianzschätzung in dem survey-Paket basiert auf einer etwas anderen Ap-
proximationsformel als Formel (6.7). Die Details finden sich in Lumley (2010) und
sollen hier nicht weiter erörtert werden.
6.7 Numerische Umsetzung 217
Ist bei der Auswahl der Gruppen keine einfache Zufallsauswahl vollzogen wor-
den, sondern wurden die Gruppen mit Auswahlwahrscheinlichkeit proportional zu
ihrer Gruppengröße gezogen, so müssen die entsprechenden Auswahlwahrschein-
lichkeiten bei der Spezifikation des Stichprobendesigns mit angegeben werden. Wie
in obigem Kapitel berechnet sind diese proportional zu nl und können in der Spezi-
fikation des Stichprobendesigns angegeben werden durch prob=∼nl. Die Kenntnis
des Gesamtumfangs N der Population ist nicht erforderlich. Die entsprechenden
Befehle lauten wie folgt.
Man beachte, dass wie im obigen Kapitel erwähnt die Berechnung der Varianz
bei einem reinen PPS Design schwierig ist und man statt dessen übergeht zu ei-
nem Design mit Zurücklegen und den entsprechenden Schätzer
Ȳ 2S,H H nach (6.10)
berechnet. Dies wird in der Zusammenfassung des Designs nach Aufruf der Funkti-
on summary(·) expilzit durch den Hinweis „with replacement“ angegeben. Der
entsprechende Schätzer ergibt sich nun wie gehabt durch
mean SE
y 46.028 13.698
Wir illustrieren das Vorgehen anhand des Beispiels 6.6 (siehe S. 207). Dazu ge-
ben wir zunächst die entsprechenden Daten an, die im Prinpzip einem Datensatz mit
1 000 Einträgen entsprechen würden. Diese n
= 1 000 Individuen wurden in der er-
sten Phase gezogen, wovon n = 100 in der zweiten Phase bezüglich des Merkmals
Y noch einmal erhoben wurden. Das heißt für Merkmal Y liegt nur Information von
100 Individuen vor. Ein entsprechender Datensatz sieht wie folgt aus
Dabei entspricht die Variable x (x=1 für „defekt“ und x=0 für „in Ordnung“) der
ersten einfachen Kontrolle, die in der ersten Phase durchgeführt wird. Die Varia-
ble y bezeichnet die zweite (genaue) Kontrolle (y=1 für „defekt“ und y=0 für „in
Ordnung“). Die Variable phase gibt an, zu welcher Phase die Daten gehören.
Da es sich um binäre Daten handelt, kann der Datensatz aufgrund der Angaben
aus der Vierfeldertafel auf S. 207 wie folgt erzeugt werden.
id x y phase
1 1 1 1 2
2 2 1 1 2
3 3 1 1 2
4 4 1 1 2
6.7 Numerische Umsetzung 219
5 5 1 1 2
6 6 1 1 2
[1] 0.08
[1] 1000
[1] 0.1287879
220 6 Mehrstufige und mehrphasige Verfahren
[1] 0.02847114
Man erkennt, dass der Standardfehler sich nicht wesentlich von dem der zweiten
Phase unterscheidet. Dies ist mit dem relativ hohen Stichprobenumfang (n
= 1 000)
in der ersten Phase zu erklären.
Das hier beschriebene Vorgehen ist für die drei Typen von designbasierten Schät-
zern unmittelbar übertragbar. Bei komplexeren Designs kann die – allerdings etwas
schwer zu benutzende – Prozedur twophase(·) des Pakets survey verwendet wer-
den, siehe Lumley (2010).
che Populationen sind mit fpc zur Verfügung gestellt, wobei NULL bedeutet, dass
die Populationsgröße unbekannt ist. Die Angabe der Phasen erfolgt mit subset und
schließlich wird mit data der entsprechende Datensatzname übergeben.
Wir greifen Beispiel 6.6 nochmals auf. Die Daten stehen gemäß Tabelle 6.2
zur Verfügung bzw. sind wie oben beschrieben eingelesen. Nun betrachten wir die
Variable x als Schichtungsmerkmal. Da zur Definition des Stichprobendesigns die
Schichtgrößen n
h in der ersten Phase benötigt werden, wird diese Information zuerst
durch die Variable nh.strich in den Datensatz aufgenommen.
Anschließend bestimmen wir das Design. Gezogen werden in der ersten und
zweiten Phase die Individuen id. Die Ziehung der ersten Phase ist nicht geschichtet,
deshalb wird für strata der Wert NULL übergeben, die zweite Phase ist durch die
Variable x geschichtet. Die zweite Phase wird durch subset spezifiziert, wobei
die unten stehende Angabe durch die Funktion I(·) bewirkt, dass erst die ent-
sprechende Auswertung phase==2 durchgeführt wird. Schließlich sind die Popu-
lationsgrößen für die Phasen durch fpc angegeben. Der Funktionsaufruf ist somit
wie folgt.
Stratum Sizes:
0 1
obs 90 10
design.PSU 90 10
actual.PSU 90 10
Population stratum sizes (PSUs):
0 1
920 80
Data variables:
[1] "id" "x" "y" "phase" "nh.strich"
mean SE
y 0.13111 0.0238
Es muss vermerkt werden, dass die Berechnung der Varianzen mit svymean(·) ap-
proximativ ist, siehe Lumley (2010). Letztendlich ist die Approximation allerdings
in konkreten Anwendungen hinreichend genau, so dass den Ergebnissen der Funk-
tion Vertrauen geschenkt werden kann.
Kapitel 7
Probleme in der Anwendung
In diesem Kapitel sollen einige konkrete und in der Anwendung besonders relevante
Probleme diskutiert werden. Zunächst beschäftigen wir uns kurz mit räumlichen
Stichproben und deren Besonderheiten. Weitergehend greifen wir den Punkt von
fehlenden Werten auf. Bei der Behandlung von fehlenden Werten lassen sich häufig
nur prinzipielle Überlegungen zu möglichen Verzerrungen der Ergebnisse machen.
Auch wenn in der Literatur einige Ansätze zur Behandlung fehlender Werte bereit
stehen, sind diese häufig wegen des Fehlens der entsprechenden Information nicht
anwendbar. Wir beschränken uns daher nur auf die Grundlagen und verweisen für
die Verfahren auf die Literatur.
Ein weiterer Abschnitt des Kapitels ist dem Thema Anonymisierung von Da-
ten und sogenannten Randomized-Response-Techniken gewidmet. Diese Verfah-
ren weisen starke Analogien zur Theorie von Messfehlern und falschen Antworten
auf, die wir in Abschn. 7.4 behandeln. In der Praxis werden Probleme der Nicht-
Beantwortung bzw. Nicht-Erreichbarkeit mit Strategien der nachträglichen Schich-
tung verbunden, indem Stichprobengewichte eingeführt werden. Diesem Ansatz ist
der letzte Abschnitt des Kapitels gewidmet.
Abb. 7.1 Aufteilung in Schichten in Form von Quadraten (links) ist meist wesentlich effizienter
als die Aufteilung in Rechtecke (rechts)
7.2 Fehlende Werte und nicht erreichbare Individuen 225
spielsweise für die Schadstoffbelastung im Boden interessiert und man hat in einem
Planquadrat eine hohe Belastung gefunden, erlaubt ein adaptives Verfahren, dass
dann die Ziehungswahrscheinlichkeit für benachbarte Einheiten höher angesetzt
wird. Dieses Vorgehen muss natürlich bei der Parameterschätzung berücksichtigt
werden. Eine Einführung zu diesen Verfahren ist in Thompson (2002) zu finden.
Ein aktueller Überblick zu räumlichen Stichproben in der Umweltforschung findet
sich in Marker und Stevens (2009).
• Als antwortbereit bezeichnen wir die Personen in der Grundgesamtheit, die er-
reichbar, gewillt und fähig sind, die gestellte Frage zu beantworten. Für antwort-
bereite Personen erhält man somit eine gültige Antwort, falls diese in die Stich-
probe gezogen werden. Falls die Untersuchungseinheiten keine Personen sind,
fallen auf andere Weise erhebbare Werte in diesen Bereich. Entscheidend ist ein
gültiger resultierender Wert.
• Als nicht antwortbereit bezeichnen wir die Personen in der Grundgesamtheit,
die nicht erreichbar sind oder erreichbar sind, aber die gestellte Frage nicht beant-
worten wollen oder können. Für nicht antwortbereite Personen erhält man somit
aus unterschiedlichen Gründen keine gültige Antwort, falls diese in die Stichpro-
be gezogen werden. Falls die Untersuchungseinheiten keine Personen sind, fallen
aus anderen Gründen nicht erhebbare Werte in diesen Bereich. Entscheidend ist
ein fehlender Wert.
• Als Antworter bezeichnen wir die Personen bzw. Untersuchungseinheiten, die
in die Stichprobe gezogen wurden und für die ein gültiger Wert erhoben werden
konnte.
• Als Antwortverweigerer bezeichen wir die Personen bzw. Untersuchungsein-
heiten, die in die Stichprobe gezogen wurden, für die aber dennoch kein gültiger
Wert erhoben werden konnte.
In der Grundgesamtheit:
G Grundgesamtheit
Ȳ Mittelwert in der Grundgesamtheit
In der Stichprobe:
n geplanter Stichprobenumfang
n1 realisierter Stichprobenumfang
y11 , . . . , y1n 1 tatsächlich beobachtete Werte
ȳ1 Mittelwert der Antworter
Bei der Auswertung einer Stichprobe können die Personen, die zu G 2 gehören
und somit nicht geantwortet haben, nicht in die Schätzung einbezogen werden. Wir
verwenden im Folgenden die Notation aus der nachträglich geschichteten Stich-
probe. Mit y11 , . . . , y1n 1 werden die tatsächlich beobachteten Werte der Stichprobe
bezeichnet, mit y21 , . . . , y2n 2 die nicht erhebbaren Werte der nicht antwortenden
Personen.
Zur Schätzung von Ȳ ist es naheliegend, das arithmetische Mittel der beobachte-
ten Werte („complete cases“) zu verwenden:
n1
Ȳ CC = y1k = ȳ1 . (7.1)
n1
k=1
Aus dieser einfachen Formel sind folgende Eigenschaften der Verzerrung durch
Antwortverweigerung abzuleiten:
1. Die Verzerrung hängt von der Größe des Unterschieds der Mittelwerte Ȳ1 und Ȳ2
ab. Sind beide Mittelwerte gleich, so gibt es keine Verzerrung. Im konkreten Fall
ist dies natürlich schwer zu entscheiden, da für die Antwortverweigerer keine
Daten vorliegen. Hierzu sind häufig inhaltliche Überlegungen nötig. Im Fall des
Einkommens ist also zu überlegen, ob die Antwortverweigerer eher Personen mit
überdurchschnittlichem Einkommen sind oder diejenigen mit unterdurchschnitt-
lichem Einkommen. Falls das Einkommen und die Bereitschaft zu antworten
voneinander unabhängig sind, d.h. die Durchschnittseinkommen von Antwortern
und Antwortverweigerern praktisch identisch sind, gibt es keinen systematischen
Fehler.
2. Die Verzerrung ist weiterhin von dem Anteil der Antwortverweigerer abhängig.
Je höher dieser ist, desto größer ist der systematische Fehler. Allerdings lassen
sich daraus keine allgemeingültigen Regeln, wie z.B. „Bei einer Rate von 80%
Antwortern ist der Fehler durch Antwortverweigerung vernachlässigbar“ ablei-
228 7 Probleme in der Anwendung
ten, da die Verzerrung (wie unter Punkt 1 beschrieben) auch von der Größe des
Unterschieds der Mittelwerte Ȳ1 und Ȳ2 abhängt.
Zur Schätzung von Ȳ wird das arithmetische Mittel der beobachteten Werte
(„complete cases“) verwendet.
n1
Ȳ CC = y1k = ȳ1 .
n1
k=1
Dabei wird der Anteil der Grünen-Wähler bei den Listenwählern mit Ȳ1 und
der Anteil der Persönlichkeitswähler (noch nicht ausgezählt) mit Ȳ2 bezeichnet.
Der Bias hängt also vom Unterschied der Anteile bei den Listenwählern und
den Persönlichkeitswählern ab. Um für diese eine Einschätzung zu erhalten, hätte
man Ergebnisse der letzten Wahl heranziehen können. Es stellte sich nach der
Auszählung aller Stimmen heraus, dass der Unterschied erheblich war. Die SZ
titelte am Dienstag „Das Blatt wendet sich zugunsten von Rot-Grün“. In der
folgenden Tabelle sind die Endergebnisse beider Wählergruppen und der Bias
dargestellt.
Das obige Beispiel zeigt deutlich, dass die Betrachtung von Teilen der Grundge-
samtheit zu erheblichen Verzerrungen führen kann. Obwohl die „Stichprobe“ hier
sehr groß ist (70%), ist der direkte Schluss auf die Grundgesamtheit nicht korrekt.
Eine Zufallsstichprobe hätte sicherlich zu besseren Ergebnissen geführt (siehe dazu
auch Abschn. 2.3). Generell kommen durch das Auftreten von fehlenden Werten
bzw. Antwortverweigerern möglicherweise nicht-zufällige, d.h. systematische und
damit verzerrende Effekte zur Wirkung.
Gabler und Häder (1999). Danach wurde aus den in dem Haushalt lebenden
Personen zwischen 15 und 74 Jahren eine Person nach dem Prinzip der einfa-
chen Zufallsstichprobe gezogen. Die praktische Umsetzung erfolgte durch eine
Tabelle, in der abhängig von der Anzahl der relevanten Personen im Haushalt
die Nummer des zu ziehenden Elements steht. Man spricht bei diesem Verfahren
auch von einem „Schwedenschlüssel“, engl. „kish-selection-grid“.
Die Erhebung wurde zu zwei verschiedenen Zeitpunkten wiederholt und es
stellte sich heraus, dass es völlig unplausible Unterschiede zwischen den zwei
Erhebungen gab. In der Pilotstudie lag die Schätzung der erwerbstätigen Personen
bei über 39 Mio. und in der Hauptstudie bei unter 38 Mio. Der einzige nennens-
werte methodische Unterschied zwischen diesen beiden Erhebungen bestand in
der Tageszeit, zu der die Haushalte angerufen wurden. Bei der einen Erhebung
wurde zwischen 9 und 21 Uhr angerufen und bei der zweiten Erhebung nur zwi-
schen 17 und 21 Uhr. Das bekannte Problem, dass berufstätige, allein lebende
Personen tagsüber nicht telefonisch erreichbar sind, sollte in beiden Erhebungen
dadurch gelöst werden, dass im Fall des Nicht-Antreffens der ausgewählten Per-
sonen ein weiterer Versuch der Kontaktaufnahme zwischen 20 und 21 Uhr erfolg-
te. Also kann der Unterschied in der Verteilung der Berufsgruppen zwischen den
beiden Erhebungen nicht direkt auf dieses Problem zurückgeführt werden.
Eine weitere Analyse des Nicht-Antworter-Verhaltens ergab, dass bei einer
solchen freiwilligen Befragung mehrere Hürden zu überwinden sind. Zunächst
können die Angerufenen die Teilnahme direkt verweigern. Das trat in beiden
Befragungen in 40% der Fälle auf. Nach der prinzipiellen Bereitschaft zur Teil-
nahme gibt der Angerufene die Zahl der in dem Haushalt lebenden Personen im
entsprechenden Alter an. Dann wird mit dem Schwedenschlüssel die Zielperson
ermittelt. Ist diese die Person am Telefon, so wird das Interview direkt durch-
geführt. Da im Laufe des Interviews einige wenige Personen abbrechen, kommt
es in 95% der Fälle zu einer erfolgreichen Erhebung. Stimmt die Person nicht
mit der Zielperson überein, kommt es zu einer höheren Ausfallrate (ca. 32%),
da die andere Person von sich aus die Antwort verweigern kann oder nicht er-
reichbar ist. Das Auftreten von fehlenden Werten hängt also stark davon ab, ob
die Person am Telefon die Zielperson ist. In Tabelle 7.1 sind die Ergebnisse nach
der Frage der Erwerbstätigkeit bei den beiden Befragungen dargestellt. Man er-
kennt, dass der Anteil der Erwerbstätigen bei den Personen, die direkt befragt
Tabelle 7.1 Ergebnisse zweier Telefonbefragungen zur Erwerbstätigkeit nach Asef und Riede
(2006). Der wesentliche Unterschied der beiden Befragungen lag in der Zeit der ersten Kontakt-
aufnahme
Erstkontakt vor 17 Uhr Erstkontakt nach 17 Uhr
Kontaktperson = Zielperson = Zielperson = Zielperson = Zielperson
(%) (%) (%) (%)
Anteil 55 45 54 46
erfolgreiches 94 68 95 67
Interview
Erwerbstätigkeit 55 63 67 69
7.2 Fehlende Werte und nicht erreichbare Individuen 231
M
Nh
Ȳ = · Ȳh .
N
h=1
M
Nh
Ȳ CC,G S = · ȳh1
N
h=1
verwendet.
Der Erwartungswert des Schätzers ist
M
Nh
E Ȳ CC,G S = · Ȳh1 .
N
h=1
M
Nh
E Ȳ CC,G S − Ȳ = · (1 − Wh1 ) · (Ȳh1 − Ȳh2 ). (7.4)
N
h=1
Hierbei bezeichnet Wh1 den Anteil der Antworter in Schicht h und Ȳh1 bzw. Ȳh2
die Mittelwerte der Antworter bzw. Nichtantworter in Schicht h. Die Formel (7.4)
232 7 Probleme in der Anwendung
zeigt, dass sich der Antwortverweigerer-Bias aus den entsprechenden Größen in-
nerhalb der Schichten ergibt. Somit werden Effekte vermieden, die daher kommen,
dass das Antworterverhalten in den Schichten unterschiedlich ist, wie folgendes hy-
pothetisches Beispiel zeigt.
Beispiel 7.3: Bei einem bestimmten Produkt wird der Preis erhoben, den
eine Person zu zahlen bereit ist. Der Mittelwert in der Grundgesamtheit liegt
bei den Frauen bei 16 e und bei den Männern bei 10 e. Ausgehend von ei-
nem Frauenanteil von 0,5 ergibt sich ein Mittelwert in der Grundgesamtheit von
0,5 · 16 + 0,5 · 10 = 13 e.
Gehen wir davon aus, dass bei einer Befragung alle Männer antworten und
die Frauen zu 50% die Antwort verweigern, kann dies auch zu einer Verzerrung
führen, wenn die Antwortverweigerer unter den Frauen den gleichen Mittelwert
haben wie die antwortenden Frauen.
wickelt, die von Warner (1965) vorgeschlagen worden ist. Die Methode ist in vie-
lerlei Hinsicht modifiziert worden, wobei der Originalvorschlag wie folgt ist.
Auf einen Satz von (Spiel-)Karten wird entweder die Frage „Erfüllen Sie die
Eigenschaft A?“ oder die Gegenfrage „Erfüllen Sie nicht die Eigenschaft A?“ ge-
schrieben. Der Befragte zieht zufällig eine Karte, ohne dass der Interviewer weiß,
zu welcher der beiden Typen die entsprechende Karte gehört. Dann wird die Frage
mit „Ja“ oder „Nein“ beantwortet. Es ist nun gesichert, dass dem Interviewer nicht
bekannt ist, auf welche der beiden Fragen der Befragte geantwortet hat. Damit wird
die Bereitschaft erhöht die Frage korrekt zu beantworten.
Wie lassen sich aus den Daten dennoch Informationen gewinnen? Der Schlüs-
sel dazu liegt darin, dass die Anzahl der verschiedenen Typen von Karten nicht
im Verhältnis 1 : 1 stehen, sondern z.B. im Verhältnis 4 : 1 (oder 3 : 1). Das
bedeutet, dass die Wahrscheinlichkeit, dass die Frage lautet „Erfüllen Sie die Ei-
genschaft A?“ 80% (bzw. 75%) beträgt und die Gegenfrage die Wahrscheinlichkeit
20% (bzw. 25%) hat. Wir zeigen im Folgenden, wie man aus den so gewonnenen
Daten Schätzungen für die entsprechenden Anteile erhält. Dazu führen wir folgende
Bezeichnungen ein.
n Stichprobenumfang
Die Größe Yi∗ bezeichnet die Antwort des i-ten Individuums auf die zufällig
gezogene Frage, während Yi seinen wahren Status, also die Antwort auf die Frage
„Erfüllen Sie die Eigenschaft A?“ bezeichnet. Wir interessieren uns für PY , also
den Anteil der Personen mit Eigenschaft A. Wir bezeichnen die bekannte Wahr-
scheinlichkeit für die Ziehung der Frage mit p A . Dann ist die Wahrscheinlichkeit
für die Gegenfrage 1 − p A . Daraus ergibt sich für den erwarteten Anteil PY ∗ , dass
die (zufällige) Frage mit „Ja“ beantwortet wird:
PY ∗ = P(Y ∗ = 1) = p A · PY + (1 − p A ) · (1 − PY ). (7.5)
Die Antwort „Ja“ kann also von einer Person mit Eigenschaft A kommen, welche
die Ursprungsfrage als Karte zieht, oder von einer Person ohne Eigenschaft A mit
gezogener Gegenfrage. Durch einfache Umformung der Gl. (7.5) ergibt sich für
p A = 12
PY ∗ + p A − 1
PY = . (7.6)
2 pA − 1
Wir gehen zunächst davon aus, dass die Personen korrekt antworten. Nun kann
aus den Daten der erwartete Anteil PY ∗ durch die relative Häufigkeit pY ∗ geschätzt
werden. Dies ermöglicht es aus den erhobenen Daten eine Schätzung für PY her-
zuleiten, indem in Formel (7.6) auf der rechten Seite der Gleichung PY ∗ durch pY ∗
ersetzt wird. Man erhält
nY ∗
+ pA − 1
Y =
P n
. (7.7)
2 pA − 1
Hierbei ist n Y ∗ die Anzahl der Personen, die die Frage mit „Ja“ beantworten. Da
die Ziehungswahrscheinlichkeit p A bekannt ist, ergibt sich die Varianz des Schät-
Y als
zers P
Y ) = 1 1
Var( P · PY ∗ · (1 − PY ∗ ) . (7.8)
n (2 p A − 1)2
Y ) = 1 p A · (1 − p A )
Var( P · PY · (1 − PY ) + . (7.9)
n (2 p A − 1)2
7.3 Behandlung delikater Fragen und Anonymisierungvon Daten 235
Schätzung im Randomized-Response-Modell
Sei n Y ∗ die Anzahl der Personen, die die (im Einzelfall) unbekannte Frage
mit „Ja“ beantworten.
Var( Y ) = 1 · P
P Y ) + p A · (1 − p A ) .
Y · (1 − P
n (2 p A − 1)2
Die Formel (7.9) zeigt, dass die Varianz aus zwei Teilen besteht. Der erste Teil
entspricht der Varianz aus der einfachen Zufallsstichprobe ohne Verwendung der
Randomisierung der Antworten. Der zweite Teil ist gewissermaßen der Preis, den
man für die Randomisierung zahlen muss. Je näher p A bei 1 liegt, umso geringer ist
dieser Anteil. Für p A = 12 enthält die Stichprobe keine Information, was in Formel
(7.9) dadurch zum Ausdruck kommt, dass Var( P Y ) sehr groß wird, falls p A nahe
1
bei 2 liegt. Neben dieser Form des Randomized-Response werden in der Literatur
noch andere Verfahren diskutiert, siehe z.B. Chaudhuri und Mukerjee (1988). Einen
guten Überblick über die verschiedenen Entwicklungen im Gebiet der Randomized-
Response Verfahren bietet van den Hout und van der Heijden (2002).
Die obigen Überlegungen lassen sich auch auf Daten übertragen, die mit Hilfe
der sogenannten Post Randomization Method (PRAM) anonymisiert sind. Hierbei
geht es darum, Daten zur Wahrung der Anonymität der befragten Personen oder Fir-
men zu verfälschen. Hierbei wird mit einer bestimmten Wahrscheinlichkeit p A die
Antwort auf eine Frage mit zwei Antwortmöglichkeiten nachträglich in die andere
Kategorie verändert. Diese „Fälschung“ der Daten entspricht genau dem Stellen der
Gegenfrage bei dem Randomized-Response Design. Da auch hier die Wahrschein-
lichkeit p A bekannt ist, können die Formeln (7.8) und (7.9) direkt für mit dieser
Methode verfälschte Daten angewendet werden. Zum weiteren Umgang mit solchen
Daten siehe z.B. Ronning (2005).
236 7 Probleme in der Anwendung
n
∗
E( ȳ ) = E yk = E (yk + k )
n n
k=1 k=1
n n
1
1
=E yk + E k = Ȳ + 0 = Ȳ ,
n n
k=1 k=1
n n
∗ 1
∗ 1
Der Schätzer ȳ ∗ ist erwartungstreu, hat aber eine etwas höhere Streuung. Falls
σ im Verhältnis zu der Streuung der y-Werte gering ist, kann diese vernachlässigt
7.4 Mess-und Erhebungsfehler 237
werden. Nun ist zu beachten, dass bei der Schätzung der Varianz von ȳ ∗ ebenfalls
die fehlerbehafteten Daten verwendet werden, also die Varianz wie folgt geschätzt
wird (siehe Formel S. 22)
N −n 1
n
2
Var( ȳ ∗ ) = · yk∗ − ȳ ∗ .
N n(n − 1)
k=1
1 N −n 1
E(Var( ȳ ∗ )) = Var( ȳ ∗ ) − · σ2 + · · σ2
n N n
∗ 1
= Var( ȳ ) − ·σ .
2
N
Die Formel ist dadurch zu erklären, dass für den Messfehler keine Korrektur für
endliche Populationen gemacht werden kann. Der Unterschied zwischen den beiden
Schätzern ist für große Grundgesamtheiten irrelevant. Für kleine Grundgesamthei-
ten und bekannten Messfehler kann der Term σN zur Varianzschätzung hinzugefügt
2
N −n 1
n
2 σ 2
Var( ȳ ∗ ) = · yk∗ − ȳ ∗ +
N n(n − 1) N
k=1
In der medizinischen Diagnostik wird die Wahrscheinlichkeit p11 auch als Sen-
sitivität und die Wahrscheinlichkeit p00 als Spezifität bezeichnet. In diesem Fall ist
Y = 1, falls die Person erkrankt ist und Y ∗ = 1 bezeichnet die Diagnose (Erhebung)
der Krankheit.
Ähnlich wie in Formel (7.5) kann man nun die Wahrscheinlichkeit dafür, dass
der erhobene Wert 1 ist berechnen
P(Y ∗ = 1) + p00 − 1
P(Y = 1) = . (7.11)
p11 + p00 − 1
Damit kann bei gegebenen Wahrscheinlichkeiten für korrekte Antworten p11 und
p00 der Anteil von 1 bei den korrekten Y -Werten geschätzt werden. Basierend auf
einer Stichprobe vom Umfang n seien n 1 (< n) Beobachtungen mit Y ∗ = 1 erhalten
worden. Ersetzt man nun den erwarteten Anteil P(Y ∗ = 1) in Formel (7.11) durch
den beobachteten Anteil nn1 , so ergibt sich der Schätzer
n1
+ p00 − 1
P
Y = P(Y = 1) = n
. (7.12)
p11 + p00 − 1
Da die Größen p00 und p11 fest sind, ergibt sich die Varianz zu
Y ) = 1 n1 n1 1
Var( P · · 1− · . (7.13)
n n n ( p11 + p00 − 1)2
7.5 Gewichtung
Häufig werden bei Datensätzen, die aus Zufallsstichproben stammen, neben den
Einzelwerten zusätzlich Gewichte der einzelnen Beobachtungen mit angegeben.
Diese bestehen häufig nicht einfach aus den inversen Auswahlwahrscheinlichkeiten,
7.5 Gewichtung 239
n
Ȳ = yk (7.14)
n
k=1
n
wk · yk
Ȳ =
k=1
. (7.15)
n
wk
k=1
Eine Interpretation von Gewichten ist die Anzahl der Personen der Grundgesamt-
heit, die die gezogene Einheit „repräsentiert“. Wenn die Stichprobe „repräsentativ“
ist, sollte sich
als Summe der Gewichte der Gesamtumfang der Grundgesamtheit er-
geben, d.h. nk=1 wk = N . Im Fall der einfachen Zufallsstichprobe „repräsentiert“
jedes gezogene Element Nn Elemente der Grundgesamtheit. Im Fall einer geschich-
1 „Es ist nicht immer offensichtlich, wie Gewichte verwendet werden sollen, wenn etwas kompli-
zierteres als ein einfacher Mittelwert oder ein Verhältnis geschätzt werden soll, und Standardfehler
sind bereits bei einfachen gewichteten Mittelwerten kompliziert.“
240 7 Probleme in der Anwendung
M
Nh
Ȳ G S = yh1 .
N
h=1
Die Werte Nh können als Gewichte aufgefasst werden und es ergibt sich ein er-
wartungstreuer Schätzer. Die Gewichtung dient ganz allgemein dazu, Verzerrungen,
die der einfache Mittelwertschätzer (7.14) hat, zu beheben und/oder seine Effizienz
zu verbessern. Wir stellen im Folgenden das Vorgehen der Gewichtung zur Behand-
lung folgender Aspekte vor:
• ungleiche Auswahlwahrscheinlichkeiten
• Nichtbeantworter-Problematik (Nonresponse-Bereinigung)
• nachträgliche Schichtung (Modellbasierte Korrektur)
1
yk
n
Ȳ H T =
N πk
k=1
Element „repräsentiert“, sinnvoll. Weiter ergibt sich für die Gewichte der gezogenen
Individuen des Horvitz-Thompson-Schätzers
n n N
1
1
E wk =E =E P(Ii = 1) = N .
πk πi
k=1 k=1 i=1
Dabei sind Ii die in Abschn. 4.1 eingeführten Indikatorfunktionen für die Aus-
wahl des i-ten Elementes der Grundgesamtheit, d.h. Ii = 1 sofern das i-te Individu-
7.5 Gewichtung 241
um Element der Stichprobe ist und Ii = 0 sonst. Es zeigt sich, dass der gewichtete
Schätzer auch dann verwendet werden kann, wenn die Auswahlwahrscheinlichkei-
ten nur bis auf einen Proportionalitätsfaktor bekannt sind oder wenn N unbekannt
ist. Da sich die Gewichte direkt aus dem Stichprobendesign ergeben, werden diese
auch als „Basis-Gewichte“ bezeichnet. Wir verwenden im Folgenden für diese die
Bezeichnung wk(B) .
7.5.2 Non-Response-Bereinigung
Wir wollen uns nun zumindest ansatzweise mit der Problematik beschäftigen, dass
Individuen im Rahmen einer Stichprobe ihre Teilnahme verweigern. Wir gehen dazu
davon aus, dass die Bereitschaft einer Person zu antworten, mit einem stochasti-
schen Modell beschrieben werden kann. Wir bezeichnen dabei die Wahrscheinlich-
keit, dass eine Person antwortet, mit γi . In der Theorie der fehlenden Werte, siehe
z.B. Little und Rubin (1987), werden solche Modelle im Detail beschrieben und
gezeigt, wie diese geschätzt werden. Nehmen wir exemplarisch an, dass die Ant-
wortbereitschaft von Geschlecht, sozialer Schicht und anderen persönlichen Merk-
malen abhängt. Aus erhobenen Daten kann dann ein Modell (häufig ein logistisches
Regressionsmodell) zur Bestimmung der γi verwendet werden. Wenn man die Be-
reitschaft zu antworten als weitere Stufe in dem Auswahlprozess der Stichprobe
auffasst, so ergibt sich:
Wir setzen dabei die Unabhängigkeit von der Bereitschaft zu antworten und der
Ziehung voraus, sprich es liegt beim Ziehungsprozess der Stichprobe keine In-
formation vor, ob ein Individuum eine höhere oder geringere Bereitschaft hat zu
antworten. Damit ergibt sich der erwartungstreue Schätzer für Ȳ aus dem Horvitz-
Thompson-Theorem durch
1
1
n
Ȳ = yk . (7.16)
N πk γk
k=1
Hier ist zu beachten, dass die obige Summe über die Personen läuft, die gezogen
wurden und geantwortet haben. Aus Formel (7.16) ergibt sich die multiplikative Ver-
knüpfung der Gewichte. Daher verwenden wir die inversen Antwortwahrschein-
lichkeiten γ1k als „Non-Response“-Adjustierungs-Gewichte wk(N R) . Die Gesamt-
gewichtung ergibt sich dann als das Produkt der beiden Einzelgewichte.
242 7 Probleme in der Anwendung
πi = · γi .
N
1
yk 1
yk
n n
Ȳ = = . (7.17)
N πk n γk
k=1 k=1
Bei Formel (7.17) ist zu beachten, dass die Summe nur über die n Antworter
läuft. Weiter müssen zur Berechnung die Antwortwahrscheinlichkeiten γk der ge-
zogenen Individuen bekannt sein. Diese können z.B. für bestimmte Gruppen von
Individuen bekannt sein oder aus den Daten zum Antwortverhalten geschätzt wer-
den. Hierzu führen wir eine weitere Indikatorvariable ein. In einer Stichprobe vom
Umfang n
(> n) gibt Jl an, ob das l-te befragte Individuum antwortet (Jl = 1) oder
n
n
n n
1 1 1
E = E⎝ · Jl ⎠ = · P(Jl = 1) = n
.
γk γl γl
k=1 l=1 l=1
Damit kann Formel (7.17) durch Approximation von n wie folgt vereinfacht
werden:
1
yk
n
Ȳ = . (7.18)
n
1 γk
k=1
γk
k=1
Der Schätzer in Formel (7.18) erhält damit die Gestalt eines gewichteten Mit-
n
n
telwertschätzers und kann in der Form wk yk mit wk = 1 geschrieben wer-
k=1 k=1
1
1
n
den. Die Gewichte notieren wir als wk(N R) = / . Zur Berechnung des
γk ∗ γk ∗
k =1
Schätzers genügt es, die Gewichte bis auf einen konstanten Faktor zu kennen, also
absolute Werte von γk sind ohne Bewandtnis. Diese Vorteile werden aus folgendem
Beispiel klar.
7.5 Gewichtung 243
nh
Jhk
k=1 nh
γh =
= ,
n
h n
h
wobei n
h der ursprüngliche Stichprobenumfang in Schicht h ist, d.h. inklusive der
Non-Responder in der Schicht, h = 1, . . . , M. Diese in der Praxis verbreitete Strate-
gie funktioniert allerdings nur, falls Geschlecht und Wohnort bei den Nicht-Antwor-
tern bekannt ist.
Die vorgeschlagene Schätzung der γk ist zu modifizieren, falls das Stichproben-
Design mit unterschiedlichen Auswahlwahrscheinlichkeiten arbeitet. Nehmen wir
dazu an, dass πhk die Auswahlwahrscheinlichkeit des k-ten Individuums in der h-ten
Schicht ist, so kann γh geschätzt werden durch
nh
1
Jhk
πhk
k=1
γh =
· nh .
nh
1
πhk
k=1
für sind weitere Merkmale, siehe Kreuter et al. (2010), oder Informationen zum
Antwortverhalten bei wiederholter Kontaktaufnahme bei (zunächst) nicht antwort-
bereiten Personen, siehe Kreuter und Kohler (2009).
M
Nh
nh
Nh 1
Ȳ G S,post = ȳh = · yhk .
N N nh
h=1 h=1 k=1
Aus der Formel erkennt man, dass die Verwendung des Schätzers einer zusätz-
lichen Gewichtung mit den Gewichten Nn hh entspricht. Diese Gewichtung gleicht
zufällig entstandene Unterschiede des Stichprobenumfangs innerhalb der Schich-
ten aus. Es können aber auch systematische Unterschiede wie z.B. das Nicht-
Antworterverhalten oder Effekte der Ziehungsstrategie z.B. bei Telefonstichproben
ausgeglichen werden. Da häufig damit auch das Problem der Nichterreichbarkeit
behandelt wird, werden die Gewichte auch als „Noncoverage-Weights“ bezeichnet.
In ähnlicher Weise kann auch die Verwendung einer Regressionsschätzung insbe-
sondere bei kategorialen Einflussgrößen interpretiert werden.
Im Fall der einfachen Zufallsstichprobe ist die Verwendung der Schätzer ein-
schließlich der Varianzschätzung unproblematisch. Schwieriger wird es dagegen,
wenn eine dieser Strategien mit den beiden oben diskutierten Verfahren (ungleiche
Auswahlwahrscheinlichkeiten und Non-Response-Korrektur) zu kombinieren sind.
Gehen wir von einer Aufteilung in M Schichten aus und gegebenen Basisgewichten
(B) (N R)
whk = π1hk und Non-Response-Gewichten whk = γ1hk , mit h = 1, . . . , M und
k = 1, . . . , n h . Dann ergeben sich die Gewichte der nachträglichen Schichtung in
Schicht h durch
Nh
wh(P S) = . (7.19)
nh
(B) (N R)
whk whk
k=1
(B) (N R)
whk = whk · whk · wh(P S) , h = 1, . . . , M, k = 1, . . . , n h .
Bei großen Erhebungen werden diese Gewichte typischerweise mit den Daten
zur Verfügung gestellt.
Gewichtung
(B)
whk = πhk .
1
(N R)
whk = γhk ,
1
(P S) Nh
wh = .
nh
(B) (N R)
·whk whk
k=1
(B) (N R) (P S)
whk = whk · whk · wh .
http://www.r-project.org/
frei verfügbar und einfach zu installieren. Neben der Basis-Software, mit der die
wichtigsten Prozeduren durchgeführt werden können, gibt es eine Vielzahl von Pa-
keten, die von verschiedenen Autoren zur Verfügung gestellt werden. Auch diese
sind kostenlos unter der oben genannten Adresse abrufbar.
http://www.r-project.org/
http://sourceforge.net/projects/tinn-r/
heruntergeladen werden. R und Tinn-R müssen dann bei Bedarf noch konfiguriert
werden. Anschließend kann man die R-Syntax im Editor schreiben und beispiels-
weise über den Button „Send selection“ in R laufen lassen.
A.4 R-Hilfe
Hilfe zu R findet man unter anderem auf folgende Weise:
• Auf der R-Homepage http://www.r-project.org/.
– Unter dem Menüpunkt „Documentation“ sind über den Link „Manuals“ Hand-
bücher zu verschiedenen Themen in HTML- und PDF-Format verfügbar.
– Weiterhin finden sich unter dem dortigen Link „contributed documentation“
weitere Dateien, vor allem PDF-Dokumente, die einführende und weiterfüh-
rende Hilfestellungen enthalten. Wir möchten an dieser Stelle auf die „R re-
ference card“ von Tom Short hinweisen, die einen guten Überblick über die
wichtigsten Basis-Befehle gibt und sich gut als Nachschlagewerk für einfache
Befehle eignet.
– Unter dem Menüpunkt „R Project“ ist über den Link „Search“ eine Google-
Suche auf zu R gehörigen Seiten möglich.
• In Büchern zu R, z.B. in dem Buch „Programmieren mit R“ Ligges (2005) bzw.
in „A Handbook of Statistical Analyses Using R“ (Everitt & Hothorn, 2006).
Hilfe zu R-Funktionen erhält man nach Laden des entsprechenden Pakets über
die Eingabe
> ?Funktionsname
Zur Funktion sample(·), mit der eine einfache Zufallsstichprobe gezogen werden
kann, lässt sich die Hilfe somit durch
> ?sample
aufrufen.
A.6 Pakete zum Thema Stichprobentheorie 249
Zusätzliche Pakete werden wie das Programmpaket selbst von der Homepage
http://www.r-project.org/
heruntergeladen. Nach Auswahl des CRAN-Servers kann man unter dem Menü-
punkt „Software“ über den Link „Packages“ einzelne Pakete herunterladen. Diese
kann man anschließend in R installieren. Alternativ kann man Pakete auch direkt in
R über den Menüpunkt „Pakete“ installieren.
Bevor man mit einem bereits installierten Paket arbeiten kann, muss dieses noch
verfügbar gemacht werden. Dies ist über die Funktion library(·) möglich.
Dieser Funktion muss mit package der Name des zu ladenden Paketes überge-
ben werden. Das zu diesem Buch erstellte Paket samplingbook wird folglich über
den Befehl
> library(package=samplingbook)
> library(samplingbook)
Weiter existiert ein Paket zu diesem Lehrbuch, das die Daten zu den Beispielen und
alle verwendeten Programme enthält. Es ist unter dem Namen
• samplingbook
auf der R-Homepage verfügbar.
An dieser Stelle werden wir insbesondere auf den Inhalt des Paketes
samplingbook näher eingehen. Darin befindet sich die Mehrzahl der notwendigen
Funktionen zur Anwendung der Stichprobentheorie, wie sie in den Abschnitten zur
numerischen Umsetzung in diesem Lehrbuch verwendet wird.
Außerdem ist es möglich auf die verwendeten Datensätze aus den Beispielen
zuzugreifen. Wir werden sie im Folgenden kurz beschreiben.
> library(samplingbook)
> data(pop)
Anschließend kann man über den Datensatznamen, hier pop, mit dem Datensatz
arbeiten. Mit Hilfe der Funktion head(·) kann man sich beispielsweise die ersten
Zeilen des Datensatzes am Bildschirm ausgeben.
> head(pop)
252 A Das Programmpaket R
id X Y
1 1 11 9
2 2 11 10
3 3 11 11
4 4 21 18
5 5 21 22
Externe Dateien, wie z.B. ASCII-Dateien, kann man über die Funktion
read.table(·) einlesen.
Mit file wird der Name des Datensatzes angegeben. Durch header wird festge-
legt, ob die Datei in der ersten Zeile die Variablennamen enthält. Falls dies der Fall
ist, muss header=TRUE gesetzt werden. Mit sep wird das Trennzeichen definiert,
dass die Werte aufeinanderfolgender Spalten voneinander abgrenzt und durch dec
wird das Dezimalzeichen festgelegt.
Weitere Optionen zu read.table(·) und zusätzliche Funktionen zum Einlesen
von Daten erhält man durch Aufruf der Hilfeseite zu read.table(·) mit
> ?read.table
kann auf zweierlei Art festgelegt werden. Einerseits kann einfach eine beliebige
Zahl als Startwert gewählt werden, z.B.
Dieser Teil der Syntax darf aber nur genau einmal ausgeführt werden. Anschlie-
ßend sollte man sich als Kommentar notieren, welcher Startwert gezogen wurde und
diesen bei erneutem Durchlauf der Syntax wie in Version 1 direkt zuweisen. Mit
> set.seed(start)
wird der Startwert dem Programm als solcher kenntlich gemacht. Anschließend
kann mit der Syntax zur Ziehung der Stichprobe immer wieder genau dieselbe Stich-
probe gezogen werden.
Literatur
Agresti, A., & Coull, B. A. (1998). Approximate is better than exact for interval estimation of
binomial proportions. The American Statistician, 52(2), 119–126.
An, A., & Watts, D. (2000). SAS procedures for analysis of sample survey data (S. 120–129).
Cary, NC: SAS Institute Inc.
Andersson, C., & Norberg, L. (1994). A method for variance estimation of non-linear function of
totals in surveys. Journal of Official Statistics, 10, 396–405.
Asef, D., & Riede, T. (2006). Kontaktzeiten in einer Telefonerhebung - wie beeinflussen sie die
Messung der Erwerbstätigkeit? Statistisches Bundesamt. Wirtschaft und Statistik, 6, 581–586.
Berger, Y. G. (1998). Rate of convergence for asymptotic variance of the horvitz-thompson esti-
mator. Journal of Statistical Planning and Inference, 74, 149–168.
Berger, Y. G. (2004). A simple variance estimator for unequal probability sampling without repla-
cement. Journal of Applied Statistics, 31, 305–315.
Berger, Y. G., & Skinner, C. J. (2005). A jacknife variance estimator for unequal probability
sampling. Journal of the Royal Statistical Society, Series B, 67, 79–89.
Berger, Y. G., & Tillé, Y. (2009). Sampling with unequal probabilities. In D. Pfeffermann & C. Rao
(Hrsg.), Sample surveys: Design, methods and applications: Vol. 29A of Handbook of statistics,
Kapitel 2, (1. Aufl., S. 39–54). Amsterdam: North-Holland.
Bühner, M. (2006). Einführung in die Test- und Fragebogenkonstruktion (2. Aufl.). München:
Pearson-Education.
Bondesson, L., Traat, I., & Lundqvist, A. (2006). Pareto sampling versus sampford and conditional
poisson sampling. Scandinavian Journal of Statistics, 33, 699–720.
Breidt, F. J., & Opsomer, J. D. (2000). Local polynomial regression estimators in survey sampling.
Annals of Statistics, 28, 1020–1053.
Breidt, F. J., & Opsomer, J. D. (2009). Nonparametric and semiparametric estimation in complex
surveys. In D. Pfeffermann & C. Rao (Hrsg.), Sample surveys: Inference and Analysis: Vol.
29B of Handbook of statistics (1. Aufl., S. 103–120). Amsterdam: North-Holland.
Brewer, K. (2002). Combined survey sampling inference. London: Hodder Arnold.
Brewer, K. R. W., & Hanif, M. (1983). Sampling with unequal probabilities. New York, NY:
Springer.
Brüderl, J., Preisendörfer, P., & Ziegler, R. (1992). Survival chances of newly founded business
organizations. American Sociological Review, 57, 227–242.
Buckland, S. T., Anderson, D. R., & Burnham, K. P. (2008). Advanced distance sampling: Esti-
mating abundance of biological populations. Oxford: Oxford University Press.
Chaudhuri, A., & Mukerjee, R. (1988). Randomized response: Theory and techniques. New York,
NY: Marcel Dekker.
Chaudhuri, A., & Steger, H. (2005). Survey sampling: Theory and methods (2. Aufl.). Boca Raton,
London, New York, Singapore: Chapman and Hall/CRC.
Cochran, W. (1972). Stichprobenverfahren. Berlin: de Gruyter.
Cochran, W. (1977). Sampling techniques (3. Aufl.). New York, NY: Wiley.
255
256 Literatur
Cotter, A. J. R., Course, G., Buckland, S. T., & Garrod, C. (2002). A PPS sample survey of English
fishing vessels to estimate discarding and retention of North Sea cod, hadock, and whiting.
Fisheries Research, 55(1), 25–35.
Cumberland, W. G., & Royall, R. M. (1981). Prediction models and unequal propability sampling.
Journal of the Royal Statistical Society, Series B, 43, 353–367.
Dalgaard, P. (2002). Introductory statistics with R. New York, NY: Springer.
Deville, J., & Tillé, Y. (1998). Unequal probability sampling without replacement through a split-
ting method. Biometrika, 85(1), 89–101.
Everitt, B. S., & Hothorn, T. (2006). A Handbook of statistical analyses using R. Boca Raton, FL:
Chapman und Hall/CRC.
Fahrmeir, L., Hamerle, A., & Tutz, G. (1996). Multivariate statistische Verfahren (2. Aufl.). Berlin,
New York: de Gruyter.
Fahrmeir, L., Kneib, T., & Lang, S. (2007). Regression – Modelle, Methoden und Anwendungen.
Berlin: Springer.
Fahrmeir, L., Künstler, R., Pigeot, I., & Tutz, G. (2009). Statistik: Der Weg zur Datenanalyse (7.
Aufl.). Berlin, Heidelberg: Springer.
Fleiss, J., Levin, B., & Paile, M. (2003). Statistical methods for rates and proportions (3. Aufl.).
New York, NY: Wiley.
Gabler, S. (1981). A comparison of sampford sampling procedure versus unequal probability-
sampling with replacement. Biometrika, 68(3), 725–727.
Gabler, S. (1984). On unequal probability-sampling - sufficient conditions for the superiority of
sampling without replacement. Biometrika, 71(1), 171–175.
Gabler, S., & Häder, S. (1999). Erfahrungen beim Aufbau eines Auswahlrahmens für Telefonstich-
proben in Deutschland. ZUMA-Nachrichten, 23(44), 45 ff.
Gelman, A. (2007). Struggles with survey weighting and regression modeling. Statistical
Science, 22(2), 153–164.
Godambe, V. P., & Joshi, V. M. (1965). Admissibility and bayes estimation in sampling finite
populations. Annals of Mathematical Statistics, 36, 1707–1742.
Groves, R. M., Dillman, D. A., Eltinge, J. L., & Little, R. J. A. (2002). Survey nonresponse. New
York, NY: Wiley Series in Survey Methodology.
Hajek, J. (1981). Sampling from a finite population. New York, NY: Marcel Dekker.
Hand, D. (2004). Measurement theory and practice: The world through quantification (2. Aufl.).
Oxford: Oxford University Press.
Hartley, H. O. (1966). Systematic sampling with unequal probability and without replacement.
Journal of the American Statistical Association, 61(315), 739–748.
Hartmann, P., & Schimpl-Neimanns, B. (1992). Sind Sozialstrukturanalysen mit Umfragedaten
möglich? Analysen zur Repräsentativität einer Sozialforschungsumfrage. Kölner Zeitschrift
für Soziologie und Sozialpsychologie, 44(2), 315–340.
Hastie, T., & Tibshirani, R. (1990). Generalized additive models. London: Chapman and Hall.
Held, L. (2008). Methoden der statistischen Inferenz: Likelihood und Bayes. Heidelberg: Spektrum
Akademischer Verlag.
Hoffmeyer-Zlotnik, J. H. P. (1997). Random-route-stichproben nach ADM. In S. Gabler &
J. Hoffmeyer-Zlotnik (Hrsg.), Stichproben in der Umfragepraxis (S. 33–42). Opladen: West-
deutscher Verlag.
Horvitz, D., & Thompson, D. (1952). A generalization of sampling without replacement from a
finite universe. Journal of the American Statistical Association, 47, 663–685.
van den Hout, A., & van der Heijden, P. (2002). Randomized response, statistical disclosure control
and misclassification: a review. International Statistical Review, 70(2), 269–288.
Jessen, R. J. (1969). Some methods of probability non-replacement sampling. Journal of the
American Statistical Association, 64(325), 175–193.
Kreienbrock, L. (2004). Einführung in die Stichprobenverfahren. München, Wien: Oldenbourg
Verlag.
Literatur 257
Kreuter, F., & Kohler, U. (2009). Analyzing contact sequences in call record data. Potential and
limitations of sequence indicators for nonresponse adjustments in the European Social Survey.
Journal of Official Statistics, 25(2), 203–226.
Kreuter, F., Olson, K., Wagner, J., Yan, T., Ezzati-Rice, T. M., Casas-Cordero, C., Lemay, M., Peyt-
chev, A., Groves, R. M., & Raghunathan, T. E. (2010, Apr). Using proxy measures and other
correlates of survey outcomes to adjust for non-response: examples from multiple surveys.
Journal of the Royal Statistical Society Series A-Statistics in Society, 173(Part 2), 389–407.
Küchenhoff, H. (2009). Misclassification and measurement error in oral health. In E. Lesaffre,
J. Feine, B. Leroux, & D. Declerck (Hrsg.), Statistical and methodological aspects of oral
health research (S. 280–294). Chichester: Wiley-Blackwell.
Lanke, J. (1974). On non-negative variance estimators in survey sampling. Sankhyā Series C, 35,
33–42.
de Leeuw, E. D., Hox, J. J., & Dillman, D. A. (2008). International handbook of survey methodo-
logy. New York, NY: Taylor & Francis Group.
Legg, J. C., & Fuller, W. A. (2009). Two-phase sampling. In D. Pfeffermann & C. Rao (Hrsg.),
Sample surveys: Design, methods and applications: Vol. 29A of Handbook of statistics, Kapi-
tel 3, (1. Aufl., S. 55–70). Amsterdam: North-Holland.
Leiner, B. (1989). Stichprobentheorie: Grundlagen, Theorie und Technik. München: Oldenbourg.
Levy, P., & Lemeshow, S. (1999). Sampling of populations (3. Aufl.). New York, NY: Wiley.
Ligges, U. (2005). Programmieren mit R. Heidelberg: Springer.
Little, R. J. A., & Rubin, D. B. (1987). Statistical analysis with missing data. New York, NY:
Wiley.
Lohr, S. L. (1999). Sampling: Design and analysis. Pacific Grove, CA: Duxbury Press.
Lumley, T. (2010). Complex surveys: A guide to analysis using R. Hoboken, NJ: Wiley Series in
Survey Methodology.
Lynn, P., & Schnell, R. (2007). Editorial: Methodology in our madness. Survey Research Me-
thods, 1(1), 1–2. http://w4.ub.uni-konstanz.de/srm/article/view/45/44.
Madow, W. G. (1949). On the theory of systematic sampling ii. Annals of Mathematical Stati-
stics, 20, 333–354.
Manitz, J., contributions by Hempelmann, M., Kauermann, G., Kuechenhoff, H., Oberhauser, C.,
Westerheide, N., & Wiesenfarth, M. (2010). Samplingbook: Survey sampling procedures. R
package version 1.0.
Marker, D. A., & Stevens, D. L. (2009). Sampling and inference in environmental surveys. In
D. Pfeffermann & C. Rao (Hrsg.), Sample surveys: Design, methods and applications: Vol.
29A of Handbook of statistics, Kapitel 19, (1. Aufl., S. 487–512). Amsterdam: North-Holland.
Matérn, B. (1986). Spatial variation. Berlin: Springer.
Midzuno, H. (1952). On the sampling system with probability proportionate to sum of sizes.
Annals of the Institue of Statistical Mathematics, 3, 99–107.
Mosler, K., & Schmid, F. (2004). Beschreibende Statistik und Wirtschaftsstatistik (2. Aufl.). Berlin,
Heidelberg: Springer.
Noelle-Neumann, E. (2000). Die Schweigespirale. München Langen Müller.
Opsomer, J., Breidt, F., Moisen, G., & Kauermann, G. (2007). Model-assisted estimation of fo-
rest resources with generalized additive models (with discussion). Journal of the American
Statistical Association 102, 400–416.
Opsomer, J. D. (2009). Alternative approaches to inference from survey data. In D. Pfeffermann
& C. Rao (Hrsg.), Sample surveys: Inference and Analysis: Vol. 29B of Handbook of statistics
(1. Aufl., S. 3–10). Amsterdam: North-Holland.
Quatember, A. (1996). Das Quotenverfahren. Linz: Universitätsverlag Rudolf Trauner.
Rao, C. R. (1973). Linear statistical inference and its applications (Wiley series in probability and
mathematical statistics) (2. Aufl.). New York, NY: Wiley.
Rao, J. N. K., & Singh, M. P. (1973). On the choice of estimator in survey sampling. Australian
Journal of Statistics, 15, 95–104.
Ronning, G. (2005). Randomized response and the binary probit model. Economics Letters, 86,
221–228.
258 Literatur
Rosén, B. (1997). On sampling with probability proportional to size. Journal of Statistical Plan-
ning and Inference, 62, 159–191.
Ruppert, D., Wand, M., & Carroll, R. (2003). Semiparametric regression. Cambridge: Cambridge
University Press.
Sampford, M. (1967). On sampling without replacement with unequal probabilities of selection.
Biometrika, 54, 499–513.
Scheaffer, R., Mendenhall, W., & Ott, L. (1995). Elementary survey sampling (5. Aufl.). Boston,
MA: Duxbury Press.
Schnell, R. (2008). Avoiding problems of traditional sampling strategies for household surveys in
Germany: Some new suggestions. DIW, Berlin.
Schnell, R., Hill, P. B., & Esser, E. (2008). Methoden der empirischen Sozialforschung. München:
Oldenbourg.
Schwarz, H. (1975). Stichprobenverfahren: Ein Leitfaden zur Anwendung statistischer Schätzver-
fahren. München: Oldenbourg Verlag.
Sen, A. R. (1953). On the estimate of the variance in sampling with varying probabilities. Journal
of the Indian Society of Agricultural Statistics, 5, 119–127.
Särndal, C., Swenson, B., & Wretman, J. (1992). Model Assisted Survey Sampling. New York,
NY: Springer.
Statistisches Bundesamt Deutschland (2006). Pressemitteilung Nr. 249 vom 22.06.2006, Drei Vier-
tel der Bevölkerung in Deutschland sind Nichtraucher. DESTATIS.
Thompson, S. (2002). Sampling (2. Aufl.). New York, NY: Wiley.
Tillé, Y. (2006). Sampling algorithms. New York, NY: Springer.
Vijayan, K. (1975). On estimating the variance in unequal probability sampling. Journal of the
American Statistical Association, 70, 713–716.
Warner, S. (1965). Randomized response: A survey technique for eliminating evasive answer bias.
Journal of the American Statistical Association, 60, 63–69.
Westerheide, N. (2006). Diplomarbeit, Fach Wirtschaftswissenschaften, Universität Bielefeld, Bie-
lefeld.
Yates, F., & Grundy, P. (1953). Selection without replacement from within strata with probability
proportional to size. Journal of the Royal Statistical Society B, 15, 253–261.
Sachverzeichnis
259
260 Sachverzeichnis
S U
Sampford-Methode, 107, 109, 110 Überdeckungswahrscheinlichkeit, 27
Satz vom iterierten Erwartungswert, 156 Umgewichtung, 155
Schätzer, 16, 18 Unabhängig und identisch verteilt, 34
Schätzfehler, 19 Unverzerrt, 21
Schätzung von Anteilen, 29
Schichten, 137, 141 V
Schichtung, 137, 140 Var, 21
Schichtungsgewinn, 153 Varianz, 19–21, 35
Schichtungsmerkmal, 138 Varianz eines Anteils, 29
Schichtungs-Prinzip, 144 Varianz-optimale Aufteilung, 147
Sekundärinformation, 62, 93, 105, 138 Varianzreduktion, 64, 66
Selbstgewichtete Stichprobe, 198 Verwerfungsstichprobe, 109
Sicherheitsniveau, 37 Verzerrte Stichprobe, 10
Splitting-Methoden, 114 Verzerrung, 9
SSB, 153 Vollerhebung, 6, 161
SST, 153
SSW, 153 Y
Standardabweichung, 19, 21 Yates und Grundy, 101
Statistiken, 16
Statistische Einheiten, 5 Z
Statistische Inferenz, 16 Zensus, 6
STD, 21 Zentraler Grenzwertsatz, 25
Stichprobe, 6, 17 Ziehen mit Zurücklegen, 34
Stichprobe mit systematischem Fehler, 10 Ziehen ohne Zurücklegen, 12
Stichprobendesign, 11, 94 Zielvariable, 62
Stichprobengewichte, 201 Zufälliger Fehler, 21
Zufälliger Schätzfehler, 19
Stichprobenumfang, 17, 37, 40
Zufallsgeneratoren, 14
Stichprobenumfang bei Anteilsschätzung, 57
Zufallsprozess, 11
Stichprobenumfang bei Mittelwertschätzung,
Zufallsstichprobe, 11, 189
55
Zwei-Phasen-Schätzer, 202
Stichprobenumfang in den Schichten, 147
Zweiphasige geschichtete Stichprobe, 208,
Strata, 141
210, 220
Stratifizierte Stichprobe, 141
Zweiphasiger Differenzenschätzer, 206
Stratifizierung, 140
Zweiphasiger geschichteter Schätzer, 209
Studienpopulation, 16
Zweiphasiger Quotientenschätzer, 206
Sum of squares between, 153
Zweiphasiger Regressionsschätzer, 204
Sum of squares total, 153 Zweiphasige Stichprobe, 211
Sum of squares within, 153 Zweiphasige Stichprobenverfahren, 201, 202
Systematische Stichprobe, 42, 44, 172 Zweiphasige Verfahren, 189
Systematischer Fehler, 21 Zweistufige Hochrechnung, 193
Systematischer Schätzfehler, 19 Zweistufiger Hansen-Hurwitz-Schätzer, 200
Zweistufiger Quotientenschätzer, 198
T Zweistufiger Schätzer, 195
Teilerhebung, 6 Zweistufige Stichprobe, 195, 214
Tillé, 113 Zweistufige Stichprobenverfahren, 189, 191
Typische Stichprobe, 8 Zweistufige Verfahren, 189