Sie sind auf Seite 1von 33

1

Datenanalyse
mit
Stata
Allgemeine Konzepte der Datenanalyse und
ihre praktische Anwendung
Von
Ulrich Kohler
und
Frauke Kreuter
2., vollstndig berarbeitete und ergnzte Auflage
Oie Verwendung der iu diesem Buch erfolgt mit freundlicher
Genehmigung der am Deutschen Institut ftir Wi11schafisforschung, Berlin.
Hard\vare und Softwarebezeichnungen, die in diesem Buch erwhnt \Verden, sind glcich-
auch eingetragene Warenzeichen oder als solche betrachtet \Vt:rden.
Gesetzt rnit LaTeX.
Bibliografische lnfonnation Der Deutschen Bibliothek
Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen
Nationalbibliografie: detaillierte bibliografische Daten sind im Internet
ber <http:/idnb.ddb.de> abrufbar.
2006 Oldenbourg Wissenschaftsverlag GmbH
Rosenhcimer Strae 145, D-81671 Mnchen
Telefon: (089) 45051-0
wv11\v.oldenbourg.de
Das Werk einschlielich aller Abbildungen ist urheberrechtlich geschtzt. Jede Ver-
wertung auerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des
Verlages unzulssig und strafbar. Das gilt insbesondere fllr Vervielf<iJtigungen, Cbcrsct
zungen. t>.1ikroverfi!mungen und die Einspeicherung und Bearbeitung in elektroni:;chen
Systemen.
Gedruckt auf sure- und chlorfreiem Papier
Ges.:1.inthersteUung: KseL Krugzell
Inlutl L'- vcrzcichnis

Inhaltsverzeichnis
Vorwort
0 Zu diesem Buch
0.1 Aufau
0.2 Lviaterial und Hin"veise zur enntzuug
tl3 ({in\\reise fr Lc>hrendc .
1 Das erste Mal"
l. l ;\ufruf von Stata
1.2 Gestalten der Bildschirmansicht .
1.3 Erste Analysen
1.4 Do-Files
1.5 Stata verlassen
2 Arbeiten mit Do-Files
2.1 Vn der interaktiven Arb('it zurn Do-File.
2.2 Do-Files sinnvoll gestalten
2.2.1 Komn1entare
2.2.2 Zeilenweclisel
2.2.3 Befehle, die in keinem Do File fohlen sollten
2,3 Arbeitsorganisation .
2_4 Kurzzusarnmenfa.ssung
3 Die Stata-Grammatik
3.1 der Stata-Komruandos
3.1.1 Der Bcfohl
:U.2 Die Variablenliste
3.L2.1 Variablenliste optional oder vorgeschrieben
3.1,2.2 Abkrzungen der \/ariableuliste
3.1.2.3 Spezielle Variablenlisten.
3.1.3 Optionen ..
.3.1.4 Die in-Bedingung
3.1.5 Die if-Bedingung
3.1.6 Ausdrcke ..
3. 1.6. J Operatoren
3. 1.6.2 Funktionen
V
XI
l
2
:J
;;
1
7
8
9
26
28
31
31
37
37
:;g
40
43
48
49
49
.)0
50
5l
52
G:{
54
55
[. 7
GO
lill
62
VI
3,1.8 Dateinan1en
3.2 \ViPd{'rholung hrdi<'lH:r Befehle
3.2. l Das by-Prfix
3.2.2 Die foreach-Schlcifc ,
3.2.3 Die forvalues-Schleife
:.t3 Die Ge'.vicht.ung8anweisung ,
h111a l tsvcrzcich11i8
-----------
il3
64
6.5
67
70
72
4 Eine allgemeine Bemerkung zu den Statistik-Kommandos 17
5 Erstellen und Verndern von Variablen 81
5.1 Die Befehle generate und replace . 81
5. l. 1 V'ari<'tbk1Jtuunen 83
5.1.2 Emige Beispiele. 83
5.L:J lkkodieren mit by, _n und _N 87
5.1.4 f}<pliz;ite Snhscripte 91
5.2 Spezielle Rekodicnmg;r Befehle !!3
5.2.1 recode 93
5.2.2 egen ,
5.3 \'Vcitere \'\'trkzeuge zun1 Ilekodieren von Daten
5.3.1 ...
5.3.2 Darnn1sfunktionen
5.4 Befehle zuui Urngang mit W1issings
5.5 Beschriftung von Variablen
5.6 Storage-Types o<ler: der Geist in der -1aschine
6 Erstellen und Verndern von Grafiken
6J Eine Vorhetnerkung zur Syntax
6.2 Typen von Grafiken ,
6.2. l Beispiele .
6.2.2 Spezielle Grnfiken
6.3 Eletncnte der Grafiken .
6.3.1 Erscheinungsbild der Daten
6.3. LI Auswahl der Marker .
94
96
96
100
104
106
109
111
111
113
113
115
115
117
119
6.3. l.2 Farbe der Marker 120
6.:l.1.3 Gre der Marker 121
6.3. 1.4 Linien . 122
6.3.2 Grafik- und Plotrcgion . 125
6.:U.l Gre der Grafik. 125
6.3.2.2 Plotregin 126
6.3.2.3 Skalierung der Achsen 127
6.3.3 fnforrnationen innerhalb der Plotregion 129
6.3.3.l Referenzlinien 129
6.3.3.2 Beschriftungen innerhalb der Plotregion . 130
6.3.4 lnformationPn auerhalb der Plotregion 132
6.:!.4.1 Beschriftung der Achsen . 133
().;! 1.2 Tkk-Lines .
6.:l.4.3 Achsentitel
G.:l.4.4 Die Legende
6.3.4.5 Grafik-Titel .
6A 1'1ultipfe Grafiken ,
6.4. 1 berlagerung rnehrcrcr
6.4.2 Bcfohlwption by() .
6.4.3 Zusa1nu1cufhrung vou Grafiken
.5 Speichcr11 und Drucken vuu Grafiken
7 Die Beschreibung von Verteilungen
7.1 \Venig oder viele A_usprgungen?
7.2 Variablen 1nit. wenig A.usprgungeu
7.2.1 1'abeUari::>cho Darstellungen
7.2.l.l Hnfigkcitstabellcn.
7.2.l.2 Mehr als eine Hufigkeit,tal>clk
7.2.1.3 Vcrgleicll von Verteilungen
7.2.1.4 Zusarnrnenfasscnde -fazahlcn
7.2.L5 :\:1ehr als eine KontingenztabeHt
7.2.2 Grafische Verfahren , ,
7.2.2.1 Histogramme .
7.2.2.2 Balkendiagramme
7.2.2.3 Kuchendiagramn1c
7.2.2.4 Dot-Chart
7.3 Variablen rnit vielen Ausprgungen
7.3.1 Hufigkeitsverteilung gruppierter Daten
7.3.2 Beschreibung durch Mazahlen
7.:l.2.1 Wichtige Mazahlen
7.3.2,2 summarize ...
7.3.2.3 tabstat .
-1.3.2.4 Vergleich von Verteilungen tnit
7.3.3 Grafische Verfahren .
7.3.3.1 Box-Plots ,
7.3.3.2 Histogramme
7 3.3.3 Kern-Dichte-Schtzer
7.3.3.4 Quantil-Plot
7.4 Kurzzusanunenfassung .
8 Einfhrung in die Regressionstechnik
8.1 Lineare Einfachregression .
8.1.1 Das Grundprinzip , .
8J ,2 Lineare Regression rnit Stata
8. 1.2.1 Der Koeffizientenbfock.
8.1.2.2 Standardfehler .
8. Der Anova-Bloek .
VII
IJU
t:l6
1 :38
139
140
140
142
143
145
149
150
151
151
151
152
103
15.5
155
156
156
159
161
161
163
163
166
167
169
l9
170
176
176
178
180
185
189
191
194
194
197
198
201
202
Vlll
8.!2A Dor Modcllfit-luck
8.2 Die rnultiplf'. Regression
B 2.1
lineare Regression nt Stata
8.2.2
Spl'zi0He Kennzahlen der multiplen Regression
8.2.3
\Vas bedeutet eigentlich ,
1
unter KontroUe"'!
8.3 Regressions-Diagnostik
8.3.l Die \lerletzung; von E(t1) 0
8.3.1.l Linearitt
8.3.12 Einflussreiche Beobachtungen .
8.3, 1.3 bersehene EinflWIBfaktoren
8.3.2 Die Verletzung von VAR(i::i) = 0
2
8.3.3 Die Verletzung von COV( ;. c,) O;i t j
8.4 Verfeinerte Morlel!e .
8.4.l Kategoriale unabhngige Variablen ,
8.4.2 I11teraktionseffekte
8.4.:l R.egres.Jonsrnodelle mit t rl:\n:-:forn1ierten Daten
8.4.3. l ?v1odellierung nichtlinearer Zusannnenhnge .
8.4.3.2 Transformation zur Beseitigung von I-letcro.."'-
kedastizitt .
8.5 Mehr zu Standardfehlern .
8.5.0.3 Bootstrap-Techniken .
8.5.0.4 Konfidenz:lntervalle in Klumpenstichproben
8.6 Weiterfhrende Verfahren
8 61 Median-Regression
8.6.2 Regressionsmodelle fr Paneldaten
8.6.2.l Die Stata-Dit: Aus breit wird lang
8.6.2.2 Fixed-Effects-Modell .
8.6.2.3 Fehlerkomponenten-Modelle
8.7 Zusan1n1enfassung
9 Regressionsmode!le fr kategoriale abhngige Variablen
9.1 Das lineare Wahrscheinlichkeitsmodel!
9.2 Grundkonzepte
9.2.1 Odds, Log-Odds und Odds-Ratios
9.2.2 Exkurs: Das Maximum-Lilrelihood-Prinzip .
9.3 Logistische Regression mit Sta'ta
9.3.1 Der Koeffizientenblock ,
9.3.1.l Vorzeicheninterpretation
9.3.1.2 Interpretation mit Odds-Ratios .
9.:l.13 Wahrscheinlichkeitsinterpretation
9.3.2 Der lterationsblock ,
9.33 Der Modellfit-Block
9.3.3.l Klassifikationstabel!en ,
9.3.3.2 Pearson-Chi-Quadrat
9.4 DicHn10;.;:t ik rler logistischen Regression
205
206
207
209
212
214
215
2l7
220
229
230
232
233
233
236
240
241
244
245
245
247
249
249
25()
251
255
259
262
265
266
270
270
275
279
281
281
282
283
285
286
287
289
291
.4.1 LirH:;tritt
9.4.2 Einflussreich<' Falle _
9.5 LikcliliotHJ-Ra.tio 'fest
9.6 .
9. 7 Weiterfhrende Verfahren
9.7.1 Probit-Mode!le ..
9,7.2
9.7.3
i\lultinon1lale Regression.
Ordinale Logit-Modclle
9.8 Knrzzusarnn1el1fassnng
lX
1
29;)
2fHJ
:JO 1
:m:;
;j().'1
;}OK
:ll 2
:il -,
10 Daten lesen und schreiben 317
10.1 Dtl.S Ziel: Die l)utc1nuatrix: 317
10.2 huport rnaschineulcsharer Daten :319
10.2. l Eiulcs('n von Systern-F'iles audcrcr Prograunnc
llt2.:l I.-:inles<.'n von r\SCII- bzv,r. Textdateien ;j'J(I
10.2.2. 1 8inlesen von -Daten itn Spread8ht>et-Fortnat ;121
l 0.2.2.2 Einlesen von Daten i1n freien Forrnat :t2;5
10.2.2.3 Einlesen von DatC'n iin fefiten Forn1at. :t.:7i
10.3 Dateneingabe
10.3. l Dateneingabe ber den Editor
10.3.2 Der input-Befehl .
10.4 Zusarnrnenfl1rung von Datenstzen ,
10.4. l Die Datenstruktur des GSOEP
10.4.2 Der Befehl merge .
10.4.2.1 Grundlegen.des zur merge-Proz1?dur
10.4.2.2 Kontrolle der Beobachtungen
10.4.2.3 Zusa1nn1enfhren von n1chr als zwei Dateien
t0.4.2.4 Datcnbankpezifische merge\Verkzcuge
10.4.2.5 Zusanuncnfhreu bierarchisclicr Daten .
10.4.3 Der Befehl append
l 0.5 Datenstze speichern und exportieren
10.6 Crolfo Daten.stze, groe Probleme
10.6. l I{0geln zum Uingang tnit dem Arb0itsseichcr .
10JL2 Die \lerwendung zu groer J)a.tenstzc
10. 7 Kurzzusan1rnenfas....;nng .
11 Do-Files fr Fortgeschrittene und eigene Programme
11.1 Z;,vei :'\rrvvendungshcispiele .
11.2 Vier Programmierwerkzeuge ,
11.2. I J\fakros .
11.2.2 Do Files .
11.2.3 Program1ne
11.2.4 Ado.files
11.3 Selbst programmierte Stata-!3cfohle .
11 _3.1 \Vcit.ergahc vou
:12x
329
330
:i:;.1

:'l37
;J;lx
340
;JH
;j.[;J
:l4l
;J.17
:i;,o
;\,JI
:i:; 1

357
;r:i1
;)C}()
359

:l(il
3G7
:\71
:\74
X
l i.3.2 von ()ption<'n
l 1.:J.:i \Vt:itc
1
rgabc von if und in .
11.3.4 Bikicu vun Variablco nnbcka11111.cr .t\.niahi
11.:3.5 \/orcius1.cllu11gcn
11.3.6 Er\veitcrte fviakrofuuktionen .
1t:t7 Vcru<lcrnngcu a1n Datensatz vcrn1eidcn .
l L3.8 H"1pFiles
1 Knrzzusn1nuu:nfass11ng
12 Rund urn Stata
12.1 lle'::\so11rf'e11 uut I11fnnationen -
i2.2 Pflege von Stata
12.3 Zustzliche Prozeduren.
12.3. 1 SJ- und ST-Ados
12.:U SSC-Ados
12.3.3 Andere Ados .
12.4 ezttgf>quc!lcn
12.5
Literaturverzeichnis
Index
;375
;377
378
:l80
383
384
385
38G
389
389
390
392
392
394
395
397
397
399
403
XI
Vorwort
Softwarepakete v0rndern sich stndig, und so wurdf eH hchstc Z<dt fr eine
neue Auflage dies('s zuerst 2001 erschienenen llur:hf'::>. VVir haben da,s Erschei-
nen von Sta.ta 9 nicht nur als Anlass genutzt, die auf den ncnstc1:
Stand zu bringcrL sondern viclrnehr auch da21L eine grnnd\i('hc (;h0rarbci-
tung; aller und gnzliche Neugestaltung einiger Kapitr-l durchzufhren: Die
vernderte Grafik-Synr<tx Vt:rlangte eine vllig IH'llP SI rukt ur \Oll r<Ll pirel .
Kapitel 7, von Verteilungen. ist u1n d, 111'ncn
keiten ergnzt und sind die iu dcu iihrigcn
Kapiteln Kapitel 8 und 9) angep<t->sl. FiHe \.FtTinfachung der
StaLa-Progranunier:qinu::hc erlauhtt.' uns Kapitel 11 Zll kitr.t'.l'!l und I<a.pitel a
utn eine Erklrung von .. Schleifen" zu erweih_TIL i\'ru hi1tznt:;<'ko1n1ncu sind
Abschnitte zun1 {}rngang rnit Datumsangaben uud S1ting--\/nriablcn in Kapi-
tel 5. Ebenfalls aktualisiert sind die verfgharf'n l\(sso111 <'Cl\ rund nin Stata
(Kapitel 12).
Ein weiterer Schv;:erpunkt der berarbeitung war di(' Dnr!'tell111Lg der Ar-
beit rnit f)atcn des Panels (CS()F.P). l)n.nk der UH-
tcrsttzung der aln Dr\\l ist es uns gC'litn;J;e1c einen greren
1CH der GSOEP-l)atcn fr unsere i3eispiele zu vcr\\'cndt':L l\apltcl 10 \VUr-
de um eine Erluterung der Datenstruktur des c;SOEP f'r\VC'itert, Ut1d die
Beispiele zu1n Zusannnenfhren von Datenstzen in dits('nt Kapitel beziehen
die Panel-Struktur des GSC)EP tnit ein, Der ;\hschnitt /.1\ d{'tl ncgrt:S..'iiOHS-
rnodellen fr Pancldatl'n in Kapitel 8 wurde ausgcba.111 nud d;L..; Kapitel zu
Progra1nmierung beginnt rnit cinerrt Beispiel eine."> t,ypischcn Proble111:; bc\
der Arbeit n1it Pancldatcn. Das Buch eignet sieh aufgri111d di<'ser )\ndi:.run-
gen nicht nur aL'> Einfhrung in die Datenanalyse niit St ;,tta, so1J(lrrn auch
zur Einfhrung in die Arbeit mit dem GSOEP.
Ohne sie irn Einzelnen 11an1entUch zu ncnnen
1
gilt 11t1:-:er [)auk znnclist
nach \Vic vor a.llctt, die bei der Erstellung der crst\)ll An!lag-c geholfen ha-
be1L Darber hinaus waren es erneut Studierend<.' iu n11;-;(
1
rcn Lehrveranstal-
tungen, die$mal in 13erlin und Los ;\ugefcs. die n1lt illnu Frng\'ll 1.:ur Da.-
und zun1 lhngang rnit Stata cntscheideud zutn dic:>f>r
Uberarbeitung beigPtragen hahe11. Ihucn sei die- lJngdn!J g,pgc11ber lJn-
klarhciten gcdankti die hei der Verwendung von dieses T'ex-
tes zurn \/orsche1n karuen. Ats verlssliche 1111d re.stlesci- st.rtndcn
uns fr die zwcit.c Auflage Christian Eli.-,;abeth (:lttts. Jau
Delhey, Florian 'Flicgncr, Urnula (jcrlach, Strfanic Guit(l(rt. Anita l{olt\vitz,
Lars-Eric Kroll. Katjn :\[hriug. \Iagdalf:na Lnniak. ('l:1ndic1

8 Einfhrung in die
Regressionstechnik
l'Jl
hn vornnp;('gnngcncn Kapitcl b1d>Pn tvir die Vt'rteilungen \'ou \'aria!)lcu bc-
schricb(_'ll 111HI fr unter:-:.ehicdlich<: cr('i(gruppr'l! betrachtet. So h<dlCH \.\'ir z.[t
dl( \/erteilung <ler Pa.rt.ciid011tiiikatlou \'Oll \Hi11ncr11 and Frauen \'f'rglichetL
Dabei haht>H tvir Ufl!) nut(rscl1ii'dlil'lK'r \/erfahren bedien!. 111 K1c\tztalnllta
hahcrt \vir die Hnfigk(itcn der i"\eHnungPu fiir rli;; f'-iHztlHf'n Pnrtvi(H 1111
t<.r d<r Bf'dingung untcr-;n{'ht. da.-.;,<.i cH' andtn' Variablt--, in llH'-'(Tt'HI Fall
da:-> (;tschi<X'l1t, vcrschiedPue \V,'rtc anfwcist (_S. ci c
1
i11(1n aadf'rf'll
Vcrf<l,(ncn haben wir f\.Jazahlcn (k-s Einko111n1c1ts, wit: il<'
oder Standardahwcichuug Z\viseheu 111Hl Ftanen verglichen (S. l 70;.
i\lan kn11lP auch sagen, wir hal;en \vic <la::; E.inkonH1tt>u ''<Hll (;p
schlf'Cht abhii.ngt. Die \'<.1riahle. d(ren \Vertc untereinander verglichen \Vrd{JL.
bc1,f'ichnf't inan bei so!chf'li \hr.i;ltichen d<1iKT nls \:driahk'.' lu
lU!SCrt'tll I3ei!-!piel ist Eit1ko1tllllCll d1l' 'ln.riahle. Die v,1rialil('. ;:,vi-
deren Kategorien di<' \!ariablc vprgliche11 \VirrL """inl Ja.g;Pg<n
ab .uuabhngige Vnxinhlc" b0zf'](h110L
2
Bei nnserf'n1 Vergleich dlr Einko111-
n1cH von !v1nnern und Fra.ucu ist die nnabhugige \/aria-
ble unrl Einkornmen die abhngige. V\relchc varirtblen als abhngig llzv . .-, tu1-
abhngig bezeichnet \Verdt'll, Prgiht steh aus lhrf'r udt>r
cinC'r Th('orie.
Krcuzti-tht>llPn, wiP v.'ir si(' :n Kapitel 7 vorgt:.:.tellt hahc11, Piil,ll('ll "ieh znr
f)arstellung, \vcnn Sie dk: \'crteUung einer \
1
ariahle zv..'isrhen elllif{<.'n \\'euigcn
Suhgruppen vergle-irlicn wollt'tl. \.\"cun Sie aber di(' \lcrteiluug: cintor Vttri<:1ble
fr sehr virlc Subgruppen h(tnlfht<'H wollen, drfte ciu ,.ScatLt-'rplot" die
sere 1\ltt>rnative sein. In ein{'lli S<tittcrplot 'A"ircl jede in
zweiditrH'11sionalen Ra111n (al':io in eit101n i\('.h1"cnkrcnz) Di( I<{l(ff-
dinatcn jedes l)nnkt<'S bilden slch a-11;-; den \Vcrt('n Bt'ohi.1clit nug auf <lcu
cutsprechcn<lcu \tariableu. f)i1' \Vprte der 11nahhngigen Variahh 1,vtnlea eut-
lrtng <ler .r-I\chse abgctrag;<:11 n11d di(' \Vt'rl.c der abhngigen \htri<lhlP ('t1tlang
der ,11-Aehse. Ahhilrlnng 8.1 ;;.::cigt drei eispiek.:;J fr S<'att.crplnt..;.
tind('ll skh ah('r 1\UCh diP BczPilnru1gc11 Rec:ponsc \'a.riabk ". rcndop,crw \"arinhl;:''"
oder Kriteri11n1.svnri;ihk""
> Andurc &:zeidt111111gen sin<I oder ,()Xogcut:' Varii.tble odl..)f ., f\l:t,
unLt'f findet sich auch der llDgrift "f>n><lictor,Varialilc'.
1
Die Bcispicie vvti (ifoli d(1 \.\/HO 11wl dPr lJSlC'EF
(11fr1rrnat.ionen tindcu Sie ,d,; .. Notiz (sh:he Fnf1ntP B auf S. !Ot<) i1n l.\1l1..n:-:aLt.: l):c
TJ,itf'n,.,;it?,c li1..p;e11 u11'iLr011i L\;d:P11Joak(f hri
![ '
1
1 i
Abbildung 8.1: Drei Beispiele fr Scatterplots
Der erste Scatterplot zeigt fr 188 Lnder die Lebenserwartung voa Frauen
ln1 Alter von 60 Jahren gegen die Lebenserwartung von irn selben
Alter. Die Punkte verteHen sich von unten Hnks nach oben rechts. Da.." bedeu-
tet) eine hohe Leberiser\va.rtung von Ivfnnern norrnalerweise rnit einer
hohen Lebenserwartung von Frauen einhergehL In F.Heu wie diesen1 spricht
n1an von eine1n ,
1
positiven" Zu::;anunenhang.
L1cr zweite Scatterplot zcitst den Zusarn1ncnhang zwischen der Kinder-
sterblichkeit und der Alphabetisieru11gsrate von Frauen fr 162 Lnder. Hier
verteilen sich die Punkte von links oben nach rechts unten, d.h. je grer die
Alphabetisierungsrate, desto klr:iner die KindcrstorblichkeJt. Dies bczC'ichnct
man als einen ,,negativen'' Zuhl11nnH:nbang.
Oer dritte Scatterplot zeigt den Zu::1arnrncnhang iwischcn den verlorenen
gesunden Lebensjahren von .'.vliinnern und den n Gc-
sundheits\vt:sen. Hier verteilen sich die Puukte aus 190 Lndern ziemlich
g.lcichrnig ber das gesarntc Koordinatensystc1n. Der Zusanunenhang zwi-
::{Chc:u 1\ntigahen i1n Cesundheit!'wcsen und <l(;n verlorenen Lebensjahren ist
darun1 alles andere als deutlich. \Vir finden daher, wenn berhaupt, nur einen
sc:hwacl1en Zusarnrnenhang.
In allen drei ;\bbildungcn ist der Zusainmenhang in Forrn einer Linie wit.'-
dergegeben: der ,,Regressionsgeraden". In den beiden oberen Scatterplot:;:. lic-
ger1 die Punkte zien1lich nah an der R,egressionsgcradcn. Hier sprechen \vir
von einer .,starken Korrel:Hion'. hn (;cgensatz dazu bezeichn(n \Vir baltonar-
tioc Punk!,C\\'Olk0n wie ilu drit.t.1H Sca.ttcrplot alN ,,1'>cb\vi-u:hc f\orrelation(u
fr dle Strke Jer Korrelation Pc,;trson 's
eHizi<'nt r. Ein Korrclntion.':ikoe{fizicnt von 0 hc<lcut.eL dass J:'.VCi
Varihlcu kein Zusanunenhang be8tehL VVert(' von l lJZ\V. + 1 St('hcn fr
di0 hchstn1.gHchcn Korrelat1oiiC'n, wobei -1 eine stark negative llnd + l einc
stark positivn Korrelation hezcichnet.
(Jhrig:cn!:C Egul wie stark die Korrelation auch ist, handelt es sif'h b('i ci1H'n1
sttttistischcu Zu.-.;arnrnenhang nicht, zwangslufig; uni eit1f'll knusn!cn ZuKa1n-
rne1thaug. Die Lehenser\vartung von Frauen wird :t.. wahr:-;cheinlich
durch die Lcbenser\\rartung von lvinncrn 11crursacht. VieltnPlir d1:ftt' e1-
uc ge111cinsrunc Ursache fr beide geben. Vielleicht la.'-Jseu sich (;riirtd:
finden, warurn die Alphabctlsierun!!;.<'>ratc von Frauen die KludPr;;.l<;'rhltchkc1t
:;cnkt. fvfit Scatterplots, Korretatiot1Bkoeffi".1.ientcu oder
allein Jas:.-.en sich derartige Vcrnn1tungen aber uicht 1'H)crprilfc11 ( l(iUf!; et aL
B<rk 2004).
Da.niit Sie ein Gefhl dafr bekornrncn, wie sic:h die Punk!-ev;olke t:i11e.:-:
Scatterplots fr unterschiedlich<: \Vertc von r verndert, hahf'u \\'Ir ciu kleines
l)en1on.strRt-ionsprograrnrn gt;.<:;chri('ben. Dieses knncn Sie \vic folgt ver\VC:ll-
dcn. l\Iit
4
do cplot 0.5
crhaJt.en Sie elnen Scatterplot von zwei Variablen. derPn Korrclntiuask1Jeffizi-
cnt 0,5 betrgt. Sie knnen die Strke dE'-'5 Zusar:nrnenhangs varil(crcH, iadctn
Sie hinter do cplot einen Korrelationskoeffizienten [hrer VValil schreiben.
Die Beschreibung des Zusannnenhangs zv,rischen einer abh11;.;igcn und
ner unabhngigen Variable ist die Aufgabe der ,
1
1inearen Einfachregression"
Elnc einfache Verallgerneinerung der linearPn Elnfachregrcssiou bnsrhrciht
den Zusanimenhang zwi::1chPu einer abhngigen Variable und n1t:J1rerclt a11-
abhug:igen \'ariablen. Dies i::.t die :,n1ultiple lineare Rt>gressiou. i)ie
nuug ,.tuultivariatc Rt>gression' '"'ird dagegen fr ein \/erfahren 1ait 11ud1nrvJ1
abhngigen Variablen vccvvendet.
ln A:.bschuitt 8,1 stellen wir das Grundprinzip der lineareu
on vor und illustrieren es an cine1n Beispiei. Daran anschlieend \Vel'd(:ll \vir
dieses (;rnndprinzip auf die tnultiple Regression anwenden (i\h:.-c_l.in. .2). L)ie
hinter einer linearen Regression stehenden .t\nnalnuen und ihre l;lip1iniifnn,r;
\Verden wir in Abschnitt 8.3 behandeln. Dit: daran i:u1schHeeudu11 A1>l:'r:huittc
be.schHJtigeu sieb rnit kornplizicrtereu Regressions1nodellen, der lnterpr<'l-l i-
ou von Stichprobendaten und einer klPinea Auswahl von ErtveitcnHtgeu de:-:
li11carcn Regres..5ionsmodclls.
Fr ein tieferes \lerstndni.s dPr stati.stisc-hen Grundlagen ist. l\Y:itcrc Ltk-
! re tiot,vcndig. Gut z11 Ufh"lercr Darstellung: passen Hanlton (1992) oder Fox
---18.ittc ar:h.ten sie durauf, dass -1i;-Arbe1iHYerze1d11:is r;:\data\kkd i:-;t. hi<;!'Z!l 1111f
S. lfl
(1997). Sehr r:inpfelilcnswcrt ist auch dn.s B1u:h von Bcrk (2004), '.'.'clches eiue
kritische l)iskussiou hufig g,c111acht('r Felder enthlt.
8.1 Lineare Einfachregression
8.1.1 Das Grundprinzip
I11 <liescn1 Abshnitt v:Pr<lcn Sie 1nit Btgrlff(n \vie ,,()LS(, ,,RSS'. vorherg_e-
sagtf' VVcrte' un(l R.cgrcs;,;ionsko<1ffizicnt" 1.rcrtraut gc1nacht. Leser, die diese
Begriffe bereits kennen. knnen die8en Abschnitt bcrspringerL
Da'> (;ntndprinzip aller R.cgres..'lionsn1odetle ist sehr einfach. Sie sucli('n ci-
t1c Gleichung, die es Ihnen erlaubt, C'iue abhngige Variable 1nit einer oder
n1ehrercn Variablen rnglich:-;t gut vorherzn,.;;agetL Als Beispiel
ncluncn v:ir Folgcudcn an:
Si(! hahvn d('ll \ictd1v-'1tl, da..:.;s die \<Voh11uugsgrc vorn Nctt{)einkoutnHn
eines fhut:-:ha.lts besti1n1nt wird. Je mehr so verrnuten Sie
desto grer die \Vohnung. (a;;ichzcitig Sie aber, dass aoch weun niat
1
kein Einkn111u1en besitzt, die \Vohnung8gre nicht gleich !'JuH sein kann. Da.-.:
heit \Vohnnngen von Personen ohue EiukonHneu haben in der eine
gcv.iN;-;e \fiudcstgTc. !vfit Hilfe einer ('infachen Forrncl knnen Sie <lie_c;cn
Verdacht Ni hinschreiben:
mit bv, b, > 0 (8.1)
Die g<'schtztc \\lohnuugsgre der Farnilic tvff'k:r (l/rv!cier) wird berecluHt,
ludern eine ivfindcstwohnungsgre bu angenornn1en und das Hau.-,baltl'.'.netto-
einkornn1ett der fvleiers (xxlcier) dazu ad<licrt

Letzteres allcrdiugH nicht
n1it scine1n vollen W"ert, songt \Vrden Sie ja Quadrat1ncterzahlun itn Tauf>cn-
derbcreich bcko1nn1c11. \
1
ielruehr rnultipliziercn Sh_ das Haushaltscinkot1HHeH
niit Gre b1. Dif' beiden Gren b
0
uud b; sind fr alle Haushalte gleif'h,
oder, anders fonuu!icrt, t)ind unabhngig von den Haushalten. Die beiden
Gren l}() und b1 werden Regressiunspararneter'" oder Rcgretisionskoeffi-
zientcn" genannt und geben hier den aHge1neinen Zusanuncnhang
Haushaltsnctlo<inkon1t11cn und \Vohnuug8grc \vieder.
Nun werden Sie :;icher einwenden, da":ls <la8 Einkon11nen nicht die einzige
\luriable ist, die einen Einfluss auf die \Volu1uug6'grc hat. So scheint es gut
vorstellbar, dass 1:.B. die Fan1ifiengrc cbenfd,Us eine Rolle spielt oder da..,.;.;
... 4Jter d('f FarnilienrnitgliPdcr oder 1.1.ras auch itnrner. VVenn Sie diese,o; was
auch imn1er; nicht vollstudig kennen, >vird die tnit der Gleichung berechne-
te \Vohnungsgre Yi inuncr von den beoha.chtetL'n V/erten DieS<.'
Abweichung uennt n1nn ,iilc:siduum' (Itest). Allgenu:in knnen Sie die -
zichung zwischen der tats.chlichen \Vohnuugsgre Yi
1
der geschtzten \\'oh-
Hungsgre [h und dern Residuurn .f
1
\Vie folgt darstellen:
Zeichen fi, wird innuet fr geSf'htztc \Vertc der u-Variab!t: verwendet. fhi;,- ist
also gcsc!itztP \\'uhrnmgsgre von Familie ;\feie:
od<'L Ihr<:!r crstcu Vcnnutung,;
'l/i = bo + b1 '"'Xi+- f,,
. "----v---'
ij,
p_r;
(1'.2)

!viit (8.3) wird der W<'rt y fr die l1eohaclitung t als
von Xi und einer Strgre dargestellt. Die ho und b
1
sind von
den Individuen i unabhngige konsta11te Zalilen und Ci iHt ein Strt.c1111 fr
da.-; I11divid1nnn i.
Ziel Ihrer eniiihungen sollte es sein, \Vprtc fiir ho und &L zu findPiL
f';ibt eine ganzt: Jleihc von Verfahren zur Bf'b.titun1ung d<'r Begressi<H1SfHtrn..-
tneteL An rlitscr Stelle hC'scbrnken wir jedoch auf <'infi:tchstc 11ncl
weit.est<)n vPrbreitet::>te; Ordinary-Lea::-t-Sq1uu'<'S.; (OLS). das Verfahrl"ll
der kleinsten Q11<1drate. Bei V(;rfahn:11 g('ht, es daruru, dast:i d(r C11
terschied zwischea den in Gleichnng 8.:1 vorhf'rgc"<Jf!.lPt1 \-Vert0n und den lJ('-
obachteten Wcrt.ett n1glichst klein wird.
Urn zu wcu.; rlan1it gcnleint ist, sollteH Sie :;ich t-itnHaf den -Scat-
terplot aus AbLiidung 8.2 betrachten. Suchen Sie in diE'Scr eine Gerade.
rnit der Sie d<n Znsa.mn1enhang der beiden \lariblcn wicd<'rgehen ktunn.
Die Punkh! liegcu nicht alle auf einer Ger<-tde. Sie knnpn Vf'rsurhen.
einen geraden St.rieb so durch dle Punkte zu das.-i die Ahstnrle Z\Vi-
schen den Pu11kten und der Geraden insgesatnt 111gJi(hst klein wertlen. \Vie
gro die .l\b:-:;tndc zwischen den Punkten und der Linie sind, knnen n1it
einen1 Lineal nachn1essen. Addieren Sie dit> /\f)S.Lnd<' auf und Sie stolpcru
bet" da."l erste Prohleni. Negative und positive 1\bi:tndc knnen sicl1 gegett-
seitig aufheben und in der Surr1me sieht so a11s. ab gbe es gar keinen
.Abstand. lfrn dag zu vern1eiden
1
knnen Sie einfach di(" (FHviric-
ren und die quadrierten Abstnde aufaddieren. Sie jetzt v0rschiech.:11t'
Linien durchlcgcn, die Abstnde abu1esscn UH(l lrnrner \Vied<'r aufti Ne!H' di{
quadrierten Ahstndc addieren un<l dann alle V('r;lcich(11. wird
die Linie mit <lcr kleinsten Abstandssununc dicjcuig:c seiu, dit: deu
tnenhang Z\vischeu den beiden Variablen arn hcsten \Vietlergibt. Dict:>e Sache
ist nichts anden::-i als das Dk Punkte <tuf der Linil'
sind die fr jeden beliebigen \Vert von X vorhcrgesag!f'H \\'{tte (fj;). Pa.i.;!-11
Ihr 1ifodell guL dann liegen die Punkte alle sehr nahe bei der gezeichnet/'!;
Linie und dle Sutnrnc der quadrierten Rc:-,i<lucn \Vird klein. das l\fodell
schlecht, Hegen die Punkt weit entfernt uud die Sunnnc der cluadrierten n.e-
siduen wird gro. Eine Lsung des Regr;;-Bsionsproble1n;:.; a.tts Abbjldung 8.2
erhalten Sie nt
do grreg2.do
1
1 1
1
+-
1
1 .
.
-i=t==
i



-
.
i
'
Abhildung 8.2: bung z1nn (JLS-Prinzip
_{Jrregl. do
Lassen Sje uns da::; (JLS-Prinzip nun tAn \.Venig forrnaler darstellen. Es \Ver-
den diejenigen Para1uetcr (bo
1
b1) der Gleichung (8.3) gesucht, fr welche die
Surnrne der quadrierten Residuen (RSS als Abkrzung fr Residual Sum
of Squares") aller I!eohachtungen rninin1al i.st. Die oben beschriebene Suche
durch Ausprobit'rcn ist .sehr aufwendig. und einfacher geht es, wenn
Sje mit I{ilfe rnathe1uatit1cher Verfahren die S111111uc der quadrierten Residu-
en (RSS) tninirniercn. R.SS sich als DifferPnz der beobachteten und der
vorhergesagten \\.Tcrte auft>chreibcn:
n n
RSS = L el = L (y, - (i;.)' (84)
i=l i=l
Durch Einsetzen von fii Hi.'lst. sich schreiben al;-;:
RSS = L e; = L (y; 11
0
- b
1
.r;)
2
(8.5)
Zie) des Verfahrens ist es nun, den \Vcrt fr IlSS zu rninitnierf>n. Das
heit eB tnssen die \VcrtC' fr bo und b1 gefunden werden, hei denen {8.5)
rnglichst klein v.dr(l Zu dlt'8em Zweck wird die erste partielle Ableitung
von {8,5) nach bu nnd uach b1 ermittelt, gleich Null ge.-;etzt und aufgelst.
Es ist an dieser Stelle nicht uotwendig, dass Sie di Ableitungen tat:schlich
selbst durchfhren kuncn. Sie sollten jedo.::h sehen, dass es sich bei dem
ganzen Verfahren urn dlc Suche na<'h dcn1 I\tinhnurn einer Funkt1on 1nit zwei
llubekannten handelt
6
Falls Si0 die Ableitungen ,:.<tfh::.;t nachvollziehen "''ollen,
dif' U1nfonnung na('hvollziehen wollen, f;f:h;,n die Ab!eitunge11 \:ie folgt aus:
RRSS
(8.6)
197
linden SiP eine \.Vif'dvrho!ung der hierfr not\vcndig('ll bl:i
Hagle (1996).
J3evor wir 1nit drn 111athe1natischcn Grundlagen fortfaltn1i. hPrechncu Sie
eirunal eine H ..egrcsi-.1<111 nt Stata. Sie werden ::;ehetL wie ciofa.ch und hilftcich
die Verwendung von Stntistik-Progranuncn fr solche f1ercclnn1ng:cn isL Doch
Vorsicht: Die einfache Berechnung der sollte nicht dazu fhreu.
dass Sie nicht ilbf'r da.s nachdenken, \Va."> Sie da tHtL \Vir \Verden i111
V{'rlauf dcH auf !!inigc iuha.ltlichc- Problctne LH sprccheu konunc1i,
\Velche gegf'tl die naive :\n\vendung den. Rcgre;-;sionshcfchls nnf Ihre Daxcn
sprechen.
8.1.2 Lineare Regression mit Stata
In diesem Absrhaitt \vcn.k:n w?r Ihnen die Bcrechuuug; eiucr Hcgressiou tniL
Stata erlutern. hn vorhergehenden i\bschnitt hatteu >.vir dPn Vcl-dacht g<>
uerti dass Bich dir> \Vohnfichc auf das rlcs flaushalts
zurckfhren l...,sL Sie sind nun an einer genauen Spezifizierung des Zu-
S<'trnmcnhangs il 1t; :nssiert und berechnen deshalb eine iinPar< HPgt(__'S.Sion der
\V'ohnfichc (sqm} das Hau.,,,,ha-ltseinkomnien (hhinc). l)az1_1 geugt:
7
. use data1, clear
(SOEP'97 (Kohler/Kreuter))
regress sqm hhinc
ss
Model 986537.128
Residual 4439145.82
Total 5425682 .95
sqm Coef.
hh1nc .0165935
_cons 55. 766'{5
df MS
986537 .128
3124 1420.98138
3125 1736.21854
Std. Err. t
.0006298 26.35
1.38561 40.25
P>!ti
o.ooo
0.000
Nu;::ber of obs 312-0
F( 1, 3124) 694.2-0
Prob > 0.0000
R-squar-ed 0. 1818
Adj R-:-squared =
Root MSE 37.596
(95% Conf. Interval]
.Oi.53588
53.04995
.0178283
58.48355
\Venn Sie diese pa.rtit'J!,_,, Ab!eituug gleich Nnli und ;.t11f\scn ergibt :,idt:
(8.7,:
i'\ach dernselben Priw.dp limDtl Sie div er:-itc p<1rtielle Ablcit.ung nadi b1 auf:
Nun wird bo iu dic:-wr Gleichung durch Jj b(X ersetzt. Na.eh einigen Lrnforntullgen
erhalten Sie
;f;;.\.:; x)(y, - y)
r: (x, - x)2 ...
(8.i}}
E:lne ausfhrlidwrc Darstellung der Ah!vitung Sie f_-i Haini:ton (1992: :5:t)
7
Bitte a.::hteri Sie aud1 lticr dass Ihr Arl;eit><.verzddinls r.:\d.11Ja\id:d ist. Nheres
hierzu n..uf S. lO.
198
'vVfr .Si' ;-;clicu, hcslelll tl.a." Kut!Utlal!dd au;s dc111 B<d{ld regress und einer
\rarinhlt'nli.ste. Beachten Sie, dass di(' cr'itC Variabk' iu der Variabhntlistc die
aDhngige un<l di<' zweite <lie 1u1abhngiJ?;t) ist. Die At1sgaht> besteht auf\ drei
'feilcu: Dern ,:Anova-Block"' oheu links, de1n oben recht::;
und de1n Koeffizientenblock" irn Teil der Erp;cb11isdarstt>Uung. Sie
sollen itn Folgenden dPr nach erklhrt werden. cgi1111en wollen tvir nlit
dcni KoeHizientcnblock,
8.1.2.1 Der Koeffizientenblock
lrn unlfrcu Blo<:k <lcs An;.;<lrucks stE'ht:n in der Spnlti: .u1it der hf'ro::;<.'hrift
,,C:oef. <lie <ler RPgr0hsio11skorfhzic11tcu, aL..;o rlit \Vertc fr ho 1n1<l b
1
aus der Gleichnng 8.J.
N"ebt'n den Rcgres.'\iou:-.kotHizienten findet sich ein<' VicL-:ahl weiterer 1\n-
gaben, rnlt dt>nen ehe der berechneten Koeffizienten a0ge$chtzt
\Verden kann. \Vir ('rliiutcrn Ang-abcn gleich 1n1 Anschln,'\s. Bier f'O!-
l(:ll Sie krnen, die flegT<'s::>ionskoeHizicutt:H zu interpretier('n und sehen, \vas
Sle nt tleu RegrcssionAkoeHizicutcn in Stuta anfa.ngen knncn, Da.hei werden
Sk auch einige grur1<JlegeHde Prinzipien der Befehle 1,.on Stata kennen
lernen.
Der \Vcrt fr bo steht- in der Zt
1
ilc ._cons'' der Regrf'::>l"011s-Ausgabe (S. 197).
Er betrgt 5fi, 76675. Lant stehen jeder Fa1nilie ohne weiteres Ein-
kunnncn knapp 56 rn'2 \VohnfHi.ch(' zur Verfgung" [)er \\/prt fr b: steht in
der Zeile, die rnit hhinc' beginnt- und betrgt 0
1
0165935. Das heit rnit je-
dern Eur zustzlichen f{anshaltseinkornmens die \Vohnflchc un1 etwa
0, 02 rn
2
an.
Ninunt n1an an, dass dii Fainilie I\.-lcicr aus c:Jcichuog, (8.1) fiber ein lllO-
natlichcs Nettoeinkot 11nH'll von l 7 verfgt, so liis::,t n1it deu1 .\todell
.rtlischt;-:cn. \vie gro dh' der Fatnilic Tvieier sein drftt:
55, 76675 + (), 01659:J5 X [ 748 (8.10)
Si1: knnen da...; Ergl:bni:> direkt rnit Stata errnittcln. lfierza ver\venden Sie
dtn Br.fehl display alt' "['af:f'hcnr('('hner:
display 55.76675 + 1748
84.772188
l.)'1. da"' .l\btippen der Zahlen sehr fehleranfllig ist uud Sie nicht alle Ko1n-
111astcllcn berck!:iichtig<:n knnen, en1pfchfen \Vir Ihnen. fiir solche Rechnun
gen auf die ,,gespeicherten Ergelinissc" zurckzugreifen {vgl Kap. 4). llcgres-
sious1no<leHe gehren z,u deu Typen, we::1a.lh Sie die Ergeb-
nisse durch den B\:fehl ereturn list ansehen kuueu. \Venn Sie da<> tun,
\Vt>rdPn SiE> jedoch <lt(' n grcs..siOni::ikocffizicntea V(rgeblich suchen.
Ji('gl. dara.n, dass a.llc H<'.gressio11'.:lkncfi'iziente11 in ciittT al>;.;dgl
\Vl'fd('.ll, geuauer in der lviatrix <:(h)"' Urn anf die E-r;.!,chHi;;se dicst:r f\Iatrix
znzugr('ifcH, ver\vendet inan die Kon;-;trukt.ion _b [ varname] v.rnfH-' i var11a-
1Jl('' d11r('h dP!l. Na.uH_'Il der unabhngigen \rariabh:n odtr durcl1
erset..-::t wird.
l)ic fr die Fauiilie A'/r:ier !:'-ieht <lalln \vic folgt
display _ b [ __ cons) + _b [hhinc) *1748
$4,77226
Dlc Zahl \Vcicht ein bisschen von obiger a.h, -wcil die
uis:-;e erst ab der 16-ten Stelle gerundet \'>'erden. \VP11t1 Sie l 748
Ei11ko11uuen von 1 749 cinsct;i;eu, \1.rcrden Sie ff'stst.Pll('tl. das
1Hll den Betrag von b
1
= b1i.1,u
1
.r, = 0. OIG.59:354 grpr ist,
\'ieilcicht interessiert Sie \Vcnig;cr, vie gro die gcschiitz:.c \-\'oh!tnn,sgriit
vun n1it eiueru l.H:stinirntf'n Einkotnrneu ist. soudPrn \ViE dh
V\'ohllun[!;Pn vou tnit diesem Einkouuneu tat:-.('hli('h sind. Dif' tat-
siichli!:hcu \Vohnungsgrcu aller fauiilien tnit eincnt Einkollllll('ll von t
('rhalttn Sk durch folgcudcn Befehl:
sqm bhinc if
Sie sehen, dass die von Ihue11vorhcrgc:-;agten84, 77111'1 nicht anf.J;ezciist W('r-
dcn, sondern Wer\.e Z\Vischen 441n
2
und 114 rn
2
, Dir: hcobachtct(n \\'prte y,
\veirhen abo von deu vorhergesagten \Verteu r;, ab. Die-.:(' Ah\\'c;ichn11ge11 !'in<l
die Residuen.
Wenn Sie die vorhfrge,";<-tgtcn Werte fiir jcdeu Haui<halt lierrchnet.1 \vollen.
knneu Sie anf die gespeicherten Regres..'iion.'5kocffizieuteu zurekgrci f<n.n PI'
BPfclil zur Berechnung der vorh('rgesagten \Vertf' h-111tcf Y
generate


Da.s l;;t da.-;. gleiche Prinzip wie behn vorhergehenden display-flcfehL nur
dk \\"ohnungsgrc dies1na! C'bl'n nicht aussclilit'.lUich filr di(' Fsn1lli<"
\leieL sondern fr alle f"'arnilien vorhergesagt \i..ird. ();;.s der [Je
:('clu111ng schreiben \Vir in Variable sqmhat, \Vir hv1111tzc11 liif'r i1iHt1cr df'tl
Znsatz hat n.ls 1v1erkhilfc rlafilr, da.'!s es sich tun f'ilH: ._gcschtzti, \a.riahlr
h::i1HleJr. IO
t>Sie knnen die gespeichcrtcu He;ressioni\koeffiztentcn berall (l'-'rt citH<.'L'lt!H, v.\.1 Stt-
ta einen Ausdruck erwartt>L \VA..'> hier unter Ausdruck vCT6ta.11dl'u wird. kiinncn S11- i u
AbschtL :3,1.6 noch ('inrnal nadilPscn.
9 Sie er!ut!t.cn nach Eingabe d\eses Hcft:hls den Hiuwei:'J, einige fd1lt'od"' \.\c-vf\.;:; f_;Pl!i'--
riert wurden. D\Ji.l ;oind alle diP Personen, ftir die keine Einkon1nu'1hill!ftetlie iin D,1t<:1Hat:;
vorbanden ist.
ll!Sic haben in den ohigen Glfliduin;eu schon gei\ehen. dass w'.r f;ir dw 7,f':<,d1ci.t:.oh_'li \\t'Hi'
('irw1l Hut" (engl. hat) a11f dns 11 g,L':>et1,t halUn. ff.
'l _'-i
! 1
' 1
'i 1
q
200
VVcnn Jhucu dtT z:tl(t;.:;L Pingcgchene IJef1:hl ztr viel 8chrcibar11it ist, knnen
Sie gleiche Ht:sultat auch ci11facher err<'i<h('u: Der Befehl berech-
ne! itach jcd<-::tl! Regrcssionsbcfehl di( vorhergexagtcn Werte und :-.chreibt sie
iu eine Varlablf. dcn1 Befehl
predict ybat1
'><:liu'lht Stata die vorhergesagten \\'crtt' iu die \farlable yhat 1!
1
die nun ex-
akt diP :;leichPn V\-"crt(> beinhaltet wie die Variable sqmhat. Si1.,' sich davon
iihcrzcugen wollen, gcbPn Sie list sqmhat yhatl ein. 13ci predict hantlfdt
!'s sich unt ein ,,P{J8t-Est.iinat.iou-Korumaudcr', \\lir<l predict ohne \.VCiterc
()ptio11 f>irigegehen, berechnet da..., Konnnando di0 vorhcqi;<:bag,J t'Jt \\/crte des
zul<:rzt. eiugcgebenun statistischen J'viodells.
Hrtt. tHau <li(' vorhcrgc8agtcn \Vertc bf'rcchn('t, fllt die Errnittl!11111. der l{e-
;-..iduen s0hr leicht. Sie bilden lediglich die Z\\."isch(n b{'Ohrtchtcten
i1t1d Vl)l"hergesagten VVl'\rten:
generate
Dic::;e Differeuz ist nichts anderes als d0r ALstand: den Sie Z\Vi>chcn <len
Puukteu uud der Liui0 in der Grafik auf Seite 196 ab,gen1csscu liattcu.
1\uch fr dt-10 Speichern der IlcsiducJJ gibt es ein Post-Estiu1atio11-Ko1n-
tuando. Ver\vcnden Sie predict 1nit der Option resid und Sie eluen
Vfl.riahlcnnarneu an (hier: resid2), unter dem Sie die'Resitl11eu i:t!Jspeiehern
liichtcn:
12
predict resid2, resid
Sif: knn<'n sich die von [hncn erzeugten grafisch t.Htsehen, Ei-
11{' :\-lgliehkeit dazu it:t ein Scattcrplot von sqm und hhinc
1
durch ei-
nt' Linien-Grafik ier \Vertc (yhat1) gegen hhinc nhcrlagert
\Vird,
graph (scatter sqm bhinc, msymbol{ob)) (line sqmhat hhinc, sort)
den t'JH7.(Jlnen Cutcrabschnittcn Kapiteb wcrdt'n die IJerediuunp;f'ti tJer Rc-
grcssl'ln nwhnna!s wiederholt und oft.n1a!s die v<irbcrgpsagtcn \Vcrte ab;t:speichert. Wir
verwenden dabPi itnrner den Variablenn<Hn.:>n yhat rnit einer fortlaufenden


ruug, Die Nunurwrn oach yhat haben keine weitere Bedeutung.
LlWrdcrstehen Sie der Versuchung. die Variable fr die Ret;iducn e zu ucnuen. IJ<!r Niur
1
e
e ist _zwar ats Variablcnnatnc erlaubt, kat1n aber au einigen Ste!le
11
;r,tt
Knn01kt0n n11t der WJ.'1Senschaftlichen Sdin:ih\.v<:>ise vit1 Zahlen fhren. \VPltl'ri.' Narnen.
1u.tf die Sie verzichten l'Jol!ten oder rniisseti. tir;dcn Sle in Abschn. s. L l.
8.1 Lineare 2111
-----------

i}' ,
: !;:':'"'
:jl_._ _-:' -_-
0
l, - ;w,; --;500o
Hilwtl\111$ ...... ()mmWl f;1
---------
8.1.2.2 Standardfehler
Bislier habPn Sie die Daten ;;o hetrachfl't. als htten Sie aUc ]11 der 1:>op11lation
vorkom111enrlcu Objekte beohachlcL l)i<s ist 1nei:;t uiclit d{'r Fall. Vichn(h:
handelt es sich bei Ihren Daten oftmals uut eine Stichprobe aus eilH!r g;rcren
Grundgcsa1ntheit. Die Koeffizienten li<'r Begression (Konstante und St.eigu11p.>;
der Geraden) sind iedlglich eine SchiU-znug fr den Ju der
geltenden Znsarnmenhang. :\un kn11tc {'S sein, da!).-; diese Schtz1111g anders
ausfllt, \\""cnn Sie aus der gleichen Gntndgcsarntheit eine andere Stichprobe
ziehen. Die..<;e Sch\\.ankung in den Ergebnissen ncnut u1an
Haben \Vir es n1it Stichprobendaten zu t1111, intrressiert urv;: deshH!L.
wie gut' die Schtzung fr die Paratucter ist. [)as h0it \Vir Htcht.cn \Vis
scn, in \velchem Bereich die geschtzten Panuneter llcgcu \Verden, weun wir
Stichprobcnscl1wank ungen bercksicl 1t i}?;c'n.
\Vir 1nchten betonen, dass Tecl1nike11 fiir stati8tischf' Inferenz hllfi nliss-
braucht \Verden. Alle diese Techniken hasir'ren auf Annahrnc1L die oft \vcn1:
berhaupt nur in groen Stichproben vo11 guter 1,utreffe11 ku1H'll
D'=!_s bei _d_er
Hn_earen RcgTession erfordert,_ die [Jaten au::i einer einfa.chen Zufall:>s-
groen: :-;taaunen.
11
Auerdcn1. fii('
___ sein. Die Ern1ittlnng
von Koufidenz.int.crvaHen basiert dar\ii>t:;r hntus auf der ;4.n1uthn1e nonna!
Es liegt in Ihrer \:'erantwortnng. die .<\nnalnncn hintt'r dcu
zu prfetL VVlr ralu H111t'U dringf:nd, die Liter-atur ;;,:tr
statisti8chen Inferenz zu lesen und zu verstehen, bcvr Sie i:iich fr I:0.1n: i11-
haltHchen Schlussfolgerungen auf ,,Signifikanztests;' bcruffsu. Zur IlhJ:.:>tratiu11
der Verfahren fr die statistisehc [nfcrcnz Sie bitt{' erneut da.:-.
Regressions1nodell der \Vohnuugsgrc:
. regress sqm hhinc
11
F'r kon1pkxr Srichprohl'n :-;iche Ahsch11. K:;
.
i
!
1'
202
Sie seircn l1u rechten <l1:s ](onflizicntt11l)lo<'ks fllr je{lf'11 lHTech11clc11
l\.01 lfiziPU! en dir' f{nfldeu/,int,crvallgrenzen". Iiu F'a!I des
rnctt-> 1icg{u die (;n:nr,cu h{'i uud O.Ul78:.t
l)as l11dentet: \VenH wi1 ans der Grun<lgcsa1nth<:it sehr viele Srlcltprob,;11
ziehen \Vrden tntil fr jf'dc dicsPr den l{ocft:izinlcn tt:1d das
dazugPhrige Konffrlenzintf-r\all hcn'\hnnti. \vrden 95 Proz<'flt d<'r auf
\\'('i,c ln;nchnctcn Koufidenzinttrvallc dPH .,\Vllhrcn'' V\!crt de.-, Kncffi.dt1Lte11
d<-r enthaH+1i.
1

1
hH A11;.;chhtss kt:u1en Sie prfr1t. oh der \4/f'rt Null iHllcrha'.b
fidnzintervalls liegt. Falls ja. \Vn: es nicht 1111w.al1rsch(:l111ic:h. das:-- d:" cnt-
spr<'f'li('11<J1' HH<-thlingigP Variable i11 d!'r Gru11dg(>s<'itntheit kP111cn Einfiuss auf
die ;-1hhngi;c Variable besitzL 1fufig \vird statt der
zcn auc_l! di.'r iln Kucffizientt'nblock zur der
__ SigitilikaHz' der bere('bll<:IP11 I<ocffi,;;i('11tc:1 \Cr\vcndct. Dabei handelt es !il{'h
ltr11 '>fat1-"fi,.;che Signifikanz, nicht. inhaltliche: Bedcutsa1ukeit. Anhau<l drr
\'crl<'ilnng: \Virrl bei einein gcpriift. hii1dig die
hcr(chnetcll Koeffizienten auft<.t1H.hen knnten, \Venn der l{O\'ffizicnt iu der
(; nnHlgcsHJ.nti1clt eigentlich i\. uH h.;t ( 1VullhJJpolhe.i;c), Die \Va !1r::::clteittlichkeit
fr einen ;.;olchen t-\;v'crt Lf'i StichproUcngrc und uuter AH1tah111e
dl'r .\Jullhypothcse \Vird iH der tuit P > l!I iiherschricbcncu Sp<tlte n11g('gcbcn.
Ein kicinnr \\fett in dieser Spalte (z,. ein \\lcrt kleiner ahi 0,05) srtgt, flass es
zietnlicli nnv:ahrscheiulich Pincn .solchen I\.oeffizicnten zu berechnen, \Vn1u1
der 1-\.neffizient in dCr Grundgcsan1thcit JVull isL E:B wre dann v,:;d1rscliciutich
fuJ::H-h zu dass die oder das Ifaushaltsei11ko11uuen
iifu:rhuupl keinen Eiuflus.s auf die VVohnuugsgre hat eine U(htutp!.ttttg,
die \\-ahrschcirllich liit' tnachen wrden. Wir ernpfehlcn deshalb
dcti Ulick auf die Konfidet1zintervalle, bei dt'ttl die eigentlich0n Etfcktstiirken
:-;o leicht aus de1u Bhck geraten.
l)i< I)i.'rcchnung des 9::i9<1-J<:oufidc111:int<-'rvalls erfolgt. indc1n ,,;uni
onsko<.ffizienten 11ngel:<ihr das 1,9-facllc
1
" de;:; Statidardfehlcn:i ltiuzuaddlert
b:t\V. abgPz;og;cn \VirlL [)ie Standardfehler der \lariahlc k crgtbeu sieb der
Standctnlab\vcichung df'r Hf'siducu (h,} get('ilt <lurch die SH1nu1e der
drir:rtcn l{esi<lue11 (RSS) einer H.cg;rcssion vn kauf alle a!lderPll H11i1bh.ng:!-
gl'n \"ariableti.
8.1.2.3 Der Anova-Block
. ,AI\.()\lA ist diC' 1\hkrztu1g fr ,
1
Ana!ysis of Varianct';. \-Vir V('l'\\'euden
die 13ezeichnung ,,A11ova-Illock'; fr den oberen linken df'r Stara-
.cgrcssions-Ansgahc, \Veil darin die \Tari;U.ion (ler aLhngigc11 \r'ariable in
11
hcdeutet uicht, <la3S der wahcc \Vcrt mit innerhalb der
luti:rvallg:renzeu liegt. wie oft !!/'S<tRt, wird
1
-'lhT genaue \Vert vari:crt Jllit de; F<tllza.hL Bei F;1IJJ:11hlf'n bl'r 30 ist L!lti f'ilH' r;utf'

cln.'ti l'rkliirlen l1J1d \'i11c11 nicht c1kliirLt11 /,('r!t'g1 wird. Zt1r FriH!l('l'llllg
h;-ibcu \vir lh11c1i hier die \Vcrt(' dis f\11ov;vl3lockc-; voll 197 llO('.\i1naL"i
.abg;ccln1ckt:
Source ss dt MS
Model 986537 .128 986537. 128
Residual 4439145.82 3124 1420.98138
__
Total 5425682.95 3125 1736.21854
Zur Erklrung; des Anova-\of'ks vvolli:11 \\;r (il1 Beispiel kon;.;tru-
iPre11: Sie sich Pintr1'1l VtlL Si<' \Vcui<'ll g(frdgt. wie viel V\''ohnranrn
dP111 St11de11ter1 Paul znr Vcrfg,1tng str.11t. \\"('f!H Sie uiflitd fihcr Pnul \Vi:sscn.
\Viinlrn victlcicht diejfnigc V1/r)l1tutH;sg-rHe nctu1cn, die Sie uL'> d11rch-
\Vobr111ngfigr(' fr Studierende a.n11elttue1t. In Fnll U-ig:0n
Si1" gar !licht schlecl1t., denn die durch"'chnit t \.Voh1uu1g:sgrc ist derjenige
\Vcrt., 111it dein inan insgesa1nt diE: ki(:i11stc 111i;-Hlricrt<: 1\b\veiehunp:: b(ko1nntt
and1T('n \rVortt>ri: Der I\:fitt(!v.E-rt. '.:-t der "()LS-Shtzer".
In 'l'a.hcll<> 8.1 hahC'u wir die 1a1d Hi:t11sha.ltt>grct1 \'OH drei
StHdif'rrndcn einf'r Stadt rinp;Ptrag/'IL iH \\-{''.clH-r dt"r der Vv'olt-
nung:-:.grikn 55 m
2
betrgt_ IG
\ler\v('udct rnan dic!::le 55-n1
2
, urn dit \l(-'r \Vohnnng ds Studenten
JJu:nl z.11 schtzeu. liegen v.ir 1nt1 l!", r.u
2
zn hoch. :
7
13ei deu beiden 1:1nde-
rcn li<'gen v:ir 0inn1al genau richtig und eit11HaJ nnterschtzen vir tun 1n
2
,
(1na<lrit'rt. inan diese 1\lv.vcichungcn und :'iHH11nirt sif' anf, so C'rgibt -;lch cinr
(;C';..an1tabv:cichnng von 1 450 n1
4
. Sie ,vitd ls l!!_l_i_1J ()f ..
}:eFeicl 1nct. ,;\Jlgerucin ist - --
TSS = L(!J, ... 1))
1
(8. ll)
[)ies f.'utspricht 1lern Ausdruck itn Ziiltl<'r hci <hr tln1ni fr il i'' \'ari:u1z
(s
2
j, 1ss wird darnni auch hufig als .. Variation h{'Zeichnet,
Vielleicht ist es aber gar nicht ::;o klug. dc11 zu V('.l'\\'fnden.
Schlielich drften die Wohnung{:n utusu grer seln. je u1ehr in ihr
leheu. Dt>u Ihnc>n bekannten Studenten sl ch!'11 ji\veils t!) u1:2 znr
ein \.\ft;rt, von dcn1 Sie glaubeH. er auth fr and<'re Studrn!<'ll g;ilt. DiP
\:Vnhnungsgrc drfte daher !.!":! 111:! fiir j(tl<'11 d,'lrin lciH'l1de11 St1i-
deuten betragen. VVi;thrschelnlich i.-;t -->ie aber noeh grHcr. ('ttll i11 j<'<ler \V1)h-
nuug: gibt es Bad nud Klir'.he. fr dlt' 111;u: 110!1 l'inanil groh :50 1n
2
F<'l'<HL'-lchl1i-
gf'n knntP .
Sie knnen di(.'Sf' flypothe."C in folgender :\l0dcllg:leiclnu1g diirstf'l!(n:
y, = 30 : lGx,1,
:nDK' Anregung zu i,;i111.'r srAd1en Tal;eJk :-;r;t11unt aus I!a:r et ,1!. (lqqtJ}.
l"lu Tal><:llc 8.l win; d:P ""\hw'"'idiuug :,:wisc;wll iJl'uba.d1tcte11 \VerUn u11d F.:;csch:itztctn
\!i1tt']wert ntit JO j.'; lfl berpcf11wt
Wl
.JohH 5.5
8()
()
+2!l
2
;;
in die
60
7fi
IV1it diesc1n l\iodell bcrr:<'.hH<'ll Slt' nnn fr jede Haushaltsgre eine
nuugsgr().:1, Die DiflCrenz zwischen de1u Lat8r'.hliehen \VohnrHJUU und fhrcrn
tindC'n Sie in der letzten Spalte der 'Tdb1.'lle, Auch hier quadriPren
Sie dit Ergclns:w und addif'rcn si(' a11f. Dantit :rhaltcn Sie die bereit;; in
Abschnitt S.Ll vorgestellt{' ,.RPsirlnal Sutn of Sqnar('."l
1
' (R8S). Der \\crt der
RSS Ihrer H)puthese betrgt 7.
\Vcnn Sie 1'SS und IlSS voneinander ahziehc>n, 0rha1tcu Sie rnit lVJodel
Surn of Square' (N1SS) cincu \\'ert fr die Ihrer
durr::h lhrf' Hypothese:
TSS 850
Die quadrierten Residuen, dif' Sie rnit l(euntnis der I-Iaushaltsgre er-
halten, sind tttn 775 kleiner als die hci der S('ht.zung ohne Keuntuis der
f{aushaltsgrc. Ihre Schtzung ist also 8('hr viC'l nhAr an den tatschlichen
VVertc1L wenn Sie die in Ihre Schtzung einbeziehen.
Der MSS kann als eine Art grundlegende Mazahl fr die Qualitt fhres
ivlo<lf'lls angl'Behcn werden. Je hher der !\ISS. dt'1'>to grer ist der Vorteil
ihres i\lo<lclls gegenber einer VorhPr:iage tnit detH Ivlittclwert. Der l\'litt,ehv('rt
ist der StandC\rd, a.n dern rnnn die (lua.litt eines l\todell::; be1ni::;st-.
ltn der finden Si0 die Angaben ber
MSS, RSS und TSS in der mit SS" bersdulebeum Spalte. Die erste Zeile
enthlt MSS, die zweite RSS und die dritte TSS. [m Output auf Seite 203
betrgt RSS nthin 4 43914,5,82
1
die der quadriertt:n Residuen
bei Schtzung durch den CfSS) betrgt 542568:;\9f} und die
Differenz der beiden V\'crte betrgt 9865:37 .128. Diese und hrigen
Kennziffern iru Auova-lock sind fr den von BPdentung.
IH d\!r tnit ,:df" Lf.'tsfhricbcncu rnittlercn SpaltP finden sich die
1
,freihcits-
grade:' (Degrce!i of Freedorn),
18
Die FrC'ihcitsgrade von ,'fSS entsprechen der
Zahl aHf'r ins h1odcH aufgcnonnnene.a unabhngigen \iariablen k - l, wobei
k fr dlc i.nzahl rler Regrf'&sion:5kucffizicnteu Hteht, also der Konstanten und
aHer nnahhugigen \
1
ariablcu. DiP Fterheitsgrade von RSS sind n k 1nit
n = der Zahl der Beoba.thtungctL Die FreihPit::;gra,de von TSS sind n L In
der lct.zt.en Spalte .sl('h(11dlc111ittlcrcu AtJ\vciclu111gcn (\l..IS). Sln kn11('ll
seihst ctTr:chncu, vve11n Si0 die ('fSte Spfl\t(' dieses Blocks durch die i ((Ji('
.
8.1.2.4 Der. Modellfit-Block
Zur Eri1111cru11g hier Jtoclunal.s <ler aus d0r Ergch11is atnIJ,,
von 107:
Number of obs "" 31 26
F( 1. 3124) ""' 594.26
Prob > F 0.0)00
R-squared 0.1813
Adj P.-squared "" O 18 16
hoot MSE """ 37 .596
I1n vorherigen 1\bschuit-t haben wir IhrH'll grz\'if(L dass lhnen f\fSS a11R;ih1.
tun \Vie viel sich die S1unn1e der quadrierten llesiducu durch die Hi11zunah1t<P
unabhngigt;r \tariablon verringert hat. Den absoluten \Vert von lvlSS kdntH'J 1
Sie jedoch nicht ZlHtl \/crglcich vPrschit>dIH'r .'.\Iodt-lle verW('Hden. Er liugt
ja nicht nur von der Qualitt des tv-1odcllr; ah
1
sondern auch davon, \VI(' \'lck
quadrierte Residuen" crss) ursprnglich hf'rhaupt zur Verfgung standr:H
Fol_giich ist e:-> sinnvoll, das: Ausma der Reduktin <l<r quadrierten HP!'>i-
ducn relativ zur Gcsaintzahl <ler quadrierten Ilcsi1Juen :zn hetraf'ht1t1. IJis
geschieht nlit dem Detern1inationskoeffizienten R
2
;
(8.Ll)
R
2
bt mit.hin der Anteil der durch das Modell erklrten quadriertcu Rns'-
duen an den insgesan1t vorhandenen quadrirrtcn ftcsiducn. \Venn w:r t.1.'.p:;\!!!.
dass da._<; C>iuen Residuenanteil erklrt", 80 01cit1cn wir <la.r11i1 _;:'.!!Cl 1
Anteil <ler fles:iduen, der aus dern rviodell ohue lllHtbhiiugigc Vadaliln1 \Pf-
schwin<lcL \.vcnn \vir eine unabhngige Variabk einsetzen. De:.-1hall> v.,'.rd !?'
2
al<> Anteil ,.erklrter Variation" oder als ,i\.ntC'i! ,,erklrter Varianz" b('Ze:1i-
net. Sie finden die.<>e Kennziffer im ModeHfit-Block
wo sie n1it R_-squared" bezeichnl.':t wird,
In unscrcn1 I3eispie1 betragt R
2
= 0, 1818. heit unser 3-fodf>I] (
1
rkli\.1t
18 Prozent der Variation der \Vohnflche.
Flschlicherweise v;erdc11 Rcgrcssionsrnodcll-c oft ;)llcin anh,:i,u<l der llhc'
von R
2
beurteilt. Dies ist nicht zuli;sig uud in huhcrn p;(fhrlich \\:it:
werden Ihucn in }1.bschnitt 8.3 zeigen warun1.
Eine Alternative zu R
2
ist der Root Dies<'r ('fitt">pricbt. llet \VLtr!'.:e)
rler durchschnittlichen lleslduen des aub <lern
1 RSS
Root MSE = d --
V n - I<
(K. I
'20ti
H l:it1fiiltr1H1g in die llgre-..s!IH1Sleci111ik
o--o-< ____ 0 o 0 - < ----0
l)iesc IVIH,Hz1tld isl gut /'.H iutcrpretiPrcu. da sie in der I:iuheit der
g<'n \larlahie ani:;cgci.H'B winL l)er 11.oot ViHJ :37.GLl iu 1n1s(rc1n Bei-
spit>l ls::-;t :;icl1 so in!('! prt>l dctss wir 1nlt itn }/fJinitl
11111 rund :ls ru
2
.. danchi'H li{'J.!;eH"'. {Die lnterpr<'tation ist nieltt ganz kurM
rckt
1
es sJch nicht wirkHcl1 u111 einen Durchschnitt handelt. Letztlich' ist.
JY/n 2:,cT f: 1/n t ,. [)eunoch crsch<int uns obige
llar.}
Zv.:ei Zeilen d(:-; .\Jodcllfit-Ulockx der flegrcssio11sLtbcllc hab('ll wir hii-ihcr
uoch nicht hc':>prochc1:: di{' \VPrte hintf'r ,,F(l, :3124)'" und hinter .,Proh > F'.
Sit: beziehen ;,ich auf Stichprohe::rHiRten und. __gjc
n,.-'grc:s:-;ionsrnorlel! als i!I [)Pr F'- \VerL berechnet sich
!--1.11:5
F = MSS/k l
HSS/11 k
(8-15}
Der F-\Vert Ist d [)ivbion (kT beiden \\-\Tt.f' iu der dritten Spalte det..
Anov<-t-locks. Dli>.'>I' PrfgTt1e folgt einer und Ist ein Signifi-
k;u1ztf>st fr R
2
_ In rutdercn \Vorten: nlit J< \\-"ird di_e f_!tpotheBe gt;Q!'ft: ?!> __
)i "! '.:"",_, .
1
-, . ,
1
, .R
2
wie Vvir es rnit 11nsereu __
. ---ry-- . . -------- --- -- . -- - - 2()
'
''"
,
r \v'.'.-

__\l<'r 9 __ _ glci_ch _N Oder noch
anders _es_ t;tg1 __ __
der _ _
-' _ Yar_i_?-hlef!1_ der !f.icht
TSS beitragen?'
hinter ,_,Prob > F': gibt dh: Wahrscheinllchkeit an, mit der ein R'
2
i!'. ___der Hhe
1
\vie \\'i_r_ in _ \VCf!n
das __ __ als
ein 'fest des Gesa1ntrno<lells ist, die Jvlod{}!l?
anderen \Vrnu Sie ;.;ich eine Replikation Ihrer Daten nicht. leisten
knnen, Sit zon1indest elne11 Blick auf da._-.; sog. Cross-\
1
alidatiou-
Verfahren' werfon (v,L fox 1997:514-518)<
8.2 Die multiple Regression
ilitte laden Sie datal.dtrL in den ArbeitHspeicher
use datal, clear
------------
1
9tv1ehr zu1n Begriff dt-r .. Signifikanz- finden Sie in Absi:hn, 8.1.Z.2'.
2
0 Eine Darstellung Zusauunenha1i.gs finden Sie bei Gujarati (lru:l5: 249}.
21
Oftrnals wird ck;r 10st auch ,i(s ein Test der N Alle Koeffizienten auer
dl'r Kon:<>tante sind Kkicb N,11!" ;1ngE>Sehen (Gujarati 247)_ Es ist aber <lenkbar, dass
die Konfidenzlntervalh der einzelnen K,h"ffizienten den Wert Null nicht enthalten und
das gesamte :V1odcll trutzdern .,uki1t sip;oifikant" ist. Genaueres cta:eu knnen Sie unter
hUp://www.sltJ.UJ. f/aq;:.,/r!fnt/.#tesl. erfahn1i_ 211 <le11 K:nifi<lenzint-ervallen
v;l. Alli;ehn. 8 J:l-2
hn vorangegangenen .l\bsc!initt hattc'Il \Vir H11H:H die

Hg;r('-'>.-,ion 1nit
eiucr n11abltngigc11 V'ariablen vorgcsti!H. Erv..'eiternng dies<'!' sog. llnc.:1--
ren r:inf1:1chregresAio11 Ist eile uudtip!(' l\:(tJ!J%('ichcn dir lfl1tltl-
plc11 Regression ist. da<;s rn<'hrre unal>liuglge \
1
arlaJ>lca vcrw1,n1)pl \VCnJun_
Die ;\Iod<>llp;leich1111g der -linearen H(14ression iantct c11tsprlYl1eHd (k.:l):
Die c:Ieichung tvird al;-;o UHl \Veitcre ,r-Variabh;n luui ihn
Regre.s:o;ionskueffizlenteu cr\\'('.itert. Es g-ibt zwel (;rnudP fHr dit.' 'v'cr\ve1id1utg
t'incs sulchen tvfodelh;;
h1 AJ>>clutt 8.1.2 ha!tep. \Vir eine eiitfrt<:he linean {lt::
nurigsgre gegeit llas lH;rechnt't. :\r:t fllf'scr
\\Tu- es uri::; _gi:-:lungeu. 18 Prozent der \htriatiou de!" \,Vohn: 1 r ;_\:-'j!,,l'ile J:\1 PrkBil P-ll
und d(r durr:h.schnittliehP Fehler 1.Jei der Prognoi:.-ie der \-\"o!tl!'.ll1i.;;,-.;v,rDc JM,g hci
38tn
2
. VVenn wir a11 c1cr gntcn ProgrHJ..")Pfi-ihigktit :\hidPlin int.cre-;-
sinrt sind, drften uns \Verte ktuun Lufriedeu stel1v11. Eine
iier Prognoseft-ihigkeit k11ncJ1 wir crr('ichen. \\'etHi wir \\cill're Vnxiab!Pn in
da .s 1Vfodel1 aufnclanen. [)ics lst der Grund fiir di1' .-\1n\cud11ng d0r
gression lHit rnchrercn tt11<-"1.bhugigeu \Tariablen.
Der zweite Grund ist ko111ptizicrter. \.Vir hattll oben d11:--. l11111:->ltaltseinkou1-
rncn al::: unabhngige \.'arLble vcrwfndet. f)as H,1asha!t . ..;eit1kotn1ncn diirftc
rnit der (jrc des Hau8balts zu.san11ncnhnge11, da ffat1shaltsruh-
gli<.,>tler zun1 fia11shaltseinkn1uui11 l1citragctr.
zeitig drften Hau!:>halte 111it ruehr Haushaltsn1lt-gliedern \\
7
ohnungcn
haben als Haushalt(' tnit \venigcr <h1x11n1 1nglich,
der Koeffizient. fiir den Einflu;,s des d(
1
U EinH
1
1ss
der Haushaltsgre niit l'ia:-;chliet. In solchen F.lle11 sp1 icl:! :unll dnvon, da..">">
der flegrcssiouskocffizienr "verL;errt' Ist. D11rch den Eiu..;rl1l1t ...s ;v<itn'r Vz1-
riablen versucht inan, dies(' \Ierzerning z11 vcn1u-;Jdc1L
lru Folgenden v.rerden \vlr Ihnen zunricli::>t zeigen; v;ic nuu1 Pli! nnt!tiplcs
lineares Regressjonsn1odell rnit Stata berechnet u1HJ dh, Htgn""-"iu11skoeff1z:JM
entf'n interprctierL Daru-u:h 1.verden \vir einig<' spezielle f{cnnziffTH d(r line<-.l
reit Regres,..:;Jon vo1'-.stellerL Schlielich v.'oilen \vir lhHc11 erliinten1. ui der
Flo':>keI .,unter Kontrollf''' bei der Interpretation der
i_tn rn11ltipJet1 Ilcg;ression:-anodcll gc1nPint. Ist ( A 8 .2 .'.}).
8.2.1 Multiple lineare Regression mit Stata
Der fr die nudtiplc Regrf'ssion untcr-scheid{'f uicltt von dcni
fr dit: lineare Einfa.chregrcs..,.ion. Zustzlichl' \'uri<thl<'ll wcr<leu
in beliehigcr Reihenfolge an dif' Variablenliste Dahi diirfe11 Si<'
die Regeln fr VttriahlcnliBlen anwenden (S. :MiO). \\'i{'hti; i;-;t n1u.
ahhugige Variable stett: ;.-;ucrst. gcuaunt wird.
8 E'itJfiihriu(r; in dir'
-----------------
A1vli di(' l':r;:.:ebnisdar:-:t('lh:og cutspritlit derjt:Higc11 der !i11carcn Einfaclt-
bit1ziger Unterscldcd hier: Sie bekonntt('11 fr alic wcit.ereu 11u-
Varir1bleu eine tus;i,tzlichc Zeile fr die entsprcchn11dP1t l\ocffi-
zic11te1L cUl.8prechcn auch die g;c!:>pPichcrtcn F.r!:!;t'lniissc ::.;o\.viP die
\lg-Uciikcit, rnlt predict die \\-'crt.e bi\v. die ResidncJL zu
1rzeuge11, dcnt Vorgehen bei rler linearen Einfachregrc:;.;.si<lfl.
Bcl::-ph!I: etcchnet wcrdC'tt 0tn R.egressionsn1od(dl <!er
n('bco drr Ha11slu1.lts,1.:,T()(' und denl Ha.nshaltsei11ku1t11nen anch die
Variablen fr den Gegcnstz von ()st und VVe1:1t sov.le ci1H::. \/ariab1e fiir dct1
Gcgco;;atz von Haushaltet1 11dt Eigentnntswohnungcn und rnlt
enthlt. Hlcr1,u sind ;r,unchst eittip;C'
! lOt\V('ttdig:
22
generate owner "' renttypo 1 if rentt.ype <
generate east state & if state <
Danaeh ku11en Sie da<., Rcgr1:1s.sionsn1odeil berechnen:
regress sqm. hhinc hhsize eaet
48.6939?
df MS
.; 490527.553
3120 1109.56295
1736.21851
t
18,08
6.32
-7.03
27 .61
30,19
P>ftl
o.ooo
o. 000
o.ooo
o.ooo
o.ooo
Number of obs
F( 4, 3120)
Prob > F
R-squared
Adj R-squared
Root MSE
[95% Conf
.0096766
2.099605
-ll.8818
33.10872
45.53158
3125
442.09
0.0000
..
0.3617
0.3609
33.31
tnterval]
.0120301
3.988698
-6.69843
38 17067
51.85635
Die f<'aHzahl dicsf',,s !vfodclL.,;; redHzicrt sich 12() :luf 3125. lfrsa.chl' ist
der in der VariaJJic Iluudesland. eobachtung('fL die ein{'n fehlenden
\Vert auf einer der irn f\todell enthalte-nen Variablen haben, fallen hei der
dein I\'{o<iell h<'raus. :\(an nennt dies Listwise J)elction".
U ntrr search impute stoen Sie Huf andere 1'cchnikeu. rnit fchiend('n \\lerten
IHtlZUgeheIL
Oie Interpretation der l\:oeffizieuteu n tuultiplen Regn\..;siott..'irnodcH ist
vHig identisch mit derjcnJgt:n iru einfachen Regressionsmo<lelL Einziger lln-
tere::chicd ist dass die b-KoeHizienten nun \Vit: inan tJagt unter f(ontrolie
der hrigen unabhngigen V'ariablcu berechnet. werden. \\Tal' hif'rrniL gen1cint
i'-it, \VoUcn \\'ir weiter unteu verdeutlichen {Ab"ichn. 8.2.3). Hier soll zunchl'it
noehrnals dic forrnale Interprctadon der Koeffizienten illustriert \Verden.
Die

gcb1't1 die d11r<:i1sclu1it,tlichc d<'t


\VoJuiungsg-rl1c bei einer

der nnahfifinv;igcn Vari11-blcn u111 ci-


ll(' Einheit \.Vif'der. l"r den l(o(:ffizietin de:s Haushaltsi:'i1Jku1n11icns b<.'(h'llttt
dif','>: ,t1rn f)11rch.schnitt steigt die VVohnunAsgrc rnit jedctn E11n> znst;r,E-
chcn Ha11,"iha.ltseinko11unen;.; 1nn 0.0l085rn
1
au, ntsprechend die \Voh-
nung-.sg:rfk> HJlt j0der ;.:us.tzlichf'H Person itu liaushait !Hi! 3, 4;1 u1
2

f)i0 \larlablcn east tHid owner siu<I so geuannLc [)u1nruy-Variablf'1;- Hie<-
unt('r \Verden Variablen VPrstaodc1:, welche l<"<liglich Z\\'Cl Au8prg1u1g<'11 rai;-,
den \-\.fertcn 0 und 1 be.;;itzcn. :.:::
1
Ihrf' [nterprctation in ('ien1 HA:'J,!;!'(\'<>:>io!t;;1110--
dell ist prinzipiell <lJcselhf' tvie di(' aller iihrige11 Varlah]ctL B('ZO/'tl
V'ariahlc owner. die fr alle 0 unrl fr alh Eigcntn1f'r l ist. ki)111,r-11
\.Vir sagen: "fvrit Jeden1 :\nstieg; dtr Variable owner u111 rinc EinlHlt.
<iie \Vohnungsgte un1 dureh;;c.l1uil tlich ca. 111
2
,; . Da Varicih!ea
aber uur cinn1al urn 0ine st<'igcu k1nt<'t1. l..r..;st sich das aH('h krzer
for1nnlicrcn: Eigentrncr habf'U (hJtchschuittll(h lHn :15, (.; 10
2
grill.)<-Te \Y( 1! \
uuugcn als IVIieter. :, Entsprcche11d f'ind die \:VohtHUtg<'n der dt'll t ,.,,cl w ,,_ 11 n
Schnitt 11n1 9.Jtn
2
kleiner als di0 \\'"ohn11np;('ti der \Vcstdeutschu.
Dl<: gil1t fll!, \vic gro <li \Vnh11ung dc(jnnigcn
ncu ist, die anf aHeu Variahlr'H dt'}; .\lodclb d(:n 'VVcrt 0 aufwels111. l);-1.:>
hier die \VCstdcutschen ;\-Ik,ter olinc Haushaltsci11ko111u1cn tuid ohne IL-tus
haltsgre, Ein reichlich unlnti:res.."anter VVert, da es keine Pf'rsof\(_'l\ gibt.
n:n Haushaltsgre Null isL ist deshalb oft siunvull, rnetrisclH' 1tuabhiingi-
ge \Tariablen in Regressionsrnodclleu zu zrntr:ren
1
d.h. von jedPtn \A
1
crt rl<'n
:vtittclwcrt abzuziehen. Nach ''l<'r Zentrien111g der 11:1.-
ben Jlersonen 1nit n1ittlereru EinkouttrH:n den \Vcrt 0. Entsprccltc11d \Vrdcdic
n,cgression:;konstantc den vorhergesagten \Vert fiir mittlere Einko1nr11et1
angeben. Eine einfache .i\rt \lariablcn zu zentrieren, find<:n Sie lu I<apit.1:'l l.
8.2.2 Spezielle Kennzahlen der multiplen Regression
Korrigiertes R
2
In unscre111 RegrcssionstnodeH ist 1{
2
von 18 auf 3G Prozent D<-1.S
ist eine deutliche Verbesserung de:-> :v[odcihi. Allerdings steigt F{
2
ra:-L itn1ue:
durch die Ilinzunahrnc \Veitc-'ITr 1u1abhngig1__r Variablen.
2
'
1
lHt'r tiidi;,
wftcr da das VerlUttiis von bcfraAten P0rS(JllCll uud vPrrvcn<lc
ten unabhngigen \.'ariahlcu gustig' ist. \\renn Sie aber uu: 1nit \.Vf'l1igelt
Fllcu arbeiten, z.. bei eine111 Vergleich <ler europJsche11 LHndn1 ln1tPrein-
ande-r, uud <labci 1uit vielen \'aria.bler. opcriereu, \Vird J(L l<'ichl :&l ciuttL
unverlsslichen rvfa.
2
'>
?.'
1
Es gibt auch andere zur Kodierung .Jkhoto1ncr Variablen {vp;L Aikc11 1111!
\Vest 1991: 127-130).
Z-.1 Der \Vert von R
2
wird rtur daun rd1t l:'vl1stf;'1gec wenn (icr Ku<'ffi%lnt tkr 1,1 tsfi.!Llirhf! h
i;xakt :-\ ull ist. Die,; ist in dt'r Pned'.'t gut wif' ?l11>'gcsrhlo.-.smL
:r'Eine A1_:.ilif;tU!11-'; der mit R.
2
1-Trliua1'..t>11cu Prohlnne firnl1 n Sl; r_,..,,i !\P!trn::dv l ! lVJ7: lii 2N)
210
Uni diPs z11 verdeutlichen, .stellcH SH: ;;ich bitte eitnua! cincu Scattcr1;lot
tuit zwei Punkten vor. Diese beiden Punkte knncn Sie 1njt einer Linie ver-
binden, der H.<:'g-resionsgeraden. Sie haben a.Hc Varianz ,,erklrt;, da kciue
Ab::;tude nu:hr zwJ1:1chen den Punkten uruJ der Geraden zu :::iChen sind. Aber
heit <ht.<:i ntu11 <lass die beiden VariabJeu, die den ScatterpJot aul'lpaunen,
tatschlich inhaltlich in den1 durch die Gerade angezeibrten Zusa1nmcnha11g
stehen'! Wenn Sic> da..<.; Brutto..<;ozialprodukt Grobritanniens und Deutseh-
lan;ls vergleichen und als einzige ,.unabhingige" V'ariable die Luge der Kste
der beJden L:inder neJunen, knnen Sie den lJnterschie<l irn Druttosozialpro-
dukt zwiBchen Deutschland und England j,perfekt" erklren und
tig Ihre wi:-5.senschaftllchen Koffer packen.
Da der \Alert von R
2
bei HinzunahnH_' \veiterer unabhngiger Variablen
allenfalls steigeu. aber niernafs sinken k;:1.nn, wird tnit A<lj R-squared" eine
'.\1azahl ausgedruckt, welche die Zahl der l\fodellparameter k (alle Terme auf
der rechten Stdtc rhrer Gleichung) und die Zahl der B<-obaC'hturigscinhelten
bercksichtigt (vgl. Greene 2000: 240):
R
2
n - 1 ( R
2
_
=l---1- -)
a n - k
(8.17)
wobti k die Zahl der Parameter und n die Fallzahl daftellt. Allerdings wird
dieses korrigierte R
2
kaum von R
2
abweichen, solange die Fallzahl nicht sehr
klein wird. Generell gilt.. da.ss es nur eine \virksan1e gegen fehlspe-
zifiziertc 'Vlodellc gibt: sorgfltige theoretische berlegungen und sorgfltige
Diagnostik (vgl. Kap. 8.3).
Standardisierte Regressionskoeffizienten
In unseren1 RtgressionsinodeH ist der KoeffizlC'nt fr die Haushaltsgre deut-
lich grer als der Koeffizient fr das Hausha1t;Scinkommen. Dieser
terschied verlockt zu der Annahme, dass die 1-faushaltsgre einen grerf'H
Einfluss auf die \Vohuungsgre hat als das HatLshaltseinkomrnen. Bei ge-
nauerer ()bcrlegung werden Sie jedoch feststellen, dass dieser Vergleich hinkt.
Die Koeffizienten geben an, \\rie stark sich rlie abhngige Variable verndert,
wenn n1an die jeweilige unabhngige Variable 1un eine Einheit verndert. Sie
vergleichen folglich die \/ernderung der V\'ohnungsgre bei einem Anstieg
des Einkomn1ens uni einen Euro rnit der Vernderung der Wohnungsgre
bei einer Vernderung der Ilaushaltsgrc uni eine Person!
Zum Vergleich der Einflussstrken verschiedener Variablen mit uuterschied-
lichen Maeinheiten gibt es standardisierte Rcgrcssfonskoeffizienten (bk). Sie
wer<len durch
(8.18)
berechnet, \VObei bk den Koeffizienten der k-ten Variable darsteHt
1
sy cUc
2 11
Standardah\Vciehullg <lcr iihhngigen Variable und "Xk die Staudn.rdali\\'t
1
i-
chung der uruihhBngigen Variable.
Die standardisiertll werde11 h11fig a11.ch fStii-
KocffizientPll gci1aunt,, inan erhlt sie in Stata deshalh durch di(' Option beta,
In diescut Zusan11uenhang ist. es hilfreich zu wis8'.en
1
dass Sie Ihr zuletzt
gegebenes llegrex.sionsrnodell durch den Befehl regress ohne
nochn1als anzeig<'n lahCll knnen - ohne dass das dabt:'i noehrna.ls
berechnet 'l<vird. I)abei f'rhalten Sie die fr beta in der rcchteu Spalte
des Koeffizicntf'11blo<"kH.
26
regress, bei::a noheader
t P>lt! Beta
hhinc .0108&34 .0006002 18.08 0.000 . 2789243
hhsize 3.044151 4817334 6.32 0.000 . 0942143
east -9.290054 1.321768 -7 ,Q3 0.000 . - . 1009768
owner 35.63969 1.290836 27.61 0.000 .41!3329
_cons 48.69397 1.612865 30 19 0.000
Die Beta-Koeffizienten werden wie folgt interpretiert: Eine Erhhung
Haushaltseiukonunen.".i um eine Standardabweichung erhht die \\Tohnung.'i- _/-r, ..
gre U!ll 0.28 Standardabweichungen, Die der Haushalt..sgrp \11\1 r ',.
eine Standardabu.reirhung erhht die Wohnungsgre dagegen nur uu1 0.09
Standar<labweichungerL Gen1essen am Beta-Koeffizienten hat d3.')
nett.oeinkou1rne11 dernnach einen strkeren Einfluss auf die \Vohnnn.gsgrc
als die Haushaltsgre.
Standardisierte Regression.skoeffizienten sind zuni Vergleich der
strke unterschiedlicher Variablen in einem tllfodell sehr LcHebt. Allerdings
werden dabei hufig folgende Punkte bersehen:
Die Ver\.';'cn<lung standardisierter .Regression'.'}.koeffizieuten bei dichotn l
Inen

ist uri.Zlil.<)Sig: Da di(;'''fiilidMdUbwcichui1i eii1er dfrho-


tome;;--VariUbi'E-Tnef.\illkt1on ihrer Schiefe ist
1
;.vcrdcu die standardi-
sierten Ftegresslonskoeffizientengem (8.18) u1nso nie.Jriger,je schirfer ifl'
die \lariabie ist.
27
In der Cegt.'n\.rart von Interaktionstern1eu (vgL 8.4.2) ist die .Bered1,
VQft--8-tata ausgcgebe-Ilf>.J1 .Bt>t<l'
26
Die Option noheader unterdrckt die Ausgabe des AN()VAw!ocks und des
Blocks.
:nzur Denu>nstration haben wir den anbcta.do geschrieberL Darin \Verden 1 OO
mit einer dichoton1en unabhngigen Variable berechnet. In der ersten br'"
reclineten Hegresi;ion hat kt::ine Beobachtung die Ausprgung 1 auf der unabbngign1
Variable, ;,.,tit jeder weiteren Regression erhht sich der Anteil von Deobachtungen n:i t
1 um eiuen weitPren f"alL bis in der letzten Regression wieder alle Flle die gleiche .-\n;
prg111lg ;iuf der unabhngigen Variable haben. Die etu.l<(wfhiiente11 jeder diesP.r l !)!l! i
in eitit'r Cntfik dargestellt.
sind <le"lhalb nicht interpretierbar. Zur Ennit.tltuig der
IScta-Koetfizienten die an der ildung dPs
h<'tciligten Variablen itn VorfCld der Hegres....;ion z-standardi.sicrt \Ver-
den (Aike11 nnd West 1991: 28-48).
Standardisierte Regre&:iionskoeffizientcn sollten nicht zun1 \rergleich vou
R __ hcr,;ngezogci1
wcrdeu, da die Varianzen <ler Vrariablen in dc:n Datenstzen variieren
knnen rc-;:k 204: 28=-:nf ___ --- --
8.2.3 Was bedeutet eigentlich unter Kontrolle"?
Die l>-KocffiziC'nten citH-'H Regre.s5ious1nodclls geben an, u1n v:ie viel sich die
vorhergesagten der abhngiF;ell \'ariable verndern
1
\venn sich die un-
abhngige Variable uni eine Einheit erhht. In eincrn- rnultiplcn R<grc:-;.slons-
n1odeH wird dk>;:;0 \lerndernng Kort-trolle der brigen unabhngigen
Variablen augegeben. In1 Folgenden \\-'('r<len wir dif't> genauer erHiuterrL
zu v1uUen \vir zunchst eine -einfachere Fassung d<:>i' voraJ1gegang;eneu R.egres-
hcrechuen:
regress sqm hhsize hhinc, ooheader
sqm Std. Err. t P>ltl [95% Conf. lnterval]
hhsize 3,805548 .5396993 7.05 0.000 2.747347 4,863749
hhinc '0153311 .0006501 23.58 0.000 .0140565 .0166057
_cons 48.36303 1.730003 27.95 0.000 44.97097 51.75509
Un8 interessieren hier nur die Koeffizienten des llcgressionsmodells. Bitte
betrachten Sie einn1al den Koeffizir:nlen des Haushaltseinkorr1n1Pnt1. Er unter,
;;;cheidet sich sowohl von den1 im einfachen lvtodell erzielten Ergebnis (S. 197)
als auch von dem des multiplen Modells (S. 208).
\Vie kon1n1t es zu diesen \F-crnderungen? Um eine Antwort hferauf :t,U ge-
ben1 'voJlcn \-vir den I\oeffizienten dL'S Haushaltseinkon1mcn."l einmal auf eine
andere Art berechnen: Bitte berechnen Sie hierzu zunchst einrnal die R.esi-
duen der Rcgrt>ssion der \\'ohnungsgre auf die IIa1L'lhaltsgrc:
regress sqm hhsize, noheader
sq::n Coef. Std. Err.
hhsi:ze 7,421404 ,5524365
_cons 68.61885 1.595031
p"'dict e __ fs, resid
(81 missing values g-ene:rated)
t P>ltl
13.43 0.000
43.02 0.000
Conf. Interval]
6.338245
65.49149
8.504552
71. 74622
R,2 /Jic
Hlcrdu:Tb hab('H Sie t'iuc neue \la.riablc e_fs ('f7.eugJ. Bevor SiP \YcltC"rles111.
sollten Sie ;rndlith \VrL'-' diese H,('Nhlttt11 inhaltlich
\Vir folgcudc Interpretation vor: Die HeHidncu entsprf'chen dr'r
aus der die 1-Iaushahsgrc wurd('. :.'lit n1 i-
dcren \-Vorteu ist dies der Teil der VVohnnngsgrHc. det uicht:-J nlit der Haus-
haltsgre zu tun hat, oder noch anders fortuulicrt, die vou der Hau.->hal;-:-;,
gre bereinigte
Nun erzeugen Sie bitte die R.csiduen einer Regrt's:-iion d<s 1-Iaushaltsein-
kornrnen:') gcgeu die Haushaltsgre:
hhinc hhsiza, noheader
hhinc
hhsize
_cons
Coef. Std. Err.
227.0473 14.14031
1335.758 40,74527
predict e_hh, resid
(139 missing values gonerated)
t P>lt!
16 06 0.000
32 78 0.000
--------
[9&% Conf. Intorval]
199. 3223
1255 .869
254.772.'.3
14t5.54B
Auch diese l{egiducn knnen Sie inhalt lieh interpretierc1L Entspreche11 l :.:11
oben hau<lelt CZ> sich hier uu1 deu "l'eil des Haushaltseinkunanens, der n;cllt .....
1nit der zu tuu hat, also um das vo11 der l{a ushaltsgn3if..lc
bereinigte HaushaJtseinkomn1en.
Bitte berechnen Sie nun eine lineare H.egrcssion voH e_fs auf e..bh. S:v
erhalten:
. regress e_fs e_hh, noheader
Std. Err.
.00065
.6689205
t P>lt!
23.59 0.000
-0. 19 0.851
[95% Con.f. Interva1;
.0140564

.0165051
1" t857'.)5
Betrachten Sie nun den b-Kocffizient.en von e..hh. Er entspricht g-cnru1 1J r n
I<oeffizienten multiplen Regrcssionstnodclls von oben. \
1
er-wendet n1an
nun die Interpretation der b-Koefiizieuten der linearen Einfachregression ;1,111'
Interpretation des KoeHizienten, so wrde nuu1 0t\va folgende Forn)ulienrig:
treffen: Die von der Haushaltsgre: bereinigte \.Vohnn1tg.sgre steigt 11:.it .)r-
dern Euro des 1nn die Haushaltsgre bereinigten Haushnltseinkorurneus U! tt
0, 0153 rr1
2
an. Die gleiche f nterrcta.tion gilt auch fr den KoefllzienLt-n il i'
multiplen ;...{udeU Die RegrPss-ionskueffizicntcn h11 rnultiplcu
dell geben sornit den 11111 die brigen unabhngigen Variablen Uereinipt('l'
Einfluss auf die abhngige Variable wieder. Dies bezeichnen \vir als ullt0-r
Kontrolle".
214
8.3 Regressions-Diagnostik
rviultiple htssen sich rnit IIilfe der rnodcrncn Statistikpa-
ketc einfach berechnen. Deshalb \Vird oft vergessc11 1 dass der ruultip!eu RB-
gression,<.;a11alyhc eine Reihe von Anuahrncu unterliegen, die, wenn sie nicht
erfiiilt ;nd, die Ergebnisse frag'.vrdig cn.;cheinen lassen. Diese AnnahnH.:-n
\Verden als ,,Gau!->-IVIarkov-Annaluucn" hezeifhnct.
2
f.
Zur Illustration der Notwendigkeit einer (Jberpriifung der Gaus-lviarkuv-
Annalunen bitten wir Slei hn Datensatz nn.'icornbc.dta folgende Regressions-
1nodelle zu bercchncn
29
use anscombe, clear
regress yl x1
regress y2 x2
regress y3 x3
regress y4 :x4
Notien:n Sie slch dabei fr jede d!1,; Ergebnisse der geschtzten
Koeffizienten. 11Je Varianz der Residuen {RSS) und die erklrte Varianz R
2
.
Sie werden festt>tellen
1
dass es Z\Vischen den vier Ergebnisse11 keinen in den
Zahlen erkennbaren Unterschied gibt. [n allen vier er-
halten Sie einen R
2
von 0,67, Die l{onstante liegt bei 3 u11d die Steigung der
Regressionsgeradcn betrgt 0,5. Ohne Kenntnis der ivlodeHannahmcn und oh-
ne Kenntnis der Notwendigkeit von wrden Sie nun
aufhren und alle vier r..
1
Iodelle als gut tauglich bczeichntt.
Erstellen Sie nun Scatterplots fr jede dit'ser Variableukombinationen und
berlegen Sie sich anschlieend
1
welches der Sie berzeugt und wel-
ches nicht. & gengt, wenn Sie nacheinander die BefehJe scatter y1 x1i
scatter y2 x2 usw. eingeben, Wir haben die Grafiken nlit gmnscomb,do
erzeugt Sie sind aber ernt auf Seite 215 abgedruckt 1 damit die Spannung
erhalten bleibt.
Die Grafiken in Abbildung 8.3 zeigen sehr an;.:;chaulich, dass die Ergeb-
nisse der linearen Regression mit Vorsicht zu genieen sind. Den scheinbar
gteichen Werten fr R
1
der Konstanten und dein Koeffizienten liegen vllig
unterschiedliche Daten zugrunde. Die Hhe von R
2
karln also nicht ohne \vci-
teres als 1:1a fr dle Jvlodcllgte verwendet werden.
Wir v.ollen Ihnen nun verschiedene Mglichkeiten zur Untersuchung der
vorstellen. Die mei;;ten der dabei vorgesteliten \/er-
fahren sind Grafiken. Die Darstellung setzt deshalb Kenntnisse des Befehls
graph voraus (Kap. 5). Eine detaillierte Darstellung der grafischen Diagno-
severfahren geben Cook und Weiberg (1994). Berk (2004; Kap. 9) diskutiert
die Beschrnkungen der Regresslonsdiagnostlk.
Sie 1nit den Gans-f'.farkov-Annahmen bereits vertraut sind, knnen Sie sich tnit
help regdiag eirlen schnellen berblick ber die in Stata vorhandenen Nlglichkeiten
der Regressio1w,,.Diaguostik versd1affun.
'<'-'Der Datensatz <>ta111111t von Auscornhc
'1
'.J
'i

f 8 "O <l
Abbildung 8.:): Scattcrplot8 des Anscotnhn-(lua.rtetts:
8.3.1 Die Verletzung von E(E,) = O
Die unbekannte Surnn1e aller ttlcht beobachtbaren EiuJl::-;sc auf eine abhngi-
ge Variable bezeichnet n1an als Fehler. ,Y'Tcnn sich Einflsse

(.ler __ N_uJt Die }\nnahn1c ist verletzt, \\'etu1


1. der Zu!">aurrnenhang zwischen der abhngigen und einer unabhngigen
Variable nichtlinear ist,
2. einzelne A11sreier das Regressionsergcbnis bern1ig stark beeinHus-
sen,
3. mit detl Ubrigc'n unabhngigen Variablen im Mo<lcll korrelierende Ein-
flussfaktorcu ber.sehen \\urden.
Die Folge der Verletzung von E'(ti) = 0 sind verzerrte
zienten. Die berprfung von E(i) = 0 hat de.swegen besonderes Gctvich.1.
A.lle in den1 Ueispiel von AfL">Cornhe gezeigten Problenic sind Verletzungen
dieser Annahrnc.
Zur berprfung <ler Annahtnc knnen fr jedes der oben g<'r1an11tcn Pro-
blemfeldcr spczieHe \/erfahren eingesetzt werden. Einen ea:itcn Blick auf ,_1; h
drei mglichen Ursachen liefert jedoch der Ilcsidual-vs.-Fitted-Plot". fl(;i
dieser Darstellung hau<lelt es sich um einen Scatt,e-fp!Oi-lTCflleSidul1 f'illt'r
linearen Regression gegen die vorhergesagt-en \Verte, Fr <lie zuletzt berC'ch-
nete Regrt'8slon kann der Plot \'On Hand durch
regress y4 x4
predict yhat
predict resid, resid
scatter resid yhat
21 {)
odrr 1Lircl1 d;-n Bcfi-hl rvfp1ot <'L1,c11gt \\'crdt>11; der Befl'ltl rvfplot ist
d('!" sfH'.zieHcH slati:>!i:-.c!H'll {;rnfikcn, \'Otl dt'llt'll ln t\hschir-t G.2.2 riit 11<:d('
tvar.
:rvfplot
In b(Jdcu Fiil!{n 11111;.;s '.IJ!vor ein Regrc:ssionshcf('!il ciI1gcg<iJc11 \vordcll S<
1
i11.
lJ<'iln rvfplot knnen Sie ali(: (;ntfikopt.ioncn 1:onnalcr S'r:atlcrpfots
den. rn Abbildung K. 1 Zt.'i;:.{Pll \Vir Ihnen diP fi\r die
fl<"gressiot1cn de"' Beacltt.<'ll Sie. dass der J\-lit.ti'hvcrt d(T
lle!:iidncn in dit>scn (;rafikcn stets Null i:-;t.. Dies liPgt an d0r tlcs
b('i der die flegrcssiousko('ftizi(nteu so hf'rc{'hne-t \-verdcti.
dass der J\fittchv1Tt der BPsidt1e11 I\TulJ wird. l)aniit die AHttalune E(<-: O)
erfllt ist, 1n11ss jedoch _znstzlich _ _!!_:- __
auch lokal i'iul! d(r df': Rcsidu{':1 ;'1
d(r :.Jull seiu :-;oll. J11 der fo!gcnde11 ,:\bbildunA gilt
die!:'I nur fiir drts 1r:.,f !' uHd lttz!.c llegrcs;.;iou:->JaodPlL
r.
,:1
...
. .
,,

..
L
'
4 ' '" .,
--
Abbildung 8.1: fl<,idual-vs.-Fit.t,cd-Plot:,; de.:; Anscotnbc-Quartctts
qru.nscor>1l-i.rfo
7-Jcbcnhci heuK'rkt:. [S('j einer lincarcll Einfnehregre-8sion dJ1. eiH(T l-le-
!{n'ssion rnit nur eiu('r unabhngigen Variable hi.s.<.;t :-:;ich die \"crlctzttng der
(;aus-f\1arkov-,'1,n11ahr11eu bereits in einfaehen Scat.tPrplot. der ahhugi-
gen Variable gr'g(n dit' unabhngige Variable hnrprfcn. Der \torteil des
liegt darin, dass er auch auf rnultiple R.ep.:ressions-
rnodclle an\-vC11<lbar ist.
In der Praxis fctllrn \7er!etzungcn von E(ci = 0) meist nicht. so leicht auf
\vie <len konsrruiert.E'll Daten von Anscnn1.bc. Aus <liesen1 Grund soilen n
spczit'He Diagitosetechniken fr dk drei lJrsachen der Annahiuc-
v'rletznng vo:gpsttllt. \Vcnftu
'.!I
6.3, 1.1 Linearitt
f)audt Sie die folgcndc11 13('.ispil1e naclivollzichc;1 kt:.11IH'IL 1>1 i-<'ch:H"ll Sit bi1 t
ztutii('ltst die Hcg.rcssioll der \Vohnu11gsgriJf)t' c1Hf dn;; rinu,.;Jra!tM;nkn1rlttt1'
und die Ha11s!ialh.;.1,1,-rH(' tuit. den D;-l-tf>H des
use datal, clear
regress sqm hhinc hhsize
EinC' der \Vicht.igstf'n cdiuJiung<:n fr dl{' linc;-11e Hcgn>."sion bL da,;;s di
ablingig;e \'arlabl<' tatschlich nt, einer lln1i:11T!l Fnnktion d1'r 1111ahhfin$!."igc
Varinble bcscii:iehen w"f:n!cn ktu111. Zur lJntcr;..1:cl11n1g lrr f--(H:
ciues Zu::;an1n11.,11hangs 1niis.;.;en nic!!,(:pararrtelrischr A1u1]\-..,t.'V('rfalirt11
det \\-"erden, di{'SC!l Verfahren wird Vt'l"Sll( ht. dit Zahl dtr ii:1 Vorhi.1
ein ;\nnah111('ll 1aglichst. kleiu zn lia!t<'t1 :\ls Bt.ispic; turig dt
Scatterplvl dlcn<>n. ilcui ('iIJige a1lgi'1!P'ittt \\'<-'.l1rnr'\11111tug-.;theorf't
sehe A nnah1ncH zugrunde liegen.
Einen erstt'll fllick auf die f3ezieltungen Z\\'ic>clu:11 :d!('ti iltt c\!!('!11 Hcgre-.,.-,1
ousrnodeH betcilig"tt>n \'ariablen erlaubt die Scatt.erp!ot-:\ f ;it ri :<. i)a riu v.r(Tdi ;
Z\vci<litncnsio11<dc 'l.\Vischcn allc11 \/;tri11l>lc11 citH'l" \'ariahlcnli.-:i
i:;ezeichncL Hier ist ein Beispiel:
graph sqm hhinc hhsize
In jeder T;>i!gn.tlik dieser Darstellung \Vird dlt>JCt:igc Vi:1r-thlc. die n''-
1
.
der TeHgntfik steht. al;-i y-Variab!e vr'r\V011dFL nnd diej1:ni;.;t'. dif' uut<:t di
Grafik ;..tPht ab-; :r-Variablc. In der erst<?n Zcil1 d1 r D:H :-;t('[!1 uig '.iad<'tJ. S1
daher Scatterplots der gegen anahl:ii11J!,igc:1 \"nxiabl
1
'
des Regrcdsi1Jnsn10delL-.;. .
Einfache Scutterplots eigncu jedoch nur !Jpj k!cinfu Fdlz<-1Jilc11 znr 11
terKuchung der funktionalen Fur1n eines Zusantntenh;uigs. Bei grcrcn J;..dl
:;..ahlen S('att('rplors \'('l'V..-Tltdct. \Vrrd1.'ll, !11:---
solche tnii ;-;og, .. Scatterplot-S1no(1t li('rn (Sch11cH l 1 02 -1 OCi
' 1
1
1 1
' :
' '
! 1
l 1
'
218
Eia (ispiel fiir Scat.terpiot -S1nnoth('r i:;,t der rrn.ce'', i1ei
der f(uustruktion eiues t'v'lcdtn-rI'race 'vird die Variable rlcr :r:-Achst> in Strei-
fen unterteilt und fr jc<lcn Strt>ifcn der J\Iediau b<:rcclu1et.. ;\uNchlicen(l
werdf'n die ;\fcdiane rnH einer gera<lPH Liuie verbunden. In Staut <vlrd <lf'r
durch dcu mband der angefordert.
rvt!t der Option bands() wird die Anzahl der St.reifen angegeben, in die die
T-:\chse unterteilt wirrt Je grer Jie- Anzahl, desto glatt.er die Linie.
tvoway (scatter sqm hhinc, ms(oh)) (mband sqm hhinc, bands(20) c\pCsoJid)
Die Abbildung: zeigt einen irn Schwerpunkt der I)atcn Hnearen Verlauf. Die
(;rafik zeigt auch, da."ls sowohl Ueiln Einkonunen als auch bei der VVohnungs-
gre eine Reihe von Ausreiern vorliegen.
30
Selbst wenn fr zwei Variablen ein linearer Zusan1menhang ft,>stgcstcllt \Ver-
den kann, l8t e.s denkbar, dass sich der Zusammenhang zwischen diesen bf'i-
deu Variablen <lurch I-Iinzunahme \Veitcrer Variablen in das Ilegressionsn10-
dell ndert. Das heit durch die l{ontroUe anderer Variablen Kann :::;icb die
funktionale Fortn des Zusammenhangs zweier Variablen ndern. Au.s die::wn1
Grund rrtus;:; auch die Linearitt der kontrollierten Beziehung untersucht wer-
den,
E.inen ('f'Sten Anhaltspunkt. fr den Zusarnrnenhang zwischen der abhngi-
gen Variable und einer unabhngigen Variable gibt dt>r Plot der Residuen
gegen die entsprechende unabhugige Variable. Dieser Plot gibt allerdings
keinen Aufschluss ber die genaue I'orrn einer et\va vorhandenf'll Kurvilinea-
ritt, Ein li-frnligur und eiu logarithnscher Zusamrnenhnng liefern unter
bestimmten Umstnden den gleicheu Pl<;t (vgl. Berk und Both 1995).
31
:;uDiese stetlen r'nglicherweise Iloohachtungen dar, welche das Regre&siunS('rgebnis stark
beeinftusSf'n. Genaueres hierzu erfahren Sie itn nachfolgenden Abschnitt..
31
Oie Unterschelrlung dieser beiden Zut'animenhangsforn1en ist notwendig, da bei einern {J.
fcirmigen Zusanimenhang ein quadrati5cher 'fenn eingefgt Yltden sollte und bei einmn
log:a.rithrnischeu Ztt.'m.mme-nhang eine Transfonuation der al;hnglgen Vadablf' gengen
kruu1 (vc;J. AU.sehn. 8.4.3.1).
8,J
ilU
Der C'ouq.HH1cnt,,,.Piu::rftc8idual, Plot;,, auch ,, part.ie!lcr Bcsid1 tcitph;t !!:i'-
uannt., eine Ab\vandlun?; des eben beschrieLcncu Plots uud er:aubt d if"
t>..stinunu11g der funktionalen Forrn d<.,'8 Zu:xt.u111tcnhangs. Iu Cornponcni-
Pius-Residual-Plots wird an Stelle der I{E>_-;iduen das Produkt aus Rcsi<lHlifH
und lincar('tlt Anteil der unabhngigen Variable gcge11 die unahl1up;ig1; \.'rt-
riable geplottet. \A/as damit gemeint. ist, zeigt folgt'rtdt'S Beispiel:
uuu1 <lic Linearitt VVuhnungsgre uu<l Huushah.::;gr15r
itn n1u!tipl<.:n I{egressionstnodcH untersuchen, ;.;o geht rnan \vie folgt vor:
Zunchst werden die Residuen der Regre::;siou der \Vohnung:->v;re rtuf I-l,n1::>-
haltscinkon1nHn und I-Iaushaltsgre crnttelt:
regress sqm hhinc bhsize
predict e1, resid
Danach wird zu den gespeicherten Residuen dt..r lincarf' :\ntt>il de:
haltsg;rc a.ddiert und die sich dara.u.'i ergehende Gre (elplus) gegen d1e
Hausha1tsgrUc geplottet:
generate el + _b[b.hsize)hhsize
tvovay (scatter c1plus hhsize) e1plus hhsize, bands(20))
f)as gleiche Ergebnis erhalten Sie, wenn Sie daH ili Stata irnple111entiert1:
spezielle Grafikkon1n1ando cprplot verwenden, welches die eben bet;.C;hricbc-
ne Prozedur fr eine unabhngig:e Variable Ihrer \\
7
ahi dlirchfhrt.
32
Hinter
cprplot v,rird der Name derjenigen unabhngigen Variable eingegeben, fr
die die Grafik erstellt werdeu solL Die gerade Linie im Plot entsprichr. der
Rcgressionsgeraden. Wir VCf\VCUden hier zustzlich einen )' rvtedian-Spline'
der irrt Wesentlichen mit <lern Iv1edian-'I'race identi::1ch ist, nur dass Kurven
an StcHe von Geraden verwendet werden, um die n1it0inandcr zu
verbinden.
, cprplot hbslze, mspline msopts(bands(20))
(Grafik auf nchster Site)
32
Ebcnfa1ls irnplementlert ist der Augr:ientud Co1nponent-Plut>,Residual-Plot" von l\.1aJ.
lows {t986): acprp19t. An Stelle de:> hier verwcndeten l\ttodia.n-Trace kanu \n1 Befehl
cprplot auch der LO\IVESS (Shuc!! 1994: 109) Wt'l"
rk-'11. Hiur:-..u wird die Option low-ess
220 8 Ei11fiil1r1111g it1 <lic l?l:,T'isio11stuclinik

1 -Ui: . :
.. -
t 1 :"''"'"'--!

1

"
DilO c;rafik zeigt eine zurckgehende \Volntnngsgrc ab einer Haushalts'"
gre \'On sieben. Dic8 drfte jedoch ciJl Effr:kt der unsicheren lVft:diau-e-
rechnung in den Streifen mit den hohell l laushultBgrcn scln.
Lsungsmglichkeiten Irrt vorlicgcud1'n Bt:i.spicl scheinen <liC' vorhaudcuen
Hnear. Liegen nichtlineare l1eziehungcn vor, russen die beteilig-
ten Variablen tran:::;fornticrt oder zust:;Jithe quadratische Terrue in die raei-
chung aufgenonnncn ""'erden. HinweiHe hif:rzu finden Sie in Abschnitt L
8.3.1.2 Einflussreiche Beobachtungen
EinfttL5Sreiche'; Boobachr,ungen sind Beobachtungen, welche die Ergebnis-
se eines Ilegressionsrr1odells stark bceinfiuxsen. tvietstens handelt eH si<'h da-
bei urn Bcobachtungen
1
die auergewhnliche Kornbinationen <ler an einer
Regression beteiligten Variablen aufv.clscn (n1ultivarlate Ausreier"); 7-tun
Beispiel eine Person ruit sehr hohern Einkonun(n und einer sehr kleinen \Voh-
nung.
?vluitivariate Ausreier sind nicht unlH:diugt durch bivariate Scatterplots
auffindbar. FliC;dlCln-t;If1cn1 Scattcrt>ft alh 'A 11srCTikfa1-lftB:l1cilCn; .. krlnen
sich bei Kontrolle einer welteren Variable als norrnal': herausstellen.
Stellt sich fr unser Beispiel heraus, dass die bes:.agte Pen:1on au ihren1
ZweitwohtIBitz befragt wurde, erscheint <lic kleine Wohnung weniger
scbend. Ausreier sind 1neist erklrbar. In solchen Fllett besteht
die Lsung des Problen1s darin, dass eine Variable fr diese Erklrung in das
nlultiple Regrcssionsntodell aufgenonuncn wird, FUr d&-s eben konstrujerte
Bci8piet 1nsstc eine \/ariablc in das l{cgrc&<:;ions1nodell aufgeno1ntnen wer
den, die zwischcu Zweit und Erstwohn;.;itz unterscheidet.
__gg>t. __die
der an einer Regression beteiligten Da jeder Daten-
unkt eines Scatterplots auch ln den brigen Scatterpiots auf der gleichen
Zeile bzw. Spalte liegt. sind auffllige Beobachtungen ber die Plots hinweg
s:i
{Sclinell 1994: 148). Fulgcnde (;rafik ilh1stricrt di<\" a11}1;111d 1'i! h'l
Bcoh<:U'htuHg;, die \Vir z!l Jicsc1n Z\veek besonders hcrvorgchobcu habctL
ge& str label = string(persnr) lf hhinc 14925
graph matrix sqm hhsiz hhinc, mlab(label) mlabpos{6)
Eine fur1nalt'-re Art, einflus..-::reiche flle zu eutdcckcn, ist DFBETA.
Berech1Ul;-1-g vo.11 DFETi\ folgt ci11
R,egrc.<;,.<.Jion;;n1odel1 berechnet. Danach \l:ird die Rfgr('SSiuu erneut bercchtK't.
dies1nat l.-.;st ruan jedoch eine Beobachtung \Veg. D;;L<::; Ergebnis dieser B<-
gression vergi0icht rnan mit den vorherigen Ergebnissen. Sollte eilt gro<r
lJuterschiPd in dcu berechneten I<oeffizicnt(!H zu sehen sein, hat der Fall. (!('!"
bei der zv,...eiten Dere<;hnung nicht bercksichtigt .vurde_ einen grof'n E:intln:.;c:.
auf dte Koeftizienteu. Dieses Verfahren wird nun fr jedf' Beobachtung
derholt. 1\uf diese \Veise lsst sich fr jede Beobachtung notiere1L wie
ihr Einfh18:s auf einen Regrcssionskoeffizienten ist.. Die crechnur1g wird fi'!r
jeden der k Regressionskoeffizienten -ein7.cln durchgefhrt. Forn1al hutt('1 d );
Formel zu B('recl11LuBg des Einflusses der i-te11 Beobachtung anf den k-1!'11
Regressions k oc ffi z ieu t.c n
b;, - bk(i)
DFBETA,k = \1' lcl)
::if',(t)! JRSSk
mit bk d("111 Koeffizienten der Variable k unJ bk(i) dcni cut:::preclicndcu f{ot'f
fizienten ohne die Beobachtung i; Sc(i_! ist die Standa.rdn.fnveichnng der nc ...
duen ohuu die B('ohachtung i. Der Ausdruck im Nenner der Forn1el h<''".virk:
eine Standardi8ierang der Differenz, so dass die Einflsse d(:r BcolJachtnt:gt>H
:;;;wischen dcu I<oeffiz;ienten vergleichbar bleiben (Harniiton 1992: 125).
In Stata \Verden die \\Tcrtc fr DFBE1'A.
1
_k durch d('n Ilefeh! dfbeta l>ere<.'!J
uet. Der Befehl IHUS..-1 nach einetn eingegeben \\"t:nl<.'U
Durch die Angahe einer V'ariablenliste wird spezifiziert. fr \v(]chcn Koef-
fizienten <lie \"eri-inderungen betrachtet \Verden solh:1L ()hne c
\Verden die DFBE:Tt\s fr alle KucttizientcH b('rechuPL I)ic ErgctH1isse w<'1-
den in Va.ria.blcn gcschr'.ebtn. die rnit ,.J)F" hcginne11
1
,,
1
222
iu rlie
sqm hhinc hhs1z-0
werrlen zwei Variablen rnit rlen .\;;trncn DFhhinc und DFhhsize erzeugt. Beide
Variablf't1 ('11ti1alteu den Einflnsti jeder P-cr:c-;un auf de11


11zicuf-t"IL <Jb :-; in lhreui Datensat;;, Flle gibt, kann z,B. wie
folgt ennittldt \Verden:
graph box DF*
.

1
1
Werte von !DFBETAI > 2//ii gelten alH gro (Belsley et aL 1980: Im
vorliegc11den \.Vird diese Grenze jeweil:-; von n1chreren Beobachtungen
berschr1tten. Durch
foreach var of varlist DF {
11st persnr 'var' i1 (abs{'var") > 2/sqrt(e(N))) &: 'var' < .
}
erhlt rnan ciue Liste dic,scr Deobachtungen_:v.
Eine \\eitere l\lgliC'hkeit zur Entdeckung von Au....,reicrn ist der Added-
Variable-Plot:' (Pa;tTeHer ). L- r:n
der Variabh--' \
1
zu wird zunch:-;t t>lnc R.egression von},., gegen allC'
nnabhug;igcn Variablen auer X1 berechnet. Danach wird eine -Rcgr0ssiu11
von )[ 1 auf dit> tibrigcn unabhngig(>n Varlablt;n hfrcchnet. Die R.esiduen die-
ser beiden RP,gresslonC'n \Verden gespeichert und anschlieend gegeneinander
geplottet.::l5-
Autoren 1 als Grenzwert fr DFETA all (Bollen und Jackrnan 1990. 207)
14
Zt:nt Befehl foreach :.iBh.e Ahsdu1. 3.2. Der Ausdruck abs() i;;t eine Funktion und gibt
den B<;trag des in Klantn1er11 st<'hcnd:n Arg1uncnts wie<l<or ( Abschn. 3.1.6.2}. it e 00
. die Fallzahl des zuletzt b0rff'l111Ptcn a11gesprochcn (K11p. 4).
''Dw f,ogik d"s Addivl-Variahlr-PloL.; 011t.$pricht 1Lun:t dcn1 zur
""""" ____ ____
i\ddc<l-Variablc-Plotti knncn iu Stata n<1clt r!HlT HegTcssion Hltb 111it
Befehlen avplot oder avplots crzei1gt werdc1L avplot
dcn Addcd-Varinhlc-Plot fiir eine angc;ebtue \
1
ariahl(:, avplots
Z.('igt alle 1nglielHn Plots in einer eirD:igcn ])arsl.cllung.
regress sqm hhinc hhsize
avplots

..
.
. '
. ;,.
..
..
.
. .
\\;eit auen liegende Punkte in diesrn Plots sind .,1nultivariilh ii\n:-.reier:,
Derartige Flle habe11 potentiell groen Einfl.11sl."l ;;u1f die H.c:gn'ssif)IlSC"rgcb11is-
sc. Auffllig sind in den obigen vor allein PinigT' Ot'U!>rt;::l1tJngcn,
deren Haushaltseinkon1n1cn hher ist, ab. inan an der soustii.!;cn
Variablenkonstellation cr\varten drfte. Be-1orgni;; errcgcud i11she-ronderc
eine auffllige Beobachtung irn Plot fr da..') Haushal"t:-;einkorunH:I L Durch
. avplot hhin<:, :rtlabel (persnr-)
l-;st sich die PersotH:H111unrncr dieser Beoh;;uJ1t uug idcnti.h1.iPn'11:
----"'-'
_,"""
"""'
e(hhirn:I X) "''"
der 0-Kocffizitiuttu d('S multiplen (Abschtt X 2. Ei11
der dort erzcng1.c11 Rvsiducn wre ein
11
i:
224
1 f a1nilton ( 1UD2: 1,1l,128-129) Add<>d- \'arinblt!-f'lots z11 vcr\<.'Cn-
dcu, bei denen die Plotsynibolgrc proportiona[ iu DF'flEl'A ist. Hierzu
miisscn die Ploth von Hand er?,cngt \VcrdPtL Fr d:a.s
in voriicgcn<len nniltiplcn lincareu Rcgre&-;lon wrde 1nan einen solchen
Plot \vic folgt e:;stcl!en::.lG
regress sqm hhsize
predict esqm, resid
regress hhlnc hhsize
ehhinc, resid
generate absDF abs(DFhhinc)
twoway {sc esqm ehhinc (veight absOF), msyttbol(oh) ) (lfit esqm ehhinc, clp
> {solid)}
0
S'
1 'c' ----T--
,,.,.,
In Stata..Grafiken kann die Plotsy1nbolgre Hber die Ge'\vichtungsanwei-
sung gesteuert werden. Der Gewichtungstyp spielt dabei keine RolJe. In1 vor-
liegenden _Fall ist darauf zu achten, dass die \\'ertt: von OFBE'l'A negat.iv sein
k11uen. Aus diesern Grund \Verden zunchst die von DFETA
hcref'hnct und nlit diesen gev,:ichtet.
37
Die letzte .l\bbildung zeigt, <lass der rnultivariatc Ausreier nennenswerten
Einflu&:; auf die hat. Noch sclnverwiegen<ler Bind Z\vet et\vas
links davon licg<?nde Beobachtungen, die sich jedoch in Ihrer Wirkung aufhe-
ben. InsgeHan1t ncheincn die relativ \venigcn Beobachtungen inlt sehr hohen
Einkonunen das Rcgress.ion.sergcbnis vergleiclts\velse stark zu bt>einfiusscu.
Bisher wurden die Aui;\virkungen von einzelnen fr die un-
terschiedlichen Koeffizienten getrennt untersucht. !\fit ,.Cook's D" steht eine
!Vlazahl zur Verfgung, die dei' Einfluss einer Beobachtung auf alle Regres-
sionskoeffizientei1 snultru1 (Fox 1991:84)
1
also der1 Einfluss einer
Beispiel wird <lie oben auf S. 222 erzeugte Variable OFhhinc verli'fE'ndet. Die A<:hsen
der hier erstellten Grafik sind beide mit Residuals" beschrifteL Hierbni handelt es sich
U1H die durch den predict-Befohl autorr1atisch vergebenen Labels. Zur nderung dieser
cN::hriftnng siehe Abschn. (L:;A}'i.
Ti'zni Gnwichttu:g;,uiuwdsung a!li;eu1ci11 siehe AOOchn.
g,;J 225
Bt:obachtun; auf das n('gn:ssivnsn1odelL Sie rl1allc!l fliese PriifgrBc
1nit predict i1n An;.;chlu'>s an deu
predict cook, cooKsd
'Der !v1azaht lieESt die frllgcndc berlegung zugrunde: Der Einfluss einer B(',...
obaehtung: auf das Hegrcssious1nodcll setzt .sich aus AspcktP11 zt t.sannnen,
dcru \t\!(:rt auf der abhngigen Varialile und der Kon1bination (lcr anahhngi-
gen Variablen. Eine einHus.sreiche Beobachtung bcsit/,t ciucn auPrgewhn-
[ichen r -Wert. und eine auergev.'hnJiche l(ornbinati0u V(JU J:- \Vcrt,eH. Nur
wc1n1 beide A.s.pekt.e vorliegen, \\'erden die l(ocffizicuten dnr(;li die
Beobachtung stark heciuftusst. Dies wird durch die in Abhildnng
8.5 verdeutlicht. Die Grafiken zeigen Scatterplot.:; de1 \Vohnungsgre gegen
das Einkornruen von fiinf Eugln<lern iiHH den Jahren lH65
1
19(j7 und Hl71.
" e
-i<.>
i;

"'''"''"
"''"'""'"
AbbiJdung ftri: Scattcrp1ots zu Levcragc und ()iskrcpRnz
Int ersten Scatt<rplol liat Sgt. Pepper eine fr ;';t:in EinkoinnH":H a.uer-
ge\.vhnlich groe \'.\"ohnung. Das Einkorrunen von Sgt. I>epper ist dagegen
nicht unge\vhnJich; es Pnt::;pricht den1 :rviittelwcrt den der fnf
Englnder. In die Abbildung sind z;wei R.egressionsgernden eingezeichnet. die
gepunktete Linie ist die Regressionsgerade
1
die sich bei einer R.egret:>slon ohne
Sgt. Peppcr ergeben \Viirde. \,\rird Sgt. Pepper mit in diP a:1f-
g('11onunen, verschiebt sieh di<' Regrcs.sionsgerade ein wenig 11J.Ch r>hen. Die
Steigung der Gcradi.n (<l(r h-J(oeffizie11t des Einkonnnvn:->) ndt>rl :-;ich rlicl1L
lt11 ScatterpJot fr Jahr 19li7 hat Sgt. Peppet 1.-oiu aui.k:rgcwhnlich
hoh('S ginkorn1nc1L L)ic Gre seiner cnt:-::pdcht dagegen genau der
Quadrat rncterznl1}. die v.ir aufgrund nn:-_.eres ,\1odcl !s cr\vartc11 \Vrdcu. Sgt.
Pt'ppcr hat also t:incu ancrgev,:hnlichcn \\
7
crt auf d('r .1_:-Variable, jedoch
einen fr diesen \Vcrt gf''.vhntichen y-Wcrt. Die Regrt-:-1sion::;gcrade11
1
die sich bei einer Bcnrhnung 1nit und ohne SgL Pt>pper crg:ehen, sind in
dieiicrn Fall ident.isch.
hn Scattcrplot fr das J(lhr 1971 hat Sgt. Pcppcr ein auergewhnlich
hohes Einkonnnen und eine fr <lif'SCH Einko1nmen aucrge\vhnllch kleine
\Vohnung. lfier treffen dant. beide oben genannten A8pckte Z!lfHltntnen. Ent
spre<:hend deutlich Vf
1
r11dcrt. sich die

Die Fet)tstellung, dass sielt der EinfllL">S eines I'unkte-; aus der Aucrgcwhn-
lichkeit. der :r- und 9-\'Verte zusa1nrnensetzt, lsst sich 1nathc1natisch \Vie folgt
ausdrncken:
Einfluss = Lcvcrng;c x Dlskrepa11z (8.20)
1Nobei v,rir als LC\'('l'ilg'C <lic Aucrgc\vhnlichkcit thr Kon1bination dtr x-
Variablcn bezeichnen (1,
1
/[c irn Z\veit.ent Scatterplot) und als Diskrepanz die
:\uergewiihnHchkcit der y- \
1
ariable ( wle irn ersten Sca.tterplot}. Da Levera-
ge und Diskrepanz 1ntdtiplhder!. \Verden, ist der Einftu;.;s einer eobachtung
gleich 0, \venu einer der beiden Aspekte fehlt.
Zur Berechnung des Einflusses (8.20) bentigen \Vir f\Iazahlen fr Lcvcra-
gc und Diskrepanz:. fn cinein RcgrcssionsmodeH mit uur einer unabhngigen
Variable kann a.ls l\lazahl fr Lcvcragc der Anteil des Abstands einer B(>-
obachtung vorn an der Su1n1ne aller Abstnde vorn f\..1ittelwert
verwendei v;;crden.
39
Bei rnehreren unabhngigen \/ariahicn wird der Abstand zwischen einer Be-
obachtung uud detH Sch\verpunkt der unabhngigen unter crck-
der Korrelation;,- und Varianzstruktur der unabhngigen Variablen
ver\vCtHlct (vgl. Fox 1997: 84). Iu Sta.ta erhalten Sie den Levcrage-\Vcrt Jc9er
Beobachtung durch deu f3cfehl predict lev. leverage im i\nschluss an die
entsprechende Ilegr{'s..;;ion. !v1it di('Sln efehl wrd;:;n Sie die Leverage-\,Verte
jedt:r Ileobaclituug uutcr denn Variablennamen lev abspeichern.
Zur I\1f>Ssung <ler Diskr<'panz scheint PB zunchst nahe liegend. die Resi-
duen ds IlegrcssionRn1o<lclb: tu vcr\vcudcu. Dies i:..;t jedoch nicht sinnvoll.
L-denken Sie, dass J)unkte tnit cinern hohen Leveragc die Rcgressionsgerade
:
18
Ste!len Sk' ,aich dk fl>:>gressiurn;ge;adc a!s eine \Vlppc vor, Su-chen Sie in Gedanken <le11
rler unabhngigen dort Hegt der Keil oder Angelpunkt der \Vippe.
Punkt<>, die weit von Angelpunkt und der Regressionsgt>raden entfernt liegen.
sind wabrsche!nlich einfltmsrcichc Punkt.
39
tvlathe1natisch:
(8.21)
ik '227
io ihre flicht.ung zich('ll und dadurch kleine ftcsidutn kHuen \\.c1;-
clct 1aau (Hcichung (8.20) 1nit den ltcsiduen als J'vlcssnn_e, der I>iskrfpnnz ltn,
kann es vorkotnn1eu, da.-;s inan kleinen fnr den Einfinss
der Datenpunkt die Ergebnisse der Rf'grcssin1 i!>:ittliC'h vcr;\n(lf'.rt. J;i
Zur Bcst.iln1nung der Diskrepanz bentigen \vir de;.;halb eint' urn den
tluss L(vcrag;C' bereinigte Jvlazahl. Die; ist das shu1dftrdisic:rt,(' Res1d11u tn
e: U<obachtnng, Sie erhalten die Werte df'r sta1idhrdisierteH f{esi<J ueu
dnrrh d&"> Kouunando predict varname, rstandard i111 .,\nocl1hLsx an dle
entsprechende Regression.
4
t
:'\achden1 eine ?vfazahl fiir Diskrepanz und L(;veragc gcfuudcn lt;t. k1:1:P!l
heide f\llay,ahlen gcu1 (8.20} 1niteinander rnultipllziert \\Vrd011. 1\Uc;d'.1:gs:
Fll!P rnan darauf U('11ten. das<; die beiden V\'ertt 1nit ci11:.n1 t!;l't'ignci.cn Cl'-
in die h1nltip1ikatiou t:i11ftieikn. Diese Aolgabe votli:n \\ir .i('duch dt:n
Statistikf'rn bcrla.')Ben. Einrr vnn ihnen - Cook hat
vorg'scltlagen:
{),
h;
( 1 ... h,)

f-(H:r:i9e
X
e/
k + j
(K 22)
-

wohei <las standardisiert< R("sidnun1 ist und h, fr de11 0i1Hr Ee-
uba.chtung steht.
42
(:ook s D-\Vertc ber 1 bzv.:_ 4/ n gelten als gro. Schnell
(l994: 225) ernpfiehlt Zllr I3cstiuunung der cinHussrciclH-'11 Filllt> ein(' c;rafik,
bei der die Beobachtungen gegen ihre laufende Nnn1tncr in1 ge-
plottet werden und der SclnveHet1wert rnit einer 1,.va{-lgereciltcn Linie 1narkie1t
\Vird.
Fiir die Grafik berechnen \Vir zunchst die Werte fiir D in 1 1\nschi
an die Regression:
regress sqm hhsize hhinc
predict cooksd, cooksd
Danach speichern wir d('n Scll\vcllen\\'Crt in einen1 lokalcu :\h--tkrn (reax )_
l)aiu verwenden wir die Fallzahl des letiteu llegres.'onsu101h:ll.s, die von St<-1ta
als internes Resultat 11t1t0r e(N) gc::;.pclchcrt \Vird (sieht Kap. --1).
local max 4/e(N)
4
0Dies lasst sich gut auhand dt'r viert.en Grafik de:;; venlt>utlid1ca
(S. 2lfl). Wrde man den Einfluss des Ausreiers in di;'t:lr (;rafik 1uit dt.or C!t.;d;uug
{8.20) ;;estimmen und tlah(:i die ft!'.'"'>iduen als Diskrpanz-A.1alh:'ii1l hcranzielKn. iii;t d(,-t
Etnflu*> de> he'. 0
41
V\:obei Sie fr vaf"lulnr. Variablcnnnrnen whlen knnen
42
Ein iu1fk:rsi hilfreiches h11ng;;progra.1nm hekornmcn Sie 111it d{r Bcf;h
regpt, Bei regpt handeil e;,; $ldl: 1u dncu Ado-Filc, der von ivfitd ieL prog;r;i111-
1uiet1 wu'rde. Zu Adtr-Fik'ti c>iehe Kap, 11, ?U ,:\dv-Fdr>,,;. dir iilwr das ln1ernet bcreil!!,io,
s.t-c'.lt- wrdi'n, sit>he Kap. 12.
228
in die
\\"ir bilden ''ine \tari;1l;lc index, di<; lu11fendf- Nnnl.ttH'r ('Htlilt und
vt,_:rv1"eHden dk;i:;c ah-; fiir di VVir t:rzeugPtl die (;raHk tnit
lugaritluniert(r :v-AclL->e;
generate index _n
graph scatter cooksd index, ykine('max') msyir.bol(p) yscale(log)
D!c A_l;bil<lung zeigt. eine p;anzc Reihe von Beobnchtu11geu1 die ber dein
kritischen \Vert liegen. Durcb Komruando kiinnc11 Sie fetitt>t.tlleui
dat:>s a" sich hierbei besonders uni diejenigen handelt. <llc cln
\'t!rgieichs\veise hohes E1nkonuncn
generate bigcook = cooksd > 'max
tabulate bigcook, summarize(hhinc}
Summary of Haushaltseinkommen 97
bigcook Milan Std. Oev. Freq,
0
1
Total
1860
2723
1921
945
1931
1068
2975
226
3201
Zusarnmcnfa.'isen<l zcif,!;<:ll die iu dieK01n Abschnitt vorgruonuneuen 1\naly-
scn einen klaren Befund: Hci allen Diagnosen waren (inige \-Venigt: euLach-
tuug:cH nlit auergewhnlich hohf"tn Elnkotnmett <L11ffl-illig. Die Ergcbuis."e des
i\'[odc!ls werd.cu durch di0sc rt:-;latlv wcnigen Beohn,c;ht11ng('H sehr viel .strker
geprgt als durch die-sehr vielen Beobachtungen 111i1 klciHcu, nlittlcrcu und
hohen (aber nicht sehr hohen) \Vie irL'>bt\">oHdere der Added-
auf Seite 22-'1 zeigt) sind diese elnAussrciclicn Ilcohachtungen
i1n vorliegenden FaB kaun1 probletnatisch, da sie nur fr sich betrachtet. den
Rcgression&koeffizienten bf'cinflus.':len, Entfernt 1na11 alle rnit
'::$Chr hol!en Eiukonnucu. so bkiben die Koeffhdt-11t-<--on ini vorlieg(ndcn Fall
prakti..;ch id<'utisch.
8.,"J J-ie}_;Tcssio11...,-J)ia;!,'ll(JSf iJ.,-
Lsungsmglichkeiten >Jatrlich fn-1g;t 111;u1 sicli, \vn,s itu Fnfl('
thf'r Bcohar:ht.1111gen 6ll tnH r:r\\'t'ist sich eine clnti11:o;srci<"hc Uc:obd( :h tl 11 t<'
uttZ\Vf'ifr!li::tft als i\:1essfehlcr. i,-;t. dieser zu korr\g;if'rnn oder
ist ans detll Datensatz z11 f'l1tferne1t. Sind dif' coh11,,('ht1111gt't1
c1e- Flg-e voH cxtrcn1e11 \Yerten der abhngigen bietet. sich H'
1'.1edian-flcgression an (Abschn. S.G.l),
F:-tst. in1u1cr tiind einflqssrcic-hr Beobaclin1ngc11 aber dir Folge <:'i ltt-:s ni('ht
vullstntllg spezlfizJertcn 1\acrgewhnlicl1<' flle sind ja tl1l r tlc:v
halb auergewhnlich, 1u1;-;ere Theorie si0 unvolL..;tii11dig nrkUirt. f)<-i !n1
vorliegenden Fall in.<>beson<lere sehr hohe EinkonnrH'H die fl(gr<>-:..:sion :>tarh
hccinHu:-;scn. sollte nnin sich fragen, 0!1 0S einen Faktor giht. (i('l' dl('
nnngsgre zustzlich uud der typischer\VC'L-.;e niit hohc111 {lJ?:'.,'>-\'.
n1crlrig:ern) Einkornrr1en einlir:rgf'ht. f$0i rechL-sclucfcn Vrrt(
1
ilung('!J. 1vic di\
der \
1
arirtb1e Einkonnucn. hf's!<
1
ht eine dt>nkbnr<' Vernderung (lcs Qf'.
darill. da.s logarithrnierlr 1 Ia us!ntll sci11kon1UH'I ! st a tr 1k11111-
tnens zu verwenden. inhaltlich hat dici:: den Ett(,kt, <la;:;s 1H<tn detu Hau:-.hal:N-
t;inko11uncn eine: logarithn1i:->chP Beziehung zur \VoJnntn,sgrHe
Je hher t!as Haushait.seinko:nrncn, desto geringer ist di<' \''(rklud1:ntU,!!,' (f{'J
\\:'ohnnng;sgrc bei eint->r \"priindcrung un1 j0dru
1,veitercn E:uro.
8.3.1.3 bersehene Einflussfaktoren
Al:-; ,.bersehene Einflu3sfaktor<tr \ver<lcu 'Variablen die i:ine11
Einfinss auf die abhngig;<: \."n,riable haben und n1ii
-einer der brigen 'lariablE'n irn ;\lodell korreliert'tL F'riuzipicH sin<l a1u:l1 u1eht-
lincare Beziehungen und eiuflussrelche Flle ben-;cheno ln1
ersten Fall \vurde bersehctL da;-;...; tlnt: uuabhu;ige V;;iriahlp rticht iiber ih
ren ganzen \Vert.ebereich dea ; _ _>JcjclH-n EiuHuss nuf fiic nhhiingige
hn.t .. frn zvvciten Fall wurde vcrhnrnt, cxplizitr f,)1lrthpori;; ]J;
das l\:Iodell einzuhauen, oder es diejenigen ben-.(hr:n.
dlP auch die Ansreier erklrbar 1aachen \vrd('n.
Zur Entdeckung weiterer frltk,nder Einftus.<>fakt.on;u k;u111 e-:ti
Plot. der Residuen gegen nicht ira 1\ fodell enthalt(tte \.verdt,u
{Schnell 1994: 229). Allerdings iHt ein Plot nur 1ngllc(1 n1it
gen Variablen, die itn {)at<'Hsnt:;, vorhaudcn :-iind. Slbst \veu11 'n: \ l\J'n.
Plot keine AuffUigkeiteu r.cigctL kann dCt-s Problcn1 trotzdcnt hestc'hr1t
sc Diagnostik ist deshalb 11otv;endig, aber uirht hitll'Pic!icnd.
Die Identifizierung bersch1:uer Einflussfaktoren ist in cr::-it er L inic Pil 1
retisches Prohlern. Vor allzi: seh('tt1atischcr Atnvc1H.luug von ztn
E1udeckung Ei11A11s.t.:fa.ktorcn Sf)i dartun gcvvarnt.
Iru (ihrigen besteht bei de111 Ziel, alle \Vichtigct1 EinflustifaktcJf('ll i11
Iviodcll aufzunelunen, lnHlH'r noch die (;cfahr der !\,Iultikotlinc<tritii1"' F:i-
I1e1n extre1ncn F'all vou i\1ultik0Uit1earitiit \\-c1Tlcn Sie lu Absch11itL S, L 1 i>('i
rlcr !lcspreehung der E:1tflt!1111g; kategori<1lct' 'Vnrin.hl111 iJ r (i;-1.-.,
i
i'
1
,,
'
, ,
b(gcgne11. ;1,w1;-;chtn ?>\vci i11 di:1s f..'lodeil
nH:neu \lariahlcn eiue Lintnrkotnhlnation
4
'}, wird Stal.it eine d<'r bci-
d1;n Variablen beJ der <:rccl1111111g aus dcu1 lVfudeH cutl{:rneri.
Aber auch hci nur fast perfrkte11 Li11earkon10inationcn k<.'.tnicn Proble1nc
cnt1:1tchc1i: Der Staudardfehlcr ( Abschn. 8.1.2,2) der KoeHizieutcn ('.rhht sich,
Hnd ei:: konirnt zu unerwartr>t.en Vetiinder11ngcu iu der Kocffizientcugriiik: oder
deren Vorzeichen. Sie dantn1 dnngPIHl vern1ci<le11, \Vahliu:-: Variablen
in <las llcgres;:;ionrnod(!II ci11:::11filhretL
Schlielich wollen \vir Sie norh auf eirH'H weitereu Stata-Bcfch! auf1nerk-
1nachcn. auch wenn wir da.<:; dahinter liegende strttist isclH' Konzept an
dir:scr StcUe nicht weit('r ruchten. Zur Entdeckung von
ncRritt knn(n S1e in1 nn das Regression1nodell vif eingehen, Sie
bekouunen dann fr jede una11hiing\g{' \'ariablc den sug ... \
1
ariall('C Inftation
Factor, zur Interprctatlon und ErkHi.ruug vgl, z.B. f"ox (1997::t_{8).
8.3.2 Die Verletzung von VAR(cJ ,F
Die A11nah1ne V1\Il( fi) 6! fo1'dcrt. dass die Varianz der Fchk't fr alle
\Verte von X gleich sein soll. Sie wird auch als


rne; bezeichnet uuci ihr(' \:'crlk"tznng: enttiprechend ab !Ict('rnskedrtstizitt''.
Hetcroskedagtiiitt fhrt. i1n (;r-gensatz 1,ur Verletzung vun E( c
1
) = 0 nicht
zu einer \rcrzerrung der Koeffizienten. Die I<oeffizienten eines Regrcssions-
ruodells, bei dem die tsannahu1e verletzt h<it, sind jedoch
nicht effizient. Bei ineffizie11ten Set.ifitzungcn erhht sich die \\r'ahrsrheintich-
keit dafL d<:-L"lS: ein konkreter f{cgressionskoeffizient vo111 \\'ttl1ren \Vert. in der
Grundgesarnthett abweicht.
Die Ursachen fr f{eteroski::tla."tizitii.t sind vielfltig. Relativ hufig tritt
da.5 Probien1 auf, wenn die ahhngif!,'(' VariahJc irn nicht t<yrnmetrisch
ist. Zur Untersuchung der Synitnf'trie vou Variablen t>igncn Hl('h z.B. (He in
Abschnitt 7.:t3 beschriebetH'H Verfahren zur grafischen DRrstel!ung von Va-
riablen uiit vielen .1\usprguugc11.
Ein '5pezielles V8rfahrcn zur Ctttcrsu('.h1tt1g der Syn1ntetrl( von V'erteilun-
gen ist der Syn1n1etrieplot;. (Schnt>H 1994: 76). Hierbei Vi'ird znnchst der
bcstl1ntnt. Danach \\'crdf'11 die Abstnde der nchstgreren und der
nch;-:;tkleincren Deobuchtung zu1n :\ledian bcstinunt und beide gegen-
geplottet. EntsprecciiftHl \Vird auch rnit den bernchsten und allen
anderc1: Ileobachtungen Yf'rfnhn_'ll. Sind dif' Ab8tfindc 8tets gro
1
liegen
die Plotsymbole auf der Iftui_ptdingonalt'lL Sind die Ahtitndt' rlcr Beobach-
tungen iiber de-rn f\:fc<lian grt5ei- als die Ahstn<le unter don1 f\.ledian, so ist
die Verteilung rechts.schief, hn urugt>kehrten Fall ist die linksschief.
fn Stata tver<len Synunetrieplots durch den Befehl symplot erstellt. llier
ist df'r Syrn1netrieplot der
2 + :r:;
Wohnungl>grwsse in QM
Di0 ;\bbildnng zeigt eine dent lieh rrchtsschicfe \lt:'rtci11111g- dvr \\.olnttl! i?;s-
grc. Uei ('\ller solchen \
1
ertcilnng ist zu befrc!ttcn, das:-. dit Jas-
tizHtsannnbnic verletzt i:::;t.
Die StandanlrnPthode zur Cberprfung df'r
iRt der Besidual-\s.-Fittcd-Plot (Schnell l 994: 2:-ll), \Vir uiiichten Ihnen hif'r
eine \fariantc (lcs Rcsklttal-vs.-Filte<l-Plot vorst(llcn. hei dt: dil!
chung der Varianz der Residui:n be:-;ondcrs belont \vinL f)ahf;i \vil'd lliP ,1-
_i\chsc iu k <3ruppcn rnit et\\-a gleich viel Fllen uutcrtcill und fiir je<ic d<t
(;ruppcn. ein Boxplot der studcntisicrtcn Re8iducn bcrcclnul
Zunchst hnrcchnen \Vir noch cintnal die cins{hliclich \l(d'-
hergesagten \\"crte und der studeutit.iertcn R-esi<luen:
regress sqrr hhinc hhsize
predict yhat3
predict rstud, rstud
Fr das ei::->piel wurde die Zahl der (;ruppeu so h<'sti1111nt. jl'd( r
Boxplot nuf etv..a. 100 Ilcoba<:litungen haskrt.:
44
local groups round(e(N)/100,l)
xtile groups = yhat3, nq\'gro<,.ips')
graph box rstud, over(groups)
-<-
1
Ut:i round.() l1<utddt HS sid:i 111n ;\!(' a\lgeuie1nc St,u:.;;t-f'ut1kti(!ll z1;111 l{111(ln1 \',,11 /:,.i'.-
Jr,n {Ahsd1H ."LLG2). Untf'r e(N) i,>:'I die in df'r lctztu1 v-i-n\vtHirh. :';.']ut!il
F1srwidlf'rt Zn11> efohl xtile .dw :\h,.;d111. 7.T 1.
'
'
!
ii
\\:
i.
'l ',
''
l
l
j
!
!
i11 di('
Die 1\hbildung zeigt eine leicht zunehrnende jedoch uocli akzept.ahle -
Tenrlcn:z der \larlanz der Ilesiduen.
Lsungsmglichkeiten Zur f3cseitigung von Hcterosked21sti:;,itt gengt in
vielen Fllen die n-ansfonnation der abhngigen Variable. Ziel dieser Trans-
forrnation sollte es sein, eine rnglichst. syn1n1etrisch verteilte abhngig-e \la-
riable zu erhalten. Bei rechtsschiefen Variablen gengt es oft, diese \
1
ariable
zu Jogarithnercn. 1.tfit dein Befehl bcskewO steht lhneu darflher hinau.:-; die
Mglichkeit zur Verfgung, die entsprechende Variable so zu transforneren,
dass sie mglichst symmetrisch wird (vgl. Abschn. 8.4.3.2).
Fhrt die Transfor1nation der abhngigen VariabJC" nicht zur Beseitigung
der Heteroskedastizitt, knnen Sie die in der Regressious-:\usgabeausgewie--
senen Standardfehler der Koeffizienten nicht zur GrundlagP eines Signifikanz-
tests verwenden. '
15
\\tenn Sie dennoch an einent Signifikanztest interessiert
so knnen Sie die Option robust des Regreh.sionshefehls verwenden.
dles.er Option werden Oie Standardfehler auf eine Art bPrechn0t, \velche
die der Fehler nicht voraussetzt.
8.3.3 Die Verletzung von COV(E Ej) = O; i f j
I\1it COV{ti,<j) = O; i /:- j ist gea1eint, dass die Fehler unlennander unkor-
reliert sein sollten. Die Verletzung dieser Annahrne \vird ,.Autokorrelation'
genannt. Die Folgen der _i\utokorrefatiou sind ineffizieute Schtzungen <ler
Koeffizienten_
macht sich die Bedeutung der vorliegenden Annahn1e a1u b<.,"Steu an-
hand eines Beispiels klar. \\'ir haben in den vorangegangenen Abschnitten
versucht, die \Vohnungsgre vorhcrzu!:lagen. Nehmen Sie nun einmal an, Sie
htten die VVohnungsgre- durch Schtzung der Interviewer erhoben. In die-
S<Jlll _F'a.11 wre es niCht unwahrscheinlich, dass einige Ihrer Interviewer generell
dazu neigen, die \Vohnungen der Befragten zu untcrschtzen
1
andere da.gegen
-t
5
zu den c-griffen Signifikanz 11nrl Stantia.rdfehler'' siehe AbBdtn. B.L2.2.
die:-:;c ;1,u bers('htzcn. In dics<:tu Fall wren alle Beobacht11ng.PH fnlr_!t-
viewers unterf:inau<lcr in einer gev.riHsnn Hinsichl. hril!ch: In den1 ;\ns1na. lH i:.
dc111 die VVohnung;:.;gre ber- oder unterscht:;;t wird. .hnlicher Fall tritt
ein, \\'enn alle Peri'$Ollen eines Hau">haJts befragt werd0rL Auch iH diescrn
drfte es unter den unbeobachteten Einfls::;cn (t1) Fakton'n dit:> Let
den l\1it.glicdcrn ein{;.<; Haushalts jewuils iu dic::><llhc Rjchtnn.e:; wei:-.PrL Da'Xi'.ell>c
gilt eventuell auch fr die 13cfragten a.u;;; einer bt-stin1n1tcn Sticliprobcnrt>gion
Oie eispic!t' zeigen, dass sich die Verletzung der Unabhngfgkcitsa11nah-
1ue auch in1 Bereich von Quer:schnitt.sbefragungen zcigeu kann. In jngerer
Zeit \vird der Crngang mit den hier gezeigten Beispi<leu einer Verletzung de1
lfnabhnglgkeitsannahn1e Vt'r:<>trkl irn R.:'llunen der Literatur zit ko1nplexeu
Stichproben (Schnell und Krcuter 2005; Lee et aL 198!J; Lchtoneu und Pitk-
kinen 1995; Skinncr et aL 1989) sowie zu Mnlti-Dcvel-Modellcn (Kreft unrl
de Lceu\\" 1998) diskudert. VVir \v0rden weiter unten noch etu.-a..;; au:->fhrlicher
auf da.."l Problen1 eingehen.
Besondere AufmerksatnkeH \v-ird der Autokorrelation n Rahrnen von Zeit-
reihenanalysen zuteil, da zeitlich. aufeinander folgende Beobachtungen einan-
der hufig hnHcher sind als zeitlich weit tH.h')CiHandcr Ucgende eobachtnn-
gcn (serielle Atttokorrclation). Fiir Zeltreihenanalysen vurde di0 .,Durbir;-
\\latson-Teststatistik" entwickelt. kann in Stata rnit den1 Befehl d-w-stat
nach einer Regression angefordert werden. Allerdings erfordert dics0r Befchi,
da._..,_.;; der Datensatz als Zeitreihr: deklariert wurde.
10
8.4 Verfeinerte Modelle
In <lie..<;em Abschnitt werden wir fhncn einige Erweiterungen des linearen Re-
gressionsmodells vorstellen. Die1::1c Erweiterunge11 beziehen tJich auf den
gang rnit kategorialen unabhngigen Variablen, anf die Aufnahme von In-
teraktionstern1en und die Mode!lit.::rung von kurvili1)earen Zusa1u1ncnhngea.
Die Interpretation solcher verfciurrtcr l\Iodelle if't teilweise etv.-as schwfr;rig.
Die grafische Darstellung der Ergebnisse in kann
hier gute Dienste leisten.
8.4.1 Kategoriale unabhngige Variablen
Prublcnie bereitet es, 1A'enn Sie eine kategorialf' Variable mit ruchr ah; zwri
Ausprgungen in eine R.egression uufnehrnen wollen. AL":i ei.:;piel hicrfiJr
der Familienstand angef11rt. Die \!a.rlable marital ent,hlt die Kat\:g;uricn
verheiratet, verheiratet aber getrf'nut lcbcud
1
ledig, geschieden, ver\vitwet
und Ehepartner n Heitnatiand:
tabulate marital
46
!)a wir Zeitreihenanalysen in die.ein Bu('h nh:ht- twhauddn, v<'rwtsen wir hh1 <111f help
tsse:c :->owie auf rrrs! intro
Farniliensta
nd 97
verh.
getrennt
ledig
gesch.
verw.
heimat
Total
Freq.
1,860
83
800
270
312
15
3,340
Percent
55.69
2.49
23.95
8.08
9.34
0.45
100.00
R i11 dit' f(egnssio11stecl111ik
55 69
58 .17
82. 13
90.21
99'-. 55
100.00
Die Aufnahtne der Variable Fanlienstand in die [leihe der nnahhngigcu
Variablen eines Rcgressionsmodells ist prolJlcntatisch, v.rpi} eine Vernden1ng
dieser Variable von einer Einheit zur nchsten nicht in rcgcln1ige11 Schrit-
ten vollzogen werden kann. Es ist uiclit sinnvoll anzunchn1en. ein Schritt
von verheiratet. zu getrennt lebend habe fr die \Vohnungsgre die g;lcic:hc
Bedeutung \vie der Schritt von geschiedcri zu Genau diese chanp-
tung wrde rnan jecfoch irnplizit treffen. \\"t'llll 111aH eine kategoriale Varia.hie
tnit mehreren Ausprgungen unverndPrt in ein aufnilnrnt.
Aus diese1n Grund rnssen die KategoriC'n cittzcln untereinander kontrastiert
werden. W'as das bedeutet, wollen wir irn Folgenden erlutern.
Keine Problerne bereitet es, in das T\'fodell eine Variable aufzunclunen, die
zwischen verheirateten nnd nicht verheirateten Befragten unterscheidet:
generate married = marital == 1 if marital <
Dazu wird eine dichotome Variable gebildet 1nit den Ausprguugen 0 fr
nicht verheiratet und 1 fr verheiratet. Der b-Koeffizient dieser Variable in
eincrri R.egrcssionsmodell liee sich analog 1.:11 der Dun11ny-Varia.blc11 in
<lern rviodell auf Seite 208 interpretieren . .\'ach diesc111 l\.Iuster knnte n1an
z.B. sageu, Verheiratete htten eine ur11 h Quadrat.rneter gre \Vohnung als
nicht Verheiratete.
Entsprechend knnte rnan auch andere l\:ont.rastc bilden:
generate separated = marital == 2 if marital <
generate unmarried = marital == 3 if marital <
generate divorced = marital == 4 if marital <
generate widowed = marital == 5 if marital <
generate grasswid = marital == 6 if marital <
Jeder dieser Kontraste bildet den GegcHsat.z zwiscl1en eine1n Farnilienstand
und allen anderen Personen ab. Wenn Sie jedoch alle Kontraste in Ihr Re-
gressionsrnodell aufnehrnen, wird autornatisch eine Variable aus derr1 tvlodell
entfernt:
,S.'J \l<'rfi:i11crt<' ;'\ lodcllc
--------------
regress sqm hhinc hhsize married-grasswid, noheader
>qm
hhinc
hhsize
married
separated
unmarried
divorced
widowed
grasswid
cons
Coef. Std. Err.
. 0152781 . 0006521
3.650068 .5983566
-3.946139 4.458052
(dropped)
-6.81536 4.531397
-9.981533 4.914772
-1.933574 4.851228
-30. 56751 11. 2333
53.80639 4.517889
t P>ltl
23 43 0.000
6.10 0.000
-0 89 0.376
-1.50 0.133
-2.03 0 042
-o 40 0 690
-2 72 0 007
11 91 0 000
[95/, Conf _ Interval]
.0139995
2.476855
-12 68715
-15 70018
-19 61805
-11.4455
-52 59292
44.94805
. 0165567
4.823281
4. 794677
2.069464
-.3450171
7.578351
-8.542108
62. 66473
lJrsachP hiPrfiir ist. dass von den sechs gcbild('t('ll Variablen nur fuf ben-
tigt werden, 11111 vo11 jeder Person zu wissen, \.
1
.:e!chcn Fa1nilieusta11d sif' hat.
Eine Person. dif' tiicht tnit ihrcrn Ehepartner zusaunnen lebt. nicltt geschie-
den, nicht lf'dig. nicht verwitwet und nicht. Struh'wif'we ist. lllllSS von ihre111
Ehepartner getrennt leben. fu solchen Fllen spricht IJHUl davon, da;.;s eine
der Variablen 1uit deu anderen kollinear ist. Der EinHuss kolli11carer Va-
riablen kann in {'inctil R.cgressionsmo<lell nicht berechnet \Vf'r<len. ErRt rrn .. ch
Entfernen der entsprPchC'Jl(icn Variable wird die :\[oclcllglcicl1ung lsbar.
Bei der Intcrpret.a.t.ion des so berechneten ist zu berck-
sichtigen, dass die f{onst.ante dem vorhergesagten \tVert entspricht. wenn <:-11-
le anderen Kovariatc11 0 sind. Im vorliegenclc11 Fall sind <lies dernnach die
getrennt LcLH.'t1tkn. Die \Vohnungsgren der I)ersonen n1it auderern Farnili-
enstand unterscheiden sich von diesen in Hhe der angegebcncu l{oeffizien-
ten. Im obigen !\.Iodell haben die Verheirateten also eine unt durchschnittlich
3, 946 m
2
kleinere \Vohnung als die getrennt LcbC'nden. Noch kleiner sind
die Wohnungen der Ledigen, deren Wohnungcu durchschHittlich urn E:i, 82ru
2
kleiner sind als di(' der Lebenden. Die brigen Koc'ffizif'ntc11 v;crd('ll
entsprechend interpretiert.
Die hier erzielten Koeffizienten sind 1nehr nls Pt.was erstaunlich. Plausihrl
wre es gewesen. v.Tnn \'erheiratetc grere \Vohnungcu gehabt. httcn nJs
getrennt Laut. \'1o<lell ist es jedoch u1ngekehrt. Solche offeusiditli-
chen Differenzen z11111 G'ornrnon. Sense sind Z\var als Analyse<>rgf'hnis durchaus
nicht uner\vnscht. jPdoch in vielen Fllen auch einen1 Artehlkt. gesc:huldet. Su
a11ch in diese1n Fall. Die getrennt Lebenden \vohucn sehr allein, d.h .. c.;ic
haben rneistens eiue Haushaltsgre von l. DiesP tendenzielle Ko!lincaritt
sowie die Tatsache, dass nur v.
1
enigc getrennt Lebende in1 Datcn.sat.z sind.
fhrt dazu, dass der EinHuss des getrennt Lebens uur sclnvcr vor1 de111 (l<'s
allein Lebens getrennt kann. Unsichere Koeffizienten sind ehe Folge.
Anstatt wie oben die Kontrast-Variablen n1hsar11 Variable fr Variablr
von Hand iu bilden, knnen Sie auch den Befehl tab varno.rnt-:, gen ( nc1t1mT)
verwenden. DalH'i ist varn.arnc der Na1ne der kategorialen \/ariahlc. nnd unter
den Namen ncu:1
1
arl bis neuvarK werden so viele Variablen 1v1r"'
1\11sprg11ngC'n in dc'r kategorialC'n \'ariahk vurhar1dPH si1Ld.
1
1
2:lfi
------ , _________ _
tabulate egp, gen(egp_)
IIierilnrch \VPr(k'll diP Variableu egp.1 biN egp_ll gl'hildet. Diese kiil1nen
Sie ebenfalls in (hr Regressious1nodell t:inset.;r,('IL (\Jeist ist ('.:-i siunvoH, gleich
zll Beginn ein(-:ll J(ontra--"it wcgzul{lSl"i!'IL \Vclcher da:-; ist, ist letzt-
lich aher vllig da . ..;ich die gewonnenen cfuude inhaltlich nicht
unterscheidc11.
Eiue \veitcrf' ,<\Jikrz;ung zur von Dtunrny- \/ariablen fr J(at<'-
gurien einer 1HJ1ni11ale11 \/ariable b,;t xi. Den Befehl xi knnen Sie Uefehl
oder als zu bclichigcn Vf'l'\VC\ldcn. ;\lit <lein Befehl
. x1: regress sqm i.htyp
bercchnc1t Sie eine Rcgri'ssion der riuf Jie kategoriale \laria-
ble l-Iausl1altt.;t.yp. Dabei \Verden fr die Regrr:sskn1 acht Du1111uy-Variable11
gebildet (so An.sprgungen hat die Variable htyp) nud in der Regre;;;:;;ion
bercksichtigt. A11to1natisclt \Vird die niedrigste I\tttcgor?c als R_eferenzkate--
goric ver\vcr;df't. Der Befehl xi eignet .sich vor allcui dann., wenn Sie mit
diesen Dun1n1y-\lariablen [ntcraktionseffekte HJOdellieren woUen. Die wieder-
holte Vcr"''endung von xi ist aber zeitintensiv, da die Variablen fr jedes
erneut gebildet wefden.
8.4.2 lnteraktionseffekte
Zur von Intcraktion.scffckten wollen \vir die Analyse der Ein-
kornmensungleichhcit aus Kapitel 1 wieder aufgrt1fPrL l)ort hatten \Vir ver-
sucht fr alle Befragten, die ber ein Einkouune11 vPrfgen, das Bruttoein-
kornrnen'durch (;es<"hlecl1t 11nd Erwerbsstatus z11 Prklreu. Die Analyse zeigte.
dass trauc11 in1 A.llgtnieincn wenlger vcrdicnf'n \ds f\-lnner und dass dieser
{Jnterschied in1r teilweise auf die hufigere Tcilzejtb0schftigung der Frauen
zurckzufhren ist.
Bitte reproduzieren Sie das :ViodeH durch den ';\ufruf des dafr geschriebe-
nen Do-Filc:s anlkk.do:
do anlkk.do
\'chnien Sie nun ein1nal an, Sie htten die \Tertnutung, da...:;s das J.=:inkon1-
n1en nicht nur vo1n Geschlecht und <lern Erwerbsstatus abhngt, sondern auch
von <lcr .A.nslJildung. Hhere Bildung - so vcrrnuten Sie - fhrt zu hhcren1
Einko1nrnen. In di{'_'Jcn1 Fall :::;olltcn Sie die Bildung in Ihr llegressionsrno-
dell aufnehrncn. Allerdings nPhn1cn Sie gleichzeitig an, dass der \/ortcil der
_t\.usbildung un1so strker zunt T'ragen konu11t, je lter rnan 'ist. Drei Grn<lP
sprechen filr diese Verrnttt.111tg:
Hher Gchild('tp b0ginncn hcrutiiebc h-:arrk':-c I-foch g"i:i>il<lc>-
verdienen darum r1icht :uehr
\venn berhaupt als die weniger Gebildct('n gh,iehcn A.lter.-1. rlic j<l
rncist :o;rhon einige .Jahre crufserfahning .-u1t\vciscn. zunelirncrlt
Verweildauer in1 Beruf wchst je<loch der \lortt>il hoher Uiidung.
Personen nt niedriger Bildung habeu ein hlii;res l{i;;iko zu
\vCrden. lfntcrbrcchungen irn Erwerbsverlauf kiHJCll zu cincnt crschw(1-
t.en \\'"ieder('instieg i11sErwcrbslebet1 fhren. oftniaJs nur ber Teilzeit.-
oder Hilfsarht'itcn Htit cincru niedrigen Gehalt. fin ExtrP1nfa.ll \vrd(
dies sogar einen tnit <lf'lH Alter eintrctt:'nden be;
den nie<ltigeu ildungBgruppen nahelegen .
Die Bildung 1.var lange Zeit eine entscheide1ule Varlahk: fr dit: llhe
Einkonunen.s. !\JittlerweHe gibt e,.; ah;:.'r \'il'h' n<:Uf> rr11fszv.:eJge.
ffir die es k<>inc kla.'j!jische A.usbildung oder 1i;1 ('Jlf.sprcch(tH.ic!'.- S'.udi-
um gibL Die Einkonunensungleiehhcit zv.:iscfH'll df'n vcrschiecl1:.n1en B il-
dungsgruppcn ist ein PhR1un1i<'IL \Vl'shalb Ei11ko1n111e11s-
unglcichheit Z\Vi.s<'Jtcn den Bildungsgruppen uar in den i-i!tercn (;encra-
tionen feststellbar sein knnte.
.J\.Ue drei Grnde l('gcn die Vernu1tung nahe. da.-;,-; der Effekt der ildung
auf da-; Einkonunen unh..:;o strker ist, je lter die P0r!"ouen siud, die n1an he-
tracht.eL Solche, fr \Verte einer dritten Variable variierenden Eff('ktc, \Verden
. Interaktionseffckte genannt. In einem \</('rden Intrrakti-
onscffekte eingefhrt, indcin die beteiligten Variablen 11111ltipJi:--;icrt werden.
In1 Fall unseres Beispiels die Variablen Bilduug un<l Alter ar11 Intra.k-
tionseffekt beteiligt. Zur Er\.veiterung Ihres lvfodeH.-; knnen wir die
daucr in Jahren (yedu) verwenden. Die Variable filr das Alter (Tze11geu "\vir
au."> dern Geburtsjahr (ybirth);
generate age m 1997 ybirth
einer Reihe von Grnden ist es vorteilhaft. lllt'trisclH' Varia,hlcn '-\ie
1
f
ciie ildungsdauer oder da..;; Alter zu zentrieren, bcYur inan sie in ein lineares '1:
R.egre,qsJonsmodeH einfhrt. Dif'P. gilt _in."ibesondere in Gegcn\vart von Inter-
aktionstermen (.J\.ikcn und \Vc8t 1991 ).
Bei der Zentrieruug i,vir<l von jedern \>'Vert einer \/nriahle der :\[iUehvert der
\Fariabie a.bgezogeH. fn uni1erern Fall das.;;.df'r !\iittrlv;:crt rn1r i
i
asis Ff.i:lle berechnet '\Vird, dit' auch in das l{egres<>ionsn."10-
deH eingeschlossen werden. {Jm festzuste1len, tHn \veiche Flk' C3 sich dabei
handelt, wir \;.:issen, \velche BeobFLChtuugen anf kei11;:.r der i111
i:iionsrno<lell enthaltenen Variablen einen f\,iissiug haL f{icrzu ver\venden \.Yir
die Funktion rmiss(varlist) des Befehls egen, I\lit di{-'St'.r FuuktloYJ \Vird
die Anzahl fehlend(:: Werte innerhlb einer gezhk.
i11 die
egen miss = roYID.iss(income yedu ybirth fulltime)
Die..<>er -egen-Befehl erzeugt die Variab)e miss. Die Variable !!liss hat die
..N!ill fi!r_alle der
Wi;:rJ .1?-nfv;eist. !\-fit ihrer lHlfe knnen wir unser Problen1
einfach lsen:
47
summarize yedu if miss 0
generate cyedu yedu - r(mean) if miss==O
bzw_
summarize age if
generate cage = age - r(mean) if miss==O
:'\ach der Zcntrierung knnen Sie die lnteraktionsvariabie bilden, Dabei
rnultipliziercn Sie die an der Interaktion bPtei!igteu \
1
ariablen.
generate yeduage "' cyedu * cage
Schlielich erweitern Sie das R.egressionstnodell tun die Variablen cage,
cyedu und die neu gebildete Interaktionsvariable:
regress incoae men fulltitte cage cyedu yeduage
Source ss df MS Number of obs 1545
F( 5, 15"!9) 5-0. 24
Model 359958784 5 71991756,8 Prob > F
. 0.0000
Residual 2. 2051e+09 1539 1432839,59 R-squared
. 0.1403
Adj R-squared = 0.1375
Tot-al 2.5651e+09 1544 1661333.49 Rnot- HSE 1197
in.-:ome Coef. Std. Err. t P>!tl (95% Conf, Interval]
men 444.0768 61.78785 7' 19 0.000 322.8796 565.2741
tulltime 764.3836 90.45379 B.45 0.000 586.9579 941.8093
cage -.893062 2.158071 -(L41 0.679 -5.126133 3.340009
cyedu 119.3288 12.50207 9.54 0.000 (>4.80594 143.6517
yeduage .t.11756 .8829518 1.27 0.206 -.6143558 2.849476
_cons 1007.47 86.07676 11.10 0.000 836.6304 1176.311
Auf das Regressionsmodell wollen wir hier nicht eingehen, sondern sofort
die grafische Darstellung erlutern. Dabei soll insbesondere die Interpretati-
on von Interaktionstermen verdeutlicht werden. Auch v.renn die Darstellung
d-er Ergebnisse multipler linearer Regressionen nteist in Form von Tabellen
47
Der Ausdruck r(mean) st.cht fr den MittelwrL der intt $ummarize ln;rechnet wurde
Kap. 4}.
.4 Alodf'Jfc
---
erflgti
45
halten \vir eine ..r:::_i.!,ische Ergebnisdurst.cl!nng bei kornplizit'rten
gressions_r_nodeHen fr sinnvoller. Sptestens hei J\ilodellen rn_li. Intc-r;1ki-fori$-
d t
"vird der
In1 Conditional-EffcctH-Plot werden Regre::isionsg<-'rud('n fr u11tcrschic<l-
liche l(ornbinationcn der unabhngigen Variablen gezeichnet. \\-'ir nzchtcn
eine Grafik erzeugf'tL bei welcher der Zusatnrncnhang Z\vischen 1\itcr uud Ei11-
kornrr1en angezeigt. v:ird. Allerdings rncJ1teu \Vir nicht nur eine Regrcssion&--
gerade fr den betrachten, soudcrn nit:hteu gernR(i
unseren Interaktionshypothescn den Zusarnmcnhang- getrennt fr dieje.nigcn
mit der krzesten, der durchschnitttlchen und der lng:..tcn Ausbildungszeit,
aagczeigt bekOllifI!('fL Das heit wir berechnen insgt>:SftTHL drei rtcg:rcssionsge-
radcn.
J-\uf Seite 199 haben \i;lr Ihnctt gez.eigt. \Vic uutn eine Rcgres.r..;ioi:rngerade
nach einer lineart'll EinffichrC'gression erzeugt:
predict yhat1
Et\vas au8fhr1ieher:
generate yhat2 = _b(_con.s] + _b[iolltime]fulltimc + _b(m;;n)men + _b(cage]-.c
> age + _b[cyedu]cyedu + _biyeduage]yedua,ge
Anders al<; bei der lint'aren Einfachregression lassen sich diot>e -vorher,ge
sagten Werte jedoch nicht fnchr als eine Gerade in einer zwciditncnsiort:i.lelt
Grafik darstellen. Eine Gerade ergibt sich aber, wenn zur 13-erechnung- der
vorhergesagten VVertc die Werte aUer Variablen auer einer auf einen Wert
fixiert werden. \Vir knnen z.B, die vorhergesagte11 VVerte fr die \Vcibllche11
tBilzeiterv;crbsttif;cH Befragten n1it rnittlercr Bildung berechnen, \.VPnn V\'i r
fr alle Variablen bJ;:; auf da..:; Alter den \V.ert 0 in die Rcgr(1'sioII8f!J<'ich11ng
einsetzen:
generate yb._yeduO = _b[_cons] + _b[cage] * cage
Beachten Sie
1
dasH <lurch die Nullsetzung die rueisten Tcrrne aus der Giel-
chung fallen. Dies gilt auch fr den Interaktionscffckt
1
da die ?vlu)t lplikatlon
von age mit der mittleren Biklung;da11er (0) ebenfalls l'ull ist.
Entsprechend la.-.;sen sich so die vorhergesagten \\:prte derselben
rnit der niedrigstl'n Bildung er1nittcln. Dazu gehc>n Sie SUJIL.'ll.arize fr {fie
Variable cyedu an und verwenden im Anschluss dw gespelclH"rte Ergfl)nis
r (min)
1
welches den niedrigsten \:Vert der Variable d'B letzten summariz e-
Bcfehls enthlt. cachten Sie, dass die FJxierung der [nt0rftktioilS\'aril>lrJ
ein wenig kornpliziert ist
1
da sie bezglich des 1\ltcrs v.eiter variieren
45 Iu Abschn. 12.3. I beschreiben wir einen Bfehl, lnit dein dir
in dne Tabelle umgewauddt wird, wie sie :n vielen Ver6ffentlkh11ng('u 1il>!ich i"t
z llJ
\Vir Hntl!iplizit>rcn dr1ru111 den Interaktiu11:-:,1rn11 ll;it d('JJ! '.\finlllllllll vo11 cyedu
nud cyage. E11tsprcchc11d knucH Si(-c di(' 13ilduug <LlH_:b auf d('u ltiXhste11 \Vr:rt
fixicrtu:
summar:ze cyedu
generate _b[_ccns) + _b(cage]cage + _b[cyedu]r(min) + _b(yedua
> ge) cageo:r<r.:: n}
generate y!l_yectumax _b(_cons] + _b[cage]cage + _b[cyedu]*r(max) + _b[yedua
>
J);.i.ulit haben Sit drei unterschiedliche \i'ari<tblcn utit vorhergc.>rLgtf'll
t<'ll fr 1u1!Prscbicdtich gebildete teilzciter\\'('rb:->ttige Frrt'.tt'll
f'ri.'-t:llgt.. .fprh dif-:S(T Variablen ist fr sicli !ie.! rarltt('t f'ilR' FuukLi0JJ des
ters. l)i(' \VPrtt' fr jedes Bildungsui1.'ean !it"g;Pn a11f t:incr (;erndcrL Sh;
(lar;-;t ell<'ll k1i11c1i:
graph twoway 11ne yh_yedu* age, sort

1
0
. . -
- yh_yMl ---=---=-=--
L..... _________J
in di('Her Abbildung repr.-.;eutiert Jie obere Linie die h{'hste BHdung;;,;g-rup-
p(> un<l dle uutcrstt Linie die nie<lrigste.
19
;\ll der Crafik kn11cn Sie deut.-
lich ablesen. \VH..'-' eine I!!tCrttkt!onvariable b<:'\virkt: Da.'l AJter hat fiir jedes
ildtu1gsnivt'.<:Ut tlnen anderen Einfluss. Je hher die Bildung, des1.o stti.rkcr
;:;ttigt das Einko1nrncu init dcn1 Alter- L'rugekehrt '::i!eigt, \\'ic durcb die thco-
reLisrh<>u fJb(rlPgnugen er\vartf't. der Effekt der Bildung die Diffcrt>11z der
Linien 111lt dein :\h.(r der Befragten. Tn .\1odelien ohne Intcraktionsf'ffeklc
d1e Linien iI_l
8.4.3 RegressionsmodeUe mit transformierten Daten
Flir die A1P.vend11ng vo1; Rt'gressionsrno<lc!l('U uiit. transforn1iertcn Varialilcn
g;ibt p,;.i, in1 \\<'('sentlichcn ZW('j Grnde:
211
------...... --------
Je tHLCh(frui. .reicher der beiden (;rudc voriicg:L iuittrschid<'t sich (h1.:-::
\vcilere [)er \N"l-:Sellthchc lfntcr:,chitil lic:.tt:ilt tL-1rin. itn Fr-tll
ukt1tlln('HfPr { tlie ff nuf;fu'iJitj/JjC i<th lt' t narn
n1icrt vJrd, i1JJ Fall iicr Verletzung der dag1p;c;1
di1- ab;dingigc \'';.triublc. hu Folgenden soll z1111i-ichs1. (Lls \'01 i.:,cltcn zur :'.\fr1-
nicnt linearer eziehungen erl:i11rcrl iV!'tde11. I)aran 'Hd
vvrden '.vir knrz a.uf Verwendung von l"rari:-;fo1ni;-ition;_:c zur
vou fietcroskcrlasti;;iUit hiuwcisen (vgl. a!Jcli :\fosteHer 11ud n1;,,_c\' 1$177).
8.4.3.1 Modellierung nichtlinearer Zusammenhng-e
fu Abschnitt B.:l J 1 haben \\'ir Ihnen i-;1:h(' \:crfnlircn
niit <l<:uen n1nn nichtlineare Bezi('L1H1f1/'ll {'fltdcckt'll kdnIL Ir: vi<.:lell
Fllen geniigf'H j(doch CiJcf l1
1
;.;u11,<1L uni t'tP V<'ranlas
:->Hng fr die !\{(Hlt>liicrnng 11icl1tlinearer I3ez'h1u1gtt1 1,11 !"'t'!1<'tl: Ul'tracl1t.cn Si('
,r:Jl den Zusau1n1c11hi:u1g znrisclten der \"Ufl Frallt:l! uucl
der Geburtcnr<1te. \Vrtltrschein1ich besteht hi{'f" ein tl('gatin_'r
\'Vahrscheinlich ist aber auch, da.ss die (;chnrtenrate ui{'!tt !iu('i-\f al)81kt,
sie schlielich b<:i "\ ul! liegt. Vielrnehr drfte d ic (;t;b1trl cnra tc nl.it
der AlphuhPtisicrt111; der Frauen zunchst. rasd1 abul'hlrH'll 1111d sich dan1; auf
ciucn \Vert. hei cu. ein lii.c; Z\vci Geburten
Nichtlinenrc Znsauu11enhuge finden .sich aucb linfig. v,:('1111 Einkotnrnen aJs
unabhngige Variable verwendet wird. ()ft1nttls liabcn
runr.;en itn UHteren Spektrun1 der Einko1n1n(1isvcrtf'ili1ng: (']11en gTficre1:
fckt. auf die abhng;igc V'ariablc als Ei11ko111I1H'tls\crii.11<ie1 Jrn oberen
Eiukonnnens . ..;pl'kt.n1n1. SchliPlich verdrcifaclir d;.1-> Fit1kot1Hut:11 bei (i11c:
\'eriindcruug vuu 500 auf 1500, \Vhre11d es sich hti Ph1t'r \:'triind('nt11i:;
von 10000 Hilf 11 000 nnr uoch uni 10 Pn.lE.t'!i! ,rl1ii/1t. <iln\-(J!Jl (';<-;in bei1len
Fllen tun 1 000 gestiegen ist.
ei der nicl1tlincarer Ileziphut1g('l! 11111s_.., inan :--.frh LuHi-_'hst
iiber die gcn<itH' Fonn Zui;arnrnenh<\.ng:s klat ,.,_.,,n[('ll \Ylr \vollen hk:
dr('i GrutH lt.v peu 11ichtlincarer Bez:iehuug,PH u1itcrsf"licid<'1; .. !11).;1iriti1
., hyperboli1':c!tt
1
" 111Hi . fnuigc' Idealt YIH'll 'li1 'S<T Z11...;a:nnn1dlii11gP 1
sich tnit dctu Pkit'fyp function von graph twoay i'rzcllgcu
twoway (function y '-'- yaxis(l) ysca}.e(off ax1s(l))) (f'-mctiort y ln(x),
> yaxis(2) axis(2))} (funct10;; y"' x + y_a10.s(3) ysca.1e(o
>-ff axis(3))), legeud(label(1 "Hyperbolic") label(2 "Logarithmic") label(3 "!J-
> Shaped"))
8
1
.-. - Hypert>ohc - - - - 1
. - U-Shaped
i11 die
Bei lugarl thinischen Zusarnrnenhngen steigt die abhngige Variable zu-
nchst st.ark rnit den \Verten der utiabhngigt:n \
1
ariable. Ivlit t-:tf'igt<nden
Werten der unabhngigen \'ariab[c '>Vird dieser Anstieg jedoch aHrniihlich
schwcher. Bei hyperbolisch('n Zu.sarnrnenhngen ist es urngekehrt Hier steigt
die abhngigf' Variab)e zunch,;;t &_hwach, dann hnmer strker, Beun lJ. frrni-
gen Zusammenhang ndert sich die Richtung des Effekts der unabhngigen
\ta.riablen. A.Jle drei Grundt;rpen knnen auch in umgekehrter Richtung auf-
treten. Bcirn logarithn1ischen Zusamrnenhang bedeutet dies, dass die Werte
zut1chst stark, dann schwnch fallen. Beim hyperbolischen Zusan1rnenhang
faHen die \Verte zuerst schwach, dann stark und beim umgekehrt U-frntigcn
Zusammenhang steigen die zunchst und sinken dann. In der Praxis
treten vor allem logarithi:nische Zusarnmenhnge recht hufig auf,
Zur .i\1odellierung logarith1nisc:her Zusan1n1enhnge wird der Logarithn1t1s
der unabhngigen Variable gebildet und die ursprngliche unabhngige Va-
riable in der Regression durch die;;;;c transfornlierte Variabl ersetzt. Ein stark
logaritbtnL>.:cher Zusammenhang b("Steht zlun Beispiel zwischen detn Brutto-
sozialprodukt der Lnder dieser \VClt und der dort anzutreffenden Kinder-
sterblichkeitsrate. Der Datens<\tz uno_dta enthlt diese Daten.ao
use Wlo.dta, clea.r
graph twoway scatter infmort gdp
Sie knnen diesen 1ogarithnschen Zusamrnenhang modellieren. iudon1 Sie
die- x-Va.riable logarithrnieren
generate loggdp = log(gdp)
und diese statt der ursprngHrhen XVariable in <las RegressionsmodeU
nelunen:
elspi'l starnn1t von (Fox 2000), die Daten wurden aul1art<l von Daten <!er Verdntc:n
Nationen { http://www. un.vni/Dcpt,-./unsd/soctal/main. him) akt uallsicrt.
regress in:tmort loggdp
predict yhatt
Zv.df>then den vorherge::;a.gten \Verten dieser R.Pgre.ision yhat 1 1u1d df
1
r uichi
unabhngigen \!arJable dann chi logaritfnnf;,cher Zn-
Mtn111enha.r1g:
twoway (scatter infmort gdp) (line yhati gdp, sort)
hnlich verfahrt man bei hyperbolischen Znsanunenhngen, nut da,'18 die!'Y
rnal nicht der sondern das Quadrat der unabhngigen VariablP
gebildet Auch hier wird die ursprnglich unabhngige \
1
ariable durch
die quadrierte Version der unabh11gigen Variable ersetzt.
51
Anders gestaltet sich die Modellierung von U:frngcn
Hier \vird die unabhngige Variabie zwar PbenfaHs quadriert,
. _ i 11
_ Eln U-frrnJger Zusam1net1hai:g tii:-.(kt
slch in den Daten des auf Seite 215 vorgestellten Anttco1nbe-Q11artett.-.. Ourdi
zustzliche Aufnahme eines quadratischt>n l'crrn.s knnen Sie diesen
menhang perfekt modellieren:
use anscombe, clear
generate x2q =
regress y2 x2 x2q
predict yhat
twoway (line yhat x2, sort) (scattar y2 x2)
(Grafik auf nchster Seite)
51 Beispiele fr hyperbolische Beziehungen in den Sozialwissenschaften sir;d ."if'lte1:. Mgli-
cherweise steht das .Jahresgehalt von in einer l:iJ.<pf;rb,,jj,hen H<"
;;:lchung zur dt>r Grand-Prh.>Siege.
244
\Veon Sie beabsichtigeu
1
Transforn1ationen von unabhngigen \/ariablcn
in Ihr tvfodcll aufzunehu1en, wUt.en Sie auch die bei
(1999: [(ap. 16) beschriebenen beachten.
8.4.3.2 Transfonnation zur Beseitigung von Heteroskedastizitt
In Abschnitt 8.3.2 hatten wir als eine der Ursachen fr Heteroskedastizitt
die Verwendung schief verteilter abhngiger Variablen genannt. Aus diesern
n1tiss zur Beseitigung von llcteroskcdastizitt stets die abhngige \
1
a-
riablc transfornliert \Verden. Beachten Sie jedoch, dass sich durch die Trans-
formation der abhngigen Variable die Interpretation <le:; Rcgression.::anodells
ndert. Transformationen der abhngigen Variable fhren dazu, dass zvi-
schen der nicht transforrnierten abhngigen \rarlable und allen unabhngi-
gen Variablen nichtlineare Beziehungen n1odelliert v,:erdcn ( vgL Hair et aL
1995: 71 ).
Ziel der TransforrnaJi0n sollte er::- sein, eine n1glichst syrnmetrische oder
norrnalverteilte abhngige \:'ariable zu erhalten. Dabei knnen Sie folgende
DaurnenregeJ beachten: Ifandelt es steh urn eine sehr brcitgipfllgc \lertcitung,
i::;t oftmals die Inverse dieser \.'ariable die geeignete Transforn1ation (l/yi)
Handelt es sich um eine rechts.schiefe Verteilung (wie hei der Wohnungsgre),
crnpfichJt sich der Logarithn1us
1
und handelt es sich Hin eine Huksschicfe Ver-
teilung, knnen Sie die Wurzel verwenden (Fox 1997: 59-82).
Neben diesen Dauu1eurcgeln bietet Stata Ihnen das Korntn1u1do bcskewO.
<liesetn Kommando wird Ihnen eiue Transformation vorge'>Ch[agen, die
zu f'iuer annhernd syrnm('trischen Verteilung fhrt. !)Z
use data1,clear
bcskewO bcsqm = sqm
Der Residual-vs.-Fitted-Plot (S. 215) liefert ebenfalls Hinweise dafr. wel-
che Transfor1nation hei HcLeroskedastizitt angewendet werden kann. \Venn
UJ\rh<Pn Sie darauf, dass die Variable, fr die Sie den anwenden, weder
n-;w;atlvr: Werte noch Null enthlt ..
dl<' Streuung l{J:sklueu n1it Znnalt111c (h:r vorher!-;t:.s.agtcu \-VcrtF grrr
wird, sollten Sie die Inverse der y-Variahle al.'i tlbhfiugigc.: \
1
ariable uchirtctL
\\-'e1111 die Streuung tuit grf3er wcrdl'11dcn vorliergcsagtcu abnh:irnt.
::1olltcn Sie die Wurzel aus l/i F:ichen und diP abhngige durch
crHt'tZ<u (Hairet al. 1995: 711).
8.5 Mehr zu Standardfehlern
\;\t'ir haben bereits a1chrfach er\vhnt, die. G[tigkclt <lPr Slaudardfehler,
\vie sie tnit regress a.usgcp;eben
1
Nerdea. einer ganzen lle.ilH: von
rncn unterliegen. ;\ifultikollinearitt J:lUH cispie!
1
fhrt typi.'jcher\\ci:-ie zu el-
ncr berl'>ehtzung der S1,audardfehler und lsst datnit Kueftizicntcn als nicht
signifikant erscheinen. Hctcroskedastizitt heeinfius..<.Jt ebeufalls die Standard-
fehler In diesetn AbfK'liHitt ;.;teH<'n wir deshalb kurL': zwcl I\'fe-.
thodeu vor
1
rnit denen Sh Standardfehler und Konfiden'/.illt('l'\-.-tlle C'rhalt,cu
knnen.
8.5,0,l Bootstrap-Techniken
blicherweise beruht die erPChnung der Konfidenzird,ervaH{ auf <lcr Anua.h-
tnc. dass die Fehler und da1nit auch die ben:chueten Kocffizk,:nten norn1alver-
tcilt sind. AusgPhend von dieser An11ahrne werden die Stand;irdschtzfehler
rnit dem kritiscJ:ten \Vert
53
rnuihp!Jziert. b diese Annahtnc ber die Ver-
teHung der Fehler und KoPffi:dentcn stinunt, ist jedoch f:-ag:lich und kann
von Ihnen anhand einer einzelnen Stichprobe nicht beurteilt werden. Wir
znchten Ihneh de.shalb ein VC'rfahren vorstellen, mit dem Sie
vaHe auf eine andere Art Ocrechnen knnen: <las sog. Bootstrap-Vcrfahren".
Das englische \Vort bootstrap steht fr Stiefella.schen. die eiuPn1 das Anziehen
der Schuhe erleie-ht-ern. Als H.edc:wendung \\rird huotstrap' so verwendet, \".tic
die deutsche \Vcndung ._,sich an da eigenen lfaaren aus <lern S111npf ziehen",
In unseren1 Kontext heit (\S, i'.'dch ntit den vorliegenden Inforrnationen zu
helfen und nicht auf Vert,cilungsanualunen zuriickzugreifen.->l
Hinter den Te.-:hnikcn :'..itcckt folgende Idee; Alle I11for1nationeni
die Sie ber die Grundgesn111thcit haben, stecken in Ihren Stichprohendate-n.
Da.."l heit Sie verwenden nur Ihre St.ich probe, 11111 eine Einschtzung ber die
Grundgesa1ntheit zu bckouuueu. (;chen \vir noch inrnal einen Sf'.hrittznrck:
,\ngenornrnen Sie knnten brliehip; viele Stichproben aus der c;rnudg:csamt-
hcit ziehen und fr jede Stichprobe die Konfldcnzint>tffvaHe der llcgressionsko-
effizicnten berechnen, danu tvrden 95 Pro:.-:ent der so berechneten Intervalle
mit mehr als 120 Freiheitsgraden (Fil.tlzahl abzglich Zahl der Koeffizienten
einschl. bo) liegt der kritische \Vert fr ein 95%-honfidenzlnterval! bei I,9:fi.

54
Einen berblick Ober verschieden: lvlethodcn znr BE"rechnung von I<nntidenzintervaflen
geben t\1ooney t1nd Duva.l (U)93: 4'.1); niti(' au,;fhrlichc Darstd!ung finden Sie bei Efron
llnd Tihshirani ( fl)f)a): leicht vnrstitndlkh ist di<: Pr<Jcntatiou YH Stiue ( HYJO)