07 Lineareregression Skript

Kapitel 7
Lineare Regression
KQ-Schtzer, Varianzanalyse, Bestimmtheitsma,
kategoriale Regressoren
Druckfassung der Vorlesung Statistik I fr die Fachrichtung BWL und
VWL vom Wintersemester 2013/2014
Christian Heuman, Institut fr Statistik, Ludwig-Maximilians-Universitt
Mnchen
7.1
Vorlesungseinheiten
1. Grundlagen
2. Hugkeitsverteilungen
3. Lagemae
4. Streuungsmae
5. Konzentrationsmae
6. Zusammenhangsmae
7. Lineare Regression
8. Indizes
7.2
Inhalt dieses Abschnitts
Inhaltsverzeichnis
1 Einleitung 2
2 Plots und Annahmen 3
3 Kleinste-Quadrate-Schtzer 5
4 Eigenschaften der Regressionsgeraden 7
5 Gte der Anpassung 8
6 Kategoriale Regressoren 10 7.3
1
1 Einleitung
Einleitung
Motivation
In vielen Anwendungen ist es bedeutsam zu wissen, welchen Einuss ein quan-
titatives Merkmal X auf ein weiteres Merkmal Y hat, z.B.
Einkommen (X) und Kreditwunsch (Y) eines Bankkunden
Einsatz von Werbung in e (X) und Umsatz in e (Y) einer Handelskette
Geschwindigkeit (X) und Bremsweg (Y) eines Pkw
In diesem Abschnitt werden Methoden zur Analyse dieses Einusses behan-
delt und wie dies in einem Modell formuliert werden kann.
7.4
Einleitung
Rahmenbedingungen der Daten
Um einen Zusammenhang zwischen X und Y darzustellen und aufdecken zu
knnen, mssen X und Y mit verschiedenen Merkmalsausprgungen beobach-
tet werden (linke Graphik).
Wrde man X konstant halten (X = c), so erhielte man nur die natrliche
Streuung von Y bei gegebenen X-Wert x = c (rechte Graphik).
G
G
G
G
G
G
G
0 20 40 60 80
0
10
20
30
40
50
60
Geschwindigkeit
B
r
e
m
s
w
e
g
G
G
GG
G
G
0 20 40 60 80
0
10
20
30
40
50
60
Geschwindigkeit
B
r
e
m
s
w
e
g
7.5
Einleitung
Modellierung
Vorausgesetzt wird, dass
ein Merkmal (X) gegeben oder beeinussbar ist (unabhngige Variable)
ein Merkmal (Y) als Reaktion auf X beobachtet werden kann (abhngige
Variable)
Das einfachste Modell fr einen Zusammenhang Y = f (X) ist die lineare
Gleichung
Y = a+bX.
Stehen X und Y in diesem Zusammenhang, so spricht man von einer linearen
Regression von Y auf X.
Das Merkmal Y ist der Regressand oder Response, das Merkmal X der Re-
gressor oder Einussgre.
7.6
2
Einleitung
Modellerweiterung
Wie weiter oben im Beispiel veranschaulicht wird das Merkmal Y auf einen vor-
gegebenen Wert des Merkmals X hin beobachtet und weist im allgemeinen eine
natrliche Streuung auf.
Dadurch liegen die Wertepaare der Merkmale X und Y nicht exakt auf ei-
ner Geraden. Dieses Abweichen wird durch das Fehlerglied oder Residuum e
beschrieben und mit in das Modell eingebunden:
Y = a+bX +e
7.7
2 Plots und Annahmen
Plots und Annahmen
Vorbereitung
Bevor eine Ursache-Wirkung-Beziehung bzw. ein Zusammenhang modelliert wird,
sollte zuvor anhand geeigneter graphischer Darstellungen berprft werden, ob
und wie solch eine Beziehung beschaffen ist.
Ein gutes Hilfsmittel ist hierbei das Streudiagramm oder Scatter-Plot.
7.8
Plots und Annahmen
fehlender Zusammenhang
In diesem Fall bildet sich eine Punktwolke ohne Struktur, die einzelnen Punkte
wirken rein zufllig angeordnet.
Hier gbe es eine Reihe von Modellmglichkeiten, die die Daten gleich schlecht
interpretieren:
5 0 5
5
0
5
5 0 5
5
0
5
5 0 5
5
0
5
7.9
Plots und Annahmen
Art des Zusammenhangs
Es gibt eine Vielzahl an mglichen Zusammenhngen. Die elementarsten sind:
linear
zyklisch
3
exponentiell
logarithmisch
polynomisch
Ein Model ist umso plausibler, je prziser es den tatschlichen Zusammenhang -
sei es auch nur fr Teilbereiche - beschreibt.
7.10
Plots und Annahmen
Beispiel
Eine Baurma hat in ihren Unterlagen festgehalten, wie lange es gedauert hat,
den Rohbau des Haustyps Mathilde in Abhngigkeit der eingesetzten Bauarbei-
ter zu errichten. Die Bauzeit nimmt anfnglich linear ab, bis schlielich eine
Sttigungsgrenze erreicht ist. Ein lineares Modell ist fr den gesamten Werte-
bereich nicht passend (links), fr den ersten Teilabschnitt sehr wohl (rechts).
5 10 15 20
2
0
4
0
6
0
8
0
1
0
0
Arbeiter
B
a
u
z
e
it

in

T
a
g
e
n
5 10 15 20
2
0
4
0
6
0
8
0
1
0
0
Arbeiter
B
a
u
z
e
it

in

T
a
g
e
n
7.11
Plots und Annahmen
Ausreier
Hug wird ein erkennbarer Zusammenhang durch einzelne, von der groen
Masse der Daten wesentlich entfernt liegende Werte gestrt.
Diese sogenannten Ausreier mssen gesondert eingeschtzt und gegebenen-
falls - bei sachlicher oder statistischer Rechtfertigung - aus dem Datensatz ent-
fernt werden.
7.12
Plots und Annahmen
Beispiel
Gegeben sei folgender Datensatz:
x
i
1 2 3 4 5
y
i
2,1 3,2 4,5 4,9 1,0
G
1 2 3 4 5
1
2
3
4
5
Ausreier einbezogen
G
1 2 3 4 5
1
2
3
4
5
Ausreier entfernt
4
7.13
3 Kleinste-Quadrate-Schtzer
Kleinste-Quadrate-Schtzer
Ziel
Hat sich fr die vorliegenden Daten ergeben, dass eine lineare Regression sinn-
voll ist, besteht der entscheidene Schritt nun darin, die optimale Gerade durch
die Punktewolke zu schtzen.
Da eine Gerade durch ihre Steigung b und ihren Schnittpunkt mit der Ordina-
te a eindeutig deniert ist, sind dies die elementaren Gren des Optimierungs-
problems.
7.14
Denition Residuum
Jedem Beobachtungspunkt P
i
= (x
i
; y
i
) wird ein angepasster Punkt

P
i
= (x
i
; y
i
)
zugeordnet, der auf der Geraden liegt und es daher gilt:
y
i
= a+bx
i
Die Differenz (in y-Richtung) aus dem Beobachtungspunkt P
i
und dem geschtz-
ten Punkt

P
i
ergibt das Residuum oder Fehlerglied:
e
i
= y
i
y
i
= y
i
abx
i
7.15
Residuen graphisch veranschaulicht
x
1
x
2
x
3
x
4
y
2
a
y
1
y
4
y
3
e
1
e
2
e
3
e
4
y == a ++ bx
^
7.16
Prinzip der Kleinste-Quadrate-Schtzung
Eine Mglichkeit der Optimierung der geschtzten Geraden liegt darin, die vor-
liegenden Residuen in ihrer Gesamtheit zu minimieren.
Das direkte Ma e
i
wre wenig sinnvoll, da die Residuen unterschiedliche
Vorzeichen haben, je nachdem, ob der beobachtete Punkt ber- oder unterhalb
der geschtzten Geraden liegt, und sich somit gegenseitig aufheben knnten.
7.17
5
Dies liee sich durch den Betrag der Residuen verhindern, also
n
i=1
|e
i
|,
was bei der vorliegenden Minimierungsaufgabe sehr unhandlich ist.
Einen eleganteren Weg bietet die Quadrierung der Residuen (daher der Name
des Schtzers):
n
i=1
e
2
i
7.18
Das Optimierungsproblem lsst sich somit abschlieend wie folgt ausdrcken:
min
a,b
S(a, b) = min
a,b
n
i=1
e
2
i
= min
a,b
n
i=1
(y
i
abx
i
)
2
7.19
Vorgehensweise der Schtzung
1. 1. partiellen Ableitungen der Funktion S(a, b) bestimmen
2. Nullstellen der 1. Ableitungen nden
3. 2. partiellen Ableitungen bestimmen (Hesse-Matrix)
4. Ergebnisse aus Punkt 2 in Hesse-Matrix einsetzten
5. prfen, ob Hesse-Matrix positiv denit ist (alle Eigenwerte positiv)
7.20
Ergebnisse der Schtzung
b =
s
xy
s
2
x
=

n
i=1
(x
i
x)(y
i
y)
n
i=1
(x
i
x)
2
= r
xy
s
2
y
s
2
x
a = y

b x
7.21
6
4 Eigenschaften der Regressionsgeraden
Eigenschaften der Regressionsgeraden
sinnvoller Wertebereich
Die Regressionsgerade y
i
= a+

bx
i
lsst sich nur im Wertebereich [x
(1)
; x
(n)
] der
x-Werte sinnvoll interpretieren.
Lageparameter arithmetisches Mittel
Der Punkt ( x; y), physikalisch betrachtet der Schwerpunkt der bivariaten Daten
(x
i
; y
i
), liegt auf der Regressionsgerade.
Fehlerausgleich
Die Summe der negativen Residuen (absolut genommen) gleicht der Summe der
positiven Residuen.
Die durch die Regression angepassten Werte y
i
haben das gleiche arithmeti-
sche Mittel wie die Originaldaten y
i
:
y = y
7.22
Bedeutung des Korrelationskoefzienten r
Wie weiter oben bereits gezeigt gilt:
b =
s
xy
s
2
x
= r
xy
s
2
y
s
2
x
Der steigende oder fallende Verlauf der Regressionsgeraden wird also durch das
Vorzeichen des Korrelationskoefzienten bestimmt.
Da

b als r
s
2
y
/s
2
x
berechnet wird, soll hier vor zu schnellen Schlssen von r
auf

b gewarnt werden:
Eine hhere Korrelation bedeutet nicht automatisch einen steileren Anstieg
der Regressionsgeraden.
Eine gleiche Korrelation bedeutet nicht zugleich den gleichen Anstieg der
Regressionsgeraden.
7.23
Beispiel
In zwei landwirtschaftlichen Betrieben A und B werden Kartoffeln angebaut.
Gemessen wird als Response Y der Ertrag in t je ha Anbauche. Als Einuss-
gre X wird eine gewisse Sorte Dnger in fnf verschiedenen Mengen x
i
auf
fnf verschiedenen Feldern sowohl bei Betrieb A, als auch bei Betrieb B einge-
setzt. Folgende Daten sind das Versuchsergebnis:
7
Betrieb A Betrieb B
i x
i
x
i
i x
i
x
i
1 1 5 1 1 7
2 2 7 2 2 11
3 3 9 3 3 15
4 4 11 4 4 19
5 5 13 5 5 23
7.24
Beispiel Fortsetzung
Somit ergeben sich fr die beiden Betriebe folgende Gren:
Betrieb A
s
2
x
= 10
s
2
y
= 40
s
xy
= 20
r
xy
= 1
b = 2
Betrieb B
s
2
x
= 10
s
2
y
= 160
s
xy
= 40
r
xy
= 1
b = 4
7.25
G
G
G
G
G
0 1 2 3 4 5 6
0
5
10
15
20
25
Dngermenge
E
r
t
r
a
g

i
n

t

j
e

h
a
G
G
G
G
G
G
G
Betrieb A
Betrieb B
Hier ergibt die 4x grere Varianz von Y bei Betrieb B verglichen mit Betrieb A
eine 2x grere Steigungsrate

b.
7.26
5 Gte der Anpassung
Gte der Anpassung
Motivation
8
Nachdem nun eine Mglichkeit vorgestellt wurde, wie die Daten in ein optima-
les Modell berfhrt werden knnen, stellt sich nun die wichtige Frage, wie gut
das Modell die Rohdaten reprsentiert. Ein Ma dafr lsst sich ber die Varian-
zanalyse gewinnen.
7.27
Gte der Anpassung
Varianzanalyse
Ausgangspunkt sind die geschtzten Residuen e
i
= y
i
y
i
. Dazu verwenden wir
folgende Identitt:
y
i
y
i
= (y
i
y) ( y
i
y)
Wir quadrieren beide Seiten und summieren ber alle Beobachtungswerte:
n
i=1
(y
i
y
i
)
2
=
n
i=1
(y
i
y)
2
+
n
i=1
( y
i
y)
2
2
n
i=1
(y
i
y
i
)( y
i
y)
Nach weiteren Umformungen ergibt sich:
n
i=1
(y
i
y)
2
=
n
i=1
( y
i
y)
2
+
n
i=1
(y
i
y
i
)
2
7.28
Gte der Anpassung
Ergebnis der Varianzanalyse
Die drei Summen der letzten Gleichung lassen sich folgendermaen beschreiben:
n
i=1
(y
i
y)
2
ist nichts anderes als die Varianz der gesamten y-Mereihe und
wird mit SQ
Total
bezeichnet.
n
i=1
(y
i
y
i
)
2
misst die Abweichung (lngs der y-Achse) zwischen der Original-
punktwolke und den durch die Regression angepassten, also durch die Ge-
rade vorhergesagten Werten und wird als SQ
Rest
oder SQ
Residual
bezeich-
net.
n
i=1
( y
i
y)
2
misst den durch die Regression erklrten Anteil an der Gesamtva-
riabilitt und erhlt den Namen SQ
Regression
.
7.29
Gte der Anpassung
fundamentale Formel der Streuungszerlegung
SQ
Total
= SQ
Regression
+SQ
Residual
Denition Bestimmtheitsma R
2
R
2
=
SQ
Regression
SQ
Total
= 1
SQ
Residual
SQ
Total
Wertebereich R
2
0 R
2
1
7.30
9
Gte der Anpassung
Grenzwert R
2
= 1
SQ
Residual
= 0
Smtliche Punkte
(x
i
; y
i
) liegen auf der
Regressionsgeraden
SQ
Total
kann komplett
durch SQ
Regression
er-
klrt werden
G
G
G
G
0 1 2 3 4 5
0
5
10
15
7.31
Gte der Anpassung
Grenzwert R
2
= 0
SQ
Regression
= 0
y
i
= y fr alle i

b = 0
die Regressionsgerade
verluft parallell zur x-
Achse
Jeder x-Wert erhlt den
gleichen y-Schtzwert
Merkmal X hat keinen
Einu auf Merkmal Y
G
G
G
G
0 10 20 30 40 50 60
0
10
20
30
40
50
60
7.32
6 Kategoriale Regressoren
Kategoriale Regressoren
Motivation
Bisher wurden die Merkmale Y und X als quantitativ stetig vorausgesetzt.
Im folgenden Abschnitt soll aufgezeigt werden, wie eine lineare Regression
bei einem Regressor X mit kategorialem Skalenniveau modelliert und ausgewer-
tet wird.
Beispiele
Hug vorkommende kategoriale Skalenniveaus sind unter anderem:
Geschlecht mnnlich, weiblich
Familienstand ledig, verheiratet, geschieden, verwitwet
Staatsangehrigkeit Deutschland, sterreich, Schweiz, ...
7.33
Problematik
Die kodierten Merkmalsausprgungen (z.B. mnnlich = 1, weiblich = 2) kn-
nen nicht wie reelle Zahlen in die Berechnung der der Parameterschtzungen a
und

b einbezogen werden, da
nicht notwendiger Weise eine Ordnung zugrunde liegt und
Abstnde nicht deniert sind.
7.34
10
Lsungsansatz
Um diese Problematik zu lsen, mssen kategoriale Merkmale umkodiert wer-
den! Hierfr gibt es zwei Mglichkeiten:
Dummykodierung
Effektkodierung
Beiden Anstzen liegt zugrunde, dass
aus einem kategorialem Regressor mit k Merkmalsausprgungen
k 1 neue Regressoren (Dummys) gebildet werden.
Eine willkrlich gewhlte Merkmalsausprgung des ursprnglichen Re-
gressors wird zur Referenzkategorie.
7.35
Dummykodierung
Nach Wahl der Referenzkategorie j {1, ..., k} ergeben sich die Dummys X
i
, i =
1, ..., k und i = j mit folgenden Werten:
x
i
=
1 falls Kategorie i vorliegt,

0 sonst.
Effektkodierung
Nach Wahl der Referenzkategorie j {1, ..., k} ergeben sich die Dummys X
i
, i =
1, ..., k und i = j mit folgenden Werten:
x
i
=
1 falls Kategorie i vorliegt,

1 falls Kategorie j vorliegt,
0 sonst.
7.36
Beispiel
Gegeben sei folgende Erhebung:
lfd Nr. Alter Studienfach
1 19 BWL
2 22 Sonstige
3 20 VWL
.
.
.
.
.
.
.
.
.
Mit der Kodierung BWL = 1, VWL = 2, Sonstige = 3 erhalten wir bei Wahl
der Referenzkategorie = 3 (Sonstige) zwei Dummys X
1
(fr BWL) und X
2
(fr
VWL) gem folgendem Schema:
Dummykodierung
Ausprgung Wert von
von X X
1
X
2
1 BWL 1 0
2 VWL 0 1
3 Sonstige 0 0
Effektkodierung
Ausprgung Wert von
von X X
1
X
2
1 BWL 1 0
2 VWL 0 1
3 Sonstige -1 -1
7.37
11
Aus der ursprnglichen Erhebung
lfd Nr. Alter Studienfach
1 19 BWL
2 22 Sonstige
3 20 VWL
.
.
.
.
.
.
.
.
.
ergibt sich somit der fr die Auswertung geeignete Datensatz:
Dummykodierung
lfd Nr. y x
1
x
2
1 19 1 0
2 22 0 0
3 20 0 1
.
.
.
.
.
.
.
.
.
.
.
.
Effektkodierung
lfd Nr. y x
1
x
2
1 19 1 0
2 22 -1 -1
3 20 0 1
.
.
.
.
.
.
.
.
.
.
.
.
7.38
Modellierung
Nach der Kodierung kann nun ein Regressionsmodell aufgestellt werden:
y = a+

b
1
X
1
+

b
2
X
2
Die Parameter a,
b
1
,
b
2
lassen sich wie bei der Regression zweier stetiger Merk-
male schtzen.
7.39
Berechnung
Um die angepassten Werte y fr die jeweilige Merkmalsausprgung zu erhalten,
werden die Dummyvariablen X
1
und X
2
entsprechend der gewhlten Kodierung
gesetzt (hier die Werte vom Beispiel):
Ausprgung Dummykodierung
BWL y = a+

b
1
1+

b
2
0
= a+

b
1
VWL y = a+

b
1
0+

b
2
1
= a+

b
2
Sonstige y = a+

b
1
0+

b
2
0
= a
7.40
12
Berechnung Fortsetzung
Ausprgung Effektkodierung
BWL y = a+

b
1
1+

b
2
0
= a+

b
1
VWL y = a+

b
1
0+

b
2
1
= a+

b
2
Sonstige y = a+

b
1
(1) +

b
2
(1)
= a

b
1

b
2
7.41
Interpretation der Ergebnisse
Dummykodierung:
a ist der Mittelwert
der Referenzkatego-
rie

b
1
,
b
2
bilden die Ab-
weichungen der Mit-
telwerte der brigen
Kategorien zur Re-
ferenzkategorie ab
Effektkodierung:
a ist der Mittelwert
einer durchschnittli-
chen Kategorie, in
der die Ergebnisse
aller brigen Klas-
sen gleichmig ein-
ieen

b
1
,
b
2
bilden die Ab-
weichungen der Mit-
telwerte der bri-
gen Kategorien zu
dieser durchschnitt-
lichen Kategorie ab
7.42
13

07 Lineareregression Skript

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

07 Lineareregression Skript

Hochgeladen von

Copyright:

Verfügbare Formate

Kapitel 7

1 falls Kategorie i vorliegt,

1 falls Kategorie i vorliegt,

Das könnte Ihnen auch gefallen