Beruflich Dokumente
Kultur Dokumente
Oprea Andra
Sanda Ioana
Page1
Einleitung
Die Regressionsanalyse ist ein statistisches Analyseverfahren. Ziel ist es,
Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen
Variablen festzustellen. Die Regressionsanalyse kann als Spezialfall eines
Strukturgleichungsmodells aufgefasst werden.
Allgemein wird eine metrische Variable Y betrachtet, die von einer zweiten
Variablen x abhängt. Üblicherweise ist ein n-dimensionaler
Vektor, wobei die einzelnen x-Werte untereinander unabhängig sind. Im
eindimensionalen Fall spricht man von einer einfachen linearen Regressionsanalyse, in
Dimensionen größer gleich zwei von einer multiplen Regressionsanalyse.
Deskriptive Regression
Wahrscheinlichkeitstheoretische Regression
• Es wird eine metrische Variable y betrachtet, die von einer oder mehreren
metrischen unabhängigen Variablen bestimmt wird. Ein Beispiel wäre die Abhängigkeit
der Arbeitslosenzahl von den Exporten und dem Inlandskonsum. Mit Hilfe der
Regressionsanalyse wird die Struktur der Abhängigkeit zwischen y und den
Page1
Y X
Regressand, Regressor
Zielvariable
Response-Variable Prediktor-Variable
Grundgesamtheit
Page1
y i = β1 + β2 ⋅ xi + ui
E ( y i ) = β1 + β2 ⋅ xi
Regressionsfunktion
Var ( y i ) = Var (u )
Residuen yˆ i = b1 + b2 ⋅ xi
y i = yˆi + ei = b1 + b2 ⋅ xi + ei
• Die Methode der kleinsten Quadrate (KQ, auch: Methode der kleinsten
Fehlerquadrate; englisch: Ordinary Least Squares Method, OLS) ist das
mathematische Standardverfahren zur Ausgleichungsrechnung: Es ist eine Wolke aus
Datenpunkten gegeben, die physikalische Messwerte, wirtschaftliche Größen usw.
repräsentieren können. In diese Punktwolke soll eine möglichst genau passende
parameterabhängige Modellkurve gelegt werden. Dazu bestimmt man die Parameter
dieser Kurve numerisch, indem die Summe der quadratischen Abweichungen der Kurve
von den beobachteten Punkten minimiert wird.
Normalgleichungen
Eine Regressionsgerade kann nach der Methode der Kleinsten Quadrate (KQ,
OLS) bestimmt werden
Page1
Annahmen des Klassischen linearen Regressionsmodells I
1. Die Datenmatrix X ist fest vorgegeben (nicht zufällig)
• Die Annahme über die Störterme könnte man so auffassen, dass diese
keinerlei Information enthalten darf und nur zufällig streut. Deshalb kann y auch nur
durch Informationen aus X erklärt werden.
∑(x i − x )2
Page1
i =1
Varianz der Stichprobenregressionskoeffizienten
n
∑ (x ) i
2
Var (B2 ) ≡ σ 2
=
σu2
Var (B1 ) ≡ σB21 = i =1
⋅ σu2 B2 n
n
n ∑ ( xi − x ) 2 ∑(x
i =1
i − x )2
i =1
Gauß-Markov-Theorem:
1 n 2 1 n
σˆ u2 = sE2 ≡ ∑
n − 2 i =1
ei = ∑
n − 2 i =1
( yi − yˆi )2
∑( x ) i
2
sE2
σ
ˆ B21 ≡ sB21= n
i =1
⋅ sE2 σˆ B22 ≡ sB22 = n
n ∑(x i −x ) 2 ∑(x i − x )2
i =1 i =1
n n
1
∑( x ) i
2
1 n 2
⋅ ∑ ei2
n − 2 i =1
= n
i =1
⋅ ∑ei
n − 2 i =1
= n
n ∑(x i −x ) 2
∑(x i − x )2
i =1 i =1
n n n
1 ∑( xi ) 2 ⋅ ∑( y i − yˆi ) 2 1 ∑
( y i − yˆ i )2
= i =1 i =1
= ⋅ i =n1
n −2 n
n−2
n ∑(x i −x ) 2 ∑(x i − x )2
i =1 i =1
Page1
Konfidenzintervall für die Regressionskoeffizienten I
=> ∑(x i − x ) ⋅ ( yi − y )
b2 = i =1
n
∑(x
i =1
i − x )2
Bi − −β
E B(i ) B −βBi −β Bi
Bi ~n ( iβσ
; B )⇒
2
= ⇒i
~N i = i
~ i t (n −
2)
i
σBi σ Bi Bi σ
ˆ Bi S
β
Bi −
W t−≤ ≤ ti=−α 1
SBi
⇒ W−⋅ (
B 1 ≤β≤
t S +⋅
Bi i i B St Bi ) =1 −α
Page1
Quantile tFG,1-α der t-Verteilung mit FG Freiheitsgraden
( )
W B1 − t ⋅ SBi ≤ βi ≤ Bi + t ⋅ SBi = 1 − α
kann auch für die Prognose von y-Werten für Werte von X verwendet
werden, die nicht in der Stichprobe vorhanden sind.
• Verlässliche Ergebnisse nur im Intervall
•
Page1
– autokorreliert
Dummyvariablen
-Residuenanalyse
• Frage:
Unterscheiden sich die Grundgesamtheiten nur im Ordinatenabstand oder zusätzlich auch in der
Steigung der Regressionsfunktion?
Lineare Mehrfachregression
y i = β1 + β2 ⋅ xi 2 + β3 ⋅ xi 3 + ... + βk ⋅ xik + ui
in Matrixschreibweise : y = X β + u
Page1
• Konstante
• Funktionsform
• Anzahl Regressoren
korrigiertes Bestimmtheitsmaß:
k − 1
=
R2 R −⋅− R 2
2
(1 )
n −
k
Variablenbezeichnung
Ein Spezialfall von Regressionsmodellen sind lineare Modelle. Hierbei spricht man
von der einfachen linearen Regression, und die Daten liegen in der Form
vor. Als Modell wählt man
man nimmt somit einen linearen Zusammenhang zwischen xi und Yi an. Die Daten yi
werden als Realisierungen der Zufallsvariablen Yi angesehen, die xi sind nicht stochastisch,
sondern Messstellen. Ziel der Regressionsanalyse ist in diesem Fall die Bestimmung der
unbekannten Parameter β0 und β1.
Annahmen
Damit die Regressionsschätzungen inferentiell analysiert werden können, müssen für das
lineare Regressionsmodell bestimmte Annahmen erfüllt sein:
1. Bezüglich der Störgröße εi
2. Der Zufallsvektor ist verteilt mit dem Erwartungswertvektor 0,
d.h. .
3. Die Zufallsvariablen εi sind stochastisch unabhängig voneinander d. h.
, wobei In die n dimensionale Einheitsmatrix bezeichnet. Dies kann
man genauer auch schreiben als
In der ersten Annahme haben also alle εi die gleiche Varianz (Homoskedastizität)
und sie sind paarweise unkorreliert. Man interpretiert dies so, dass die Störgröße keinerlei
Information enthalten darf und nur zufällig streut. Deshalb kann Y nur durch
Informationen aus erklärt werden.
Die zweite Annahme hält konstant.
Die dritte Annahme ist für eine eindeutige Lösung des Regressionsproblems
erforderlich.
Beispiel
Hier wird die einfache lineare Regression anhand eines Beispiels dargestellt.
Laden
Preis
einer Flasche i
verkauft
Menge i
stehen. Auf die Vermutung des linearen Zusammenhangs kommt man, wenn man
das obige Streudiagramm betrachtet, dort erkennt man, dass die eingetragenen Punkte
Page1
nahezu auf einer Linie liegen. Im Weiteren sind x als unabhängige und Y als abhängige
Variable definiert. Es existieren von x und y je n Beobachtungen xi und yi, wobei i von 1
bis n geht. Der funktionale Zusammenhang Y = f(x) zwischen x und Y kann nicht exakt
festgestellt werden, da α + βx von einer Störgröße ε überlagert wird. Diese Störgröße ist
als Zufallsvariable (der Grundgesamtheit) konzipiert, die nichterfassbare Einflüsse
(menschliches Verhalten oder Messungenauigkeiten oder ähnliches) darstellt. Es ergibt
sich also das Modell
oder genauer
mit dem Residuum ei der Stichprobe. Das Residuum gibt die Differenz zwischen
der Regressionsgerade a + bxi und den Messwerten yi an. Des Weiteren bezeichnet man
mit den Schätzwert für yi und es gilt
und somit kann man das Residuum schreiben als
Es gibt verschiedene Möglichkeiten, die Gerade zu schätzen. Man könnte eine
Gerade so durch den Punkteschwarm legen, dass die Quadratsumme der Residuen, also
der senkrechten Abweichungen ei der Punkte von dieser Ausgleichsgeraden minimiert
wird. Trägt man die wahre unbekannte und die geschätzte Regressionsgerade in einer
gemeinsamen Grafik ein, dann ergibt sich folgende Abbildung.
mit als arithmetischem Mittel der x-Werte und als arithmetischem Mittel der
y-Werte. SSxy stellt die empirische Kovarianz zwischen den xi und yi dar. SSxx bezeichnet
die empirische Varianz der xi. Man nennt diese Schätzungen auch Kleinste-Quadrate-
Schätzer (KQ) oder Ordinary Least Squares-Schätzer (OLS).
Für das folgende Zahlen-Beispiel ergibt sich und . Somit erhält
man die Schätzwerte für a und b durch einfaches Einsetzen in obige Formeln.
Zwischenwerte in diesen Formeln sind in folgender Tabelle dargestellt.
Flaschen verkaufte
preis xi Menge yi
20 0 -25 25 25
5
16 3 -2 1 4
2
15 7 0 0 4
16 4 -1 1 1
1
Page1
13 6 -2 4 1
2
10 10 -25 25 25
5
90 30 -55 56 60
otal
und .
Die geschätzte Regressionsgerade lautet somit
,
so dass man vermuten kann, dass bei jedem Euro mehr der Absatz im
Durchschnitt um ungefähr eine Flasche sinkt.
Multiple Regression
Im folgenden wird ausgehend von der einfachen linearen Regression die multiple
Regression eingeführt. Der Response Y hängt linear von mehreren fest vorgegebenen
Kovariablen ab, somit erhält man die Form
wobei ε wieder die Störgröße repräsentiert. ε ist eine Zufallsvariable und daher ist
Y als lineare Transformation von ε ebenfalls eine Zufallsvariable. Es liegen für die xj,
wobei , und Y je n viele Beobachtungen vor, so dass sich für die
Beobachtungen i, wobei , das Gleichungssystem
ergibt. p gibt somit die Anzahl der Kovariablen oder die Dimension des
Kovariablenvektors an. In der einfachen linearen Regression
wurde nur der Fall p = 1 betrachtet, ausgehend davon wird nun die multiple Regression als
Verallgemeinerung dessen mit präsentiert. Als stichprobentheoretischer Ansatz
wird jedes Stichprobenelement εi als eine eigene Zufallsvariable interpretiert und ebenso
jedes Yi.
Da es sich hier um ein lineares Gleichungssystem handelt, können die Elemente
des Systems in Matrix-Schreibweise zusammengefasst werden. Man erhält die
Spaltenvektoren der abhängigen Variablen Y und der Störgröße ε als
Zufallsvektoren und den Spaltenvektor der Regressionskoeffizienten βj,
wobei ,
Page1
und
Die Einsen in der ersten Spalte gehören zum Absolutglied β0. Des Weiteren trifft
man, wie bereits im Abschnitt zur einfachen linearen Regression erwähnt, die Annahmen
und .
Somit gilt für
und .
Ferner lässt sich das Gleichungssystem nun erheblich einfacher darstellen als
.
wobei der Vektor der Residuen und die Schätzung für ist. Das Interesse
der Analyse liegt vor allem in der Schätzung oder in der Prognose der abhängigen
Variablen für ein gegebenes Tupel von . Diese berechnet sich als
Ausgewählte Schätzfunktionen
Da fest vorgegeben ist, kann man alle diese Variablen als lineare
Transformation von und damit von darstellen, und deshalb können auch ihr
Erwartungswertvektor und ihre Kovarianzmatrix unproblematisch ermittelt werden
Die Quadratsumme SSRes (von engl. „residual sum of squares“) der Residuen
ergibt in Matrix-Notation
Page1
Dies kann ferner auch geschrieben werden als
Die Varianz wird mit Hilfe der Residuen geschätzt, und zwar als mittlere
Quadratsumme der Residuen
Zusammen mit der 1. Annahme erhält man für die Verteilung des Vektors der
Störgröße:
,
wobei den Nullvektor bezeichnet. Hier sind unkorrelierte Zufallsvariablen auch
stochastisch unabhängig. Da die interessierenden Schätzer zum größten Teil lineare
Transformationen von sind, sind sie ebenfalls normalverteilt mit den entsprechenden
Parametern. Ferner ist die Quadratsumme der Residuen als nichtlineare Transformation
χ2-verteilt mit n − p Freiheitsgraden.
Beweisskizze: Sei
,
damit erhält man
.
Wobei
und der Satz von Cochran verwendet wurde.
Ferner gilt ebenso
Generell gilt, je näher der Wert des Bestimmtheitsmaßes bei 1 liegt, desto größer ist die
Güte der Regression. Ist das Bestimmtheitsmaß klein, kann man seine Signifikanz durch
die Hypothese H0: R2 = 0 mit der Prüfgröße
testen. F ist F-verteilt mit n-1 und n-p Freiheitsgraden. Überschreitet die
Prüfgröße bei einem Signifikanzniveau α den kritischen Wert F(1 − α;n − 1;n − p), das (1-
α)-Quantil der F-Verteilung mit n-1 und n-p Freiheitsgraden, wird H0 abgelehnt. R2 ist
dann ausreichend groß, X trägt also vermutlich genügend viel Information zur Erklärung
von Y bei. Die Residualanalyse, bei der man die Residuen über den unabhängigen
Variablen aufträgt, gibt Aufschluss über
Homoskedastizität, Heteroskedastizität.
Ein Ziel bei der Residualanalyse ist es, dass man die Voraussetzung der
unbeobachteten Residuen εi überprüft. Hierbei ist es wichtig zu beachten, dass
gilt. ei ist mit der Formel berechenbar. Im Gegensatz hierzu ist die
Störgröße εi nicht berechenbar oder beobachtbar. Nach den oben getroffenen Annahmen
soll für das Modell gelten
es liegt somit eine Varianzhomogenität vor. Dieses Phänomen wird auch als
Homoskedastie bezeichnet und ist auf die Residuen übertragbar. Dies bedeutet, dass wenn
man die unabhängigen Variablen x gegen die Residuen e aufträgt, dass dann keine
systematischen Muster erkennbar sein sollten.
In der folgenden Grafik werden die unabhängigen Variablen x gegen die
Residuen e geplottet.
Wenn man die Varianz der Störgröße schätzt, erhält man für die geschätzte
Kovarianzmatrix
Prognose
Speziell für den Fall der einfachen linearen Regression ergibt das
Speziell aus dieser Form des Konfidenzintervalls erkennt man sofort, dass das
Konfidenzintervall breiter wird, wenn die exogene Prognosevariable x0 sich vom
„Zentrum“ der Daten entfernt. Schätzungen der endogenen Variablen sollten also im
Beobachtungsraum der Daten liegen, sonst werden sie sehr unzuverlässig.
Beispiel
Zunächst lässt man sich ein Streudiagramm ausgeben, in diesem erkennt man,
dass die gesamte Wertschöpfung offensichtlich mit den Wertschöpfungen der
wirtschaftlichen Bereiche positiv korreliert ist. Dies erkennt man daran, dass die
Datenpunkte in der ersten Spalte der Grafik in etwa auf einer Geraden mit einer positiven
Steigung liegen. Auffällig ist, dass die Wertschöpfung im Baugewerbe negativ mit den
anderen Sektoren korreliert. Dies erkennt man daran, dass in der vierten Spalte die
Datenpunkte näherungsweise auf einer Geraden mit einer negativen Steigung liegen.
In einem ersten Schritt gibt man das Modell mit allen Kovariablen in R ein
lm(BWSb95~BBLandFF+BBProdG+BBBau+BBHandGV+BBFinVerm+BBDienstÖP)
Anschließend lässt man sich in R ein Summary des Modells mit allen Kovariablen
ausgeben, dann erhält man folgende Auflistung.
Residuals:
Min 1Q Median 3Q Max
Page1
Der Test auf Güte des gesamten Regressionsmodells ergibt eine Prüfgröße von F
= 162.9. Diese Prüfgröße hat einen p-Wert von , somit ist die Anpassung
signifikant gut.
Die Analyse der einzelnen Beiträge der Variablen (Tabelle Coefficients) des
Regressionsmodells ergibt bei einem Signifikanzniveau von 0.05, dass die Variablen
BBLandFF und BBFinVerm offensichtlich die Variable BWSB95 nur unzureichend
erklären können. Dies erkennt man daran, dass die zugehörigen t-Werte zu diesen beiden
Variablen verhältnismäßig klein sind, und somit die Hypothese, dass die Koeffizienten
dieser Variablen Null sind, nicht verworfen werden kann
lm(BWSb95~BBProdG+BBBau+BBHandGV+BBDienstÖP)
Anschließend lässt man sich wiederum ein Summary des Modells ausgeben, dann
erhält man folgende Auflistung.
Residuals:
Min 1Q Median 3Q Max
-1.34447 -0.96533 -0.05579 0.82701 1.42914
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 158.00900 10.87649 14.528 2.05e-09 ***
BBProdG 0.93203 0.14115 6.603 1.71e-05 ***
BBBau 2.03613 0.16513 12.330 1.51e-08 ***
BBHandGV 1.13213 0.13256 8.540 1.09e-06 ***
BBDienstÖP 0.36285 0.09543 3.802 0.0022 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Page1
Dieses Modell liefert eine Prüfgröße von F = 280.8. Diese Prüfgröße hat einen p-
Wert von , somit ist die Anpassung besser als im ersten Modell. Dies ist
vor allem darauf zurückzuführen, dass in dem jetzigen Modell alle Kovariablen
signifikant sind.
• zensiert: Tobit-Modell
• trunkiert: trunkierte Regression
Praktische Aufgabe:
Ausgehend von N Messungen, d.h.
N Wertepaaren
x ,
1 y
x ,
2 y
.
.
.
x ,
N y
werden.
Formelsammlung:
—
Page1
Fehlerproduktsumme
— Steigung der
Geraden
Der "Schwerpunkt" ( , ) liegt auf der Regressionsgeraden. Damit wird die Geradengleichung
zu (Y – ) = b(x – ) oder Y = – b + bx.
Der Achsenabschnitt (bei x = 0) ist damit .
a und b sind die besten unvoreingenommenen Schätzungen der wahren Werte und ß.
Anmerkung.
Bei dem hier beschriebenen Verfahren handelt es sich, genau bezeichnet, um die "Regression
von y nach x", mit fehlerfreiem, variablem Parameter x als Abszisse. Ebenso gut könnte man
aus den N Zahlenpaaren (x , y ) eine "Regression von x nach y" rechnen.
i i
Überzeugen Sie sich selber an einem Beispiel, dass die beiden Regressionsgeraden wesentlich
verschieden sind.
Schnittpunkt
Nur der Korrelationskoeffizient r, als ein in x und y symmetrischer Ausdruck, ist für beide
Regressionstypen eine gemeinsame gültige Richtgrösse.
Bestimmen Sie daher aus dem jeweiligen Zusammenhang, wie herum Sie die lineare
Regression ansetzen.
die zu einem
Page1
1)
2)
Aus (1 ) folgt
bzw.
Aus ( 2 ) folgt:
Damit sind a und b bestimmt und können aus den oben definierten Grössen berechnet
werden:
Streuungsmasse (Formelsammlung)
— Korrelationskoeffizient
Eigenschaften: -1 ≤ r ≤ 1.
Die Streuung von den y um , ausgedrückt durch S
i
— Totale Fehlerquadratsumme
— "Fehlerquadratsumme" der
Interpolationspunkte
(Regressions-"bedingte"Streuung)
— Reststreuungsquadrat um die Gerade
— Varianz der y i
— Standardabweichung
— Streuungsmasse von
Page1
— Streungsmasse von b
— Streuungsmasse von Y = a+bx
(Mass der Abweichung von y = + ßx)
Streuungsmasse (Verständnisfragen)
umformen in
3.
(Versuchen Sie, das nachzuvollziehen.)
4. Im Ausdruck sind und b statistisch unabhängig, so dass das
Fehlerfortpflanzungsgesetz anwendbar ist.
Dies führt zu den angegebenen Ausdrücken für V(Y) und V(a).
5. Wann benutzt man jeweils die Nenner N, N-1 und N-2?
(An Taschenrechner-Besitzer: Prüfen Sie bitte nach, ob das eingebaute Programm zur
Stichproben- und Regressions-Auswertung die richtigen Nenner benutzt.)
6. Die Grössen x und y stehen in einem linearen Zusammenhang, und es
interessiert zu einem gegebenen y -Wert der zugehörige x -Wert. Welchen Weg würden Sie
0 0
wählen:
o (a) Auflösen von Y = y + bx nach x, oder
o (b) Ansetzen der Regression X = a'+b'y, und Einsetzen von y ? 0
Punkte 1 und 2 können in einem Arbeitsgang behandelt werden: Immer dann, wenn ß = 0
im Vertrauensbereich der ß liegt, ist die Regression nicht signifikant besser als die
Auswertung der y als einfache Stichprobe.
i
Punkt 3:
Vertrauensgrenzen für y(x):
Page1