Sie sind auf Seite 1von 29

Regressionsanalyse

Oprea Andra
Sanda Ioana
Page1

Einleitung
Die Regressionsanalyse ist ein statistisches Analyseverfahren. Ziel ist es,
Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen
Variablen festzustellen. Die Regressionsanalyse kann als Spezialfall eines
Strukturgleichungsmodells aufgefasst werden.
Allgemein wird eine metrische Variable Y betrachtet, die von einer zweiten
Variablen x abhängt. Üblicherweise ist ein n-dimensionaler
Vektor, wobei die einzelnen x-Werte untereinander unabhängig sind. Im
eindimensionalen Fall spricht man von einer einfachen linearen Regressionsanalyse, in
Dimensionen größer gleich zwei von einer multiplen Regressionsanalyse.

Deskriptive Regression

Im Falle einer deskriptiven Regression wird angenommen, dass die


Zusammenhänge zwischen x und den Beobachtungen Y deterministisch sind, also nicht
vom Zufall abhängen. Dieser Fall lässt sich als Y = f(x) darstellen, wobei die Funktion f
nicht oder nicht vollständig bekannt ist. Bei diesen deskriptiven Verfahren wird vor allem
Wert auf den numerischen Aspekt der Regression gelegt. Das typische Instrument zur
Analyse ist dabei die Methode der kleinsten Quadrate.

Wahrscheinlichkeitstheoretische Regression

Im Falle der wahrscheinlichkeitstheoretisch basierten Regression sind die


beobachteten Variablen mit einem zufälligen Fehler ε behaftet, dieser Fall wird durch
modelliert. Die „wahren“ Zusammenhänge zwischen Y und f(x) sind
demnach nicht bekannt und müssen geschätzt oder prognostiziert werden. Entsprechend
wird dieses statistische Regressionsmodell anhand von Schätz- und Testverfahren
analysiert. Dennoch liegen der wahrscheinlichkeitstheoretisch basierten
Regressionsanalyse immer die numerischen Verfahren der deskriptiven Regression zu
Grunde.

• Die Regressionsanalyse ist ein statistisches Verfahren zur Analyse von


Daten und geht von der Aufgabenstellung aus, sog. "einseitige" statistische
Abhängigkeiten (d.h. statistische Ursache-Wirkung-Beziehungen) durch so genannte
"Regressionsfunktionen" zu beschreiben. Dazu verwendet man oft lineare Funktionen,
aber auch quadratische Funktionen und Exponentialfunktionen

Regression zwischen x und y

• Es wird eine metrische Variable y betrachtet, die von einer oder mehreren
metrischen unabhängigen Variablen bestimmt wird. Ein Beispiel wäre die Abhängigkeit
der Arbeitslosenzahl von den Exporten und dem Inlandskonsum. Mit Hilfe der
Regressionsanalyse wird die Struktur der Abhängigkeit zwischen y und den
Page1

unabhängigen Variablen untersucht. Die interessierende Variable y wird abhängige


Variable oder Zielvariable und die erklärenden Variablen x werden unabhängige
Variablen oder Regressoren genannt.

Bezeichnungen der Variablen

Y X

Abhängige Variable Unabhängige Variable

Regressand, Regressor
Zielvariable

Endogene Variable Exogene Variable

Zu erklärende erklärende Variable


Variable

Response-Variable Prediktor-Variable

Grundgesamtheit
Page1

y i = β1 + β2 ⋅ xi + ui
E ( y i ) = β1 + β2 ⋅ xi
Regressionsfunktion
Var ( y i ) = Var (u )

Residuen yˆ i = b1 + b2 ⋅ xi

Zusammenhang zw. GGH


ei = y i − yˆi
und Regressionsfunktion

y i = yˆi + ei = b1 + b2 ⋅ xi + ei

Methode der kleinsten Quadrate

• Die Methode der kleinsten Quadrate (KQ, auch: Methode der kleinsten
Fehlerquadrate; englisch: Ordinary Least Squares Method, OLS) ist das
mathematische Standardverfahren zur Ausgleichungsrechnung: Es ist eine Wolke aus
Datenpunkten gegeben, die physikalische Messwerte, wirtschaftliche Größen usw.
repräsentieren können. In diese Punktwolke soll eine möglichst genau passende
parameterabhängige Modellkurve gelegt werden. Dazu bestimmt man die Parameter
dieser Kurve numerisch, indem die Summe der quadratischen Abweichungen der Kurve
von den beobachteten Punkten minimiert wird.

Normalgleichungen

Eine Regressionsgerade kann nach der Methode der Kleinsten Quadrate (KQ,
OLS) bestimmt werden

Page1
Annahmen des Klassischen linearen Regressionsmodells I
1. Die Datenmatrix X ist fest vorgegeben (nicht zufällig)

2. Der wahre Zusammenhang ist von der Form:

3. Bezüglich der Störgröße ui

a) Der Störterm jeder Beobachtung hat den Erwartungswert 0

b) Alle Störterme haben die gleiche Varianz s (Homoskedastie): Var(ui)=s2u

c) Alle Störterme sind paarweise unkorreliert: Cov(ui,uj)=0

4. Die Datenmatrix X hat den Rang (p+1).

• Die Annahme über die Störterme könnte man so auffassen, dass diese
keinerlei Information enthalten darf und nur zufällig streut. Deshalb kann y auch nur
durch Informationen aus X erklärt werden.

• Die letzte Annahme ist für eine eindeutige Lösung des


Regressionsproblems erforderlich.
Page1

Zerlegung der Abweichungsquadratsumme


Annahmen des Klassischen linearen Regressionsmodells II
Damit die Regressionsschätzungen inferentiell analysiert werden können,
müssen für das klassische lineare Regressionsmodell bestimmte zusätzliche Annahmen
erfüllt sein:
ui ~ n
Unter dieser Annahme gilt für das Bestimmtheitsmaß
r2 m
f%= ⋅ ~ F (1-α| m; n-(m+1))
1 − r n − (m + 1)
2

Mit m = k+1 = Anzahl der „echten“ Regressoren (in der Einfachregression = 1)

Verteilung der Stichprobenregressionskoeffizienten


-Aus ui~n folgt
y i = β1 + β2 ⋅ xi + ui ~ n
-Die Koeffizienten der Stichprobenregressionsfunktion (B1, B2) sind
Zufallsveränderliche.

-Sie sind erwartungstreu: E(Bi) = bi

-Sie sind Linearkombinationen von y:

-Aus a) und d) folgt:


die Stichprobenregressionskoeffizienten Bi sind normalverteilt
n

a) Bi − E (Bi ) Bi − βi Daraus folgt: ∑(x i − x ) ⋅ ( yi − y )


= ~N b2 = i =1
σBi σBi n

∑(x i − x )2
Page1

i =1
Varianz der Stichprobenregressionskoeffizienten
n

∑ (x ) i
2
Var (B2 ) ≡ σ 2
=
σu2
Var (B1 ) ≡ σB21 = i =1
⋅ σu2 B2 n
n
n ∑ ( xi − x ) 2 ∑(x
i =1
i − x )2
i =1

Gauß-Markov-Theorem:

Unter allen linearen, unverzerrten Schätzfunktionen besitzt unter Gültigkeit der


Annahmen 1 bis 3c die KQ-Schätzfunktion die kleinste Varianz. Sie ist
BLUE: Best linear unbiased estimator

Schätzer für die Varianz des Störterms


• Die Varianz des Störterms ist im allgemeinen
unbekannt.

• Die kann mit Hilfe der Varianz der Residuen


geschätzt werden:

1 n 2 1 n
σˆ u2 = sE2 ≡ ∑
n − 2 i =1
ei = ∑
n − 2 i =1
( yi − yˆi )2

unverzerrte Schätzwerte für Varianz der


Stichprobenregressionskoeffizienten
n

∑( x ) i
2
sE2
σ
ˆ B21 ≡ sB21= n
i =1
⋅ sE2 σˆ B22 ≡ sB22 = n
n ∑(x i −x ) 2 ∑(x i − x )2
i =1 i =1
n n
1
∑( x ) i
2
1 n 2
⋅ ∑ ei2
n − 2 i =1
= n
i =1
⋅ ∑ei
n − 2 i =1
= n
n ∑(x i −x ) 2
∑(x i − x )2
i =1 i =1
n n n

1 ∑( xi ) 2 ⋅ ∑( y i − yˆi ) 2 1 ∑
( y i − yˆ i )2
= i =1 i =1
= ⋅ i =n1
n −2 n
n−2
n ∑(x i −x ) 2 ∑(x i − x )2
i =1 i =1
Page1
Konfidenzintervall für die Regressionskoeffizienten I

• Die KQ-Regressionskoeffizienten sind Linearkombinationen von Y.

• Y ist eine Linearkombinationen des Störterms U.

• U ist normalverteilt mit Erwartungswert von Null.

=> Y ist normalverteilt.

=> ∑(x i − x ) ⋅ ( yi − y )
b2 = i =1
n

∑(x
i =1
i − x )2

Bi − −β
E B(i ) B −βBi −β Bi
Bi ~n ( iβσ
; B )⇒
2
= ⇒i
~N i = i
~ i t (n −
2)
i
σBi σ Bi Bi σ
ˆ Bi S
 β
Bi −
W t−≤ ≤ ti=−α 1
 SBi
⇒ W−⋅ (
B 1 ≤β≤
t S +⋅
Bi i i B St Bi ) =1 −α

Dichtefunktionen von t-Verteilungen

Page1
Quantile tFG,1-α der t-Verteilung mit FG Freiheitsgraden

Konfidenzintervall für die Regressionskoeffizienten II

( )
W B1 − t ⋅ SBi ≤ βi ≤ Bi + t ⋅ SBi = 1 − α

Daraus folgt als Konfidenzintervall für eine konkrete Stichprobe:


bi t−⋅ α≤
sβB≤ +⋅i bαi t sB

;n 2 i − ;n 2 i
2 2

für α = 0,05 : bi − 2,228 ⋅ sBi ≤ βi ≤ bi + 2,228 ⋅ sBi

Prognose mit Hilfe der linearen Einfachregression


• Die Regressionsfunktion
yˆ i = b1 + b2 ⋅ xi

kann auch für die Prognose von y-Werten für Werte von X verwendet
werden, die nicht in der Stichprobe vorhanden sind.
• Verlässliche Ergebnisse nur im Intervall


Page1

[xmin; xmax] zu erwarten.


• Der Prognosefehler ist umso größer, je weiter der x-Wert, für den der y-Wert prognostiziert
werden soll, vom Mittelwert der x-Wert abweicht.

Analyse der Residuen bei linearer Einfachregression


• Mögliche Verletzung der Gauß-Markov-Annahmen

– Heteroskedastisch (Folie, Bleymüller S. 156)

– autokorreliert

• Fehlspezifikation (Folie , Bleymüller S. 157)

• Strukturbruch => Abhilfe evt. durch Dummy-Variablen

Dummyvariablen

-Annahme: Regressionsstichprobe stammt aus 2 Grundgesamtheiten

-Anlass der Annahme:

-Residuenanalyse

-inhaltlicher, z.B. ökonomischer, Zusammenhang

• Frage:
Unterscheiden sich die Grundgesamtheiten nur im Ordinatenabstand oder zusätzlich auch in der
Steigung der Regressionsfunktion?

• Wenn ungleiche Steigung der Regressionsfunktion angenommen wird: Stichprobe


teilen und 2 Regressionen rechnen

Wenn gleiche Steigung der Regressionsfunktion angenommen wird: Dummyvariable verwenden


und eine Regression rechnen.

Lineare Mehrfachregression

Einführen weiterer Erklärender in das Regressionsmodell

y i = β1 + β2 ⋅ xi 2 + β3 ⋅ xi 3 + ... + βk ⋅ xik + ui
in Matrixschreibweise : y = X β + u
Page1

Lösung : βˆ = ( X ' X )−1 X ' y


Einflüsse auf das Bestimmtheitsmaß

• Konstante

• Funktionsform

• Anzahl Regressoren

korrigiertes Bestimmtheitsmaß:

k − 1
=
R2 R −⋅− R 2
2
(1 )
n −
k

Variablenbezeichnung

In der Regressionsanalyse unterscheidet man zwischen interessierenden und


erklärenden Variablen.
Die interessierende Variable wird Kriterium, abhängige Variable, Response-
Variable, endogene Variable, Regressand oder Zielvariable und
die erklärenden Variablen werden unabhängige Variablen, Prädiktor-Variablen,
exogene Variable, Regressoren oder Kovariablen genannt.
Es ist a priori nicht klar, welche Variablen erklärend und welche interessierend sind.
Typischerweise wählt man diejenige Variable als Response, die eine natürliche Variabilität
aufweist. Das Ziel der Regression ist es somit zu bestimmen, wie die interessierende Variable
(Response) von den erklärenden Variablen (Kovariablen) abhängt.
Ein einfaches Beispiel ist die Darstellung des Körpergewichts in kg (hier: Y) in
Abhängigkeit von der Körpergröße in cm (hier: x). Man sieht, dass der Response Y und die
Kovariable x nicht vertauschbar sind, da die Körpergröße ab einem bestimmten Alter
unverändert bleibt.

Zusammenhangsarten zwischen Variablen

Man verwendet zur Beschreibung eines Zusammenhangs zwischen der abhängigen


Variable Y und der (oder den) unabhängigen Variablen x unterschiedliche Funktionen. Diese
unterscheiden sich in ihrer Komplexität. Lineare Funktionen, das heißt durch Geraden
gegebene Funktionen, sind dabei die einfachsten funktionalen Zusammenhänge. In diesem
Fall wird angenommen, dass das interessierende Merkmal Y gut durch eine lineare
Kombination anderer Merkmale x erklärt werden kann (lineare Regression). Die Gewichtung
der Einflüsse der erklärenden Merkmale wird dabei aus Daten geschätzt. Ein lineares
Regressionsmodell hat den Vorteil, dass es zum Beispiel mittels kleinster Quadrate exakt
berechnet werden kann. Betrachtet man den Fall mit nur einer unabhängigen Variable
Page1

Nichtlineare Systeme müssen dagegen meist näherungsweise gelöst werden. Häufig


können diese Regressionsmodelle dann nicht mehr wahrscheinlichkeitstheoretisch analysiert
werden. Solche Regressionen sind beispielsweise die Geometrische Regression, Exponentielle
Regression oder Potenzielle Regression. Bei der Logarithmischen Regression, welche nicht
mit der Logistischen Regression zu verwechseln ist, arbeitet man, wie der Name bereits
vermuten lässt, mit folgendem Ansatz für die Regression:n, so spricht man von linearer
Einfachregression.

Die gängigen Statistik-Software-Pakete bieten diese Berechnungen heute


automatisiert.
Dies kann für den Fall mit mehreren exogenen Variablen erweitert werden, wobei
diese wiederum von mehreren abhängigen Variablen erklärt werden. Die abhängigen
Variablen der einen Gleichung können hierbei als erklärende Variablen in einer anderen
Gleichung erscheinen. Y und X werden dann durch Vektoren dargestellt (Ökonometrisches
Modell).

Einfache Lineare Regression

Ein Spezialfall von Regressionsmodellen sind lineare Modelle. Hierbei spricht man
von der einfachen linearen Regression, und die Daten liegen in der Form
vor. Als Modell wählt man

man nimmt somit einen linearen Zusammenhang zwischen xi und Yi an. Die Daten yi
werden als Realisierungen der Zufallsvariablen Yi angesehen, die xi sind nicht stochastisch,
sondern Messstellen. Ziel der Regressionsanalyse ist in diesem Fall die Bestimmung der
unbekannten Parameter β0 und β1.

Annahmen

Damit die Regressionsschätzungen inferentiell analysiert werden können, müssen für das
lineare Regressionsmodell bestimmte Annahmen erfüllt sein:
1. Bezüglich der Störgröße εi
2. Der Zufallsvektor ist verteilt mit dem Erwartungswertvektor 0,
d.h. .
3. Die Zufallsvariablen εi sind stochastisch unabhängig voneinander d. h.
, wobei In die n dimensionale Einheitsmatrix bezeichnet. Dies kann
man genauer auch schreiben als

wobei δij das Kronecker-Delta bezeichnet. Hierbei gilt


Page1

das heißt die Fehler sind unkorreliert mit homogener Varianz.


Die Datenmatrix , welche im Abschnitt zur multiplen Regression explizit
angegeben ist, ist fest vorgegeben.
4. Die Datenmatrix hat den Rang (p + 1).

In der ersten Annahme haben also alle εi die gleiche Varianz (Homoskedastizität)
und sie sind paarweise unkorreliert. Man interpretiert dies so, dass die Störgröße keinerlei
Information enthalten darf und nur zufällig streut. Deshalb kann Y nur durch
Informationen aus erklärt werden.
Die zweite Annahme hält konstant.
Die dritte Annahme ist für eine eindeutige Lösung des Regressionsproblems
erforderlich.

Beispiel
Hier wird die einfache lineare Regression anhand eines Beispiels dargestellt.

Eine renommierte Sektkellerei möchte einen hochwertigen Rieslingsekt auf den


Markt bringen. Für die Festlegung des Abgabepreises soll zunächst eine Preis-Absatz-
Funktion ermittelt werden. Dazu wurde in n = 6 Geschäften ein Testverkauf durchgeführt.
Man erhielt sechs Wertepaare mit dem Ladenpreis x (in Euro) einer Flasche und die
verkaufte Menge y an Flaschen:

Laden

Preis
einer Flasche i

verkauft
Menge i

Berechnung der Regressionsgeraden

Man geht von folgendem statistischen Modell aus:


Man betrachtet zwei Variablen Y und x, die vermutlich ungefähr in einem
linearen Zusammenhang

stehen. Auf die Vermutung des linearen Zusammenhangs kommt man, wenn man
das obige Streudiagramm betrachtet, dort erkennt man, dass die eingetragenen Punkte
Page1

nahezu auf einer Linie liegen. Im Weiteren sind x als unabhängige und Y als abhängige
Variable definiert. Es existieren von x und y je n Beobachtungen xi und yi, wobei i von 1
bis n geht. Der funktionale Zusammenhang Y = f(x) zwischen x und Y kann nicht exakt
festgestellt werden, da α + βx von einer Störgröße ε überlagert wird. Diese Störgröße ist
als Zufallsvariable (der Grundgesamtheit) konzipiert, die nichterfassbare Einflüsse
(menschliches Verhalten oder Messungenauigkeiten oder ähnliches) darstellt. Es ergibt
sich also das Modell

oder genauer

Da α und β nicht bekannt sind, kann y nicht in die Komponenten α + βx und ε


zerlegt werden. Des Weiteren soll eine mathematische Schätzung für die Parameter α und
β durch a und b gefunden werden, damit ergibt sich

mit dem Residuum ei der Stichprobe. Das Residuum gibt die Differenz zwischen
der Regressionsgerade a + bxi und den Messwerten yi an. Des Weiteren bezeichnet man
mit den Schätzwert für yi und es gilt
und somit kann man das Residuum schreiben als
Es gibt verschiedene Möglichkeiten, die Gerade zu schätzen. Man könnte eine
Gerade so durch den Punkteschwarm legen, dass die Quadratsumme der Residuen, also
der senkrechten Abweichungen ei der Punkte von dieser Ausgleichsgeraden minimiert
wird. Trägt man die wahre unbekannte und die geschätzte Regressionsgerade in einer
gemeinsamen Grafik ein, dann ergibt sich folgende Abbildung.

Diese herkömmliche Methode ist die Minimum-Quadrat-Methode oder Methode


der kleinsten Quadrate. Man minimiert die summierten Quadrate der Residuen,
Page1
bezüglich a und b. Durch partielles Differenzieren und Nullsetzen
der Ableitungen erster Ordnung erhält man ein System von
Normalgleichungen.

Die gesuchten Regressionskoeffizienten sind die Lösungen

mit als arithmetischem Mittel der x-Werte und als arithmetischem Mittel der
y-Werte. SSxy stellt die empirische Kovarianz zwischen den xi und yi dar. SSxx bezeichnet
die empirische Varianz der xi. Man nennt diese Schätzungen auch Kleinste-Quadrate-
Schätzer (KQ) oder Ordinary Least Squares-Schätzer (OLS).
Für das folgende Zahlen-Beispiel ergibt sich und . Somit erhält
man die Schätzwerte für a und b durch einfaches Einsetzen in obige Formeln.
Zwischenwerte in diesen Formeln sind in folgender Tabelle dargestellt.

Flaschen verkaufte
preis xi Menge yi

20 0 -25 25 25
5

16 3 -2 1 4
2

15 7 0 0 4

16 4 -1 1 1
1
Page1
13 6 -2 4 1
2

10 10 -25 25 25
5

90 30 -55 56 60
otal

Es ergibt sich in dem Beispiel

und .
Die geschätzte Regressionsgerade lautet somit
,
so dass man vermuten kann, dass bei jedem Euro mehr der Absatz im
Durchschnitt um ungefähr eine Flasche sinkt.
Multiple Regression

Im folgenden wird ausgehend von der einfachen linearen Regression die multiple
Regression eingeführt. Der Response Y hängt linear von mehreren fest vorgegebenen
Kovariablen ab, somit erhält man die Form

wobei ε wieder die Störgröße repräsentiert. ε ist eine Zufallsvariable und daher ist
Y als lineare Transformation von ε ebenfalls eine Zufallsvariable. Es liegen für die xj,
wobei , und Y je n viele Beobachtungen vor, so dass sich für die
Beobachtungen i, wobei , das Gleichungssystem

ergibt. p gibt somit die Anzahl der Kovariablen oder die Dimension des
Kovariablenvektors an. In der einfachen linearen Regression
wurde nur der Fall p = 1 betrachtet, ausgehend davon wird nun die multiple Regression als
Verallgemeinerung dessen mit präsentiert. Als stichprobentheoretischer Ansatz
wird jedes Stichprobenelement εi als eine eigene Zufallsvariable interpretiert und ebenso
jedes Yi.
Da es sich hier um ein lineares Gleichungssystem handelt, können die Elemente
des Systems in Matrix-Schreibweise zusammengefasst werden. Man erhält die
Spaltenvektoren der abhängigen Variablen Y und der Störgröße ε als
Zufallsvektoren und den Spaltenvektor der Regressionskoeffizienten βj,
wobei ,
Page1
und

Die Datenmatrix lautet in ausgeschriebener Form

Die Einsen in der ersten Spalte gehören zum Absolutglied β0. Des Weiteren trifft
man, wie bereits im Abschnitt zur einfachen linearen Regression erwähnt, die Annahmen

und .
Somit gilt für
und .
Ferner lässt sich das Gleichungssystem nun erheblich einfacher darstellen als
.

Schätzung der Regressionskoeffizienten

Auch im multiplen linearen Regressionsmodell wird die Quadratsumme der


Residuen nach der Methode der kleinsten Quadrate minimiert. Man erhält als Lösung
eines Minmierungsproblems den Vektor der geschätzten Regressionskoeffizienten als
Page1
Dieser Schätzer ist nach dem Gauß-Markow-Theorem der BLUE (Best Linear
Unbiased Estimator), also der beste (erwartungstreu mit kleinster Varianz) lineare
unverzerrte Schätzer. Für die Eigenschaften der Schätzfunktion muss also keine
Verteilungsinformation der Störgröße vorliegen.
Man erhält mit Hilfe des Minimum-Quadrat-Schätzers das Gleichungssystem

wobei der Vektor der Residuen und die Schätzung für ist. Das Interesse
der Analyse liegt vor allem in der Schätzung oder in der Prognose der abhängigen
Variablen für ein gegebenes Tupel von . Diese berechnet sich als

Ausgewählte Schätzfunktionen

Die Schätzwerte der Yi berechnen sich als


,
wobei man dies auch kürzer als
mit
schreiben kann. Die Matrix ist idempotent und maximal vom Rang p + 1. Sie
wird auch Hat-Matrix genannt, weil sie den „Hut“ aufsetzt
Die Residuen werden ermittelt als

wobei mit vergleichbare Eigenschaften hat.


Die Prognose wird ermittelt als

Da fest vorgegeben ist, kann man alle diese Variablen als lineare
Transformation von und damit von darstellen, und deshalb können auch ihr
Erwartungswertvektor und ihre Kovarianzmatrix unproblematisch ermittelt werden
Die Quadratsumme SSRes (von engl. „residual sum of squares“) der Residuen
ergibt in Matrix-Notation
Page1
Dies kann ferner auch geschrieben werden als

Die Varianz wird mit Hilfe der Residuen geschätzt, und zwar als mittlere
Quadratsumme der Residuen

Schätzen und Testen


Für die inferentielle Regression (Schätzen und Testen) wird noch die Information
über die Verteilung der Störgröße ε gefordert. Zusätzlich zu den bereits weiter oben
aufgeführten Annahmen hat man hier als weitere Annahme:

Die Störgröße εi ist normalverteilt.

Zusammen mit der 1. Annahme erhält man für die Verteilung des Vektors der
Störgröße:
,
wobei den Nullvektor bezeichnet. Hier sind unkorrelierte Zufallsvariablen auch
stochastisch unabhängig. Da die interessierenden Schätzer zum größten Teil lineare
Transformationen von sind, sind sie ebenfalls normalverteilt mit den entsprechenden
Parametern. Ferner ist die Quadratsumme der Residuen als nichtlineare Transformation
χ2-verteilt mit n − p Freiheitsgraden.

Beweisskizze: Sei

,
damit erhält man

.
Wobei
und der Satz von Cochran verwendet wurde.
Ferner gilt ebenso

Betrachte hierzu auch den Artikel Bestimmtheitsmaß.


Güte des Regressionsmodells
Hat man eine Regression ermittelt, ist man auch an der Güte dieser Regression
interessiert. Häufig verwendet wird als Maß für die Güte das Bestimmtheitsmaß R2.
Page1

Generell gilt, je näher der Wert des Bestimmtheitsmaßes bei 1 liegt, desto größer ist die
Güte der Regression. Ist das Bestimmtheitsmaß klein, kann man seine Signifikanz durch
die Hypothese H0: R2 = 0 mit der Prüfgröße

testen. F ist F-verteilt mit n-1 und n-p Freiheitsgraden. Überschreitet die
Prüfgröße bei einem Signifikanzniveau α den kritischen Wert F(1 − α;n − 1;n − p), das (1-
α)-Quantil der F-Verteilung mit n-1 und n-p Freiheitsgraden, wird H0 abgelehnt. R2 ist
dann ausreichend groß, X trägt also vermutlich genügend viel Information zur Erklärung
von Y bei. Die Residualanalyse, bei der man die Residuen über den unabhängigen
Variablen aufträgt, gibt Aufschluss über

• die Richtigkeit des angenommenen linearen Zusammenhangs,


• mögliche Ausreißer,

Homoskedastizität, Heteroskedastizität.
Ein Ziel bei der Residualanalyse ist es, dass man die Voraussetzung der
unbeobachteten Residuen εi überprüft. Hierbei ist es wichtig zu beachten, dass

gilt. ei ist mit der Formel berechenbar. Im Gegensatz hierzu ist die
Störgröße εi nicht berechenbar oder beobachtbar. Nach den oben getroffenen Annahmen
soll für das Modell gelten

es liegt somit eine Varianzhomogenität vor. Dieses Phänomen wird auch als
Homoskedastie bezeichnet und ist auf die Residuen übertragbar. Dies bedeutet, dass wenn
man die unabhängigen Variablen x gegen die Residuen e aufträgt, dass dann keine
systematischen Muster erkennbar sein sollten.
In der folgenden Grafik werden die unabhängigen Variablen x gegen die
Residuen e geplottet.

Beitrag der einzelnen Regressoren zur Erklärung von y


Man ist daran interessiert, ob man einzelne Parameter oder Kovariablen aus dem
Regressionsmodell entfernen kann. Dies ist dann möglich, falls ein Parameter βj gleich
Null ist, somit testet man die Nullhypothese H0: βj = 0. Das heißt man testet, ob der j-te
Parameter gleich Null ist, falls dies der Fall ist, kann die zugehörige j-te Kovariable Xj aus
dem Modell entfernt werden. Der Vektor b ist als lineare Transformation von Y verteilt
wie

Wenn man die Varianz der Störgröße schätzt, erhält man für die geschätzte
Kovarianzmatrix

Die geschätzte Varianz se(bj)2 eines Regressionskoeffizienten bj steht als j-tes


Page1

Diagonalelement in der geschätzten Kovarianzmatrix. Es ergibt sich die Prüfgröße


die t-verteilt ist mit n-p Freiheitsgraden. Ist | tj | größer als der kritische Wert t(1-
α/2; n-p), dem (1-α/2)-Quantil der t-Verteilung mit n-p Freiheitsgraden, wird die
Hypothese abgelehnt. Somit wird die Kovariable Xj im Modell beibehalten und der
Beitrag des Regressors Xj zur Erklärung von Y ist signifikant groß.

Prognose

Ermittelt man einen Prognosewert, möchte man möglicherweise wissen, in


welchem Intervall sich die prognostizierten Werte mit einer festgelegten
Wahrscheinlichkeit bewegen. Man wird also ein Konfidenzintervall für den
durchschnittlichen Prognosewert E(Y0) ermitteln. Es ergibt sich als Varianz der Prognose

Man erhält dann als (1-α)-Konfidenzintervall für den durchschnittlichen


Prognosewert mit geschätzter Varianz

Speziell für den Fall der einfachen linearen Regression ergibt das

Speziell aus dieser Form des Konfidenzintervalls erkennt man sofort, dass das
Konfidenzintervall breiter wird, wenn die exogene Prognosevariable x0 sich vom
„Zentrum“ der Daten entfernt. Schätzungen der endogenen Variablen sollten also im
Beobachtungsraum der Daten liegen, sonst werden sie sehr unzuverlässig.

Beispiel

Zur Illustration der multiplen Regression wird im folgenden Beispiel untersucht,


wie die abhängige Variable Y: Bruttowertschöpfung (in Preisen von 95; bereinigt, Mrd.
Euro) von den unabhängigen Variablen „Bruttowertschöpfung nach Wirtschaftsbereichen
Deutschland (in jeweiligen Preisen; Mrd. EUR)“ abhängt. Die Daten sind im Artikel
Regressionsanalyse/Datensatz angegeben. Da man in der Regel die Berechnung eines
Regressionsmodells am Computer durchführt, wird in diesem Beispiel exemplarisch
dargestellt, wie eine multiple Regression mit der Statistik-Software R durchgeführt
werden kann.
Page1

Zunächst lässt man sich ein Streudiagramm ausgeben, in diesem erkennt man,
dass die gesamte Wertschöpfung offensichtlich mit den Wertschöpfungen der
wirtschaftlichen Bereiche positiv korreliert ist. Dies erkennt man daran, dass die
Datenpunkte in der ersten Spalte der Grafik in etwa auf einer Geraden mit einer positiven
Steigung liegen. Auffällig ist, dass die Wertschöpfung im Baugewerbe negativ mit den
anderen Sektoren korreliert. Dies erkennt man daran, dass in der vierten Spalte die
Datenpunkte näherungsweise auf einer Geraden mit einer negativen Steigung liegen.

In einem ersten Schritt gibt man das Modell mit allen Kovariablen in R ein
lm(BWSb95~BBLandFF+BBProdG+BBBau+BBHandGV+BBFinVerm+BBDienstÖP)
Anschließend lässt man sich in R ein Summary des Modells mit allen Kovariablen
ausgeben, dann erhält man folgende Auflistung.

Residuals:
Min 1Q Median 3Q Max
Page1

-1.5465 -0.8342 -0.1684 0.5747 1.5564


Estimate Std. Error t value Pr(>|t|)
(Intercept) 145.6533 30.1373 4.833 0.000525 ***
BBLandFF 0.4952 2.4182 0.205 0.841493
BBProdG 0.9315 0.1525 6.107 7.67e-05 ***
BBBau 2.1671 0.2961 7.319 1.51e-05 ***
BBHandGV 0.9697 0.3889 2.494 0.029840 *
BBFinVerm 0.1118 0.2186 0.512 0.619045
BBDienstÖP 0.4053 0.1687 2.402 0.035086 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.222 on 11 degrees of freedom


Multiple R-Squared: 0.9889, Adjusted R-squared: 0.9828
F-statistic: 162.9 on 6 and 11 DF, p-value: 4.306e-10

Der Test auf Güte des gesamten Regressionsmodells ergibt eine Prüfgröße von F
= 162.9. Diese Prüfgröße hat einen p-Wert von , somit ist die Anpassung
signifikant gut.
Die Analyse der einzelnen Beiträge der Variablen (Tabelle Coefficients) des
Regressionsmodells ergibt bei einem Signifikanzniveau von 0.05, dass die Variablen
BBLandFF und BBFinVerm offensichtlich die Variable BWSB95 nur unzureichend
erklären können. Dies erkennt man daran, dass die zugehörigen t-Werte zu diesen beiden
Variablen verhältnismäßig klein sind, und somit die Hypothese, dass die Koeffizienten
dieser Variablen Null sind, nicht verworfen werden kann

Die Variablen BBHandGV und BBDienstÖP sind gerade noch signifikant.


Besonders stark korreliert ist Y (in diesem Beispiel also BWSb95) mit den Variablen
BBProdG und BBBau, was man an den zugehörigen hohen t-Werten erkennen kann.
Im nächsten Schritt werden die insignifikanten Kovariablen BBLandFF und
BBFinVerm aus dem Modell entfernt.

lm(BWSb95~BBProdG+BBBau+BBHandGV+BBDienstÖP)
Anschließend lässt man sich wiederum ein Summary des Modells ausgeben, dann
erhält man folgende Auflistung.

Residuals:
Min 1Q Median 3Q Max
-1.34447 -0.96533 -0.05579 0.82701 1.42914

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 158.00900 10.87649 14.528 2.05e-09 ***
BBProdG 0.93203 0.14115 6.603 1.71e-05 ***
BBBau 2.03613 0.16513 12.330 1.51e-08 ***
BBHandGV 1.13213 0.13256 8.540 1.09e-06 ***
BBDienstÖP 0.36285 0.09543 3.802 0.0022 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Page1

Residual standard error: 1.14 on 13 degrees of freedom


Multiple R-Squared: 0.9886, Adjusted R-squared: 0.985
F-statistic: 280.8 on 4 and 13 DF, p-value: 1.783e-12

Dieses Modell liefert eine Prüfgröße von F = 280.8. Diese Prüfgröße hat einen p-
Wert von , somit ist die Anpassung besser als im ersten Modell. Dies ist
vor allem darauf zurückzuführen, dass in dem jetzigen Modell alle Kovariablen
signifikant sind.

Spezielle Anwendungen der Regressionsanalyse

Spezielle Anwendungen der Regressionsanalyse beziehen sich auch auf die


Analyse von diskreten und im Wertebereich eingeschränkten abhängigen Variablen.
Hierbei kann unterschieden werden nach Art der abhängigen Variablen und Art der
Einschränkung des Wertebereichs. Im Folgenden werden die Regressionsmodelle, die an
dieser Stelle angewandt werden können, aufgeführt. Nähere Angaben hierzu finden sich
bei Frone (1997)[1] sowie Long (1997
Modelle für unterschiedliche Arten abhängiger Variablen:

Binär: logistische Regression und Probit-Regression

• Ordinal: ordinale logistische Regression und ordinale Probit-Regression


• Absolut: Poisson Regression, negative binomiale Regression

Nominal: multinomiale logistische Regression

Modelle für unterschiedliche Arten eingeschränkter Wertebereiche

• zensiert: Tobit-Modell
• trunkiert: trunkierte Regression

stichproben-selegiert: (sample-selected) stichproben-selegierte Regression

Anwendung in der Ökonometrie


Für quantitative Wirtschaftsanalysen im Rahmen der Regressionsanalyse,
beispielsweise der Ökonometrie, sind besonders geeignet:

• Wachstumsfunktionen, wie zum Beispiel das Gesetz des organischen


Wachstums
• oder die Zinseszinsrechnung,
• Abschwingfunktionen, wie zum Beispiel die hyperbolische
Verteilungsfunktion oder die Korachsche Preisfunktion,
• Schwanenhalsfunktionen, wie zum Beispiel die im Rahmen der logistischen
Regression verwendete logistische Funktion, die Johnson-Funktion oder die
Potenzexponentialfunktion,
Page1
degressive Saturationsfunktionen, wie zum Beispiel die Gompertz-Funktion oder
die Törnquist-Funktion.

Bestimmung der Regressionsgeraden


Gegenstand: eine Messgrösse y, die von einem veränderlichen äusseren Parameter x
abhängt.
Einfachster Fall: Lineare Abhängigkeit y = + ßx.

Praktische Aufgabe:
Ausgehend von N Messungen, d.h.
N Wertepaaren

x ,
1 y
x ,
2 y
.
.
.
x ,
N y

die beste Interpolationsgerade ermitteln,


d.h., die Gerade, für
welche die Abweichungen der
Interpolationswerte Y = a + bx
i

von den gemessenen Werten y minimali

werden.

Anwendung des Prinzips der kleinsten Quadrate: ergibt die


nachstehenden Ausdrücke für a und b.

Formelsammlung:

Zum Auswerten berechnet man:



arithmetisches Mittel

Fehlerquadratsummen


Page1

Fehlerproduktsumme
— Steigung der
Geraden

Der "Schwerpunkt" ( , ) liegt auf der Regressionsgeraden. Damit wird die Geradengleichung
zu (Y – ) = b(x – ) oder Y = – b + bx.
Der Achsenabschnitt (bei x = 0) ist damit .

a und b sind die besten unvoreingenommenen Schätzungen der wahren Werte und ß.

Es wird vorausgesetzt, dass x fehlerfrei ist, und dass die y-


Messfehlerquellen überall gleich (d.h., x-unabhängig) sind.

Sonst gelten völlig andere Auswertungsverfahren.

Anmerkung.
Bei dem hier beschriebenen Verfahren handelt es sich, genau bezeichnet, um die "Regression
von y nach x", mit fehlerfreiem, variablem Parameter x als Abszisse. Ebenso gut könnte man
aus den N Zahlenpaaren (x , y ) eine "Regression von x nach y" rechnen.
i i

Überzeugen Sie sich selber an einem Beispiel, dass die beiden Regressionsgeraden wesentlich
verschieden sind.

Regression von y nach x:


Regression von x nach y: Zusammenhang: bb' = r (Beweis s. FAQs)
2

Schnittpunkt

Nur der Korrelationskoeffizient r, als ein in x und y symmetrischer Ausdruck, ist für beide
Regressionstypen eine gemeinsame gültige Richtgrösse.
Bestimmen Sie daher aus dem jeweiligen Zusammenhang, wie herum Sie die lineare
Regression ansetzen.

26Bestimmung der Regressionskoeffizienten a und b

Problemstellung: a und b bestimmen, so dass für die Punkte der Interpolationsgeraden Y=


a+bx : Y = a+bx
i i

die zu einem
Page1

Fehlerquadratsumme Minimum wird.


Praktisches Vorgehen: Am Minimum verschwinden die partiellen Ableitungen und
ergeben ein lineares Gleichungssystem in den zwei Unbekannten a und b:

1)

2)

Aus (1 ) folgt

bzw.

d.h., der Schwerpunkt liegt auf der Geraden.

Aus ( 2 ) folgt:

Damit sind a und b bestimmt und können aus den oben definierten Grössen berechnet
werden:

Streuungsmasse (Formelsammlung)
— Korrelationskoeffizient
Eigenschaften: -1 ≤ r ≤ 1.
Die Streuung von den y um , ausgedrückt durch S
i

ist zum Bruchteil r durch die Veränderungen an den x


2

bedingt, zum Restanteil (1-r ) unabhängig.


2

— Totale Fehlerquadratsumme
— "Fehlerquadratsumme" der
Interpolationspunkte
(Regressions-"bedingte"Streuung)
— Reststreuungsquadrat um die Gerade

— Varianz der y i

— Standardabweichung
— Streuungsmasse von
Page1
— Streungsmasse von b
— Streuungsmasse von Y = a+bx
(Mass der Abweichung von y = + ßx)

— Streuung des Achsenabschnitts

Streuungsmasse (Verständnisfragen)

1. Was ist der Unterschied zwischen V(y) und V(Y)?


2. Versuchen Sie, den Ausdruck für V(b) herzuleiten. Hinweis: S lässt sich xy

umformen in

3.
(Versuchen Sie, das nachzuvollziehen.)
4. Im Ausdruck sind und b statistisch unabhängig, so dass das
Fehlerfortpflanzungsgesetz anwendbar ist.
Dies führt zu den angegebenen Ausdrücken für V(Y) und V(a).
5. Wann benutzt man jeweils die Nenner N, N-1 und N-2?
(An Taschenrechner-Besitzer: Prüfen Sie bitte nach, ob das eingebaute Programm zur
Stichproben- und Regressions-Auswertung die richtigen Nenner benutzt.)
6. Die Grössen x und y stehen in einem linearen Zusammenhang, und es
interessiert zu einem gegebenen y -Wert der zugehörige x -Wert. Welchen Weg würden Sie
0 0

wählen:
o (a) Auflösen von Y = y + bx nach x, oder
o (b) Ansetzen der Regression X = a'+b'y, und Einsetzen von y ? 0

Vertrauensgrenzen bei der linearen Regression

Die statistische Beurteilung einer linearen Regression erfolgt in 3 Schritten.

1. Ist die Regression signifikant?


2. Bestimmung der Vertrauensgrenzen für ß
3. Bestimmung der Vertrauensgrenzen für y(x) und für den Achsenabschnitt.

Punkt 1 bedeutet in anderen Worten: Lohnt es den Aufwand, in der Interpolation


den x-abhängigen Term mitzunehmen, anstatt sich auf die Konstante
(Mittelwert der y ) zu beschränken?
i
Page1

Punkte 1 und 2 können in einem Arbeitsgang behandelt werden: Immer dann, wenn ß = 0
im Vertrauensbereich der ß liegt, ist die Regression nicht signifikant besser als die
Auswertung der y als einfache Stichprobe.
i

Punkt 2: Vertrauensgrenzen der Steigung


b.
Umkehrung des t-Tests mit b, s(b) und = N-2: bunten = b-t (P, N-2)•s(b)
D

b = b+t (P, N-2)•s(b)


oben D

Wenn b unten < 0 < b : Verwerfen der Regression.


oben

Punkt 3:
Vertrauensgrenzen für y(x):

Umkehrung des t-tests mit Y(x), s(y) und = N – 2

Yunten = Y(x) – tD(P,N – 2) · s(Y(x)) Yoben = Y(x) + tD(P,N – 2) · s(Y(x))

Die Vertrauensgrenzen des Achsenabschnitts ergeben sich als Spezialfall für x = 0 !

Page1