Sie sind auf Seite 1von 21

4.

Multikollinearitt
4.1 Begriff der Multikollinearitt
- Naturwissenschaften:
Experimentator kann die Werte der unabhngigen Variablen festlegen
(Unabhngigkeit, keine Korrelation)
- Wirtschaftswissenschaften:
Werte der unabhngigen Variablen werden beobachtet (Abhngigkeit,
Korrelation)
Problematik in Wirtschaftswissenschaften:
Dadurch, dass die unabhngigen Variablen korreliert sind, wird die Messung
ihres isolierten Einflusses auf die abhngige Variable erschwert. Eine Variable,
die mit einer anderen Variablen korreliert ist, misst zum Teil den Einfluss der
anderen Variablen mit. Wenn die unabhngigen Variablen in einem Regressionsmodell miteinander korreliert sind, spricht man von Multikollinearitt.
Bei Multikollinearitt ist der Gesamteinfluss der unabhngigen Variablen auf
die abhngige Variable exakt erfassbar. Die Zurechenbarkeit des Gesamteinflusses der unabhngigen Variablen ist dagegen aufgrund ihrer wechselseitigen Abhngigkeit nicht eindeutig mglich.

Grenzfall: Exakte Multikollinearitt


Eine exakte Multikollinearitt, d.h. eine lineare Abhngigkeit zwischen den Regressoren wrde dazu fhren, dass der Rang der Beobachtungsmatrix X kleiner als k
wird, so dass die Produktmatrix XX nicht invertierbar ist. In diesem Extremfall knnte der OLS-Schtzer nicht berechnet werden.
Betrachten wir hierzu das konometrische Modell
(4.1)

y t 1x1t 2x 2t 3x3t u t

mit der Scheinvariablen x1t=1 und den beiden Einflussgren x2 und x3. Wenn nun
die beiden Regressoren x2 und x3 exakt linear miteinander verknpft sind,
(4.2)

x 3t x 2t

dann sind die Koeffizienten 1, 2 und 3 nicht mehr eindeutig bestimmbar, da


die Inverse der Produktionsmatrix X'X nicht existiert. Da jedoch ein perfekter Zusammenhang zwischen x2 und x3 vorliegt, d.h. der Korrelationskoeffizient r23
gleich 1 ist, reicht es aus, eine der beiden exogenen Variablen zur Erklrung von
y heranzuziehen. Substituiert man (4.2) in (4.1), so erhlt man die neue Regressionsgleichung
(4.3)

y t 1x1t 2 3 x 2t u t

die nun ohne weiteres mit der OLS-Methode geschtzt werden kann. Dabei kann
jedoch nur der Gesamteinfluss 2+3 der beiden Einflussgren x2 und x3 ermittelt
werden. Er kann nicht in die Einzeleinflsse 2 und 3 separiert werden, so dass
man diese beiden Parameter als nicht identifizierbar bezeichnet.
Schtztechnisch bedeutet dies, dass an Stelle einer Regressionsebene nur eine
Regressionsgerade im dreidimensionalen Raum bestimmt werden kann. Wenn zwischen den beiden Regressoren x2 und x3 anstelle von (4.2) eine lineare Abhngigkeit der Form
x 3t x 2t
(4.4)
bestehen wrde, dann wrde die schtzbare Regressionsgleichung
(4.5)

y t 1 3 x1t 2 3 x 2t u t

lauten. In diesem Fall wre auch der Achsenabschnitt 1 nicht mehr identifizierbar.
Auftreten exakter Multikollinearitt:
- aufgrund definitorischer Beziehungen
- bei fehllerhafter Definition von Dummy-Variablen

In der konometrischen Praxis tritt bei korrekter Modellierung in der Regel keine
exakte Multikollinearitt auf, sondern eine nicht perfekte Multikollinearitt, die
durch hohe, aber von +1 bzw. -1 verschiedene Korrelationen zwischen den unabhngigen Variablen zustande kommt.

Abbildung: Nicht-perfekte Multikollinearitt


y
x3

x 3t x 2 t

x2

Die Schtzung der Regressionsebene in dem von den Variablen y, x2 und x3 aufgespannten Raum ist unsicher. Denn mit zunehmender Nhe der Projektionen der Beobachtungswerte zu der Geraden geht die Regressionsebene, die sich der dreidimensionalen Punktewolke optimal anpasst, immer mehr in eine Regressionsgerade im
dreidimensionalen Raum ber. Wenn alle projizierten Beobachtungen auf der Geraden (4.4) liegen, ist die Lage der Regressionsebene vollkommen unbestimmt. Je
mehr die projizierten Beobachtungen dagegen in der x2, x3-Ebene streuen (=strkere Tendenz zur Unabhngigkeit), umso breiter ist die Basis zur Bestimmung einer
Regressionsebene im dreidimensionalen Raum.

Abb.: Perfekte Multikollinearitt

4.2 Auswirkungen der Multikollinearitt


Bei Multikollinearitt, die aus statistischen Abhngigkeiten zwischen den exogenen
Variablen resultiert, lsst sich der OLS-Schtzer weiterhin berechnen. Jedoch
lsst sich zeigen, dass die Varianzen der geschtzten Regressionskoeffizienten
gro werden, womit ein Verlust an Przision (Genauigkeit) der Schtzung einhergeht.
Um dies anhand des Regressionsmodells (4.1) zu zeigen, gehen wir der Einfachheit halber von den Abweichungen der Beobachtungswerte von ihren Mittelwerten
aus:
~
y t 2~
x 2 t 3 ~
x 3t u t
(4.6)
mit

~
y t y t y, ~
x 2t x 2t x 2 und ~
x 3t x 3t x 3

Unter Verwendung von

x 21
~
~
~ x 22
X

~
x 2n

~
x 31
~
x 32

~
x 3n

x 22t
x 2t ~
x 3t
~ ~ ~
~
X' X

2
~
~
~
x 2 t x3t x3t

~ ~
X' X ~
x 22t ~
x32t ~
x 2t ~
x3t 2

x32t
~
x 2t ~
x 3t
~ ~ adj ~
X' X ~ ~

2
~
x 2 t x3t x 2 t

erhlt man fr den OLS-Schtzer

~ ~ 1 ~
X' X X' ~
y

~
y ~
y1~
y2 ~
yn

mit

die Varianz-Kovarianz-Matrix
(4.7)

Cov X' X

2 ~ ~ 1

2
~
x 3t
~
x 2t ~
x 3t

2
2
2
2
~
~
~

x 2t ~
x 3t ~
x 2t ~
x 3t x 2t x 3t x 2t
~

Die Varianzen der geschtzten Regressionskoeffizienten 2 und 3 lauten


folglich

Var 2

2 ~
x 32t

x 22t ~
x 32t ~
x 2t ~
x 3t 2
~

2 ~
x 22t
und Var 3
x 22t ~
x 32t ~
x 2t ~
x 3t 2
~

Man erhlt eine geeignete Interpretation der Multikollinearitt, wenn man hierin
den Korrelationskoeffizienten r23 zwischen x2 und x3 einfhrt, der durch
x 2t ~
x 3t
~
r23
x 22t ~
x 32t
~
definiert ist.

Nach Quadrierung ergibt sich hieraus


~x ~x 2 r 2 ~x 2 ~x 2
2 t 3t

23

2t

3t

so dass die Varianzen von 1 und 2 in der Form


2

(4.8)
Var 2
2
2
1 r23
x 2t
~
und
2

Var 3
(4.9)
2
2
1 r23
x3t
~

darstellbar sind. Bei multikollinearen Regressoren x2 und x3 geht r23 tendenziell


gegen 1, so dass die Nenner von (4.8) und (4.9) klein und die Varianzen der
geschtzten Regressionskoeffizienten gro werden. Eine Signifikanz eines einzelnen Regressionskoeffizienten ist dann schwieriger nachweisbar. Der Gesamtzusammenhang kann in dieser Situation auch dann statistische gesichert sein, obwohl die geschtzten Regressionskoeffizienten insignifikant sind.
Auerdem lsst sich zeigen, dass die Korrelation zwischen den Regressionskoeffizienten 2 und 3
r , r23
2

betrgt. Das bedeutet, dass eine berschtzung von 2 mit einer Unterschtzung von 3 einhergeht und umgekehrt.

4.3 Aufdeckung von Multikollinearitt


Techniken zur Aufdeckung von Multikollinearitt
- Einfache und erweiterte Korrelationsanalyse
- Determinante
- Konditionszahl
- Verfahren der Hilfsregressionen (auxiliary regressions)

Einfache und erweiterte Korrelationsanalyse


- Einfache Korrelationsanalyse
Aufdeckung von Multikollinearitt aufgrund der paarweisen Korrelationskoeffizienten r23, r24,..., rk-1,k.
Faustregel: Multikollinearitt falls rjk > 0,8
Das Verfahren ist hinreichend fr die einfache Regressionsanalyse, deckt
aber nicht wechselseitige Abhngigkeiten zwischen mehreren Einflussgren
auf.
- Erweiterte Korrelationsanalyse

Beurteilung der Multikollinearitt anhand des multiplen Korrelationskoeffizienten Ryx2,xk:


Faustregel: Multikollinearitt falls rjk > Ryx2,xk
Keine Aufhebung der Einschrnkungen der einfachen Korrelationsanalyse,
sondern Objektivierung des kritischen Wertes

- Determinante der Produktmatrix XX


Bei Multikollinearitt besteht eine nherungsweise lineare Abhngigkeit zwischen zwei oder mehreren Regressoren. Wenn die Spalten der Beobachtungsmatrix X nherungsweise linear abhngig sind, wird die Produktmatrix XX
fast singulr. Zwar lsst sich dann die fr die Berechnung des OLS-Schtzers
-1
bentigte Inverse (XX) noch berechnen, doch wird die Schtzung mit
einem zunehmendem Grad der linearen Abhngigkeit instabil.
Bei exakter Multikollinearitt gilt ist die Determinante der Produktmatrix XX
gleich 0, so dass ein Wert von |XX| nahe 0 auf Multikollinearitt hinweist:
|XX| 0 Multikolinearitt
[ Gleiches gilt fr die Korrelationsmatrix R, die man mit der standardisierten
Beobachtungsmatrix Z erhlt: R = ZZ / n.]
- Konditionszahl der Produktmatrix XX
Die Konditionszahl C gibt an, wie nahe eine Matrix an eine singulre Matrix
kommt.

C max / min
max: grter Eigenwert von XX, min: kleinster Eigenwert von XX

Mit zunehmendem Grad an Multikollinearitt steigt das Verhltnis max/ min.


Faustregel: Multikollinearitt falls C > 30

- Verfahren der Hilfsregressionen (auxiliary regressions)


Das Verfahren der Hilfsregressionen besteht darin, dass fr jede der k-1 (echten) exogenen Variablen eine Regression auf die verbleibenden k-2 Regressoren
durchgefhrt wird:

x 2 t 12 x1t 32 x 3t 2k x kt
x 3t 13 x1t 32 x 2 t 3k x kt


x kt 1k x1t k2 x 2 t kk 1x k 1,t .
2
Fr jede dieser Hilfsregressionen wird ein Bestimmtheitsma R j berechnet, bei
dem der Index j angibt, dass xj als abhngige Variable fungiert. Multikollinearitt
kann anhand von

- F-Tests oder
- Toleranzkoeffizienten und Varianzinflationsfaktoren
diagnostiziert werden.

a) F-Tests der Hilfsregressionen


Ein hohes Rj weist eine lineare statistische Abhngigkeit der Variablen xj mit
den brigen Regressoren aus. Die Signifikanz einer solchen Beziehung kann
Mit einem F-Test geprft werden, dessen Prfgre
(4.10)

Fj

R 2j k 2

1 R 2j

n k 1

, j 2,3,, k

lautet.
Testentscheidung:

Fj Fk 2;n k 1;1

Signifikanter linearer statistischer Zusammenhang


zwischen xj und den brigen Regressoren

Bei einem signifikanten Testergebnis wird auf Multikollinearitt geschlossen.


Das Verfahren identifiziert zugleich diejenigen unabhngigen Variablen, durch
die die Multikollinearitt hervorgerufen wird.
[ Die Hilfsregressionen knnen in gleicher Form fr Teilmengen der exogenen
Variablen durchgefhrt werden, wozu entsprechende Modifikationen des Tests
vorzunehmen sind.]

b) Toleranzkoeffizienten und Varianzinflationsfaktoren


Bei einer deskriptiven Ausrichtung des Verfahrens der Hilfsregressionen wird
Multikollinearitt anhand von Toleranzkoeffizienten und Varianzinflationsfaktoren
ermittelt. Die Toleranzkoeffizienten tolj sind durch
(4.11)

tolj = 1 Rj, j=2,3,,k

definiert. Hierbei indizieren niedrige Werte der Toleranzkoeffizienten Multikollinearitt.


Faustregel: Multikollinearitt falls tolj < 0,10
Unter Verwendung der Toleranzkoeffizienten tolj lassen sich die Varianzinflationsfaktoren
1
(4.12) VIF j
, j=2,3,,k
tol j
bilden, aus denen die durch Multikollinearitt (Faustregel: VIFj > 10) bedingte Inflationierung der Varianzen der geschtzten Regressionskoeffizienten hervorgeht.
Genauer gibt die Kenngre VIFj die Erhhung der Varianz Var j an, die darauf
zurckgefhrt werden kann, dass die Variable xj mit den brigen exogenen Variablen des Regressionsmodells nicht unkorreliert ist, sondern in einer durch das Bestimmtheitsma Rj gemessenen kollinearen Beziehung steht.

Beispiel:
Mit der Geldnachfragefunktion (2.28) haben die logarithmierte Geldnachfrage
(ln m) durch die auf einer logarithmischen Skala gemessenen exogenen Variablen Einkommen (ln y) und Zinssatz (ln r) erklrt. Wir setzen jetzt die behandelten Verfahren zur Aufdeckung von Multikollinearitt ein.
Einfache und erweiterte Korrelationsanalyse
Korrelationskoeffizienten r23 zwischen ln y und ln r: -0.689
r23= 0,689 < 0,8 keine gravierende Multikollinearitt

r23= 0,689 < Ryx2x3 = 0,984 keine gravierende Multikollinearitt


Determinante der Produktmatrix XX
ln y t
ln rt
n

ln y t ln rt
X'X det ln y t ln y t 2

2
3x 3
ln rt ln rt ln y t ln rt

19,000 145,986 17,779


det 145,986 1121,937 135,657 18,776 >> 0 keine grav. Multikoll.

17,779 135,657 23,963

Determinante der Korrelationsmarix R

0,689
1
2
R det

0
,
689
0,5253 >> 0 keine grav. Multikollinearitt

1
0,689
Verfahren der Hilfsregressionen
In dem Verfahren der Hilfsregressionen ist allein eine Regression durchzufhren, da es im Hinblick auf die Bestimmtheit gleichgltig ist, ob ln y auf ln r oder
ln r auf ln y regressiert wird.
^

Hilfsregression: ln y 7,804 0,129 ln r ,

R2 = 0,475

- F-Test
Prfgre (n=19, k=3):

F2

R 22 k 2

1 R 22 n k 1

0,475 /(3 2)
0,475

15,381
(1 0,475) /(19 3 1) 0,923 / 17

Kritischer Wert (=0,05): F1;17;0,95 = 4,45


Testentscheidung:
F2 = 15,381 < F1;18;0,95 =4,45 Signifikanter statistischer linearer
Zusammenhang zwischen x2 und x3

Hinweis auf Multikollinearitt

- Toleranzkoeffizient und Varianzinflationsfaktor


Toleranzkoeffizient:
tol2 = 1 R2 = 1 0,475 = 0,525 > 0,10 keine grav. Multikollinearitt
Varianzinflationsfaktor:

VIF2

1
1

1,904
tol2 0,525

Im Vergleich zur Situation unkorrelierter Regressoren wird die Varianz des


OLS-Schtzers 2 (und damit auch die des OLS-Schtzers 3 ) durch die
schwache lineare statistische Abhngigkeit zwischen x2 und x3 um den
Faktor 1,904 inflationiert. Dieser Effekt einer Erhhung der Przision der
der Schtzung ist in Kauf zu nehmen, wenn das Vorhandensein von Multikollinearitt vernachlssigt wird.

4.4 berwindung von Multikollinearitt


Whrend das Multikollinearittsproblem fr Prognosezwecke nicht strend zu sein
braucht, da hier auf den Gesamteffekt der erklrenden Variablen auf die zu prognostizierende Variable abgestellt wird, ist es bei konometrischen Strukturanalysen hufig wnschenswert, sie auszuschalten oder zumindest zu vermindern.
Verfahren zur berwindung von Multikollinearitt
Erweiterung der Datenbasis
Bei einer Erweiterung der Datenbasis ist eine grere Variationsbreite der Daten
zu erwarten, was tendenziell mit einer Verminderung der Multikollinearitt einhergeht.
Querschnittsdaten:
Erhhung des Stichprobenumfangs evtl. bei Querschnittseinheiten wie Konsumenten, Haushalte, Unternehmen mglich, nicht jedoch bei rumlichen Einheiten wie
regionalen Arbeitsmrkten oder administrativen Regionen.
Zeitreihendaten:
Die Einbeziehung weiter zurck liegender vergangener Daten bringt die Gefahr
eines Strukturbruchs mit sich.
Paneldaten:
Durch die Kombination von Querschnitts- mit Zeitreihendaten wird die Variationsbreite der Daten hufig deutlich vergrert, wodurch das Multikollinearittsproplem erheblich entschrft werden kann.

Externe Informationen
Angenommen, es wird die Nachfrage nach einer Gtergruppe in Abhngigkeit vom
Einkommen und dem Preisniveau unter Verwendung von Zeitreihendaten konometrisch untersucht. Da das Einkommen hufig mit dem Preisniveau korreliert sein
wird, ist mit Multikollinearitt zu rechnen. Wenn nun die Grenordnung des Einflusses des Einkommens auf die Nachfrage der Gtergruppe z.B. aus einer Quer
schnittserhebung bekannt ist, knnte auf diese externe Information zurckgegriffen werden, um konometrisch den separaten Einfluss des Preises auf die Nachfrage zu schtzen.
Problematik:
Im Rahmen der Zeitreihenanalyse knnte ein langfristiger Reaktionskoeffizient
des Einkommens auf die Nachfrage gesucht sein, obwohl aus der Querschnittsanalyse nur ein kurzfristiger Reaktionskoeffizient bestimmbar ist.
Verfahren der Variablenunterdrckung
Wenn z.B. zwei Variablen hoch korreliert sind, erfasst eine der beiden Variablen
zugleich den grten Teil des Einflusses der anderen Variablen, so dass der Erklrungsgehalt" bei der Unterdrckung einer Variablen im Groen und Ganzen erhalten bleibt. Die Multikollinearitt wird dadurch nicht nur vermindert, sondern sogar
vllig ausgeschaltet.
Problematik:
Fehlspezifikation der Regressionsgleichung (Strvariable fngt die Systematik auf)

Verfahren der Differenzbildung


Beim Verfahren der Differenzbildung wird davon ausgegangen, dass die Multikollinearitt in konometrischen Modellen durch einen Trend in den exogenen Variablen auftritt. Wenn man nherungsweise einen linearen Trend unterstellen kann,
ist seine Ausschaltung durch eine einfache Differenzenbildung gegeben. Bei zwei
exogenen Variablen (ohne Scheinvariable) lautet die Regressionsgleichung fr
die Periode t

y t 1 2 x 2t 3 x 3t u t
Subtrahiert man hiervon die Regressionsgleichung fr die Vorperiode t-1,

y t 1 1 2 x 2,t 1 3 x 3,t 1 u t 1
so erhlt man das Regressionsmodell

(4.13) y t 2 x 2t 3x 3t u t
wobei z.B. yt = yt yt-1 bedeutet. In dem Mae, wie es gelingt, den Trend aus
den exogenen Variablen x2 und x3 auszuschalten, vermindert sich die Multikollinearitt gegenber dem ursprnglichen Modell mit den Niveauvariablen.
Problematik:
- Verringerung des Streubereichs der Regressoren durch Differenzenbildung;
- Autokorrelation der Strvariablen

Hauptkomponentenregression (principal component regression)


Die Hauptkomponentenregression ist ein multivariates Verfahren, das auf der
Hauptkomponentenanalyse basiert. Mit der Hauptkomponentenanalyse werden
die exogenen Variablen eines Regressionsmodells in unkorrelierter knstliche
Variablen (=Hauptkomponenten) transformiert. Die Hauptkomponenten ergeben
sich durch Linearkombinationen der Regressoren. Hufig erklren einige wenige
Hauptkomponenten den grten Teil der Varianz der Regressoren.
Setzt man diese unkorrelierten Hauptkomponenten anstelle der beobachtbaren
exogenen Variablen in die Regressionsgleichung ein, lassen sich die ihnen zugehrigen Regressionskoeffizienten trennscharf schtzen. Falls die Hauptkomponenten konomisch interpretierbar sind, kann sich der konom genau fr dieReaktionkoeffizienten interessieren. Im Allgemeinen ist das Interesse jedoch
weiterhin auf die Wirkungen der originren Variablen ausgerichtet. In diesem
Fall mssen die geschtzten Regressionskoeffizienten der Hauptkomponenten
rcktransformiert werden.

Problematik:
- Die geschtzten Reressionskoeffizienten werden durch die Anzahl der verwendeten Hauptkomponenten beeinflusst.
- Die Rcktransformation ist mit einem Gewichtungsproblem verbunden, das sich
ebenfalls in den geschtzten Regressionskoeffizienten widerspiegelt.