Sie sind auf Seite 1von 12

Test gleicher Mittelwerte zweier unabhängiger normalverteilten ZV

X-Y
Fall 1 : Varianzen bekannt (doppelter Gauss - Test) : T(X, Y) = n1 ⋅ n 2
n 1σ X2 + n 2σ Y2
(n 1 − 1) S X2 + (n 2 − 1) S Y2 X-Y n1 ⋅ n 2
Fall 2 : Varianzen unbekannt, aber gleich (doppelter T - Test) : S 2 = ,T (X ,Y ) =
n1 + n 2 − 2 S n1 + n 2
X - Y - H0
Fall 3 : Varianzen unbekannt und ungleich (Welch - Test) : T(X, Y) =
S 2X S 2Y
+
n1 n 2
Schätzer - Wert unter Nullhypothese Y − µ Y , 0
t= =
Standardfehler des Schätzer SY
n
Testen einzelner Regressionskoeffizienten
βˆ1 − β1,0 σβ
t= für σˆ βˆ = (ist Teil des Regressionsoutputs)
1

σˆ βˆ
1
1
n Falls x ~ N(mu,sigma^2)
2 t-Verteilung mit n-1
s 2k s g 1 1 (n k − 1) s k2 + (n g − 1) s g2 Freiheitsgraden
SE = + = sp + für s p =
nk ng nk n g nk + n g − 2
Sandwich ist ein heteroskedastisch - robuster Test auf Standardfehler

1 n
1
Unabhängigkeit : P( A ∩ B) = P( A) P( B); Var ( y) = ∑ var( y ) (wenn noch alle gleiche Varianz) = n var( y ); Cov( X , Y ) = 0
i i
n2 i =1

Rechenregeln : Regressiere a auf b


 a = b*x+u
var(A - B) = var(A) + Var(B)
∑ (x − x ) ⋅ xi =∑ ( xi − x )
2
E[X | X] = X i

E[X 2 | X] = X 2
Var ( X ) = E[( X − E[ x]) 2 ] = E ( x 2 ) − E ( x) 2
Zentraler Grenzwertsatz
Co var( x, x) = E ( x ⋅ x) − E ( x) 2 Gesetz der Grossen Zahl  bei grossem n
Cov( X , Y + Z ) = Cov( X , Y ) + Cov( X , Z )  Mittelwert wird zum konvergiert Verteilung zur
Erwartungswert Normalverteilung
σ x, y
Korr =
σ xσ y
( A ⋅ B ) T = B T AT
Schätzung:
s X2 s2
var(Â) = var(x̂) + var(ŷ) = + Y Bedingte Erwartung :
n X nY
E(Y | X = x) = ∑ y P (Y = y | X = x )
Konfidenzintervall : i i

E (Y ) = E ( E (Y | X ) = E X ( EY | X (Y | X ))
(X - Y) ± t ⋅ Var ( Xˆ − Yˆ )

Stichprobe : Y − z ⋅
sY Formeln :
n E[(Y - E(Y))(Z - E(Z))]
Cor(X, Y) =
Konfidenzintervall für β : β ± Std .Error ⋅ z Var(Y) Var(Z)
99% − Konfidenzintervall (α = 1%) = 2.58 1 n
95% − Konfidenzintervall (α = 5%) = 1.96 Var ( x ) = s X2 = ∑ ( xi − x ) 2
n − 1 i =1
KQ bzw. OLS
n
KQ - Schätzer : Q( βˆ 0 , βˆ1 ) := ∑ uˆ i2 = ∑ ( y − βˆ0 − βˆ1 xi ) 2 → min!
i =1

βˆ0 = y − βˆ1 x

βˆ1 =
∑ ( x − x )( y − y ) = s
i i XY

∑ (x − x) i s 2 2
X

Eigenschaften :

∑ x uˆ = 0Gilt nur, wenn Modell eine Konstante enthält


i i

∑ uˆ = 0 
i

( A1) E (u i | X i ) = 0, mittlerer Effekt anderer Einflüsse ist 0; unsystematischer Einfluss ist null
( A2) x, y sind iid
(A3) x und u haben 4 Momente und viertes Moment ist endlich (keine Extremwerte)
⇒ Gelten diese 3 Annahmen gilt :
σ2
E[ βˆ ] = β 1 (Erwartungstreue) und Var( βˆ1 ) ≈ x 4
nσ x
Exakte Verteilung von βˆ ist kompliziert und hängt von Verteilung von (X, n) ab
1
P
βˆ1 → β1 (Konsistenz)
approximative Verteilung : Normalverteilung mit mu 0 und Var = 1, für grosse n darf βˆ1 ≈ N ( β 1 , Var ( βˆ1 ))
angenommen werden
2
Streuungszerlegung : TSS = ∑ ( y i − y ) 2 = ∑ ( yˆ i − yˆ ) + ∑ ( y i − yˆ i ) =
2

= Variation zum Mittelwert (ESS) + unerklärter Rest (RSS)


1 1 )
n
∑ yˆ i + ∑ u i = yˆ = y
n 23
1
=0

Zusammenfassung KQ :
KQ benötigt nur 3 Annahmen
Normalverteilung oder Homoskedastie von u werden nicht gebraucht. Feste Regressoren X auch nicht
Verteilung von βˆ - Schätzer unverzerrt, Varianz ist invers proportional zu n, konsistent, approx. normalverteilt
1

Heteroskedastie explizit erlaubt


t - Verteilung verschwindet für Normalverteilung (t - Verteilung) 2 = F − Verteilung )

Lineares Regressionssystem liegt auch dann vor, wenn X nichtlinear ist. Das Modell muss lediglich linear in den
Parameter sein (log(x), x 2 ). Zur Bestimmung der Änderung beim linearen Regressionsmodell muss man nach dem
∂E(score | income)
entsprechenden Merkmal ableiten : = β 1 + 2 β 2 income. Der entsprechende Test in R
∂ income
heisst Sandwich und lautet : H0 : µ Modell 1 = µ Modell 2 (T - oder F - Test). Problem dieses Modells ist die Interpretation
der Koeffizienten.

Def. Kausaler Effekt : Effekt in einem idealen randomisierten kontrollierten Experiment


→ zufällig implementiert E[u | x] = 0
OmittedVariableBiasführt zu Verzerrungen.Dieseergebensich fallsdie vergessene Variablez Einfluss
auf y hat und mit x korreliert.
Güte der Anpassung R 2 (nur wenn Modell eine Konstante enthält macht R eine Aussage) :
ESS RSS 2
R2 = = 1− , R sagt, welcher Anteil der Streuung in der Daten erklärt wird
TSS TSS
für lineare Einfachregression gilt : R 2 = [Cor ( x, y )]
2

n -1
Strafterm für R 2 : > 1 (immer), d.h. R 2 kann kleiner, gleich oder grösser als R 2 sein!
n - k -1
1 1 1
∑ ∑ ∑
2
Streuung von û = Standardfehler der Regression (SER) := (uˆ i − uˆ i ) 2 = uˆ i = uˆ i2
n-2 n-2 n − k −1
RMSE ohne - 2
Multiples lineares Regressionsmodell
Beim multiplen linearen Regressionsmodell gelten die Annahmen A1 - A3 und eine weitere zusätzliche Annahme A4 :
(A4) : Regressoren sind nicht linear abhängig (keine perfekte Multikollinearität). Die Kovar - Matrix hat vollen Rang (k
Multikollinearität tritt bei Dummy Variable Trap oder bei schlecht definierten Indikatorvariablen auf
F - Test
2 2
1 t1 + t 2 − 2 ρˆ t1 ,t2 t1t 2
F= ( )
2 1 − ρˆ t2 ,t
1 2

Bei nur einer zu testenden Hypothese ist die F - Statistik = (t - Statistik) 2


X t2
approx. Verteilung von F ~ bzw. q ⋅ F ~ X t2
q
Ist ein Faktor nicht signifikant heisst dies lediglich, dass er für die Beschreibung der linearen Regression nicht benötigt w
Es heisst aber nicht, dass er keinen Einfluss auf y hat!
Unter Homoskedastie
unter H0 = restringiert, unter H1 = unregstringiert
(RSS R − RSSU ) ( RU2 − RR2 ) / q
F= = für q = Anzahl Restriktionen
RSSU /( n − kU − 1) (1 − RUR ) /(n − kU − 1)
k U = Anzahl der echten Regressoren im unrestringierten Modell
RSS R > RSS U gilt immer, da RSS U mehr erklärende Variablen besitzt
H0 wird abgelehnt, falls Hinzunehmen der q Variablen das R 2 deutlich erhöht
ℵ2t
Sind die Fehlerterme homoskedastisch, so die approx. Verteilung wieder F ~ bzw. q ⋅ F ~ ℵ2t
q
Gelten zusätzlich neben A1 - A4 noch : u i homoskedastisch und normalverteilt, dann hat Homoskedastie Version eine
exakte F - Verteilung
Umgehung F - Test (testen von nur 2 Regressoren)
y i = β 0 + β 1 X i1 + β 2 X i 2 + u i
y i = β 0 + ( β1 − β 2 ) X i1 + β 2 ( X i1 + X i 2 ) + u i
1424 3 1424 3
γ Z

y i = β 0 + γX i1 + β 2 Z i + u i → einfacher T - Test
Konfidenzbereich beim F - Test wird zu einer Ellipse :
1
F=
ˆ 2
2(1 − ρ t ,t )
[
t12 + t 22 − 2 ρˆ t2 ,t t1t 2
1 2
]
1 2
R 2 und R 2

n − 1 RSS n −1
R2 = 1− ⋅ = 1− ⋅ (1 − R 2 )
n − k − 1 TSS n − k −1
n − k −1
R2 = 1− ⋅ (1 − R 2 )
n −1

Grosses R 2 und R 2 bedeutet ..


..., dass die Regressoren die Variaton in den Daten gut beschreiben
...nicht, dass Verzerrung durch vergessene Variablen ausgeschlossen sind
...nicht, dass alle Regressoren statistisch signifikant sind
... nicht, dass Regressoren kausal sind für y
... nicht, dass wir die besten Regressoren gefunden haben

Lin -Log-Modell
I.) y i = β 0 + β1 log( xi ) + u i
II.) y i + ∆y i = β 0 + β1 (log( xi + ∆xi )) + u i
∆y
II.) - I.) ∆y i = β 1 (log( xi + ∆xi ) − log( xi )) → β 1 ≈ ; ∆x / x = relative Änderung; ∆y = absolute Änderung
∆x / x
Log-Lin -Modell
I.) log(y i ) = β 0 + β 1 xi + u i
II.) log(y i + ∆y i ) = β 0 + β1 ( xi + ∆xi ) + u i
∆y / y
II.) - I.) log(∆y i ) = β1 (∆xi ) → β 1 ≈ ; ∆y / y = relative Änderung; ∆x = absolute Änderung
∆x
Log - Log - Modell
∆y / y
log(∆y i ) = β 1 log(∆xi ) → β 1 ≈ ; Elastizität
∆x / x
Fazit : 3 Fälle, Interpretation der Koeffzienten unterschiedlich; Hypothesentests über Polynomengrad mit t - und F - Tests
(Waldtest); Wahl des Modells : Plotten der Daten, t - und F - Tests, inhaltliche Aspekte;
ACHTUNG : R 2
und R 2 sind nur vergleichbar für Modelle mit der
GLEICHEN LINKEN SEITE! Zudem ist R 2 ungeeignet für den Vergleich von
Modellen mit unterschiedlicher Anzahl Parameter.

Nicht lineare Modelle


Nicht lineare Modelle (nicht linear in den Parameter) werden numerisch gelöst. Dabei müssen Startwerte vorgegeben
werden und können je nach dem zu unterschiedlichen Lösungen führen.
Binäre Regressoren
→ qualitative Merkmale/Variablen = Faktoren → y i = β 0 + β 1 Di1 + β 2 Di 2 + u i
Wahl der Referenzkategorie; Vermeidung von Dummy Variable Trap bzw. Multikollinearität

Regressoren mit Interaktionen : Zwei binäre Regressoren


∂E(y i | ...)
könnte von x i abhängen!
∂x1
Neuer Regressor Di1 Di 2 = Interaktionsterm → 2 binäre Regressoren
y i = β 0 + β 1 Di1 + β 2 Di 2 + β 3 Di1 Di 2 + u i
E ( y i | Di1 = 1, Di 2 = d 2 ) − E ( yi | Di1 = 0, Di 2 = d 2 ) = β 1 + β 3 Di 2 → Änderung von D1 hängt auch von D 2 ab!

Interaktion zwischen metrischen und binären Regressoren (Slope Dummy)


y i = β 0 + β 1 D1 + β 2 X i + β 3 D1 X i + u i
∂E(y i | Di , X i )
= β 2 + β 3 Di
∂x1

Interaktion zwischen zwei metrischen Variablen


y i = β 0 + β 1 X i1 + β 2 X i 2 + β 3 X i1 X i 2 + u i
∂E(y i | X i1 , X i 2 )
= β1 + β 3 X i 2
∂x1
t - Test ob : β 1 = 0 oder β 3 = 0
F - Test ob β 1 = β 3 = 0
Hohe Korrelation führt zu nicht - Ablehung des t - Tets aber zu Ablehung des F - Tests → hohe Korrelation
Matrixschreibweise
T
X 1 = 1 x11 x12 x1k
y = Xβ + u
OLS : (Y − Xβˆ ) T (Y − Xβˆ ) → min! β
∂Q
= −2 X T (Y − Xβˆ ) = 0
∂β
X T Xβˆ = X T Y → βˆ = ( X T X ) −1 X T Y

 E ( AY + b) = AE (Y ) + b 
 T 
Cov( AY + b, BY ) = ACov(Y ) B 
Cov( AY , AY ) = ACov(Y ) AT 
 
Cov(Y ) = E (YY T ) − E (Y ) E (Y ) T 
 
( AB)' = B' A' 
[( A' A) −1 ]' = [( A' A)' ] −1 = [ A' A]−1 
 

Beweis der Erwartungstreue des Schätzers erfolgt über den Satz des iterierten Erwartungswerts :
E[X T X ) −1 X T Y ] = E X EU | X [( X T X ) −1 X T Y | X ] = E X [( X T X ) −1 X T EU | X (Y | X )] =
= E X [( X T X ) −1 X T EU | X ( Xβ + u | x)] = E X [( X T X ) −1 X T X β + ( X T X ) −1 X T EU | X (U | X )] = β
144244 3 14444244443
=I =0

Zugrundeliegende Annahmen :
A1 : x ist nicht zufällig, nur u A2 : E(u) = 0, Störgrössen sind unsystematisch A3 : y ist iid
2
A4 : X hat vollen Spaltenrang A5 : Cov(u) = σ I n homoskedastisch A6 : u ~ N(0, σ 2 I n )
A1 - A4 sorgen für Erwartungstreue
Satz von Gauss - Markov
(A1 - A3) sagen nichts über die Verteilung von u aus → Heteroskedastie erlaubt
Zusätzliche Annahme : u homoskedastisch → GM zeigt, dass KQ Optimalitätseigenschaften besitzt.

Satz GM :
1. E(u i | X 1 ... X n ) = 0
2
2. Var(u i | X 1 ... X n ) = σ u
3. E(u i u j | x1 ...x n ) = 0
~
Var( βˆi | X 1 ... X n ) ≤ Var ( β j | X 1 ... X n ) OLS = BLUE (Best linear unbiased estimator)

Linear heisst : β~ = ∑ a y1 i i

unverzerrt? → E(β~ ) = β
!
Ist OLS (bedingt) 1 1

Fazit : GM liefert theoretische Rechtfertigung für OLS : unter Homoskedastie effizient


Effizientere Schätzer gibt es zwar, die sind aber entweder nicht linear und/oder nicht erwartungstreu
Ohne Homoskedastie ist OLS erwartungstreu aber NICHT effizient

Verallgemeinerter KQ - Schätzer erlaubt Heteroskedastie. Das grosse Problem ist aber die unbekannte
Kovarianz → Schätzung. Z.B. Weighted least squares
Problem der WLS : Heteroskedastie Form unbekannt!
→ Lösung : estimated oder feasible least square
Jedoch auch ELS bzw. FLS erkennen die Form der Varianz nicht.

Matrizen-Hypothesentests
 β1 
 
 . 
allg. lineare Hypothese : R ⋅ β = r für β =  
.
 
β 
 n
Bsp. H0 : β i = β j
R = (0 1 0 - 1) r = (0)
oder Ho : β 1 = 0 βj = 0
1 0  0
R =   r =  
 0 1   0
Probleme bei der Durchführung linearen Regressionen
Interne Validität :
1.) Verzerrung durch vergessene Vairablen (omitted variable bias) → Paneldaten oder IV nutzen
2.) Falsche funktionale Form → kubisch, Logit/Probit
3.) Fehler in den Variablen → IV
4.) Verzerrung durch Selektion (Verfügbarkeit der Daten beschränkt) → randomisierte Zufallsexp., IV
5.) Verzerrung durch Simultanität → IV
1 - 5 verstossen gegen E(u i | X 1 ... X n ) ≠ 0

Externe Validität : Gelten die Erkenntnisse allgemein?

Bestimmung der Dichtefunktion


b
f(x) ≥ 0 und F(x) = ∫ f(x) dx = 1
a

P( x) = F ( X )
b
E ( X ) = x ⋅ ∫ f(x) dx
a
b
Var ( x) = ∫ (x - E(x)) 2 ⋅ f(x) dx
a

Kostante Skalenerträge
Q = f(K, L) - - > t S Q = f (t ⋅ K , t ⋅ L) für S = 1
Zudem β 1 + β 2 + β 3 + β 4 = 1 und Log zur Hilfe nehmen

Verteilungsannahmen :
t - Test ist unter H 0 approx. N( µ , σ ) verteilt
2
F - Test ist unter H 0 Chi verteilt.

Zugrunde liegendes Modell:


y = β 0 + β1 X i + u i

Regressionsgerade: y = βˆ 0
+ βˆ1 X i
Regression mit Paneldaten
Problem der Regression : Verzerrung durch vergessene Variablen
Trick : Ist die Variable über die Zeit konstant, so kann sie nicht für die Änderung von y verantwortlich sein!

Anname : E(u ij | X i1 ,..., X iT , Z ) = 0

Für jeden Zeitpunkt wird eine Dummyvariable verwendet, welche über die Zeit fix ist (n - 1 Dummies)

Fixed Effect Ansatz : Feste Effekte bezgl. Individuen/Objekten


Def.:Die Merkmale unterscheiden sich zwischen den Objekten, sind jedoch konstant über die Zeit. Bei Paneldaten
können diese festen Effekten durch " Zentrierung" eliminiert werden (Durchschnitt über die Zeit).
I.) y it = β 0 + β 1 X it + β 2 Z i (= α ) = α i + β 1 X it + u it 
II :) y = β + β X + γ D 2 + γ D3 + ... + γ DN + u 
 it '0 1 it 2 i 3 i n i i

Within - Transformation
1
y i =α i + β 1 X i + u i yi =
T
∑ yit
y it − y i = β 1 ( X it − X i ) + (u it − u i ) → Diese Schätzung ist identisch zur Dummyversion (II), auch in T = 2, wenn keine

Achsenabschnitte verwendet werden!

Variablen variieren über die Zeit, nicht aber über den Merkmalen (" Zentrierung über Objekte"): Between
I.) y it = β 0 + β 1 X it + β 2 S i (= λT ) = λT + β 1 X it + u it 
II :) y = β + β X + δ B 2 + δ B3 + ... + δ BT + u 
 it '0 1 it 2 i 3 i n T i

Zeit - & Individueneffekte:


FE: y it = β1 X it + λT +α i + u iT

Annahmen im Panel Modell / FE:


A1: E(u i | X 1i .. X iT ,α i ) = 0 A2: X i1 ... X iT , u i1 ...u iT sind iid → neu :Unabhängigkeit im Querschnitt

A3: X und u haben 4 Momente A4: Keine Multikollinearität


A5: Cov(u is , u iT | xi1 ...xiT ,α ) = 0 → keine Autokorrelation

F - Test um Testen ob Zeit - oder Objektvariablen die Regression verbessern

Fazit: + Kontrolliert unbeobachtbare Variablen, die über Staaten oder Zeit variieren; Einfache Erweiterung des OLS
- Variation in X über Zeit innerhalb Staaten wird benötigt; Behandlung dynamischer Effekte unklar; Standardfehler
eventuell falsch, da Korrelation über die Zeit nicht berücksichtigt wird
Regression einer binären abhängigen Variable (= y)
Lineare Wahrscheinlichkeitsmodell (LMP)
Yi = β 0 + β 1 X i + u i
{
0;1

Bernoulli bzw. Binomialverteilung (bei n > 1) : ∑ y i ~ Bin(n, p )


f(y, p) = p y (1 − p )1− y E(y) = p Var(y) = p(1 - p)

Eigenschaften LMP :
E(Yi | X i ) = β 0 + β 1 X i
yˆ i = prognostizierte Wahrscheinlichkeit dass y i = 1
∂E ( y i | X i )
= β 1 : Änderung der W' keit, dass y i = 1 bei Änderung in X i um 1
∂X i
P(y i = 1 | X ) = β 0 + β 1 X i

Fazit LMP : + einfaches Modell; Schätzung, Interpretation und Inferenz wie in OLS
- Linearität der W' keit, Prognostizierte W' keit kann < 0 oder > 1 werden
Probit Modell
0 ≤ P(y = 1 | X) ≤ 1
P(y = 1 | X) wächst in X i bei β 1 > 0
P(Yi = 1 | X ) = φ ( β 0 + β 1 X i ) φ = Standardnormalverteilung

Output in R muss zuerst angepasst werden, d.h. die Outputdaten sind z - Werte. Zum Vergleich, ob LMP, Probit
oderLogit gleich sind, müssen ∆X Differenzen gebildet werden und erst dann die W' keiten verglichen werden.
→ man vergleicht Prognosen
Logit Modell
logistische Verteilung als Alternative zur Standardnormalverteilung
1
F( β 0 + β 1 X ) = − ( β 0 + β1 X )
1+ e
Verteilung hat schwerere Ränder

Schätzung der Regressionskoeffizienten im Probit Modell


Es gibt keine geschlossene Formel → numerische Methode → Maximum Likelihood Methode (MLE)
f( y 1 ...... y n , p ) = ∏ p yi (1 − p )1− yi = p ∑ yi (1 − p )1− ∑ yi := L( P)
1424 3
Grundgesamtheit

ML : p̂ ML = arg max L(p)


P

Um die Schätzung zu vereinfachen wird Log - Likelihood angewendet :


Log(L(p)) = ∑ log(p) + (n - Σy i ) log(1 − p ) für l' (p) = 0 und l' ' (p) < 0 → p̂ = y

Fazit : Der Bernoulli/Binomial MLE misst en relativen Anteil der y = 1. Für n → ∞ gilt für MLE :
Konsistenz, Effizienz, Normalverteilung, Test über t - Statistik, (95% KI : y ± 1.96 ⋅ SE(y)
Vor - und Nachteile:
Lineares Wahrscheinlichkeitsmodell : Probit/Logit Modell
+ Interpretation wie bei LRM + 0 ≤ Wahrscheinlichkeit ≤ 1
+ Berechnung partiellen Effekten wie LRM - Interpretation
- Residuen sind immer heteroskedastisch - Berechnung partieller Effekten
- Werte können < 0 und > 1 werden - Prognoseberechnung komplizierter

Regresion mit Instrumentenvariablen


Mögliche Ursachen für E(u i | X i ) ≠ 0 : Verzerrung durch vergessene Variablen und/oder Simultanität

Idee : Kovarianz in 2 Teile zerlegen :


- ein Teil korreliert mit u i (beschädigt / endogen)
- ein Teil korreliert NICHT mit u i (unbeschädigt / exogen)
Der unkorrelierte Teil wird nochmals verwendet und erhält die Variable Z. 2 Bedingungen müssen für Z gelten :
- Relevanz : Cov(X, Z) ≠ 0
- Exogenität Cov(u, Z) = 0

IV Schätzung : erste Erklärung (Momentenmethode)


y i = β 0 + β1 X i + ui
Cov(Yi , Z i ) = Cov( β 0 + β 1 X i + u i , Z i ) = Cov( β 0 , Z z ) + Cov( β 1 X i , Z i ) + Cov(u i , Z i ) = β1Cov( X i , Z i )
14243 14243
=0 =0

Cov(Yi , Z i )
→ β1 =
Cov( X i , Z i )
S s
Ersetze Kovarianz durch Stichprobengrössen : βˆ1 = YZ = YZ
IV

S XZ s XZ

IVSchätzung zweite Erklärung : Two - Stage Least Squares (TSLS bzw. 2SLS)
1. Isoliere den Teil von X i , der nicht mit u i korreliert durch Regression von X i auf Z i :
X i = π 0 + π 1 Z i + vi
− Z i korreliert nicht mit u i → π 0 + π 1 Z i also auch nicht
− Schätzung der πˆ 0 und πˆ1
2. Ersetze nun X i durch X̂ i : y i = β 0 + β1 Xˆ i + u i

Mit X und einem Z gilt : βˆi = βˆi


IV TSLS

In grossen Stichproben ist IV / 2SLS approx. normalverteilt


Inferenz (Tests, KI) berechnet sich wie üblich

Problem : Standardabweichungen stimmen nicht mehr


IV in der linearen Mehrfachregression
y i = β 0 + β 1 X i1 +, , ,+ β k X iK + β k +1Wi1 +, , , , ,+ β K + RWiR + u i
X i endogene Regressoren
Wi exogene Regressoren

Ein Parameter heisst identifiziert, falls er sich aus gegebenen Daten konsistent schätzen lässt.
- Exakt definiert : m = k (für m = Anzahl Instrumente, k = Anzahl Regressoren)
- überidentifiziert : m > k (Gültigkeit der Instrumente messbar)
- unteridentifiziert m < k

Annahmen :
A1 : E(u i | Wi1 ...WiR ) = 0
A2 : y i , x, w, z sind iid
A3 : alle haben 4 Momente
A5 : Instrumente sind exogen und relevant

Test ob Instrumente relevant sind :


X i = π 0 + π 1 Z i1 +, , ,+π m Z iM + π M +1Wi1 +, , , ,+π m + RWiR + vi
Instrumente sind relevant, wenn mindestens ein πi i ≠ 0 ist
S YZ
Instrumente sind SCHWACH, wenn alle πi i ≈ 0 sind : βˆi
IV
= (Nenner ist klein, wenig Einfluss)
S XZ
→ F - Test : H0 : π 1 = .... = π m = 0 F < 10 = Instrumente sind schwach

Test auf Exogenität


Gilt nur, wenn m > k ist :
Exogenität heisst Unkorreliertheit mit u → J - Test : Schätzer 2SLS unter Verwendung verschiedener Instrumente.
Wenn Schätzungen sehr verschieden (H 0 wird abgelehnt), dann ist mindestens ein Instrument unbrauchbar!
P
2
J := m ⋅ F → X m-k

ACHTUNG : Freiheitsgrade (DF) = M - K. Beim Test in R sind die Freiheitsgrade falsch berechnet sowie
p - Value ist falsch. Korrektur über Freiheitsgrade anhand : (m - k) ⋅ F > X 2 (aus Tabelle)
H0 wird abgelehnt, falls mindestens ein Instrument nicht exogen ist. Problem : Test sagt nicht, welches Instrument!

Das könnte Ihnen auch gefallen