Beruflich Dokumente
Kultur Dokumente
X-Y
Fall 1 : Varianzen bekannt (doppelter Gauss - Test) : T(X, Y) = n1 ⋅ n 2
n 1σ X2 + n 2σ Y2
(n 1 − 1) S X2 + (n 2 − 1) S Y2 X-Y n1 ⋅ n 2
Fall 2 : Varianzen unbekannt, aber gleich (doppelter T - Test) : S 2 = ,T (X ,Y ) =
n1 + n 2 − 2 S n1 + n 2
X - Y - H0
Fall 3 : Varianzen unbekannt und ungleich (Welch - Test) : T(X, Y) =
S 2X S 2Y
+
n1 n 2
Schätzer - Wert unter Nullhypothese Y − µ Y , 0
t= =
Standardfehler des Schätzer SY
n
Testen einzelner Regressionskoeffizienten
βˆ1 − β1,0 σβ
t= für σˆ βˆ = (ist Teil des Regressionsoutputs)
1
σˆ βˆ
1
1
n Falls x ~ N(mu,sigma^2)
2 t-Verteilung mit n-1
s 2k s g 1 1 (n k − 1) s k2 + (n g − 1) s g2 Freiheitsgraden
SE = + = sp + für s p =
nk ng nk n g nk + n g − 2
Sandwich ist ein heteroskedastisch - robuster Test auf Standardfehler
1 n
1
Unabhängigkeit : P( A ∩ B) = P( A) P( B); Var ( y) = ∑ var( y ) (wenn noch alle gleiche Varianz) = n var( y ); Cov( X , Y ) = 0
i i
n2 i =1
E[X 2 | X] = X 2
Var ( X ) = E[( X − E[ x]) 2 ] = E ( x 2 ) − E ( x) 2
Zentraler Grenzwertsatz
Co var( x, x) = E ( x ⋅ x) − E ( x) 2 Gesetz der Grossen Zahl bei grossem n
Cov( X , Y + Z ) = Cov( X , Y ) + Cov( X , Z ) Mittelwert wird zum konvergiert Verteilung zur
Erwartungswert Normalverteilung
σ x, y
Korr =
σ xσ y
( A ⋅ B ) T = B T AT
Schätzung:
s X2 s2
var(Â) = var(x̂) + var(ŷ) = + Y Bedingte Erwartung :
n X nY
E(Y | X = x) = ∑ y P (Y = y | X = x )
Konfidenzintervall : i i
E (Y ) = E ( E (Y | X ) = E X ( EY | X (Y | X ))
(X - Y) ± t ⋅ Var ( Xˆ − Yˆ )
Stichprobe : Y − z ⋅
sY Formeln :
n E[(Y - E(Y))(Z - E(Z))]
Cor(X, Y) =
Konfidenzintervall für β : β ± Std .Error ⋅ z Var(Y) Var(Z)
99% − Konfidenzintervall (α = 1%) = 2.58 1 n
95% − Konfidenzintervall (α = 5%) = 1.96 Var ( x ) = s X2 = ∑ ( xi − x ) 2
n − 1 i =1
KQ bzw. OLS
n
KQ - Schätzer : Q( βˆ 0 , βˆ1 ) := ∑ uˆ i2 = ∑ ( y − βˆ0 − βˆ1 xi ) 2 → min!
i =1
βˆ0 = y − βˆ1 x
βˆ1 =
∑ ( x − x )( y − y ) = s
i i XY
∑ (x − x) i s 2 2
X
Eigenschaften :
( A1) E (u i | X i ) = 0, mittlerer Effekt anderer Einflüsse ist 0; unsystematischer Einfluss ist null
( A2) x, y sind iid
(A3) x und u haben 4 Momente und viertes Moment ist endlich (keine Extremwerte)
⇒ Gelten diese 3 Annahmen gilt :
σ2
E[ βˆ ] = β 1 (Erwartungstreue) und Var( βˆ1 ) ≈ x 4
nσ x
Exakte Verteilung von βˆ ist kompliziert und hängt von Verteilung von (X, n) ab
1
P
βˆ1 → β1 (Konsistenz)
approximative Verteilung : Normalverteilung mit mu 0 und Var = 1, für grosse n darf βˆ1 ≈ N ( β 1 , Var ( βˆ1 ))
angenommen werden
2
Streuungszerlegung : TSS = ∑ ( y i − y ) 2 = ∑ ( yˆ i − yˆ ) + ∑ ( y i − yˆ i ) =
2
Zusammenfassung KQ :
KQ benötigt nur 3 Annahmen
Normalverteilung oder Homoskedastie von u werden nicht gebraucht. Feste Regressoren X auch nicht
Verteilung von βˆ - Schätzer unverzerrt, Varianz ist invers proportional zu n, konsistent, approx. normalverteilt
1
Lineares Regressionssystem liegt auch dann vor, wenn X nichtlinear ist. Das Modell muss lediglich linear in den
Parameter sein (log(x), x 2 ). Zur Bestimmung der Änderung beim linearen Regressionsmodell muss man nach dem
∂E(score | income)
entsprechenden Merkmal ableiten : = β 1 + 2 β 2 income. Der entsprechende Test in R
∂ income
heisst Sandwich und lautet : H0 : µ Modell 1 = µ Modell 2 (T - oder F - Test). Problem dieses Modells ist die Interpretation
der Koeffizienten.
n -1
Strafterm für R 2 : > 1 (immer), d.h. R 2 kann kleiner, gleich oder grösser als R 2 sein!
n - k -1
1 1 1
∑ ∑ ∑
2
Streuung von û = Standardfehler der Regression (SER) := (uˆ i − uˆ i ) 2 = uˆ i = uˆ i2
n-2 n-2 n − k −1
RMSE ohne - 2
Multiples lineares Regressionsmodell
Beim multiplen linearen Regressionsmodell gelten die Annahmen A1 - A3 und eine weitere zusätzliche Annahme A4 :
(A4) : Regressoren sind nicht linear abhängig (keine perfekte Multikollinearität). Die Kovar - Matrix hat vollen Rang (k
Multikollinearität tritt bei Dummy Variable Trap oder bei schlecht definierten Indikatorvariablen auf
F - Test
2 2
1 t1 + t 2 − 2 ρˆ t1 ,t2 t1t 2
F= ( )
2 1 − ρˆ t2 ,t
1 2
y i = β 0 + γX i1 + β 2 Z i + u i → einfacher T - Test
Konfidenzbereich beim F - Test wird zu einer Ellipse :
1
F=
ˆ 2
2(1 − ρ t ,t )
[
t12 + t 22 − 2 ρˆ t2 ,t t1t 2
1 2
]
1 2
R 2 und R 2
n − 1 RSS n −1
R2 = 1− ⋅ = 1− ⋅ (1 − R 2 )
n − k − 1 TSS n − k −1
n − k −1
R2 = 1− ⋅ (1 − R 2 )
n −1
Lin -Log-Modell
I.) y i = β 0 + β1 log( xi ) + u i
II.) y i + ∆y i = β 0 + β1 (log( xi + ∆xi )) + u i
∆y
II.) - I.) ∆y i = β 1 (log( xi + ∆xi ) − log( xi )) → β 1 ≈ ; ∆x / x = relative Änderung; ∆y = absolute Änderung
∆x / x
Log-Lin -Modell
I.) log(y i ) = β 0 + β 1 xi + u i
II.) log(y i + ∆y i ) = β 0 + β1 ( xi + ∆xi ) + u i
∆y / y
II.) - I.) log(∆y i ) = β1 (∆xi ) → β 1 ≈ ; ∆y / y = relative Änderung; ∆x = absolute Änderung
∆x
Log - Log - Modell
∆y / y
log(∆y i ) = β 1 log(∆xi ) → β 1 ≈ ; Elastizität
∆x / x
Fazit : 3 Fälle, Interpretation der Koeffzienten unterschiedlich; Hypothesentests über Polynomengrad mit t - und F - Tests
(Waldtest); Wahl des Modells : Plotten der Daten, t - und F - Tests, inhaltliche Aspekte;
ACHTUNG : R 2
und R 2 sind nur vergleichbar für Modelle mit der
GLEICHEN LINKEN SEITE! Zudem ist R 2 ungeeignet für den Vergleich von
Modellen mit unterschiedlicher Anzahl Parameter.
E ( AY + b) = AE (Y ) + b
T
Cov( AY + b, BY ) = ACov(Y ) B
Cov( AY , AY ) = ACov(Y ) AT
Cov(Y ) = E (YY T ) − E (Y ) E (Y ) T
( AB)' = B' A'
[( A' A) −1 ]' = [( A' A)' ] −1 = [ A' A]−1
Beweis der Erwartungstreue des Schätzers erfolgt über den Satz des iterierten Erwartungswerts :
E[X T X ) −1 X T Y ] = E X EU | X [( X T X ) −1 X T Y | X ] = E X [( X T X ) −1 X T EU | X (Y | X )] =
= E X [( X T X ) −1 X T EU | X ( Xβ + u | x)] = E X [( X T X ) −1 X T X β + ( X T X ) −1 X T EU | X (U | X )] = β
144244 3 14444244443
=I =0
Zugrundeliegende Annahmen :
A1 : x ist nicht zufällig, nur u A2 : E(u) = 0, Störgrössen sind unsystematisch A3 : y ist iid
2
A4 : X hat vollen Spaltenrang A5 : Cov(u) = σ I n homoskedastisch A6 : u ~ N(0, σ 2 I n )
A1 - A4 sorgen für Erwartungstreue
Satz von Gauss - Markov
(A1 - A3) sagen nichts über die Verteilung von u aus → Heteroskedastie erlaubt
Zusätzliche Annahme : u homoskedastisch → GM zeigt, dass KQ Optimalitätseigenschaften besitzt.
Satz GM :
1. E(u i | X 1 ... X n ) = 0
2
2. Var(u i | X 1 ... X n ) = σ u
3. E(u i u j | x1 ...x n ) = 0
~
Var( βˆi | X 1 ... X n ) ≤ Var ( β j | X 1 ... X n ) OLS = BLUE (Best linear unbiased estimator)
Linear heisst : β~ = ∑ a y1 i i
unverzerrt? → E(β~ ) = β
!
Ist OLS (bedingt) 1 1
Verallgemeinerter KQ - Schätzer erlaubt Heteroskedastie. Das grosse Problem ist aber die unbekannte
Kovarianz → Schätzung. Z.B. Weighted least squares
Problem der WLS : Heteroskedastie Form unbekannt!
→ Lösung : estimated oder feasible least square
Jedoch auch ELS bzw. FLS erkennen die Form der Varianz nicht.
Matrizen-Hypothesentests
β1
.
allg. lineare Hypothese : R ⋅ β = r für β =
.
β
n
Bsp. H0 : β i = β j
R = (0 1 0 - 1) r = (0)
oder Ho : β 1 = 0 βj = 0
1 0 0
R = r =
0 1 0
Probleme bei der Durchführung linearen Regressionen
Interne Validität :
1.) Verzerrung durch vergessene Vairablen (omitted variable bias) → Paneldaten oder IV nutzen
2.) Falsche funktionale Form → kubisch, Logit/Probit
3.) Fehler in den Variablen → IV
4.) Verzerrung durch Selektion (Verfügbarkeit der Daten beschränkt) → randomisierte Zufallsexp., IV
5.) Verzerrung durch Simultanität → IV
1 - 5 verstossen gegen E(u i | X 1 ... X n ) ≠ 0
P( x) = F ( X )
b
E ( X ) = x ⋅ ∫ f(x) dx
a
b
Var ( x) = ∫ (x - E(x)) 2 ⋅ f(x) dx
a
Kostante Skalenerträge
Q = f(K, L) - - > t S Q = f (t ⋅ K , t ⋅ L) für S = 1
Zudem β 1 + β 2 + β 3 + β 4 = 1 und Log zur Hilfe nehmen
Verteilungsannahmen :
t - Test ist unter H 0 approx. N( µ , σ ) verteilt
2
F - Test ist unter H 0 Chi verteilt.
Regressionsgerade: y = βˆ 0
+ βˆ1 X i
Regression mit Paneldaten
Problem der Regression : Verzerrung durch vergessene Variablen
Trick : Ist die Variable über die Zeit konstant, so kann sie nicht für die Änderung von y verantwortlich sein!
Für jeden Zeitpunkt wird eine Dummyvariable verwendet, welche über die Zeit fix ist (n - 1 Dummies)
Within - Transformation
1
y i =α i + β 1 X i + u i yi =
T
∑ yit
y it − y i = β 1 ( X it − X i ) + (u it − u i ) → Diese Schätzung ist identisch zur Dummyversion (II), auch in T = 2, wenn keine
Variablen variieren über die Zeit, nicht aber über den Merkmalen (" Zentrierung über Objekte"): Between
I.) y it = β 0 + β 1 X it + β 2 S i (= λT ) = λT + β 1 X it + u it
II :) y = β + β X + δ B 2 + δ B3 + ... + δ BT + u
it '0 1 it 2 i 3 i n T i
Fazit: + Kontrolliert unbeobachtbare Variablen, die über Staaten oder Zeit variieren; Einfache Erweiterung des OLS
- Variation in X über Zeit innerhalb Staaten wird benötigt; Behandlung dynamischer Effekte unklar; Standardfehler
eventuell falsch, da Korrelation über die Zeit nicht berücksichtigt wird
Regression einer binären abhängigen Variable (= y)
Lineare Wahrscheinlichkeitsmodell (LMP)
Yi = β 0 + β 1 X i + u i
{
0;1
Eigenschaften LMP :
E(Yi | X i ) = β 0 + β 1 X i
yˆ i = prognostizierte Wahrscheinlichkeit dass y i = 1
∂E ( y i | X i )
= β 1 : Änderung der W' keit, dass y i = 1 bei Änderung in X i um 1
∂X i
P(y i = 1 | X ) = β 0 + β 1 X i
Fazit LMP : + einfaches Modell; Schätzung, Interpretation und Inferenz wie in OLS
- Linearität der W' keit, Prognostizierte W' keit kann < 0 oder > 1 werden
Probit Modell
0 ≤ P(y = 1 | X) ≤ 1
P(y = 1 | X) wächst in X i bei β 1 > 0
P(Yi = 1 | X ) = φ ( β 0 + β 1 X i ) φ = Standardnormalverteilung
Output in R muss zuerst angepasst werden, d.h. die Outputdaten sind z - Werte. Zum Vergleich, ob LMP, Probit
oderLogit gleich sind, müssen ∆X Differenzen gebildet werden und erst dann die W' keiten verglichen werden.
→ man vergleicht Prognosen
Logit Modell
logistische Verteilung als Alternative zur Standardnormalverteilung
1
F( β 0 + β 1 X ) = − ( β 0 + β1 X )
1+ e
Verteilung hat schwerere Ränder
Fazit : Der Bernoulli/Binomial MLE misst en relativen Anteil der y = 1. Für n → ∞ gilt für MLE :
Konsistenz, Effizienz, Normalverteilung, Test über t - Statistik, (95% KI : y ± 1.96 ⋅ SE(y)
Vor - und Nachteile:
Lineares Wahrscheinlichkeitsmodell : Probit/Logit Modell
+ Interpretation wie bei LRM + 0 ≤ Wahrscheinlichkeit ≤ 1
+ Berechnung partiellen Effekten wie LRM - Interpretation
- Residuen sind immer heteroskedastisch - Berechnung partieller Effekten
- Werte können < 0 und > 1 werden - Prognoseberechnung komplizierter
Cov(Yi , Z i )
→ β1 =
Cov( X i , Z i )
S s
Ersetze Kovarianz durch Stichprobengrössen : βˆ1 = YZ = YZ
IV
S XZ s XZ
IVSchätzung zweite Erklärung : Two - Stage Least Squares (TSLS bzw. 2SLS)
1. Isoliere den Teil von X i , der nicht mit u i korreliert durch Regression von X i auf Z i :
X i = π 0 + π 1 Z i + vi
− Z i korreliert nicht mit u i → π 0 + π 1 Z i also auch nicht
− Schätzung der πˆ 0 und πˆ1
2. Ersetze nun X i durch X̂ i : y i = β 0 + β1 Xˆ i + u i
Ein Parameter heisst identifiziert, falls er sich aus gegebenen Daten konsistent schätzen lässt.
- Exakt definiert : m = k (für m = Anzahl Instrumente, k = Anzahl Regressoren)
- überidentifiziert : m > k (Gültigkeit der Instrumente messbar)
- unteridentifiziert m < k
Annahmen :
A1 : E(u i | Wi1 ...WiR ) = 0
A2 : y i , x, w, z sind iid
A3 : alle haben 4 Momente
A5 : Instrumente sind exogen und relevant
ACHTUNG : Freiheitsgrade (DF) = M - K. Beim Test in R sind die Freiheitsgrade falsch berechnet sowie
p - Value ist falsch. Korrektur über Freiheitsgrade anhand : (m - k) ⋅ F > X 2 (aus Tabelle)
H0 wird abgelehnt, falls mindestens ein Instrument nicht exogen ist. Problem : Test sagt nicht, welches Instrument!